- PagerDuty /
- Blog /
- Non classé /
- Se tenir sur les épaules de géants et trébucher avec eux : les statistiques « douloureuses » de la panne d'Amazon AWS
Blog
Se tenir sur les épaules de géants et trébucher avec eux : les statistiques « douloureuses » de la panne d'Amazon AWS
Aujourd'hui, vers 1 h du matin, heure du Pacifique, Amazon a commencé à rencontrer des problèmes majeurs avec certaines de ses infrastructures cloud, notamment ses offres EC2, EBS et RDS. Ces problèmes persistent, et nombre de vos sites ou services internet préférés sont probablement encore hors service ou fonctionnent avec des fonctionnalités réduites.
Ce type de panne est l'un des grands « moments » de PagerDuty ; lorsqu'une grande partie des services sur Internet disent : « Hey PagerDuty, je suis en panne, alors réveille quelqu'un pour me réparer ! »
Ce problème a déjà fait l'objet de nombreuses publications, nous n'entrerons donc pas dans les détails de la situation AWS elle-même. Nous aimerions toutefois partager quelques statistiques sur les alertes que nous avons envoyées – par téléphone ou par SMS – pendant la panne. Nous pensons que ces chiffres pourraient nous éclairer sur la proportion d'Internet affectée par les problèmes. Nous ne présumons pas que nous sommes utilisés (pour l'instant !) par une proportion « énorme », « modérée » ou même « statistiquement significative » de sites web ou de fournisseurs SaaS, mais nous pensons que ces chiffres sont indéniablement intéressants et peuvent être considérés globalement comme une sorte d'indicateur de la douleur liée à cette panne d'AWS.
Depuis le début de la panne, nous avons acheminé des notifications à environ 36% de notre clientèle. Autrement dit, 36 % des clients de PagerDuty ont rencontré des problèmes – suffisamment importants pour appeler un de leurs administrateurs système ou ingénieurs afin qu'ils interviennent – depuis le début des problèmes AWS.
La plupart des comptes clients PagerDuty comptent plusieurs utilisateurs – administrateur système, ingénieur, responsable des opérations, etc. – impliqués dans leurs rotations d'astreinte. Nous avons paginé plus de 10% de l'ensemble de notre base d'utilisateurs. Autrement dit, plus de 10 % du personnel opérationnel de nos clients a été réveillé et/ou appelé par nos systèmes pour résoudre leurs problèmes. Ce n'est probablement que la partie émergée de l'iceberg, car nous ne traitons généralement que la première alerte ; ces problèmes AWS sont probablement à l'origine de nombreuses situations de « mise à contribution générale », où l'ensemble des équipes opérationnelles (et plus encore) sont appelées à intervenir après le réveil de l'astreinte par PagerDuty.
Vous trouverez ci-dessous un graphique illustrant le nombre d'alertes (téléphone, SMS et e-mail) que nous avons envoyées au cours des dernières 48 heures. Le nombre d'alertes sortantes a fortement augmenté au moment de la panne d'AWS, et les niveaux d'alerte sont restés élevés depuis.

Alertes téléphoniques/SMS/e-mail sortantes PagerDuty en cas de panne d'AWS
Vous trouverez ci-dessous un graphique illustrant le nombre d'événements envoyés à PagerDuty par les systèmes de surveillance de nos clients, via notre API ou par e-mail. Nous n'envoyons pas d'alertes par téléphone/SMS/etc. pour chaque événement reçu par les systèmes de surveillance, mais nous les dédupliquons afin de ne pas submerger nos utilisateurs, déjà harcelés et perturbés. Comme vous pouvez le constater, nous avons été submergés par un nombre considérable d'événements dès le début de la panne, et le nombre d'événements entrants reste élevé.

Événements entrants PagerDuty pendant une panne AWS