- PagerDuty /
- Blog /
- Non classé /
- Seconde intercalaire UTC vs Derecho
Blog
Seconde intercalaire UTC vs Derecho
Chez PagerDuty, nous sommes généralement aux premières loges de tout problème lié à Internet. Le week-end dernier, un droit la tempête a emporté 7 % d'AWS et une seconde intercalaire ajoutée à UTC a provoqué les serveurs paniquent .
Comme nous l’avons mentionné dans notre dernier article, nous avons survécu les deux. Quelques personnes ont mentionné que mon graphique rendait la seconde intercalaire encore plus inégale :

Augmentation d'environ 20 fois du trafic en raison d'une panne AWS. (Le deuxième pic coïncide avec l'ajout d'une seconde intercalaire à l'UTC et n'est probablement pas lié).
Presque tout le monde chez PagerDuty est d'astreinte. J'ai la chance d'être suffisamment insignifiant pour n'être appelé qu'en cas de besoin, ce qui m'a épargné la seconde intercalaire ou la deuxième panne AWS mineure. De mon point de vue, la panne AWS était pire, mais d'après le graphique, il semble que la seconde intercalaire était pire, alors je suis tenté d'enquêter.
Les incidents sont un bon indicateur de l'ampleur des pannes sur Internet, mais ils ne constituent pas la meilleure mesure de la charge de notre système. Comme nous travaillons beaucoup au niveau des comptes (dédoublonnage et escalade), j'ai examiné combien de comptes effectuaient une action simultanément.
Ces courbes sont un peu moins abruptes, car elles incluent les accusés de réception et les résolutions. Un indice cependant : après avoir exécuté le premier graphique avec une résolution horaire et le second avec une résolution plus étroite, les courbes changent légèrement. J'ai donc réexécuté la première requête avec une granularité plus fine et inclus les différents types d'alertes :
Bingo ! Contre toute attente, le pic AWS a été plus rapide que la seconde intercalaire. Cela pourrait être logique si la seconde intercalaire avait touché des machines différentes alors qu'elles essayaient de planifier des événements futurs, alors que la panne AWS était inattendue.
Le pic AWS était 30 fois supérieur au trafic moyen au plus fort de la tempête, tandis que la panne d'écho AWS et la seconde intercalaire n'étaient respectivement que 21 et 18 fois plus élevées. Les moyennes sont inversées : la panne AWS était en moyenne 7 fois plus élevée sur 2 heures, mais le pic de la seconde intercalaire était 9 fois plus élevé. Il faut garder à l'esprit que la « moyenne » à laquelle je fais référence est celle du week-end en question, qui était loin d'être un week-end ordinaire.

