Blog

Bilan de panne – 16 janvier 2014

par Tony Albanese 22 janvier 2014 | 1 min de lecture

Chez PagerDuty, nous offrir de la transparence de toute panne impactant négativement les clients de PagerDuty . Nous sommes fiers de la fiabilité exceptionnelle de PagerDuty, mais il peut arriver que nous rencontrions des problèmes. Nous vous recommandons de suivre notre compte Twitter dédié. @PagerDutyOps , pour être informé de toute panne qui se produit.

Le 16 janvier à 7h40 PST, un incident mineur a retardé six alertes (3 e-mails, 2 SMS et 1 notification push). Ce problème était dû à une situation de concurrence rare qui empêchait le déverrouillage correct d'un petit ensemble de verrous.

Cette situation est due à nos efforts pour minimiser les blocages et les conflits de flux de travail afin de garantir l'évolutivité de nos services. Cela a augmenté la latence de nos opérations Cassandra et Zookeeper.

Nous avons rapidement identifié et corrigé le problème, suivi de tests de régression. Aucune alerte n'a été perdue pendant la panne, même si les six alertes ont été considérablement retardées.

Nous tenons à présenter nos excuses aux personnes concernées par cette panne. Nous mettons tout en œuvre pour réduire le risque de telles erreurs à l'avenir.

Si vous avez des questions, veuillez contacter support@pagerduty.com .