Blog

Ausfallanalyse – 16. Januar 2014

von Tony Albanese 22. Januar 2014 | 1 Minute Lesezeit

Bei PagerDuty Transparenz bieten Wir bitten um Ihr Verständnis, falls es zu Ausfällen kommt, die PagerDuty -Kunden beeinträchtigen. Wir sind stolz auf die hohe Zuverlässigkeit von PagerDuty, aber gelegentlich kann es zu Störungen kommen. Wir empfehlen Ihnen, unserem Twitter-Account zu folgen. @PagerDutyOps , um über etwaige Ausfälle benachrichtigt zu werden.

Am 16. Januar um 7:40 Uhr PST kam es zu einer kurzen Verzögerung, die sechs Benachrichtigungen (3 E-Mails, 2 SMS und 1 Push-Benachrichtigung) auslöste. Ursache war ein seltener Race Condition, der dazu führte, dass einige Sperren nicht ordnungsgemäß aufgehoben wurden.

Dieser Zustand entstand durch unsere Bemühungen, Sperrungen und Workflow-Konflikte zu minimieren, um unsere Dienste skalierbar zu gestalten. Dies führte zu erhöhten Latenzzeiten in unseren Cassandra- und Zookeeper-Operationen.

Wir haben das Problem schnell identifiziert und behoben und anschließend Regressionstests durchgeführt. Während des Ausfalls gingen keine Warnmeldungen verloren. Allerdings wurden die sechs Warnmeldungen mit erheblicher Verzögerung übermittelt.

Wir möchten uns bei allen Betroffenen des Ausfalls entschuldigen. Wir bemühen uns, die Wahrscheinlichkeit solcher Fehler in Zukunft zu verringern.

Bei Fragen wenden Sie sich bitte an uns. support@pagerduty.com Die