Der Blog

Auf den Schultern von Giganten stehen und mit ihnen stolpern – die „schmerzhaften“ Statistiken zum Amazon AWS-Ausfall

von Johannes Laban 22. April 2011 | 3 Minuten Lesezeit

Heute, gegen 1 Uhr pazifischer Zeit, traten bei Amazon erhebliche Probleme mit einigen seiner Cloud-Infrastrukturen auf, insbesondere mit den EC2-, EBS- und RDS-Angeboten. Die Probleme bestehen weiterhin, und viele Ihrer bevorzugten Websites oder Dienste sind wahrscheinlich immer noch nicht erreichbar oder bieten nur eingeschränkte Funktionalität.

Diese Art von Ausfall ist einer der großen „Momente“ von PagerDuty; wenn ein großer Teil der Dienste im Internet sagt: „Hey PagerDuty, ich bin down, also weck jemanden auf, der mich repariert!“

Da es bereits zahlreiche Berichte zu diesem Thema gibt, gehen wir hier nicht näher auf die AWS-Situation selbst ein. Wir möchten jedoch einige Statistiken zu den Warnungen veröffentlichen, die wir während des Ausfalls – per Telefon oder SMS – verschickt haben. Wir glauben, dass diese Zahlen Aufschluss darüber geben könnten, welcher Anteil des Internets von den Problemen betroffen war. Wir gehen zwar nicht davon aus, dass wir (noch) von einem „großen“, „moderaten“ oder sogar „realistisch statistisch signifikanten“ Anteil von Websites oder SaaS-Anbietern genutzt werden, halten diese Zahlen aber für durchaus interessant und können insgesamt als eine Art Schmerzindikator für diesen AWS-Ausfall dienen.

Seit Beginn des Ausfalls haben wir Benachrichtigungen an etwa 36 % unseres Kundenstamms. Mit anderen Worten: 36 % der PagerDuty -Kunden hatten seit Beginn der AWS-Probleme Probleme – solche, die so groß waren, dass sie tatsächlich einen ihrer Systemadministratoren oder Techniker zur Problemlösung rufen mussten.

Die meisten PagerDuty Kundenkonten haben mehr als einen Benutzer – Systemadministrator, Ingenieur, „Ops-Mann“ usw. – in ihren Bereitschaftsrotationen. Wir haben mehr als 10 % unserer gesamten Benutzerbasis. Mit anderen Worten: Mehr als 10 % aller Betriebsmitarbeiter unserer Kunden wurden von unseren Systemen geweckt und/oder gerufen, um an ihren Problemen zu arbeiten. Dies ist wahrscheinlich nur die Spitze des Eisbergs, da wir normalerweise nur die erste Warnung bearbeiten. Diese AWS-Probleme führen wahrscheinlich zu vielen Situationen, in denen alle Mann an Deck sein müssen und das gesamte Betriebsteam (und mehr) zur Brandbekämpfung gerufen wird, nachdem der Bereitschaftsdienst von PagerDuty geweckt wurde.

Unten sehen Sie eine Grafik mit der Anzahl der Warnmeldungen – per Telefon, SMS und E-Mail –, die wir in den letzten 48 Stunden versendet haben. Zum Zeitpunkt des AWS-Ausfalls gab es einen starken Anstieg der ausgehenden Warnmeldungen, und die Warnstufen sind seitdem hoch geblieben.

PagerDuty ausgehende Telefon-/SMS-/E-Mail-Benachrichtigungen während eines AWS-Ausfalls

Unten sehen Sie eine Grafik mit der Anzahl der „Ereignisse“, die von den Überwachungssystemen unserer Kunden, über unsere API oder per E-Mail an PagerDuty gesendet werden. Wir versenden nicht für jedes „Ereignis“, das uns von Überwachungssystemen übermittelt wird, eine Benachrichtigung per Telefon, SMS oder Ähnlichem, sondern entfernen Duplikate, um unsere ohnehin schon gestressten und übermüdeten Nutzer nicht noch weiter zu überfordern. Wie Sie sehen, wurden wir zu Beginn des Ausfalls mit einer enormen Anzahl von Ereignissen überflutet, und die Zahl der eingehenden Ereignisse ist immer noch hoch.

Eingehende PagerDuty -Ereignisse während eines AWS-Ausfalls