Der Blog

Mythos vs. Realität: Lehren aus der Zuverlässigkeit des Stromausfalls vom 19. Juli

von Paula Thrasher 10. September 2024 | 8 Minuten Lesezeit

Es war drei Uhr morgens am Newark Liberty International Airport. Ich war völlig benommen und wartete in der Schlange auf meine Bordkarte, doch am Check-in-Automaten erschien ein blauer Bildschirm. Ich brauchte dringend einen Kaffee und erfuhr, dass der Schalter nur Bargeld akzeptierte.

Es gab eindeutig einen großen Ausfall, und ich überprüfte schnell unsere Systeme bei PagerDuty. Größere Ausfälle passieren mehrmals im Jahr, so häufig, dass wir ein internes Dashboard haben (umgangssprachlich als „Das Internet ist kaputt“ bezeichnet). Tatsächlich zeigte das Diagramm, dass ich nicht der Einzige war, der an diesem Tag ein schlechtes Kundenerlebnis hatte. Und tatsächlich, ein kurzer Blick auf die PagerDuty -App auf meinem Handy zeigte, dass alle Systeme in Ordnung waren. Erleichtert trank ich weiter meinen Kaffee und las etwas.

Dann, wie es das Schicksal wollte, wurde die Person neben mir angepiept. Doch statt in Panik zu geraten, beruhigte mich der vertraute Benachrichtigungston von PagerDuty , dass unsere Plattform genau das tat, wofür sie entwickelt wurde: kritische Dienste am Laufen zu halten, wenn alles andere zusammenbrach.

Dieser Moment verdeutlichte eine wichtige Lektion für Führungskräfte. Als Führungskraft benötigen Sie ein System von Vorgehensweisen – eines, von dem Sie sicher sein können, dass es auch dann funktioniert, wenn Sie nicht erreichbar sind – beispielsweise in einem Flughafen ohne Kaffee –, um Ihren Kunden ein zuverlässiges Kundenerlebnis zu bieten. Wenn es um viel geht, kommt es nicht nur darauf an, ein System zu haben, sondern ein System von Systeme – ein integriertes Framework aus Technologien, Prozessen und Protokollen, das die Widerstandsfähigkeit gegenüber möglichen Ausfällen gewährleistet.

Es gibt ein weit verbreitetes Missverständnis über Zuverlässigkeit, das oft in Gesprächen mit Kunden und Kollegen auftaucht. Diese Vorstellung geht davon aus, dass Zuverlässigkeit eine einzigartige Eigenschaft ist oder durch einfache Redundanz erreicht werden kann. Manche denken vielleicht, dass allein ein Backup-Server oder eine redundante Cloud Zuverlässigkeit bedeutet, doch die Realität ist viel komplexer.

Mythos Nr. 1: Redundanz ist gleichbedeutend mit Zuverlässigkeit

Einer der hartnäckigsten Mythen über Zuverlässigkeit ist, dass man mit zwei von allem abgesichert ist. Diese vereinfachte Sichtweise sollte Ihr System mit zwei Cloud-Anbietern, zwei Servern oder zwei Datenbanken unschlagbar machen. Diese Denkweise ignoriert jedoch die Komplexität, die entsteht, wenn mehrere Systeme gleichzeitig zusammenarbeiten müssen.

Das Hinzufügen weiterer Komponenten macht Ihr System nicht unbedingt zuverlässiger. Im Gegenteil, es kann neue Fehlerquellen schaffen. Wenn zwischen zwei Systemen Abhängigkeiten bestehen, halbiert sich die Ausfallwahrscheinlichkeit nicht, sondern steigt. Hinzu kommt die Komplexität moderner vernetzter Systeme, und allein die Komplexität eines Systems kann zum größten Zuverlässigkeitsrisiko werden.

Mythos Nr. 2: Das einzige Ziel ist die Vermeidung von Fehlern

Ein weiterer weit verbreiteter Irrtum ist, dass der Schlüssel zur Zuverlässigkeit darin liegt, Ausfälle gänzlich zu vermeiden. Wenn Sie Ausfälle verhindern können, müssen Sie sich keine Sorgen über Ausfallzeiten machen, oder?

Leider ist kein System, egal wie gut es konzipiert ist, vor Ausfällen gefeit. Anstatt Systeme mit der unrealistischen Erwartung zu entwickeln, niemals auszufallen, entwickeln wir sie nach dem Prinzip „Ausfall annehmen“ und gehen mit Ausfällen verantwortungsvoll um. Dieser Ansatz beinhaltet die Implementierung von Sicherheitsvorkehrungen wie Fehlermaskierung, bei der fehlerhafte Komponenten isoliert werden und das Gesamtsystem nicht beeinträchtigen, und die Begrenzung der Auswirkungen, die die Auswirkungen von Ausfällen auf kleine, überschaubare Bereiche der Infrastruktur beschränken.

Ein gutes Beispiel für diesen Ansatz in der Praxis sind unsere „Failure Fridays“. Wir testen regelmäßig auf Fehlermodi, nicht nur in Staging-, sondern auch in Produktionsumgebungen. Wir simulieren verschiedene Fehlerszenarien, um die Widerstandsfähigkeit unserer Systeme unter realen Bedingungen sicherzustellen – von Serverabstürzen bis hin zu Netzwerkausfällen. Dank dieser Vorgehensweise konnten wir den Datenverkehrsanstieg am 19. Juli ohne größere Ausfälle problemlos bewältigen.

Mythos Nr. 3: Mehr Antwortende bedeuten eine schnellere Lösung

In Krisenzeiten glauben viele Organisationen, dass die Lösung eines Vorfalls umso schneller gelingt, je mehr Mitarbeiter sie in den Incident-Response-Prozess einbeziehen. Das ist eine logische Annahme: Mehr Köpfe bedeuten schnellere Problemlösung.

Die Realität sieht jedoch oft anders aus. Zu viele Einsatzkräfte können zu Verwirrung, Doppelarbeit und Kommunikationsengpässen führen. Bei PagerDuty haben wir gelernt, dass Automatisierung oft effektiver ist, um die Lösungszeiten zu verkürzen, als einfach mehr menschliche Einsatzkräfte einzusetzen.

Während des Ausfalls im Juli erzählte uns einer unserer Kunden eine Anekdote, die diesen Ansatz perfekt veranschaulichte. Sein Team hatte gerade mit der Implementierung von AIOps begonnen, als der Ausfall eintrat. Vor AIOps hatten sie mit einem überschaubaren Systemrauschen zu kämpfen, doch während des Ausfalls weitete sich dieses Rauschen zu einer überwältigenden Welle von Warnmeldungen aus. Durch die Automatisierung des Warnmanagements konnten sie jedoch schnell den Überblick behalten und die Ursache der Probleme identifizieren. So konnten sich ihre Mitarbeiter auf Vorfälle mit hoher Priorität konzentrieren und die Wiederherstellung kritischer Systeme sicherstellen.

Resilienz ist die Summe vieler Teile

Zuverlässigkeit ist kein einmaliger Erfolg, sondern ein fortlaufender Prozess. Deshalb haben wir in Automatisierung, KI-gestützte Erkenntnisse und kontinuierliche Tests investiert.

Unser Engagement und unsere Arbeit haben sich gelohnt. Unsere Plattform lieferte während der Ausfallspitze mehr als 60.000 Benachrichtigungen pro Minute und blieb dabei innerhalb unserer durchschnittlichen Benachrichtigungszeit von 15 Sekunden. Wir hielten unsere internen SLOs ein, und Kunden lösten Vorfälle trotz eines Anstiegs des Vorfallaufkommens um 192 % nur 29 % langsamer als an einem normalen Tag. Und für Responder, die für Mobilgeräte und Slack konfiguriert waren, erfolgten Benachrichtigungen in weniger als 500 Millisekunden – buchstäblich im Handumdrehen.

Quality Delivery Process - Avoid It, System Reliability Process - Mask It, Bound it, Incident Response Process - Fix it Fast

Was können Sie stattdessen bei der Systemgestaltung tun? Wir versuchen, bei der Systemgestaltung einem umfassenden Zuverlässigkeitsrahmen zu folgen. Das heißt, selbst wenn Sie sowohl in Ihrem Prozess- als auch in Ihrem Systemdesign viele andere Maßnahmen zur Fehlervermeidung getroffen haben, kommt es dennoch zu Fehlern. Wenn Sie also davon ausgehen, dass ein gewisses Maß an Fehlern unvermeidlich ist, können Sie andere Strategien zur Steigerung der Resilienz anwenden. Zum Beispiel können Sie Maske der Fehler. Beispiele für diese Strategie in der Praxis sind Cluster-Orchestrierung, automatisierte Failovers, Statusreplikation und Leader-Wahl. Bei PagerDuty setzen viele unserer Systeme diese Strategien ein, und wir testen und validieren sie in der Produktion mit regelmäßigen Failure-Anyday-Tests, um sicherzustellen, dass sie wie geplant funktionieren.

Manchmal ist das Maskieren von Fehlern nicht immer möglich oder deckt nicht alle Anwendungsfälle ab. Als Nächstes können Sie Folgendes tun: gebunden der Fehler. Der beste und einfachste Weg, dies zu beheben, sind Canaries und schrittweise Rollouts. Wir führen schrittweise Rollouts für alle Änderungen durch, egal ob Infrastruktur- oder Feature-Releases, und erhöhen den Datenverkehr schrittweise.

Wenn sich ein Fehler nicht vermeiden, maskieren oder begrenzen lässt, ist die schnelle Behebung das nächste Ziel. Hier kommt natürlich ein guter, reaktionsschneller Incident-Response-Prozess ins Spiel. Und das stimmt: Je schneller Sie Ihre Systeme wiederherstellen, desto schneller können Sie die Dienste für Ihre Kunden und Ihre Mission wiederherstellen. Ein weiterer Anwendungsfall sind schnelle Rollbacks, mit denen Sie Änderungen während eines Vorfalls schnell rückgängig machen können. Dies ist eine hervorragende Ergänzung zu Canaries. Ein typisches Beispiel: Jedes Team bei PagerDuty muss über einen Rollback-Mechanismus verfügen, der in weniger als fünf Minuten ausgeführt werden kann. Diese Art der Automatisierung hilft uns, schneller auf Vorfälle zu reagieren und die kritischen Systeme unserer Kunden am Laufen zu halten. Ich spreche auch oft darüber als einen wichtigen messbaren und leicht umsetzbaren ersten Schritt, den jedes Unternehmen unternehmen kann, um seine Zuverlässigkeit und Reaktionsfähigkeit mithilfe unserer Automatisierungstools zu verbessern: Lassen Sie jedes einzelne Team Änderungsereignisse, Canaries und schnelle Rollbacks implementieren. Während Ihres Incident-Response-Prozesses können Sie Ihre Einsatzleiter ermächtigen, ein Team-Rollback-Skript auszuführen, wenn der Vorfall durch eine kürzlich erfolgte Änderung verursacht zu sein scheint (korreliert mit unseren Änderungsereignissen). Durch die Verfügbarkeit dieser Tools können wir intern mindestens ein halbes Dutzend Vorfälle pro Jahr verhindern, die wir erfassen, eingrenzen, zurücksetzen und wiederherstellen können, bevor sie zu einem größeren Vorfall werden.

Die Erkenntnisse aus dem Ausfall vom 19. Juli bestätigen, dass wahre Zuverlässigkeit nicht von einzelnen Komponenten oder schnellen Lösungen abhängt. Es geht um den Aufbau eines robusten Systems, das Störungen in Kauf nimmt und sich schnell davon erholt. Wir unterstützen unsere Kunden dabei, dieses Maß an Resilienz zu erreichen, und sind überzeugt, dass jedes Unternehmen mit den richtigen Strategien, Tools und der richtigen Einstellung echte Betriebszuverlässigkeit erreichen kann – unabhängig von den zukünftigen Herausforderungen.

Möchten Sie mehr über die Vorbereitung auf Ausfälle erfahren? Sehen Sie sich dieses Webinar an: Lernen Sie aus Vorfällen, um auf den nächsten Ausfall vorbereitet zu sein .