Ihr nächster Vorfall hat bereits begonnen. Sie haben es nur noch nicht bemerkt.
Die Auswirkungen eines Vorfalls lassen sich am besten minimieren, indem man ihn frühzeitig erkennt, bevor kleine Probleme zu größeren Störungen führen. Dies erfordert die Aufrechterhaltung leistungsfähiger Systeme und die Sicherstellung, dass bei Problemen ausreichend Ressourcen zur Verfügung stehen. Entwickler und IT-Betriebsexperten in großen Unternehmen stehen jedoch vor einer Herausforderung: Komplexe Systeme arbeiten in einem von Natur aus beeinträchtigten Zustand. In seinem Essay „ Wie komplexe Systeme versagen „Die Komplexität dieser Systeme macht es unmöglich, dass sie ohne das Vorhandensein mehrerer Fehler funktionieren“, schreibt Dr. Richard Cook.
Um die Widerstandsfähigkeit von IT-Teams zu stärken, müssen diese zunächst die verschiedenen Ausfallmechanismen komplexer Systeme verstehen. Anschließend müssen sie proaktiv gegen Ausfälle vorgehen, bevor diese zu schwerwiegenden Vorfällen führen.
Historisch gesehen war diese hohe Resilienz schwer zu erreichen. Systeme sind in der Regel zu groß und komplex, um jeden Aspekt proaktiv zu überwachen. Mit dem Aufkommen agentenbasierter KI verfügen CTOs und CIOs nun jedoch über ein leistungsstarkes Werkzeug, um dieses Ungleichgewicht zu überwinden.
Der perfekte Sturm: Wie kleine Veränderungen einen Vorfall auslösen können
Komplexe Systeme sind oft nur einen kleinen Zwischenfall von einem katastrophalen Ausfall entfernt. Cloudflare CIO Mike Hamilton, Vortrag bei PagerDuty on Tour , stellte fest, dass „die überwiegende Mehrheit der schwerwiegenden Vorfälle auf unserer Plattform mit der Einführung einer Änderung beginnt, die implementiert wurde.“
An sich sollte das Rückgängigmachen einer Änderung nicht schwierig sein. In einem komplexen System können jedoch technische Schulden, isolierte Arbeitsabläufe und mangelnde Transparenz hinsichtlich Abhängigkeiten einen kleinen Vorfall schnell zu einer Katastrophe ausweiten.
Zwei reale Vorfälle zeigen, wie leicht so etwas passieren kann.
Slack-Störung
Am 4. Januar 2021 verursachte ein kleineres Problem mit dem Netzwerk-Routing beim Cloud-Anbieter von Slack einen weit verbreiteten Paketverlust, wodurch die Kommunikation zwischen den Backend-Diensten gestört wurde.
Die automatischen Skalierungssysteme von Slack versuchten, neue Infrastruktur bereitzustellen, doch die Bereitstellung schlug aufgrund desselben zugrundeliegenden Netzwerkproblems fehl. Infolgedessen wurden funktionierende Dienste fälschlicherweise als fehlerhaft markiert, was zu einer Kettenreaktion von Neustarts und Dienstbeseitigungen führte.
Innerhalb weniger Minuten entwickelte sich aus einem kleinen Routing-Problem ein mehrstündiger Vorfall Dies hatte Auswirkungen auf Anmeldungen, Nachrichtenübermittlung und Datei-Uploads weltweit.
Fastly-Vorfall
Am 8. Juni 2021 wurde durch eine Konfigurationsänderung ein zuvor unentdeckter Fehler sichtbar. Softwarefehler in der Edge-Infrastruktur von Fastly was zu einer Ausfallzeit von fast einer Stunde führte.
Obwohl die interne Überwachung das Problem schnell erkannte, konnten automatische Ausfallsicherungen und Redundanzen die weitreichenden Auswirkungen nicht verhindern, und große Websites wie Amazon, Reddit und CNN waren nicht mehr erreichbar.
Sowohl bei Slack als auch bei Fastly kam es zu Vorfällen, die durch eine einzige Änderung ausgelöst wurden. In beiden Fällen machte die Komplexität es nahezu unmöglich vorherzusehen, wie sich diese Änderung auf das System auswirken würde.
Welche Folgen hat ein Scheitern?
Da soziale Medien als Signalverstärker wirken, kann der Reputationsschaden nach einem Vorfall weitreichend und gravierend sein. „Wenn die Technik versagt, geben Kunden nicht der Technik die Schuld, sondern Ihrer Marke.“ Anmerkungen von Jeff Hausman , Chief Product Development Officer von PagerDuty. Selbst ein kleiner Vorfall kann teure Langzeitfolgen haben.
Die Folgen treten innerhalb von Minuten ein, nicht Stunden. Doch die Kosten dieses Schadens sind enorm. Im Jahr 2024 Umfrage durchgeführt von Information Technology Intelligence Consulting 41 % der Unternehmen rechneten damit, dass ein schwerwiegender Vorfall sie Geld kosten würde. 1 bis 5 Millionen Dollar pro Stunde.
Wie Resilienz aufbauen und Ausfälle mithilfe agentenbasierter KI antizipieren
Agentenbasierte KI unterstützt die Behebung von Störungen auf verschiedene Weise. In gut verstandenen Fällen, in denen die Ursache der Störung bekannt ist, können KI-Agenten eine automatische Fehlerbehebung durchführen, die das Problem ohne Eingreifen des SRE behebt. Bei teilweise verstandenen Störungen können sie dem SRE ein Runbook vorschlagen und wertvolle historische Kontextinformationen liefern, die den Einsatzkräften bei der Entscheidungsfindung helfen.
Genauso wichtig ist, dass KI-gesteuerte Systeme Frühwarnsignale aufdecken können, die Menschen sonst nicht bemerken würden. Mithilfe von Erkenntnissen aus früheren Vorfällen stellt die KI proaktiv Zusammenhänge her, um bekannte Probleme zu erkennen, bevor sie zu einem Zwischenfall führen.
KI-Agenten sind permanent aktiv und analysieren ständig Daten. Sie erfassen Ihren gesamten Ereignisstrom und nutzen historische sowie aktuelle Daten, um Muster zu erkennen, bevor Menschen dies tun können. Mithilfe dieser Daten können sie Automatisierungsvorschläge unterbreiten und diese sogar im Auftrag des Einsatzpersonals ausführen.
Das Ergebnis ist, dass Fehlalarme, kurzzeitige Spitzen und andere Störungen herausgefiltert werden, der manuelle Aufwand reduziert wird und sich Experten auf die Vorfälle konzentrieren können, die ihr Fachwissen erfordern. In klar definierten Fällen kann ein proaktiver SRE Maßnahmen ergreifen, um das Problem einzudämmen, bevor es die Kundenzufriedenheit beeinträchtigt.
Experten stärken, Ihre Resilienz verbessern
Ihre Experten verfügen über fundiertes Wissen und ein ausgeprägtes Situationsbewusstsein, die sie zur idealen Besetzung für komplexe Aufgaben machen. Doch oft sind sie mit manuellen Tätigkeiten ausgelastet. KI-gestützte Prozesse helfen Teams, diese Hürde zu überwinden.
KI-gestützte Systeme unterstützen Teams bei der Bewältigung unvorhersehbarer Aufgaben, die durch immer komplexere Systeme entstehen. Dadurch wird weniger Zeit für den laufenden Betrieb und mehr Zeit für Innovationen aufgewendet. Das Ergebnis sind kompetente Experten, robuste Systeme und eine schnellere Wiederherstellung nach Störungen.
Erkunden PagerDutys KI für kritische Operationen um mehr zu erfahren.