PagerDuty
/
Blog
/
KI
/
Automatisieren oder optimieren? 5 Schritte zum Aufbau eines KI-gestützten Notfallplans

Blog

Automatisieren oder optimieren? 5 Schritte zum Aufbau eines KI-gestützten Notfallplans

von Marty Jackson 19. September 2025 | 7 Minuten Lesezeit

Moderne Entwicklungswerkzeuge, CI/CD-Infrastruktur und KI haben die Geschwindigkeit der Softwareveröffentlichungen von Unternehmen beschleunigt. Diese Geschwindigkeit fördert zwar Innovationen, erhöht aber auch die Komplexität und das Risiko von Fehlern, die nicht sofort erkennbar sind.

Teams verarbeiten heute mehr operative Daten, komplexe Fehlermuster und Systeme, in denen bereits eine kleine Konfigurationsänderung Auswirkungen auf Dutzende von Microservices haben kann. Gleichzeitig haben sich die Kundenerwartungen nicht geändert: Sie wollen zuverlässige Anwendungen und wechseln bei Problemen sofort zur Konkurrenz.

Das zunehmende Innovationstempo und die steigende Komplexität haben Störungen von technischen Unannehmlichkeiten zu ernsthaften Geschäftsbedrohungen gemacht, die Marken schädigen und das Wachstum hemmen. Die Risiken sind höher denn je, weshalb eine geeignete Strategie zur Reaktion auf Sicherheitsvorfälle unerlässlich ist. Hier kommen KI-gestützte Systeme ins Spiel. Durchdacht implementiert, übernehmen sie routinemäßige Aufgaben der Störungsbehebung und entlasten so die Entwickler, sodass diese sich komplexen Problemen widmen können, die menschliches Urteilsvermögen erfordern. Dieser Artikel zeigt Ihnen genau, wann Sie die Reaktion auf Sicherheitsvorfälle mit KI automatisieren, wann Sie menschliche Experten hinzuziehen und wie Sie Handlungsanweisungen erstellen, die eine effektive Zusammenarbeit beider Ansätze gewährleisten.

Wann man KI-Agenten zur Automatisierung einsetzen sollte: Menschen von sich wiederholenden Aufgaben befreien

KI-Agenten eignen sich besonders für wiederkehrende, gut verstandene und zeitaufwändige Aufgaben. Sie übernehmen diese Routinearbeiten, sodass sich Ingenieure auf Entscheidungen konzentrieren können, die menschliches Fachwissen erfordern. Im Folgenden werden die wichtigsten Bereiche aufgezeigt, in denen KI-Agenten bei der Reaktion auf Sicherheitsvorfälle den größten Mehrwert bieten.

Lärmreduzierung und Alarmpriorisierung

Benachrichtigungsmüdigkeit stellt ein großes Problem für Incident-Response-Teams dar. KI-Systeme können Tausende von Benachrichtigungen verarbeiten, sie mit bekannten Mustern abgleichen und nur die relevanten anzeigen. Das bedeutet weniger Informationsflut für die Entwicklerteams, reduziert Burnout und verbessert die Reaktionsqualität.

Erste Diagnostik und Datenerfassung

Bei einem Vorfall zählt jede Minute. KI-gestützte Systeme erfassen automatisch Protokolle, Leistungskennzahlen und Konfigurationsdaten und liefern so ein umfassendes Diagnosebild des Vorfalls. Dadurch entfällt die Zeit, die Ihre Mitarbeiter üblicherweise für die Kontextanalyse aufwenden müssen, und sie können direkt mit der Analyse beginnen.

Statuskommunikation und Dokumentation

Die Beteiligten benötigen während Vorfällen zeitnahe und präzise Informationen. KI-Systeme können mithilfe von Echtzeitdaten und historischem Kontext automatisch Management-relevante Zusammenfassungen und Dokumentationen nach dem Vorfall erstellen. So bleiben Führungskräfte informiert, ohne dass die Ingenieure von ihrer eigentlichen Arbeit abgezogen werden.

Indem KI-Agenten den Mitarbeitern Routineaufgaben abnehmen, sparen sie Zeit und stellen Ingenieure für die komplexeren und wirkungsvolleren Aspekte der Reaktion auf Sicherheitsvorfälle zur Verfügung.

Wann man die menschliche Urteilsfähigkeit in komplexen Situationen erhalten sollte

Während KI bei der Mustererkennung und Routineaufgaben hervorragende Leistungen erbringt, erfordern bestimmte Merkmale von Vorfällen menschliches Fachwissen und Urteilsvermögen. Zu wissen, wann Probleme eskaliert werden müssen, stellt sicher, dass Ihre komplexesten Probleme die angemessene Aufmerksamkeit erhalten. In der Praxis sind dies die Szenarien, in denen menschliches Urteilsvermögen weiterhin unerlässlich ist:

Neuartige oder sich entwickelnde Ereignisse

Wenn Vorfälle nicht den bisherigen Mustern entsprechen oder sich unerwartet weiterentwickeln, sind menschliche Kreativität und Problemlösungskompetenz erforderlich, um die Ursache zu ermitteln. Beispielsweise kann es für KI-Systeme schwierig sein, die richtige Reaktion zu finden, wenn ein Sicherheitsverstoß einen völlig neuen Angriffsvektor nutzt oder ein System auf eine Weise ausfällt, die keinem bekannten Fehlermodus entspricht.

Systemübergreifende Abhängigkeiten

Moderne Anwendungen fallen häufig aufgrund komplexer Wechselwirkungen zwischen verschiedenen Systemen, Anbietern und Diensten aus. Beispielsweise kann ein Ausfall im E-Commerce mit einer Verlangsamung des Zahlungsdienstleisters beginnen. Diese Verzögerung kann den Checkout-Service überlasten, wodurch die Datenbankverbindungen erschöpft werden und der Load Balancer schließlich den Datenverkehr falsch weiterleitet.

Mit MCP sind einige dieser systemübergreifenden Daten nun besser über verschiedene Tools zugänglich. Dadurch können KI-Agenten Informationen abrufen und potenzielle Fehlerquellen genauer als zuvor aufzeigen. Da die Behebung solcher Vorfälle jedoch die Koordination verschiedener Teams erfordert – interne Entwicklung, Support des Zahlungsanbieters und Infrastrukturanbieter –, eignen sich Agenten am besten, um Abhilfemaßnahmen vorzuschlagen oder die nächsten Schritte aufzuzeigen. Urteilsvermögen, Verhandlungsgeschick und strategisches Denken, die für eine erfolgreiche Lösung notwendig sind, bleiben weiterhin unerlässlich und erfordern menschliche Kompetenz.

Geschäftskritische und risikoreiche Situationen

Manche Vorfälle erfordern Entscheidungen, die über rein technische Aspekte hinausgehen, insbesondere wenn erhebliche Umsätze, die Einhaltung gesetzlicher Vorschriften, die Kundensicherheit oder der Ruf auf dem Spiel stehen. In solchen Situationen muss jemand strategische Entscheidungen hinsichtlich der Auswirkungen auf das Geschäft, der Kundenkommunikation und der Ressourcenverteilung treffen, die ein tiefes Verständnis des organisatorischen Kontextes voraussetzen.

Bei einem teilweisen Ausfall, von dem beispielsweise 20 % der Nutzer betroffen sind, muss ein Mensch entscheiden, ob das Problem sofort öffentlich kommuniziert werden soll, wie viele Details mitgeteilt werden sollen, ob Entwicklungsressourcen von einer wichtigen Produkteinführung umgeleitet werden sollen und welche Nutzersegmente zuerst wiederhergestellt werden sollen.

Wenn beispielsweise eine Finanzhandelsplattform während der Marktzeiten Latenzprobleme aufweist, ein Gesundheitssystem Schwierigkeiten beim Zugriff auf Patientendaten hat oder ein Flugreservierungssystem in Spitzenzeiten ausfällt, übersteigen die Kosten eines KI-Fehlers – sei es durch Fehldiagnosen, unangemessene Kommunikation oder verzögerte Eskalation – die Effizienzgewinne der Automatisierung bei Weitem. Solche Situationen erfordern menschliche Aufsicht, selbst in Szenarien, die KI theoretisch bewältigen könnte.

Erstellung von Einsatzplänen für KI-Agenten

KI-Systeme benötigen klare Anweisungen, eindeutige Entscheidungsbäume und klar definierte Übergabepunkte, um effektiv zu funktionieren. Beginnen Sie mit der Automatisierung von Vorfällen mit klaren, wiederholbaren Lösungspfaden. Sobald Sie Vertrauen in die Leistung Ihrer KI-Agenten gewinnen, können Sie schrittweise komplexere Szenarien einbeziehen. Dieser iterative Ansatz hilft Ihnen zu verstehen, was funktioniert, und gleichzeitig das Risiko zu minimieren. So erstellen Sie ein effektives Playbook für Ihre KI-Agenten:

1. Definieren Sie einen klaren Geltungsbereich und Auslöser.

Legen Sie genau fest, welche Arten von Vorfällen die KI automatisch bearbeiten und welche an Ihr Team eskalieren soll. Beispielsweise könnten Sie die KI so konfigurieren, dass sie „Datenbankverbindungsfehler, die weniger als 5 % der Benutzer während der Geschäftszeiten betreffen“, selbstständig bearbeitet, aber „jeden Vorfall, der die Zahlungsabwicklung beeinträchtigt“ oder „jede sicherheitsrelevante Warnung“ sofort eskaliert. Erstellen Sie detaillierte Kriterien basierend auf Schweregraden, betroffenen Systemen, Auswirkungen auf Kunden und Geschäftszeiten.

2. Eskalationswege einrichten

Definieren Sie klare Eskalationskriterien basierend auf Zeitschwellenwerten, dem Fortschritt der Problemlösung oder der Komplexität des Vorfalls. Beispiel: „Kann ein KI-Agent ein Datenbankverbindungsproblem nicht innerhalb von 10 Minuten beheben, eskalieren Sie den Fall an das Datenbankteam. Stimmen die CPU-Auslastungsmuster mit keinem bekannten Szenario überein, eskalieren Sie den Fall sofort.“

3. Dokumentieren Sie die Entscheidungslogik.

Anders als Menschen, die improvisieren können, benötigen KI-Systeme für jeden Entscheidungspunkt eine explizite Logik. Anstatt einfach nur „Starte den Dienst neu, falls Probleme auftreten“ zu schreiben, sollten nicht nur die auszuführenden Aktionen, sondern auch die spezifischen Bedingungen, die jede Aktion auslösen, dokumentiert werden. Dies schafft Konsistenz und ermöglicht es Teams, das KI-Verhalten anhand realer Vorfälle zu optimieren.

Zum Beispiel könnte man schreiben: „Wenn die Fehlerrate 3 Minuten lang 5 % überschreitet UND die Antwortzeit über 2 Sekunden liegt UND die CPU-Auslastung unter 50 % liegt, dann starte den Webdienst neu und überwache ihn 5 Minuten lang.“

4. Organisationswissen erfassen

Viele Incident-Responses basieren auf „informiertem Wissen“ – Dingen, die erfahrene Ingenieure zwar wissen, aber nie schriftlich festgehalten haben, weil „schon irgendjemand es wissen wird“. KI-Systeme verfügen nicht über diesen Kontext. Um sie effektiv einzusetzen, muss dieses institutionelle Wissen strukturiert dokumentiert und für die Systeme zugänglich gemacht werden. Dies kann gängige Workarounds, herstellerspezifische Besonderheiten oder bewährte Lösungen umfassen, an die sich Menschen normalerweise aus Erfahrung erinnern.

5. Planung der Übergabe zwischen Mensch und KI

Definieren Sie genau, welche Informationen KI-Agenten bei der Eskalation von Vorfällen an menschliche Mitarbeiter bereitstellen sollen. Ziel ist es, den Technikern den notwendigen Kontext zu liefern, ohne sie in stressigen Situationen mit unnötigen Details zu überfordern.

Eine gute Übergabe könnte so aussehen: „Datenbankverbindungsfehler traten ab 14:32 Uhr auf. Betroffen waren 3 % der Benutzer (ca. 450 Personen). Neustart des Verbindungspools um 14:35 Uhr versucht – keine Besserung. CPU-Auslastung: 45 %, Speicherauslastung: 67 %. Ein ähnlicher Vorfall am 15. März konnte durch Erhöhung des Verbindungstimeouts behoben werden.“

Konzentrieren Sie sich auf die wichtigsten Informationen: Was ist defekt? Wie viele Personen sind betroffen? Was wurde bereits versucht? Wie ist der aktuelle Systemzustand? Welcher historische Kontext ist relevant? Vermeiden Sie es, unformatierte Protokolle, ausführliche Zeitleisten oder Diagnosedaten bereitzustellen, auf die Entwickler bei Bedarf selbst zugreifen können.

Die kollaborative Zukunft der Vorfallsreaktion

Eine effektive Zusammenarbeit zwischen KI und Mensch erfordert eine bewusst gestaltete Partnerschaft – das Schreiben klarer Handlungsanweisungen, die definieren, wann die KI unabhängig agiert und wann sie sich an Menschen wendet, das Aufstellen von Eskalationsregeln, die für Ihre spezifischen Systeme funktionieren, und die Behandlung von KI-Agenten als Teil Ihres Incident-Response-Teams.

Organisationen, die in diese Maßnahmen investieren, berichten von weniger Burnout bei den Ingenieuren, einer schnelleren Erkennung schwerwiegender Probleme und mehr Zeit für Infrastrukturarbeiten, die verhindern, dass es überhaupt erst zu Vorfällen kommt.

Bereit loszulegen? Laden Sie unsere praktische Checkliste herunter: 8 Schritte, um Ihren Mitarbeitern zum Erfolg mit KI-Agenten zu verhelfen

Diese könnten Ihnen auch gefallen...

KI , AIOps
Die versteckten Schwachstellen Ihrer KI-Strategie

KI , Cloud-Betrieb , Digitale Operationen , Vorfallmanagement und Reaktion , Integrationen , Anwendungsfälle und Lösungen
Was uns die NFL über die Koordination von Mensch und KI zum Aufbau robuster Abläufe gelehrt hat

KI
Was NVIDIA, Okta und Warner Bros. Discovery über die Skalierung von KI-Operationen über die Pilotphase hinaus gelernt haben

Monatliche Produkt-Drops