Was ist ein Incident-Response-Prozess?

Dinge gehen kaputt. Das ist eine Tatsache im Leben und beim Aufbau und der Wartung von Technologiesystemen. Und wenn Dinge kaputt gehen, brauchen Organisationen eine Reaktion auf Vorfälle Prozess für Entwicklungsteams, der dazu beiträgt, Dienste schneller wieder online zu bringen, die Auswirkungen auf Kunden zu minimieren und das Lernen zu fördern. Ein Incident-Response-Prozess (oder Incident-Response-Plan) führt durch jeden Schritt eines Vorfalls und beschreibt, wer was tut.

5 Schritte in einem Incident-Response-Prozess

Unternehmen passen ihren Incident-Response-Prozess an ihre individuellen IT-Anforderungen an. Dennoch werden diese fünf Schritte wahrscheinlich bei jedem Vorfall irgendwann durchlaufen. Werfen wir einen Blick auf die einzelnen Schritte.

1. Erkennen

Der erste Schritt ist die Erkennung. Sie haben ein Problem. Vielleicht haben Sie es durch Ihr Überwachungs-, Beobachtungs- oder Warntool entdeckt. Vielleicht hat ein anderes Team Sie kontaktiert und Sie über ein Problem mit Ihrem Service informiert. Oder vielleicht haben Kunden Tickets beim Kundensupport eingereicht, der Sie dann informiert. Wie dem auch sei, Sie wissen, dass ein Problem vorliegt, und beginnen zu verstehen, wie schwerwiegend das Problem ist.

2. Mobilisieren

Im nächsten Schritt beginnt ein Einsatzleiter mit der Zusammenstellung eines Teams. Bei Vorfällen mit niedrigerer Priorität reicht manchmal ein zweiter Bereitschaftshelfer aus. Bei Vorfällen mit höherer Priorität kann eine Eskalation erforderlich sein. Dies könnte die Hinzufügung eines Einsatzleiters, eines Kommunikationsteams und weiterer Fachexperten bedeuten. Wir werden später genauer auf die Aufgaben der einzelnen Rollen eingehen. Jedes Teammitglied beginnt dann mit der Erledigung seiner rollenspezifischen Aufgaben.

3. Diagnose

Während der Diagnose untersuchen Fachexperten das Wer, Was, Wo und Warum des Vorfalls. Dies kann die Hinzuziehung weiterer Teams zur Beratung erfordern. Häufig werden in dieser Phase Teams aus den Bereichen Netzwerk und Sicherheit hinzugezogen. Am Ende dieser Phase verfügt das Team über mindestens einen, wenn nicht sogar mehrere Lösungswege. Dies ist in der Regel die längste Phase des Vorfallsreaktionsprozesses.

4. Entschlossenheit

Hier wendet das Team die in der Untersuchungsphase entwickelten Hypothesen an. Eine oder mehrere Hypothesen führen dazu, dass der betroffene Dienst wieder normal funktioniert. Der Vorfall gilt in der Regel als „beendet“, wenn die Auswirkungen auf den Kunden beendet sind.

5. Lernen

Es ist wichtig sicherzustellen, dass sich die Ursache eines schwerwiegenden Vorfalls nicht wiederholt. Erkenntnisse aus einem Vorfall können sowohl technologische als auch prozessuale Chancen aufzeigen. Manchmal bedeutet dies, dass Legacy-Code dringend überarbeitet werden muss. Manchmal kann es auch bedeuten, dass ein wichtiges Runbook aktualisiert werden muss. Dies ist die Chance, diese Herausforderungen anzugehen und Verbesserungen vorzunehmen.

Schlüsselrollen in einem Incident-Response-Team

Bei kleineren Vorfällen kann ein einzelner Bereitschaftsmitarbeiter alle fünf oben genannten Schritte erledigen. Bei komplexeren Vorfällen kann es für eine einzelne Person überwältigend sein, alles zu erledigen. Dies gilt insbesondere, wenn der Vorfall mehrere Teams betrifft oder unternehmensweite Kommunikation erfordert. Deshalb ist es wichtig, Rollen bei größeren Zwischenfällen Dies trägt zur Lastenverteilung bei und stellt sicher, dass nichts durch die Maschen fällt.

Traditionelle DevOps-Rollen im Incident Response lassen sich in drei Kategorien einteilen. Zunächst gibt es die Führungsrollen, zu denen der Einsatzleiter, sein Stellvertreter und der Protokollführer gehören. Diese Personen überwachen den gesamten Vorfall und berichten an alle Beteiligten. Anschließend gibt es die Verbindungsrollen, darunter einen internen Ansprechpartner und einen Kundenkontakt. Diese Personen halten alle Beteiligten auf dem Laufenden und stellen die reibungslose Kommunikation zwischen den wichtigsten Beteiligten und dem Reaktionsteam sicher. Zu guter Letzt gibt es die operativen Rollen, auch bekannt als Fachexperten.

Diagram laying out the roles involved when an incident is triggered, sectioned into 3 main groups: Command, Liaisons, and Operations.

Lassen Sie uns aufschlüsseln, wofür diese Rollen bei einem schwerwiegenden Vorfall tatsächlich verantwortlich sind.

Einsatzleiter

Der Einsatzleiter Überwacht den gesamten Vorfall von der Einbindung durch den Bereitschaftsdienst bis zum Abschluss der Postmortem-Analyse. Diese Rolle stellt sicher, dass der Vorfall möglichst geringe Auswirkungen auf den Kunden hat. Wichtige Entscheidungen werden von dieser Person getroffen. Beachten Sie, dass diese Person bei schwerwiegenden Vorfällen nicht die Problemlösungsfunktion übernimmt. Sie prüft weder Warnmeldungen noch Änderungsereignisse. Stattdessen überwacht sie den Prozess, um sicherzustellen, dass alle Beteiligten auf dem richtigen Weg sind.

Stellvertreter

Der Stellvertreter berichtet dem Einsatzleiter und ist dessen unmittelbare Unterstützungsperson. Er ist für alle Aufgaben verantwortlich, die ihm der Einsatzleiter delegiert. Er stellt außerdem sicher, dass andere Einsatzkräfte den Einsatzleiter zeitnah informieren. Was als zeitnah gilt, hängt von der Organisation ab. Üblicherweise erfolgt dies alle 15–30 Minuten. Der Stellvertreter sorgt dafür, dass sich der Einsatzleiter auf die anstehende Aufgabe konzentriert und kümmert sich um alle offenen Fragen, die noch zu erledigen sind.

Schreiber

Während der Einsatzleiter und sein Stellvertreter den Vorfall überwachen, muss jemand anderes für die Dokumentation verantwortlich sein. Die Dokumentation stellt sicher, dass derselbe Weg während der Vorfallsreaktion nicht zweimal durchlaufen wird. Sie dient auch als Grundlage für die Postmortem-Analyse oder Retrospektive. Es ist entscheidend, die Reihenfolge der Ereignisse zu verstehen, um den Vorfallsreaktionsprozess zu optimieren. Der Protokollführer ist die Person, die alle wichtigen Ereignisse während des Vorfalls protokolliert. Dies kann das Anfertigen von Notizen, das Aufnehmen von Aufzeichnungen oder Screenshots und das Erstellen einer rudimentären Zeitleiste umfassen. Je nach Schwere des Vorfalls übernimmt der Stellvertreter diese Aufgaben manchmal selbst.

Interne Verbindung

Ein interner Ansprechpartner kommuniziert den Fortschritt des Vorfalls an wichtige Stakeholder. Führungskräfte möchten über schwerwiegende Vorfälle informiert werden. Der Vertrieb muss möglicherweise Demos zurückstellen. Der Kundenservice muss möglicherweise mit einer Flut von Kundentickets rechnen. Die Rechtsabteilung muss möglicherweise über drohende SLA-Verstöße informiert werden. Die Führungsebene ist oft zu sehr damit beschäftigt, die Kommunikation für diese Personen zu gestalten. Und die Kommunikation wird unübersichtlich, wenn viele Vorfallbeteiligte Updates an das Unternehmen senden. Ein interner Ansprechpartner arbeitet mit dem Incident-Response-Team zusammen, um notwendige Informationen weiterzugeben. Dies vereinfacht die Kommunikation und vermeidet Verwirrung unter den Stakeholdern.

Kundenkontakt

Kunden möchten wissen, warum ein von ihnen genutztes Tool oder ein Service nicht funktioniert. Proaktive Kommunikation mit Kunden stärkt das Vertrauen und beugt so Kundenabwanderung nach größeren Störungen vor. In der Kundenkommunikation sollten Sie jedoch weder zu viele noch zu wenige Informationen preisgeben. Die Aufgabe eines Kundenbetreuers besteht darin, aussagekräftige Kommunikation mit den Nutzern zu gestalten. Diese Kommunikation sollte den Kunden die Gewissheit geben, dass sich das Unternehmen mit dem Problem befasst. Sie sollte außerdem die Voraussetzungen dafür schaffen, dass Kunden künftig Updates erhalten. Wenn ein Unternehmen stündliche Updates verspricht, sollte ein Kundenbetreuer diese bereitstellen.

Fachexperte

Fachexperten sind für die eigentliche Lösung des Vorfalls verantwortlich. Diese Personen sind häufig Bereitschaftsingenieure für den oder die betroffenen Dienste. Sie kennen den Code genau und wissen am besten, worauf sie achten müssen. Sie erhalten Anweisungen vom Einsatzleiter und erstatten ihm oder seinem Stellvertreter Bericht. Bei größeren Vorfällen arbeiten oft mehrere Fachexperten gleichzeitig an einer Lösung.

Jede Rolle ist entscheidend für den Erfolg des Incident-Response-Teams. Durch die Zusammenarbeit können Teams Vorfälle schneller lösen. Die Führung sorgt für eine reibungslose Reaktion und Struktur. Eine gründliche Dokumentation bietet eine bessere Grundlage für Erkenntnisse nach einem Vorfall. Festgelegte Kommunikationsleiter sorgen für eine höhere Zufriedenheit von Kunden und Stakeholdern. Und Fachexperten lernen aus jedem Fehler und verbessern sich mit jedem Vorfall.

Wie PagerDuty den Incident-Response-Prozess verbessert

PagerDuty hilft Teams die richtige Reaktion orchestrieren für jeden Vorfall. Mit PagerDuty können Unternehmen ihren Umsatz sichern und das Kundenerlebnis verbessern, indem sie kritische Vorfälle schneller lösen und zukünftige Vorfälle verhindern. Probieren Sie PagerDuty aus 14 Tage lang kostenlos.