Dinge gehen kaputt. Das ist nun mal so, und das gehört zum Leben dazu, genauso wie zum Aufbau und zur Wartung von Technologiesystemen. Und wenn etwas kaputtgeht, brauchen Organisationen … Reaktion auf Zwischenfälle Ein Prozess für Entwicklungsteams, der dazu beiträgt, Dienste schneller wieder online zu bringen, die Auswirkungen auf Kunden zu minimieren und das Lernen zu fördern. Ein Incident-Response-Prozess (oder Incident-Response-Plan) beschreibt jeden Schritt eines Vorfalls und legt fest, wer welche Aufgaben übernimmt.
5 Schritte im Rahmen eines Vorfallreaktionsprozesses
Einzelne Organisationen passen ihren Prozess zur Reaktion auf Sicherheitsvorfälle an ihre individuellen IT-Anforderungen an. Dennoch werden sie diese fünf Schritte wahrscheinlich bei jedem Vorfall im Laufe der Zeit durchlaufen. Schauen wir uns jeden einzelnen Schritt genauer an.
1. Erkennen
Der erste Schritt ist die Erkennung. Es gibt ein Problem. Vielleicht haben Sie es durch Ihr Monitoring-, Observability- oder Alarmierungstool entdeckt. Vielleicht hat Sie ein anderes Team kontaktiert, um Sie über ein Problem mit Ihrem Service zu informieren. Oder vielleicht haben Kunden Tickets beim Kundensupport eingereicht, der Sie dann benachrichtigt hat. Wie dem auch sei, Sie wissen, dass ein Problem besteht und beginnen abzuschätzen, wie gravierend es ist.
2. Mobilisieren
Im nächsten Schritt stellt der Einsatzleiter ein Team zusammen. Bei einem Vorfall mit niedrigerer Priorität reicht manchmal ein zweiter Bereitschaftsmitarbeiter aus. Bei Vorfällen mit höherer Priorität ist eine Eskalation erforderlich. Dies kann die Hinzunahme eines Einsatzleiters, eines Kommunikationsteams und weiterer Fachexperten bedeuten. Wir werden später genauer auf die Aufgaben der einzelnen Rollen eingehen. Anschließend beginnt jedes Teammitglied mit der Erfüllung seiner rollenspezifischen Aufgaben.
3. Diagnose
Während der Diagnosephase analysieren Fachexperten die Ursachen, den Hergang und die Hintergründe des Vorfalls. Gegebenenfalls werden weitere Teams zur Beratung hinzugezogen. Häufig werden in dieser Phase Netzwerk- oder Sicherheitsexperten hinzugezogen. Am Ende dieser Phase verfügt das Team über mindestens einen, oft aber mehrere Lösungsansätze. Dies ist in der Regel die längste Phase des Incident-Response-Prozesses.
4. Entschluss fassen
Hier wendet das Team die in der Untersuchungsphase entwickelten Hypothesen an. Die Bestätigung einer oder mehrerer Hypothesen führt dazu, dass der betroffene Dienst wieder normal funktioniert. Der Vorfall gilt in der Regel als „beendet“, sobald keine Auswirkungen mehr für die Kunden spürbar sind.
5. Lernen
Es ist wichtig sicherzustellen, dass die Ursache eines schwerwiegenden Vorfalls nicht erneut auftritt. Die Lehren aus einem Vorfall können Verbesserungspotenziale sowohl in der Technologie als auch in den Prozessen aufzeigen. Manchmal bedeutet dies, dass veralteter Code dringend refaktoriert werden muss. Manchmal stellt sich auch heraus, dass ein wichtiges Handbuch aktualisiert werden muss. Dies ist die Chance, diese Herausforderungen anzugehen und Verbesserungen zu erzielen.
Schlüsselrollen in einem Incident-Response-Team
Bei kleineren Vorfällen kann ein einzelner Bereitschaftsmitarbeiter alle fünf oben genannten Schritte durchführen. Bei komplexeren Vorfällen kann dies für eine einzelne Person jedoch schnell überfordernd werden. Dies gilt insbesondere dann, wenn der Vorfall mehrere Teams betrifft oder eine unternehmensweite Kommunikation erfordert. Daher ist es wichtig, die Vorgehensweise festzulegen. Rollen bei größeren Zwischenfällen Dies trägt dazu bei, die Last zu verteilen und sicherzustellen, dass nichts übersehen wird.
Die traditionellen DevOps-Rollen im Bereich Incident Response lassen sich in drei Kategorien einteilen. Erstens die Führungsrollen, zu denen der Incident Commander, sein Stellvertreter und der Protokollführer gehören. Diese Personen überwachen den gesamten Vorfall und sind die Ansprechpartner für alle Beteiligten. Zweitens die Verbindungsrollen, darunter ein interner Ansprechpartner und ein Kundenansprechpartner. Diese Personen halten alle Beteiligten auf dem Laufenden und gewährleisten den reibungslosen Informationsfluss zwischen den wichtigsten Stakeholdern und dem Response-Team. Und schließlich die operativen Rollen, auch bekannt als Fachexperten.

Schauen wir uns genauer an, wofür diese Rollen im Falle eines größeren Zwischenfalls tatsächlich verantwortlich sind.
Einsatzleiter
Der Einsatzleiter Diese Person überwacht den gesamten Vorfall vom Zeitpunkt der Meldung durch den Bereitschaftsdienst bis zum Abschluss der Nachbesprechung. Sie stellt sicher, dass die Auswirkungen auf die Kunden so gering wie möglich sind. Bei wichtigen Entscheidungen trifft diese Person die entsprechenden Maßnahmen. Wichtig: Diese Person ist nicht für die Behebung schwerwiegender Störungen zuständig. Sie sichtet keine Warnmeldungen oder analysiert keine Änderungsereignisse. Stattdessen überwacht sie den Prozess, um sicherzustellen, dass alle Beteiligten auf dem richtigen Weg sind.
Stellvertreter
Der Stellvertreter berichtet an den Einsatzleiter und ist dessen unmittelbare Ansprechperson. Er ist für alle Aufgaben verantwortlich, die ihm der Einsatzleiter überträgt. Außerdem stellt er sicher, dass die anderen Einsatzkräfte den Einsatzleiter zeitnah informieren. Was als zeitnah gilt, hängt von der jeweiligen Organisation ab. Üblicherweise liegt das Intervall bei 15 bis 30 Minuten. Der Stellvertreter sorgt dafür, dass sich der Einsatzleiter auf die aktuelle Aufgabe konzentrieren kann und kümmert sich um alle noch offenen Punkte.
Schreiber
Während Einsatzleiter und Stellvertreter den Einsatz überwachen, muss eine weitere Person für die Dokumentation verantwortlich sein. Die Dokumentation stellt sicher, dass im Rahmen der Einsatzbewältigung keine unnötigen Schritte wiederholt werden. Sie dient außerdem als Grundlage für die Nachbesprechung oder die Retrospektive. Es ist entscheidend, den Ablauf der Ereignisse zu verstehen, um die Einsatzbewältigung zu optimieren. Der Protokollführer erfasst alle wichtigen Ereignisse während des Einsatzes. Dies kann das Anfertigen von Notizen, das Erstellen von Aufnahmen oder Screenshots sowie das Erstellen einer einfachen Zeitleiste umfassen. Je nach Schwere des Einsatzes übernimmt der Stellvertreter diese Aufgaben mitunter.
Interne Verbindung
Ein interner Ansprechpartner informiert die wichtigsten Stakeholder über den Fortschritt eines Vorfalls. Führungskräfte möchten über schwerwiegende Vorfälle informiert werden. Der Vertrieb muss möglicherweise Demos verschieben. Der Kundenservice muss mit einem Anstieg der Kundentickets rechnen. Die Rechtsabteilung muss über drohende SLA-Verletzungen informiert werden. Führungskräfte sind oft überfordert, die Kommunikation für diese Personen zu gestalten. Die Kommunikation wird zudem unübersichtlich, wenn viele Beteiligte des Vorfalls dem Unternehmen Statusberichte senden. Ein interner Ansprechpartner arbeitet mit dem Incident-Response-Team zusammen, um die notwendigen Informationen auszutauschen. Dies optimiert die Kommunikation und vermeidet Missverständnisse zwischen den Stakeholdern.
Kundenbetreuung
Kunden möchten wissen, warum ein von ihnen genutztes Tool oder ein Service nicht funktioniert. Eine proaktive Kommunikation mit den Kunden stärkt das Vertrauen und beugt Kundenabwanderung aufgrund schwerwiegender Störungen vor. Dabei ist es wichtig, weder zu viele noch zu wenige Informationen preiszugeben. Die Aufgabe eines Kundenbetreuers besteht darin, aussagekräftige Informationen für die Nutzer zu formulieren. Diese Informationen sollten den Kunden versichern, dass das Unternehmen das Problem untersucht. Außerdem sollten sie erläutern, wie Kunden zukünftig mit Updates rechnen können. Verspricht ein Unternehmen stündliche Updates, sollte der Kundenbetreuer diese bereitstellen.
Fachexperte
Fachexperten sind für die eigentliche Behebung des Vorfalls verantwortlich. Diese Experten sind häufig Bereitschaftsingenieure für den betroffenen Dienst oder die betroffenen Dienste. Sie kennen den Code genau und wissen am besten, wonach sie suchen müssen. Sie erhalten Anweisungen vom Einsatzleiter und berichten ihm oder seinem Stellvertreter. Bei größeren Vorfällen arbeiten oft mehrere Fachexperten gleichzeitig an einer Lösung.
Jede Rolle ist entscheidend für den Erfolg des Incident-Response-Teams. Durch die Zusammenarbeit im Team lassen sich Vorfälle schneller beheben. Die Führungsebene sorgt für eine reibungslose Reaktion und gibt der Reaktion Struktur. Eine sorgfältige Dokumentation bietet eine bessere Grundlage für die Auswertung nach einem Vorfall. Benannte Kommunikationsverantwortliche gewährleisten eine höhere Zufriedenheit von Kunden und Stakeholdern. Und Fachexperten lernen aus jedem Fehler und verbessern sich mit jedem Vorfall.
Wie PagerDuty den Prozess der Reaktion auf Vorfälle verbessert
PagerDuty hilft Teams die richtige Reaktion orchestrieren Für jeden Vorfall. Mit PagerDuty können Unternehmen ihre Umsätze sichern und das Kundenerlebnis verbessern, indem sie kritische Vorfälle schneller beheben und zukünftige Vorkommnisse verhindern. Probieren Sie PagerDuty aus 14 Tage lang kostenlos.