Blog

Hören Sie sich einen aufgezeichneten Einsatzbericht an.

von George Miranda 20. Juni 2019 | 6 Minuten Lesezeit

Der PagerDuty -Vorfallreaktionsprozess Es handelt sich um ein detailliertes Dokument, das einen Rahmen für die Strukturierung Ihres Incident-Response-Prozesses bietet. Manchmal ist es jedoch hilfreich zu verstehen, wie diese scheinbar abstrakten Konzepte in realen Szenarien Anwendung finden. Sie können sich nun eine Aufzeichnung eines Incident-Anrufs anhören, der auf einem echten PagerDuty Vorfall basiert.

Aufgrund der Natur von Incident-Response-Prozessen enthält unser Leitfaden sehr detaillierte Informationen zu verschiedenen Situationen. Dieser Detailgrad ist äußerst hilfreich, wenn man die Feinheiten komplexer Szenarien analysiert. Für jemanden, der noch nie an einem technischen Ausfall beteiligt war, kann die Detailtiefe jedoch ohne grundlegendes Verständnis etwas überwältigend wirken. Was genau ist ein Incident Call? Wie klingt er und wie kommunizieren die Beteiligten?

Unabhängig von Ihrer Erfahrung mit der Echtzeit-Reaktion auf Vorfälle kann ein gemeinsamer Kontext hilfreich sein, um Ihre eigenen Reaktionsprozesse innerhalb Ihrer Teams zu entwickeln. Um dies zu verdeutlichen, möchten wir Ihnen ein Beispiel für unsere Incident-Response-Anrufe bei PagerDuty vorstellen.

https://www.youtube.com/watch?v=vw6I5DYWkNA

Bei dem aufgezeichneten Anruf handelt es sich um die Nachstellung eines tatsächlichen schwerwiegenden Vorfalls, der sich im Januar 2017 bei PagerDuty ereignete. Einige Namen und identifizierende Details wurden im Interesse der Privatsphäre geändert, ansonsten ist der Vorfall jedoch weitgehend ungeschwärzt.

Aus Gründen der Kürze wurden einige Details in der Nachstellung verändert oder weggelassen. Obwohl der Vorfall etwa 79 Minuten dauerte, wurde die Audioaufzeichnung des Notrufs auf etwas über 26 Minuten komprimiert. Achten Sie beim Ansehen des Videos auf die Zeitstempel der transkribierten Kommentare. Diese geben Ihnen einen Überblick über die verstrichenen Zeitabstände zwischen den einzelnen Ereignissen. Es ist nicht ungewöhnlich, dass es während eines Notrufs zu kurzen Pausen kommt, während die Einsatzkräfte an der Lösung des Problems arbeiten.

Für diejenigen, die mit dem Ablauf der Reaktion auf Sicherheitsvorfälle noch nicht so vertraut sind, wurden einige Folien hinzugefügt, die die Aufgaben der verschiedenen Einsatzkräfte während des Gesprächs erläutern und so für zusätzlichen Kontext sorgen. Diese Aufzeichnung soll die mündliche und mündliche Kommunikation ergänzen, nicht ersetzen. Leitfaden zur Reaktion auf Vorfälle Bevor Sie die in diesem Video gezeigten Fähigkeiten anwenden oder Änderungen an Ihren bestehenden Prozessen vornehmen, sollten Sie unbedingt den Leitfaden zur Reaktion auf Vorfälle vollständig durchlesen, da er wichtige zusätzliche Details enthält, die in dieser Aufzeichnung nicht enthalten sind.

Worauf man achten sollte

Dieser Vorfall wurde aufgrund seiner Komplexität und der vielen verschiedenen Phasen, die er darstellte, für die Nachstellung ausgewählt. Er erforderte die funktionsübergreifende Zusammenarbeit mehrerer Teams, beinhaltete ein schwer zu diagnostizierendes Problem und enthielt typische Beispiele für notwendige Maßnahmen, wie etwa das Alarmieren von Einsatzkräften, die nicht im Dienst waren. Es wurden leichte Änderungen vorgenommen, um einige dieser Maßnahmen in ihrem tatsächlichen Ablauf hervorzuheben.

PagerDuty Schulung zur Reaktion auf Zwischenfälle Dieser Artikel bietet eine detaillierte Darstellung der Rolle eines Einsatzleiters und zahlreiche Anleitungen zum Einsatzmanagement. Erfahren Sie, wie der Einsatzleiter den Einsatzkräften Handlungsspielraum zur Bewältigung des Vorfalls verschafft: Er sorgt für einen reibungslosen Ablauf, erzielt Konsens vor dem Handeln und passt die Vorgehensweise auf Basis von Rückmeldungen an.

Die Rolle des Protokollführers wird am deutlichsten durch den Begleittext im Video veranschaulicht. Ein Protokollführer ist kein Stenograf. Seine Aufgabe ist es nicht, jedes einzelne Wort des Gesprächs zu transkribieren; vielmehr notiert er wichtige Ereignisse, die im Rahmen einer Nachbesprechung relevant sein könnten. Beobachten Sie, wie der Protokollführer die relevanten Details festhält, die später von Nutzen sein werden.

Die Aufgabe des Stellvertreters besteht darin, den Einsatzleiter zu unterstützen, damit dieser sich auf den Einsatz konzentrieren kann, indem er alle Aufgaben übernimmt, die ihn ablenken könnten. In diesem Fall delegierte unser erfahrener Einsatzleiter Aufgaben an den Stellvertreter und behielt die Zeit für zeitlich begrenzte Aufgaben im Blick. Es ist jedoch nicht ungewöhnlich, dass ein Stellvertreter dem Einsatzleiter Aufgaben abnimmt oder die Zeitkontrolle übernimmt.

Der Kommunikationsbeauftragte informiert sowohl externe als auch interne Stakeholder. Aus Gründen der Übersichtlichkeit konzentriert sich der dokumentierte Vorfall auf die Generierung externer Kundenkommunikation. Bei PagerDuty generiert der Kommunikationsbeauftragte interne Stakeholder-Benachrichtigungen automatisch direkt aus unserem Produkt heraus. Sollte Ihr eigenes Incident-Response-System dies nicht ermöglichen, übernimmt der Kundenbeauftragte die Abwicklung analog zur Generierung externer Benachrichtigungen.

Zum Vorfall

Der Vorfall, der dieser nachgestellten Aufzeichnung zugrunde liegt, ereignete sich am 6. Januar 2017. Die Folgen waren, dass keine Benachrichtigungen außerhalb unserer Service-Level-Vereinbarung (SLA) zugestellt wurden. Kunden waren in dreierlei Hinsicht betroffen:

  1. Auf der Seite mit den Vorfalldetails traten 500-Fehler auf (1 % der Kunden).
  2. Beim Klicken auf den Link „Details anzeigen“ auf der Seite „/incidents“ wurde eine Fehlermeldung angezeigt (2 %).
  3. In der PagerDuty Android-App traten Fehler auf (1 %)

Der Untersuchungsbericht zum Vorfall ist auf der Website verfügbar. PagerDuty -Statusseite Sie werden feststellen in der postmortal Der gesamte Vorfall dauerte etwa 80 Minuten. Betrachtet man jedoch die Zeitstempel im Video, so zeigt sich, dass die Einsatzdauer nur etwa 50 Minuten beträgt. Dies liegt daran, dass der Vorfall zunächst als geringfügiger Vorfall erkannt und etwa 30 Minuten lang behandelt wurde, bevor er zu einem schwerwiegenden Vorfall eskalierte und somit einen größeren koordinierten Einsatz erforderte.

So verwenden Sie diese Aufnahme

Die meisten Vorfälle bieten schlichtweg nicht die Möglichkeit, alle Aspekte des Incident-Response-Systems zu demonstrieren. Vorfälle sind unvorhersehbar, und der Reaktionsprozess soll Ihnen die notwendigen Echtzeit-Tools an die Hand geben, um einen Vorfall effektiv zu beheben. Anstatt ein fiktives Szenario zu inszenieren, haben wir uns entschieden, einen realen Vorfall so transparent wie möglich darzustellen.

Diese Aufzeichnung eines Vorfalls ist keine abschließende Anleitung und behandelt nur einige Aspekte, die bei einem realen Vorfall relevant sein können. In Verbindung mit unserem Leitfaden zur Vorfallsreaktion zeigt sie jedoch, wie diese möglicherweise abstrakten Prinzipien in realen Szenarien Anwendung finden. Nutzen Sie diese Aufzeichnung zusammen mit dem Leitfaden, um optimale Ergebnisse zu erzielen. Weitere Details finden Sie im Leitfaden; hören Sie sich die Aufzeichnung an, um zu erfahren, wie die Prinzipien im Leitfaden angewendet werden.

Wie immer gilt: Wenn Sie Fragen zu diesen Themen haben oder diese weiter besprechen möchten, kontaktieren Sie uns bitte unter PagerDuty Community-Forum Wir freuen uns, von Ihnen zu hören!