- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- Hören Sie sich einen aufgezeichneten Incident-Response-Anruf an
Der Blog
Hören Sie sich einen aufgezeichneten Incident-Response-Anruf an
Der PagerDuty Vorfallreaktionsprozess ist ein ausführliches Dokument, das einen Rahmen für die Strukturierung Ihres Vorfallreaktionsprozesses bietet. Aber manchmal ist es hilfreich zu verstehen, wie sich diese scheinbar abstrakten Konzepte in realen Szenarien auswirken. Sie können jetzt eine Vorfallanrufaufzeichnung anhören, die auf einem echten PagerDuty Vorfall basiert.
Aufgrund der Art der Vorgehensweise bei der Reaktion auf Vorfälle enthält der von uns veröffentlichte Prozessleitfaden sehr ausführliche Informationen zu einer Vielzahl von Situationen. Diese Detailgenauigkeit ist wunderbar, wenn Sie die Nuancen komplizierter Szenarien auseinandernehmen müssen. Für jemanden, der noch nie an einem technischen Ausfall beteiligt war, kann die Tiefe der bereitgestellten Informationen jedoch etwas überwältigend sein, wenn er keinen grundlegenden Kontext hat, auf den er sich konzentrieren kann. Was ist überhaupt ein Vorfallsruf? Wie klingt er und wie interagieren die Leute?
Unabhängig von Ihrem Erfahrungsniveau mit der Reaktion auf Vorfälle in Echtzeit kann es hilfreich sein, einen gemeinsamen Kontext als Grundlage zu haben, um Ihre eigenen Reaktionsprozesse innerhalb Ihrer Teams zu entwickeln. Um Ihnen dabei zu helfen, haben wir beschlossen, ein Beispiel dafür zu teilen, wie unsere Anrufe zur Reaktion auf Vorfälle bei PagerDuty aussehen.
https://www.youtube.com/watch?v=vw6I5DYWkNA
Bei dem aufgezeichneten Anruf handelt es sich um die Nachstellung eines tatsächlichen größeren Zwischenfalls, der sich im Januar 2017 bei PagerDuty ereignete. Aus Datenschutzgründen wurden einige Namen und identifizierende Details geändert, ansonsten bleibt der Vorfall jedoch weitgehend unverändert.
Der Kürze halber wurden einige Details der Nachstellung geändert oder weggelassen. Obwohl dieser Vorfall ungefähr 79 Minuten dauerte, wurde der Ton des Anrufs auf etwas mehr als 26 Minuten komprimiert. Wenn Sie sich das Video ansehen, sollten Sie auf die Zeitstempel der transkribierten Kommentare achten. Die Zeitstempel geben Ihnen eine Vorstellung davon, wie viel Zeit zwischen den Entwicklungen verstrichen ist. Es ist nicht ungewöhnlich, dass während eines Vorfallanrufs Stille herrscht, während die Einsatzkräfte daran arbeiten, ein Problem zu lösen.
Für diejenigen, die noch nicht so vertraut mit dem Incident-Response-Prozess sind, wurden einige Folien hinzugefügt, die erklären, was die verschiedenen Responder-Rollen während des Anrufs tun, um zusätzlichen Kontext zu bieten. Diese Aufzeichnung soll die Leitfaden zur Reaktion auf Vorfälle . Bevor Sie die in diesem Video gezeigten Fähigkeiten üben oder etwas an Ihren eigenen bestehenden Prozessen ändern, lesen Sie unbedingt den gesamten Incident Response-Leitfaden durch, da er wichtige zusätzliche Details enthält, die in dieser Aufzeichnung nicht enthalten sind.
Worauf Sie achten sollten
Dieser Vorfall wurde aufgrund seiner Komplexität und der vielen verschiedenen Phasen eines Vorfalls, die gezeigt wurden, für die Nachstellung ausgewählt. Er erforderte die abteilungsübergreifende Zusammenarbeit mehrerer verschiedener Teams, hatte ein schwer zu diagnostizierendes Problem und enthielt gängige Beispiele für notwendige Maßnahmen wie das Ausrufen von Einsatzkräften, die nicht auf Abruf bereitstanden. Es wurden leichte Änderungen vorgenommen, um einige dieser Maßnahmen hervorzuheben, als sie auftraten.
PagerDutys Schulung zur Reaktion auf Vorfälle bietet eine ausführliche Beschreibung der Aufgaben eines Einsatzleiters sowie viele Hinweise zum Umgang mit einem Einsatz. Hören Sie, wie der Einsatzleiter Freiraum für die Einsatzkräfte schafft, um den Einsatz zu lösen: Der Einsatzleiter sorgt dafür, dass der Einsatz voranschreitet, erzielt vor dem Ergreifen von Maßnahmen einen Konsens und passt den Kurs auf der Grundlage von Feedback an.
Die Rolle des Schreibers wird am deutlichsten durch den Begleittext im Video veranschaulicht. Ein Schreiber ist kein Stenograf. Seine Rolle besteht nicht darin, alles, was während des Anrufs gesagt wird, zu transkribieren. Vielmehr besteht die Aufgabe des Schreibers darin, wichtige Ereignisse zu notieren, die im Rahmen einer Obduktion nützlich sein könnten. Sehen Sie sich an, wie der Schreiber relevante Details festhält, die später nützlich sein werden.
Die Rolle des Stellvertreters besteht darin, dem Einsatzleiter dabei zu helfen, sich auf den Vorfall zu konzentrieren, indem er alle Aufgaben übernimmt, die zu einer Ablenkung führen könnten. Bei diesem Vorfall hat unser erfahrener Einsatzleiter Aufgaben an den Stellvertreter delegiert und auch die Zeit für zeitlich begrenzte Aufgaben im Auge behalten. Es wäre jedoch nicht ungewöhnlich, wenn ein Stellvertreter anbietet, dem Einsatzleiter einige Aufgaben abzunehmen oder als Zeitnehmer zu fungieren.
Der Kommunikationsbeauftragte stellt Updates für externe und interne Stakeholder bereit. Der Kürze halber konzentriert sich der aufgezeichnete Vorfall darauf, wie externe Kundenkommunikation generiert wird. In der Praxis generiert der Kommunikationsbeauftragte bei PagerDuty automatisch interne Stakeholder-Benachrichtigungen aus unserem Produkt heraus. Wenn Ihr eigenes Vorfallreaktionssystem dies nicht zulässt, verwaltet der Kundenbeauftragte den Prozess ähnlich wie die Generierung externer Benachrichtigungen.
Über den Vorfall
Der Vorfall, der dieser nachgestellten Aufzeichnung zugrunde liegt, ereignete sich am 6. Januar 2017. Die Auswirkungen führten dazu, dass keine Benachrichtigungen außerhalb unseres Service Level Agreements (SLA) zugestellt wurden. Kunden waren auf drei Arten betroffen:
- 500 Fehler auf der Seite mit den Vorfalldetails aufgetreten (1 % der Kunden)
- Beim Klicken auf den Link „Details anzeigen“ ist auf der Seite /incidents eine Fehlermeldung aufgetreten (2 %)
- Aufgetretene Fehler in der PagerDuty Android-App (1 %)
Die Obduktion des Vorfalls ist verfügbar unter PagerDuty -Statusseite . Sie werden feststellen, in der Obduktion dass der gesamte Vorfall etwa 80 Minuten dauerte. Wenn Sie die Zeitstempel im aufgezeichneten Video untersuchen, werden Sie feststellen, dass die verstrichene Anrufzeit nur etwa 50 Minuten beträgt. Dies liegt daran, dass der Vorfall etwa 30 Minuten lang als kleiner Vorfall erkannt und behandelt wurde, bevor er zu einem größeren Vorfall eskaliert wurde, der eine umfassendere koordinierte Reaktion erforderte.
So verwenden Sie diese Aufnahme
Bei den meisten Vorfällen gibt es einfach keine Gelegenheit, jede einzelne Facette des Vorfallreaktionssystems zu demonstrieren. Vorfälle sind unvorhersehbar und der Reaktionsprozess soll Sie mit den Echtzeit-Tools ausstatten, die Sie benötigen, um einen Vorfall effektiv zu lösen. Anstatt eine Fiktion zu inszenieren, entschieden wir uns, dass es am besten ist, einen tatsächlichen Vorfall mit so viel Transparenz wie möglich zu teilen.
Diese Vorfallaufzeichnung ist kein definitiver Leitfaden und behandelt nur einige der Überlegungen, die Sie bei der Bewältigung eines echten Vorfalls anstellen könnten. In Verbindung mit unserem Leitfaden zur Reaktion auf Vorfälle zeigt sie jedoch, wie sich diese möglicherweise abstrakten Prinzipien in realen Szenarien auswirken. Verwenden Sie diese Aufzeichnung zusammen mit dem Leitfaden, um optimale Ergebnisse zu erzielen. Weitere Einzelheiten finden Sie im Leitfaden und in der Aufzeichnung erfahren Sie, wie die Prinzipien im Leitfaden angewendet werden.
Wie immer gilt: Wenn Sie Fragen zu diesem Thema haben und es weiter besprechen möchten, kontaktieren Sie uns bitte unter PagerDuty Community-Forum Wir freuen uns auf Ihre Nachricht!