Nutzung von Postmortem-Analysen zum Verständnis der Servicezuverlässigkeit
2017 war ein Jahr mit vielen größere Stromausfälle Einige Ausfälle legten das Internet stundenlang lahm, andere störten die Geschäftsabläufe und die Kommunikation in großen wie kleinen Unternehmen. So oder so, diese Störungen führten wahrscheinlich zu einem erheblichen Zeitaufwand für die anschließende Analyse.
Ich möchte ein wenig darüber nachdenken Warum wir Obduktionsberichte schreiben Ich möchte Autoren einige Anregungen geben, die sie beim Schreiben beachten sollten. Ich denke, wir alle können uns verbessern, wenn es darum geht, Informationen zu sammeln, um proaktive Lösungen besser zu planen, bevor es zu Ausfällen kommt.
Warum führen wir Autopsien durch?
Unser Schulungsunterlagen zur Reaktion auf Vorfälle Anders formuliert: „Effektive Nachbesprechungen ermöglichen es uns, schnell aus unseren Fehlern zu lernen und unsere Dienstleistungen und Prozesse für alle zu verbessern.“ Die wichtigste Erkenntnis für mich ist, dass Organisationen Nachbesprechungen nutzen sollten, um festzuhalten, was sie aus einem Vorfall gelernt haben. Mit anderen Worten:
- Postmortems sind eine Methode, um die genauen Umstände eines Vorfalls zu ermitteln und herauszufinden, was getan werden muss, um diesen Vorfall in Zukunft zu verhindern.
- Organisationen sollten versuchen herauszufinden, wie effektiv ihr Prozess zur Reaktion auf Zwischenfälle ist und in welchen Bereichen Verbesserungspotenzial besteht.
Ich denke, diese beiden Punkte sind das, worüber im Allgemeinen gesprochen wird, wenn man bei Nachbesprechungen von „Ursachenanalyse und ursächlichen Faktoren“ sowie von „Was gut lief“ und „Was nicht gut lief“ spricht.
Darum möchte ich hier aber nicht sprechen.
Ich glaube, da gibt es noch eine weitere Ebene, die wir aus dem postmortaler Prozess etwas, das normalerweise nicht Teil der Diskussion war: Kommunikation über die langfristige Stabilität Ihres Dienstes.
Beispielsweise ergaben die Nachuntersuchungen kleinerer Vorfälle im selben Dienst, die zu einem größeren Vorfall geführt hatten, keine Auffälligkeiten – bis der große Vorfall eintrat. Nach dessen Behebung untersuchte die Nachuntersuchung des großen Vorfalls die „Rolle vorheriger Vorfälle“ und stellte fest, dass alle identifizierten Sofort- und P1-Folgemaßnahmen aufgrund geänderter Pläne oder neuer Informationen entweder abgeschlossen oder abgesagt worden waren (es ist einfach und zulässig, eine Maßnahme herabzustufen oder nicht zu ergreifen, wenn es sich um ein einmaliges Ereignis zu handeln scheint).
Während der Zeit zwischen den kleineren Vorfällen und dem größeren Vorfall wurde zwar an der betreffenden Plattform gearbeitet, aber ich glaube nicht, dass irgendjemand behaupten würde, der Dienst sei in einem guten Zustand gewesen! Die Analysen der Vorfälle in diesem Zeitraum konzentrierten sich auf die unmittelbaren Probleme des jeweiligen Vorfalls – sie erfassten nicht den Zustand des Dienstes als Ganzes. Da wir Menschen uns Dinge schlecht merken, ist es wichtig, auf breitere Trends zu achten, um festzustellen, ob es sich um ein wiederkehrendes Problem handelt oder nicht. Ich denke, es besteht die Möglichkeit, die Prozesse zu verbessern, indem man diesem Aspekt beim Verfassen eines Postmortem-Berichts mehr Aufmerksamkeit widmet.
Bei PagerDuty sind wir als Engineering-Teams für die Serviceverantwortung zuständig und haben daher eine klare Meinung zur Stabilität der Services unserer Teams. Tritt ein schwerwiegender Vorfall bei einem Service auf, zwingt uns dies, unsere Einschätzung der Stabilität zu überdenken und zu prüfen, ob sich unsere Einschätzung der langfristigen Zukunft aufgrund des Vorfalls geändert hat. Ist dies der Fall, überprüfen wir unsere Pläne, um festzustellen, ob wir umfangreiche Maßnahmen zur Verbesserung des betreffenden Services priorisieren müssen. Für einen abschließenden Bericht, von entscheidender Bedeutung Man sollte sich merken, dass die Dinge, die wir auswählen nicht zu tun Denn die Erfassung von Maßnahmenpunkten ist genauso wichtig wie die Festlegung der Maßnahmenpunkte selbst. Die
Bei der Durchsicht der Maßnahmenpunkte aus den Postmortem-Berichten stellten wir fest, dass diese oft sehr detailliert und eng gefasst sind – etwa die Aktualisierung dieser Bibliothek oder die Hinzufügung eines Monitors. Die gängigen Richtlinien für die Zeitpläne der Maßnahmenpunkte bestätigen dies. Es ist jedoch wichtig, darüber hinaus zu kommunizieren: Bedarf an umfassenden Verbesserungen, der frühzeitig erkannt wird, lässt sich viel leichter in die Roadmaps der Teams integrieren. Da die Entwicklungsteams am engsten mit den Diensten verbunden sind, verfügen sie oft über viel internes Wissen und ein gutes Gespür für deren Zustand, haben aber nicht immer die Möglichkeit, dieses Wissen effektiv zu teilen und auf Probleme hinzuweisen, die einen größeren Handlungsbedarf erfordern. Indem wir diese Informationen in die Postmortem-Berichte aufnehmen, bieten wir die Chance, diese drohenden Schwachstellen transparenter zu kommunizieren.
Der Abschlussbericht ist nicht nur für das zuständige Team bestimmt, das ihn erstellt und die Untersuchung durchführt – der Abschlussbericht selbst ist jedoch für die gesamte Organisation bestimmt. Ein guter Bericht erfasst die Risiken unserer aktuellen Services und hilft Produktentwicklung und Engineering, die Arbeit an den Services proaktiver zu priorisieren.
Fünf Fragen, die bei einer Autopsie beantwortet werden sollten (keine davon ist „Warum“)
Eine Person außerhalb Ihres Teams sollte in der Lage sein, Ihren Postmortalbericht zu lesen und diese fünf Fragen zu beantworten:
- Wie haben wir den Zustand des betroffenen Dienstes vor dem Vorfall eingeschätzt?
- Hat uns dieser Vorfall etwas gelehrt, das unsere Ansichten über den Zustand dieses Dienstes ändern sollte?
- Handelte es sich um einen isolierten und spezifischen Fehler – ein Versagen in einer Problemklasse, die wir erwartet hatten – oder hat er eine Problemklasse aufgedeckt, die wir architektonisch im Dienst nicht vorgesehen hatten?
- Glauben wir, dass sich ein ähnlicher Vorfall wiederholen wird, wenn wir nicht über die hier aufgeführten Maßnahmen hinausgehende, umfassendere systemische Schritte unternehmen?
- Wird diese Art von Problem sich verschlimmern/wahrscheinlicher werden, wenn wir die Nutzung des Dienstes weiter ausbauen und skalieren?
*Bonusfrage: Gab es einen früheren Vorfall, der erste Anzeichen für diesen Vorfall lieferte?
Ich gehe davon aus, dass diese Texte üblicherweise als Einleitung zu den geplanten Maßnahmen des Teams verwendet werden, aber manchmal sind Formulierungen wie „Was gut lief“ oder „Was nicht gut lief“ angebrachter.
Sollten innerhalb des Teams, das den Bericht erstellt, unterschiedliche Ansichten zu den Fragestellungen bestehen, ist auch das etwas, das festgehalten werden sollte! Unsicherheit ist ein wertvolles Signal.
Es gibt auch einige Punkte, die wir im Hinblick darauf klären müssen, was wir mit den von uns ergriffenen Maßnahmen erreichen wollen.
Fragt euch selbst: Sind wir das?
- Eine spezifische Problemlösung sofort, zielgerichtet und präzise angehen?
- Maßnahmen ergreifen, um eine ganze Kategorie potenzieller Probleme zu beseitigen?
- Sie unternehmen keine Maßnahmen, weil bereits größere Projekte im Gange sind, die eine gezielte Lösung schnell überflüssig machen würden? (Wenn ja, sollten diese größeren Projekte unbedingt kritisiert werden!)
- Keine nennenswerten Maßnahmen ergreifen, weil wir sie nicht für gerechtfertigt halten?
Mehr aus Obduktionen zu lernen und die Kommunikation darüber zu verbessern, hilft Ihnen, Ihre Dienstleistungen zu optimieren und die Anzahl und Schwere von Vorfällen zu reduzieren. Wir alle wünschen uns weniger schwere Zwischenfälle und mehr Ruhe – und das können wir erreichen, wenn wir sicherstellen, dass wir aus den vorhandenen Vorfällen so viel wie möglich lernen.
Schauen Sie unbedingt bei uns vorbei! Handbuch zur Leichenschau Hier teilen wir unsere praktischen Erfahrungen und zeigen Ihnen, wie Sie bessere Nachbesprechungen durchführen können. Oder steigen Sie direkt in das Produkt ein und testen Sie unseren optimierten Nachbesprechungsprozess, mit dem Sie Vorfallsberichte mit nur einem Klick erstellen können. Melden Sie sich für eine kostenlose Testversion an Los geht's!