Der Blog

Einführung in den PagerDuty Postmortem Guide

von Rachael Byrne 1. Februar 2019 | 5 Minuten Lesezeit

Ihr Team hatte stundenlang mit diesem schwerwiegenden Vorfall zu kämpfen, doch Ihre Untersuchung geriet in eine Sackgasse nach der anderen. Schließlich gelang es Ihnen, das Problem zu isolieren, und Ihre Diagramme begannen sich zu verbessern. Als alle Systeme wieder normal funktionierten, atmeten alle erleichtert auf, beendeten den Einsatz und gingen zurück ins Bett, um nie wieder an diesen Vorfall zu denken.

Das dachten Sie zumindest.

Bevor Ihr Team weitermachen kann, muss es noch eine weitere Aufgabe erledigen: eine Post-Mortem-Analyse. Warum? Post-Mortem-Analysen sind wichtig, weil sie dazu beitragen, eine Kultur der kontinuierlichen Verbesserung zu etablieren.

Ohne eine Postmortem-Analyse verpassen Sie und Ihr Team die Gelegenheit zu erfahren, was Sie richtig machen, wo Verbesserungspotenzial besteht und vor allem, wie Sie dieselben Fehler vermeiden können. Eine gut konzipierte, schuldfreie Postmortem-Analyse hilft Ihrem Team, seine Infrastruktur und seinen Incident-Response-Prozess zu verbessern.

Wir freuen uns, Ihnen mitteilen zu können, dass wir einen umfassenden Leitfaden zur Durchführung effektiver Obduktionen . Keine andere Ressource (die wir gefunden haben) deckt die Nuancen des Kulturwandels, die Details einer gründlichen Analyse und die besonderen Fähigkeiten ab, die für ein ruhiges und anregendes Gespräch über Misserfolge erforderlich sind. Wir erklären, warum diese Konzepte wichtig sind, beschreiben die Herausforderungen ihrer Umsetzung und bieten praktische Anleitungen für die Durchführung von Post-Mortem-Analysen ohne Schuldzuweisungen.

Wenn Sie noch keine Post-Mortem-Meetings durchführen, vermittelt Ihnen dieser Leitfaden das nötige Wissen und die Strategien für die Einführung eines neuen Prozesses in Ihrem Unternehmen. Wer bereits Erfahrung mit Post-Mortem-Meetings hat, lernt, wie man der natürlichen Tendenz zur Schuldzuweisung entgegenwirkt, neue Fragestellungen für eine tiefere Vorfallanalyse entwickelt, Post-Mortem-Meetings besser nutzt und weitere Möglichkeiten zur Verbesserung Ihres bestehenden Prozesses erfährt.

Bei der Reaktion auf einen Vorfall konzentriert sich das Team voll und ganz auf die Wiederherstellung des Dienstes. Es kann und sollte keine Zeit und geistige Energie darauf verschwenden, darüber nachzudenken, wie man etwas optimal angeht, oder sich eingehend mit der Ursache des Vorfalls auseinanderzusetzen. Deshalb sind Post-Mortem-Analysen so wichtig – sie bieten eine ruhige Gelegenheit zum Nachdenken, sobald das Problem die Benutzer nicht mehr beeinträchtigt. Der Postmortem-Prozess fördert die Konzentration, schafft eine Lernkultur und identifiziert Verbesserungsmöglichkeiten, die sonst verloren gehen würden.

Moment, was genau ist eine Vorfall-Postmortem-Analyse?

Der Vorfall-Postmorte hat viele Namen. Sie kennen es vielleicht als:

  • Lernrückblick
  • Nachbesprechung
  • Vorfallsüberprüfung
  • Vorfallsbericht
  • Überprüfung nach einem Vorfall
  • Ursachenanalyse (oder RCA)

Im Kern ist die Postmortem-Analyse ein Dokument, das die situativen Faktoren, die zum Vorfall geführt haben, die ergriffenen Maßnahmen zur Reaktion darauf und die geplanten Maßnahmen zur Verhinderung eines erneuten Vorfalls detailliert beschreibt. Der Postmortem-Prozess umfasst auch ein Meeting, in dem die Ergebnisse der Analyse besprochen und die Erkenntnisse mit der gesamten Organisation und Ihren Kunden geteilt werden.

Nach der Lösung eines schwerwiegenden Vorfalls sollten Sie und Ihr Team über die Postmortem-Analyse nachdenken, solange der Vorfall noch frisch in Erinnerung ist. Bei PagerDuty führen wir Postmortem-Analysen innerhalb von fünf Tagen nach jedem schwerwiegenden Vorfall durch. So wie die Lösung des Vorfalls bei seinem Auftreten oberste Priorität hat, hat auch die Durchführung der Postmortem-Analyse Vorrang vor geplanten Arbeiten. Das Aufschieben der Postmortem-Analyse verzögert wichtige Erkenntnisse, die ein erneutes Auftreten des Vorfalls verhindern können.

Die schuldlose Obduktion

Als IT-Experten wissen wir, dass es in komplexen Systemen zu Fehlern kommt – sie sind unvermeidlich. Und es ist wichtig, wie wir auf Fehler reagieren, wenn sie auftreten. Der Impuls, einzelne Personen für die Verursachung von Vorfällen verantwortlich zu machen und zu bestrafen, hat den unbeabsichtigten Effekt, dass der Wissensaustausch, der zur Vermeidung künftiger Vorfälle erforderlich ist, entmutigt wird. Ingenieure zögern, sich bei Vorfällen zu äußern, aus Angst, beschuldigt zu werden. Dieses Schweigen verschärft die Auswirkungen von Vorfällen, da es die durchschnittliche Zeit bis zur Feststellung und Lösung des Problems verlängert.

Damit der Post-Mortem-Prozess zu Systemverbesserungen und Lerneffekten führt, müssen wir menschliche Fehler als Symptom eines systemischen Problems, nicht die Ursache selbst. In komplexen Systemen der Softwareentwicklung führen verschiedene Bedingungen zusammen und zum Ausfall. Das Ziel der Post-Mortem-Analyse besteht darin, zu verstehen, welche systemischen Faktoren zu dem Vorfall geführt haben, und Maßnahmen zu identifizieren, mit denen ein erneutes Auftreten derartiger Fehler verhindert werden kann.

Eine schuldlose Obduktion konzentriert sich auf Wie ein Fehler gemacht wurde, anstatt WHO den Fehler gemacht. Dies ist ein wichtiges Tool, das von vielen führenden Organisationen wie Etsy (einem Pionier für schuldlose Obduktionen ), um sicherzustellen, dass Post-Mortem-Analysen den richtigen Ton haben und Ingenieuren die Möglichkeit geben, wirklich objektive Berichte über das Geschehene abzugeben, indem ihnen die Angst vor Bestrafung genommen wird.

Es ist leicht, sich auf eine Kultur der kontinuierlichen Verbesserung zu einigen, aber es ist schwierig, die für das Lernen erforderliche Schuldlosigkeit zu praktizieren. Die inhärent überraschende Natur des Scheiterns führt dazu, dass Menschen auf eine Weise reagieren, die unser Verständnis beeinträchtigt. Bei der Verarbeitung von Informationen wählt der menschliche Verstand unbewusst Abkürzungen, um Aktualität gegenüber Genauigkeit zu optimieren, was manchmal zu falschen Schlussfolgerungen führt. In unserem Leitfaden beschreiben wir viele kognitive Verzerrungen die die postmortale Analyse beeinträchtigen, und Strategien zu ihrer Überwindung.

Wenn Sie das nächste Mal auf einen schwerwiegenden Vorfall stoßen, denken Sie daran, dass Ihre Reaktion erst nach der Obduktion abgeschlossen ist. Auch wenn die Reaktion auf schwerwiegende Vorfälle manchmal schmerzhaft ist, bietet sie auch eine unglaubliche Gelegenheit, zu lernen und Ihre Systeme und Prozesse nachhaltig zu verbessern.

Werfen Sie einen Blick auf unseren neuen Leitfaden, um mehr über die Schritte zu erfahren, die bei der Postmortem-Prozess . Wir würden auch gerne Ihre Techniken für die Durchführung von Post-Mortem-Analysen ohne Schuldzuweisungen in unserem Community-Foren !