- PagerDuty /
- Blog /
- Nicht kategorisiert /
- Kurztipps: Wie man jeden Vorfall im Nachhinein analysiert
Blog
Kurztipps: Wie man jeden Vorfall im Nachhinein analysiert
Argumente für die nachträgliche Untersuchung jedes Vorfalls
A post mortem ist ein Verfahren zur Untersuchung eines Vorfalls, um herauszufinden, was schiefgelaufen ist und was daraus gelernt werden kann. Wir haben geschrieben vor darüber, warum man nicht nur schwerwiegende Vorfälle posten sollte, sondern veröffentliche sie Das gilt auch. Man sollte aber nicht nur bei größeren Vorfällen Obduktionen durchführen. Grundsätzlich empfehlen wir, jedem Vorfall nachzugehen, insbesondere wenn er jemanden aufgeweckt hat. Jeder Vorfall bietet die Möglichkeit, als Team zu lernen und Ihr Produkt zu verbessern. Es gibt jedoch keinen Grund, warum dies immer ein aufwendiger Prozess sein muss.
Tipps, wie es leichter geht
Hier sind einige Tipps, wie es schnell und einfach geht:
- Legen Sie einen Schwellenwert fest, ab dem eine vollständige Teamanalyse durchgeführt wird. Bei PagerDuty prüft das Team alle Sev1- und Sev2-Fehler sowie alle Prozesse, bei denen ein Fehler aufgetreten ist. Alle anderen Fälle werden von einer einzelnen Person geprüft.
- Kleinere Vorfälle sollten zusammengefasst und eine Woche lang analysiert werden (Tipp: PagerDuty). Analysefunktionen (Ist dafür hervorragend geeignet). Der beste Zeitpunkt ist wahrscheinlich die Übergabe am Schichtende.
- Ziel ist es, Ihre verschiedenen Lösungsbemühungen zu priorisieren, nicht Schuld zuweisen Die
- Die Ergebnisse können einfach sein, wie die folgenden Beispiele zeigen:
- Die Alarmierungsschwelle des betreffenden Überwachungstools anpassen. (Meiner Erfahrung nach wird dies zu selten angewendet.)
- Hinzufügen eines neuen Filters in PagerDuty über E-Mail-Filter , Unterstützungsstunden oder nutzen Sie unser neues Veranstaltungsbereicherung Plattform-Beta.
- Wiederkehrende, weniger dringliche Vorfälle werden gezählt. Die meisten Probleme sind nicht geschäftskritisch, aber Sie sollten trotzdem erfassen, wie häufig sie auftreten, damit sie priorisiert und bei verfügbarer Kapazität behoben werden können.
- Die Weiterleitung einer bestimmten Benachrichtigung anpassen.
- Automatische Terminplanung ein Wartungsfenster, falls alles andere fehlschlägt (ich persönlich empfehle diese Lösung nicht, aber sie ist eine gängige Anwendung unserer API .)
- Aktualisierung des Runbooks (und Verlinkung in der Servicebeschreibung, damit die Einsatzkräfte es sehen).
- Verfolgen Sie einige grobe Schätzungen, wie störend Ein bestimmter Vorfall in einer Schicht kann für Ihr Team relevant sein. Hat sich die Situation in den letzten Schichten verbessert oder verschlechtert? Folgen Ihre Vorfälle einem Potenzgesetz (ein großer Vorfall, viele kleine) oder müssen Sie ständig nur kleinere Brände löschen?
- Fügen Sie sämtliches verfügbares Rohmaterial (Protokolle, Chatprotokolle usw.) als Anhänge in Ihr Dokument „Grund für den Ausfall“ (RFO) aufzunehmen.
Nachanalysen verbessern Ihr Produkt
Wenn die Vorstellung, jeden Vorfall im Nachhinein zu analysieren, schon anstrengend ist, dann ist es umso wichtiger. Mit diesen Tipps können Sie Ihr Team ganz einfach effizienter im Umgang mit Ausfällen – ob groß oder klein – machen. Außerdem kann Ihr Team so eine Dokumentationsbibliothek aufbauen, die Ihnen bei der Einarbeitung, Schulung und dem allgemeinen Verständnis für die Produktentwicklung hilft.
