- PagerDuty /
- Der Blog /
- Vorfallmanagement und -reaktion /
- Nach der Katastrophe: Wie man aus historischen Incident-Management-Daten lernt
Der Blog
Nach der Katastrophe: Wie man aus historischen Incident-Management-Daten lernt
Ihr Geschichtslehrer an der High School hat Ihnen zweifellos eine Variation von George Santayanas berühmter Bemerkung erzählt: „ Wer sich nicht an die Vergangenheit erinnern kann, ist dazu verdammt, sie zu wiederholen. „
Ich bin mir ziemlich sicher, dass Santayana dabei nicht an das Vorfallmanagement dachte. Aber seine Weisheit ist immer noch gültig – und es lohnt sich, sie zu beherzigen, wenn Sie für das Vorfallmanagement verantwortlich sind.
Der Hauptzweck des Incident Managements besteht darin, Probleme erkennen und lösen die Ihre Infrastruktur betreffen, aber Ihr Incident-Management sollte hier nicht enden. Anstatt nur auf Kundentickets zu reagieren, sollten Sie auch die umfangreichen Datenmengen Ihrer Warnsysteme nutzen, um Probleme proaktiv zu erkennen und zu verhindern. So gewinnen Sie Erkenntnisse, die Ihnen helfen, Ihre Infrastruktur in Zukunft widerstandsfähiger zu machen.
In diesem Beitrag werde ich einige Strategien für die Arbeit mit historischen Vorfallmanagementdaten skizzieren, darunter, wie Daten gesammelt und analysiert werden und worauf bei der Arbeit mit diesen Informationen zu achten ist.
Speichern und standardisieren Sie Ihre Daten
Der erste Schritt bei der Analyse historischer Incident-Management-Daten besteht darin, eine standardisierte Methode zum Sammeln und Analysieren der Informationen zu finden. Dies kann eine Herausforderung sein, da Menge und Format der historischen Protokolldaten stark variieren. verschiedene Überwachungssysteme .
Einige Überwachungssysteme liefern kaum protokollierte Daten, die Sie im Nachhinein untersuchen können. Zum Beispiel: Pingdom ist ein großartiges Tool für die Echtzeitüberwachung, aber da es entwickelt wurde, um Ihnen mitzuteilen, was jetzt passiert, und nicht, was gestern passiert ist, liefert es selbst nicht viele historische Daten.
Andere Überwachungssysteme speichern Daten nur für begrenzte Zeit oder in schwer zu verarbeitenden Formaten. Um beispielsweise Snort-Daten zu analysieren, müssen Sie möglicherweise Paketdumps durchforsten. Sofern Sie nicht gerade Wireshark als bevorzugte Methode für Ihren Freitagabend nutzen, ist das eine Menge Arbeit.
Wenn Sie viele Überwachungssysteme im Einsatz haben, speichern diese die Daten wahrscheinlich an verschiedenen, verstreuten Orten. Einige Tools schreiben Protokolle in /var/log auf lokalen Rechnern, wo sie schwer zu finden sind und möglicherweise durch Wartungsskripte gelöscht werden. Andere speichern Protokolle für unterschiedlich lange Zeiträume in der Cloud – nicht ideal, wenn Sie alle historischen Daten auf einmal analysieren möchten.
Um Ihre Vorfallmanagementdaten optimal zu nutzen, sollten Sie aus diesen Gründen zwei Dinge beachten:
- Senden Sie Warnungen und Protokolle an einen zentralen Sammelpunkt, wo sie so lange gespeichert werden können, wie Sie sie benötigen (und nicht so lange, wie das ursprüngliche Überwachungssystem oder der lokale Speicher sie unterstützt).
- Konvertieren Sie die Daten an Ihrem Erfassungspunkt in ein Standardformat – und gewinnen Sie umsetzbare Erkenntnisse und Erkenntnisse, die in die Infrastruktur reinvestiert werden können (mit einem Prozess wie Vorfall-Postmortems ).
Werkzeuge wie Logstash , Splunk Und Papierspur können hier hilfreich sein. Sie helfen dabei, Daten aus isolierten Standorten zu sammeln und an einen zentralen Speicherort weiterzuleiten.
PagerDuty geht noch einen Schritt weiter, indem es Ihnen ermöglicht, Daten aus diesen und anderen Quellen zu importieren und sie in eine standardisiertes Format , und Zentralisierung und Kreuzkorrelation von Daten mit Visualisierungen, die Muster und Trends aufzeigen und zur Identifizierung der Grundursache und mehr genutzt werden können.
Anzeigen und Analysieren Ihrer Daten
Das Speichern Ihrer Daten ist nur die halbe Miete. Die andere Herausforderung besteht darin, sie anzuzeigen und zu analysieren.
In den meisten Fällen ist die einfachste Möglichkeit, Ihre Daten anzuzeigen, eine webbasierte Schnittstelle. Idealerweise verfügt diese über eine ausgefeilte Suche, mit der Sie bestimmte Ereignisse in Ihren Protokollen finden, den aktuellen Status von Vorfällen überwachen usw. können. Deshalb ist die Möglichkeit, Filtern und Suchen über Ihre gesamte Infrastruktur mit normalisierten Feldern ist so hilfreich.
Die Weboberfläche eignet sich zwar gut zum Aufspüren kleinerer Trends oder zum Nachverfolgen des Verlaufs eines bestimmten Vorfalltyps, doch für ein Gesamtbild benötigen Sie Bilder. Tabellen und Warnlisten helfen Ihnen nicht, systemweite Trends zu verstehen. Visualisierungen basierend auf Ihren Vorfallmanagementdaten, wie beispielsweise PagerDuty in Berichte einbeziehen , helfen Ihnen, Informationen im großen Maßstab zu interpretieren.
Zu guter Letzt – insbesondere wenn Sie Daten programmgesteuert analysieren – gibt es APIs, mit denen Sie Ihre Protokolldaten bei Bedarf exportieren können. Die PagerDuty API erleichtert das Sammeln und Exportieren von Protokolldaten in welchem Format Sie auch immer benötigen (und die Events API v2 normalisiert außerdem automatisch alle Daten in ein gemeinsames Format).
Worauf Sie achten sollten
Worauf sollten Sie nach der Datenanalyse achten? Ihre genauen Anforderungen hängen natürlich von der Art der zu überwachenden Infrastruktur ab. Einige allgemeine Punkte, die Sie beachten sollten, sind:
- Die Häufigkeit, mit der Vorfälle auftreten. Wenn sich diese Zahl im Laufe der Zeit ändert, möchten Sie wissen, warum.
- Mittlere Zeit bis zur Bestätigung (MTTA) und mittlere Zeit bis zur Lösung von Vorfällen (MTTR) Indem Sie diese Zahlen im Auge behalten, wissen Sie, wie effektiv Ihr Team seine Aufgaben im Vorfallmanagement bewältigt.
- Wer in Ihrem Team kümmert sich am meisten um die Alarme? Wenn Sie das wissen, können Sie die Mitglieder nicht nur für ihre harte Arbeit belohnen, sondern auch feststellen, ob Ihre Alarme richtig verteilt werden und die richtigen Personen erreichen. Wenn beispielsweise ein Administrator mehr Alarme erhält, als ihm zusteht, sollten Sie die Maßnahmen anpassen, damit er nicht überlastet wird. das führt zu Alarmmüdigkeit , und das will niemand.
- Welche Überwachungssysteme erzeugen die meisten Warnmeldungen? Wenn Sie die Warnmeldungen Ihrer verschiedenen Überwachungssysteme, wie oben vorgeschlagen, an einem einzigen Protokollierungsort zusammenfassen, können Sie auch feststellen, welche Systeme Ihnen die meisten Informationen liefern. So erkennen Sie, ob ein System unterdurchschnittliche Leistung erbringt oder zu viele Störungen verursacht, und können Ihre Warnschwellen entsprechend anpassen.
Wenn Sie diese Tipps befolgen, müssen Sie sich nicht immer wieder mit denselben Vorfällen auseinandersetzen. Stattdessen können Sie die großen Trends erkennen und so Ihre Infrastruktur insgesamt effektiver gestalten.
Und genau hier kann sich Incident Management wirklich auszahlen. Denken Sie an eine andere oft zitierte Maxime: „ Vorbeugen ist besser als heilen. „Die Reaktion auf Vorfälle ist die Lösung, aber die Schaffung einer kontinuierlichen Feedbackschleife mit historischen Daten zum Vorfallmanagement ist die beste Vorgehensweise, die Prävention ermöglicht.“