Blog

Lasst uns über Aufmerksamkeitsmüdigkeit sprechen.

von Julie Arsenault 3. September 2014 | 5 Minuten Lesezeit

Dies ist der erste Beitrag unserer Reihe darüber, wie Sie Daten zur Verbesserung Ihrer IT-Abläufe nutzen können. Der zweite Beitrag handelt von … Best Practices, um Ihre Kennzahlen aussagekräftig zu gestalten in PagerDuty.

Screen Shot 2014-08-28 at 4.44.31 PM Die Flut an Warnmeldungen ist ein Problem, das sich nicht leicht lösen lässt, aber Sie können schon heute Maßnahmen ergreifen, um die Situation zu verbessern. Mithilfe der Daten zu Ihren Warnmeldungen können Sie gezielt in die Bereinigung Ihrer Überwachungssysteme investieren und irrelevante Warnmeldungen vermeiden.

Um Ihnen dabei zu helfen, haben wir einen 7-stufigen Prozess zur Bekämpfung von Alarmmüdigkeit zusammengestellt.

Reduzierung der Alarmmüdigkeit in 7 Schritten

1. Sich zum Handeln verpflichten

Die Bereinigung von Überwachungssystemen ist schwierig, und man gewöhnt sich leicht an hohe Alarmstufen. Der erste Schritt ist jedoch, sich zum Handeln zu entschließen. Werfen Sie einen kurzen Blick auf Ihre Daten. Wie viele Alarme erhalten Sie außerhalb der Geschäftszeiten, und welche Auswirkungen haben diese auf Ihr Team?

Screen Shot 2014-08-28 at 4.49.01 PM Nehmen Sie sich anschließend als Team Zeit, um Ihre Benachrichtigungs-Workflows zu optimieren. Etsy hat dazu einen festgelegten Zeitraum genannt. „Hack Week“ um ihr großes Überwachungshygieneproblem anzugehen, aber es könnte auch funktionieren, sich ein paar Stunden pro Woche oder einen Tag pro Monat dafür zu reservieren.

 

2. Nicht relevante Warnmeldungen ausblenden und Schwellenwerte anpassen

Beginnen Sie mit der Überprüfung Ihrer häufigsten Warnmeldungen (Tipp: Sie können in PagerDutys neuem Menüpunkt „Vorfälle genauer analysieren“). Erweiterte Berichte Sammeln Sie die Personen, die kürzlich Bereitschaftsdienst hatten, und prüfen Sie für jede Warnung, ob Handlungsbedarf bestand.

Sobald Sie nicht relevante Warnmeldungen gefunden haben, entfernen Sie diese.

Es ist üblich, die CPU- und Speicherauslastung zu überwachen und Warnungen auszugeben, da diese auf Probleme hinweisen. Die Messwerte allein sind jedoch nicht handlungsrelevant, da sie keine konkreten Informationen über die Ursache des Problems liefern. Etsy hat die Überwachung dieser Messwerte eingestellt und sich stattdessen auf Prüfungen konzentriert, die spezifischere und handlungsrelevante Informationen liefern.

Möglicherweise müssen Sie auch die Schwellenwerte Ihrer Prüfungen anpassen. Dan Slimmon von Exosite hielt einen sehr guten Vortrag. „Rauchmelder und Autoalarmanlagen“ Der Vortrag erläutert, wie zwei Konzepte aus der medizinischen Diagnostik helfen können, nur dann Alarm auszulösen, wenn tatsächlich ein Problem vorliegt. Diese Konzepte sind Sensitivität und Spezifität. Zusammen ergeben sie den positiven Vorhersagewert (PPV) – die Wahrscheinlichkeit, dass bei einem Alarm tatsächlich ein Problem besteht. Der Vortrag stellt außerdem Strategien zur Verbesserung des PPV vor, beispielsweise durch Hysterese (Berücksichtigung historischer Werte zusätzlich zu den aktuellen Werten) und weitere Techniken.

3. Nicht schwerwiegende Vorfälle sollten auf den Morgen verschoben werden.

Obwohl alle Benachrichtigungen wichtig sind, sind manche nicht dringend. Diese nicht dringenden Angelegenheiten sollten Sie und Ihr Team nicht mitten in der Nacht wecken. Erstellen Sie separate Arbeitsabläufe für weniger schwerwiegende Vorfälle, damit diese Ihren Schlaf oder Ihren Arbeitstag nicht stören. Vergessen Sie in PagerDuty nicht, die Optionen „Timeout für die Vorfallbestätigung“ und „Automatische Vorfallbehebung“ für Dienste mit niedriger Priorität zu deaktivieren.

4. Zusammengehörige Warnmeldungen zusammenfassen

Wenn ein Fehler auftritt, erhalten Sie möglicherweise mehrere Warnmeldungen zum selben Problem. Nutzen Sie die Überwachung von Abhängigkeiten, sofern möglich, und wenden Sie unsere Best Practices zur Warnmeldungskonsolidierung in PagerDuty an.

  • Verwenden Sie einen Vorfallsschlüssel Um PagerDuty mitzuteilen, dass bestimmte Ereignisse zusammenhängen. Wenn beispielsweise mehrere Server ausfallen, kann jeder einzelne Ausfall eine Benachrichtigung an PagerDuty auslösen. Wenn diese Benachrichtigungen jedoch alle denselben Vorfallsschlüssel haben, werden sie zu einer einzigen Warnung zusammengefasst, die Sie darüber informiert, dass 30 Server ausgefallen sind.
  • Bei einer Flut von Alarmen bündelt PagerDuty auch Alarme, die nach dem ersten Ereignis ausgelöst werden. Wenn beispielsweise innerhalb einer Minute nach Ihrem ersten Alarm zehn Ereignisse ausgelöst werden, erhalten Sie eine einzige, zusammengefasste Alarmmeldung.

5. Geben Sie den Benachrichtigungen relevante Namen und Beschreibungen.

Nichts ist ärgerlicher, als eine Benachrichtigung zu erhalten, dass etwas nicht funktioniert, ohne Informationen, die einem helfen, den Schweregrad des Problems einzuschätzen und zu wissen, was als Nächstes zu tun ist.

  • Geben Sie Ihren Warnmeldungen aussagekräftige Namen. Wenn Sie einen Messwert angeben (z. B. den belegten Speicherplatz), stellen Sie sicher, dass genügend Kontext vorhanden ist, damit die Zahl richtig eingeordnet werden kann. Ist der Speicherplatz zu 80 % oder zu 99 % belegt?
  • Fügen Sie der Alarmbeschreibung relevante Informationen zur Fehlerbehebung hinzu, z. B. einen Link zu vorhandener Dokumentation oder Runbooks, die dem Team helfen, das Problem genauer zu untersuchen. In PagerDuty können Sie eine solche hinzufügen. Client-URL zum Vorfall oder fügen Sie einen Link zum Runbook in die Servicebeschreibung ein.

6. Stellen Sie sicher, dass die richtigen Personen Benachrichtigungen erhalten.

Wenn Teams mit der Überwachung beginnen, senden sie häufig alle Warnmeldungen an alle. Niemand möchte irrelevante Warnmeldungen erhalten. Wenn also verschiedene Teams für bestimmte Teile Ihrer Infrastruktur zuständig sind, verwenden Sie Eskalationsrichtlinien in PagerDuty , um Warnmeldungen gezielt weiterzuleiten.

7. Halten Sie es mit regelmäßigen Rezensionen auf dem Laufenden.

Lass deine Aufräumarbeit nicht umsonst sein. Richte einen wöchentlichen Prozess ein, um Benachrichtigungen zu überprüfen. Etsy hat einen praktischen wöchentlichen Überprüfungsprozess entwickelt, den sie „Etsy“ nennen. „Opsweekly“ (GitHub-Repository) Hier ), aber wir haben von anderen Unternehmen gehört, die bei wöchentlichen Überprüfungen eine Tabellenkalkulation verwenden.

Um zu verhindern, dass Alarmmüdigkeit zur neuen Normalität wird, sollten messbare Kennzahlen für die Rufbereitschaft festgelegt werden. Werden diese Grenzwerte erreicht, ist es Zeit zu handeln – sei es durch Aufräumarbeiten oder eine kurze Auszeit. Bei PagerDuty analysieren wir wöchentlich die Anzahl der eingehenden Alarme. Liegt diese Zahl bei einem Rufbereitschaftsteam über 15, führen wir eine Nachbesprechung durch, um die Alarme zu analysieren.

Am wichtigsten ist es, dass Sie als Team die Verantwortung für die Überwachung der Hygiene übernehmen – Wenn Sie auch nur einmal eine Warnung erhalten, die keine Handlungsaufforderung darstellt, machen Sie es zu Ihrer Verantwortung sicherzustellen, dass niemand jemals wieder wegen dieser Warnung geweckt wird.

Zusätzliche Ressourcen:

Monitoring_Ebook_728_90