Der Blog

Entfernen Sie den Lärm, um Alarmmüdigkeit zu heilen

von Vivian Au 28. Oktober 2013 | 4 Minuten Lesezeit

Arup PagerDuty Anfang dieses Monats um Nagios World Conference Nordamerika Arup Chakrabarti, Operations Engineering Team Lead bei PagerDuty, hielt einen Vortrag zum Thema „Was Sie in einem Produktionssystem überwachen und alarmieren sollten“ und erläuterte, wie Sie nützliche Metriken für umsetzbare Alarme herausfiltern können. Falls Sie es auf der Konferenz verpasst haben, möchten wir Ihnen einige seiner Best Practices zum IT-Alarmmanagement vorstellen.

Warum gibt es ein Alarmierungsproblem?

Computer werden immer günstiger und Automatisierungen einfacher. Dadurch ist es zwar einfach, Benachrichtigungen zu fast allen Themen zu erhalten, aber deren Verwaltung ist schwierig. Wenn Sie Google Alerts abonnieren, um ein beliebiges Thema zu verfolgen, wissen Sie, was ich meine. Anfangs ist es toll, E-Mail-Benachrichtigungen zu „süßen Welpen“ zu erhalten, da sie einem ein Lächeln ins Gesicht zaubern. Allerdings entspricht der Inhalt nicht ganz Ihren Wünschen und ist nicht immer das Richtige. Anstatt sich auf diese Benachrichtigungen zu verlassen und wertvolle Informationen zu erhalten, werden sie nur zu Lärm.

Dasselbe gilt für die Überwachung und Warnmeldungen von IT-Anwendungen. Da die Kosten für die Datenerfassung sinken, erfassen Überwachungsanwendungen immer mehr Daten. Das ist zwar für die Analyse von Vorteil, das Problem liegt jedoch darin, dass die Warnmeldungen im gleichen, exponentiellen Tempo zunehmen. Die Menschen werden gegenüber Warnmeldungen abgestumpft, was die Wirksamkeit dieser Maßnahmen mindert. Timing und Relevanz sind entscheidend für das Warnmeldungsmanagement. Um die Störfaktoren zu beseitigen, deaktivieren Sie daher unwichtige Warnmeldungen.

Verfügbarkeitswarnungen: Welche Warnungen sollten deaktiviert werden?

Zunächst mag es schwierig erscheinen, herauszufinden, welche Warnmeldungen deaktiviert werden sollten, da die Angst besteht, Warnmeldungen zu übersehen, die auf ein großes Problem hinweisen. Ein gutes Maß für die Bedeutung von IT-Warnmeldungen ist die Auswirkung auf Ihre Kunden oder die Verfügbarkeitswarnung. Wenn bei einem E-Commerce-Händler die Checkout-Seite des Warenkorbs nicht funktioniert, ist dies ein Problem, das sofort behoben werden muss. Liegt jedoch ein Problem mit dem Lastenausgleich vor, das das Surf- oder Kauferlebnis des Kunden nicht beeinträchtigt, ist möglicherweise keine Warnmeldung erforderlich. E-Commerce-Händler sollten ihre Warnmeldungen auf die Auswirkungen auf die Verfügbarkeit der gewünschten Kundenaktionen auf der Website konzentrieren.

IT alerts Die Analyse des Alarmverlaufs hilft auch bei der Bestimmung des Schweregrads eines Vorfalls. PagerDuty -Kunden können ermitteln, wie viele Alarme sie pro Woche erhalten haben, und sich bei jedem Alarm fragen: Wurden Maßnahmen ergriffen? War ein Kunde betroffen? Hatte ich die volle Kontrolle? Anfangs erfordern Alarme mit niedrigem Schweregrad um 3 Uhr morgens einen Techniker, der den Vorfall bestätigt, bestätigt, dass er unkritisch ist, sich wieder schlafen legt und die Ursache am nächsten Tag behebt. Indem er Alarme in den Überwachungstools mit den Schweregraden 1, 2, 3 usw. kennzeichnet oder Schwellenwerte festlegt, kann er unkritische Alarme schließlich mitten in der Nacht deaktivieren und sich am nächsten Morgen darum kümmern. So bleibt Raum, nur Alarme mit hohem Schweregrad über PagerDuty zu übermitteln, und die Alarmmüdigkeit wird reduziert.

Wachen Sie auf, wenn Sie es brauchen

Puppy Wenn Probleme mit Schweregrad 3 oder höher auftreten, die keine Kunden betreffen, muss der Techniker dann wirklich die ganze Nacht wach bleiben, um sie zu quittieren? Wahrscheinlich nicht. Diese Warnmeldungen sollten zusammengefasst und am nächsten Tag bearbeitet werden. Durch die Analyse von Vorfallmustern und Schweregrad können Warnmeldungen eine wirksame Lösung sein, um bei großen Problemen die Dringlichkeit aufrechtzuerhalten und die mittlere Zeit bis zur Lösung (MTTR) zu verkürzen. Ähnlich wie bei süßen Bichon Frisé-Welpen kann es Technikern ein Lächeln ins Gesicht zaubern, wenn sie während der Bereitschaft einen Vorfall mit geringem Schweregrad verschlafen können.

Nagios-Weltkonferenz NA 2013: Was Sie in einem Produktionssystem überwachen und melden sollten (Video)