Der Blog

Optimieren Sie Ihren Alarmverwaltungsprozess

von Christopher Tozzi 22. Februar 2017 | 7 Minuten Lesezeit

In einer einfacheren Welt würden alle Warnmeldungen gleich sein und Ihre Infrastruktur würde entweder vollständig funktionieren oder völlig kaputt sein – ohne einen Mittelweg.

In Wirklichkeit ist die Welt jedoch nicht so einfach. Besonders nicht heute, wenn Die Infrastruktur ist vielfältiger und komplexer als je zuvor .

Die Bewältigung dieser Komplexität erfordert einen anderen Ansatz für Überwachung und Alarmmanagement. Sie müssen viel mehr tun, als das Vorfallmanagement als einen Prozess zu betrachten, bei dem auf Alarme in der Reihenfolge ihres Eingangs reagiert wird oder davon ausgegangen wird, dass jeder Alarm Maßnahmen erfordert.

In diesem Beitrag wird erläutert, warum ein flexibler, differenzierter Ansatz für das Alarmmanagement so wichtig ist und wie dieser umgesetzt wird.

Moderne Infrastruktur ist komplex

Um zu verstehen, warum ein flexibler Alarmmanagementprozess unerlässlich ist, untersuchen wir die Faktoren, die moderne Infrastrukturen komplex machen. Beachten Sie die folgenden Punkte:

Die Infrastruktur ist stark geschichtet und voneinander abhängig

Früher gab es nur ein paar Bare-Metal-Server und -Workstations, und das war’s dann auch schon. Heute, im Zeitalter softwaredefinierter Systeme, ist Ihre Infrastruktur ein komplexer Stapel aus physischen und virtuellen Maschinen, softwaredefinierten Netzwerken, Thin Clients, zeitweise verbundenen Sensoren usw. – alles miteinander verflochten und übereinander geschichtet. Daher kann eine Warnung, die scheinbar von einer Quelle stammt (z. B. einer Docker-Anwendung), tatsächlich auf ein Problem in einem anderen Teil der Infrastruktur zurückzuführen sein (z. B. auf das Speicher-Array, mit dem Ihr Docker-Hostserver verbunden ist).

Manche Probleme sind schwerwiegender als andere

Dies ist für jeden, der Erfahrung im Incident Management hat, offensichtlich. Dennoch ist es wichtig zu betonen, wie breit das Spektrum der Probleme heutzutage sein kann und wie schwierig es ist, den Schweregrad einer Warnung schnell zu interpretieren. Beispielsweise mag eine Warnung, die Sie darüber informiert, dass ein Speicherserver nicht mehr reagiert, auf den ersten Blick sehr ernst erscheinen. Ist der Server jedoch Teil eines skalierten Speicherclusters mit automatischem Failover, hat die Ausfallzeit keine hohe Priorität. Es gehen wahrscheinlich keine Daten verloren und die Geschäftskontinuität wird nicht unterbrochen, wenn das Team nicht sofort auf das Problem reagiert. Darüber hinaus dienen einige Warnungen als Warnungen, sind aber nicht sofort umsetzbar. Diese Informationen sollten zwar zur Muster- und Anomalieerkennung auf Infrastrukturebene aufbewahrt werden, sollten aber unterdrückt werden, anstatt eine menschliche Reaktion auszulösen. Alarmmüdigkeit vorbeugen .

Echtzeitreaktion ist entscheidend

In der heutigen „Always-on“-Welt werden Benutzer in Echtzeit über Serviceausfälle informiert. Der Alarmverwaltungsprozess muss daher ebenfalls in Echtzeit erfolgen. Die Tatsache, dass Benutzer Probleme häufig an öffentlichen Orten melden, wie Social Media Kanäle Bevor Sie sich an Ihr Unternehmen wenden, ist eine Echtzeitlösung noch wichtiger. Seien Sie proaktiv statt reaktiv. Sie möchten nicht warten, bis Ihre Kunden eine Flut wütender Tweets generiert haben, bevor Sie auf eine ernste Warnung reagieren.

Die Anwendungsleistung ist wichtig

Es reicht nicht mehr aus, nur dafür zu sorgen, dass Ihre Anwendungen laufen. Sie müssen auch optimale Leistung erbringen, da Nutzer bei schlechter Leistung wenig Geduld haben. Wenn Ihre Website beispielsweise langsam ist, wechseln Kunden schon nach wenigen zehn Sekunden warten Aus Benachrichtigungssicht bedeutet dies, dass eine Benachrichtigung, wenn eine Anwendung nicht mehr reagiert, nicht ausreicht. Zwar ist die Überwachung der Verfügbarkeit entscheidend, Sie müssen aber auch Benachrichtigungen über schlechte Leistung erhalten. Darüber hinaus müssen Sie diese von Benachrichtigungen über fehlende Reaktionen unterscheiden können.

So funktioniert differenzierte Alarmierung in der Praxis

Nachdem Sie nun die Herausforderungen des modernen Alarmmanagements kennen, stellt sich die Frage, wie Sie diese lösen können.

Die Lösung besteht darin, Ihren Alarmmanagementprozess flexibler und agiler zu gestalten. Nutzen Sie Strategien wie die folgenden:

Machen Sie Warnungen mit hoher Priorität deutlich sichtbar

Um schnell auf die schwerwiegendsten Warnungen reagieren zu können, müssen Sie sie leicht erkennen können. Das ist schwierig, wenn Warnungen mit hoher und niedriger Priorität in Ihren Überwachungs-Dashboards vermischt sind. Es wird deutlich einfacher, wenn Sie ein Dashboard für Warnungen einrichten, die Ihre Überwachungssoftware als hochpriorisiert kennzeichnet.

Unterdrücken Sie nicht hilfreiche Warnungen

Das Eliminieren nicht hilfreicher Warnungen trägt auch wesentlich dazu bei, Ihre Dashboards zu entrümpeln und die Sichtbarkeit zu erhöhen. Sie können dies tun, indem Sie Unterdrückung von Warnungen für Ereignisse mit niedriger Priorität, wie die Erstellung eines neuen Benutzerkontos. Der Vorteil der Unterdrückung solcher Warnungen gegenüber ihrer vollständigen Deaktivierung besteht darin, dass die Warnungen weiterhin angezeigt werden und bei Bedarf abgerufen werden können, Administratoren aber nicht abgelenkt werden, wenn dringendere Warnungen zu bearbeiten sind.

Differenzierte Alarmberichterstattung und -unterdrückung

Beachten Sie, dass die Unterdrückung kein Entweder-oder-Vorschlag sein muss. Sie können einige Warnungen eines bestimmten Typs unter bestimmten Umständen unterdrücken, unter anderen jedoch nicht.

Beispielsweise möchten Sie Warnmeldungen zur Kontoerstellung unterdrücken, wenn diese während der Geschäftszeiten auftreten, also wenn Ihre Mitarbeiter normalerweise Konten erstellen. Wenn sie jedoch außerhalb dieses Zeitfensters auftreten, sollen diese Warnmeldungen sichtbar sein. Oder Sie möchten Warnmeldungen zu einem Serverneustart unterdrücken, sofern dieser nicht mehr als dreimal innerhalb eines festgelegten Zeitraums erfolgt.

Darüber hinaus ist es wichtig, Duplikate nach Möglichkeit zu entfernen und Verknüpfungen zwischen verwandten Warnmeldungen zu erstellen, um redundante Lösungs- und Kommunikationsbemühungen zu vermeiden.

Um die Anzahl der Warnmeldungen zu minimieren, ohne wichtige Ereignisse zu verpassen, sollten Sie die Warnmeldungen genauer sortieren, indem Sie Mechanismen wie Unterdrückung, Gruppierung verwandter Warnmeldungen und Anpassung der Benachrichtigungsschwellenwerte implementieren.

Senden Sie unterschiedliche Benachrichtigungen an unterschiedliche Personen

Ein Alarmmanagementprozess, der alle Alarme an alle Teammitglieder weiterleitet, ist ineffizient. Verschiedene Alarmtypen sollten je nach Fähigkeiten und Verfügbarkeit an verschiedene Teammitglieder weitergeleitet werden. Da sich letztere Variable ständig ändert, ist es umso wichtiger, Alarme flexibel versenden zu können. Ein Fachexperte, der heute noch verfügbar und bereit ist, einen Vorfall zu bearbeiten, kann in der nächsten Stunde bereits außer Dienst sein.

Indem Sie Warnmeldungen von Anfang an an die richtigen Personen senden, vermeiden Sie einen Großteil der manuellen Arbeit, die sonst erforderlich wäre, um Probleme zu priorisieren und den Mitarbeitern zuzuweisen.

Melden Sie mehr als nur Ausfallzeiten

Wie bereits erwähnt, bedeutet erfolgreiches Alarmmanagement heute, Leistungseinbußen zu erkennen, nicht nur Totalausfälle. Daher ist es wichtig, Monitoring-Software so zu konfigurieren, dass sie Warnmeldungen ausgibt, wenn Systeme ihre Kapazitätsgrenzen erreichen (z. B. wenn die Netzwerkauslastung 80 Prozent überschreitet oder die Nachfrage nach einer Anwendung einen ungewöhnlichen Schwellenwert erreicht, diesen aber noch nicht überschritten hat).

Natürlich müssen Sie diesen Warnmeldungen nicht die gleiche Priorität einräumen wie Warnmeldungen, die einen Totalausfall signalisieren. Letztere Vorfälle sollten unbedingt sofort erkannt und bearbeitet werden. Sie sollten aber auch nicht warten, bis etwas komplett ausfällt, bevor Sie reagieren. Optimieren Sie stattdessen Ihren Warnprozess, um Leistungsprobleme zu beheben, lange bevor sie zu Ausfallzeiten führen.

Im DevOps Infrastrukturen sind heutzutage flexibel. Ihr Alarmmanagementprozess muss es auch sein. Die Zeiten, in denen man davon ausging, dass alle Alarme gleich wichtig sind oder jeder Alarm gemeldet und überprüft werden muss, sind vorbei. Um die komplexe, sich ständig verändernde Infrastruktur von heute zu überwachen und nicht überfordert zu werden, ist ein optimierter Alarmierungsansatz erforderlich. Dieser optimiert die Fähigkeit einer IT-Organisation, Alarme entsprechend ihrer Wichtigkeit zu identifizieren und zu interpretieren.