Blog

Festlegung der Priorität von Vorfällen

von Michael Churchman 20. Juni 2017 | 5 Minuten Lesezeit

Benachrichtigungen. Sie häufen sich so schnell. Eben noch sieht man nur eine Handvoll Benachrichtigungen, wenige Stunden – oder vielleicht sogar Minuten – später ist es ein ganzer Berg. Wie behält man da den Überblick und verhindert, dass die Einsatzkräfte völlig überfordert werden?

Das sind äußerst wichtige Fragen. Wenn Ihr Alarmmanagementsystem mit Fehlalarmen überflutet wird und die Einsatzteams sich in einem permanenten Ausnahmezustand befinden Alarmmüdigkeit Dann könnten Sie sich auch gleich das IT-Alarmmanagementsystem sparen. Übermäßiger Lärm und Müdigkeit durch ständige Aufmerksamkeit die Effektivität des Alarmmanagementsystems vollständig reduzieren.

Filter anwenden: Warnungen zu Vorfällen

Die Optimierung Ihres Alarmmanagementsystems hängt maßgeblich von einer schnellen und präzisen Methode zur Zusammenfassung zusammengehöriger Alarme zu Vorfällen und zur Festlegung ihrer Priorität ab. Die Sortierung von Vorfällen nach Dringlichkeit filtert automatisch die meisten irrelevanten Meldungen heraus und liefert Ihnen eine gute Einschätzung, was sofortige Aufmerksamkeit erfordert und was warten kann. Bedenken Sie außerdem, dass nicht jeder Alarm einen Vorfall oder eine Reaktion erfordert. Unterdrückung nicht relevanter Warnmeldungen reduziert außerdem die Störgeräusche und ermöglicht es Ihnen, sich auf das Wesentliche zu konzentrieren.

Sie werden den Sortierprozess wahrscheinlich zumindest teilweise automatisieren können (z. B. nach Quelle und Schlüsselwörtern), obwohl ein Teil (und möglicherweise ein erheblicher Teil) wahrscheinlich die Überwachung und das Eingreifen von Einsatzkräften in der Rolle des Disponenten erfordern wird. Unabhängig von der gewählten Methode bleiben die grundlegenden Kriterien jedoch dieselben.

Die meisten Prioritätsprogramme folgen dem ITIL Richtlinien zur Priorisierung von Vorfällen oder etwas Ähnliches. Ein Schlüsselelement der ITIL-Richtlinien ist, dass die Priorisierung von Vorfällen auf zwei eng miteinander verbundenen Faktoren basiert: Auswirkung und Dringlichkeit. In diesem Beitrag werden wir diese beiden Faktoren und ihr Zusammenspiel genauer betrachten.

Ermittlung der Auswirkungen des Vorfalls

Die Auswirkungen eines Vorfalls hängen im Allgemeinen vom Umfang seiner Folgen ab – wie viele Abteilungen, Benutzer oder wichtige Dienste betroffen sind. Es ist relativ einfach, zumindest einige Elemente der Wirkungsermittlung zu automatisieren. Eine große Anzahl nahezu gleichzeitiger Meldungen über die Nichtverfügbarkeit eines bestimmten Dienstes kann beispielsweise ein deutlicher Hinweis auf einen schwerwiegenden Vorfall sein, während die Meldung eines Problems durch einen einzelnen Benutzer ohne weitere ähnliche Meldungen eher auf einen Vorfall mit geringen Auswirkungen hindeutet. Für viele IT-Abteilungen ist die Leitlinien zur Ermittlung der Auswirkungen eines Vorfalls könnte etwa so aussehen:

  • Hohe Wirkung:
    • Ein kritisches System ist ausgefallen.
    • Eine oder mehrere Abteilungen sind betroffen.
    • Eine beträchtliche Anzahl von Mitarbeitern ist nicht in der Lage, ihre Aufgaben zu erfüllen.
    • Der Vorfall betrifft eine große Anzahl von Kunden.
    • Der Vorfall birgt das Potenzial für erhebliche finanzielle Verluste oder eine Schädigung des Ansehens der Organisation.
    • Weitere Kriterien können, abhängig von der Funktion der Organisation und den betroffenen Systemen, beispielsweise eine Gefährdung der öffentlichen Sicherheit, ein potenzieller Verlust von Menschenleben oder ein erheblicher Sachschaden sein.
  • Mäßige Auswirkungen:
    • Manche Mitarbeiter oder Kunden sind betroffen.
    • Keiner der ausgefallenen Dienste ist kritisch.
    • Finanzielle Verluste und eine Schädigung des Ansehens der Organisation sind möglich, aber von begrenztem Ausmaß.
    • Es besteht keine Gefahr für Leben, öffentliche Sicherheit oder Sachwerte.
  • Geringe Umweltbelastung:
    • Nur eine geringe Anzahl von Nutzern ist betroffen.
    • Es handelt sich nicht um kritische Infrastrukturen, und es besteht kaum oder gar kein Risiko für finanzielle Verluste oder Reputationsschäden.

Dringlichkeit des Vorfalls

Es ist nicht immer einfach, zwischen den Auswirkungen eines Vorfalls und seiner Dringlichkeit klar zu unterscheiden. Im Allgemeinen lässt sich Dringlichkeit in diesem Zusammenhang jedoch als die Geschwindigkeit definieren, mit der ein Problem Auswirkungen auf das System hat. Der Ausfall eines Lohnabrechnungssystems kann beispielsweise erhebliche Auswirkungen haben, ist aber, wenn er zu Beginn eines Abrechnungszeitraums auftritt, wahrscheinlich weniger dringlich als der Verlust einer Kundendatenbank, die täglich intensiv genutzt wird.

  • Hohe Dringlichkeit:
    • Ein für den täglichen Betrieb unerlässlicher Dienst ist nicht verfügbar.
    • Die Auswirkungen des Vorfalls weiten sich rasch aus, oder durch schnelles Handeln könnte sein Ausmaß begrenzt werden.
    • Zeitkritische Arbeiten oder Kundenaktionen sind betroffen.
    • Der Vorfall betrifft hochrangige Personen oder Organisationen (z. B. das obere Management oder wichtige Kunden).
  • Geringe Dringlichkeit:
    • Die betroffenen Dienste sind optional und werden nur selten genutzt.
    • Die Auswirkungen des Vorfalls scheinen stabil zu sein.
    • Wichtige oder zeitkritische Arbeiten sind nicht betroffen.

Beachten Sie, dass es sowohl für die Auswirkungen als auch für die Dringlichkeit in der Regel ausreicht, ein einzelnes Kriterium (und nicht alle oder die Mehrheit der Kriterien) einer Kategorie zu erfüllen. Vorfälle sollten in die höchste Kategorie eingestuft werden, für die sie die Kriterien erfüllen.

Priorität = Auswirkung + Dringlichkeit

An diesem Punkt dürfte es recht deutlich sein, dass die Priorität eine direkte Funktion von Auswirkung und Dringlichkeit ist. Ungeachtet dessen Alarmverwaltung Und Einsatzleitprozesse Wenn Sie ein System implementieren, das die Weiterleitung von Benachrichtigungen anhand von Prioritätskriterien vorsieht, können Sie einen Großteil der Warnmeldungen unterdrücken. Ereignisse mit geringer Auswirkung und niedriger Dringlichkeit werden automatisch auf der Prioritätenliste nach unten verschoben. Dadurch können sich Ihre Incident-Response-Teams auf die wirklich wichtigen und dringlichen Vorfälle konzentrieren, die Ihre volle Aufmerksamkeit erfordern – ohne Ablenkung oder Warnmeldungsmüdigkeit.

Um mehr darüber zu erfahren, wie man Ereignisse aggregiert, klassifiziert und unterdrückt, um die relevanten Informationen zu verwalten, schauen Sie hier nach PagerDutys Alarm-Triage- und Ereignisregel-Engine Sie können Vorfälle auch ganz einfach nach den Kriterien Ihrer Organisation klassifizieren. Benutzerdefinierte Prioritätsdefinitionen Die

Und was ist mit diesem Berg an Warnmeldungen? Indem man sich auf das konzentriert, was handlungsrelevant und dringend ist – insbesondere mit Hilfe von Lösungen wie PagerDuty — Sie werden vielleicht feststellen, dass es nicht mehr da ist!