Blog

6 bewährte Methoden für ein besseres Vorfallmanagement

von David Hayes 15. Mai 2018 | 10 Minuten Lesezeit

Moderne Unternehmen verwalten heute immer komplexere Technologieportfolios und stehen unter Innovationsdruck – und das bei deutlich höheren Anforderungen als je zuvor, wenn es um die Aufrechterhaltung von Service-Performance und -Zuverlässigkeit geht. Diese Anforderungen mögen paradox erscheinen, doch viele Unternehmen haben erfolgreich Prozesse implementiert, die es ihnen ermöglichen, Agilität und Risikomanagement in Einklang zu bringen. In diesem Beitrag gehe ich auf die Bedeutung der Integration von Incident Response in Ihr ITSM-Tool ein und zeige Ihnen, wie Sie Agilität und Risikomanagement effektiv ausbalancieren können.

Schritt 1: Integration von Incident Response und ITSM

Während eines Ausfalls können keine Minuten hinzugefügt werden, daher ist es entscheidend, die geplanten Arbeiten außerhalb eines Vorfalls effektiv zu priorisieren – und dazu gehört auch die Verwendung einer Enterprise-Incident-Management-Plattform wie PagerDuty, um Ihre ungeplanten Arbeiten zu verwalten und mit den geplanten Arbeiten zu verknüpfen, die in Ihrem ITSM-Tool wie Jira, ServiceNow oder Remedy erfasst werden.

Wie hilft das? Zunächst fließen Informationen von ITSM in PagerDuty , sodass die Einsatzkräfte wissen, was sich geändert hat und wer Auswirkungen meldet. Anschließend werden Folgeinformationen aus PagerDuty zurück an ITSM gesendet, einschließlich der Ergebnisse der Nachbesprechung, die priorisiert werden müssen.

Einem Mitarbeiter können in einem ITSM-Tool Dutzende priorisierte Tickets zugewiesen sein, doch in PagerDuty sollte ihm immer nur ein (idealerweise keins) Ticket gleichzeitig zugewiesen sein, damit er sich auf kundenrelevante Probleme konzentrieren kann, die sofortiges Handeln erfordern. Ebenso gibt es in PagerDuty keine nicht zugewiesenen Incidents – wenn ein Problem auftritt, ist jemand dafür verantwortlich.

Schritt 2: Proaktive Mobilisierung

Einfach ausgedrückt: Am schnellsten reagieren Sie, indem Sie früher damit beginnen. Am besten gelingt dies, indem Sie nicht die Auswirkungen auf Ihre Systeme, sondern die Auswirkungen auf Ihre Kunden überwachen. Unternehmen, die Real User Monitoring (RUM) einsetzen, können nachverfolgen, ob Benutzer ihre Tools erfolgreich laden, herunterladen oder kaufen können. Da Sie Probleme primär erkennen möchten, bevor sie Benutzer beeinträchtigen (auch wenn dies mit Fehlalarmen einhergeht), ist die Überwachung der zugrunde liegenden Infrastruktur ebenso wichtig, um die Ursache eines kundenbezogenen Problems zu identifizieren.

Automatisierung trägt auch zur Beschleunigung der Reaktion auf Störungen bei, und Ihr Überwachungstool sollte Probleme automatisch einem Verantwortlichen zuweisen. Um zu verhindern, dass ein Problem Ihre Einnahmen beeinträchtigt, sollte das Überwachungstool außerdem alle Probleme ab einer bestimmten Priorität umgehend einer Person zuweisen und diese über den bevorzugten Kommunikationsweg (Telefon, E-Mail, SMS usw.) benachrichtigen.

Um die Automatisierung zu vereinfachen, integriert sich PagerDuty in Hunderte von Überwachungstools. Wenn Ihr Überwachungstool beispielsweise feststellt, dass Ihr Warenkorb von langsam zu gar nicht mehr reagiert, kann PagerDuty automatisch einen Vorfall mit der richtigen Priorität erstellen, um sicherzustellen, dass dem zuständigen Mitarbeiter alle relevanten Informationen vorliegen.

Erstellen Sie daher nach Möglichkeit automatisierte Arbeitsabläufe. Wenn ein Sev1-Mitarbeiter Führungskräfte einbeziehen muss, Automatisieren Sie diese Antwort. Die

Schritt 3: Einen definierten Prozess festlegen

Beseitigen Sie Unklarheiten, Verwirrung und Zeitverlust während der Reaktion, indem Sie Ihren Prozess definieren und die verschiedenen beteiligten Rollen klären. Wir empfehlen die folgenden Rollen: Einsatzleiter + Stellvertreter, Protokollführer, Kundenbetreuer und Fachexperten. (Weitere Informationen zu den einzelnen Rollen finden Sie unter [Link einfügen]) https://response.pagerduty.com/before/different_roles/ .)

Bei einem Ausfall kann es schnell chaotisch werden, und die Organisationshierarchie tritt hinter den Reaktionsaufgaben zurück. Wenn Führungskräfte beginnen, die festgelegten Prozesse willkürlich zu ändern, müssen sie aus dem Prozess herausgenommen und klar und prägnant kommuniziert werden, warum bestimmte Prozesse eingehalten werden. Möchte der CEO den Prozess spontan ändern, kann er die Verantwortung dafür übernehmen. Einsatzleiter Die

Damit alle die Situation im Griff behalten, beachten Sie bitte Folgendes:

  • Umfrage zu starken Einwänden. Bitten Sie um Einwände, nicht um Konsens. So vermeiden Sie, in langwierigen Diskussionen und Konsensfindungsprozessen zu verharren, anstatt das Problem anzugehen.
  • Zeitvorgaben festlegen und Aufgaben einzelnen Personen zuweisen. Während eines Vorfalls gehen viele Informationen ein, und in Krisenzeiten ist eine klare und prägnante Kommunikation entscheidend. Die Zuweisung von Aufgaben und die Festlegung von Fristen helfen jedem Beteiligten, sich auf eine Sache zu konzentrieren, wodurch Verwirrung und Doppelarbeit vermieden werden – und idealerweise die Lösungszeit verkürzt wird.
  • Standardisierung von Sprache und Umgangsformen. Stellen Sie sicher, dass jeder weiß, wann und wie er sich äußern kann. Ein sachlicher und fokussierter Tonfall, der sich auf das Thema konzentriert und ohne Emotionen bleibt, ist der Schlüssel zu effektiver Kommunikation und Reaktion.

Schritt 4: Entwickeln Sie Ihre Kommunikationsstrategie

Es ist wichtig, auch einen Kommunikationsprozess für Personen außerhalb des Kernteams festzulegen. Je nach Art des Vorfalls kann es sich um interne Kunden (oft auch Stakeholder genannt), externe Kunden und sogar den gesamten Markt handeln. Beispielsweise kann es bei der Reaktion auf einen Sicherheitsvorfall notwendig sein, neben anderen Führungskräften auch die Rechtsabteilung einzubeziehen.

Diese Gruppen müssen bei Bedarf regelmäßig auf dem Laufenden gehalten werden, aber der falsche Ort dafür ist der Arbeitsplatz der Einsatzkräfte. Am wenigsten wünscht man sich, dass jemand in die Telefonkonferenz eintritt und nach dem Status fragt, da dies die Besprechung von Lösungsansätzen stört. Wie bereits erwähnt, ist es unerwünscht, dass eine Führungskraft in die Telefonkonferenz eintritt und fordert, dass das Team die Störung innerhalb von 10 Minuten behebt. Dies impliziert, dass das Team nicht bereits mit Hochdruck arbeitet. Das ist demotivierend und trägt nichts zur erfolgreichen Reaktion bei. Hier kommt der Kundenbetreuer ins Spiel – beispielsweise mithilfe einer Funktion wie der von PagerDuty. Einbindung der Interessengruppen Der Kundenbetreuer kann relevante Stakeholder im gesamten Unternehmen mit optimierten Echtzeit-Updates versorgen.

Hier sind einige weitere Möglichkeiten zur Verbesserung der Echtzeitkommunikation:

  • Richten Sie eine Konferenzschaltung für interne Diskussionen ein. Menschen sind soziale Wesen, und dies scheint das natürlichste Format zu sein. Nutzen Sie das Konferenzschaltungstool, mit dem Ihre Nutzer bereits vertraut sind – ein Ausfall ist nicht der richtige Zeitpunkt, um ein neues Tool zu erlernen. Fügen Sie die Konferenzschaltungsinformationen bei schwerwiegenden Störungen automatisch hinzu.
  • Richten Sie einen Chatraum zur Protokollierung von Aktionen ein. Dies ermöglicht es denjenigen, die sich an einer Antwort beteiligen, sich schnell zu informieren, ohne wiederholt Fragen stellen zu müssen, und bietet einen zeitgestempelten Nachweis der Antwort. Darüber hinaus beginnen viele Unternehmen damit, Antwortaktionen direkt von Bots im Chatraum auszulösen.
  • Informieren Sie Ihre Stakeholder proaktiv und regelmäßig über Neuigkeiten. Richten Sie eine Seite zum Vorfallsstatus ein, damit alle Beteiligten stets über relevante Echtzeitinformationen informiert sind. Dies ist unerlässlich, um zu verhindern, dass Interessengruppen unüberlegt eingreifen und den Betrieb behindern.
  • Benachrichtigungen im Voraus festlegen. Legen Sie fest, welche Kriterien und welchen Zeitrahmen die zuständigen Stellen verwenden sollen, um Ihre Stakeholder, Kunden oder nachgelagerten Nutzer zu benachrichtigen.

Schritt 5: Obduktionen

Postmortem-Analysen sind der Schlüssel zur Lösung langfristiger Probleme. Sie geben den Beteiligten nach einem besonders stressigen Ereignis Sicherheit und gewährleisten, dass Ihr Team durchdachte und produktive Maßnahmen auf Basis der im Affekt ergriffenen Sofortmaßnahmen zur Problemlösung ergreifen kann.

Wie sieht also eine effektive Postmortem-Analyse aus? Sie sollte Folgendes beinhalten:

  • Schwerpunkt auf Prävention und Lernen. Ihr Team möchte herausfinden, was geändert werden kann, um dieses Problem in Zukunft zu vermeiden.
  • Sei transparent, unschuldig und unpolitisch. Ziel ist es, alle relevanten Informationen zu erhalten, und das Letzte, was man tun sollte, ist, Groll zu schüren. Schuldzuweisungen behindern den Informationsfluss. Einzig im Falle eines vorsätzlich böswilligen Mitarbeiters ist eine Schuldzuweisung gerechtfertigt, was äußerst selten vorkommt.
  • Konzentriere dich auf Verbesserung. Dies gilt sowohl für die Resilienz des Systems als auch für den Reaktionsprozess. Ziel ist es, sich stetig zu verbessern.
  • Die Ursache bekämpfen. Wir finden das „ fünf Warum-Fragen „Hier hilfreich.“
  • Bei größeren Zwischenfällen erforderlich und zur Zeitersparnis optimiert. Nachbesprechungen sind zwar nicht beliebt, aber unerlässlich, um die Wirkung Ihrer geplanten Maßnahmen zu maximieren. Um sie zu vereinfachen, haben wir ein Tool entwickelt, das… integriertes Postmortem-Tool Es basiert auf den bestehenden Prozessen unserer Kunden. Dadurch sparen Sie sich stundenlanges Hin- und Herwechseln zwischen verschiedenen Tools, um Informationen zusammenzutragen, da es automatisch eine Zeitleiste mit relevanten PagerDuty und Chat-Aktivitäten erstellt.

Wir veröffentlichen alle unsere Postmortem-Analysen intern mithilfe unseres Postmortem-Tools. Wir betrachten Postmortem-Analysen nicht nur als Lernprozess für unser Team, sondern auch als Input für unsere... Best-Practice-Schulung Hier teilen wir unsere Erfahrungen und Erkenntnisse mit unseren Kunden.

Weitere Tipps zur Leichenschau finden Sie in unserem ausführlichen E-Book.

Schritt 6: Training und Übung

Sie können keinen optimalen Incident-Response-Prozess erwarten, wenn Sie ihn nur gelegentlich anwenden. Nicht jeder Dienst fällt häufig aus, und manche haben mehr Übung als andere. Dennoch sollte jeder regelmäßig üben, damit Sie und Ihr Team im Ernstfall vorbereitet sind.

  • Shadowing und Onboarding sollen einfach gestaltet werden. Eine Lösung wie PagerDuty erleichtert es überlasteten Einsatzkräften, Unterstützung anzufordern. Einer unserer mutigeren Kunden lässt alle Bereitschaftsdienste zunächst alleine laufen – falls ein neuer Mitarbeiter anhand des Handbuchs nicht weiterkommt, kann er seinen Mentor als zusätzlichen Einsatzkraft hinzufügen. Mit der Zeit sinkt so der Anteil der Einsätze, bei denen Unterstützung benötigt wird.
  • Dokumentieren Sie Ihre Ausfälle, um sie zu Schulungszwecken zu nutzen. Diese Aufnahmen sind eine wahre Fundgrube und helfen Teams zu verstehen, was in realen Fehlerszenarien tatsächlich passiert. Sie sind auch für die Fehleranalyse im Nachhinein nützlich.
  • Voranalysen zur Fehlerdiagnose („Wenn das kaputtgeht, worauf würde ich achten?“) sind als Übung wertvoll. Sie helfen Ihnen auch dabei, Stellen zu identifizieren, an denen Sie zusätzliche Überwachungsmechanismen zur Ursachenanalyse oder für präventive Warnungen einrichten können. Wenn Sie beispielsweise als Erstes die Datenbankverbindung überprüfen würden, falls Ihr E-Commerce-Shop ausfällt, dann richten Sie die Überwachung dieser Verbindung ein und senden Sie die Daten an PagerDuty– selbst wenn die Anwendung nicht betroffen ist.
  • Implementieren Versagensfreitage Die Chaos-Engineering Das dürfte für die meisten Organisationen zum jetzigen Zeitpunkt wahrscheinlich noch nicht möglich sein, aber wir profitieren sehr von unseren „Failure Fridays“, beispielsweise indem wir Implementierungsprobleme aufdecken, die unsere Widerstandsfähigkeit beeinträchtigen, und proaktiv Mängel erkennen, um zu verhindern, dass sie zur Hauptursache künftiger Ausfälle werden.

Je weniger Zeit Sie für die Behebung ungeplanter Ausfälle aufwenden müssen, desto besser sind Ihre Services und desto zufriedener sind Ihre Kunden. Denn Störungen, die Kunden beeinträchtigen, gehören zu den schlimmsten Ereignissen, die einem Unternehmen passieren können. Sie schädigen den Ruf der Marke, verursachen erhebliche Kunden- und Umsatzeinbußen, hemmen die Mitarbeiterproduktivität und senken die Arbeitsmoral. Wenn Sie es schaffen, so effizient wie möglich zu arbeiten und auf größere Störungen ohne Chaos und Stress zu reagieren – mit der Einstellung, aus jeder Störung zu lernen und sich zu verbessern –, schaffen Sie eine erfolgreiche und motivierende Unternehmenskultur, die sowohl Ihre Kunden als auch Ihre Mitarbeiter begeistert.

Sie möchten mehr über die Reaktion auf Sicherheitsvorfälle erfahren? Dann schauen Sie sich unsere Webseite an. Seite zur Dokumentation der Reaktion auf Zwischenfälle.

PagerDuty Fazit + CTA

Ein solides Incident-Management erfordert ein starkes Team, und ein starkes Team führt zu einem soliden Produkt. Wenn Sie bereit sind, mit der Incident-Management-Software von PagerDuty zu starten, sind Sie hier genau richtig. Mit unserem Produkt schützen Sie Ihre Umsätze und verbessern das Kundenerlebnis, indem Sie kritische Vorfälle schneller beheben und zukünftige Vorfälle verhindern. Wir unterstützen Sie dabei, Best Practices für das Management schwerwiegender Vorfälle in Ihrem Unternehmen zu implementieren – mit durchgängiger Reaktionsautomatisierung und reibungslosen Nachbesprechungen. Mehr erfahren Die

Sie möchten mehr über Notfallmaßnahmen erfahren? Wir helfen Ihnen gerne. Auf unserer Website finden Sie verschiedene Schulungen für den Einstieg. Diese basieren auf internen Dokumenten, die wir für unsere Einsatzleiter erstellt haben. Schauen Sie doch mal rein! Hier Die