PagerDuty
/
Blog
/
AIOps
/
APAC-Rückblick, Teil 2: Mobilisierung: Vom Signal zur Aktion

Blog

APAC-Rückblick, Teil 2: Mobilisierung: Vom Signal zur Aktion

von David Ridge 4. Januar 2024 | 7 Minuten Lesezeit

Fortsetzung unserer Serie über Erkenntnisse aus dem asiatisch-pazifischen Raum im Jahr 2023 , Es wird immer deutlicher, dass Vorfälle in Organisationen nicht eine Frage des „Ob“, sondern des „Wann“ sind, unabhängig von ihrer Größe oder Branche.

In letzter Zeit hat die APAC-Region erlebt, dass Regulierungsbehörden strengere Maßnahmen gegen große Unternehmen wegen mangelhafter Dienstleistungen ergriffen haben. Dies führt zu erheblichen Strafen. Neben dem unmittelbaren Umsatz- und Vertrauensverlust bei den Kunden sehen sich diese Organisationen nun mit erheblichen finanziellen und betrieblichen Konsequenzen konfrontiert.

Da Unternehmen heute mit einer Vielzahl von Problemen konfrontiert sind, von schwerwiegenden technischen Ausfällen über Störungen von Cloud-Diensten bis hin zu Cybersicherheitsbedrohungen, Sie müssen stets wachsam und vorbereitet sein. Im zweiten Teil unserer Blogreihe beleuchten wir die kritischen Phasen des Vorfalllebenszyklus genauer und zeigen auf, wie sich Organisationen auf das Unvermeidliche vorbereiten können: ihren nächsten Vorfall.

Diagram of the incident lifecycle

Teil 2: Mobilisieren: Vom Signal zur Aktion

TL;DR Das Krisenmanagement erfordert von Organisationen, den vielfältigen Bedürfnissen der Stakeholder gerecht zu werden. Die Implementierung automatisierter und benutzerfreundlicher Bereitschaftsmanagementsysteme ist entscheidend, um die durchschnittliche Reaktionszeit (MTTA) zu verkürzen und die ersten Reaktionen zu beschleunigen. Bei größeren Vorfällen, Die gleichzeitige Mobilisierung gezielter Einsatzkräfte gewährleistet Zeiteffizienz in kritischen Momenten. Darüber hinaus verbessert die Optimierung der Lageberichte mit den jeweils relevanten Details für jede Person die Kommunikationseffektivität und ermöglicht es der Organisation, die Berichterstattung zu steuern und alle Beteiligten zuverlässig zu informieren.

Laut einem Aktueller Bericht und Umfrage von EMA Research Die meisten Befragten gaben an, dass IT-Ausfälle und schwerwiegende Vorfälle entweder zunehmen (40 %) oder in etwa gleich bleiben (27 %). Weitere 15 % der Teilnehmer bestätigten jedoch einen Anstieg, sagten aber, dass sie „die Auswirkungen durch AIOps und Automatisierung verringern können“. Laut dem Bericht können es sich Unternehmen angesichts der steigenden Kosten und der zunehmenden Häufigkeit ungeplanter Ausfälle nicht leisten, sich mit „ausreichend guten“ Lösungen und Prozessen für das Störungsmanagement zufriedenzugeben, um ihren Betrieb zu gewährleisten.

So sehr wir uns auch wünschen würden, Störungen durch Automatisierung und KI zu vermeiden, stehen Menschen im Mittelpunkt des Störungsmanagements. Störungen sind naturgemäß ungeplante Aufgaben, die wir nicht vorhergesehen oder berücksichtigt haben und die (zumindest abgesehen von bekannten Problemen) die Mobilisierung von Mitarbeitern erfordern, die bei deren Management und Behebung helfen können. Je nach Auswirkungen und Schwere der Störung kann die Größe des benötigten Teams stark variieren. Ob es nun darum geht, den diensthabenden Entwickler zu benachrichtigen, der seine eigene Anwendung entwickelt und betreibt, die klassischen ITIL-Tier-1-, -2-, -3+-Level-Support-Mitarbeiter oder eine zentral gesteuerte Großstörung mit Dutzenden von Beteiligten – die richtigen Personen über eine Störung zu informieren und darauf zu reagieren, kann oft die größte Zeitverschwendung im gesamten Lebenszyklus darstellen.

Den Weg des geringsten Widerstands gestalten

Die Hauptursache für diese Zeitverschwendung? Die Menschen.

Genauer gesagt, manuelle Prozesse und veraltete Datensätze. Wenn man Menschen sich selbst überlässt, werden sie oft… Wähle den Weg des geringsten Widerstands – das menschliche Gehirn ist darauf programmiert. In diesem Fall bedeutet das, einfach die Person anzurufen, die du kennst, die Person, die das Problem beim letzten Mal gelöst hat, oder sogar den Teamleiter, damit dieser entscheidet, wen er kontaktiert. Das mag zwar die schnellste und einfachste Lösung sein, um eine Reaktion zu mobilisieren, aber es ist nur ein kurzfristiger Erfolg, der bei der geringsten Belastung und Komplexität versagt.

- Welchem Team gehört das betroffene System?
- Wer hat momentan Bereitschaftsdienst für dieses Team?
- Was passiert, wenn sie nicht antworten?
- Wie lange wartest du?
- Wen sollten Sie sonst noch anrufen?
- Was ist, wenn sie im Urlaub sind?
- Sollen noch weitere Personen einbezogen werden?

Die Beantwortung all dieser Fragen erfordert Zeit und die manuelle Ausführung mehrerer Schritte.

Selbst wenn viele dieser Prozesse etabliert sind, benötigen Mitarbeiter Flexibilität. Sie gehen in Urlaub, werden krank oder geraten in persönliche Notfälle, sodass sie kurzfristig nicht verfügbar sind. Diese alltäglichen Ereignisse sind einfache Dinge, die eine manuelle oder tabellenbasierte Vorgehensweise bei der Rufbereitschaftsplanung überfordern.

Damit ein menschenzentrierter Prozess funktioniert, müssen wir grundsätzlich sicherstellen, dass der Weg des geringsten Widerstands auch der richtige ist.

Moderne Organisationen benötigen eine automatisierte Lösung, um im Falle eines Vorfalls angemessen reagieren zu können. Dieses System muss das Zuständigkeitsmodell innerhalb der Organisation berücksichtigen und gleichzeitig flexibel genug sein, um auf die sich ständig verändernde Tragweite eines Vorfalls reagieren zu können. Darüber hinaus muss es die Bedürfnisse der beteiligten Personen einbeziehen. Nutzen Sie es, mit einfacher Änderung der Ansprechpartner, automatisierter Eskalation und vielfältigen Kommunikationsmöglichkeiten.

Diese Anforderungen sind bei einem schwerwiegenden Vorfall genauso geschäftskritisch wie beim Wecken eines DevOps-Ingenieurs um 2 Uhr nachts. Ohne eine automatisierte Lösung müssen die Verantwortlichen für schwerwiegende Vorfälle diesen Prozess für jeden benötigten Teamvertreter durchlaufen. Und wie wir im vergangenen Jahr immer wieder gesehen haben, ist Zeit von entscheidender Bedeutung. Die richtigen Personen so schnell wie möglich zusammenzubringen, um den Reaktionsprozess in den ersten Minuten eines Vorfalls zu starten, ist unerlässlich. Die Fähigkeit, einem potenziellen Ausfall zuvorzukommen, bevor es zu Auswirkungen auf die Kunden kommt, kann oft den Unterschied zwischen einem normalen Arbeitstag und einer Meldung in den Morgennachrichten ausmachen.

Daher ist es sinnvoll, vordefinierte Szenarien oder systemspezifische automatisierte Arbeitsabläufe zu haben, die bei der Ausrufung eines schwerwiegenden Ereignisses ausgelöst werden können. kann die ersten 30 Minuten eines Vorfalls auf die ersten 30 Sekunden reduzieren.

Keine Nachrichten sind schlechte Nachrichten

Eine der Lehren aus den Ereignissen des letzten Jahres ist, dass Schweigen nicht immer gut endet. Regelmäßige Informationen für die verschiedenen Interessengruppen sind unerlässlich. Andernfalls suchen die Betroffenen selbst nach Informationen, und der offizielle Kanal verliert die Kontrolle über die Darstellung der Ereignisse. Spekulationen und Nebengeschichten nähren die Spekulationen. Wenn dies zum neuesten Update wird, kann die Wahrnehmung des Vorfalls größer werden als der Vorfall selbst.

A Entscheidend für ein effektives Krisenmanagement ist eine optimierte Kommunikation mit allen Beteiligten – die Möglichkeit, personalisierte Kommunikationskanäle für interne und externe Stakeholder zu nutzen. Stakeholder sollten die Flexibilität haben, die für sie relevanten Systeme und Dienste zu abonnieren (auch Benachrichtigungen sind willkommen!). Gleichzeitig sollten Krisenmanager die Möglichkeit haben, Aktualisierungen an alle relevanten Personen zu senden.

A key to managing the incident narrative is streamlined communication for internal and external stakeholders.

Hier kommen unsere stetig wachsenden Kommunikationswege ins Spiel. Unterschiedliche Stakeholder benötigen möglicherweise unterschiedliche Detailebenen. Manche interne Begriffe und Systembezeichnungen sind extern nicht verständlich. Ebenso ist eine Aktualisierung in einem Slack- oder Teams-Kanal unter Umständen nicht für die hochformatierte und strukturierte E-Mail geeignet, die an die Geschäftsleitung geht.

Personabasierte Kommunikationsvorlagen können statische, wiederholbare Daten automatisch ausfüllen und mithilfe generativer KI einen passenden Statusbericht zur Genehmigung erstellen. Sie können modernen Organisationen helfen, den Arbeitsaufwand von Krisenmanagern zu reduzieren. So können sie sich auf die Wiederherstellung des Dienstes konzentrieren. Darüber hinaus wird durch die automatische Weiterleitung dieses Updates an einen externen Kommunikationsspezialisten, der es für externe Stakeholder und/oder die Öffentlichkeit über Aktualisierungen der externen Statusseite anpassen und freigeben kann, eine konsistente und regelmäßige Kommunikation im Störungsfall gewährleistet.

Zusammenfassend ist es für Organisationen wichtig, die Bedürfnisse der verschiedenen Gruppen im Hinblick auf Vorfallsmeldungen und -kommunikation zu verstehen. Ein automatisiertes und benutzerfreundliches Bereitschaftsmanagement kann die Reaktionszeit (MTTA) der Ersthelfer deutlich verkürzen. Durch die Skalierung dieses Systems zur gleichzeitigen Mobilisierung mehrerer Zielgruppen bei Großschadensereignissen wird sichergestellt, dass in kritischen Situationen keine wertvolle Zeit verloren geht. Die Optimierung der Statusaktualisierungen, sodass jede Zielgruppe die jeweils benötigten Details erhält, gewährleistet schließlich, dass die Organisation die Kommunikation steuern und alle Beteiligten zuverlässig informieren kann.

Ein Blick nach vorn

In Teil 3: Triage werde ich die verschiedenen Aufgaben, Aktionen und Ablaufpläne, die während eines Vorfalls zum Einsatz kommen, genauer betrachten. Ziel ist es, aufzuzeigen, wie Unternehmen ihr internes Wissen sicher zugänglich machen und Level-1-Teams sowie Nachwuchsingenieure befähigen können, Umfang und Dauer eines Vorfalls zu reduzieren. Wir werden uns außerdem mit Möglichkeiten zur Optimierung des Vorfallprozesses durch die vollständige Automatisierung einiger Ablaufpläne befassen.

Möchten Sie mehr erfahren?

Wir werden auch sein Wir veranstalten eine dreiteilige Webinar-Reihe, die sich mit der Gewinn- und Verlustrechnung und ihrer Bedeutung für unsere Kunden für Wachstum und Innovation befasst. Klicken Sie auf die untenstehenden Links, um mehr zu erfahren und sich anzumelden:

7. Februar 2024: Teil 1: Optimierung des Vorfallmanagements: Steigerung der Produktivität für einen höheren ROI
21. Februar 2024: Teil 2: Umgestaltung und Optimierung der Reaktion auf Sicherheitsvorfälle mithilfe von KI und Automatisierung
26. bis 29. Februar 2024: PagerDuty101 (Anmeldungen werden in Kürze freigeschaltet)

Diese könnten Ihnen auch gefallen...

KI , AIOps
Machen Sie Ihre Services zukunftssicher mit der agentic AI Operations Cloud

KI , AIOps
Die versteckten Schwachstellen Ihrer KI-Strategie

KI , AIOps , Produkt
Wir haben einen SRE-Agenten mit Speicher entwickelt, und er revolutioniert die Reaktion auf Sicherheitsvorfälle.

Monatliche Produkt-Drops

Monatliche Produkt-Drops

Betriebliche Integrität bei FOX

FY26 Impact Report

PagerDuty on Tour

Blog

APAC-Rückblick, Teil 2: Mobilisierung: Vom Signal zur Aktion

Machen Sie Ihre Services zukunftssicher mit der agentic AI Operations Cloud

Die versteckten Schwachstellen Ihrer KI-Strategie

Wir haben einen SRE-Agenten mit Speicher entwickelt, und er revolutioniert die Reaktion auf Sicherheitsvorfälle.