- PagerDuty /
- Der Blog /
- Automatisierung /
- APAC-Rückblick: Erkenntnisse aus einem Jahr voller Technologieausfälle – Abbau von Wissenssilos
Der Blog
APAC-Rückblick: Erkenntnisse aus einem Jahr voller Technologieausfälle – Abbau von Wissenssilos
Während unsere Exploration bis 2023 weitergeht, zweiter Blogabschnitt, „Mobilisieren: Vom Signal zur Tat“ , bleibt eine unbestreitbare Tatsache bestehen: Vorfälle sind für Unternehmen eine unvermeidliche Realität, unabhängig von ihrer Branche oder Größe.
In der Region Asien-Pazifik ist eine verstärkte Regulierung von Großunternehmen zu beobachten, die ihre Servicestandards nicht einhalten. Dies führt zu empfindlichen Strafen. Für diese Unternehmen reichen die Folgen eines Vorfalls mittlerweile über Umsatzeinbußen und schwindendes Kundenvertrauen hinaus und können zu hohen Geldstrafen und Betriebseinschränkungen führen.
Angesichts der Herausforderungen, die von schwerwiegenden technischen Problemen über Cloud-Service-Unterbrechungen bis hin zu Cybersicherheitslücken reichen, müssen moderne Unternehmen ein proaktives Incident Management verfolgen. Im dritten Teil unserer Blogserie gehen wir tiefer auf den Incident-Lebenszyklus ein und enthüllen Strategien, mit denen Unternehmen auf das Unvermeidliche vorbereitet sind: den nächsten Incident.

Teil 3: Triage: Wissenssilos abbauen
Überblick
Je tiefer wir uns mit den Herausforderungen des Incident Managements befassen, desto häufiger tritt das Problem auf, dass immer nur eine Handvoll erfahrener Ingenieure an allen Vorfällen beteiligt sind. Einer der Hauptgründe dafür ist mangelndes Wissen, mangelnder Zugang und mangelnde Fähigkeiten der primären Bereitschaftskräfte, die ersten Triage-Schritte während eines Vorfalls durchzuführen. Dies führt dazu, dass jedes Mal der leitende Ingenieur gerufen wird, um einen oft einfachen und wiederholbaren Prozess durchzuführen. Diese Wissens-, Kompetenz- und Zugangslücke wird als „Automatisierungslücke“ bezeichnet.
Mithilfe eines Automatisierungs-Orchestrierungstools für ereignisgesteuerte Automatisierung können Unternehmen ihren Bereitschaftsmitarbeitern sofortigen Zugriff auf automatisierte, von Fachexperten persönlich erstellte Runbooks ermöglichen. Erforderlich ist jedoch ein schrittweiser Ansatz, der mit der Diagnose beginnt, über kontextbezogene Korrekturen bis hin zur automatischen Korrektur reicht. Das empfindliche Gleichgewicht zwischen Automatisierung und menschlichem Urteilsvermögen, insbesondere in regulierten Branchen, bleibt ein Schwerpunkt, kann aber erhebliche Erfolge erzielen.
Zu diesem Zeitpunkt im Vorfallszyklus haben Sie die Flut an Warnmeldungen aus allen Teilen Ihres Unternehmens unter Kontrolle und die Mobilisierung des richtigen Bereitschaftsmitarbeiters nur für die relevanten, handlungsrelevanten Ereignisse automatisiert. Warum ist dann immer dieselbe kleine Gruppe erfahrener Ingenieure für alle Vorfälle zuständig?
Wer sonst verfügt über das Wissen, die Fähigkeiten und den Zugriff, um die zur Diagnose des Problems erforderlichen Skripte auszuführen? Schließlich haben sie das System entworfen und die Skripte geschrieben. Wäre es für sie nicht schneller und sicherer, dies selbst zu tun?
Wenn das Problem einmalig und während der Arbeitszeit auftritt, ist das vielleicht der Fall. Häufiger ist es jedoch, dass es nach Feierabend immer wieder auftritt. Das führt dazu, dass bei jedem Vorfall dieselben wenigen Experten beteiligt sind, da sie über das gesamte Fachwissen verfügen, wie die Dinge wirklich funktionieren und wie man Probleme schnell und richtig einstuft. Für jedes betroffene System haben sie eigene Standard-Health-Checks und Runbooks entwickelt, um einen tieferen Einblick in die mögliche Problemursache zu erhalten.
Stammeswissen über nicht dokumentierte Abhängigkeiten oder ein maßgeschneidertes Skript, das sie selbst geschrieben haben und das nur lokal auf ihrem eigenen Rechner existiert, sind die Gründe, warum sie bei jedem Vorfall benötigt werden. Ohne sie verbringt der Bereitschaftshelfer möglicherweise die erste Stunde damit, etwas herauszufinden, was unseren Fachexperten (SME) nur ein oder zwei Minuten kosten würde.
„Schneller und sicherer“ bedeutet heute, dass ein ausgebrannter leitender Ingenieur um zwei Uhr morgens komplexe Befehle auf einem Produktionssystem ausführen muss. Sein Wissen ist geschäftskritisch, aber er ist der Engpass im Lebenszyklus eines Vorfalls.
Die Automatisierungslücke
Dieses sehr häufige Szenario wird als Automatisierungslücke bezeichnet.
Es kann auf verschiedene Weise gemessen werden, beispielsweise als Anzahl der erforderlichen Eskalationen oder zusätzlicher Helfer pro Vorfall oder als Abstand (in Minuten und Personen) zwischen der Person, die über den Vorfall informiert wird, und der Person, die den Vorfall behebt.
Grundsätzlich gilt: Je größer die Automatisierungslücke ist, desto länger dauern Ihre Vorfälle und desto teurer sind sie.

Die Automatisierungslücke zwischen denjenigen, die die Automatisierung nutzen müssen, und denjenigen, die sie nutzen können
Die Gründe für diese Lücke lassen sich in drei Hauptkategorien unterteilen: Wissen, Fähigkeiten und Zugang.
- Wissenslücke : Unternehmen können viele verschiedene Arten von Diensten entwickeln und verfügen oft über viele, die unterschiedliche Anwendungsfälle abdecken – so viele, dass keine einzelne Person sie alle kennen kann.
- Qualifikationslücke : Ein Großteil der heute verfügbaren Automatisierung erfordert spezifisches Fachwissen, um sie richtig nutzen zu können. Um einen umfassenden Mehrwert zu erzielen, sind zusätzliche Fähigkeiten wie das Schreiben von Skripten erforderlich. Vielen Generalisten fehlen diese spezifischen Fähigkeiten.
- Zugangslücke : Moderne Sicherheitsstandards schreiben vor, dass privilegierter Zugriff nicht leichtfertig an jeden vergeben werden sollte.
Moderne Organisationen müssen in der Lage sein, Wissenssilos aufzubrechen, um Engpässe bei Vorfällen und die Abhängigkeit von einzelnen Personen zu vermeiden, ohne die Belastbarkeit oder Sicherheit ihrer Systeme zu gefährden. Dies erreichen sie durch ereignisgesteuerte Automatisierungs-Orchestrierungsfunktionen, bei denen das jeweilige Ereignis der Vorfall ist.
Ereignisgesteuerte Automatisierung
Beim Auftreten eines Alarms oder Vorfalls muss eine ereignisgesteuerte Automatisierungsfunktion verfügbar sein, die je nach Art des Vorfalls automatisch, bedingt oder manuell ausgelöst werden kann.
Die Zugriffslücke wird durch das Orchestrierungstool selbst geschlossen und bietet einen sicheren Zugriff auf die Daten kontrollierter Produktionssysteme. Der Incident Responder muss sich also nicht um den manuellen Zugriff auf das betroffene System kümmern.
Wissens- und Kompetenzlücken werden dadurch geschlossen, dass der SME, der bei Vorfällen immer hinzugezogen wird, das automatisierte Runbook erstellt. Wahrscheinlich hat er die Skripte und die Logik bereits irgendwo selbst erstellt. Dieses Wissen kann in einer Orchestrierungsschicht zusammengefasst und den Bereitschaftshelfern sofort und sicher zur Verfügung gestellt werden.
Natürlich lassen sich nicht alle Vorfälle automatisiert lösen. Die beiden wichtigsten Kriterien für die Automatisierung sind, dass etwas bekannt ist (man kann nichts automatisieren, was man nicht kennt) und dass es wiederholbar ist. In der dynamischen und unvorhersehbaren Welt des Vorfallmanagements sind „bekannte“ und „wiederholbare“ Lösungen selten.
Die Integritätsprüfungen, Falsch-Positiv-Validierungen und Diagnoseskripte, aus denen die meisten Runbooks oder Standardwiederherstellungsverfahren bestehen, sind jedoch sehr bekannt und sehr wiederholbar. Tatsächlich nehmen Triage und Diagnose oft mehr Zeit in Anspruch als jede andere Phase des Vorfalllebenszyklus.
Die Runbook-Automatisierung kann in mehreren Phasen des Vorfalllebenszyklus angewendet werden, überall dort, wo sich wiederholende Prozesse wertvolle Minuten (oder Stunden) kosten, wenn es darauf ankommt. Unabhängig von Ihrem Betriebsmodell kann die ereignisgesteuerte Automatisierung die Triage-Zeiten während eines Vorfalls verkürzen.
Zum Beispiel:
NOC : Führen Sie die L0-Automatisierung ein, bevor ein Mitarbeiter gerufen wird. Dies reduziert MTTR, Risiken und Kosten für das Unternehmen und beugt Burnout in den First-Line-Response-Teams vor.
SRE : Automatisieren Sie den gesamten Ablauf eines Ereignisses, indem Sie gegebenenfalls automatische Korrekturmaßnahmen oder eine „Human-in-the-Middle“-Automatisierung einbauen. Dies reduziert die MTTR und spart SRE-Zeit für wertvolle Initiativen wie die Skalierung der Automatisierung auf mehrere Teams.
MIM : Füllen Sie Vorfälle mit automatisierten Diagnosen und normalisieren Sie Ereignisdaten, damit sie nutzbar sind. Dies verbessert die Triage-Geschwindigkeit und hilft allen Ihren Helfern, so effektiv zu arbeiten wie Ihr bester Helfer.
Maschinenbau : Leiten Sie Vorfälle intelligent an das richtige Team weiter und erstellen Sie automatische Fehlerbehebungen für gut verstandene Probleme. So bleibt Entwicklungszeit für wertschöpfende Initiativen, die Umsatz generieren.
Krabbeln, Gehen, Laufen
Denkt man über Automatisierung im Incident Management nach, denkt man oft direkt an die attraktive, geschlossene, selbstheilende und automatische Behebung von Incidents. Tatsächlich lässt sich jedoch nur ein kleiner Teil der Incidents automatisch beheben. Wir haben bereits die bekannten und wiederholbaren Anforderungen an die Automatisierung erwähnt. Bekannt und wiederholbar ist jedoch der Zeitaufwand für die Beschaffung der für die Triage und Diagnose des Problems erforderlichen Informationen.
Diese Art der Automatisierung ist zudem wesentlich sicherer als eine fehlerbehebende Maßnahme. Unternehmen, insbesondere in stark regulierten Branchen, benötigen eine verantwortliche, überprüfbare Person mit menschlichem Urteilsvermögen, um den Neustart, das Rollback oder die Änderung von Produktionssystemen zu genehmigen. Die Kombination von Automatisierung und menschlichem Urteilsvermögen ermöglicht einen automatisierten Human-in-the-Middle-Prozess, der die Vorteile beider Ansätze vereint.
Ein wirkungsvoller, aber sicherer Ausgangspunkt (Crawl) besteht darin, mit einer rein automatisierten Diagnose zu beginnen und den Vorfall mit den Details anzureichern, die der Responder benötigt, sobald er benachrichtigt wird.
Indem dem Responder kontextbezogene Abhilfemaßnahmen zur Verfügung gestellt werden, die er basierend auf der Diagnose manuell auslösen kann, wird die Effizienz weiter gesteigert (Walk).
Schließlich werden bekannte Vorfälle, die keine menschliche Entscheidung erfordern, auf der Grundlage früherer Vorfälle automatisch behoben und dadurch vollständig beseitigt (ausgeführt).
In Teil 4 befassen wir uns mit der Lösung von Vorfällen. Wir erläutern die Prozesse und Entscheidungen, die mit der Wiederherstellung des Dienstes im Vergleich zur Behebung der Grundursache verbunden sind, und analysieren die Voraussetzungen für die Erklärung der Lösung eines Vorfalls.
Möchten Sie mehr erfahren?
Wir veranstalten außerdem eine dreiteilige Webinar-Reihe, die sich auf die Gewinn- und Verlustrechnung konzentriert und zeigt, wie sie Kunden dabei geholfen hat, sich auf Wachstum und Innovation zu konzentrieren. Klicken Sie auf die folgenden Links, um mehr zu erfahren und sich anzumelden:
- 7. Februar 2024 : Teil 1: Besseres Incident Management: Vermeidung kritischer Serviceausfälle im Jahr 2024
- 2 1. Februar 2024 : Teil 2: Von der Krise zur Kontrolle: Wie Sie das Incident Management mithilfe von Automatisierung und KI modernisieren können
- 26. bis 29. Februar 2024 : Teil 3: PagerDuty 101