Blog

Optimierung der Reaktion auf Vorfälle durch Runbook-Automatisierung

von PagerDuty 10. August 2021 | 4 Minuten Lesezeit

Die globale Pandemie ist geschätzt Die digitale Transformation hat sich um mindestens sieben Jahre beschleunigt – und ein Ende dieses Trends ist nicht in Sicht. Tatsächlich investieren Unternehmen sogar noch mehr in softwarebasierte Anwendungen. Ein aktueller Gartner-Bericht bestätigt dies. Vorhersage weist darauf hin, dass die weltweiten IT-Ausgaben im Jahr 2021 um 8,4 % auf 4,1 Billionen US-Dollar steigen werden, wobei ein Großteil dieser Ausgaben auf unternehmenskritische, kundenorientierte Dienstleistungen entfällt.

Die wichtigste Erkenntnis ist, dass Online-Umsatz und Wettbewerb so hoch wie nie zuvor sind und die digitalen Dienste eines Unternehmens rund um die Uhr verfügbar sein müssen. Nutzererfahrung ist entscheidend und Verfügbarkeit bares Geld. Digitale Störungen sind jedoch unvermeidbar. Daher wird die Geschwindigkeit, mit der Unternehmen Probleme beheben und deren Auswirkungen auf Gewinn und Kundenzufriedenheit minimieren können, zum entscheidenden Wettbewerbsvorteil.

Auch heute noch sind viele ITOps- und DevOps-Teams auf manuelle und reaktive Methoden angewiesen. Prozesse zur Reaktion auf Vorfälle Da IT-Umgebungen jedoch immer komplexer werden, ist dieser Ansatz nicht mehr tragfähig. Teams benötigen eine Möglichkeit, die Reaktion auf Vorfälle zu optimieren und die ständige Verfügbarkeit von Diensten zu gewährleisten – und diese Möglichkeit bietet die Automatisierung.

Einen modernen Ansatz zur Reaktion auf Vorfälle wählen

Die Abhängigkeit von manuellen und reaktiven Maßnahmen zur Störungsbehebung verlängert die durchschnittliche Reaktions- und Behebungszeit (MTTA/MTTR) und verschwendet wertvolle Arbeitsstunden. Bisher bestand der Ansatz darin, das Problem mit möglichst vielen Einsatzkräften zu überrennen, was oft zu Dutzenden, wenn nicht Hunderten von Teammitgliedern in einer Gesamtbesprechung führte. Dies geschieht, weil die Einsatzkräfte nicht über die notwendigen Informationen verfügen, um im Falle einer Störung angemessen handeln zu können. Sie müssen in der Lage sein, schnell eine Reihe von Fragen zu beantworten, um die Ursache einer Störung zu ermitteln und sie zu beheben. Fragen wie: Was hat sich in der Umgebung geändert? Wer ist für diesen Dienst verantwortlich? Und welche Signale liefern die entscheidenden Hinweise?

In jeder Organisation gibt es Tools, Skripte und manuelle Befehle, mit denen Teams diese Fragen beantworten. Diese Arbeitsabläufe existieren jedoch oft nur im Kopf einiger weniger Fachexperten oder erfordern manuelle Eingriffe zur Ausführung. Auch wenn IT-Service-Management-Lösungen (ITSM) bisher bei der Verwaltung nicht dringender, in der Warteschlange befindlicher Aufgaben eine Rolle gespielt haben, sind diese Tools nicht für die dringenden Echtzeitaufgaben einer vernetzten Welt ausgelegt.

Diese traditionellen Ansätze sind typisch für Organisationen, die ihre Vorgehensweise im Bereich digitaler Prozesse noch nicht ausgereift haben. Die gute Nachricht für Führungskräfte, die für den Schutz von Kundenerlebnissen und die Sicherung des Geschäftsergebnisses verantwortlich sind, lautet: Es gibt einen Weg, die Herangehensweise zu ändern und Beschleunigung der operativen Reife : Runbook-Automatisierung.

Der Weg zu kürzeren Einsätzen und weniger Eskalationen

Runbook-Automatisierung ist der Prozess, alle oben genannten Skripte, Tools, API-Aufrufe oder manuellen Verfahrensanweisungen in Runbooks zu dokumentieren. Teams nutzen diese Methoden, um wiederkehrende Aufgaben zu erledigen und Störungen zu beheben – beispielsweise Server neu zu starten, Daten zu kopieren oder Dateien zu bearbeiten. Die Runbook-Automatisierung standardisiert die Reaktion auf Störungen, indem sie diese Methoden erfasst und automatisiert und deren Ausführung durch beliebige Personen ermöglicht.

Mit Runbook Automation können Einsatzkräfte automatisierte Workflows für Diagnose- und Behebungsmaßnahmen ausführen. Durch die direkte Lösung bekannter Probleme reduzieren sie die Anzahl eskalierter Vorfälle und beschleunigen die Problemlösung erheblich. Um diese Vorteile zu realisieren und von einem reaktiven zu einem präventiven Ansatz zu wechseln, sind jedoch ein Kultur- und Plattformwandel erforderlich. Wie Abbildung 1 zeigt, ist die Erreichung der nötigen Reife für digitale Prozesse zur Ermöglichung von Runbook Automation ein mehrstufiger Prozess.

Abb. 1

Um sich erfolgreich weiterzuentwickeln, sollten Organisationen klein anfangen, damit sie ihre Automatisierungskapazitäten schrittweise ausbauen können, während sie lernen und immer mehr Vorteile erkennen. Dies erfordert ein progressives Vorgehen nach dem Motto „Kriechen, Gehen, Laufen“ (Abb. 2).

  • Kriechen : Automatisieren Sie einfache, einstufige Aktionen, die keine Auswirkungen auf die Leistung oder Verfügbarkeit des Dienstes haben und nur wenig Verarbeitungsaufwand erfordern.
  • Gehen : Automatisieren Sie mehrstufige Abläufe, die tiefergehende Diagnosen ermöglichen und viele häufige oder sogar wiederkehrende Probleme beheben.
  • Laufen : Automatisieren Sie komplexe Aktionen, die die Leistung oder Verfügbarkeit erheblich beeinträchtigen können und typischerweise privilegierten Zugriff für viele Schritte zwischen mehreren Systemen erfordern.

Abb. 2

Wir unterstützen Organisationen auf diesem Weg mit unseren Rundeck von PagerDuty Rundeck erweitert die bestehende Incident-Response-Strategie um Runbook-Automatisierung. Dadurch werden bestehende Automatisierungen, Skripte und Befehle sicherer, nachvollziehbarer und einfacher auszuführen. Mit Rundeck als zentraler Plattform, die über PagerDuty ausgeführt wird, lassen sich Tools und Infrastruktur verbinden und die für die Incident-Behebung notwendigen Aufgaben sicher per Self-Service an die Einsatzkräfte delegieren.

Die vereinte Kraft von Rundeck und PagerDuty

Die Kombination von Rundeck und PagerDuty bietet Unternehmen eine leistungsstarke Möglichkeit, die mittlere Reaktionszeit (MTTA) und die mittlere Reparaturzeit (MTTR) weiter zu verbessern, Umsätze zu sichern, die operative Produktivität zu steigern und Burnout vorzubeugen. Die gebündelte Leistungsfähigkeit beider Systeme ermöglicht die Behebung von Störungen innerhalb weniger Minuten (Abb. 3). Wenn Sie mehr über den Einstieg in die Runbook-Automatisierung erfahren möchten, laden Sie unser neues E-Book herunter. Hier Die

Abb. 3.

Um mehr über Rundeck von PagerDuty zu erfahren und eine Demo zu vereinbaren, besuchen Sie: https://www.rundeck.com/see-demo Die