Blog

Checkliste für das Störungsmanagement Ihres Bereitschaftstechnikers

von Twain Taylor 20. September 2016 | 5 Minuten Lesezeit

Der Bereitschaftstechniker spielt eine entscheidende Rolle im Störungsmanagement. Da er als Ersthelfer vor Ort ist, kann er den Unterschied zwischen einem kritischen Vorfall und einer schnellen Lösung ausmachen.

Kleinere Unternehmen haben nur wenige Wahlmöglichkeiten hinsichtlich der Bereitschaftsperson, aber mit dem Wachstum des Unternehmens und der zunehmenden Komplexität und Bedeutung des Incident-Managements ist ein strukturierter Prozess für den Bereitschaftsingenieur unerlässlich.

Ob kleines Unternehmen oder Großkonzern – ein klarer Prozess zur Auswahl und Ausstattung Ihres Bereitschaftstechnikers ist für alle von Vorteil. Hier einige Richtlinien.

Die erste Reaktion ist entscheidend.

In den ersten Minuten nach Auftreten eines Vorfalls muss der diensthabende Techniker dessen Schweregrad und Ausmaß kennen. Darauf basierend muss er einschätzen, wer zur Behebung des Vorfalls benötigt wird und wie diese Personen schnellstmöglich eingebunden werden können. Dies erfordert fundierte Kenntnisse der Systemfunktionen, damit er im Fehlerfall zwischen normalem und defektem Verhalten unterscheiden kann.

Bei kleinen bis mittelgroßen Teams wird die Rolle des Bereitschaftsingenieurs rotiert. So wird die Last verteilt und alle wissen, wie sie mit Störungen umgehen und bleiben auf dem Laufenden. Größere Teams haben den Vorteil, dedizierte Incident Manager zu haben, die die erste Reaktion einleiten können. In beiden Fällen ist die Hauptaufgabe des Bereitschaftsingenieurs nicht die Behebung der Störung selbst, sondern die Alarmierung und die Hinzuziehung der notwendigen Ressourcen zur Störungsbehebung.

Halten Sie einen zweiten Bereitschaftsingenieur bereit.

Es ist unerlässlich, einen zweiten Bereitschaftsingenieur für Eskalationen bereitzuhalten. Daher ist ein Rotationsplan für die Rollen innerhalb des Teams erforderlich. Es lassen sich problemlos automatisierte Regeln einrichten, sodass PagerDuty den Fall an den Backup-Ingenieur weiterleitet, falls der primäre Ingenieur nicht reagiert.

Stellen Sie sicher, dass Ihr Bereitschaftstechniker über die erforderliche Schulung verfügt.

Da bei einem Vorfall viel auf dem Spiel steht, muss Ihr Bereitschaftstechniker ein Entwickler sein, der Protokolle befolgen und schnell reagieren kann. Er muss verschiedene Strategien für Point-of-Care-Marketing und Kundensupport kennen. Es ist außerdem hilfreich, dem Bereitschaftstechniker eine Checkliste oder ein Ablaufdiagramm für den Fall eines Vorfalls zur Verfügung zu stellen.

Hier sind die Schritte, die ein Bereitschaftstechniker während eines Vorfalls unternehmen muss:

  • Identifizieren & Protokollieren: Der erste Schritt besteht darin, den Vorfall zu identifizieren, die zugrunde liegenden Probleme zu verfolgen und Protokolle zu erstellen. Die Protokollierung ist wichtig, um die Ursache des Problems schnell zu ermitteln und nach der Behebung des Vorfalls eine umfassende Nachbesprechung zu erstellen. Da eine schnelle Reaktion auf den Vorfall entscheidend ist, müssen auch die Identifizierung und Protokollierung zügig und systematisch erfolgen, um zum nächsten Schritt übergehen zu können.
  • Kategorisieren & Priorisieren: Aufgrund der Vielzahl an Problemen, denen ein Team begegnen kann, ist es wichtig, jeden Vorfall zu kategorisieren, um Verwirrung zu vermeiden. Zu den grundlegenden Kriterien für die Kategorisierung eines Vorfalls gehören die Anzahl der betroffenen Nutzer, die ausgefallenen Funktionen, der Umsatzausfall usw. Die Priorisierung von Vorfällen hilft dem diensthabenden Techniker bei der Entscheidung, ob der Vorfall die Zeit und Ressourcen des restlichen Teams erfordert. Kleinere Vorfälle können vom Techniker allein behoben werden, wodurch die Zeit des gesamten Teams gespart und dem Endnutzer ein besseres Erlebnis geboten wird.
  • Benachrichtigen Sie die richtigen Personen: Wenn die Priorität des Vorfalls hoch genug ist, dann kommen Lösungen wie PagerDuty und seine Slack-Integration oder Reaktionsmobilisator Es kann genutzt werden, um die relevanten Personen zusammenzubringen und an einem Ort zu versammeln. Insbesondere die Nutzung der Raumfunktion für ChatOps, gemeinsame Videoanrufe und schnelle Rückmeldungen kann den Erfolg maßgeblich beeinflussen. Bei der Kommunikation mit Teammitgliedern ist es wichtig, sich kurz zu fassen und den Vorfall so prägnant wie möglich zu beschreiben, um keine Zeit zu verlieren. Teams können durch die Flut an Benachrichtigungen abgelenkt werden. Eine Lösung wie PagerDuty ist daher unerlässlich, um die relevanten Informationen herauszufiltern und die irrelevanten Informationen zu erkennen.
  • Fehlerbehebung: Die Fehlersuche muss nicht erst erfolgen, wenn das gesamte Team benachrichtigt und anwesend ist. Selbst während des Wartens auf deren Rückmeldungen ist es entscheidend, dass Ersthelfer wie der Bereitschaftstechniker in der Lage sind, selbstständig Fehler zu beheben. Schnelle Reaktionen können lebensrettend sein, ähnlich wie bei realen Rettungseinsätzen, wo die ersten Minuten entscheidend sind und den Unterschied zwischen einer kritischen Situation und einer später beherrschbaren Lage ausmachen können.

Die Wahl eines Bereitschaftsingenieurs darf nicht vernachlässigt werden. Ein solcher Ingenieur mit ausreichenden Vertretungen und einem gut durchdachten Plan kann in Krisensituationen für effizientes Arbeiten sorgen. Wenn Ihr Bereitschaftsingenieur diese grundlegenden Schritte befolgt, kann Ihr Team mehr Zeit für die Entwicklung und weniger Zeit für die Fehlerbehebung aufwenden.