Der Blog

Bereiten Sie Ihren Bereitschaftstechniker besser vor

von Twain Taylor 16. März 2017 | 5 Minuten Lesezeit

Dem Bereitschaftstechniker kommt beim Vorfallmanagement eine entscheidende Rolle zu. Er kann den Unterschied ausmachen, ob ein Vorfall kritisch wird oder schnell bewältigt und gelöst wird.

Startups haben möglicherweise nicht viel Auswahl, wer Bereitschaftsdienst haben soll, aber wenn das Unternehmen wächst und das Vorfallmanagement komplexer wird und mehr auf dem Spiel steht, ist es wichtig, einen strukturierten Prozess für den Bereitschaftstechniker zu haben. Egal, ob Sie ein Startup oder ein Großunternehmen sind, Sie können von einem klaren Prozess profitieren, der Ihren Bereitschaftstechniker auf den Erfolg vorbereitet. Hier sind ein paar Richtlinien.

Die erste Reaktion ist entscheidend

In den ersten Minuten nach Auftreten des Vorfalls muss der Bereitschaftstechniker den Schweregrad und die Auswirkungen des Vorfalls auf den Service kennen. Auf dieser Grundlage muss er oder sie einschätzen, welche nachgelagerten Services betroffen sind, wer zur Lösung des Vorfalls benötigt wird und wie diese schnell eingebunden werden können. Dazu sind Kenntnisse über die Funktionsweise des Systems erforderlich, damit sie bei Störungen die Grundursache identifizieren und die Prioritäten für die Bearbeitung festlegen können. Der Turnus des Bereitschaftstechnikers sollte automatisch geplant werden. Auf diese Weise wird die Last verteilt, das Team optimiert Fairness und Verantwortlichkeit und jeder kann Vorfälle bewältigen, ohne den Überblick zu verlieren. Größere Teams verfügen manchmal über dedizierte Vorfallmanager, die die erste Reaktion einleiten können. In beiden Fällen besteht das Hauptziel des Bereitschaftstechnikers darin, die erforderlichen Ressourcen zur Lösung eines Vorfalls einzubinden, wenn er ihn nicht selbst beheben und beheben kann.

Einen zweiten Techniker auf Abruf haben

Sie sollten einen zweiten (und wahrscheinlich sogar dritten usw.) Bereitschaftstechniker als Backup haben. Dies stellt sicher, dass nichts übersehen wird, wenn der Ersthelfer die Durchsage um 3 Uhr morgens verschläft. Dies bedeutet auch, dass es einen Zeitplan für die Rollenrotation innerhalb des Teams geben muss. Richten Sie automatisierte Regeln ein, damit die Vorfallbenachrichtigung an den Backup-Techniker weitergeleitet wird, wenn der Haupttechniker nicht reagiert.

Stellen Sie sicher, dass Ihr Bereitschaftstechniker über die erforderliche Ausbildung verfügt

Da bei einem Vorfall viel auf dem Spiel steht, muss Ihr Bereitschaftstechniker in der Lage sein, Protokolle zu befolgen und gleichzeitig schnell zu reagieren. Er oder sie muss wissen, wie man mit verschiedenen funktionsübergreifenden Stakeholdern in Kontakt treten (vom Kundensupport, Marketing, PR usw.), damit der Behebungsstatus in geeigneter Weise extern kommuniziert werden kann. Es ist auch nützlich, dem Bereitschaftstechniker eine Checkliste oder ein Flussdiagramm auszuhändigen, an das er sich bei Vorfällen halten kann.

Wie jede Minute des Ausfallzeiten können zu einem Verlust von Tausenden von Dollar führen sind hier die Schritte, die ein Bereitschaftstechniker bei einem Vorfall so schnell wie möglich unternehmen muss:

Identifizieren und protokollieren

Der erste Schritt besteht darin, den Vorfall zu identifizieren oder zu erkennen und Protokolle zu erstellen. Die Protokollierung kann Ihnen helfen, schnell die Grundursache des Problems zu finden und bietet Kontext für eine umfassende Obduktion des Vorfalls sobald es gelöst ist. Da es wichtig ist, schnell auf den Vorfall zu reagieren, muss auch die Identifizierung und Protokollierung schnell und methodisch erfolgen, um mit dem nächsten Schritt fortfahren zu können.

Kategorisieren und priorisieren

Aufgrund der großen Vielfalt an Problemen, auf die ein Team stoßen kann, ist es wichtig, Vorfälle zu kategorisieren, um Verwirrung zu vermeiden. Notieren Sie die Anzahl der betroffenen Benutzer, den „Explosionsradius“ des Problems in Bezug auf die betroffenen Dienste, die potenziellen Auswirkungen auf den Umsatz usw. Die Priorisierung von Vorfällen kann dem Bereitschaftstechniker dabei helfen, zu entscheiden, ob der Vorfall die Zeit und Ressourcen des restlichen Teams erfordert. Kleinere, weniger komplexe Vorfälle sollten nach Möglichkeit vom Techniker allein bearbeitet werden, um die Zeit des gesamten Teams zu sparen. Nicht umsetzbare Warnungen sollten ebenfalls unterdrückt werden , um noch mehr sicherzustellen, dass sich die diensthabenden Techniker auf das Wesentliche konzentrieren können.

Benachrichtigen Sie die richtigen Personen

Plattformen wie PagerDuty und seine eingebauten ChatOps und Collaboration-Integrationen sind die beste Methode, um die relevanten Personen zu rekrutieren und sie zur richtigen Zeit am richtigen Ort zusammenzubringen. Insbesondere die Verwendung spezifischer ChatOps-Kanäle/-Räume, gemeinsam genutzter Videoanrufe und Konferenzen sowie die Lösung von Problemen im Kontext können einen großen Unterschied in der Geschwindigkeit der Lösung und dem Ausmaß der geschäftlichen Auswirkungen ausmachen. Bei der Kommunikation mit Teammitgliedern ist es auch wichtig, den Vorfall kurz und präzise zu beschreiben, um sowohl Ihnen als auch anderen Zeit zu sparen. Teams können durch eine Überlastung mit Alarmen abgelenkt werden, und eine Lösung wie PagerDuty ist unerlässlich, um Unterdrücken Sie den Lärm , und bringen Sie das Signal an die Oberfläche.

Fehlerbehebung

Die Fehlerbehebung muss nicht erst erfolgen, wenn das gesamte Team benachrichtigt wurde und anwesend ist. Selbst während sie auf ihre Antworten warten, ist es wichtig, dass Ersthelfer wie der Bereitschaftstechniker in der Lage sind, die Fehlerbehebung unterwegs durchzuführen. Schnelle Reaktionen können lebensrettend sein, ähnlich wie bei echten Rettungsdiensten, bei denen die ersten paar Minuten unglaublich wichtig sind.

Die Verwaltung und Ausstattung von Bereitschaftsressourcen ist für jedes Entwicklungs- oder Betriebsteam eine entscheidende Aufgabe, um erfolgreich zu sein. Ausreichende Backups und gut durchdachte Prozesse und Pläne sorgen für Effizienz, wenn etwas schief geht. Wenn Bereitschaftsingenieure die oben beschriebenen grundlegenden Schritte befolgen, können die Teams mehr Zeit mit Erstellen und Innovieren verbringen und weniger Zeit mit der Behebung von Problemen.