Der Blog

Neuer Ops-Leitfaden: Best Practices für Bereitschaftsteams

von Mandi-Wände 10. Februar 2021 | 5 Minuten Lesezeit

Die ständige Verfügbarkeit digitaler Dienste hat die Anforderungen an technische Teams erhöht, rund um die Uhr einsatzbereit zu sein. Für Teams, die mit diesem Konzept noch nicht vertraut sind, kann die Einführung der Rufbereitschaft stressig und komplex sein. Als Teil der Hauptplattform von PagerDuty ist das Rufbereitschaftsmanagement für unser Geschäft von zentraler Bedeutung, aber auch die nicht-technischen Aspekte sind für Teams wichtig.

Wir haben eine Reihe der zahlreichen Ressourcen von PagerDuty in einem übersichtlichen Leitfaden zusammengefasst, der Ihnen hilft, sich in den schwierigen Gefilden der Bereitschaftsdienste mit Teams zurechtzufinden, die noch nie zuvor in Bereitschaft waren. Hoffentlich kennen Sie unsere Ops-Leitfäden , aber wenn nicht, ist dies ein großartiger Ausgangspunkt!

Stellen Sie fest, warum Sie ein Bereitschaftsprogramm benötigen

Wenn Ihr Team noch nie an einem vorgeschriebenen Bereitschaftsdienst teilgenommen hat, ist es wichtig zu klären, warum das Team die Bereitschaftsaufgaben übernehmen soll. Es kann viele Gründe geben, warum es für Ihr Unternehmen sinnvoll ist, mehr Teams für den Bereitschaftsdienst bereitzustellen.

Wenn Ihr Team bisher auf ein Network Operations Center (NOC) oder andere externe Ersthelfer angewiesen war, kann eine hohe Anzahl von Eskalationen und/oder ungelösten Alarmen ein Grund für die Implementierung eines robusteren Bereitschaftsplans sein. Kann Ihr NOC einen Alarm nicht lösen und muss ihn dann an ein Team ohne vorgeschriebenen Bereitschaftsdienst weiterleiten, können die dadurch entstehenden Verzögerungen die Wiederherstellungszeiten verlängern. Bedenken Sie: Jede Übergabe bei der Lösung eines Vorfalls kostet wertvolle Zeit. Und jeder neue Mitarbeiter, der dem Vorfall hinzugezogen wird, benötigt Zeit, um Informationen und Kontext zum Vorfall zu sammeln.

Verzögerungen und Verwirrung entstehen auch dann, wenn Anwendungsentwicklungsteams für ihre Produktionsumgebungen auf separate Betriebsteams angewiesen sind. Ähnlich wie im NOC-Beispiel müssen die Mitarbeiter des Betriebsteams bei Fehlern und Vorfällen im Zusammenhang mit dem Anwendungscode Zeit damit verbringen, jemanden im Entwicklungsteam zu finden, der ihnen bei der Problemlösung hilft.

Die Aufgabentrennung bei Vorfällen kann auch zu Verzögerungen bei der dauerhaften Behebung von Problemen im Anwendungscode führen. Niemand möchte immer wieder auf denselben Fehler reagieren müssen, nur weil er in der Anwendung nicht dauerhaft behoben wurde. Das Hinzufügen einer Karte zum Backlog zur Behebung eines Fehlers behebt das Problem nicht wirklich; die Behebung muss priorisiert und bearbeitet werden. Wenn sich der ROI für eine Behebung nicht lohnt, ist eine Dokumentation zur Vorgehensweise für die nächsten Mitarbeiter die nächstbeste Option.

Sie befinden sich möglicherweise in einer Organisation, die von Anwendungsentwicklern erwartet, dass sie eine stärkere Rolle bei der Bereitschaft für ihre Anwendungen übernehmen, um die Zeit zur Lösung eines Problems und zur Erstellung einer dauerhaften Lösung zu verkürzen.

Ängste lindern

Eine der größten Herausforderungen für Teams, die eine neue Bereitschaftsverantwortung übernehmen, ist der Ruf, dass Bereitschaftsdienste das Leben der Einsatzkräfte auf sehr nachteilige Weise stören. Niemand möchte Familienfeiern, Feiertage und Schlaf verpassen.

Um Ihrem Team ein besseres Bereitschaftserlebnis zu bieten, sind gute technische und kulturelle Praktiken erforderlich. Ihr Team wird störende Warnmeldungen beseitigen wollen, sei es durch die dauerhafte Behebung der Probleme, die Schaffung Automatisierung um häufige Probleme zu behandeln oder Warnungen mit minimalen Auswirkungen auf den Benutzer herabzustufen.

Wenn ein Alarm jemanden möglicherweise um 2 Uhr morgens wecken kann, sollte es sich lohnen!

Sie sollten außerdem Richtlinien für Ihr Team festlegen, damit es Schichten tauschen und sich gegenseitig vertreten kann, wenn etwas dazwischenkommt. Das Leben ist nicht immer dasselbe, und man kann nicht immer alles planen. Machen Sie es Ihrem Team daher leicht, Schichten zu verschieben, wenn es nötig ist.

Verwenden Sie Ihre Werkzeuge

Die PagerDuty Plattform bietet Ihnen eine Reihe nützlicher Tools, mit denen Sie sicherstellen können, dass Ihr Team einsatzbereit ist. Eines dieser Tools ist die Bereitschaftsberichte .

Diese Berichte helfen Ihrem Team, auf die von Ihnen gewünschte Weise mit PagerDuty verbunden zu bleiben.

Die Optionen im Bereitschaftsbericht hängen von den Anforderungen ab, die Sie an Ihr Team gestellt haben, und zeigen Ihnen, welche Teammitglieder ihre Konten entsprechend konfiguriert haben. Sie können gemeinsam mit Ihrem Team entscheiden, welche Benachrichtigungsmethoden für die von Ihnen unterstützten Dienste am besten geeignet sind. Für Aufgaben mit niedriger Priorität können Sie „Telefon muss enthalten“ wählen. Für Teams, die wichtige kundenorientierte Dienste verwalten, empfiehlt sich eher eine Option wie „Keine Seite verpassen“, bei der Ihr Team aufgefordert wird, seine Konten mit E-Mail, Telefon, SMS und Push-Benachrichtigungen über die PagerDuty -App einzurichten.

Teilen Sie Ihre Gedanken

Wir hoffen, Sie geben die neuer Ops-Leitfaden lesen! Dann besuchen Sie uns im Community-Foren um uns Ihre Meinung mitzuteilen und ob wir etwas übersehen haben. Wenn Sie außerdem wichtige Punkte für unsere Checkliste für den Bereitschaftsdienst haben, teilen Sie uns dies bitte in diesem Faden . Wir sammeln die Antworten und fügen dem Leitfaden eine herunterladbare Checkliste hinzu.