Der Blog

PagerDutys Engineering-Management-Handbuch für gesündere Teams und Services

von Hannah Culver 5. Oktober 2021 | 9 Minuten Lesezeit

Diesen Juli starteten wir Der Stand digitaler Abläufe , die das Volumen der Echtzeitarbeit, ihr Wachstum im Laufe der Zeit und die zunehmende Belastung der technischen Teams beleuchtet. Wir wollten sehen, wie die technischen Führungskräfte in unserer eigenen Organisation einige der im Bericht angesprochenen Herausforderungen angehen. Daher hatten wir unsere Direktor für Produktmarketing, Julian Dunn , setzen Sie sich mit zwei unserer eigenen Engineering-Manager bei PagerDuty zusammen, Leeor Engel Und Dileshni Jayasinghe für eine Runder Tisch um praxisnahe Taktiken für die Herangehensweise an Themen wie die folgenden zu diskutieren:

  • Verwaltung ungeplanter Echtzeitarbeit und Aufbau der Bereitschaftsstärke
  • Verständnis der Team- und Serviceintegrität
  • Durchführung von Betriebsprüfungen und Wissensaustausch

Wenn Sie das Webinar lieber ansehen oder anhören möchten, können Sie sich die Aufzeichnung ansehen. Hier Für diejenigen, die lieber scannen oder lesen, teilen wir in diesem Blogbeitrag einige der Highlights ihrer Diskussion.

Verwaltung ungeplanter Echtzeitarbeit und Aufbau der Bereitschaftsstärke

Unser Ergebnisse berichten zeigen, dass die Vorfälle bei unseren Kunden zwischen 2019 und 2020 um etwa 19 % zugenommen haben. Sowohl Engel als auch Jayasinghe berichteten, dass ihre Teams mit einer Zunahme von Störungen und Signalen konfrontiert waren. Ein besseres Verständnis der Warnmeldungen, die die Teams erhalten, kann dazu beitragen, die Bereitschaftsteams zu entlasten.

Jayasinghe erklärte, sie habe ihre Teams ermutigt, ihre Tools zu optimieren, insbesondere die Art und Weise und den Zeitpunkt der Benachrichtigungen und Pager. Dies spiegele Engels Philosophie wider, Überwachungsschwellenwerte und die Frage, ob die erhaltenen Benachrichtigungen tatsächlich umsetzbar seien, zu überdenken. Die Optimierung des „richtigen Maß an Handlungsbedarf“ ist ein Wunsch, den wir von unseren Kunden immer wieder hören, insbesondere angesichts der veränderten Arbeitsweise.

Wie viele andere Teams weltweit haben auch die Ingenieure von PagerDuty auf Remote-Arbeit umgestellt. Im Zuge dieser Umstellung musste die gesamte Organisation den Umgang mit Warnmeldungen überdenken. Bisher konnten sich Teammitglieder noch umdrehen und um Hilfe bei der Triage bitten oder eine Frage stellen, bevor sie einen Vorfall meldeten. Jetzt, so Jayasinghe, sei es wichtig, auf Nummer sicher zu gehen und Vorfälle frühzeitig zu melden, damit die Koordination beginnen kann.

Wie unsere Kunden sind auch die Teams von PagerDuty ständig auf ihrem Weg zur digitalen Betriebsreife unterwegs. Eine wichtige Erkenntnis, die wir daraus gezogen haben, ist die Bedeutung des Aufbaus einer Bereitschaftskapazität, die die zunehmende Anzahl von Warnmeldungen unterstützen kann.

Egal, ob Sie gerade erst die Schule oder ein Bootcamp abgeschlossen haben oder in früheren Positionen einfach noch nie Bereitschaftsdienst geleistet haben – der erste Bereitschaftsdienst kann einschüchternd sein. Im Webinar erinnert sich Dunn an seine Zeit als Softwareentwickler: „Über die operative Seite – die Verantwortung für einen Service und die Bereitschaftsdienstzeit – wird nie gesprochen.“ Wie sollen sich Ingenieure also an den Bereitschaftsdienst gewöhnen?

Bei PagerDuty basiert die Philosophie auf einer Kultur der Eigenverantwortung, der psychologischen Sicherheit, der Schuldlosigkeit und des kontinuierlichen Lernens. Kurz gesagt, Jayasinghe sagte, der beste Weg, Ingenieuren zu helfen, ihre Bereitschaftsstärke auszubauen, sei, ihnen das Gefühl der Unterstützung zu geben. Sie erklärt ihren Teams, dass sie jederzeit ohne Vorurteile eskalieren können und eine zweite Bereitschaftsperson immer bereit steht, um die primäre Triage zu unterstützen und das Problem bei Bedarf zu besprechen.

Sie ist außerdem der Meinung, dass technische Leiter einen Pager bei sich tragen und im Bereitschaftsdienst präsent sein sollten. „Als Manager ist es wichtig, einsatzbereit zu sein und zu zeigen, dass man Verständnis für seine Teams entwickelt. Das zeigt neuen Ingenieuren, dass jeder für seine Aufgaben verantwortlich ist.“

Als Best Practice empfehlen sowohl Engel als auch Jayasinghe, zwischen dem zweiten und dritten Monat der Beschäftigung eines Ingenieurs ein Hospitationspraktikum zu organisieren. Engel betonte auch das umgekehrte Hospitationspraktikum, bei dem der Ausbildungsingenieur die Führung übernimmt und während des gesamten Prozesses unterstützt wird. Er betonte, dass Übung den Meister macht und neuen Teammitgliedern hilft, sich mit den Tools und Dashboards vertraut zu machen.

„Wenn Sie angepiept werden, möchten Sie möglichst wenig Neues erleben. So haben Sie alles Wichtige sofort zur Hand. Wenn Sie das mental üben können, indem Sie sich die Tools aneignen, ist das eine große Hilfe.“

Verständnis der Team- und Serviceintegrität

Im Jahr 2020 zeigten unsere Plattformdaten, dass die Nutzer länger und weniger regelmäßig arbeiteten als im Jahr 2019. Ein Drittel unserer Nutzer arbeitete 12 zusätzliche Arbeitswochen pro Jahr ! Darüber hinaus stellten wir fest, dass die Wahrscheinlichkeit, dass ein Ingenieur die Plattform verlässt (unser Indikator für Fluktuation), umso höher ist, je häufiger er außerhalb der Geschäftszeiten per Pager erreichbar ist. Statistiken wie diese zeigen deutlich, wie wichtig die Teamgesundheit ist. Doch wie sieht das in der Praxis aus?

Engel betrachtet Gesundheit in zwei Schlüsseldimensionen: der Mitarbeiterperspektive und der Serviceperspektive. Die Mitarbeiterperspektive bedeutet zu verstehen, wie es Ihrem Team mental geht, wie häufig es unterbrochen wird und wann diese Unterbrechungen auftreten. Die Serviceperspektive (Arbeiten mit einem Full-Service-Eigentumsmodell ) berücksichtigt die Last auf Pro-Dienst-Basis.

Er weist darauf hin, dass es wichtig ist, darüber nachzudenken, wie man das Beste aus seinem Geld herausholt, indem man laute Dienste priorisiert und Änderungen vornimmt, die die größte Wirkung auf Ihr Team haben.

„Ich achte unbedingt darauf, ob jemand nachts aufgewacht ist, oder schlimmer noch, mehrmals in der Nacht. Das sollten Sie schnell klären“, sagte Engel.

Jayasinghe und Engel betonten die Bedeutung von Verfahren für solche Nächte. Jayasinghe empfiehlt Managern, eine Dokumentation zu erstellen, die festlegt, wann jemand für den Rest seiner Bereitschaftsschicht eine Überbrückung benötigt oder wann ein Bereitschaftstechniker einen Tag zur Erholung frei bekommt.

„Als Manager sollten Sie diese Richtlinien schriftlich festhalten, damit die Leute sagen können: ‚Ich wurde aufgeweckt, ich werde mir die Zeit nehmen, mich zu erholen und erfrischt zurückzukommen‘“, sagte Jayasinghe.

Sie schlug den Teams außerdem vor, ihre Überwachungstools zu überprüfen. Bei PagerDuty haben wir ein Dashboard, mit dem alle Teams teilen Schlüsseldienste und Kennzahlen Dadurch können wir Anomalien und erhöhte Auslastung erkennen und Probleme proaktiv angehen, bevor jemand benachrichtigt wird. Dank dieses proaktiven Ansatzes können Jayasinghe und ihr Team den Anteil ungeplanter Arbeiten auf unter 20 % begrenzen.

Jayasinghe sagte, dass Manager, die einen qualitativeren Einblick in die Teamgesundheit gewinnen möchten, regelmäßige Einzelgespräche mit ihren Teammitgliedern einplanen sollten. Sie empfiehlt die Plucky 1:1 Starterpaket , insbesondere die Fragen zur Work-Life-Balance, um einen Eindruck davon zu bekommen, wie es den Teams geht.

Durchführung von Betriebsprüfungen und Wissensaustausch

Wenn Teams wachsen und reifen, ist es wichtig, Prozesse zu schaffen, die die Analyse des Zustands und den Wissensaustausch unterstützen. Dies hilft den Entwicklungsteams, auf dem Laufenden zu bleiben und voneinander zu lernen. Hier sind einige Tipps unserer Diskussionsteilnehmer, um einen breiten Austausch von Erkenntnissen zu gewährleisten.

Betriebsprüfungen sind eine hervorragende Möglichkeit für Teams, ihre Leistung zu verstehen. Wir verwenden sogar PagerDutys Analysen Dafür nutzen wir insbesondere die operativen Berichtskarten. Wir haben eine Scorecard für die Bereitschaftsübergabe erstellt, die wichtige Punkte wie Unterbrechungen pro Person und pro Dienst abdeckt. Dies gibt dem Team nicht nur einen besseren Überblick über die Vorgänge während der Rotation, sondern fördert auch die Empathie zwischen den Teammitgliedern. Ein weiterer Aspekt dieser operativen Überprüfungen sind die Service-Loss-Ziele (SLOs) des Dienstes.

SLOs (Service Level Objectives) sind Kennzahlen, die die Zuverlässigkeit eines Dienstes im Hinblick auf kundenorientierte Ziele aufzeigen. Verfügbarkeit und Latenz gehören zu den häufigsten SLOs. Bei Anomalien im Monitoring, die die SLOs beeinträchtigen, kann das Team Maßnahmen ergreifen, um die Kundenzufriedenheit zu verbessern. Dadurch wird auch bestimmt, auf welche Vorfälle der Schwerpunkt gelegt werden sollte, was jedoch Zeit und Iterationen erfordert.

„Sie wählen Ihre SLOs als repräsentativen Indikator für die Auswirkungen auf die Kunden. Es braucht Zeit, diesen Indikator herauszufinden, denn er muss für die Kunden tatsächlich von Bedeutung sein“, bekräftigte Dunn.

Ein weiterer Aspekt von SLOs ist das entsprechende Fehlerbudget, also die zulässige Anzahl von Ausfällen, die ein Dienst in einem bestimmten Zeitfenster aufweisen kann. Engel merkte an, dass Fehlerbudgets seinen Teams helfen, die richtige Risikobereitschaft und Experimentierfreudigkeit zu kalibrieren.

Sie können Ihr verbleibendes Fehlerbudget aus jedem Fenster für Chaos-Engineering nutzen. Bei PagerDuty nennen wir das Misserfolg am Freitag Teams können Teile von Diensten gezielt und sicher unterbrechen, um zu verstehen, wie sie auf einen Ausfall reagieren. Dies bereitet die Teams auf einen tatsächlichen Ausfall vor und bietet Lernmöglichkeiten, um diesen vollständig zu vermeiden.

Über Failure Fridays hinaus schlägt Engel auch vor, von Obduktionen Alle Teams sollten ermutigt werden, Postmortem-Analysen untereinander auszutauschen und die Postmortem-Meetings so offen wie möglich zu gestalten. Neben der Lektüre aktueller Postmortem-Analysen können Teams auch historische Postmortem-Analysen überprüfen, um zu sehen, was passiert ist, welche Maßnahmen abgeleitet wurden und welche Auswirkungen dies auf das Gesamtsystem hatte. Engel empfiehlt außerdem, Postmortem-Analysen teamübergreifend mit der technischen Leitung durchzuführen.

„Hier suchen wir nach systemischen Problemen, die dieses Team betroffen haben könnten, aber auch bei anderen Vorfällen auftreten könnten. Vielleicht können wir das Problem beheben und andere Teams davor bewahren“, erklärte Engel.

Das Lesen von Postmortem-Analysen ist sowohl für alte als auch für neue Teammitglieder eine hervorragende Möglichkeit, aus vergangenen Fehlern zu lernen. Wenn Sie jedoch gezielt nach Möglichkeiten suchen, Wissen teamübergreifend zu teilen, während Sie wachsen, gibt Jayasinghe Ihnen Tipps.

Sie schlägt vor, neue Teams zumindest teilweise mit erfahrenen Ingenieuren zu besetzen, um die Unternehmenskultur aufrechtzuerhalten. Neue Führungskräfte sollten sich etablierten Teams anschließen, um von deren neuen Berichten zu lernen. Dies trägt dazu bei, bestehende Praktiken beizubehalten. Darüber hinaus sollten neue Teams alte Teams bei Bereitschaftsübergaben begleiten, um sich mit den Tools und den Monitoring-Dashboards vertraut zu machen.

Jayasinghe und Engel betonten, dass ihre Kollegengruppe im Management entscheidend für das Lernen ist. PagerDuty -Manager arbeiten daran, Werkzeuge, Prozesse und Dashboards zu standardisieren und diese in unseren Ops Guides zu dokumentieren. Jeder Dienst verfügt über einen Ops Guide in einem Github-Repository, dessen Links für alle verfügbar sind. Sie können sich beispielsweise unsere On-Call-Ops-Leitfaden .

Weiteres Lernen von unseren führenden Ingenieuren

Abschließend teilten Engel und Jayasinghe die Branchenressourcen mit, die sie am hilfreichsten finden. Dazu gehören:

Wenn Sie mehr von Leeor Engel, Dileshni Jayasinghe und Julian Dunn hören möchten, sehen Sie sich ihr On-Demand-Webinar an: „ Perspektiven digitaler Abläufe: Umfang und menschliche Auswirkungen von Bereitschafts- und Echtzeitarbeit. „Wenn Sie sehen möchten, was PagerDuty für Ihre Teams leisten kann, beginnen Sie mit 14 Tage kostenlos testen .