Der Blog

PagerDutys Engineering-Management-Handbuch für gesündere Teams und Dienste

von Hannah Culver 5. Oktober 2021 | 9 min lesen

Im Juli dieses Jahres starteten wir Der Stand digitaler Abläufe , das Aufschluss über das Volumen der Echtzeitarbeit, ihr Wachstum im Laufe der Zeit und die zunehmende Belastung der technischen Teams gibt. Wir wollten sehen, wie die technischen Leiter in unserer eigenen Organisation mit einigen der im Bericht angesprochenen Herausforderungen umgehen, also haben wir unsere Direktor für Produktmarketing, Julian Dunn , sprechen Sie mit zwei unserer eigenen Engineering-Manager bei PagerDuty, Leeor Engel Und Dileshni Jayasinghe , Für ein runder Tisch um praxisnahe Taktiken für den Umgang mit Themen wie den folgenden zu besprechen:

  • Ungeplante Echtzeitarbeit bewältigen und Bereitschaftsstärke aufbauen
  • Verständnis der Team- und Serviceintegrität
  • Durchführung von Betriebsprüfungen und Wissensaustausch

Wenn Sie das Webinar lieber ansehen oder anhören möchten, können Sie sich die Aufzeichnung ansehen. Hier . Für diejenigen, die lieber scannen oder lesen, veröffentlichen wir in diesem Blogbeitrag einige der Highlights aus ihrer Diskussion.

Verwaltung ungeplanter Echtzeitarbeiten und Aufbau der Bereitschaftsstärke

Unser Ergebnisse berichten zeigen, dass die Zahl der Vorfälle bei unseren Kunden von 2019 bis 2020 um etwa 19 % zugenommen hat. Sowohl Engel als auch Jayasinghe berichteten, dass ihre Teams mit einer Zunahme von Lärm und Signalen konfrontiert waren. Ein besseres Verständnis der Warnmeldungen, die die Teams erhalten, kann dazu beitragen, die Arbeitsbelastung der Bereitschaftsteams zu verringern.

Jayasinghe teilte mit, dass sie ihre Teams ermutigt hat, ihre Werkzeuge zu optimieren, einschließlich der Art und Weise und des Zeitpunkts, zu dem sie alarmiert und benachrichtigt werden. Dies spiegelte Engels Philosophie wider, dass es wichtig ist, die Überwachungsschwellenwerte und die Frage, ob die Alarme, die die Teammitglieder erhalten, umsetzbar sind oder nicht, zu überdenken. Die Anpassung des „richtigen Maß an umsetzbarem Lärm“ ist etwas, das wir von unserem gesamten Kundenstamm hören, insbesondere im Hinblick auf die veränderte Arbeitsweise.

Wie viele andere Teams auf der ganzen Welt haben auch die Ingenieure von PagerDuty auf Remote-Arbeit umgestellt. Im Zuge dieser Veränderung musste die gesamte Organisation den Umgang mit Warnmeldungen überdenken. Bisher konnten sich Teammitglieder auf ihrem Stuhl umdrehen und um Hilfe bei der Triage bitten oder eine Frage stellen, bevor sie einen Vorfall auslösten. Jetzt ist es laut Jayasinghe wichtig, auf Nummer sicher zu gehen und Vorfälle frühzeitig auszulösen, damit mit der Koordination begonnen werden kann.

Wie unsere Kunden sind auch die Teams von PagerDuty ständig auf dem Weg zu ihrer eigenen digitalen Betriebsreife. Eine wichtige Erkenntnis, die wir daraus gezogen haben, ist die Bedeutung des Aufbaus einer Bereitschaftskapazität, die die zunehmende Zahl von Warnmeldungen bewältigen kann.

Egal, ob Sie gerade die Schule oder ein Bootcamp abgeschlossen haben oder in früheren Positionen einfach noch nie Bereitschaftsdienst leisten mussten, der erste Bereitschaftsdienst kann einschüchternd sein. Im Webinar erinnert sich Dunn an seine eigene Zeit als Softwareentwickler: „Sie sprechen nie über die operative Seite – für einen Dienst verantwortlich zu sein und Bereitschaftsdienst zu leisten.“ Wie also sollen sich Ingenieure an den Bereitschaftsdienst gewöhnen?

Bei PagerDuty besteht die Philosophie darin, von einer Kultur der Eigenverantwortung, der psychologischen Sicherheit, der Schuldlosigkeit und des kontinuierlichen Lernens auszugehen. Kurz gesagt, Jayasinghe sagte, der beste Weg, Ingenieuren zu helfen, ihre Bereitschaftsstärke aufzubauen, sei, dafür zu sorgen, dass sie sich unterstützt fühlen. Sie lässt ihre Teams wissen, dass sie jederzeit ohne Vorurteile eskalieren können und dass immer eine zweite Bereitschaftsperson bereitsteht, um bei der primären Triage zu helfen und das Problem bei Bedarf durchzugehen.

Sie ist auch der Meinung, dass technische Leiter einen Pager bei sich tragen und im Bereitschaftsdienst sein sollten. „Als Manager ist es wichtig, auf Abruf bereit zu sein und zu zeigen, dass man Verständnis dafür hat, Empathie für seine Teams aufzubauen. Das zeigt neuen Ingenieuren, dass jeder für seine Dienste verantwortlich ist.“

Als bewährte Methode empfehlen sowohl Engel als auch Jayasinghe, zwischen dem zweiten und dritten Monat der Beschäftigung eines Ingenieurs ein Hospitieren zu organisieren. Engel betonte auch das umgekehrte Hospitieren, bei dem der Ausbildungsingenieur selbst die Kontrolle hat und während des gesamten Prozesses unterstützt wird. Er merkte an, dass Übung den Meister macht und neuen Teammitgliedern hilft, sich mit den Tools und Dashboards vertraut zu machen.

„Wenn Sie angepiept werden, möchten Sie so wenig Neues wie möglich erleben. Auf diese Weise haben Sie alles, was Sie brauchen, immer zur Hand. Wenn Sie das mental einüben können, indem Sie sich diese Werkzeuge aneignen, ist das eine große Hilfe.“

Verständnis der Team- und Serviceintegrität

Im Jahr 2020 zeigten unsere Plattformdaten, dass die Nutzer länger und weniger regelmäßig arbeiteten als im Jahr 2019. Ein Drittel unserer Nutzer arbeitete eine 12 zusätzliche Arbeitswochen pro Jahr ! Darüber hinaus haben wir festgestellt, dass die Wahrscheinlichkeit, dass ein Ingenieur die Plattform verlässt (unser Indikator für Fluktuation), umso größer ist, je häufiger er außerhalb der Geschäftszeiten per Pager erreichbar ist. Bei Statistiken wie diesen ist klar, dass die Verwaltung der Teamgesundheit von größter Bedeutung ist. Aber wie sieht das in der Praxis aus?

Engel betrachtet Gesundheit in zwei Schlüsseldimensionen: der Menschenperspektive und der Serviceperspektive. Die Menschenperspektive bedeutet zu verstehen, wie es Ihrem Team mental geht, wie häufig es unterbrochen wird und wann diese Unterbrechungen auftreten. Die Serviceperspektive (Arbeiten mit einem Full-Service-Eigentumsmodell ) berücksichtigt die Last auf Pro-Dienst-Basis.

Er weist darauf hin, dass es wichtig ist, darüber nachzudenken, wie man das Beste für sein Geld bekommt, indem man laute Dienste priorisiert und Änderungen vornimmt, die die größte Wirkung auf Ihr Team haben.

„Ich achte auf jeden Fall darauf, ob jemand nachts aufgeweckt wurde, oder schlimmer noch, mehrmals in der Nacht. Das ist etwas, das Sie schnell angehen sollten“, sagte Engel.

Jayasinghe und Engel sprachen beide über die Wichtigkeit von Verfahren für solche Nächte. Jayasinghe empfiehlt Managern, eine Dokumentation zu erstellen, die festlegt, wann jemand für den Rest seiner Bereitschaftsschicht eine Überbrückung benötigt oder wann ein Bereitschaftstechniker einen Tag frei bekommen sollte, um sich zu erholen.

„Als Manager sollten Sie diese Richtlinien schriftlich festhalten, damit die Leute sagen können: ‚Ich bin aufgewacht, ich werde mir die Zeit nehmen, mich zu erholen und erfrischt zurückzukommen‘“, sagte Jayasinghe.

Sie schlug den Teams auch vor, einen Blick auf ihre Überwachungstools zu werfen. Bei PagerDuty haben wir ein Dashboard, mit dem alle Teams teilen Schlüsseldienste und Kennzahlen Dadurch können wir Anomalien und erhöhte Auslastung erkennen und Probleme proaktiv angehen, bevor jemand benachrichtigt wird. Mit diesem proaktiven Ansatz können Jayasinghe und ihr Team ihre ungeplante Arbeit auf weniger als 20 % reduzieren.

Jayasinghe sagte, dass Manager, die einen qualitativeren Überblick über die Gesundheit ihres Teams erhalten möchten, sicherstellen sollten, dass sie regelmäßige Einzelgespräche mit ihren Teammitgliedern planen. Sie empfiehlt die Plucky 1:1 Starterpaket , insbesondere die Fragen zur Work-Life-Balance, um einen Eindruck davon zu bekommen, wie es den Teams geht.

Durchführung von Betriebsprüfungen und Wissensaustausch

Wenn Teams wachsen und reifen, ist es wichtig, Prozesse zu schaffen, die die Analyse des Zustands und den Wissensaustausch unterstützen. Dies hilft den Teams in der gesamten Entwicklung, auf dem neuesten Stand zu bleiben und voneinander zu lernen. Hier sind einige Ratschläge unserer Diskussionsteilnehmer, um sicherzustellen, dass Erkenntnisse weit verbreitet werden.

Betriebsprüfungen sind eine hervorragende Möglichkeit für Teams, ihre Leistung zu verstehen. Wir verwenden sogar PagerDutys Analysen dafür, insbesondere die operativen Berichtskarten. Wir haben eine Scorecard für die Übergabe von Bereitschaftsdiensten erstellt, die wichtige Dinge wie Unterbrechungen pro Person und pro Dienst abdeckt. Dies gibt dem Team nicht nur eine bessere Vorstellung davon, was während der Rotation passiert ist, sondern hilft auch, Empathie zwischen den Teammitgliedern aufzubauen. Ein Punkt, den diese operativen Überprüfungen auch berücksichtigen, sind die SLOs des Dienstes.

SLOs (Service Level Objectives) sind Kennzahlen, die zeigen, wie die Zuverlässigkeit eines Dienstes im Hinblick auf ein kundenorientiertes Ziel abschneidet. Verfügbarkeit und Latenz sind einige der häufigsten SLOs. Wenn es bei der Überwachung Anomalien gibt, die die SLOs beeinträchtigen, kann das Team Maßnahmen notieren, die ihm dabei helfen können, das Kundenerlebnis zu schützen. Dadurch wird auch bestimmt, auf welche Vorfälle man sich am meisten konzentrieren sollte, obwohl dies Zeit und Iterationen erfordern wird.

„Sie wählen Ihre SLOs als repräsentativen Indikator für die Auswirkungen auf die Kunden. Es braucht Zeit, um herauszufinden, was dieser Indikator ist, denn es muss etwas sein, das den Kunden wirklich wichtig ist“, wiederholte Dunn.

Ein weiterer Aspekt von SLOs ist das entsprechende Fehlerbudget oder die akzeptable Anzahl von Fehlern, die ein Dienst in einem bestimmten Zeitfenster haben kann. Engel merkte an, dass Fehlerbudgets seinen Teams helfen zu verstehen, wie sie Risikobereitschaft und Experimentierfreude kalibrieren können.

Sie können Ihr verbleibendes Fehlerbudget aus jedem Fenster für Chaos-Engineering verwenden. Bei PagerDuty nennen wir dies Misserfolg am Freitag . Teams können Teile von Diensten auf geplante und sichere Weise absichtlich unterbrechen, um zu verstehen, wie sie auf Fehler reagieren. Dies bereitet Teams auf den Fall eines tatsächlichen Fehlers vor und kann Lernmöglichkeiten bieten, um diesen Fehler vollständig zu vermeiden.

Über die Failure Fridays hinaus schlägt Engel vor, auch von Obduktionen . Alle Teams sollten ermutigt werden, Postmortems miteinander zu teilen und die Postmortem-Meetings so offen wie möglich zu gestalten. Neben dem Lesen aktueller Postmortems können Teams auch frühere Postmortems überprüfen, um zu sehen, was passiert ist, welche Maßnahmen abgeleitet wurden und wie sich dies auf das System als Ganzes ausgewirkt hat. Engel schlägt außerdem vor, Postmortems mit der technischen Leitung aller Teams durchzuführen.

„Hier suchen wir nach systemischen Problemen, die dieses Team betroffen haben könnten, aber auch ein Thema sein könnten, das wir auch bei anderen Vorfällen sehen. Vielleicht können wir das angehen und andere Teams davor bewahren, jemals auf dieses Problem zu stoßen“, erklärte Engel.

Das Lesen von Postmortems ist sowohl für alte als auch für neue Teammitglieder eine großartige Möglichkeit, aus vergangenen Fehlern zu lernen. Wenn Sie jedoch speziell nach Möglichkeiten suchen, Wissen im Rahmen von Skalierung und Wachstum teamübergreifend zu teilen, hat Jayasinghe ihren Rat für Sie.

Sie schlägt vor, neue Teams mit zumindest einigen bestehenden Ingenieuren zu besetzen, um die Kultur aufrechtzuerhalten. Neue Manager, die in ein Unternehmen eintreten, sollten sich etablierten Teams anschließen, damit sie von ihren neuen Berichten lernen können. Dies hilft dabei, bestehende Praktiken beizubehalten. Darüber hinaus sollten neue Teams alte Teams bei Bereitschaftsübergaben begleiten, um sich mit den Tools und den Überwachungs-Dashboards vertraut zu machen.

Jayasinghe und Engel stellten fest, dass ihre Peergroup unter den Managern für das Lernen von entscheidender Bedeutung ist. PagerDuty -Manager arbeiten daran, Werkzeuge, Prozesse und Dashboards zu standardisieren und diese in unseren Ops Guides zu dokumentieren. Jeder Dienst verfügt über einen Ops Guide, der sich in einem Github-Repository befindet und dessen Links für alle verfügbar sind. Sie können sich beispielsweise unseren Anleitung für Bereitschaftsdienst .

Weiteres Lernen von unseren führenden Ingenieuren

Zu guter Letzt teilten Engel und Jayasinghe die Branchenressourcen mit, die sie am hilfreichsten finden. Dazu gehören:

Wenn Sie mehr von Leeor Engel, Dileshni Jayasinghe und Julian Dunn erfahren möchten, schauen Sie sich ihr On-Demand-Webinar an: „ Perspektiven digitaler Abläufe: Umfang und menschliche Auswirkungen von Bereitschafts- und Echtzeitarbeit. „Wenn Sie sehen möchten, was PagerDuty für Ihre Teams tun kann, beginnen Sie mit 14 Tage kostenlos testen .