- PagerDuty /
- Der Blog /
- Best Practices und Einblicke /
- So vermeiden Sie den „Swoop and Poop“-Effekt der Geschäftsführung und weitere Best Practices für operative Reife
Der Blog
So vermeiden Sie den „Swoop and Poop“-Effekt der Geschäftsführung und weitere Best Practices für operative Reife
Wir essen wieder in Restaurants. Wir sehen unsere Familie nach langer Zeit wieder. Einige von uns kehren vielleicht sogar ins Büro zurück. Das heißt aber nicht, dass der Druck auf digitale Dienste nachlässt. Die Weiterentwicklung der operativen Reife steht weiterhin im Vordergrund.
Während die digitale Transformation bereits seit zwei Jahrzehnten stattfindet, erhöhte COVID-19 den Druck, Initiativen zu beschleunigen. Teams erlebten in dieser Zeit mehr Vorfälle, und da die Grenzen zwischen Arbeit und Privatleben verschwimmen, begannen viele Mitarbeiter, Überstunden zu machen, um Krisen zu bekämpfen.
Tatsächlich, in eine Umfrage von über 700 Entwicklern und IT-Betriebsexperten, 58 % der Befragten geben an, dass die Anzahl der Vorfälle innerhalb von 3 bis 6 Monaten um mehr als 40 % zugenommen hat. – mit einer durchschnittlichen Steigerung von 47 % – und setzen ihre Teams erheblich unter Druck.
Im Gespräch mit Kunden über ihre Anpassung an dieses Umfeld zeigt sich ein deutlicher Unterschied zwischen Organisationsgruppen und Teams hinsichtlich ihrer operativen Reife. Kurz gesagt: Je reifer eine Organisation war, desto leichter passte sie sich an das veränderte Tempo und die gestiegenen Anforderungen an. Doch bevor wir darauf eingehen, werfen wir einen Blick zurück. Was genau ist operative Reife?
Betriebsreife ist ein Maß für die allgemeine Konsistenz, Zuverlässigkeit und Belastbarkeit der IT-Infrastruktur, einschließlich der Art und Weise, wie sie verwaltet und gewartet wird Dies umfasst den Umgang der Teams mit Vorfällen. Die operative Reife wirkt sich auf die Gesundheit und Zufriedenheit der Teams, die diese Infrastruktur unterstützen, sowie auf die Endbenutzer aus und macht sie zu einer zunehmend wichtigen Investition.
Wir haben festgestellt, dass fast alle Organisationen in fünf Kategorien der operativen Reife fallen: manuell, reaktiv, reaktionsfähig, proaktiv und präventiv Um die nächste Stufe der operativen Reife zu erreichen, sind Prozess-, Werkzeug- und Kulturänderungen erforderlich. Wir haben ein Webinar erstellt, das Teams hilft, ihren aktuellen Stand zu verstehen und Verbesserungsmöglichkeiten zu finden.
Um Ihnen einen Vorgeschmack auf die Themen zu geben, die wir behandeln, finden Sie hier drei Best Practices, die Sie von unseren Referenten lernen werden:
Machen Sie die Reaktion auf Vorfälle zu einer Geschäftsreaktion
Denken Sie an eine Feuerwehrmannschaft. Bei einem Großbrand gibt es einen Einsatzleiter, der die Aufgaben delegiert (der selbst aber nicht selbst löscht), einen Navigator und Kommunikator sowie mehrere Feuerwehrleute, die aktiv den Brand löschen. Ähnlich funktioniert die Notfallreaktion. Operativ ausgereifte Teams haben für Großbrandfälle feste Rollen. Sie haben einen Einsatzleiter, der die Einsätze organisiert, einen Kommunikationsleiter, der über neue Entwicklungen informiert, sowie mehrere Fachexperten, die den Vorfall lösen.
Aber Reaktion auf Geschäftsvorfälle geht über die bloße Einbindung der Serviceverantwortlichen und der direkten Ansprechpartner hinaus. Die erfahrensten Teams stellen außerdem sicher, dass andere Geschäftsinteressenten während des gesamten Prozesses auf dem Laufenden gehalten werden. Diese Aufgabe übernimmt häufig der Kommunikationsleiter.
Bei schwerwiegenden Vorfällen müssen mehrere Teams über das Problem informiert sein. Der Kundensupport muss beispielsweise wissen, dass mit einem höheren Anruf- und Ticketaufkommen zu rechnen ist. Der Vertrieb muss möglicherweise Demos oder Anrufe verschieben. Das Marketing muss möglicherweise wissen, dass ein bestimmter Social-Media-Beitrag zurückgehalten werden muss oder mit überdurchschnittlicher Medienaufmerksamkeit gerechnet werden muss. Führungskräfte möchten die Gesamtauswirkungen nicht nur des beteiligten technischen Teams, sondern aller Teams zusammen auf das Geschäft kennen.
Durch die Kommunikation mit Stakeholdern, die Aktualisierung neuer Entwicklungen und die Zusammenarbeit ohne isolierte Abgrenzung werden Vorfälle schneller gelöst und haben geringere Auswirkungen auf Kunden und Marke. Darüber hinaus hilft dies, das sogenannte „Swoop and Poop“ zu vermeiden. Dabei unterbrechen andere Stakeholder die Vorfallreaktion, um zu verstehen, welche Auswirkungen dies auf ihre Teams hat. Proaktives Eingehen auf ihre Anliegen, bevor sie selbst nachfragen, spart den Einsatzkräften Zeit und Energie.
Aus Fehlern lernen und Änderungen vornehmen
Vorfälle passieren. Sie lassen sich nicht vermeiden. Aber Sie können daraus lernen und in manchen Fällen sogar verhindern, dass sich Vorfälle derselben Art oder Art wiederholen. Dies hängt davon ab, wie gut Ihr Team aus Fehlern lernt und ist ein weiteres Kennzeichen operativer Reife.
Obduktionen sind eine wichtige Methode, aus Systemausfällen zu lernen. Nach der Lösung eines Vorfalls untersuchen erfahrene Teams die Ursachen und Möglichkeiten zur Verhinderung eines erneuten Auftretens. Dieser Prozess umfasst in der Regel eine umfassende Dokumentation des Vorfalls, einschließlich Zeitplänen, Skripten oder Runbooks, die im Lösungsprozess verwendet wurden, sowie relevanter Telemetriedaten.
Nach Abschluss der Dokumentation trifft sich das Reaktionsteam (virtuell oder persönlich) und bespricht die Ereignisse, mögliche Ursachen, den Ablauf des Prozesses und Möglichkeiten, das System widerstandsfähiger gegen derartige Fehler zu machen. Dabei ist es wichtig, Fehler ohne Schuldzuweisungen zu behandeln, um die psychologische Sicherheit zu wahren und den größtmöglichen Nutzen daraus zu ziehen.
Nach Abschluss der Postmortem-Analyse verfügen die Teams oft über eine Liste mit Maßnahmen, die das System vor einem ähnlichen Ausfall schützen könnten. Es reicht nicht aus, diese Maßnahmen einfach zu erstellen und unzugeordnet in einer Warteschlange zu belassen. Zur operativen Reife gehört auch das Ergreifen von Maßnahmen, um positive Veränderungen herbeizuführen.
Nicht alle Aktionspunkte sind gleich. Manche sind wertvoller als andere. Betrachten Sie bei der Priorisierung Ihrer Aktionspunkte deren Auswirkungen auf das Gesamtunternehmen. Wenn zwei Aktionspunkte den gleichen Zeitaufwand erfordern, einer jedoch nur den Serviceverantwortlichen und der andere einem größeren Teil des Unternehmens zugutekommt, priorisieren Sie den Punkt, der mehr Menschen hilft.
Burnout sowohl qualitativ als auch quantitativ messen
Vorfälle sind unvorhersehbar. Deshalb gelten sie als ungeplante Arbeit. Wenn wir alle unsere Arbeitszeiten um vorhersehbare Ausfälle herum planen könnten, wäre das Leben viel einfacher. So funktioniert es jedoch nicht, und Unterbrechungen sind unvermeidlich. Wenn diese Unterbrechungen sehr häufig auftreten oder außerhalb der Arbeitszeiten wie nachts, an Wochenenden und Feiertagen stattfinden, können sich Bereitschaftsmitarbeiter ausgebrannt fühlen.
Eine kürzlich Bericht Eine Studie von PagerDuty zeigte, dass der durchschnittliche PagerDuty Nutzer bis 2020 täglich zwei Stunden mehr arbeitete als 2019. Das entspricht jährlich zwölf zusätzlichen Arbeitswochen. Darüber hinaus ergab der Bericht, dass Nutzer, die mehr Unterbrechungen außerhalb der Arbeitszeit erlebten, am häufigsten ihre PagerDuty -Konten löschten (unser Indikator für Fluktuation). Unternehmen müssen Burnout frühzeitig erkennen, bevor es zu schlechterer Teammoral und Fluktuation führt.
Wie können Unternehmen dies erreichen? Quantitativ betrachtet sollten Manager die Bereitschaftszeit, die durchschnittliche Anzahl und Dauer von Vorfällen pro Bereitschaftsperiode sowie die Häufigkeit, mit der ihre Teams außerhalb der Arbeitszeiten für Einsätze abgezogen werden müssen, berücksichtigen.
Burnout lässt sich jedoch nicht nur in Zahlen ausdrücken. Es ist ebenso wichtig, ein qualitatives Gefühl dafür zu bekommen, wie es den Teams geht. Führungskräfte sollten beispielsweise auf Gespräche über lange Nächte oder das Gefühl von Überlastung achten. Sie sollten auch auf nachlassende Arbeitsqualität oder verpasste Termine achten, die Anzeichen für Burnout sein können. Nicht zuletzt müssen Führungskräfte die Teammoral im Auge behalten und sicherstellen, dass trotz der Tatsache, dass viele von uns noch immer remote arbeiten, eine offene Tür für alle Anliegen besteht.
Wenn sich Teams darauf konzentrieren, Burnout vorzubeugen, Probleme als Unternehmen und nicht nur als Team zu lösen und aus Fehlern zu lernen, sind sie auf dem besten Weg zur operativen Reife. Doch das ist nicht alles, was diese Transformation erfordert.
Unser Webinar „ Detaillierte Informationen zur Betriebsgesundheit „“ beschreibt, wie Sie die Weiterentwicklung Ihres Unternehmens planen können. Begleiten Sie Mandi Walls, DevOps Advocate, und Logan Life, Senior Principal Customer Success Manager von PagerDuty, bei der Einführung von Taktiken zur Steigerung der operativen Reife und zur Umsetzung von DevOps-Best Practices wie: Full-Service-Eigentum und eine Kultur ohne Schuldzuweisungen zu pflegen.
Registrieren um das On-Demand-Webinar anzusehen.