- PagerDuty /
- Der Blog /
- Automatisierung /
- Mühsal: Noch immer ein Problem für Ingenieurteams
Der Blog
Mühsal: Noch immer ein Problem für Ingenieurteams
Dieses Blog ist ein Update eines beliebten Blogs von Damon Edwards.
In unserer Branche gab es schon immer unterschiedliche Ausdrücke für Arbeit, die zwar notwendig war, das Unternehmen aber nicht weiterbrachte. Die SRE-Bewegung nennt diese Art von Arbeit „Plackerei“.
Das Konzept der Mühe ist eine einigende Kraft, denn es bietet einen unparteiischen Rahmen für die Identifizierung und anschließende Eindämmung der Arbeit, die unsere Zeit in Anspruch nimmt, die Menschen daran hindert, ihr technisches Potenzial zu entfalten, und das Unternehmen nicht voranbringt.
Warum harte Arbeit wichtig ist
Leider ist die typische Arbeitssituation in operativen Organisationen oft „nicht genug Zeit und zu viel zu tun“. Es gibt ein unbegrenztes Angebot an geplanter und ungeplanter Arbeit – neue Dinge müssen eingeführt, Vorfälle bearbeitet, Supportanfragen beantwortet, technische Schulden abgebaut werden und so weiter und so fort.
Wie stellen Sie bei nur einer begrenzten Anzahl von Stunden am Tag sicher, dass das, woran Sie arbeiten, tatsächlich einen Unterschied macht?
Wie stellen Sie sicher, dass Ihr Team und Ihre Organisation die wertschöpfende Arbeit optimal nutzen und die nicht wertschöpfende Arbeit vermeiden? Schließlich bestimmen Organisations- und Teamentscheidungen den Großteil Ihrer Arbeit.
Um sowohl den Wert Ihrer Entwicklungsorganisation als auch das menschliche Potenzial Ihrer Kollegen zu maximieren, benötigen Sie einen objektiven Rahmen, um die „falsche“ Arbeit zu identifizieren und einzudämmen und die „richtige“ Arbeit zu maximieren. Das Verständnis von harter Arbeit – und die Begrenzung ihrer Intensität – bringt Ihrem Unternehmen wirtschaftliche Vorteile und verbessert die Arbeitswelt Ihrer Ingenieurkollegen.
Was ist die Definition von Mühe?
Google hat den Begriff „Tough“ und die SRE-Bewegung erstmals populär gemacht und ihn seitdem auch auf den IT-Betrieb ausgeweitet.
Kurz gesagt geht es bei SRE darum, Software-Engineering-Praktiken – und eine neue Denkweise – in den IT-Betrieb zu integrieren, um hochzuverlässige und hochskalierbare Systeme zu schaffen. Das Interesse am Thema SRE ist sprunghaft angestiegen, seit Google seine Buch „Site Reliability Engineering“ .
Vivek Rau formuliert in seinem Buch eine hervorragende Definition: „Mühe ist die Art von Arbeit, die mit dem Betrieb eines Produktionsdienstes verbunden ist. Sie ist tendenziell manuell, repetitiv, automatisierbar, taktisch, ohne bleibenden Wert und wächst linear mit dem Wachstum eines Dienstes.“
Je mehr dieser Attribute eine Aufgabe aufweist, desto sicherer können Sie sie als „mühselige Arbeit“ einstufen. Nur weil Arbeit als „mühselige Arbeit“ eingestuft wird, heißt das jedoch nicht, dass sie leichtfertig oder unnötig ist. Im Gegenteil: Die meisten Organisationen würden zum Stillstand kommen, wenn die Mühe nicht erledigt würde.
Das Ziel „Keine Mühe“ klingt in der Theorie verlockend. In der Realität ist dieses Ziel in einem Unternehmen jedoch nicht erreichbar. Technologieunternehmen sind ständig im Wandel, und neue Entwicklungen (erwartet oder unerwartet) verursachen fast immer Mühe. Nur weil eine Aufgabe notwendig ist, um einem Kunden einen Mehrwert zu bieten, heißt das nicht, dass sie immer wertschöpfend ist. Mühe mag manchmal notwendig sein, schafft aber keinen dauerhaften Mehrwert (d. h. keine veränderte Wertwahrnehmung der Kunden). Langfristig sollten wir die Notwendigkeit mühsamer Arbeit beseitigen wollen.
Das Beste, was wir hoffen können, ist, den Aufwand effektiv zu reduzieren und ihn unternehmensweit auf einem überschaubaren Niveau zu halten. Der Aufwand entsteht durch Quellen, die Sie bereits kennen, für deren Automatisierung Ihnen aber einfach die Zeit oder das Budget fehlten (z. B. halbmanuelle Bereitstellungen, Schemaaktualisierungen/-rollbacks, Änderungen von Speicherkontingenten, Netzwerkänderungen, Benutzer hinzufügen, Kapazitätserweiterungen, DNS-Änderungen, Service-Failover). Auch eine Vielzahl unvorhergesehener Umstände kann zu Problemen führen, die manuelle Eingriffe erfordern (z. B. Neustarts, Diagnosen, Leistungsprüfungen, Änderungen von Konfigurationseinstellungen).
Was sollten die Menschen tun, anstatt zu schuften?
Anstatt dass Ingenieure ihre Zeit mit nicht wertschöpfender Arbeit verbringen, möchten Sie, dass sie möglichst viel Zeit mit wertschöpfender Ingenieursarbeit verbringen.
Auch wenn man Vivek Raus hilfreichen Definitionen Glauben schenkt, kann Ingenieursarbeit als kreative und innovative Arbeit definiert werden, die menschliches Urteilsvermögen erfordert, einen bleibenden Wert hat und von anderen genutzt werden kann.

In einem Unternehmen mit einem hohen Anteil an Ingenieursarbeit im Vergleich zu harter Arbeit zu arbeiten, fühlt es sich an, als würde jeder auf ein Ziel zuschwimmen. In einem Unternehmen mit einem niedrigen Anteil an Ingenieursarbeit im Vergleich zu harter Arbeit fühlt es sich eher so an, als würde man im besten Fall auf der Stelle treten oder im schlimmsten Fall untergehen.
Hoher Arbeitsaufwand ist giftig
Mühsal mag in kleinen Mengen harmlos erscheinen. Doch wenn sie nicht kontrolliert wird, kann sie sich schnell zu einem Ausmaß anhäufen, das sowohl für den Einzelnen als auch für die Organisation schädlich ist.

Für den Einzelnen führt ein hohes Maß an körperlicher Arbeit zu:
- Unzufriedenheit und fehlendes Erfolgsgefühl
- Burnout
- Mehr Fehler, die zu zeitaufwändiger Nacharbeit führen
- Keine Zeit, neue Fähigkeiten zu erlernen
- Karrierestagnation (beeinträchtigt durch fehlende Möglichkeiten, wertschöpfende Projekte durchzuführen)
Für die Organisation führt ein hohes Maß an körperlicher Anstrengung zu:
- Engpässe bei der Teamkapazität
- Überhöhte Kosten für den Betriebssupport
- Unfähigkeit, bei strategischen Initiativen Fortschritte zu erzielen (das „Jeder ist beschäftigt, aber nichts wird erledigt“-Syndrom)
- Unfähigkeit, Top-Talente zu halten (und Top-Talente zu gewinnen, sobald sich herumspricht, wie die Organisation funktioniert)
Einer der gefährlichsten Aspekte der Plackerei besteht darin, dass es Ingenieursarbeit erfordert, sie zu beseitigen.
Um den Arbeitsaufwand zu reduzieren, ist Entwicklungszeit erforderlich, um entweder eine unterstützende Automatisierung zu entwickeln, die manuelle Eingriffe überflüssig macht, oder um das System zu verbessern, sodass manuelle Eingriffe gar nicht erst nötig sind.
Bei den technischen Arbeiten, die zur Reduzierung des Arbeitsaufwands erforderlich sind, handelt es sich in der Regel um die Wahl zwischen der Erstellung externer Automatisierung (d. h. Skripte und Automatisierungstools außerhalb des Dienstes), der Erstellung interner Automatisierung (d. h. Automatisierung, die als Teil des Dienstes bereitgestellt wird) oder der Verbesserung des Dienstes, sodass keine Wartungseingriffe erforderlich sind.
Mühe kostet Zeit für die technische Arbeit, die zukünftige Mühe verhindert. Wenn man nicht aufpasst, kann die Mühe in einem Unternehmen so weit ansteigen, dass die Kapazitäten nicht mehr ausreichen, um sie zu stoppen. Im Sinne der technischen Schulden wäre dies ein „technischer Bankrott“.

Das SRE-Arbeitsmodell – und alle damit verbundenen Vorteile – hängt davon ab, dass die Teams über ausreichend Kapazitäten für die Entwicklungsarbeit verfügen. Dieser Kapazitätsbedarf ist der Grund, warum harte Arbeit ein so zentrales Konzept für SRE ist. Wenn harte Arbeit die Kapazität für die Entwicklungsarbeit auffrisst, funktioniert das SRE-Modell nicht. Ein SRE, der ständig unter harter Arbeit zu leiden hat, ist kein SRE, sondern nur ein traditioneller, leidgeprüfter Systemadministrator mit einem neuen Titel.
Warum PagerDuty sich um Mühe kümmert
Eines unserer Hauptziele ist die Verbesserung des Arbeitsalltags von Betriebsfachleuten. Genau das erreichen wir durch die Reduzierung der Arbeitsbelastung und die Maximierung der Entwicklungszeit.
Unsere Benutzer haben uns oft gezeigt, wie sie PagerDuty Process Automation und Rundeck bei ihren Bemühungen zur Reduzierung der Arbeitsbelastung einsetzen.
Zu den Vorteilen gehören:
- Reduzierung von Abweichungen und Fehlern, um den Arbeitsaufwand durch Standardisierung der Verfahren zu verringern.
- Erleichtert die Ausführung von Ingenieursarbeiten und reduziert den Arbeitsaufwand durch die Automatisierung von Aufgaben, die zuvor viel Arbeit erforderten.
- Verhindern Sie, dass ein Team einem anderen Team Arbeit macht, indem Sie Self-Service ermöglichen und anderen erlauben, Betriebsaufgaben selbst zu erledigen.
Kontaktieren Sie uns um mehr über PagerDuty Runbook Automation zu erfahren.