- PagerDuty /
- Blog /
- Vorfallmanagement und Reaktion /
- Messung technischer Schulden mithilfe von Incident-Management-Daten
Blog
Messung technischer Schulden mithilfe von Incident-Management-Daten
Wären technische Schulden mit finanziellen Schulden vergleichbar, ließen sie sich ohne manuelle Kontrollen kaum im Blick behalten. Viele Menschen bemerken ein fast leeres Girokonto erst, wenn sie sich einloggen und den Kontostand prüfen – oder, noch schlimmer, wenn ein Scheck platzt oder eine Debitkarte abgelehnt wird.
Die Messung technischer Schulden kann jedoch automatisierter erfolgen. Das liegt daran, dass Ihre technischen Schulden, anders als bei Ihrem Bankkonto, … Die IT-Infrastruktur kann überwacht werden fortlaufend mit spezialisierten Tools, und Sie können benachrichtigt werden über kritische Gesundheitskennzahlen Im Gegenzug können Sie verwenden Überwachungsdaten um Informationen über technische Schulden zu erhalten. Anders ausgedrückt: Sie müssen keine manuelle Prüfung durchführen, um zu erkennen, wenn in Ihrem Rechenzentrum etwas schiefgeht. Sie müssen nicht warten, bis ein Server ausfällt, um von einem Problem zu erfahren. Incident-Management-Tools liefern Ihnen diese Informationen. Darüber hinaus ermöglichen sie Ihnen auch, Ihre technischen Schulden zu erfassen, ohne mühsame manuelle Messungen durchführen zu müssen.
Hier erfahren Sie, wie Ihnen das Incident-Management dabei helfen kann, den Überblick über technische Schulden zu behalten und diese zu beheben – ohne dass Ihnen zusätzliche Investitionen entstehen.
Definition technischer Schulden
Zunächst möchte ich erläutern, was ich unter technischer Schuld verstehe. Technische Schuld bezeichnet Mängel im Softwarecode oder in der Architektur, die langfristig zu Ineffizienzen oder anderen Problemen führen. Selbst wenn der Mangel an sich geringfügig ist, können sich im Laufe der Zeit hohe Kosten anhäufen, da sich seine Auswirkungen immer wieder wiederholen.
Ein Programm, dessen Code beispielsweise mehrere Versionen derselben Funktionen enthält, anstatt modular aufgebaut zu sein, kann einige Millisekunden länger laufen als ein besser geschriebenes Programm. Bei einmaliger Ausführung ist das nicht weiter tragisch. Bei einer serverseitigen Webanwendung, die jedoch tausendfach täglich ausgeführt wird, summieren sich die Nachteile schnell in Form von Leistungseinbußen und verschwendeter CPU-Zeit.
Technische Schulden haben viele mögliche Ursachen Die Manchmal nimmt man technische Schulden bewusst in Kauf, weil man etwas schnell umsetzen muss, keine Zeit hat, Best Practices zu befolgen, und man entscheidet, dass die Schulden den Preis wert sind (zumindest zu diesem Zeitpunkt). Manchmal fällt es selbst den penibelsten Administratoren schwer, technische Schulden zu vermeiden. Es sei denn, man kann in die Zukunft sehen (beispielsweise wusste man wahrscheinlich nicht, dass ein zehn Jahre alter Switch, den man heute noch benutzt, weil man sich ein Upgrade nicht leisten kann, nicht mit modernen Firewall-Tools kompatibel sein würde). In diesem Fall sind technische Schulden einfach ein unvermeidlicher Teil des Lebens in einer unvollkommenen Welt.
Verfolgung technischer Schulden
Technische Schulden haben viele Ursachen. Der Vorteil des Incident-Managements bei ihrer Messung liegt darin, dass sich Probleme unabhängig von ihrer Ursache leicht nachverfolgen lassen. Anstatt zeitaufwändige manuelle Systemprüfungen durchzuführen, um Ineffizienzen aufzudecken, können Sie Ihre Incident-Management-Daten nutzen, um das Ausmaß der technischen Schulden zu ermitteln und gezielt zu beheben.
Um das zu verstehen, schauen wir uns einige Beispiele verschiedener Arten an Daten zum Vorfallmanagement, die PagerDuty erfasst und was es über Ihre technischen Schulden aussagen kann.
Betrachten wir zunächst die absolute Anzahl der von Ihren Tools generierten Warnmeldungen. Dies ist eine sehr grundlegende Kennzahl, die von verschiedenen Faktoren beeinflusst werden kann. Unter der Annahme, dass Ihre Systeme für das Incident-Management korrekt konfiguriert sind und Sie keine wesentlichen Änderungen an Ihrer Infrastruktur vornehmen, besteht wahrscheinlich ein Zusammenhang zwischen der Höhe Ihrer technischen Schulden und der Anzahl der von Ihren Tools gemeldeten Vorfälle. Denn höhere Schulden bedeuten eine geringere Performance, was wiederum Warnmeldungen auslöst, sobald Reaktionszeiten oder Ressourcenengpässe bestimmte Schwellenwerte erreichen. Ein stetiger monatlicher Rückgang der Warnmeldungen könnte daher bedeuten, dass Ihre technischen Schulden sinken, weil Ihr Code effizienter geworden ist.
Mittlere Zeit bis zur Auflösung Die mittlere Reparaturzeit (MTTR) ist eine weitere Kennzahl für das Incident-Management, die Aufschluss über Ihre technischen Schulden gibt. Eine häufige Ursache für eine schlechte MTTR ist übermäßig komplexer Code. Um auf das obige Beispiel zurückzukommen: Hastig geschriebener Code mit redundanten Funktionen ist für einen Administrator schwer verständlich. Das bedeutet längere Lösungszeiten, falls er den Code lesen und ändern muss, um auf einen Vorfall zu reagieren.
Die Eskalationsrate in Ihren Incident-Management-Daten ist ein nützlicher Indikator für technische Schulden. Eskalationen treten auf, wenn der Erstbearbeiter eines Vorfalls das Problem nicht lösen kann und zusätzliche Unterstützung anfordern muss. Häufige Eskalationen deuten wahrscheinlich auf eines von zwei Dingen hin. Erstens: Ihre Administratoren sind möglicherweise nicht kompetent genug. In diesem Fall wüssten Sie das aber bereits lange vor der Auswertung Ihrer Incident-Management-Daten. Die zweite Hauptursache für Eskalationen ist Code, der zu komplex ist, als dass er von den Bearbeitern eines Vorfalls problemlos verarbeitet werden könnte. Wenn Ihre Administratoren bei der Bearbeitung von Warnmeldungen mit solchem Code konfrontiert werden, ist die Wahrscheinlichkeit hoch, dass dieser schlecht geschrieben ist und eine Quelle technischer Schulden darstellt.
Die Quelle technischer Schulden ermitteln
Neben der Möglichkeit, allgemeine Trends im Hinblick auf Ihre technischen Schulden zu erkennen, sind Incident-Management-Daten auch hilfreich, um die Ursache eines Problems genauer zu lokalisieren.
Wenn beispielsweise Ihre mittlere Reparaturzeit (MTTR) für Vorfälle im Zusammenhang mit einem bestimmten Programm höher ist als Ihre durchschnittliche MTTR, ist die Wahrscheinlichkeit hoch, dass das betreffende Programm technische Schulden verursacht. Ebenso deutet eine überproportional hohe Anzahl von Warnmeldungen, die von Servern mit einem bestimmten Betriebssystem verursacht werden, wahrscheinlich auf einen Fehler im Code oder in der Konfiguration hin. Diese technischen Schulden lassen sich beheben.
Das Tolle an der Verwendung von Incident-Management-Daten zur Lokalisierung und Behebung technischer Schulden ist, dass es keinen nennenswerten Mehraufwand erfordert. Sie haben bereits Überwachungssysteme Sie verfügen idealerweise über eine zentrale Plattform für Betrieb und Reporting wie PagerDuty. Die Nutzung dieser Ressourcen zur Identifizierung und Behebung technischer Schulden erfordert keine zusätzlichen Tools oder Investitionen. Sie hilft Ihnen, Ihren Code und Ihre Abläufe proaktiv effizienter zu gestalten – mit der Software, die Sie bereits einsetzen.