Blog

Die Kosten von IT-Ausfallzeiten: Ein Überblick

von PagerDuty 13. April 2021 | 7 Minuten Lesezeit

Was ist Ausfallzeit?

Da die Nutzung von Cloud Computing branchenübergreifend weiterhin Innovationen fördert, sind leistungsstarke und ausfallsichere Systeme unerlässlich geworden, um mit dem Wettbewerb Schritt halten und interne sowie externe Service-Level-Agreements (SLAs) erfüllen zu können. Im Hinblick auf die Kundenerwartungen kann bereits eine Minute Ausfallzeit Tausende von Euro an entgangenen Einnahmen und eine beschädigte Kundenbeziehung bedeuten.

Was genau versteht man unter Ausfallzeiten? Ausfallzeit Am besten lässt sich dies als ein Zeitraum beschreiben, in dem die Kerndienste eines Systems, Geräts oder einer Anwendung, sowohl intern als auch extern, aufgrund von Aktualisierungen, Wartungsarbeiten, Sicherheitsvorkehrungen und sogar aufgrund unerwarteter Ausfälle für eine gewisse Zeit nicht verfügbar oder im Leerlauf sind.

Arten von Ausfallzeiten

Bei Ausfallzeiten gibt es zwei unterschiedliche Arten: geplante und ungeplante.

Geplant Geplante Ausfallzeiten erfolgen zu einem optimalen Zeitpunkt, um die Auswirkungen auf die Nutzer so gering wie möglich zu halten. Sie dienen der proaktiven Sicherstellung der optimalen Funktionsfähigkeit von Maschinen und Diensten. Es gibt zwei Arten der Ausfallplanung: feste und flexible Ausfallzeiten. Feste Ausfallzeiten folgen einem festgelegten Zeitplan mit definierten Start- und Endzeiten für die Wartung. Flexible Ausfallzeiten hingegen sind ein Zeitfenster, in dem die Wartungsarbeiten stattfinden, wobei der genaue Startzeitpunkt unbekannt ist.

Ungeplant Ungeplante Ausfallzeiten (auch: ungeplante Ausfallzeiten) bezeichnen Betriebsunterbrechungen aufgrund unerwarteter Maschinenfehler, Anwendungs- oder Serverausfälle sowie anderer technischer Ereignisse. Beispiele hierfür sind der Absturz eines lokalen Computers oder der plötzliche Ausfall eines gesamten Dienstes. Ungeplante Ausfallzeiten können jederzeit auftreten und sind für Unternehmen mit erheblichen finanziellen und reputationsbezogenen Kosten verbunden.

Was verursacht Ausfallzeiten?

Die Ursachen für Ausfallzeiten lassen sich im Allgemeinen in einige wenige Kategorien einteilen. Menschliches Versagen ist eine der häufigsten. Unabhängig davon, ob ein Entwickler fehlerhaften Code eingereicht oder ein Administrator ein ungetestetes Paket aktualisiert hat: Wenn Verfahren nicht eingehalten oder ein schwer erkennbarer Systemfehler nicht behoben wird, leidet die Produktverfügbarkeit. Eine weitere Ursache sind Ausfälle von Drittanbieterdiensten, wenn die Ausfallzeit nicht intern, sondern durch den Ausfall externer Dienstleister verursacht wird. Schließlich gibt es hochgradig unvorhersehbare Ereignisse wie Ransomware-Angriffe, die ebenfalls schwerwiegende Folgen haben können.

Messbare Kosten

Sobald das Ausmaß der Ausfallzeiten erfasst ist, können Unternehmen die tatsächlichen finanziellen Verluste beziffern. Die messbaren Ausfallkosten lassen sich in verschiedene Bereiche unterteilen. Der erste Bereich sind die Personalkosten aufgrund des Produktivitätsverlusts. Diese können berechnet werden, indem die Anzahl der ausgefallenen Mitarbeiter mit ihrem Stundenlohn multipliziert und das Ergebnis anschließend mit der Anzahl der Ausfallstunden multipliziert wird. Weitere arbeitsbedingte Kosten, wie beispielsweise die Einstellung von Zeitarbeitern oder die Bezahlung von Überstunden, können ebenfalls erfasst werden.

Geschäftskosten oder Opportunitätskosten lassen sich auch aus Umsatzeinbußen oder Produktivitätsverlusten berechnen, insbesondere im Vergleich zur Leistung unter normalen Umständen. Hinzu kommen Vertrags- und Strafkosten, die Kunden mit einem Service-Level-Agreement (SLA) im Falle eines Ausfalls zustehen. Sind die Auswirkungen des Ausfalls auf die Kunden besonders gravierend, können Unternehmen – insbesondere in regulierten Branchen – sogar mit Klagen rechnen.

Nicht messbare Kosten

Die wohl wichtigsten Kosten sind jene, die sich nicht direkt messen lassen. Ein Beispiel dafür ist die Beeinträchtigung der Mitarbeitermotivation, da Ausfallzeiten Zweifel an der Überlebensfähigkeit eines Unternehmens aufkommen lassen und die Mitarbeiter daran hindern können, wichtige Aufgaben zu erledigen. Ausfallzeiten können auch versteckte Kosten verursachen, indem sie Entwicklungs- und IT-Projekte blockieren, da der Arbeitsfortschritt unterbrochen und die kognitive Belastung der technischen Teams erhöht wird. Schließlich entsteht auch der unwiederbringliche Verlust wichtiger technologiebasierter Marktchancen, da der Ruf eines Unternehmens davon abhängt, wie effektiv es seine Systeme am Laufen halten kann.

Vier Methoden zur Vermeidung von Ausfallzeiten

Was können Unternehmen also tun, um Ausfälle zu verhindern und deren Dauer und Häufigkeit deutlich zu verringern? Diese vier Strategien etablieren sich schnell als branchenweit bewährte Verfahren zur Steigerung der Zuverlässigkeit:

Scheitern als Weg zum Erfolg

Mehrere Backups und ein ausfallsicheres Design sind zwar gut, aber nicht ausreichend. Backups, die erst bei Problemen greifen, können Code verbergen, der unter realer Produktionslast versagt. Große Unternehmen mit hohen Budgets lösen dieses Problem durch automatisierte Tools, die Anwendungen auf Ausfallsicherheit testen, künstliche Latenz erzeugen oder ganze Verfügbarkeitszonen abschalten. Kleinere Unternehmen hingegen können diese Tests einfach regelmäßig manuell durchführen.

Bei PagerDuty nennen wir diese bewährte Methode „Failure Friday“. Durch gezielte Angriffe können Unternehmen proaktiv Systemschwachstellen aufspüren und ihre Reaktionsfähigkeit im Umgang mit Sicherheitsvorfällen verbessern. So geht es nicht nur um die Behebung von Problemen, sondern auch darum, deren Auftreten von vornherein zu verhindern. Bei dieser Übung führen Unternehmen kurzzeitige Angriffe durch und stellen die volle Funktionsfähigkeit der Dienste zwischen den Angriffen wieder her. Teams sollten zudem Dashboards nutzen, um besser zu verstehen, welche Kennzahlen auf Probleme hinweisen und wie sich diese auf die Systeme auswirken.

Praktiken der kontinuierlichen Integration

Continuous Integration (CI) ist eine Softwareentwicklungsmethode, bei der Teammitglieder ihre Arbeit zusammenführen, um Probleme und Konflikte zu minimieren. Im Wesentlichen dient sie der Überprüfung der Codequalität, um sicherzustellen, dass keine Fehler eingeführt werden. Häufig werden automatisierte und wiederholte Tests eingesetzt. Sobald ein Fehler gefunden wird, werden neue Tests erstellt, um zu verhindern, dass dieser Fehler bei zukünftigen Code-Reviews erneut auftritt. Durch den Einsatz von Continuous Integration schaffen Unternehmen eine einheitliche Softwarequalität, die das Risiko jeder Veröffentlichung reduziert.

Es gibt fünf Testarten. Erstens semantische Tests, die die Beziehungen zwischen Daten untersuchen. Unit-Tests prüfen das Design und die Flexibilität des Codes. Funktionstests prüfen die Lesbarkeit für Menschen. Integrationstests stellen sicher, dass alles in Kombination mit allen anderen Diensten, einschließlich Drittanbieterdiensten, funktioniert. Schließlich helfen Lasttests, die Belastbarkeit zu ermitteln und potenzielle Leistungsengpässe aufzudecken.

Behandeln Sie niemals denselben Vorfall zweimal.

Die Auswertung historischer Leistungsdaten, die Analyse der Problemursachen und die Einrichtung eines Warn- und Reaktionssystems helfen, wiederkehrende Ausfallursachen zu vermeiden. Befolgen Sie diese fünf Schritte für Ihren Erfolg.

1. Analysieren Sie historische Daten, um Leistungstrends zu erkennen und spezifische Probleme genauer zu untersuchen. So schaffen Sie eine solide Grundlage, um künftigen Problemen vorzubeugen.

2. Nutzen Sie Monitoring-Tools von Drittanbietern und zentralisieren Sie alle Informationen zu Leistungskennzahlen. Dies ermöglicht es Unternehmen, die Leistung und Abhängigkeiten zwischen einzelnen Servern, Websites und Anwendungen detailliert zu analysieren.

3. Setzen Sie sich Ziele, die auf den Bedürfnissen des Unternehmens, der bisherigen Leistung und der Frage basieren, wie sich diese Leistung auf die Zugänglichkeit der Geschäftsprozesse auswirkt.

4. Ziele sollten in Benachrichtigungsschwellenwerte umgewandelt werden, damit Organisationen benachrichtigt werden, sobald ein Problem auftritt, anstatt erst dann alarmiert zu werden, wenn Ziele überschritten wurden.

5. Fassen Sie relevante und handlungsrelevante Warnmeldungen zu Vorfällen zusammen, um Benachrichtigungen automatisch zu eskalieren, falls keine Maßnahmen ergriffen werden. Mit dem richtigen Management-Tool können Unternehmen alle Ereignisdaten zentral verwalten, weitere Experten einbinden und alle Beteiligten auf dem Laufenden halten.

Testen Sie Drittanbieterdienste

Viele Unternehmen sind auf Drittanbieter angewiesen, um ihren Kunden Produkte und Dienstleistungen bereitzustellen. Fällt beispielsweise Amazon Web Services aus, sind unzählige andere Websites ebenfalls betroffen. Daher ist es entscheidend, Redundanz zu gewährleisten, um Single Points of Failure zu vermeiden.

Bei der End-to-End-Testung von SMS-Anbietern gibt es einige bewährte Vorgehensweisen zu beachten. Für Kurzwahlnummern sollten SMS-Tests alle zwei Minuten versendet werden, bei weniger gebräuchlichen Langwahlnummern kann die Frequenz variieren. Zusätzlich sollten interne Benachrichtigungen über den gesamten Tag verteilt über alle Anbieter des Unternehmens versendet werden. Unternehmen sollten außerdem die Empfangsdauer der Nachrichten messen, um die Verfügbarkeit und Leistung eines Anbieters zu ermitteln. Anbieter mit einer SMS-Zustellungsverzögerung von mehr als drei Minuten sollten herabgestuft und ersetzt werden. Schließlich sollten Unternehmen nicht relevante Benachrichtigungen unterdrücken und zusammengehörige Benachrichtigungen gruppieren. Dies reduziert die Anzahl der Benachrichtigungen, die die Bereitschaftstechniker erhalten, minimiert die Benachrichtigungsmüdigkeit und ermöglicht es ihnen, sich auf die Problemlösung und Prozessoptimierung zu konzentrieren.

Bereiten Sie sich auf einen Stromausfall vor

Durch die Entwicklung eines Plans zur Bewältigung unvermeidbarer Ausfallzeiten können Unternehmen Tausende – oder sogar Millionen – von Dollar an messbaren Kosteneinsparungen erzielen. Gleichzeitig sichern sie die Gesundheit von womöglich noch wichtigeren qualitativen Faktoren wie Mitarbeitermotivation, Markenreputation und Kundenbindung.

Um herauszufinden, wie PagerDuty Ihrem Unternehmen bei der Bewältigung von Ausfällen und Stillstandszeiten helfen kann, Melden Sie sich für eine kostenlose 14-tägige Testphase an.