In der heutigen digital vernetzten Welt erwarten die Menschen, dass die ihnen zur Verfügung stehenden Anwendungen und Dienste für Verbraucher und Unternehmen jederzeit reibungslos und in Echtzeit funktionieren. Die zugrunde liegende Technologie digitaler Dienste ist jedoch unglaublich komplex zu verwalten, und Ausfälle sind vorprogrammiert. Gleichzeitig steigen die Kosten für Ausfallzeiten exponentiell an. Einige Fortune 500-Einzelhändler berichten von Hunderttausenden von Dollarverlusten. pro Minute aufgrund von Umsatz- und Produktivitätsverlusten.
IT-Organisationen halten daher Service Level Agreements (SLAs) zur Zuverlässigkeit und Verfügbarkeit von Anwendungen und Websites ein und definieren die erforderlichen Standards für einen reibungslosen Geschäftsbetrieb trotz unvermeidlicher IT-Störungen. Zuverlässigkeit, Verfügbarkeit, Wartbarkeit und Sicherheit (RAMS) sind wichtige Systemdesignattribute, die Teams helfen zu verstehen, ob Systeme wichtige Anforderungen erfüllen, wie z. B. die vorgesehene Leistung sowie Funktionalität und Wartbarkeit. Von diesen sind Verfügbarkeit und Zuverlässigkeit für IT-Teams in der Regel am wichtigsten – insbesondere im Hinblick auf die Systemleistung.
Diese beiden Begriffe können wie folgt definiert werden:
- Verfügbarkeit ist ein Maß für den Prozentsatz der Zeit, in der sich ein IT-Dienst oder eine IT-Komponente in einem betriebsbereiten Zustand befindet.
- Zuverlässigkeit ist andererseits ein Maß für die Wahrscheinlichkeit, dass das System bei der Ausführung seiner beabsichtigten Funktion während eines angegebenen Intervalls definierte Leistungsstandards erfüllt.
Schlüsselkennzahlen
Hier sind einige wichtige Kennzahlen, die normalerweise zur Messung von Verfügbarkeit und Zuverlässigkeit verwendet werden.
Verfügbarkeit
Die Verfügbarkeit als Maß für die Betriebszeit kann wie folgt berechnet werden:
Prozentsatz der Verfügbarkeit = (gesamte verstrichene Zeit – Summe der Ausfallzeiten)/gesamte verstrichene Zeit
Dienstanbieter stellen häufig ein Verfügbarkeits-SLA auf Grundlage der unten stehenden Verfügbarkeitsprozenttabelle bereit und verpflichten sich, sicherzustellen, dass die Funktionalität den Erwartungen entsprechend einsatzbereit ist.
Verfügbarkeitsstufe | Erlaubtes Nichtverfügbarkeitsfenster | |||||
Pro Jahr | Pro Quartal | Pro Monat | Pro Woche | Pro Tag | Pro Stunde | |
90 % | 36,5 Tage | 9 Tage | 3 Tage | 16,8 Stunden | 2,4 Stunden | 6 Minuten |
95 % | 12,85 Tage | 4,5 Tage | 1,5 Tage | 8,4 Stunden | 1,2 Stunden | 3 Minuten |
99 % | 3,65 Tage | 21,6 Stunden | 7,2 Stunden | 1,68 Stunden | 14,4 Minuten | 36 Sekunden |
99,5 % | 1,83 Tage | 10,8 Stunden | 3,6 Stunden | 50,4 Minuten | 7,20 Minuten | 18 Sekunden |
99,9 % | 8,76 Stunden | 2,16 Stunden | 43,2 Minuten | 10,1 Minuten | 1,44 Minuten | 3,6 Sekunden |
99,95 % | 4,38 Stunden | 1,08 Stunden | 21,6 Minuten | 5,04 Minuten | 43,2 Sekunden | 1,8 Sekunden |
99,99 % | 52,6 Minuten | 12,96 Minuten | 4,32 Minuten | 60,5 Sekunden | 8,64 Sekunden | 0,36 Sekunden |
99,999 % | 5,26 Minuten | 1,30 Minuten | 25,9 Sekunden | 6,05 Sekunden | 0,87 Sekunden | 0,04 Sekunden |
Quelle: Google SRE-Verfügbarkeitstabelle
Zuverlässigkeit
Zuverlässigkeit hilft Teams zu verstehen, wie der Dienst in realen Szenarien verfügbar sein wird – d. h., sie misst die Häufigkeit und Auswirkung von Ausfällen. Gängige Kennzahlen zur Messung der Zuverlässigkeit sind:
Mittlere Betriebsdauer zwischen Ausfällen (MTBF) = Gesamtbetriebszeit/Anzahl der Ausfälle
Ausfallrate = Anzahl der Ausfälle/Gesamtbetriebszeit
Bei der Festlegung von Kennzahlen für Zuverlässigkeit und Verfügbarkeit müssen IT-Organisationen Kompromisse und Entscheidungen hinsichtlich Kosten und Servicelevel treffen. Sie müssen Kosten und Investitionen in Infrastruktur/Leistung abwägen, um hohe Servicelevel aufrechtzuerhalten, mit maximal zulässigen Ausfallzeiten/Ausfällen, um die Auswirkungen auf das Geschäft und die Benutzerfreundlichkeit zu minimieren.
Best Practices für Verfügbarkeit und Zuverlässigkeit
Automatisierung über den gesamten Softwarebereitstellungszyklus
Ein wichtiger Aspekt für die Bereitstellung leistungsfähigerer und zuverlässigerer Dienste ist die Reduzierung funktionaler Silos und die Implementierung von Automatisierung über den gesamten Softwarebereitstellungszyklus – von Design, Test und Entwicklung über Bereitstellung, Betrieb und Problemlösung bis hin zur Verbesserung. Automatisierung ermöglicht Teams eine schnelle und effiziente Skalierung und verbessert gleichzeitig die Zuverlässigkeit, indem das Risiko manueller Fehler minimiert wird.
Sorgen Sie für die richtige Überwachung
Teams sollten eine redundante Überwachung ihrer Dienste implementieren, um Probleme proaktiv zu erkennen und wichtige Kennzahlen wie Verfügbarkeit und Latenz genau im Auge zu behalten, mit dem Ziel, diese Kennzahlen im Laufe der Zeit zu verbessern.
Nachhaltige Rufbereitschaft und Incident Response
Um schnell auf Probleme reagieren zu können, müssen die Zuständigkeiten für die Dienste und die Verantwortlichkeiten für die Maßnahmen bei damit verbundenen Serviceunterbrechungen klar definiert sein. Daher ist es wichtig, ein System zu implementieren, das Bereitschaftsrotationen und Eskalationen nachhaltig verwaltet und im Störungsfall die richtigen Experten effektiv orchestriert. Ziel ist es, sich von einer Kultur des Heldentums und der Selbsthilfe zu lösen, indem Teams mit den richtigen Informationen und Tools ausgestattet werden, die sie benötigen, um Vorfälle effektiv zu bewältigen und die gewonnenen Erkenntnisse zu nutzen, um die Zuverlässigkeit ihrer Systeme und Prozesse zu verbessern.
Schuldlose Obduktionen
Schuldfreie Postmortem-Analysen sind ein entscheidender Bestandteil der Verbesserung von Verfügbarkeit und Zuverlässigkeit, da sie den Teams dabei helfen sollen, sich auf die Aspekte des Systems und der Vorfallreaktionsprozesse zu konzentrieren, die verbessert werden können, um wiederkehrende Probleme in der Zukunft zu vermeiden.
Üben Sie mit Chaos Engineering
Chaos Engineering ist eine bewährte Methode, die viele moderne Betriebsteams nutzen, um Fehler zu erkennen, bevor sie zu kundenrelevanten Ausfällen führen, und sich auf Störfälle vorzubereiten. Durch das systematische Einfügen von Fehlern in Systeme erkennen Teams potenzielle Schwachstellen und werden im Umgang mit Störfällen geübt. Dies stärkt das Vertrauen in die Ausfallsicherheit des Systems.
Verbessern Sie noch heute die Betriebszeit
Einer der Schlüssel zur Verbesserung der Zuverlässigkeit digitaler Dienste und Standorte sowie der Systemverfügbarkeit ist die Implementierung einer Echtzeit-Betriebslösung, die Daten aus unterschiedlichen Quellen nutzt, diese auswertet, Teams orchestriert und Lernprozesse sowie Prävention fördert. Bei einer kritischen Störung ist es unerlässlich, Intelligenz und Automatisierung zu nutzen, um Teams sofort zu mobilisieren, denn jede Sekunde zählt. Das System, auf das sich Ihr Team verlässt, muss selbst extrem hohe SLAs hinsichtlich der Zuverlässigkeit einhalten. Wählen Sie einen Anbieter, der transparent über seine Verfügbarkeit und Ausfallzeiten informiert und keine geplanten Wartungsfenster hat.
Aus diesem Grund steht bei PagerDuty die Zuverlässigkeit im Mittelpunkt unserer Bemühungen, unseren Kunden dabei zu helfen, ihre Arbeit auf die entscheidenden Ergebnisse zu heben. PagerDuty nutzt mehrere Rechenzentren, Hosting- und Kommunikationsanbieter, um einen zuverlässigen und hochverfügbaren Service zu gewährleisten. Wir bieten Sicherheits- und Kontrollfunktionen der Enterprise-Klasse und garantieren die jederzeitige Zustellung von Warnmeldungen an Tausende von Organisationen weltweit. Hier sind einige Vorteile und Funktionen unserer Plattform:
Unterbrechungsfreier Service im großen Maßstab | Unser Dienst ist auf mehrere Rechenzentren, Regionen, DNS und Kommunikationsanbieter verteilt, sodass wir immer verfügbar bleiben. |
Garantierte Lieferung | Durch systematisches Abfragen und Testen von Anbietern mit automatischem Failover verarbeiten wir Milliarden von Ereignissen pro Jahr und garantieren die Alarmübermittlung mit einem Zuverlässigkeits-SLA. |
Weltweiter Service | Mehrere Kommunikationsanbieter, darunter E-Mail-, Telefon- und SMS-Anbieter, ermöglichen den Service in über 180 Ländern. |
Transparenz des Servicestatus | Wir bieten rund um die Uhr Transparenz über unsere Betriebszeit über unsere Statusseite unter https://status.pagerduty.com |
Best Practices für Chaos Engineering und Zuverlässigkeit | Um unsere Zuverlässigkeit zu verbessern, führt PagerDuty jede Woche den „Failure Friday“ durch, um unsere Ausfallsicherheit zu testen und kontinuierlich zu verbessern. |
Mehr erfahren
Weitere Informationen zur Zuverlässigkeit finden Sie in den folgenden Ressourcen:
-
- Dokumentation der Reaktion auf Vorfälle : Unsere eigene interne Dokumentation zur Reaktion auf Vorfälle, die wir ausgelagert haben, um anderen Teams dabei zu helfen, bewährte Vorgehensweisen zur Reaktion auf Vorfälle zu übernehmen und so die Zuverlässigkeit zu verbessern.
- Enterprise-Class-Funktionen : Plattform-Webseite, die die Funktionen von PagerDuty hinsichtlich Sicherheit, Zuverlässigkeit, Erweiterbarkeit und Skalierbarkeit beschreibt.