PagerDuty
/
Blog
/
Nicht kategorisiert
/
7 Schritte zur Vermeidung von Ausfallzeiten

Blog

7 Schritte zur Vermeidung von Ausfallzeiten

von Twain Taylor 15. Februar 2017 | 6 Minuten Lesezeit

Gewährleisten Sie mit diesen 7 Schritten eine hohe Verfügbarkeit Ihrer Anwendungen.

Vor einigen Monaten erlitt Delta einen IT-Ausfall, der das Unternehmen über 150 Millionen US-Dollar kostete und die Gewinnmarge um bis zu 3 % senkte. Kunden saßen stundenlang fest, 2.300 Flüge wurden gestrichen, und Delta musste Tausende von Hotel- und Reisegutscheinen ausgeben, um die Folgen des langen Ausfalls zu kompensieren – trotz der hohen Wahrscheinlichkeit, dass der Vorfall einige Kunden dauerhaft zur Kündigung veranlasste. ¹ Die

Ausfallzeit Probleme können jederzeit bei Anwendungen und Diensten selbst von Marken mit einem Umsatz von mehreren Millionen Dollar auftreten, und schon ein einziges längerfristiges Problem kann einem Unternehmen Verluste in Höhe von Hunderten von Millionen Dollar bescheren. Solche Situationen lassen sich jedoch weitgehend vermeiden, wenn Sie folgende Schritte befolgen:

Eine Microservices-Architektur einführen
Traditionell wurden Anwendungen monolithisch entwickelt, also als ein einziges, untrennbares Modul. Heute Mikrodienste Mikroservice-Architekturen werden immer beliebter. Sie beinhalten die Entwicklung, das Testen und die Bereitstellung einer Anwendung in kleineren, voneinander unabhängigen Teilen. Dies vereinfacht die Wartung erheblich, da die Anwendungskomponenten voneinander isoliert sind. Fällt eine Komponente aus, kann sie gezielt und separat repariert werden, ohne andere Komponenten zu beeinträchtigen. Bei einer monolithischen Anwendung führt ein Fehler zu Ausfallzeiten der gesamten Anwendung, und die Fehlerursache ist schwer zu ermitteln. Ein Mikroservice-Ansatz macht Ihre Anwendung ausfallsicherer und ist der erste Schritt zu hoher Verfügbarkeit. Beachten Sie jedoch, dass Mikroservice-Architekturen die Komplexität deutlich erhöhen und das Volumen der generierten Überwachungsdaten steigern. Daher ist es entscheidend, … Zusammengehörige Warnmeldungen korrelieren und nicht relevante Warnmeldungen unterdrücken um den Gesamtlärm zu reduzieren.

Schnellere und häufigere Releases ermöglichen
Der größte Vorteil einer Microservices-Architektur liegt in den schnelleren Releases – mehrmals täglich für Webanwendungen und alle zwei Wochen für mobile Apps. Früher gab es vierteljährliche Haupt-Releases, und Ausfallzeiten waren bei jedem Release unvermeidlich. Der moderne Ansatz fragmentiert die Releases. Deployments werden jeweils nur für Teile der Anwendung im Hintergrund ausgerollt, sodass die Plattform stets verfügbar bleibt. Dies reduziert nicht nur das Ausfallrisiko, sondern steigert auch die Wettbewerbsfähigkeit, da Sie durch schnellere Releases innovativere Funktionen und einen höheren Mehrwert bieten können.

Verfügbarkeit ist ein Qualitätsproblem
Qualität und Verfügbarkeit bedingen einander. Viele Unternehmen verkennen die Bedeutung der Qualitätssicherung (QS) und vernachlässigen sie bis zur letzten Minute. Um fehlerhafte Software zu vermeiden, muss das QS-Team so früh wie möglich in den Entwicklungsprozess eingebunden und eng in den Release-Zyklus integriert werden. Die QS sollte sich auf Automatisierung und Teststrategien konzentrieren. Ein Testautomatisierungs-Framework minimiert Fehler und senkt Kosten und Zeit im Vergleich zu manuellen Tests erheblich. Tester suchen nicht nur nach Fehlern, sondern sind proaktiv in den Anforderungsprozess eingebunden, um die Entwicklung in die richtige Richtung zu lenken. Indem sichergestellt wird, dass das Entwicklungsteam von Anfang an die richtigen Wege geht, reduziert das Unternehmen die Wahrscheinlichkeit technischer Schulden. QS bedeutet kontinuierliche Verbesserung – und Ihre Anreize sollten dieses Ziel unterstützen.

Haben Sie einen Notfallwiederherstellungsplan?
Wenn die Kerndienste Ihrer Anwendung ausfallen, ist das katastrophal. In solchen Situationen benötigen Sie einen soliden Notfallwiederherstellungsplan. Da die meisten Unternehmen Hybridarchitekturen mit öffentlicher und privater Cloud-Infrastruktur nutzen, ist Redundanz auf Ihren Servern und die Erstellung von Backups bei verschiedenen Anbietern unerlässlich. Virtualisierung ist besonders nützlich für die Erstellung von Image-Backups physischer Server, Containerisierung sogar noch mehr, da die Image-Backups deutlich kleiner sind und weniger Speicherplatz benötigen. Solche Strategien gewährleisten die Verfügbarkeit Ihrer Daten auch im Katastrophenfall. Darüber hinaus sollten Sie Ihren Backup-Plan vollständig automatisieren, damit er nicht von Administratorrechten abhängt, insbesondere wenn diese nicht verfügbar sind. Die Automatisierung ermöglicht es Ihrem DevOps-Team außerdem, den Notfallwiederherstellungsplan einfach zu testen und für alle Eventualitäten gerüstet zu sein.

ITSM-Änderungsmanagement einsetzen
Stellen Sie sicher, dass standardisierte Rahmenwerke wie ITIL verwendet werden für ITSM Änderungsmanagement. Änderungen sind für IT-Services äußerst vorteilhaft, ohne sie gäbe es keinen Fortschritt – doch alle Änderungen müssen dokumentiert werden. Messen Sie die Erfolgsquoten von Änderungen und veröffentlichen Sie die Ergebnisse, um Teams mit niedrigen Erfolgsquoten zu identifizieren. Ein ITSM-Tool wie beispielsweise ServiceNow Es eignet sich hervorragend für mehr Transparenz und Kontrolle im Änderungsmanagement. Es ermöglicht Ihnen, Änderungen schnell, effizient und mit minimalen Beeinträchtigungen der IT-Dienste vorzunehmen.

Nutzen Sie ein Incident-Management-Tool.
Wenn es zu unvermeidlichen Ausfallzeiten kommt, ist es entscheidend, die richtigen Teammitglieder in Echtzeit zu informieren. Oftmals erhalten Teams jedoch zu viele Benachrichtigungen und übersehen dabei wichtige Meldungen, was die mittlere Lösungszeit (MTTR) verlängert. Eine Incident-Management-Plattform wie PagerDuty hilft dabei, Benachrichtigungen aus verschiedenen Quellen zu verwalten und zu gruppieren. Überwachungssysteme PagerDuty erweist sich bei Ausfällen als unschätzbar wertvoll. Es unterdrückt nicht relevante Warnmeldungen anhand einfach definierbarer Regeln, gruppiert relevante Warnmeldungen zu Vorfällen und stellt sicher, dass nur Vorfälle mit hoher Priorität die richtigen Personen mit den passenden Informationen benachrichtigen. Dank der Integration mit all Ihren bestehenden Monitoring-, Ticketing-, ChatOps- und Kollaborationstools und mehr unterstützt PagerDuty Ihr Team bei der schnellen Fehlerbehebung und Behebung von Vorfällen, sodass Ihre Anwendung schnellstmöglich wieder verfügbar ist.

absichtlich Ausfälle herbeiführen
Geplantes Scheitern stellt sicher, dass Ihr Team jederzeit auf Ausfallzeiten vorbereitet ist. Netflix ist bekannt für diesen Ansatz. Sie verwenden ein Skript namens Chaosaffe Das System läuft ständig im Hintergrund und schaltet Serverinstanzen nach dem Zufallsprinzip ab. So ist das Team im Falle tatsächlicher Serverausfälle stets vorbereitet und kann gleichzeitig den Kundenbetrieb reibungslos aufrechterhalten. PagerDuty praktiziert außerdem Versagensfreitage jede Woche werden absichtlich Fehler in das System eingebaut, um die Reaktionsfähigkeit kontinuierlich zu verbessern, die Einsatzbereitschaft sicherzustellen und die Zuverlässigkeit zu maximieren.

Auch wenn Perfektion unerreichbar ist, konzentrieren Sie sich auf die Menschen, Prozesse und Werkzeuge, die Ihr Unternehmen ausmachen. DevOps Unser Team wird Sie dem Ziel näherbringen. Es gibt zwar keine Patentlösung, die all Ihre Ausfallprobleme beseitigt, aber wenn Sie diese Schritte befolgen, entwickeln Sie zuverlässigere Apps und gewinnen und erhalten das Vertrauen und die Loyalität Ihrer Kunden.

^{Gensler, Lauren. „ Deltas Computerausfall wird sie 150 Millionen Dollar kosten. „Forbes. Forbes Magazine, 7. Sept. 2016. Web. 13. Feb. 2017.“}

Diese könnten Ihnen auch gefallen...

Ankündigungen , Produkt , Nicht kategorisiert
Der Weg zu autonomen Operationen: PagerDuty Frühjahrsversion 26

Nicht kategorisiert
Sicherheitsvorfall bei der Drift-Integration von Salesloft beeinträchtigt einige PagerDuty -Salesforce-Daten

Neuigkeiten & Ankündigungen , Nicht kategorisiert
Update: Sicherheitsvorfall bei der Drift-Integration von Salesloft betrifft einige PagerDuty -Salesforce-Daten