Blog

Rückblick auf den asiatisch-pazifischen Raum: Erkenntnisse aus einem Jahr voller Technologieausfälle, Wiederherstellung: Reparatur vs. Ursachenanalyse

von David Ridge 22. Januar 2024 | 7 Minuten Lesezeit

Unsere Erkundung des Jahres 2023 wird fortgesetzt von dritter Teil unserer Blog-Serie, Abbau von Wissenssilos , Eine unbestreitbare Tatsache bleibt bestehen: Zwischenfälle sind für Organisationen eine unvermeidbare Realität, unabhängig von Branche oder Größe.

Aktuelle Trends im asiatisch-pazifischen Raum zeigen, dass Aufsichtsbehörden verstärkt gegen große Unternehmen vorgehen, die mangelhafte Dienstleistungen erbringen, und aufgrund der negativen Folgen harte Strafen verhängen. Die Folgen eines Vorfalls haben sich von bloßen Umsatzeinbußen und Vertrauensverlusten hin zu erheblichen Geldstrafen und Einschränkungen des Geschäftsbetriebs verschärft.

Angesichts vielfältiger Störungen – von schwerwiegenden technischen Pannen über Ausfälle von Cloud-Diensten bis hin zu Cybersicherheitsrisiken – müssen Unternehmen heute strategisch auf die Reaktion auf Sicherheitsvorfälle vorbereitet sein. In diesem vierten Teil beleuchten wir weiterhin die kritischen Phasen des Vorfalllebenszyklus und geben Organisationen Einblicke, um sich auf das vorzubereiten, was nun unvermeidlich ist: den nächsten Vorfall.

Diagram of the incident lifecycle

Teil 4: Wiederherstellung: Reparatur vs. Ursachenforschung

In der heutigen Landschaft komplexer Systeme wird die Debatte um die Priorisierung der Wiederherstellung des Betriebs gegenüber der Behebung der Ursache fortbestehen. Das richtige Gleichgewicht zu finden, ist entscheidend. Die sofortige Wiederherstellung des Betriebs schützt das Unternehmen vor finanziellen Verlusten und erhält die Kundenzufriedenheit aufrecht. Standardisierte und automatisierte Wiederherstellungsverfahren sind hierfür unerlässlich. Eine klare Definition von „Gelöst“ ist entscheidend für verlässliche Kennzahlen und ein effektives Incident-Management. Um jedoch Genauigkeit und Nutzen zu gewährleisten, ist es notwendig, die Granularität von Kennzahlen wie der mittleren Reparaturzeit (MTTR) filtern und anpassen zu können.

Bei einem IT-Ausfall steht die schnelle Wiederherstellung der Dienste an erster Stelle. Im vergangenen Jahr haben wir erlebt, wie Ausfallzeiten zu erheblichen finanziellen Verlusten, Reputationsschäden und Störungen im Kundenservice führen können. In solchen kritischen Situationen verlagert sich der Fokus von der Ursachenanalyse hin zur schnellen Wiederinbetriebnahme der betroffenen Systeme. Die zugrunde liegende Philosophie ist einfach und basiert auf einigen Grundprinzipien:

  • Betriebszeit ist Geld In unserer digitalen Welt ist die Verfügbarkeit von Diensten eng mit dem Umsatz verknüpft. Je länger Dienste ausfallen, desto größer sind die finanziellen Auswirkungen auf das Unternehmen. Die Wiederherstellung der Dienste gewährleistet, dass der Geschäftsbetrieb schnell wieder aufgenommen werden kann und potenzielle finanzielle Verluste minimiert werden.
  • Kundenerwartungen Ob interne Mitarbeiter oder externe Kunden – Endnutzer erwarten einen unterbrechungsfreien Zugriff auf die Dienste. Eine schnelle Wiederherstellung sichert nicht nur die Kundenzufriedenheit, sondern verhindert auch negative Auswirkungen auf den Ruf des Unternehmens.
  • Betriebskontinuität Manche Probleme haben keine unmittelbar erkennbare Ursache. Ein langwieriger Prozess zur Identifizierung und Behebung des zugrundeliegenden Problems steht möglicherweise im Widerspruch zum Erfordernis der Betriebskontinuität. Die Wiederherstellung des Betriebs ermöglicht es der Organisation, weiterzuarbeiten, während eine gründlichere Untersuchung durchgeführt wird.

Vorübergehende Lösungen, bis das Problem behoben ist

Die Ermittlung der Ursache eines IT-Vorfalls ist ein entscheidender Schritt zur Vermeidung zukünftiger Vorfälle. Die Behebung des zugrundeliegenden Problems kann jedoch zeitaufwändig sein, insbesondere wenn ein vollständiger Entwicklungs- und Testzyklus erforderlich ist. Häufig arbeiten Unternehmen mit komplexen Systemen und Abhängigkeiten, was es schwierig macht, die genauen Auswirkungen von Änderungen vorherzusagen.

Stellen Sie sich vor, ein kritischer Fehler wird entdeckt und das Betriebsteam kann ihn auf eine kürzlich erfolgte Codebereitstellung zurückführen. Bei der Untersuchung der Ursache stellt sich heraus, dass die Behebung des Problems Änderungen in mehreren Modulen erfordert und umfangreiche Tests notwendig sind. Oder vielleicht ist es einfach nur 2 Uhr morgens und nicht gerade die beste Zeit, um mit dem Programmieren anzufangen!

Die richtige Vorgehensweise, insbesondere bei einem Serviceausfall, wäre ein schnelles Zurücksetzen der Änderung, die den Fehler verursacht hat. Dadurch kann das Unternehmen schnell zu einem bekannten, stabilen Zustand zurückkehren und das Ziel, Ausfallzeiten zu minimieren und die Dienste umgehend wieder online zu bringen, wird unterstützt. Dieser Ansatz nimmt den Entwicklern, die das Problem beheben müssen, außerdem den Zeitdruck, unter dem sie stehen.

Eine weitere Strategie zur Wiederherstellung von Diensten ist die Implementierung temporärer Maßnahmen, wie beispielsweise die Bereitstellung zusätzlicher Ressourcen, um den Betrieb kritischer Dienste aufrechtzuerhalten. Dieser Ansatz berücksichtigt, dass die Behebung des zugrunde liegenden Problems Zeit in Anspruch nehmen kann und sich das Unternehmen längere Ausfallzeiten nicht leisten kann.

Wenn beispielsweise ein unerwarteter Anstieg der Nutzeraktivität die bestehende Infrastruktur überlastet, kann eine vorübergehende Erweiterung der Ressourcen oder die Hinzufügung zusätzlicher Rechenleistung die unmittelbare Belastung verringern. Dies behebt zwar möglicherweise nicht die eigentliche Ursache der erhöhten Nachfrage, stellt aber sicher, dass die Dienste weiterhin verfügbar bleiben und verschafft Zeit für eine gründlichere Untersuchung und die Implementierung einer langfristigen Lösung.

Ein kombinierter Ansatz

In beiden Szenarien ist Automatisierung der Schlüssel.

Im vorherigen Beitrag haben wir erläutert, wie Unternehmen die Triagephase im Incident-Lebenszyklus beschleunigen und die Ursache ermitteln können. Ein ähnlicher Ansatz lässt sich auch für die Wiederherstellung von Diensten anwenden. Der Zugriff auf die notwendigen Tools mit nur einem Klick zur Durchführung von Standard-Wiederherstellungsverfahren, wie z. B. das Zurücksetzen einer Bereitstellung oder die Erweiterung der Ressourcen, kann den Druck verringern und wertvolle Zeit sparen.

Die Argumente für die Priorisierung der Wiederherstellung von Diensten gegenüber der Behebung der Ursache verwischen mitunter die Grenzen zwischen Incident- und Problemmanagement. Incidentmanagement konzentriert sich auf die schnelle Wiederherstellung von Diensten, während Problemmanagement darauf abzielt, die Ursachen wiederkehrender Vorfälle zu identifizieren und zu beseitigen. Ein ausgewogenes Verhältnis zwischen diesen beiden Ansätzen ist unerlässlich für den Erhalt einer robusten und ausfallsicheren IT-Umgebung.

In bestimmten Situationen kann ein kombinierter Ansatz sinnvoll sein. Dabei werden temporäre Maßnahmen ergriffen, um den Betrieb schnellstmöglich wiederherzustellen, während gleichzeitig die Ursache des Problems untersucht wird. Entscheidend ist es, ein pragmatisches Gleichgewicht zu finden, das Ausfallzeiten minimiert, ohne endlose Patches zu verursachen oder die langfristige Stabilität der IT-Infrastruktur zu vernachlässigen.

Für operativ ausgereifte Organisationen ist die Automatisierung von Standard-Wiederherstellungsverfahren erforderlich, die von den Betriebsteams innerhalb von Sekunden aufgerufen werden können, um ihnen den nötigen Puffer zu verschaffen, damit sie zugrunde liegende Probleme ohne unnötige Ausfallzeiten beheben können.

MTTR – Repariert oder behoben?

Im Bereich des Incident-Managements kommt dem Begriff „Gelöst“ eine erhebliche Bedeutung zu. Reife Organisationen erkennen die Wichtigkeit einer klaren Definition von „Gelöst“, um Kennzahlen wie die mittlere Lösungszeit (MTTR) sicher anwenden und Service-Level-Agreements (SLAs) einhalten zu können.

Die Behebung von Störungen kann jedoch mitunter uneindeutig sein. Zwar mag die unmittelbare Störung behoben sein, das zugrundeliegende Problem kann aber weiterhin bestehen oder eine erneute Benutzerverifizierung erforderlich sein. Dies führt zu einem Dilemma hinsichtlich der Frage, ob die Störung tatsächlich als behoben gelten kann.

Insights dashboard

Kennzahlen wie MTTR und SLAs sind entscheidend für die Bewertung der Leistung eines Unternehmens bei der Reaktion auf Sicherheitsvorfälle – intern wie extern. Ohne eine klare Definition von „Lösung“ können diese Kennzahlen jedoch ein trügerisches Sicherheitsgefühl vermitteln oder ein verzerrtes Bild der Realität zeichnen. Unternehmen wissen, wie wichtig es ist, den Zeitpunkt der tatsächlichen Lösung eines Vorfalls präzise zu definieren und Berichte zu erstellen, die dies auf verschiedenen Detailebenen und Prioritätsstufen genau erfassen und messen können.

Diese Granularität ist entscheidend, wenn wir eine Kennzahl wie „Mittelwert“ verwenden. Da die Dauer eines Vorfalls nicht nach oben begrenzt ist, können die Ergebnisse bei Stichprobengrößen, die keiner Normalverteilung folgen, verzerrt sein. Für eine hervorragende, detaillierte Analyse von MTTR, dieser kürzlich veröffentlichte Blog beschreibt die Vorteile und Herausforderungen perfekt.

Letztendlich geht es beim pragmatischen Ansatz darum, den Kontext jedes Ausfalls zu verstehen und den effizientesten Weg zu wählen. Das Hauptziel der Betriebsteams sollte stets darin bestehen, Ausfallzeiten zu minimieren und die Geschäftskontinuität zu gewährleisten. Die Behebung der Ursache ist zwar entscheidend, um zukünftige Vorfälle zu verhindern, doch müssen Unternehmen die Dringlichkeit der Wiederherstellung des Betriebs gegen die potenziellen Verzögerungen abwägen, die mit umfangreicher Fehlersuche und -behebung verbunden sind.

Die schnelle Wiederherstellung von Diensten, selbst durch temporäre Maßnahmen oder Rollbacks, kann eine strategische Entscheidung sein, die den unmittelbaren Geschäftsbedürfnissen entspricht. Dieser Ansatz trägt den realen Herausforderungen komplexer Umgebungen und der Unvorhersehbarkeit von Vorfällen Rechnung. Die richtige Balance zwischen Vorfall- und Problemmanagement sowie die Fähigkeit, diese präzise zu messen, ermöglichen es Unternehmen, den schwierigen Spagat zwischen schneller Wiederherstellung und langfristiger Stabilität zu meistern.

Ein Blick nach vorn

In unserem fünften und letzten Beitrag werden wir unsere Reise durch den Lebenszyklus eines Vorfalls abschließen und verstehen, wie wir die Prinzipien der kontinuierlichen Verbesserung und des Lernens nutzen können, um das Vorfallmanagement mit jedem Vorfall iterativ zu verbessern.

Möchten Sie mehr erfahren?

Wir veranstalten außerdem eine dreiteilige Webinar-Reihe, die sich mit der Gewinn- und Verlustrechnung und ihrer Bedeutung für unsere Kunden bei der Fokussierung auf Wachstum und Innovation befasst. Klicken Sie auf die untenstehenden Links, um mehr zu erfahren und sich anzumelden: