Der Blog

Wenn jede Minute zählt: Der Stromausfall auf der Iberischen Halbinsel und die Zukunft der digitalen Resilienz

von Eduardo Crespo 14. Mai 2025 | 5 Minuten Lesezeit

Am 28. April 2025 kam es in Spanien, Portugal und kurzzeitig auch in Teilen Frankreichs zu einem der schwersten Stromausfälle der jüngeren Geschichte Europas. Als Millionen Menschen auf der Iberischen Halbinsel plötzlich ohne Strom dastanden, wurde ihnen eine bittere Realität bewusst: In unserer vernetzten Welt reichen die Auswirkungen größerer Vorfälle weit über ihr unmittelbares Wirkungsgebiet hinaus.

Noch ein Weckruf

Dies ist nicht nur eine weitere Ausfallgeschichte. Es ist eine eindringliche Erinnerung daran, was unsere aktuelle Umfrage ergab: 88 % der Führungskräfte erwarten einen Vorfall ähnlichen Ausmaßes wie Globaler IT-Ausfall im Juli 2024 Dieses Jahr. Der Ausfall auf der Iberischen Halbinsel gibt ihnen Recht – die Frage ist nicht mehr ob, sondern wann. Und erst letzte Woche legte ein Computernetzwerkausfall das gesamte BART-System in San Francisco lahm, wodurch 40.000 Pendler strandeten.

Was diesen Vorfall auf der Iberischen Halbinsel jedoch besonders bemerkenswert macht, ist nicht nur sein Ausmaß – über 60 Millionen Menschen waren betroffen –, sondern auch, wie er die komplexen Abhängigkeiten unserer modernen Infrastruktur offenlegte. Als das Stromnetz ausfiel, fielen nicht nur die Lichter aus. Die Telekommunikation sank auf 17 % der normalen Kapazität. Banksysteme fielen aus. Verkehrsnetze kamen zum Erliegen. Diese Kaskade von Ausfällen zeigt, warum traditionelle Ansätze zur Gewährleistung der Zuverlässigkeit nicht mehr ausreichen.

Jenseits des Mythos der perfekten Prävention

In unserer Branche herrscht der weit verbreitete Irrglaube, dass sich Systeme mit ausreichend Redundanz und Präventivmaßnahmen ausfallsicher machen lassen. Dieser Ausfall lehrt uns eines Besseren. Wie wir beim weltweiten IT-Ausfall im letzten Jahr gesehen haben, waren nicht diejenigen Unternehmen erfolgreich, die versuchten, jeden möglichen Ausfall zu verhindern – sondern diejenigen, die im Falle eines Vorfalls effektiv reagieren konnten.

Während des vorherigen globalen Vorfalls verarbeitete die Plattform von PagerDuty über 60.000 Benachrichtigungen pro Minute und hielt dabei unsere durchschnittliche Benachrichtigungszeit von 15 Sekunden aufrecht. Das war kein Glück – es war das Ergebnis systematischer Vorbereitung und der richtigen Tools.

Echte Resilienz in Aktion

Nun fragen Sie sich vielleicht: Wie sieht effektives Vorfallmanagement in der Praxis aus? Lassen Sie es uns genauer betrachten:

  • Frühwarnsysteme sind wichtig: Der Ausfall auf der iberischen Halbinsel begann um 12:03 Uhr MESZ mit Netzschwankungen, 30 Minuten später brach das System jedoch zusammen. Die AIOps von PagerDuty können Teams dabei helfen, solche Anomalien zu erkennen und darauf zu reagieren, bevor sie zu größeren Zwischenfällen führen:
    • Verwenden von maschinellem Lernen zum Erkennen von Mustern und potenziellen Problemen
    • Bereitstellung einer automatisierten Alarmgruppierung zur Reduzierung von Störungen
    • Intelligente Alarmweiterleitung an die richtigen Teams
    • Bereitstellung kontextreicher Benachrichtigungen für eine schnellere Lösung
  • Automatisierung ist Ihr Ersthelfer: Während des Stromausfalls im Juli 2024 verzeichneten unsere Kunden, die die Automatisierungsfunktionen von PagerDuty nutzten, einen Anstieg der Automatisierungsnutzung um 1425 %. So konnten sie Routineaufgaben erledigen, während sich die Mitarbeiter auf wichtige Entscheidungen konzentrierten. Dasselbe Prinzip gilt für das Stromnetzmanagement und die Infrastrukturüberwachung. Unsere Plattform ermöglicht:
    • Automatisierte Vorfallklassifizierung und -priorisierung
    • Vorgefertigte Reaktions-Playbooks für gängige Szenarien
    • Intelligente Workflow-Automatisierung
    • Automatisierte Stakeholder-Kommunikation
    • Integration mit über 700 Tools und Diensten
  • Eine koordinierte Reaktion ist entscheidend: Der Vorfall in Spanien und Portugal erforderte die Koordination zwischen mehreren Stromnetzbetreibern, Rettungsdiensten und Regierungsbehörden in zwei Ländern. Unsere End-to-End-Plattform für Vorfallmanagement sorgt für klare Kommunikationskanäle und strukturierte Arbeitsabläufe, wenn jede Sekunde zählt, dank:
    • Tools für die Zusammenarbeit in Echtzeit
    • Strukturierte Einsatzleitungsprotokolle
    • Automatisierte Eskalationsrichtlinien
    • Stakeholder-Updates und Statusseiten
    • Mobile-First-Design für die Reaktion unterwegs
Heute die Widerstandsfähigkeit von morgen aufbauen

Aktuelle Daten 86 % der Führungskräfte erkennen, dass sie der Sicherheit Priorität eingeräumt haben, statt der Betriebsbereitschaft. Der Ausfall auf der Iberischen Halbinsel bestätigt, was wir schon lange befürworten: Resilienz erfordert einen ganzheitlichen Ansatz, der Folgendes kombiniert:

  • Echtzeitüberwachung und Frühwarnsysteme
  • Automatisierte Antwortfunktionen
  • Klare Protokolle zum Vorfallmanagement
  • Tools zur teamübergreifenden Koordination
  • Kontinuierliches Testen und Verbessern

Bei der Analyse dieses Vorfalls wird eines deutlich: Die Unternehmen, die größere Ausfälle am besten überstehen, sind diejenigen, die in modernes Incident-Management investiert haben. Sie wissen, dass Resilienz nicht bedeutet, jeden möglichen Fehler zu verhindern, sondern Systeme und Prozesse zu entwickeln, die Vorfälle schnell und effektiv erkennen, darauf reagieren und sich davon erholen können.

Bei PagerDuty haben wir beobachtet, wie Unternehmen, die diesen Ansatz verfolgen, bei größeren Vorfällen stets bessere Leistungen erzielen. Während des Ausfalls im Juli 2024 lösten unsere Kunden Vorfälle nur 29 % langsamer als an einem normalen Tag, obwohl das Vorfallaufkommen um 192 % anstieg. Diese Art von Resilienz braucht jedes Unternehmen in der heutigen vernetzten Welt.

Maßnahmen ergreifen

Der Stromausfall auf der Iberischen Halbinsel ist eine Erinnerung daran, dass größere Zwischenfälle unvermeidlich sind. Die Frage ist nicht, ob Ihr Unternehmen vor einer ähnlichen Herausforderung stehen wird, sondern wie gut Sie vorbereitet sind, wenn es passiert . Mit den richtigen Tools, Prozessen und der richtigen Denkweise können Sie die nötige Widerstandsfähigkeit aufbauen, um die Servicekontinuität auch bei größeren Störungen aufrechtzuerhalten.

Möchten Sie mehr über die Vorbereitung auf Ausfälle erfahren? Schauen Sie sich unser On-Demand-Webinar an Lernen Sie aus Vorfällen, um auf den nächsten Ausfall vorbereitet zu sein , Und diese Checkliste um Ihre Betriebsstabilität zu überprüfen und sich auf den nächsten Ausfall vorzubereiten.

Eduardo Crespo ist Vice President für EMEA bei PagerDuty. Mit seiner umfassenden Erfahrung im digitalen Betriebsmanagement in Europa, dem Nahen Osten und Afrika unterstützt er Unternehmen beim Aufbau robuster digitaler Abläufe, die größeren Vorfällen standhalten und sich davon erholen können.