Cloudflare reduziert die durchschnittliche Reaktionszeit mit PagerDuty auf Sekunden

PagerDuty image

Größe: 415+ Mitarbeiter

Industrie: Informationstechnologie und Dienste

Standort: San Francisco, Kalifornien

Kunde seit: 2016

Als globale, cloudbasierte Leistungs- und Sicherheitslösung für über 6.000.000 Internetressourcen sorgt Cloudflare dafür, dass Kundenwebsites, -anwendungen und -APIs sicher, leistungsfähig und hochverfügbar sind. Da Cloudflare über 10 % des weltweiten Internetverkehrs abwickelt, ist es unerlässlich, dass die Dienste von Cloudflare für Kunden in großem Umfang online bleiben und gleichzeitig die SLA-Verfügbarkeit garantiert wird, indem Vorfälle identifiziert und behoben werden, lange bevor der Betrieb überhaupt unterbrochen wird. Das Site Reliability Engineering (SRE)-Team von Cloudflare unter der Leitung von Michael Daly suchte nach einer Lösung zur Vorfallbehebung, die Cloudflare dabei helfen würde, die Stabilität seines Betriebs zu erhöhen und gleichzeitig jedem Kunden ein einwandfreies Erlebnis zu bieten.

Herausforderungen: Sichtbarkeit, Kommunikation und Eskalation

Cloudflare stand vor der Einführung von PagerDuty vor drei Herausforderungen. Die erste betraf die Optik. „Wir wussten nicht sofort, wenn etwas kaputt war, weil das Entwicklungsteam bei einem Vorfall keine automatischen Warnmeldungen erhielt“, erklärt Michael.

Die zweite Herausforderung bestand im Vorfallmanagement. Sobald ein Problem entdeckt wurde, verließ sich das Engineering-Team bei der Lösung auf manuelle Prozesse. Die Ingenieure verbrachten Zeit damit, die Ursache des Problems zu diagnostizieren, und wenn eine Lösung die Unterstützung einer anderen Abteilung erforderte, mussten die SREs diese Person per Telefon, SMS oder Chat kontaktieren – eine Aufgabe, die schwierig wurde, wenn Vorfälle nach der Arbeitszeit oder am Wochenende auftraten.

Angesichts des rasanten Wachstums von Cloudflare – von weniger als 800.000 Kunden im Jahr 2013 auf über 6 Millionen im Jahr 2016 – wurde es für Michaels Team immer schwieriger, kritische Vorfälle, die eine Handlung erforderlich machten, aus der wachsenden Datenmenge zu trennen, die von den Überwachungstools generiert wurde. Das Team wollte zwar keine potenziell nützlichen Informationen wegwerfen, musste aber verwandte Symptome gruppieren, um verwertbare Erkenntnisse zu gewinnen. Ohne die Unterstützung durch dynamisches Eventmanagement und Triage, Automatisierung und andere Funktionen von PagerDuty mussten Michael und seine Mitarbeiter die Schwere jedes Vorfalls manuell bewerten, ein Prozess, der zu langsam wurde, um die exponentiell wachsende Zahl von Kunden optimal zu bedienen.

„Die durchschnittliche Zeit bis zur Aktion ist von mehreren Minuten auf Sekunden gesunken.“

– Michael Daly , Engineering Manager, Cloudflare

Verbessern Sie die Stabilität und Reaktionszeit mit PagerDuty

Durch die Einführung von PagerDuty konnte Cloudflare all diese Herausforderungen lösen. PagerDuty stellt sicher, dass Michael und sein Team immer sofort über Vorfälle informiert werden, wenn diese auftreten. Und wenn ein Vorfall von einem anderen Team bearbeitet werden sollte, leitet PagerDuty die Benachrichtigung automatisch weiter, um Zeit zu sparen.

Das Cloudflare SRE-Team nutzt außerdem die Einsatzkommandokonsole und profitieren von Funktionen wie der Hervorhebung von Vorfällen mit hoher Dringlichkeit innerhalb der Major Incidents Application. Dank der vollständigen Transparenz ihrer Infrastruktur sowie der Erkennung von Mustern und Anomalien entgehen ihnen keine schwerwiegenden Ereignisse mehr. Michael erklärt: „Als wir PagerDuty eingeführt haben, konnten wir bestimmte Warnungen annehmen und uns sagen, diese ist wirklich wichtig. Wir müssen uns jetzt darum kümmern.“

Darüber hinaus sind weitere Funktionen wie PagerDuty's HipChat-Integration hat es dem SRE-Team von Cloudflare leichter gemacht, bei der Reaktion auf Vorfälle die Kommunikation zu optimieren, zusammenzuarbeiten, betriebsbezogene Aufgaben mit Befehlen zu automatisieren, gemeinsam zu lernen und vieles mehr. PagerDuty macht es für SREs auch überflüssig, manuell nach Kontaktinformationen für den richtigen Experten zu suchen, da Einzelpersonen, Teams oder Geschäftspartner mit nur einem Klick informiert und für einen Vorfall rekrutiert werden können. Mit PagerDuty können sie sofort Kontakt aufnehmen.

Am wichtigsten ist jedoch, dass PagerDuty die Zeit, die Michael und sein Team zum Reagieren auf Vorfälle benötigen, auf einen Bruchteil der Zeit reduziert hat, die sie vorher benötigte. „Die durchschnittliche Reaktionszeit ist von Minuten auf Sekunden gesunken“, sagte Michael und fügte hinzu, dass schnellere Reaktionszeiten zu einer höheren Servicezuverlässigkeit und besseren Kundenergebnissen führen – was das ultimative Ziel und der Grund ist, warum Cloudflare sich überhaupt für PagerDuty entschieden hat.

„Wir hatten mehrere Optionen, haben uns aber für PagerDuty entschieden, weil wir weniger Arbeit hatten, um PagerDuty mit unseren Systemen kompatibel zu machen. Es war sehr schön formatiert, die API funktionierte einfach und die Ausgabe der App war sehr einfach zu interpretieren.“

– Michael Daly , Engineering Manager, Cloudflare