Cloudflare reduziert die mittlere Reaktionszeit mit PagerDuty auf Sekunden.
Größe: Mehr als 415 Mitarbeiter
Industrie: Informationstechnologie & Dienstleistungen
Standort: San Francisco, Kalifornien
Kunde seit: 2016
Als globaler Anbieter von Cloud-basierten Performance- und Sicherheitslösungen für über 6 Millionen Internetressourcen gewährleistet Cloudflare die Sicherheit, Performance und hohe Verfügbarkeit von Kundenwebsites, -anwendungen und -APIs. Da Cloudflare über 10 % des weltweiten Internetverkehrs abwickelt, ist es unerlässlich, dass die Dienste für Kunden in großem Umfang verfügbar bleiben und die vereinbarte Verfügbarkeit (SLA) durch die frühzeitige Erkennung und Behebung von Störungen gewährleistet wird, lange bevor es zu Betriebsunterbrechungen kommt. Das Site Reliability Engineering (SRE)-Team von Cloudflare suchte daher nach einer Lösung zur Störungsbehebung, die die Stabilität des Betriebs erhöht und gleichzeitig jedem Kunden ein einwandfreies Nutzererlebnis bietet.
Herausforderungen: Transparenz, Kommunikation und Eskalation
Cloudflare stand vor der Einführung von PagerDuty vor drei Herausforderungen. Die erste betraf die Außenwirkung. „Wir wussten nicht sofort, wenn etwas nicht funktionierte, da das Entwicklerteam keine automatischen Benachrichtigungen erhielt, wenn ein Vorfall auftrat“, erklärte der leitende Entwicklungsmanager.
Die zweite Herausforderung bestand im Incident-Management. Sobald ein Problem entdeckt wurde, griff das Entwicklerteam auf manuelle Prozesse zurück. Die Entwickler verbrachten Zeit mit der Fehlerdiagnose, und falls für eine Lösung die Unterstützung einer anderen Abteilung erforderlich war, mussten die SREs diese Person per Telefon, SMS oder Chat kontaktieren – eine Aufgabe, die sich als schwierig erwies, wenn Vorfälle außerhalb der Arbeitszeit oder am Wochenende auftraten.
Angesichts des rasanten Wachstums von Cloudflare – von weniger als 800.000 Kunden im Jahr 2013 auf über 6 Millionen im Jahr 2016 – wurde es für das Team zunehmend schwierig, relevante, kritische Vorfälle aus der stetig wachsenden Datenmenge der Überwachungstools herauszufiltern. Obwohl das Team potenziell nützliche Informationen nicht verwerfen wollte, mussten zusammengehörige Symptome gruppiert werden, um daraus handlungsrelevante Erkenntnisse zu gewinnen. Ohne die Unterstützung durch dynamisches Ereignismanagement und Triage, Automatisierung und andere Funktionen von PagerDuty mussten Michael und seine Mitarbeiter die Schwere jedes Vorfalls manuell bewerten – ein Prozess, der angesichts der exponentiell wachsenden Kundenzahl zu langsam wurde.
„Die mittlere Reaktionszeit hat sich von mehreren Minuten auf Sekunden verkürzt.“
– Senior Engineering Manager, Cloudflare
Erhöhung der Stabilität und Reaktionszeit mit PagerDuty
Durch die Einführung von PagerDuty konnte Cloudflare all diese Herausforderungen bewältigen. PagerDuty stellt sicher, dass Michael und sein Team stets umgehend über Vorfälle informiert werden. Sollte ein Vorfall von einem anderen Team bearbeitet werden müssen, leitet PagerDuty die Benachrichtigung automatisch weiter, um Zeit zu sparen.
Das Cloudflare SRE-Team verwendet ebenfalls Operationskommandokonsole und profitieren von Funktionen wie der Hervorhebung dringender Vorfälle in der Anwendung für schwerwiegende Vorfälle. Dank vollständiger Transparenz ihrer Infrastruktur sowie der Erkennung von Mustern und Anomalien entgehen ihnen keine wichtigen Ereignisse mehr. Der leitende Entwicklungsmanager erklärte: „Seit der Einführung von PagerDuty können wir bestimmte Warnmeldungen als besonders wichtig einstufen und sofort darauf reagieren.“
Darüber hinaus bietet PagerDuty weitere Funktionen. HipChat-Integration PagerDuty vereinfachte die Kommunikation und Zusammenarbeit des SRE-Teams von Cloudflare, automatisierte operative Aufgaben per Befehl, ermöglichte gemeinsames Lernen und vieles mehr bei der Reaktion auf Vorfälle. Zudem entfiel für SREs die manuelle Suche nach Kontaktinformationen des richtigen Experten, da Einzelpersonen, Teams oder Stakeholder mit nur einem Klick informiert und in einen Vorfall einbezogen werden konnten. Dank PagerDuty war die Kontaktaufnahme sofort möglich.
Am wichtigsten ist jedoch, PagerDuty die Reaktionszeit von Michael und seinem Team bei Störungen drastisch verkürzt hat. „Die durchschnittliche Reaktionszeit ist von Minuten auf Sekunden gesunken“, so der leitende Entwicklungsmanager. Er fügte hinzu, dass schnellere Reaktionszeiten zu höherer Servicezuverlässigkeit und besseren Kundenergebnissen führen – genau das ist das Ziel und der Hauptgrund, warum Cloudflare sich für PagerDuty entschieden hat.
„Wir hatten mehrere Optionen, haben uns aber für PagerDuty entschieden, weil wir weniger Aufwand betreiben mussten, um PagerDuty mit unseren Systemen kompatibel zu machen. Es war sehr übersichtlich formatiert, die API funktionierte auf Anhieb und die Ausgabe der Anwendung war sehr leicht zu interpretieren.“
– Senior Engineering Manager, Cloudflare