SendGrid steigert die Mitarbeiterproduktivität und reduziert Ausfallzeiten mit PagerDuty

PagerDuty image

Größe: 331 Mitarbeiter

Industrie: Informationstechnologie und Dienstleistungen

Standort: Boulder, Colorado

Kunde seit: 2016

SendGrid ist eine bewährte, cloudbasierte Plattform für die Kundenkommunikation, die monatlich über 25 Milliarden E-Mails an Internet- und Mobilkunden erfolgreich zustellt. Das Unternehmen hat seinen Hauptsitz in Colorado und beschäftigt über 300 Mitarbeiter, davon 23 im Betriebsteam und rund 84 in der Entwicklungsabteilung. Der Engineering Operations Manager ist für die Infrastruktur von SendGrid verantwortlich, einschließlich Server und Rechenzentren, des zugrundeliegenden Netzwerks, Virtualisierungsplattformen und Backend-Systeme. Aufgrund des hohen E-Mail-Aufkommens generiert SendGrid täglich eine Vielzahl von Störungsmeldungen. Die Suche nach einer skalierbaren Enterprise-Lösung zur Optimierung und Vereinfachung des manuellen Störungsmeldungsprozesses war daher eine der wichtigsten Prioritäten des Unternehmens.

Ablösung des bisherigen Alarmierungstools und Bewältigung von Skalierungsherausforderungen

SendGrid erhält an einem typischen Tag bis zu zweitausend Störungsmeldungen und während technischer Störungen oder Ausfälle sogar Zehntausende pro Minute. Angesichts dieser großen Menge ist es für das Unternehmen unerlässlich, die Meldungen schnell und effizient zu bearbeiten. Vor dem Wechsel zu PagerDuty nutzte SendGrid einen anderen Anbieter für die Benachrichtigungen, erkannte aber, dass eine umfassende Störungsmanagementlösung benötigt wurde, um das hohe Störungsaufkommen zu bewältigen. „Wenn man ein Tool im Einsatz hat, erwartet man, dass es funktioniert, insbesondere bei einem Ausfall; genau dann muss es funktionieren“, so der Leiter des Engineering Operations. Angesichts der Skalierungsherausforderungen entschied sich SendGrid für den Wechsel zu einer zuverlässigen und skalierbaren Störungsmanagementlösung.

„PagerDuty hilft uns, schneller auf die eingehenden Warnmeldungen zu reagieren. Wir können Ausfälle schneller diagnostizieren, was wiederum die Kundenzufriedenheit verbessert und Ausfallzeiten sowie damit verbundene Kosten reduziert.“

Leiter des technischen Betriebs, Sendgrid

Beschleunigung von MTTA und MTTR durch Umstellung auf eine neue Incident-Management-Plattform

SendGrid hat PagerDuty als neue Lösung für das Incident-Management implementiert und nutzt die Plattform für Zusammenarbeit, Planung, Eskalation und Reporting. Im Bereitschaftsdienst kann ein Benutzer eine Incident-Benachrichtigung bestätigen, diese bei Bedarf eskalieren oder das Problem direkt beheben und so ohne Verzögerung zum nächsten Incident übergehen. Das zentrale Dashboard, das alle Incidents übersichtlich darstellt, ist ein weiterer entscheidender Vorteil für SendGrid. „Die Benutzeroberfläche des PagerDuty-Dashboards ermöglicht es, den Überblick über alle Vorgänge und eingehenden Benachrichtigungen zu behalten. Das ist für uns äußerst hilfreich – wir müssen nicht mehr ständig eine Liste von Benachrichtigungen durchblättern und den Überblick verlieren“, so eine Sprecherin.

Die Leiterin des Engineering-Betriebs hält die Berichtsfunktion von PagerDuty für das wichtigste Werkzeug in ihrer Position. Die Auswertung der Kennzahlen ermöglicht es ihr, Einblicke in die Anzahl der Benachrichtigungen pro Tag, Woche, Monat und Jahr zu gewinnen. „Wir hatten für dieses Jahr mit 78.000 Benachrichtigungen gerechnet, und das Unternehmensziel war es, die Anzahl der Benachrichtigungen im Vergleich zu 2015 um 50 % zu reduzieren. Dank der Unterstützung von PagerDuty liegen wir mit diesem Ziel bisher gut im Plan“, sagte sie. Sie konnte außerdem feststellen, dass die durchschnittliche mittlere Reparaturzeit (MTTR) des Teams 19 Minuten beträgt, während die durchschnittliche mittlere Bestätigungszeit (MTTA) nur 2 Minuten beträgt. Die Erfassung dieser Informationen hilft sowohl Moore-Simmons als auch den anderen Engineering-Managern, zu erkennen, was funktioniert, was nicht und wie die Probleme behoben werden können.

Der größte Vorteil für SendGrid bestand darin, dass die Betriebs- und Entwicklungsteams dank der zuverlässigen und schnellen Störungsmeldungen Ausfälle nun schnell beheben und künftig verhindern konnten. Jede Minute Ausfall kostet das Unternehmen Tausende von Dollar und führt zu schlechter Kundenzufriedenheit und Kundenabwanderung. Durch die geringere Anzahl an Ausfällen ist auch die Kundenabwanderung zurückgegangen. Darüber hinaus ist das Team nach dem Wechsel zu PagerDuty zufriedener und produktiver.

„Wir haben Vertrauen in PagerDuty und müssen uns keine Sorgen mehr um unnötig lange Ausfälle und Umsatzeinbußen machen.“

Leiter des technischen Betriebs, SendGrid

Steigerung der Mitarbeiterproduktivität und Verbesserung der Skalierbarkeit

SendGrid kann sich auf PagerDuty als zuverlässige Lösung für seine Anwendungsfälle, kritischen Benachrichtigungen und die Einsatzplanung verlassen. „Wir haben vollstes Vertrauen in PagerDuty und müssen uns keine Sorgen mehr um unnötig lange Ausfälle und Umsatzeinbußen machen. Alle Bereitschaftsdienstmitarbeiter bei SendGrid nutzen PagerDuty und kennen die Lösung als etablierten Anbieter“, so die Sprecherin. Die Mitarbeiter sind zufrieden und produktiv, was für das Unternehmen von großer Bedeutung ist. Insgesamt profitiert das Unternehmen seit dem Wechsel zu PagerDuty von vielen Vorteilen, darunter schnellere Behebungszeiten bei Ausfällen, höhere Mitarbeiterproduktivität und -zufriedenheit sowie beeindruckende Kennzahlen, die die operative Effizienz des Unternehmens belegen.