Tokopedia automatisiert die Reaktion auf Vorfälle und sorgt mit PagerDuty für mehr Verantwortlichkeit der Ingenieure
Größe: 1.001 – 5.000 Mitarbeiter
Industrie: Technologie
Standort: Jakarta, Indonesien
Kunde seit: 2018
Wichtige Integrationen:
Feuerbasis
Grafana
Neues Relikt
Prometheus
Scalyr
StackStorm Das indonesische Technologieunternehmen Tokopedia ist einer der größten Marktplatzanbieter Südostasiens mit über 100 Millionen aktiven Nutzern pro Monat und über 9 Millionen Händlern auf der Website. Tokopedia ist stolz darauf, mehr als nur ein Marktplatz zu sein und bietet Technologie, die Millionen von Händlern die Teilnahme am E-Commerce ermöglicht.
Rajesh Gopala Krishnan ist Tokopedias AVP für Engineering Productivity und setzt die Vision der Plattform für gemeinsame Technologien und Dienstleistungen um. „Tokopedias Mission ist es, den Handel durch Technologie zu demokratisieren“, erklärte er. „Wir helfen kleinen Einzelhändlern, zu großen Marken zu werden, indem wir ihnen ermöglichen, einen vielfältigeren Kundenstamm zu erreichen und ihnen die Geschäftstätigkeit in Indonesien und darüber hinaus erleichtern.“
Tokopedia wurde 2009 als digitales Unternehmen gegründet und widmete sich vor zwei Jahren der digitalen Transformation, als sein Kundenstamm rapide wuchs. Tokopedia modernisierte seinen Technologie-Stack und wechselte von einer monolithischen Infrastruktur zu einer auf Microservices basierenden Multi-Cloud-Architektur mit über 350 Diensten.

Zunehmende Komplexität führt zu langsamerer Reaktion auf Vorfälle
Dieser Wechsel zu einer dynamischeren, skalierbaren Architektur erschwerte es Tokopedias internen Vorfallmanagement-Tools jedoch, mit den Warnmeldungen Schritt zu halten und den Teams eine effektive Reaktion zu ermöglichen. Dies führte dazu, dass die Reaktion auf Vorfälle länger dauerte und technische Ressourcen für die Verbesserung des Kundenerlebnisses und die Entwicklung neuer Dienste für Händler und Kunden fehlten. Zudem war Tokopedia mit einer hohen Anzahl an Warnmeldungen konfrontiert, was die Priorisierung von Vorfällen erschwerte.
„Unsere Tools konnten zwar Vorfälle erkennen, aber die Behebung dauerte zu lange“, erklärte Krishnan. „Die meisten Probleme dauerten 30 Minuten, da wir manuell nachschauten, wer für einen bestimmten Dienst verantwortlich war, bevor wir die Techniker benachrichtigten und Kriseninterventionen einrichteten. Uns wurde schnell klar, dass wir einen modernen, automatisierten Incident-Response-Prozess brauchten, um Einblick in diese komplexe Umgebung zu erhalten. Deshalb entschieden wir uns für PagerDuty.“
Automatisieren der Vorfallreaktion mit PagerDuty
Seit der Einführung von PagerDuty kann Tokopedia seine Incident-Response-Prozesse automatisieren und die Zeit bis zur Problemlösung verkürzen. Nach der Integration von PagerDuty in fünf Dienste konnte Tokopedia deutliche Verbesserungen bei Kennzahlen wie der mittleren Reparaturdauer (MTTR) verzeichnen und entschied sich für die Ausweitung der Implementierung auf alle über 350 Dienste.
Darüber hinaus hat PagerDuty dazu beigetragen, die Alarmhäufigkeit zu reduzieren. „Anstatt mit Alarmen bombardiert zu werden, gruppiert PagerDuty zusammenhängende Alarme zu einem einzigen Vorfall, wobei alle Details an einem Ort und nicht über mehrere Tools verstreut sind. Das reduziert nicht nur die Alarmhäufigkeit, sondern hilft uns auch, die dringendsten Vorfälle zu priorisieren“, erklärte Krishnan.
Dank seiner Investitionen in die digitale Transformation und moderne Incident Response war Tokopedia auch gut auf die Nachfragespitzen nach der COVID-19-Pandemie in Südostasien vorbereitet. „Durch den Wechsel in die Cloud und die Einführung von PagerDuty konnten wir die Anzahl der Vorfälle, mit denen wir konfrontiert werden, besser kontrollieren. Dies war besonders wichtig während des sprunghaften Anstiegs des Online-Shoppings während des COVID-19-Ausbruchs. So konnten wir schneller auf Vorfälle reagieren und so die Störungen für Verkäufer und Käufer so gering wie möglich halten.“
„Durch die Umstellung auf die Cloud und die Einführung von PagerDuty konnten wir die Anzahl der Vorfälle, mit denen wir konfrontiert werden, besser kontrollieren.“
– Rajesh Gopala Krishnan , AVP für Engineering-Produktivität, Tokopedia
PagerDuty hat Tokopedia außerdem dabei geholfen, die vollständige Verantwortung für den Dienst zu übernehmen und eine Kultur der Verantwortung zu fördern, was dem Unternehmen mit seinen internen Tools für das Vorfallmanagement zuvor schwergefallen war.
Wie Krishnan erklärt, war oft unklar, wer auf einen Vorfall reagieren sollte, wenn er einging. „Es fehlte die Verantwortlichkeit: Wer ist für diesen Dienst oder diese Anwendung verantwortlich? Haben sie das Problem bemerkt und arbeiten sie an seiner Lösung? Wir hatten davon kein klares Bild.“
Die Bereitschaftstechniker hatten außerdem zusätzliche Telefone dabei, über die die Teams sie bei eingehenden Alarmen erreichen konnten. Doch selbst dann war es schwierig, die richtigen Leute zu erreichen, da es keine zentrale Möglichkeit zur Eskalationsverwaltung gab. „Mit PagerDuty konnten wir manuelle Prozesse zur Reaktion auf Vorfälle eliminieren. Stattdessen leiten wir bei eingehenden Alarmen Vorfälle basierend auf unseren Eskalationsrichtlinien automatisch an die für einen bestimmten Dienst verantwortliche Person weiter“, erklärte Krishnan.
„Seit der Einführung von PagerDuty verbringen unsere Ingenieure weniger Zeit mit der Reaktion auf Vorfälle.“
– Rajesh Gopala Krishnan , AVP für Engineering-Produktivität, Tokopedia
Vorteile mit PagerDuty
Nach der Implementierung von PagerDuty hat Tokopedia einen besseren Einblick und eine bessere Kontrolle über Vorfälle in seiner Umgebung gewonnen. Dies bietet unter anderem folgende Vorteile:
- Größere Verantwortlichkeit innerhalb der Entwicklungsteams
- Reduziertes Alarmgeräusch
- Schnellere Reaktionszeiten bei Vorfällen
- Erhöhung der Software-Updates von 10 auf über 300 pro Tag, da die Teamproduktivität durch den Einsatz von Automatisierung steigt
„Seit wir PagerDuty einsetzen, verbringen unsere Techniker weniger Zeit mit der Reaktion auf Vorfälle. Stattdessen können sie sich darauf konzentrieren, das Kundenerlebnis zu verbessern, die Wünsche unserer Händler und Kunden zu verstehen und herauszufinden, wie sie unsere Dienste nutzen“, erklärte Krishnan. „Dank der Automatisierungsunterstützung von PagerDuty sind unsere Techniker zudem deutlich produktiver. Wir haben die täglichen Softwarebereitstellungen um 3.000 % gesteigert.“
Zukunftsorientiert
Tokopedia wird den Einsatz von PagerDuty künftig weiter ausbauen. Dazu gehört die Überwachung der Leistung neuer Funktionen vor deren Bereitstellung, um Probleme zu erkennen, bevor sie in der Produktionsumgebung live gehen. Da Tokopedia die Automatisierung des Softwarebereitstellungszyklus fortsetzt und selbstheilende Anwendungen entwickelt, wird PagerDuty eine wichtige Rolle bei der Erstellung von Workflows und Runbooks spielen, um Vorfälle zu verhindern, zu diagnostizieren und zu beheben, ohne sie an einen Experten weiterleiten zu müssen.
Um zu erfahren, wie PagerDuty Ihrem Team dabei helfen kann, Dinge zu vereinfachen und Abläufe in einer digitalen Welt zu transformieren, wenden Sie sich an Ihren Account Manager oder probieren Sie es aus. 14 Tage kostenlos testen Heute.