Tyro Payments automatisiert das Microservices-Vorfallmanagement mit PagerDuty

Größe: 371 Mitarbeiter
Industrie: Fintech / Finanzdienstleistungen
Standort: Sydney, Australien
Kunde seit: 2013
Wichtige Integrationen:






Tyro Payments, Australiens führender unabhängiger Zahlungsdienstleister, verarbeitet jährlich Transaktionen im Wert von über 10 Milliarden US-Dollar für mehr als 19.000 kleine und mittlere Unternehmen im ganzen Land. Das Unternehmen unterstützt mehr als 200 Point-of-Sale-Integrationen und verspricht Transaktionsabschlusszeiten von unter zwei Sekunden. Um dieses Versprechen einzuhalten und die Verfügbarkeit des Dienstes zu gewährleisten, ist eine robuste Überwachung und Lösung zum Vorfallmanagement , weshalb Tyro seit 2013 die PagerDuty Plattform nutzt. Mit PagerDuty verwaltet Tyro Warnungen und Benachrichtigungen für seine auf Mikrodiensten basierenden Anwendungen und Infrastruktur.
Herausforderungen: Manuelle Vorfallüberwachung und -planung
Tyros Anwendungsplattform besteht aus über 100 Mikrodiensten, die wichtige Bankgeschäfte unterstützen. Ein Ausfall eines dieser Dienste könnte ein großes Problem mit Auswirkungen auf die Kunden auslösen. „Wenn etwas ausfällt, können Kunden keine Zahlungen mehr annehmen“, sagte Groenescheij. „Für uns ist es von entscheidender Bedeutung, sicherzustellen, dass die Plattform immer verfügbar ist.“
Vor der Einführung von PagerDuty hatte das Betriebsteam von Tyro Probleme, Fehler rechtzeitig zu erkennen, da es bei der Verwaltung von Vorfällen stark auf manuelle Prozesse angewiesen war. Warnmeldungen wurden per E-Mail an diensthabende Techniker gesendet, die ihre E-Mails manuell überprüfen mussten, um wichtigen Benachrichtigungen immer einen Schritt voraus zu sein. Auch die Eskalation von Warnmeldungen, wenn der diensthabende Techniker nicht reagierte oder einen Vorfall nicht selbstständig bewältigen konnte, erforderte manuelles Eingreifen. Wenn ein Vorfall eine Anwendung betraf und Entwicklerunterstützung erforderte, musste das Betriebsteam diese ebenfalls manuell kontaktieren.
Alle diese manuellen Prozesse waren zeitaufwändig und stellten ein potenzielles Risiko für die Kunden von Tyro dar, wenn das Betriebsteam die Probleme nicht schnell lösen konnte.
Automatisierung mit PagerDuty erreichen
Nachdem das Betriebsteam von Tyro PagerDuty eingeführt hatte, gehörten die Mühe und die Risiken des manuellen Vorfallmanagements schnell der Vergangenheit an. „Das Wichtigste für uns, als wir mit der Verwendung von PagerDuty begannen, war die Tatsache, dass wir die Reaktion auf Vorfälle sofort planen, automatisieren und eskalieren konnten“, sagte Groenescheij.
Darüber hinaus hat PagerDuty durch die Optimierung der Transparenz von Infrastruktur und Anwendungen eine bessere Kommunikation zwischen dem Betriebsteam und anderen Teilen der Organisation ermöglicht. „Wenn [vorher] eines unserer Infrastrukturüberwachungssysteme ein Problem feststellte und gleichzeitig ein Problem mit einer unserer Anwendungen auftrat, wusste das Anwendungsteam nicht, dass ein zugrunde liegendes Infrastrukturproblem vorlag“, erklärte Groenescheij. Indem PagerDuty es dem Team ermöglicht, Überwachungsdaten zu koordinieren, verschafft es ihnen nun ein konsolidiertes Verständnis dessen, was in ihrer Umgebung geschieht.
PagerDuty hat den Ingenieuren von Tyro außerdem dabei geholfen, effizienter und mit weniger Stress zu arbeiten. Die Ingenieure erhalten jetzt automatisch Benachrichtigungen, sodass sie sich keine Sorgen mehr machen müssen, eine wichtige Warnung zu verpassen. „Wir können uns jetzt zurücklehnen und darauf vertrauen, dass PagerDuty uns weckt, wenn es nötig ist“, sagte Groenescheij.
„Als wir mit der Nutzung von PagerDuty begannen, konnten wir Reaktionen auf Vorfälle sofort planen, automatisieren und eskalieren.“
– Ed Groenescheij , Teamleiter, Tyro Payments
Mit der Operations Command Console die Infrastrukturtransparenz weiter ausbauen
In naher Zukunft planen Groenescheij und sein Team, weitere PagerDuty Funktionen zu nutzen. Dazu gehören die Einsatzkommandokonsole , das den Bereitschaftstechnikern dabei hilft, Zusammenhänge zwischen Vorfällen zu verfolgen, um kaskadierende Dienstausfälle zu verhindern, die auftreten können, wenn ein Vorfall mit einer Anwendung oder Ressource Störungen bei anderen verursacht, die davon abhängen. Die Operations Command Console bietet außerdem eine konsolidierte Schnittstelle zum Anzeigen von Überwachungsdaten aus allen Warnsystemen, die PagerDuty für Tyro integriert.
Darüber hinaus plant Tyro, die Nutzung von PagerDuty über das Betriebsteam hinaus auch auf Entwickler auszuweiten. „Wir möchten sicherstellen, dass Entwickler sofort Einblick in Anwendungsprobleme erhalten, wenn diese auftreten, anstatt sich darauf verlassen zu müssen, dass das Betriebsteam vorbeikommt und sie über das Problem informiert“, sagte Groenescheij. Durch die zentrale Integration der Entwickler in den Vorfallmanagementprozess wird Tyro seine Workflows für Softwarebereitstellung und -verwaltung weiter automatisieren. Im Gegenzug wird Tyro noch besser in der Lage sein, Zahlungen vertrauensvoll anzunehmen, da das Unternehmen weiß, dass die ITOps- und Entwicklerteams zusammenarbeiten, um mithilfe der automatisierten Vorfallmanagementfunktionen von PagerDuty schnell auf Probleme zu reagieren.