Xero nutzt PagerDuty und ChatOps zur Verbesserung der Reaktion auf Vorfälle und des digitalen Betriebs

PagerDuty image

Größe: 1.001–5.000 Mitarbeiter

Industrie: Computersoftware

Standort: Wellington, Neuseeland

Wichtige Integrationen:

Sumo-Logik
Datenhund
Zendesk
Locker
JIRA

Xero ist eine globale Plattform für Buchhalter, Buchhalterinnen und Buchhalter sowie kleine Unternehmen. Die 2006 gegründete Plattform bietet Kleinunternehmern und ihren Beratern automatische Bank- und Kreditkartenkonten-Feeds, Rechnungsstellung, Kreditorenbuchhaltung sowie Standard-Geschäfts- und Managementberichte.

Xero verfügt über eine benutzerfreundliche, intuitive Benutzeroberfläche, sodass auch Kleinunternehmer mit wenig Buchhaltungserfahrung ihre Transaktionen präzise erfassen können. Ein umfassendes Schulungsportal und ein preisgekrönter Kundenservice unterstützen Kleinunternehmer bei Fragen. Für seine aktive Community von Buchhaltungspartnern bietet Xero zusätzliche Funktionen wie einen Praxismanager, Beratungstools und einen App-Marktplatz.

Xero verfügt über Niederlassungen in den USA, Großbritannien, Asien, Australien und Neuseeland und hat über 1,2 Millionen Abonnenten in über 180 Ländern, die sich bei der Führung ihrer Unternehmen auf die Software von Xero verlassen. Daher ist die Zuverlässigkeit der Xero-Plattform von großer Bedeutung – eine Verantwortung, die den Entwicklern und Site Reliability Engineers des Unternehmens obliegt.

Herausforderungen

Anthony Angell, einer der Teamleiter des Site Reliability Engineers, erklärte, dass Xero bei seinem Eintritt vor einigen Jahren bereits PagerDuty zur Verwaltung zweier Zeitpläne nutzte. Die Produktionsumgebung wurde von Betriebsteams in Auckland, Neuseeland, und Denver, Colorado, unterstützt. Mit dem rasanten Wachstum von Xero wurde es für das Betriebsteam jedoch zunehmend schwieriger, Zeitpläne und Eskalationsrichtlinien an beiden Standorten zu skalieren und zu koordinieren.

2016 implementierte Xero einen DevOps-Ansatz mit Site Reliability Engineering (SRE) zur Verwaltung der Produktionsumgebung und überarbeitete seine Incident-Management-Prozesse. Anstatt die gesamte Produktionsumgebung von den Betriebsteams überwachen zu lassen, basierte dieses neue Incident-Management-Framework darauf, dass die Teams, die die Software entwickelt hatten, im Falle eines Vorfalls verfügbar und abrufbereit waren – unabhängig davon, ob es sich um Entwickler oder QS-Ingenieure handelte.

Dies bedeutete, dass deutlich mehr Mitarbeiter und Teams in die Bereitschaftspläne aufgenommen wurden. Xero benötigte eine Möglichkeit, die Bereitschaftsgruppen zu verwalten und zu skalieren. Hier kam PagerDuty ins Spiel. „[PagerDuty] hat uns geholfen, die Bereitschaftsgruppen im Unternehmen ganz einfach zu skalieren“, erklärte Angell. „Außerdem hat es uns und dem Unternehmen eine bessere Supportstruktur verschafft.“

Auswirkungen auf das Geschäft

Mit PagerDuty konnte das Site Reliability Engineering Team auch viele andere Teams im Incident Management und der Alarmierung auf der Plattform schulen. Das Ergebnis? Kunden profitieren von schnelleren Lösungszeiten, da die Entwickler, Entwickler und Pfleger des Codes auch die Ersten sind, die im Problemfall reagieren. „Die Möglichkeit, unsere Einsatzkräfte zeitnah über verschiedene Wege zu erreichen, schafft einen erheblichen Mehrwert für das Unternehmen“, so Angell.

Um den Incident-Management-Prozess weiter zu automatisieren und zu skalieren, nutzt das Site Reliability Engineering-Team von Xero ChatOps, um Hunderte von Mitarbeitern weltweit zu unterstützen. Xeros eigener Chatbot „Multivac“ ist in den Slack-Account des Unternehmens integriert und nutzt die API von PagerDuty, um mehrere kritische Aktivitäten innerhalb des Incident-Management-Frameworks von Xero zu automatisieren.

Mit Multivac kann Xero ein neues Team und einen Bereitschaftsplan in PagerDuty integrieren. Dazu sendet Xero eine Anfrage an das GitHub-Repository, um die Konfiguration automatisch zu aktivieren. Vorfallmanager können Multivac nutzen, um die richtigen Teammitglieder zu benachrichtigen, den Vorfallreaktionsprozess innerhalb von PagerDuty einzuleiten und einen eigenen Slack-Kanal für den Vorfall zu erstellen. Nutzer können außerdem Statusaktualisierungen zu aktuellen Produktionsversionen oder aktiven Warnmeldungen von Multivac anfordern, die den nötigen Kontext für eine schnellere Fehlerbehebung liefern. Durch die Auslagerung vieler Aktivitäten an Multivac und PagerDuty konnte Xero deutlich schneller auf Vorfälle reagieren und diese beheben.

„ Die PagerDuty -Analyse zeigte uns, dass wir innerhalb eines Jahres, von Januar 2017 bis Januar 2018, eine Reduzierung der hochdringlichen Alarme um 40 Prozent verzeichnen konnten. Darüber hinaus sank die MTTR für Alarme mit hoher Dringlichkeit, der höchsten Dringlichkeitsstufe, um 74 Prozent.“

#PeopleFirst: Verbesserte Work-Life-Balance mit PagerDuty

Einer der Grundwerte von Xero ist „menschlich“, was großen Wert auf die Mitarbeiter legt. Das Unternehmen erweiterte die Nutzung der PagerDuty -Plattform durch die Nutzung von Analysefunktionen, um Einblicke in die Teamgesundheit zu erhalten. „Die Analyseeinblicke sind für unsere Manager – insbesondere für die anderer Teams – hilfreich, da sie anhand der Daten sehen können, wie viele Warnmeldungen ihr Team in einem bestimmten Zeitraum erhalten hat“, erklärte Angell. „Das ist nützlich, wenn wir die Gründe für die Ermüdung der Techniker genauer untersuchen müssen – zum Beispiel, wenn wir wissen möchten, ob Bereitschaftsmitarbeiter in kurzer Zeit ungewöhnlich viele Warnmeldungen erhalten haben, da dies ihr Burnout-Risiko erhöhen könnte.“

Angell schätzt an PagerDuty besonders die Flexibilität und Eigenverantwortung der Teams bei der Bereitschaftsplanung. Anstatt wie bisher ein Team mit der gesamten Verantwortung zu betreuen, können nun mehrere verteilte Teams ihre Bereitschaftspläne selbst verwalten. „Wir haben viele Teams im Vorfallmanagement, der Funktionsweise von Alarmen und PagerDuty geschult, und das hat dem Unternehmen tatsächlich eine bessere mittlere Erfolgsquote beschert“, so Angell.

Was kommt als nächstes

Xero erweitert die Nutzung der PagerDuty Digital Operations Management-Plattform auf ein breiteres Spektrum an Benutzern und Anwendungsfällen. Das Unternehmen hat bereits einige Schritte unternommen, um die Teamgesundheit selbst zu bewerten, und hofft, durch die Einführung von PagerDutys Betrieblicher Gesundheitsmanagement-Dienst (OHMS) .