Xero nutzt PagerDuty und ChatOps zur Verbesserung der Reaktion auf Sicherheitsvorfälle und des digitalen Betriebs.
Größe: 1.001–5.000 Mitarbeiter
Industrie: Computersoftware
Standort: Wellington, Neuseeland
Wichtige Integrationen:
Sumo-Logik
Datadog
Zendesk
Locker
JIRA Xero ist eine globale Plattform für Buchhalter, Steuerberater und kleine Unternehmen. Die 2006 gegründete Plattform bietet Kleinunternehmern und ihren Beratern automatische Bank- und Kreditkartenkontodaten, Rechnungsstellung, Kreditorenbuchhaltung sowie Standardberichte für Unternehmen und Management.
Xero bietet eine benutzerfreundliche und intuitive Oberfläche, sodass auch Kleinunternehmer mit wenig Buchhaltungserfahrung ihre Transaktionen präzise erfassen können. Ein umfassendes Schulungsportal sowie ein preisgekrönter Kundenservice stehen Kleinunternehmern bei Fragen zur Seite. Für seine aktive Community von Buchhaltungspartnern bietet Xero zusätzliche Funktionen wie einen Praxismanager, Beratungstools und einen App-Marktplatz.
Mit Niederlassungen in den USA, Großbritannien, Asien, Australien und Neuseeland betreut Xero über 1,2 Millionen Kunden in mehr als 180 Ländern, die auf die Software des Unternehmens vertrauen, um ihre Geschäfte zu führen. Daher ist die Zuverlässigkeit der Xero-Plattform von entscheidender Bedeutung – eine Verantwortung, die den Entwicklern und Site Reliability Engineers des Unternehmens obliegt.
Herausforderungen
Anthony Angell, einer der Teamleiter im Bereich Site Reliability Engineering, erklärte, dass Xero bereits vor einigen Jahren, als er dem Unternehmen beitrat, PagerDuty zur Verwaltung zweier Zeitpläne nutzte. Die Produktionsumgebung wurde von Betriebsteams in Auckland, Neuseeland, und Denver, Colorado, betreut. Da Xero jedoch weiterhin rasant wuchs, wurde es für das Betriebsteam zunehmend schwieriger, die Zeitpläne und Eskalationsrichtlinien an den beiden Standorten zu skalieren und zu koordinieren.
2016 implementierte Xero einen DevOps-Ansatz mit Site Reliability Engineering (SRE) zur Verwaltung der Produktionsumgebung und überarbeitete seine Prozesse für das Incident-Management grundlegend. Anstatt dass die Betriebsteams die gesamte Produktionsumgebung überwachten, setzte dieses neue Incident-Management-Framework darauf, dass die Softwareentwicklungsteams im Falle eines Vorfalls verfügbar und einsatzbereit waren – unabhängig davon, ob es sich um Entwickler oder QA-Ingenieure handelte.
Das bedeutete, dass deutlich mehr Mitarbeiter und Teams in den Bereitschaftsdienst aufgenommen wurden, und Xero benötigte eine Möglichkeit, die Bereitschaftsgruppen zu verwalten und zu skalieren. Hier kam PagerDuty ins Spiel. „[PagerDuty] hat uns geholfen, die Bereitschaftsgruppen im Unternehmen ganz einfach zu skalieren“, erklärte Angell. „Es hat uns und dem Unternehmen außerdem eine bessere Supportstruktur geboten.“
Auswirkungen auf das Geschäft
Mit PagerDuty konnte das Site Reliability Engineering Team auch viele andere Teams in Sachen Incident Management und der Funktionsweise der Alarmierung auf der Plattform schulen. Das Ergebnis? Kunden profitieren von kürzeren Reaktionszeiten, da die Entwickler, die den Code erstellt und gewartet haben, im Fehlerfall auch die ersten Ansprechpartner sind. „Die Möglichkeit, unsere Ansprechpartner zeitnah über verschiedene Kanäle zu erreichen, schafft einen erheblichen Mehrwert für unser Unternehmen“, so Angell.
Um den Incident-Management-Prozess weiter zu automatisieren und zu skalieren, nutzt das Site Reliability Engineering Team von Xero ChatOps, um Hunderte von Mitarbeitern weltweit zu unterstützen. Der von Xero selbst entwickelte Chatbot „Multivac“ ist in den Slack-Account des Unternehmens integriert und nutzt die PagerDuty-API, um mehrere kritische Aktivitäten innerhalb des Incident-Management-Frameworks von Xero zu automatisieren.
Mithilfe von Multivac kann Xero neue Teams und Bereitschaftspläne in PagerDuty integrieren, indem eine Anfrage an das GitHub-Repository von Xero gesendet wird, um die Konfiguration automatisch zu aktivieren. Incident Manager können Multivac nutzen, um die zuständigen Teammitglieder zu benachrichtigen, damit diese den Incident-Response-Prozess in PagerDuty einleiten und einen separaten Slack-Kanal für den jeweiligen Vorfall erstellen können. Benutzer können außerdem Statusaktualisierungen zu aktuellen Produktionsversionen oder aktiven Warnmeldungen von Multivac anfordern, die den notwendigen Kontext für eine schnellere Fehlerbehebung liefern. Durch die Auslagerung vieler Aktivitäten an Multivac und PagerDuty konnte Xero deutlich schneller auf Vorfälle reagieren und diese beheben.
„ Die PagerDuty -Analysen zeigten uns, dass wir innerhalb eines Jahres, von Januar 2017 bis Januar 2018, einen Rückgang der dringenden Warnmeldungen um 40 Prozent verzeichnen konnten. Darüber hinaus sank die mittlere Reparaturzeit (MTTR) für dringende Warnmeldungen, also die höchste Dringlichkeitsstufe, um 74 Prozent.“
#MenschenImHerzen: Bessere Work-Life-Balance mit PagerDuty
Einer der Kernwerte von Xero ist „Menschlichkeit“, was den Fokus stark auf die Mitarbeiter legt. Das Unternehmen erweiterte daher den Einsatz der PagerDuty -Plattform durch die Nutzung von Analysefunktionen, um Einblicke in die Teamgesundheit zu gewinnen. „Die Analyseergebnisse sind hilfreich für unsere Manager – insbesondere für die anderer Teams –, da sie anhand der Daten sehen können, wie viele Benachrichtigungen ihr Team in einem bestimmten Zeitraum erhalten hat“, erklärte Angell. „Dies ist nützlich, wenn wir die Gründe für die Überlastung unserer Techniker genauer untersuchen müssen – beispielsweise möchten wir wissen, ob Bereitschaftsmitarbeiter in kurzer Zeit ungewöhnlich viele Benachrichtigungen erhalten haben, da dies zu einem Burnout führen könnte.“
Angell schätzt an PagerDuty besonders die Flexibilität und Eigenverantwortung, die es den Teams bei der Rufbereitschaftsplanung ermöglicht. Anstatt wie zuvor ein einziges Team die gesamte Organisation zu steuern, können nun mehrere verteilte Teams ihre Rufbereitschaftspläne selbstständig verwalten. „Wir haben viele Teams im Bereich Incident Management und der Funktionsweise von Alarmierung und PagerDuty geschult, was dem Unternehmen tatsächlich zu einer besseren mittleren Reparaturzeit (MTTR) verholfen hat“, so Angell.
Was kommt als Nächstes?
Xero weitet den Einsatz der PagerDuty Digital Operations Management Plattform auf einen breiteren Nutzerkreis und vielfältigere Anwendungsfälle aus. Das Unternehmen hat bereits Maßnahmen ergriffen, um die Teamleistung selbstständig zu bewerten, und erhofft sich durch die Einführung der Plattform einen tieferen Einblick in die Teamperformance. PagerDutys operativer Gesundheitsmanagementdienst (OHMS) Die