Xero utilise PagerDuty et ChatOps pour améliorer la réponse aux incidents et les opérations numériques
Taille: 1 001 à 5 000 employés
Industrie: Logiciel informatique
Emplacement: Wellington, Nouvelle-Zélande
Intégrations clés :
Logique du sumo
Datadog
Zendesk
Mou
JIRA Xero est une plateforme mondiale destinée aux comptables, aux experts-comptables et aux petites entreprises. Fondée en 2006, elle offre aux dirigeants de petites entreprises et à leurs conseillers la synchronisation automatique de leurs comptes bancaires et de cartes de crédit, la facturation, la gestion des comptes fournisseurs et des rapports de gestion standard.
Xero possède une interface intuitive et facile à utiliser, permettant même aux dirigeants de petites entreprises peu expérimentés en comptabilité de comptabiliser leurs transactions avec précision. Un portail de formation complet et un service client primé offrent un soutien supplémentaire aux dirigeants de petites entreprises qui ont des questions. Pour sa communauté active de partenaires comptables, Xero propose des fonctionnalités supplémentaires, telles qu'un gestionnaire de cabinet, des outils de conseil et une plateforme d'applications.
Présente aux États-Unis, au Royaume-Uni, en Asie, en Australie et en Nouvelle-Zélande, Xero compte plus de 1,2 million d'abonnés dans plus de 180 pays qui utilisent son logiciel pour gérer leurs activités. La fiabilité de la plateforme Xero est donc primordiale ; une responsabilité qui incombe aux développeurs et aux ingénieurs en fiabilité des sites de l'entreprise.
Défis
Anthony Angell, l'un des responsables de l'équipe d'ingénierie de la fiabilité des sites, a expliqué que lorsqu'il a rejoint l'entreprise il y a quelques années, Xero utilisait déjà PagerDuty pour gérer deux plannings. L'environnement de production était pris en charge par les équipes d'exploitation situées à Auckland, en Nouvelle-Zélande, et à Denver, dans le Colorado. Cependant, face à la croissance rapide de Xero, il est devenu de plus en plus difficile pour l'équipe d'exploitation de faire évoluer et de coordonner les plannings et les procédures d'escalade entre les deux sites.
En 2016, Xero a mis en œuvre une approche DevOps intégrant l'ingénierie de la fiabilité des sites (SRE) pour gérer son environnement de production et a entièrement revu ses processus de gestion des incidents. Au lieu de confier la supervision de l'ensemble de l'environnement de production aux équipes d'exploitation, ce nouveau cadre de gestion des incidents repose sur la disponibilité et l'astreinte des équipes de développement logiciel en cas d'incident, qu'il s'agisse de développeurs ou d'ingénieurs QA.
Cela impliquait l'ajout de nombreuses personnes et équipes aux plannings d'astreinte, et Xero avait besoin d'une solution pour gérer et adapter ces groupes d'astreinte. C'est là que PagerDuty est intervenu. « PagerDuty nous a permis d'adapter facilement les groupes d'astreinte au sein de l'entreprise », a expliqué Angell. « La solution nous a également offert, ainsi qu'à l'entreprise, une meilleure structure de support. »
Impact sur l'entreprise
Grâce à PagerDuty, l'équipe d'ingénierie de la fiabilité des sites a pu former de nombreuses autres équipes à la gestion des incidents et au fonctionnement des alertes sur la plateforme. Résultat ? Les clients bénéficient de délais de résolution plus courts, car les personnes qui ont développé, construit et continuent de maintenir le code sont également les premières à intervenir en cas de problème. « La possibilité de contacter rapidement nos équipes d'intervention par différents moyens représente une valeur ajoutée considérable pour l'entreprise », a déclaré Angell.
Pour automatiser et étendre davantage le processus de gestion des incidents, l'équipe d'ingénierie de la fiabilité des sites de Xero utilise ChatOps pour accompagner des centaines d'employés à travers le monde. Le chatbot interne de Xero, « Multivac », est intégré au compte Slack de l'entreprise et exploite l'API de PagerDuty pour automatiser plusieurs activités critiques au sein du cadre de gestion des incidents de Xero.
Grâce à Multivac, Xero peut intégrer une nouvelle équipe et un planning d'astreinte à PagerDuty en envoyant une requête à son dépôt GitHub pour activer automatiquement la configuration. Les responsables des incidents peuvent utiliser Multivac pour notifier les membres d'équipe concernés afin de lancer le processus de réponse aux incidents dans PagerDuty et créer un canal Slack dédié. Les utilisateurs peuvent également demander des mises à jour sur les dernières mises en production ou les alertes actives auprès de Multivac, ce qui leur fournit le contexte nécessaire pour résoudre les incidents plus rapidement. En externalisant de nombreuses tâches vers Multivac et PagerDuty, Xero a pu considérablement accélérer sa réponse et la résolution des incidents.
« En l’espace d’un an, de janvier 2017 à janvier 2018, les analyses de PagerDuty ont révélé une réduction de 40 % des alertes de haute urgence. De plus, le MTTR (temps moyen de résolution) pour ces alertes, soit le niveau d’urgence le plus élevé, a diminué de 74 %. »
#LesPersonnesDabord : Un meilleur équilibre vie professionnelle-vie privée grâce à PagerDuty
L'une des valeurs fondamentales de Xero est l'humain, ce qui met l'accent sur les personnes. L'entreprise a ainsi étendu son utilisation de la plateforme PagerDuty en exploitant ses capacités d'analyse pour mieux comprendre la santé des équipes. « Ces analyses sont précieuses pour nos responsables, notamment ceux des autres équipes, car elles leur permettent de voir le nombre d'alertes reçues par leur équipe sur une période donnée », explique Angell. « C'est particulièrement utile pour analyser les causes de la fatigue des ingénieurs. Par exemple, nous cherchons à savoir si les intervenants d'astreinte ont reçu un nombre anormalement élevé d'alertes en peu de temps, car cela pourrait les exposer à un risque d'épuisement professionnel. »
Ce qu'Angell préfère chez PagerDuty , c'est la flexibilité et l'autonomie qu'il offre aux équipes en matière de planification des astreintes. Au lieu d'une seule équipe supervisant l'ensemble des opérations, comme auparavant, Xero compte désormais plusieurs équipes réparties sur plusieurs sites, capables de gérer leurs propres astreintes. « Nous avons formé de nombreuses équipes à la gestion des incidents et au fonctionnement des alertes et de PagerDuty , ce qui a permis d'améliorer le MTTR (temps moyen de réparation) de l'entreprise », a déclaré Angell.
Et ensuite ?
Xero étend l'utilisation de la plateforme de gestion des opérations numériques PagerDuty à un plus grand nombre d'utilisateurs et de cas d'usage. L'entreprise a déjà entrepris d'évaluer la santé de ses équipes et espère obtenir une vision plus approfondie de leurs performances grâce à l'adoption de cette plateforme. Service de gestion de la santé opérationnelle (OHMS) de PagerDuty .