Le groupe REA s'engage dans la transformation numérique avec PagerDuty
Taille: 1 300 employés
Industrie: Médias numériques / Immobilier
Emplacement: Melbourne, Australie
Client depuis : 2014
Intégrations clés :
Dynatrace
New Relic
Zendesk
AWS CloudWatch REA Group remplace les pagers par PagerDuty
REA Group Limited est une multinationale spécialisée dans la publicité numérique et l'immobilier. Elle exploite le principal site web immobilier d'Australie, ainsi que des sites de renom en Asie. Sa mission est de « transformer l'expérience immobilière à travers le monde », ce qu'elle accomplit en développant des produits innovants et en cultivant un environnement de travail dynamique qui encourage la créativité. Des millions de personnes dans le monde utilisent quotidiennement les sites web de REA Group pour trouver un bien immobilier. La plateforme doit donc être constamment accessible et performante afin de permettre à chacun de rechercher des propriétés à tout moment et de partout. Il est par conséquent essentiel pour REA Group de réagir rapidement et efficacement aux incidents affectant les performances de la plateforme, et ce, sans que ses clients ne s'en aperçoivent. Parallèlement, REA Group ne peut se permettre de négliger l'efficacité opérationnelle de ses équipes de développement et de gestion de logiciels, notamment face à une croissance rapide.
Défis : Système d’alerte aux incidents monolithique et opérations cloisonnées
En 2014, avant l'adoption de PagerDuty, l'équipe des opérations de REA Group utilisait un système d'alerte monolithique et inefficace qui obligeait les ingénieurs à porter des pagers physiques en permanence. La complexité de modification et d'optimisation d'un tel système ne permettait pas à l'équipe REA de garantir que les bonnes alertes parvenaient aux bonnes personnes, ce qui allongeait les délais de réponse aux incidents. De plus, les ingénieurs d'astreinte étaient constamment notifiés d'alertes non critiques ou non exploitables, notamment en dehors des heures de bureau. « C'était un véritable cauchemar la nuit, une épreuve pénible », a déclaré le responsable mondial de l'infrastructure et de l'architecture chez REA Group, évoquant son expérience des astreintes à cette époque.
Le deuxième défi majeur pour l'équipe était le structure cloisonnée de l'organisation L'organisation était composée de nombreux groupes distincts, chacun responsable du développement de parties spécifiques de l'écosystème de l'entreprise, mais tous les incidents étaient centralisés au sein d'une équipe d'exploitation. REA s'est attachée à décloisonner ces services en adoptant une culture DevOps et en confiant la responsabilité des opérations aux équipes de développement et de maintenance des applications. Pour que ce changement soit couronné de succès, les alertes devaient être transmises directement aux équipes et non plus envoyées à une unité centralisée.
« Nous avons désormais un moyen d’envoyer les bonnes alertes aux bonnes personnes, et au bon moment. »
– Responsable mondial de l'infrastructure et de l'architecture chez REA Group
Mise en place d'une gestion agile des incidents avec PagerDuty
En 2014, l'équipe a mis en œuvre PagerDuty afin d'améliorer le temps de réponse aux incidents et d'adopter pleinement la méthode de travail DevOps.
Avec PagerDuty, REA peut rationaliser la gestion des incidents dans toute son organisation en coordonnant réponses aux incidents De manière personnalisée et agile, les politiques d'escalade des incidents sont adaptées afin que les alertes soient transmises aux bonnes personnes en fonction de la nature du problème, notamment l'équipe responsable du service concerné et l'ingénieur le plus à même de le résoudre. Les équipes accordent désormais une grande importance à la conception de leurs alertes afin de respecter les SLA et de s'assurer qu'elles ne sont pas déclenchées sans raison valable. Résultat : toutes les équipes responsables du service sont pleinement responsabilisées. Cela a nécessité un changement de mentalité fondamental : les équipes comprennent désormais que ce qu'on construit, on l'exploite. « La possibilité de paramétrer les planifications a été un atout majeur pour nous », a-t-il expliqué.
Les pagers physiques appartiennent désormais au passé. Les notifications d'incidents sont maintenant diffusées via PagerDuty, permettant aux ingénieurs (développeurs, testeurs, administrateurs système, etc.) d'être avertis sur leurs téléphones et autres appareils qu'ils utilisent déjà. « Ne plus avoir de pagers physiques a complètement changé ma façon de travailler », a-t-il déclaré.
Grâce aux indicateurs collectés automatiquement par PagerDuty , Turegano et son équipe ont optimisé leurs opérations. PagerDuty leur fournit des données qui les aident à déterminer leur temps moyen de réparation (MTTR), permettant ainsi à REA Group de suivre l'évolution des performances de son équipe d'exploitation au cours d'un incident. PagerDuty agrège également des indicateurs provenant de diverses sources. outils de surveillance que l'équipe utilise déjà, comme AWS CloudWatch , Nagios , New Relic et Splunk Ces indicateurs agrégés sont précieux pour la performance. autopsies après un incident afin d'éviter que des problèmes similaires ne se reproduisent à l'avenir, a-t-il déclaré.
REA utilise désormais PagerDuty pour gérer l'ensemble de ses services. opérations numériques « Tout dysfonctionnement potentiel déclenchera une alerte sur PagerDuty, et nous pouvons désormais envoyer les alertes pertinentes aux personnes concernées », a-t-il déclaré. Il a ajouté que REA a non seulement gagné en efficacité dans la gestion des alertes, mais a également opéré une transformation culturelle DevOps complète, et que PagerDuty a joué un rôle déterminant dans cette évolution.
Si vous souhaitez en savoir plus sur la façon dont REA a étendu son service d'astreinte, consultez cet article dans leur… blog technologique .