• PagerDuty
    /
  • Blog
    /
  • Non classé
    /
  • Leçons tirées de Virtuoso : Trois étapes pour réduire le volume d’alertes jusqu’à 94 % en trois semaines

Blog

Leçons tirées de Virtuoso : Trois étapes pour réduire le volume d’alertes jusqu’à 94 % en trois semaines

par Sam Lewis 9 juillet 2015 | 4 min de lecture

Virtuoso blog image

Comment un client a considérablement réduit le volume d'alertes et amélioré ses opérations grâce à PagerDuty et à l'enrichissement des événements

Le client

Nous avons récemment rencontré Shawn Motley, ingénieur DevOps senior chez Virtuose , pour parler de ses expériences avec PagerDuty et le Plateforme d'enrichissement événementiel (EEP). Virtuoso est un portail de voyages haut de gamme, employant plus de 200 personnes et possédant 8 sites web. En tant qu'agence de voyages de luxe internationale, l'image est primordiale pour Virtuoso. Si l'un de leurs clients rencontre des difficultés lors de vacances onéreuses, ses conseillers en voyages doivent pouvoir accéder aux sites web de Virtuoso, quel que soit leur emplacement ou l'heure. Ces sites doivent être opérationnels en permanence.

L'histoire de fond

Lorsque Virtuoso a commencé à se concentrer sur son initiative DevOps il y a 7 mois, Ils recevaient des milliers d'événements toutes les 24 heures. dont la majorité étaient bruit Il leur fallait réduire rapidement le volume d'alertes. Pour la plupart des organisations, la suppression des alertes dans chacun de leurs systèmes de surveillance est impossible compte tenu des contraintes de ressources, de temps et de tâches opérationnelles. Avec EEP, la gestion des suppressions est centralisée via une interface web intuitive qui encourage la suppression et la gestion actives des événements. Grâce à l'utilisation conjointe d'EEP et de PagerDuty, l'équipe DevOps de Virtuoso a pu réduire rapidement sa charge d'événements opérationnels quotidienne à seulement quelques événements par jour.

Étape 1 : Mettre en place un système

L'introduction de PagerDuty et de la plateforme d'enrichissement des événements a immédiatement permis d'accroître l'efficacité opérationnelle. Avec l'EEP, Intégration de PagerDuty , leurs alertes sont acheminées vers EEP, classées comme exploitables ou non, enrichies d'informations de remédiation, puis envoyées à PagerDuty pour une alerte de livraison garantie à leur équipe d'opérations.

Deuxième étape : Enrichissez et personnalisez vos alertes

Ils ont ajouté des informations complémentaires, c'est-à-dire des étapes de résolution spécifiques, à l'alerte initiale afin que toute personne intervenant sur un incident dispose des informations nécessaires pour le prioriser et le résoudre. Ces alertes enrichies ont été acheminées via les notificateurs EEP vers les services PagerDuty appropriés. Les étapes d'enrichissement figuraient dans l'incident et incluaient un lien vers l'incident dans l'EEP contenant tous les détails.

Cliquer sur « Accuser réception » ou « Résoudre » pour une alerte dans EEP entraînait automatiquement l’exécution de cette action dans PagerDuty. De même, répondre à une alerte par SMS ou via l’application mobile PagerDuty permettait également d’accuser réception et de résoudre l’événement dans EEP.

Troisième étape : Mise en place de triages hebdomadaires des événements

Maintenant, avec une charge d'événements considérablement réduite et le alertes restantes enrichies Ils disposaient des informations nécessaires, au moment opportun. Ils ont perçu une excellente opportunité de réduire davantage le bruit et d'améliorer leurs alertes en mettant en place des triages hebdomadaires. Depuis la plateforme EEP, ils pouvaient télécharger la liste de tous leurs incidents récents et les classer en deux catégories : bruit ou intervention. La plateforme leur permettait ainsi de supprimer rapidement et facilement les grands groupes d'événements inutiles grâce à la classification EEP.

En une semaine, ils avaient réduit le volume de leurs alertes de 82 % et en trois semaines, de 94 %.

Suivi

Avec moins d'une centaine d'alertes quotidiennes, ils ont poursuivi leurs analyses hebdomadaires et ont pu réduire encore davantage le nombre d'alertes quotidiennes. Actuellement, Virtuoso ne reçoit qu'une poignée d'incidents par jour, dont certains seulement nécessitent une intervention d'autres équipes. PagerDuty et EEP ont permis à l'équipe DevOps de Virtuoso d'améliorer considérablement la visibilité de son infrastructure.

Témoignage

« C'est un système génial », a déclaré Shawn. « Il permet à votre entreprise de franchir un cap et fonctionne avec tous ces autres partenaires. »

Grâce au gain de temps précieux permis par l'utilisation de PagerDuty et d'EEP, Virtuoso a considérablement accéléré ses cycles de déploiement, de compilation et de mise en production. En se concentrant uniquement sur les événements essentiels, l'équipe des opérations a pu mener à bien ses initiatives d'optimisation d'infrastructure.

« Nous pouvons désormais appliquer concrètement les principes DevOps à notre équipe », a-t-il ajouté. « Nous nous concentrons sur l’automatisation de notre infrastructure, et non sur le tri des alertes. »

« Grâce à l'élimination des interférences, nous disposons désormais de données télémétriques bien plus précises pour nos serveurs, ce qui nous permet de mieux distinguer les problèmes liés aux serveurs de ceux liés au code », a déclaré Shawn. « Nous pouvons ainsi résoudre les problèmes système beaucoup plus rapidement et les signaler aux développeurs lorsque cela s'avère nécessaire pour les problèmes de code. »

eBook_440_220