Blog

Éliminez la fatigue liée aux alertes grâce à PagerDuty et à l'enrichissement des événements.

par Julie Arsenault 5 mars 2015 | 4 min de lecture

Trop d'alertes vous dépriment ? Il existe une meilleure solution.

battle-alert-fatigue-hero

Cet article invité est rédigé par Ophir Ronen, fondateur de Enrichissement des événements .

En tant que professionnels de l'informatique, nous avons un accès toujours plus étendu à des données télémétriques opérationnelles plus précises. Grâce à ces données, nous bénéficions d'une visibilité incroyable sur ce qui se passe. Cependant, trop d'informations ne sont pas toujours un avantage en matière d'alertes. On peut facilement avoir trop d'alertes, et fatigue d'alerte C'est un problème croissant au sein des équipes opérationnelles. Une télémétrie plus détaillée n'est pas mauvaise en soi ; c'est juste qu'une grande partie de ces informations est généralement plus adaptée à l'analyse forensique qu'à la génération d'alertes.

Entrez Plateforme d'enrichissement événementiel (EEP) Nous nous associons à PagerDuty pour vous aider à mieux gérer vos alertes. En combinant PagerDuty et l'EEP, vous êtes assuré de ne recevoir de notifications que pour les alertes nécessitant une action et de disposer de toutes les informations nécessaires pour les résoudre rapidement. L'EEP vous permet de classer les alertes comme nécessitant une action ou non, et de masquer celles qui ne le nécessitent pas. Vous pouvez également ajouter des « enrichissements », c'est-à-dire des étapes de résolution spécifiques, afin que toute personne intervenant sur l'incident dispose des informations nécessaires. Grâce à notre nouvelle intégration PagerDuty , vous avez la garantie que vos alertes critiques seront systématiquement prises en compte.

EEP-suppressions

Les classifications suppriment les alertes intempestives

Les classifications déterminent si une alerte nécessite une action ou doit être ignorée car considérée comme du bruit. L'EEP reçoit l'intégralité des alertes provenant de vos systèmes de gestion des opérations, tels que Nagios, Pingdom, Zenoss, etc., et les convertit dans notre format d'événement de base commun. Ces alertes, désormais structurées de manière uniforme, sont ensuite évaluées en fonction des classifications et enrichissements existants. La capture d'écran ci-dessous illustre des exemples de classifications d'exclusion du bruit de l'EEP.

eep-classifications

L'un de nos clients, gérant un peu plus de 300 nœuds (un ensemble hétérogène de systèmes Windows et Linux, d'équilibreurs de charge, de pare-feu et d'équipements réseau), a pu réduire ses alertes de 68 %. Il a configuré 37 classifications de suppression pour les alertes non exploitables et 17 classifications d'enrichissement pour les alertes nécessitant une intervention. Grâce à ce niveau de suppression, il bénéficie d'un flux d'événements considérablement réduit, enrichi d'informations contextuelles pertinentes pour la résolution des problèmes.

Les activités d'enrichissement simplifient la remédiation

Les enrichissements correspondent aux étapes spécifiques nécessaires pour résoudre le problème. Grâce à l'EEP, ils sont intégrés à l'alerte et accessibles immédiatement à vos équipes d'intervention. Prenons l'exemple d'une alerte Windows indiquant que « l'espace de stockage disponible est insuffisant pour traiter cette commande ». L'ingénieur d'astreinte ou du NOC doit savoir quels éléments peuvent être supprimés pour libérer de l'espace. Cette information peut se trouver dans le wiki des opérations et être facilement accessible, ou non.

Voici un exemple d'événement EEP enrichi :

eep-enriched-event

Fonctionnement de l'intégration PagerDuty

Avec notre nouveau Intégration de PagerDuty Vous pouvez ainsi vous assurer que toutes vos alertes exploitables sont prises en compte. Vous pouvez acheminer les alertes enrichies vers les notificateurs EEP afin qu'ils soient envoyés à des services PagerDuty spécifiques. Les étapes d'enrichissement s'afficheront dans l'incident, et un lien vers cet incident dans EEP sera également inclus. Cliquer sur « Accuser réception » ou « Résoudre » pour une alerte dans EEP exécute automatiquement cette action dans PagerDuty. Vous trouverez des instructions détaillées pour configurer l'intégration dans notre documentation. Guide d'intégration , et la capture d'écran ci-dessous montre un exemple d'incident EEP enrichi dans PagerDuty.

eep-pd-notifier-detail 2

Utilisez un processus hebdomadaire pour maintenir les alertes propres

PagerDuty a déjà publié des articles de blog à ce sujet. 7 étapes pour soulager la fatigue liée à l'alerte L'une de ces tâches consiste à examiner régulièrement les alertes. Ce nettoyage hebdomadaire est encore plus simple grâce à l'enrichissement des événements. Depuis l'EEP, vous pouvez télécharger la liste de tous vos incidents récents. Ensuite, lors d'une réunion avec les responsables des connaissances du domaine des opérations (par exemple, les administrateurs de bases de données, les ingénieurs réseau, les ingénieurs système et les développeurs), examinez les alertes et classez-les dans l'une des deux catégories suivantes : à ignorer ou à traiter. À l'avenir, les nouvelles alertes correspondant à des alertes ignorées ne vous dérangeront plus. Après le premier mois, il vous suffira probablement d'ajouter 10 minutes à vos réunions d'opérations régulières pour examiner les nouvelles alertes non classifiées.

Grâce à l'EEP, nos clients ont pu réduire considérablement le nombre d'alertes reçues et optimiser leurs processus de réponse. Nombre d'entre eux indiquent qu'après seulement quelques mois d'utilisation, ils ont pu réduire leurs alertes à quelques-unes par jour, voire à aucune certains jours. Nous avons conçu l'EEP après des années d'expérience dans l'exploitation informatique, où nous avons constaté les difficultés liées à un flux d'alertes excessif et au manque d'informations pour la résolution des problèmes. Nous sommes ravis que vous puissiez également bénéficier de l'EEP. Commencez dès maintenant ! Essai gratuit de 30 jours dès aujourd'hui .

eep_shot_you_tube