Blog

Parlons de la fatigue d'alerte

par Julie Arsenault 3 septembre 2014 | 5 minutes de lecture

Ceci est le premier article de notre série sur la façon d'utiliser les données pour améliorer vos opérations informatiques. Le deuxième article porte sur meilleures pratiques pour rendre vos mesures significatives dans PagerDuty.

Screen Shot 2014-08-28 at 4.44.31 PM La lassitude face aux alertes est un problème complexe, mais vous pouvez commencer à agir dès aujourd'hui pour l'améliorer. Grâce aux données relatives à vos alertes, vous pouvez investir sérieusement dans l'amélioration de vos systèmes de surveillance et la prévention des alertes non exploitables.

Pour vous aider, nous avons compilé un processus en 7 étapes pour lutter contre la fatigue des alertes.

Réduire la fatigue d'alerte en 7 étapes

1. S'engager à agir

Nettoyer ses systèmes de surveillance est difficile, et il est facile de se laisser aller aux niveaux d'alerte élevés. Mais la première étape consiste à prendre des mesures. Examinez rapidement vos données. Combien d'alertes recevez-vous en dehors des heures de travail et quel est leur impact sur l'équipe ?

Screen Shot 2014-08-28 at 4.49.01 PM Ensuite, en équipe, consacrez du temps à l'amélioration de vos flux d'alerte. Etsy a désigné un « semaine du piratage » pour s'attaquer à leur gros problème d'hygiène de surveillance, mais réserver quelques heures par semaine ou un jour par mois pourrait également fonctionner.

 

2. Coupez les alertes qui ne sont pas exploitables et ajustez les seuils

Commencez par examiner vos alertes les plus courantes (Astuce : vous pouvez explorer les incidents dans la nouvelle version de PagerDuty). Rapports avancés ). Rassemblez les personnes qui étaient de garde récemment et, pour chaque alerte, déterminez si elle était exploitable.

Une fois que vous avez trouvé des alertes non exploitables, supprimez-les.

Il est courant de surveiller et d'alerter sur l'utilisation du processeur et de la mémoire, car ce sont des indicateurs d'un problème. Cependant, ces indicateurs ne sont pas exploitables en eux-mêmes, car ils ne fournissent pas d'informations précises sur la cause du problème. Etsy a cessé de surveiller ces indicateurs et s'est concentré sur des vérifications fournissant des informations plus précises et exploitables.

Vous devrez peut-être également ajuster les seuils de vos contrôles. Dan Slimmon d'Exosite a partagé une excellente présentation. « Détecteurs de fumée et alarmes de voiture » , qui détaille comment deux concepts issus des tests médicaux peuvent vous aider à alerter uniquement en cas de problème. Ces concepts, la sensibilité et la spécificité, donnent ensemble une valeur prédictive positive (VPP), c'est-à-dire la probabilité qu'un problème se produise lorsqu'une alerte se déclenche. La présentation présente également des stratégies pour améliorer votre VPP grâce à l'hystérésis (analyse des valeurs historiques en plus des valeurs actuelles), ainsi qu'à d'autres techniques.

3. Gardez les incidents non graves pour le matin

Bien que toutes les alertes soient importantes, certaines peuvent ne pas être urgentes. Ces problèmes non urgents ne devraient pas vous réveiller, vous ou votre équipe, au milieu de la nuit. Pensez à créer des workflows distincts pour les incidents bénins afin qu'ils n'interrompent pas votre sommeil ou votre journée de travail. Dans PagerDuty, n'oubliez pas de désactiver « Délai d'accusé de réception des incidents » et « Résolution automatique des incidents » pour les services de faible gravité.

4. Consolider les alertes associées

En cas de problème, vous pouvez recevoir plusieurs alertes liées au même problème. Exploitez les dépendances de surveillance si vous pouvez les configurer et exploitez nos bonnes pratiques de consolidation des alertes dans PagerDuty:

  • Utilisez un clé d'incident Pour signaler à PagerDuty que certains événements sont liés. Par exemple, si plusieurs serveurs sont en panne, chacun d'eux peut générer une notification à PagerDuty. Cependant, si ces notifications ont toutes la même clé d'incident, nous les regrouperons en une seule alerte indiquant que 30 serveurs sont en panne.
  • En cas de forte affluence d'alertes, PagerDuty regroupe également les alertes déclenchées après le premier incident. Par exemple, si 10 incidents se déclenchent en l'espace d'une minute après votre première alerte, vous recevrez une seule alerte agrégée.

5. Donnez aux alertes des noms et des descriptions pertinents

Rien n’est plus désagréable que de recevoir une alerte indiquant que quelque chose est cassé sans informations pour vous aider à évaluer la gravité du problème et la marche à suivre.

  • Donnez à vos alertes des noms descriptifs. Si vous indiquez une mesure (par exemple, l'espace disque utilisé), assurez-vous qu'il y ait suffisamment de contexte autour du chiffre pour permettre à quelqu'un de le mettre en perspective. L'espace disque est-il rempli à 80 % ou à 99 % ?
  • Incluez des informations de dépannage pertinentes dans la description de l'alerte, comme un lien vers la documentation existante ou les guides d'exploitation, qui aideront l'équipe à approfondir ses recherches. Dans PagerDuty, vous pouvez ajouter un client_url à l'incident, ou inclure un lien vers le runbook dans la description du service.

6. Assurez-vous que les bonnes personnes reçoivent les alertes

Lorsque les équipes commencent à surveiller, elles envoient généralement toutes leurs alertes à tout le monde. Personne ne souhaite recevoir d'alertes inutiles. Si différentes équipes sont responsables de certaines parties de votre infrastructure, utilisez les politiques d'escalade de PagerDuty pour orienter les alertes de manière appropriée.

7. Maintenez-le à jour avec des revues régulières

Ne laissez pas vos efforts de nettoyage se perdre. Créez un processus hebdomadaire pour consulter les alertes. Etsy a créé un processus de vérification hebdomadaire très pratique. « Opsweekly » (Dépôt Github ici ), mais nous avons entendu parler d'autres entreprises qui utilisent une feuille de calcul lors des revues hebdomadaires.

Pour éviter que la lassitude liée aux alertes ne devienne la norme, définissez des indicateurs quantifiables pour l'expérience d'astreinte. Si vous atteignez ces plafonds, il est temps d'agir, que ce soit en nettoyant la surveillance ou en accordant un peu de congé. Chez PagerDuty, nous analysons le nombre d'alertes que nous recevons chaque semaine. Si ce nombre dépasse 15 pour une équipe d'astreinte, nous effectuons un débriefing pour les analyser.

Plus important encore, prenez en charge la surveillance de l'hygiène en équipe. Si vous recevez une alerte qui n'est pas exploitable, même une seule fois, assurez-vous que personne ne soit plus jamais réveillé par cette alerte.

Ressources supplémentaires :

Monitoring_Ebook_728_90