Blog

Résumé de la série de regroupements d'alertes intelligentes

par Quintessence Anx 7 avril 2022 | 4 min de lecture

Co-écrit par Chris Bonnell, Data Scientist VI PagerDuty

Bienvenue dans notre dernier article de la série sur l'architecture EI et le regroupement intelligent des alertes. J'espère que cette série vous a plu. Si vous souhaitez consulter nos articles précédents, n'hésitez pas à utiliser… série d'architecture ei Passons à l'étape suivante. Prenons un moment pour récapituler tout ce que nous avons appris.

Points clés à retenir

Le comportement par défaut du regroupement intelligent des alertes repose sur des modèles abstraits de gestion des incidents et sur l'utilisation de modèles d'apprentissage automatique. L'outil peut ainsi formuler de nombreuses hypothèses éclairées quant à l'implémentation, mais il est possible qu'il ne fournisse pas de correspondances parfaites dans chaque environnement. Pour pallier ce problème, vous pouvez améliorer le comportement du regroupement en utilisant la fusion, les titres et la conception des services.

Comportement de fusion

Les incidents sont regroupés via un processus appelé fusion Dans l'application PagerDuty . En général, tout incident peut être fusionné avec un autre. Le regroupement intelligent des alertes, en particulier, analyse le champ « Titre de l'alerte » pour déterminer si une alerte doit être fusionnée ou séparée en un nouvel incident, comme nous l'avons vu dans… ce post Si des alertes sont regroupées par erreur dans un incident commun, vous pouvez les séparer et les déplacer à leur emplacement approprié. Le modèle d'apprentissage automatique améliore les comportements à chaque itération ; ainsi, que les alertes soient conservées, regroupées ou déplacées, le comportement futur s'en trouvera amélioré.

Titres des alertes

Étant donné que le regroupement intelligent des alertes base son comportement de fusion sur le champ Titre de l'alerte, nous avons abordé les bases des titres d'alerte avec quelques principes généraux d'apprentissage automatique. un article précédent Il y a trois points importants à retenir :

  • Les titres des alertes doivent être utiles à la fois aux humains et à l'apprentissage automatique, avec une préférence pour ce dernier puisque le reste des détails de l'incident doit figurer dans la description.
  • N'oubliez pas que, puisque les machines ne peuvent pas comprendre le contexte, il est important de tirer parti de ce qu'un ordinateur peut identifier comme « unique » par opposition à « commun ».
  • Étant donné la limite de caractères restreinte pour la partie du titre de l'alerte qui s'affichera dans une notification push, placez le texte destiné à l'humain plus tôt dans le titre plutôt que plus tard.

Pour en savoir plus sur la mise en œuvre de ces techniques, veuillez consulter la partie de l'article consacrée à l'apprentissage automatique ainsi que… Introduction au traitement automatique du langage naturel pour le texte Article de blog publié sur le blog Towards Data Science.

Conception de services

Le dernier concept que nous avons présenté était une discussion sur conception de services L'idée générale est que les alertes similaires provenant d'un même service sont, par défaut, considérées comme plus fortement corrélées que les alertes provenant d'autres services. Il y aurait beaucoup à dire à ce sujet, car le niveau de détail de vos définitions de service influence fortement la manière dont vous implémentez… service Dans l'application PagerDuty , en règle générale, si vous hésitez à considérer deux éléments comme des services distincts, inspirez-vous du processus d'escalade souhaité. S'ils appartiennent à la même équipe ou aux mêmes personnes, les considérer comme un seul service dans PagerDuty garantira le respect de ce processus d'escalade, avec l'avantage supplémentaire d'une meilleure corrélation des alertes. En revanche, si des équipes différentes en sont responsables, ou s'ils sont logiquement distincts au point que vous ne souhaitez pas une forte corrélation des alertes, définissez-les comme des services distincts. Pour en savoir plus sur les bonnes pratiques de définition et de gestion des services, consultez notre documentation. Guide d'exploitation pour propriétaires de services complets .

Où aller à partir d'ici

Et voilà ! Merci beaucoup d'avoir pris le temps d'en apprendre davantage sur l'utilisation optimale du regroupement intelligent des alertes. Si vous souhaitez consulter ces articles ultérieurement, veuillez les ajouter à vos favoris. balise ei-architecture-series Si vous souhaitez poursuivre la discussion, veuillez consulter notre Forums communautaires Pour toute question ou réponse plus approfondie, veuillez contacter notre équipe d'assistance.