PagerDuty
/
Blog
/
Gestion et réponse aux incidents
/
Optimisation de votre processus de gestion des alertes

Blog

Optimisation de votre processus de gestion des alertes

par Christopher Tozzi 22 février 2017 | 7 min de lecture

Dans un monde plus simple, toutes les alertes seraient identiques et votre infrastructure serait soit parfaitement fonctionnelle, soit complètement défaillante, sans juste milieu.

En réalité, le monde n'est pas si simple. Surtout pas aujourd'hui, où L'infrastructure est plus diversifiée et complexe que jamais. .

Faire face à cette complexité exige une approche différente de surveillance et la gestion des alertes. Il ne suffit pas de considérer la gestion des incidents comme un simple processus de réponse aux alertes dans l'ordre de leur arrivée, ni de supposer que chaque alerte requiert une action.

Cet article explique pourquoi une approche flexible et nuancée de la gestion des alertes est essentielle, et comment la mettre en œuvre.

L'infrastructure moderne est complexe

Pour comprendre pourquoi un processus de gestion des alertes flexible est essentiel, examinons les facteurs qui complexifient les infrastructures modernes. Considérons les points suivants :

L'infrastructure est fortement stratifiée et interdépendante.

Autrefois, on disposait de quelques serveurs physiques et de stations de travail, et c'était à peu près tout. Aujourd'hui, à l'ère du tout-logiciel, votre infrastructure est un empilement complexe de machines physiques et virtuelles, de réseaux définis par logiciel, de clients légers, de capteurs connectés de manière intermittente, etc., le tout imbriqué et superposé. Par conséquent, une alerte semblant provenir d'une source (comme une application conteneurisée avec Docker) pourrait en réalité être liée à un problème sur une autre partie de l'infrastructure (comme la baie de stockage à laquelle votre serveur hôte Docker est connecté).

Certains problèmes sont plus graves que d'autres

C'est assez évident pour toute personne ayant une expérience en gestion d'incidents. Il est néanmoins important de souligner l'étendue des problèmes actuels et la difficulté d'évaluer rapidement la gravité d'une alerte. Par exemple, une alerte signalant qu'un serveur de stockage ne répond plus peut sembler très grave au premier abord. Cependant, si le serveur fait partie d'un cluster de stockage à architecture évolutive avec basculement automatique, l'indisponibilité n'est pas en réalité prioritaire. Aucune donnée ne risque d'être perdue et la continuité des activités ne sera pas interrompue si l'équipe ne réagit pas immédiatement. De plus, certaines alertes servent d'avertissements mais ne sont pas immédiatement exploitables. Bien que ces informations doivent être conservées pour la détection de tendances et d'anomalies à l'échelle de l'infrastructure, elles doivent être ignorées afin d'éviter de déclencher une intervention humaine. prévenir la fatigue liée aux alertes .

La réponse en temps réel est cruciale

Dans un monde hyperconnecté comme le nôtre, les utilisateurs sont informés des pannes de service en temps réel. La gestion des alertes doit donc elle aussi se faire en temps réel. Le fait que les utilisateurs aient tendance à signaler les problèmes dans des lieux publics comme… réseaux sociaux Avant même que vos clients ne contactent votre entreprise, une résolution en temps réel devient impérative. Soyez proactif plutôt que réactif ; n’attendez pas que vos clients publient une avalanche de tweets mécontents avant de répondre à une alerte sérieuse.

Les performances de l'application sont importantes

Il ne suffit plus de s'assurer que vos applications fonctionnent. Elles doivent également offrir des performances optimales, car les utilisateurs tolèrent mal les performances médiocres. Si votre site web est lent, par exemple, les clients iront voir ailleurs après seulement quelques clics. dix secondes d'attente Du point de vue des alertes, cela signifie qu'être notifié lorsqu'une application cesse complètement de répondre est insuffisant. Si la surveillance de la disponibilité est cruciale, il est également indispensable de recevoir des alertes en cas de performances médiocres. De plus, il est nécessaire de pouvoir les distinguer des alertes d'absence de réponse.

Mettre en œuvre concrètement un système d'alerte nuancée

Maintenant que vous connaissez les défis de la gestion moderne des alertes, comment pouvez-vous les relever ?

La solution consiste à rendre votre processus de gestion des alertes très flexible et plus agile. Utilisez des stratégies telles que les suivantes :

Rendre les alertes prioritaires très visibles

Pour réagir rapidement aux alertes les plus critiques, il est essentiel de pouvoir les visualiser facilement. Or, cela s'avère difficile si les alertes de haute et de basse priorité sont mélangées sur vos tableaux de bord de surveillance. La tâche est grandement simplifiée si vous dédiez un tableau de bord aux alertes que votre logiciel de surveillance identifie comme prioritaires.

Supprimer les alertes inutiles

Supprimer les alertes inutiles contribuera grandement à désencombrer vos tableaux de bord et à améliorer la visibilité. Vous pouvez le faire en suppression des alertes Pour les événements de faible priorité, comme la création d'un nouveau compte utilisateur, il est préférable de masquer ces alertes plutôt que de les désactiver complètement. En effet, les alertes sont toujours reçues et peuvent être consultées au besoin, mais elles ne distraient pas les administrateurs lorsqu'ils doivent traiter des alertes plus urgentes.

Signalement et suppression nuancés des alertes

Il est important de noter que la suppression d'alertes n'est pas une option exclusive. Vous pouvez supprimer certaines alertes d'un certain type dans certaines circonstances, mais choisir de ne pas les supprimer dans d'autres.

Par exemple, vous pourriez vouloir masquer les alertes relatives à la création de comptes si elles surviennent pendant les heures ouvrables, lorsque le personnel crée généralement des comptes, mais les afficher si elles surviennent en dehors de ces heures. Ou encore, vous pourriez vouloir masquer les alertes concernant un redémarrage de serveur, sauf si ce redémarrage se produit plus de trois fois dans un intervalle de temps défini.

Il est également crucial de dédupliquer les informations autant que possible et de créer des liens entre les alertes connexes afin d'éviter des efforts de résolution et de communication redondants.

Pour minimiser le bruit des alertes sans manquer d'événements importants, vous devriez trier les alertes de manière plus précise en mettant en œuvre des mécanismes tels que la suppression, le regroupement des alertes connexes et la personnalisation des seuils de notification.

Envoyer des alertes différentes à différentes personnes

Un processus de gestion des alertes qui les diffuse à tous les membres de l'équipe est inefficace. Différents types d'alertes doivent être adressés à différents membres de l'équipe en fonction de leurs compétences et de leur disponibilité. La flexibilité de la diffusion des alertes est d'autant plus cruciale. Un expert disponible et prêt à gérer un incident une heure peut être indisponible l'heure suivante.

En envoyant des alertes aux bonnes personnes dès le départ, vous éliminez une grande partie du travail manuel qui serait autrement nécessaire pour trier les problèmes et les attribuer au personnel.

Rapport sur bien plus que les seules interruptions de service

Comme indiqué précédemment, une gestion efficace des alertes consiste aujourd'hui à détecter les ralentissements, et non plus seulement les pannes totales. C'est pourquoi il est important de configurer le logiciel de surveillance pour qu'il génère des alertes lorsque les systèmes approchent de leurs limites de capacité (par exemple, lorsque la charge réseau dépasse 80 % ou que la demande pour une application atteint un seuil inhabituel sans l'avoir encore franchi).

Bien sûr, il n'est pas nécessaire d'accorder à ces types d'alertes la même priorité qu'à celles signalant une panne complète. Ces dernières doivent être identifiées et traitées immédiatement. Toutefois, il est important de ne pas attendre une panne totale avant d'intervenir. Optimisez plutôt votre processus d'alerte afin de pouvoir gérer les problèmes de performance bien avant qu'ils n'entraînent une interruption de service.

Dans le DevOps Avec l'évolution des technologies, les infrastructures sont agiles. Votre processus de gestion des alertes doit l'être aussi. Il est temps d'abandonner l'idée que toutes les alertes ont la même importance ou qu'il faut les signaler et les examiner systématiquement. Pour surveiller efficacement les infrastructures complexes et évolutives d'aujourd'hui sans se laisser submerger, il est indispensable d'adopter une approche optimisée des alertes. Cette approche permet aux équipes informatiques d'identifier et d'interpréter les alertes en fonction de leur niveau d'importance.

alerte Gestion des incidents

Vous pourriez aussi aimer ces articles...

IA , Gestion et réponse aux incidents
Transformer les incidents en enseignements : le cycle d’opérations d’IA continu expliqué

IA , Gestion et réponse aux incidents
De la réponse réactive à la résilience systémique : le système qui s'améliore à chaque incident

IA , Meilleures pratiques et perspectives , Gestion et réponse aux incidents , Intégrations
Travaillez là où vos équipes se trouvent déjà grâce aux agents IA de PagerDuty pour Slack.