Gestion des événements ITIL

En résumé, la gestion des événements ITIL englobe tout ce qui se passe entre un événement et la réponse humaine. Mais d'abord, définissons ce qui constitue un événement.

Au fond, un événement Un événement correspond simplement à un changement d'état d'un service informatique. L'objectif de la gestion des événements ITIL est de détecter et d'enregistrer ces changements afin d'obtenir une visibilité complète sur le service. Par exemple, la connexion d'un utilisateur, les informations relatives à un déploiement récent ou la fin d'une maintenance serveur sont autant de changements que les équipes techniques doivent suivre. Bien que ces changements n'impliquent pas nécessairement une dégradation du service, ils peuvent révéler des problèmes sous-jacents susceptibles d'impacter les clients. Il est donc essentiel de collecter, de hiérarchiser et de traiter les événements en conséquence.

Avec la complexification des infrastructures, l'ampleur des événements a également augmenté. opérations informatiques Les équipes doivent gérer ces événements. Or, si leur nombre a explosé, le nombre de personnes chargées de les gérer, lui, n'a pas suivi la même progression. De nombreuses organisations voient aujourd'hui des milliers, voire des millions d'événements se produire chaque jour sur leurs systèmes. Avec des ressources et une bande passante limitées, il est quasiment impossible de les prioriser efficacement et de distinguer les informations pertinentes du bruit de fond.

C’est le problème fondamental que les solutions de gestion des événements ITIL visent à résoudre. Ces solutions s’articulent autour de l’intégration des processus et des outils permettant de détecter et de collecter les événements, de filtrer les informations superflues et d’orchestrer l’action appropriée (généralement en transmettant les événements à un outil de gestion des incidents ou de notification). Face aux enjeux croissants de la prestation de services informatiques, il est plus crucial que jamais d’intégrer la gestion des événements et la gestion des incidents afin d’éviter toute perte de temps entre le signal et l’action.

Définitions de la gestion des événements ITIL

Pour poser les bases du reste de cet article, établissons quelques définitions pour les objets typiques du modèle de données opérationnel : événements, alertes, incidents, et notifications.

Un événement Il s'agit simplement d'un fait à un instant T ; ce n'est ni bon ni mauvais. Cela consiste en une ou plusieurs conditions corrélées qui ont été surveillées et classées selon un état nécessitant une intervention.

Un alerte, En revanche, il existe un outil de surveillance (ou autre) qui suit la présence d'un moniteur dans un échoué En soi, les événements et les alertes (par exemple : disque à 60 %) n’ont pas besoin d’être directement envoyés aux intervenants car ils n’ont pas d’impact intrinsèque sur le client.

Un incident Un incident est un problème qui affecte l'entreprise ou ses clients. Il est associé à une ou plusieurs alertes et événements. Dans l'exemple précédent, plusieurs alertes liées (disque à 60 %, disque à 80 %, disque plein, etc.) doivent être regroupées en un seul incident, car elles indiquent clairement une dégradation de la qualité de service, impactant ainsi les clients. Un événement peut ne pas être considéré comme un incident s'il n'a pas d'impact direct sur les clients, mais tous les incidents sont des événements, car ces derniers fournissent le contexte brut de ce qui se passe. L'incident doit centraliser les données relatives aux interventions, aux actions correctives et aux analyses post-mortem, et doit également faire l'objet de rapports de l'organisation.

Enfin, un notification Il s'agit d'un message (généralement un appel téléphonique, une notification push, un SMS ou un courriel) adressé à un utilisateur pour l'informer d'un problème.

La gestion des événements ITIL est optimale lorsqu'elle est étroitement intégrée à la réponse aux incidents, selon une approche centrée sur l'humain. Les équipes ne devraient pas avoir à parcourir manuellement une boîte mail saturée ni à être submergées par des dizaines, voire des centaines d'appels téléphoniques redondants pour prioriser et diagnostiquer les problèmes. L'intégration de la gestion des événements et des incidents sur une plateforme unique garantit l'exploitation des données tout en offrant un contexte système et de réponse centralisé et véritablement global, accélérant ainsi le triage.

Étapes typiques de la gestion des événements ITIL

 

1. Détection de surveillance
Une notification d'événement est générée et détectée par un outil de surveillance spécifique.

2. Filtrage des événements
La notification d'événement est soit enregistrée dans un fichier journal, soit communiquée à une solution de gestion d'événements ou de systèmes.

3. Automatisation des événements
Grâce à l'automatisation des événements, vous pouvez envoyer tous vos événements provenant de différents outils de surveillance vers un point de terminaison unique et gérer par programmation le comportement des événements.

a) Routage
Déterminer les équipes/services auxquels les alertes sont envoyées, en fonction du contenu des événements.
b) Déduplication
L'utilisation d'un système qui déduplique facilement et automatiquement les alertes et incidents redondants est cruciale pour atténuer le bruit inutile des intervenants.
c) Suppression
Les événements non exploitables (tels que les messages d'information) ne doivent pas alerter les intervenants, mais doivent néanmoins être conservés à des fins d'analyse forensique.
d) Enrichissement
Les notes, les procédures d'intervention, les liens et/ou autres détails devraient être automatiquement ajoutés aux incidents afin d'aider les intervenants à les résoudre plus rapidement.
e) Corrélation
Il convient d'exploiter l'apprentissage automatique adaptatif et les approches basées sur des règles pour regrouper les événements et alertes connexes en incidents exploitables, en leur fournissant le contexte nécessaire. Ceci est également essentiel pour réduire la surcharge d'informations des intervenants et optimiser le processus de résolution.

4. Réponse
Une fois l'incident consigné dans un format permettant une intervention rapide et pertinente, les équipes d'intervention doivent être mobilisées. Idéalement, les organisations peuvent définir comment elles souhaitent que les problèmes soient signalés et/ou escaladés de manière dynamique en fonction de leur gravité. Mieux encore, elles devraient avoir les moyens de le faire. prédéfinir les actions de réponse souhaitées (comme la mobilisation d'équipes d'intervention pluridisciplinaires, la notification des dirigeants et autres parties prenantes, etc.) pour différents types de scénarios d'incidents en temps de paix. Ainsi, ils peuvent les mettre en œuvre facilement et automatiquement en temps de guerre.

5. Résolution
Une fois l'événement ou l'incident résolu et clos, il convient de l'enregistrer, ainsi que toutes les actions subséquentes, dans la solution centrale de gestion des événements ou de gestion des systèmes afin de garantir l'exactitude des rapports. Le suivi d'indicateurs tels que la réduction du bruit, du nombre d'incidents et de notifications, et du délai moyen d'identification et de résolution des problèmes est essentiel pour évaluer l'amélioration de vos processus de gestion des événements ITIL.

Pourquoi la gestion des événements ITIL est importante

Il est devenu impossible, humainement parlant, d'examiner et d'analyser manuellement chaque événement survenant dans vos systèmes ou de programmer des règles pour chaque scénario possible. Parallèlement, les enjeux liés à la prise de décisions appropriées face aux événements (et en temps réel, qui plus est !) sont plus importants que jamais. C'est pourquoi l'automatisation, sous la forme de la gestion des événements, est absolument essentielle pour gérer les comportements événementiels à grande échelle.

La gestion des événements ITIL aide les organisations à définir la manière de détecter et de déclencher la réponse appropriée à tout événement ayant un impact sur la gestion et les performances des services. Par exemple, dans PagerDuty, des alertes peuvent être générées avec un champ de gravité (fourni directement par l'outil de surveillance déclencheur ou défini via les règles d'événements PagerDuty ). En fonction des données fournies (voir ci-dessous), l'incident généré par l'alerte sélectionnera dynamiquement le comportement de notification adéquat.

Niveau de gravité de l'alerte Description Urgence par défaut de l'incident
Critique Une défaillance de l'application principale du système. Haut
Erreur Toute erreur fatale pour l'opération, mais pas pour le service ou l'application. Haut
Avertissement Peut indiquer qu'une erreur se produira si aucune mesure n'est prise. Faible
Info Messages opérationnels normaux ne nécessitant aucune action. Faible (si ajouté à un incident ou supprimé)

Gestion des événements ITIL selon les meilleures pratiques

Pour rester compétitives face à la complexité croissante, les équipes doivent automatiser les tâches manuelles répétitives afin de se concentrer sur des activités à plus forte valeur ajoutée. Les règles doivent être faciles à créer, gérer différents types d'événements et permettre… enrichissement personnalisable , déduplication, suppression d'alerte et la notification pour gérer les besoins complexes des entreprises.

Lors de la mise en œuvre de l'automatisation, concentrez-vous sur l'emplacement de la configuration. Lorsqu'une équipe d'exploitation centralisée tente de programmer une règle spécifique pour chaque scénario d'événement possible (ou du moins ceux qu'elle peut imaginer), cela crée un système lourd et cloisonné. Dans ce cas, les analystes d'exploitation qui configurent le système ignorent ce qui se passe réellement au niveau des intervenants ou des applications, et ces derniers manquent d'informations essentielles lorsqu'ils sont notifiés d'un problème. Vous avez besoin d'une solution qui réduise la charge de configuration et permette aux équipes, qu'elles soient centralisées ou distribuées, de travailler facilement sur le même système sans se gêner mutuellement, tout en leur fournissant un contexte complet en cas de problème.

Comment tirer le meilleur parti de la gestion des événements ITIL

Les approches traditionnelles de gestion d'événements permettent de réduire efficacement le bruit, mais elles sont souvent incroyablement coûteuses et chronophages à mettre en place et à maintenir, n'intègrent pas le contexte humain pertinent et les informations sur les mesures correctives antérieures aux données du système, et ne s'adaptent pas non plus bien à une infrastructure en constante évolution.

PagerDuty AIOps est la seule solution de gestion d'événements et d'automatisation qui intègre les données de vos systèmes aux schémas de réaction humaine, offrant ainsi le chemin le plus rapide entre le signal et l'action. Essayez-la dès maintenant ! Essai gratuit de 14 jours . Ou, faire une visite pour le voir en action.