• PagerDuty
    /
  • Blog
    /
  • AIOps
    /
  • 4 nouvelles façons d'améliorer la gestion des incidents grâce à l'orchestration d'événements

Blog

4 nouvelles façons d'améliorer la gestion des incidents grâce à l'orchestration d'événements

par Hannah Culver 11 septembre 2024 | 5 min de lecture

À une époque où l'efficacité et l'intégration intelligente des technologies sont essentielles, 71 % des responsables techniques Les entreprises du secteur annoncent une augmentation de leurs investissements dans l'intelligence artificielle (IA) et l'apprentissage automatique (AA) cette année. Face à l'immense volume de données qui affluent en entreprise et à la nécessité d'une réponse rapide, la surveillance continue de chaque alerte est irréalisable, et la vigilance humaine seule s'avère trop imprécise. En revanche, l'exploitation de prédictions basées sur les données et l'historique de fonctionnement du système permet une gestion et une réponse aux incidents plus efficaces. C'est là qu'intervient l'orchestration d'événements de PagerDuty.

L'orchestration d'événements aide les organisations à y parvenir en créant une automatisation de bout en bout pilotée par les événements. Cette capacité améliore la façon dont les organisations détectent les incidents, en corrélent plus rapidement les causes profondes et mettent à l'échelle leurs capacités. maturité opérationnelle au sein des équipes techniques afin qu'elles puissent travailler de manière plus cohérente et efficace.

Avec Variables d'orchestration d'événements Les équipes peuvent ainsi créer des automatisations intelligentes qui s'intègrent parfaitement aux autres outils et processus, permettant une réponse aux incidents plus ciblée et standardisée à l'échelle de l'organisation. Cette nouvelle fonctionnalité d'orchestration d'événements vous aide à tirer des enseignements des incidents passés et à prévenir leur récurrence. Il en résulte une approche plus proactive des opérations, avec des résultats évolutifs et reproductibles qui profitent à l'ensemble de l'écosystème technologique.

Global Orchestration

Passons en revue quatre façons dont vous pouvez utiliser cette nouvelle fonctionnalité dès aujourd'hui.

1. Automatisation de la gestion des incidents majeurs

La plupart des organisations gèrent les incidents majeurs différemment des incidents de moindre priorité. Un incident majeur peut nécessiter des procédures d'escalade, des flux de travail et des processus internes spécifiques. Par conséquent, l'automatisation lors d'incidents majeurs est souvent plus personnalisée.

Grâce aux variables d'orchestration d'événements, les équipes peuvent désormais anticiper les incidents majeurs et moduler leur gestion par l'automatisation. Par exemple, il est possible de définir un seuil d'événements déclenchant les processus appropriés si les critères d'un incident majeur correspondent à ceux définis. L'orchestration d'événements ne traite pas chaque événement comme une instance unique et distincte. Elle utilise plutôt l'historique des événements comme base pour prendre des décisions éclairées sur l'état du système au fil du temps.

Event Orchestration variables

Cette nouvelle approche diffère des méthodes traditionnelles de déclenchement automatisé des incidents majeurs. Plutôt que de considérer un événement isolé comme un indicateur d'incident majeur, elle permet d'évaluer plus précisément l'état du système en analysant les événements récents et en comparant les circonstances actuelles aux incidents majeurs précédents.

2. Automatisation réactive

De nombreuses organisations s'appuient sur des diagnostics automatisés ou des solutions de remédiation automatiques pour faciliter l'intervention des équipes de réponse. Cependant, l'automatisation n'est pas consciente d'elle-même. Elle ignore les analyses déjà effectuées sur des événements récents. Par conséquent, elle tente souvent de s'exécuter plusieurs fois pour des événements similaires sans pour autant apporter de réelles informations ni de solution au problème.

Vous pouvez désormais créer des automatisations qui vérifient si des diagnostics ont été exécutés et modifient les trajectoires d'automatisation en fonction de la réponse. Par exemple, si un diagnostic a été exécuté récemment pour une orchestration d'événements, l'automatisation comprend qu'il est inutile de le relancer et déclenche une séquence d'automatisation supplémentaire, telle qu'une correction automatique.

End to End platform for event-driven automation chart.

Cette automatisation réactive (ou automatisation déclenchant intelligemment d'autres automatisations) offre aux organisations plus de flexibilité et de contrôle sur le moment où l'automatisation se produit et sur la manière de traiter les retours d'information issus de ces séquences.

3. Automatisation dynamique

Les organisations souhaitent automatiser leurs interventions de manière ciblée, en précisant l'application ou l'infrastructure défaillante. Cependant, si l'on ne dispose que d'un seul événement, il est difficile d'identifier la partie de l'infrastructure défaillante et d'adapter l'automatisation en conséquence.

L'orchestration d'événements vous permet d'extraire et de stocker des informations sur les parties de votre pile qui ont rencontré des problèmes, afin d'enrichir ces informations pour une automatisation future permettant un ciblage plus précis.

New Cache Variable

Par exemple, vous pouvez définir une variable qui extrait des données d'une charge utile. Si cette charge utile correspond à une circonstance particulière, comme un événement Kubernetes, vous pouvez renseigner les informations du nœud. Vous pouvez ensuite créer une séquence d'automatisation pour identifier et redémarrer dynamiquement le nœud défaillant.

4. Automatisation autoconfigurable

En cas de dysfonctionnement, une estimation approximative de la cause ne suffit pas. Les intervenants doivent disposer immédiatement des informations de triage pertinentes pour déterminer la cause première et accélérer la résolution du problème.

Dans ces cas-là, les variables permettent aux organisations d'obtenir immédiatement les informations de triage pertinentes et de localiser précisément la défaillance d'un système grâce à une automatisation qui se configure automatiquement tout au long du processus de réponse. Par exemple, lorsqu'un événement est lié à un élément d'infrastructure rencontrant un problème, l'automatisation configure la règle et ajoute des informations contextuelles clés, comme des notes.

Cette nouvelle fonctionnalité rend l'automatisation au sein de PagerDuty plus évolutive et permet d'accéder aux informations le plus rapidement possible. Elle réduit le temps nécessaire non seulement à la résolution des incidents, mais aussi à la création et au déploiement de l'automatisation dans un écosystème technique complexe.

Si vous êtes déjà client PagerDuty AIOps et que vous souhaitez créer des automatisations de ce type, regardez cette vidéo. petit guide pratique ou Démonstration Twitch par Frank Emery, chef de produit principal .

Vous n'êtes pas client de PagerDuty AIOps ? Essayez-le dès aujourd'hui et mettre en place une automatisation événementielle qui vous permettra de réduire la charge de travail et d'améliorer l'efficacité dans toute l'organisation.