Comment réduire le bruit, résoudre les problèmes plus rapidement et automatiser plus souvent avec PagerDuty
Quand nous avons demandé comment se sentent les dirigeants technologiques Face à la pression accrue sur les services numériques, les entreprises ont indiqué, sans surprise, que leurs investissements dans le numérique ont augmenté. En effet, 72 % d'entre elles intensifient leurs efforts de transformation numérique. Toutefois, si les dirigeants s'intéressent à l'AIOps et à l'automatisation pour aider leurs équipes, l'approche à adopter et la manière dont cette technologie peut être appliquée pour résoudre les problèmes actuels de leurs équipes restent parfois floues.
PagerDuty AIOps offre aux entreprises un levier stratégique et facile à utiliser pour leur transformation numérique. En transformant l'action en informations exploitables, elle permet de maintenir la productivité des équipes et la satisfaction client. Dans cet article, je vous présenterai PagerDuty AIOps, les principaux problèmes que nous aidons nos clients à résoudre et comment notre solution contribue à leur réussite. fonctionnalités récemment lancées Nous permettons plus que jamais à nos clients de tirer parti de nos informations uniques pour passer à l'action, réduire le nombre d'incidents et accélérer leur résolution.
Si vous vous dites : « Attendez, je croyais que PagerDuty ne proposait que des astreintes… depuis quand PagerDuty propose-t-il une solution AIOps ? », ce blog vous apportera toutes les réponses.
Aperçu rapide de la solution AIOps de PagerDuty
Commençons par un bref aperçu de l'AIOps et rappelons-nous pourquoi on se tourne vers l'AIOps et l'automatisation. Les équipes techniques sont constamment perturbées par des erreurs système. La complexité excessive ralentit la résolution des incidents. Enfin, la charge de travail manuelle trop importante engendre l'épuisement professionnel.
La solution AIOps de PagerDuty répond aux principaux défis en aidant les équipes :
- Réduisez le bruit pour éviter la fatigue liée aux alertes. Nous disposons d'un ensemble de fonctionnalités conçues pour réduire le bruit afin que les intervenants ne soient pas distraits par des alertes inutiles et puissent se concentrer sur le signal.
- Offrir une connaissance de la situation pour une résolution plus rapide. Nous disposons d'un ensemble de fonctionnalités permettant de faire émerger et de corréler les informations pertinentes afin d'aider les intervenants à s'orienter dans et autour d'un incident, de décider des prochaines étapes et de parvenir à une résolution.
- Automatisez autant que possible en toute sécurité. Grâce à l'automatisation des processus PagerDuty et aux fonctionnalités AIOps natives telles que l'orchestration d'événements, nous aidons les employés à s'appuyer sur l'automatisation pour prendre en charge les tâches manuelles répétitives afin qu'ils puissent se concentrer sur un travail qui compte.
En commençant par la réduction du bruit
PagerDuty a commencé par intégrer la réduction du bruit à la gestion des incidents de base lors de son lancement. Renseignements sur les événements dans ses premières versions il y a quelques années. Nous en sommes maintenant offrant jusqu'à 98 % de réduction du bruit pour les clients – en leur offrant un large éventail d'options en fonction de la façon dont ils souhaitent régler le son et de ce qui leur convient.
Encadré : Si vous vous demandez souvent comment régler le système pour ne laisser passer que les signaux pertinents et bloquer tout le reste, Leeor Engel, l’un de nos responsables d’ingénierie, explique en détail les subtilités de ce sujet. dans ce webinaire .
Certaines équipes se contentent d'un regroupement des alertes basé sur le temps, tandis que d'autres prennent le temps de s'entraîner. Groupement intelligent des alertes La machine apprend donc à regrouper les informations et à rechercher des schémas pour gérer cela à votre place. D'autres équipes encore sont exaspérées par des alertes intempestives et souhaitent simplement les éliminer ; nous proposons une fonctionnalité appelée Suspendre les notifications d'incidents pour répondre précisément à ce cas d'utilisation, proposer un réglage de pause manuelle. Nous venons de lancer une nouvelle fonctionnalité Suspendre automatiquement les notifications d'incident qui vous proposera même de désactiver ces alertes grâce à notre système d'apprentissage automatique !
Pour les équipes qui souhaitent un contrôle encore plus précis de leurs paramètres de réduction du bruit, Orchestration d'événements Il est possible de configurer le routage des événements en fonction de conditions et de règles imbriquées spécifiques. Cela permet d'éviter encore davantage les interruptions inutiles.
Nous étendons l'analyse aux causes profondes pour aider nos clients à résoudre leurs problèmes plus rapidement.
Au final, pour aider nos clients à résoudre les incidents plus rapidement, nous devions développer des fonctionnalités permettant d'effectuer une analyse des causes profondes, car le dépannage est l'une des étapes les plus chronophages du cycle de vie de la réponse aux incidents.
Incidents passés et Incidents connexes Des ressources ont été mises à la disposition des intervenants pour examiner comment d'autres membres de l'équipe ont pu résoudre des problèmes similaires par le passé. L'accélération dans ce domaine a réellement commencé lorsque PagerDuty a commencé à intégrer ces ressources. Événements de changement Il y a un an. Depuis, nous avons continué à développer cet ensemble de fonctionnalités pour mieux contextualiser les changements liés aux incidents et aider nos utilisateurs à avoir une vision globale de la situation lorsqu'ils sont au cœur de l'action. Quand on y pense… 70 % de tous les incidents Si un changement quelconque est à l'origine du problème, le suivi de tous les événements de changement et de leur contexte (qui, quoi et quand) facilite le choix du prochain changement à effectuer.
L'étape suivante consistait à introduire Corrélation du changement Cette fonctionnalité permet aux intervenants d'identifier les événements de changement récents les plus pertinents pour un incident, leur faisant ainsi gagner un temps précieux lors du triage et facilitant l'identification des causes profondes potentielles. Depuis août, les événements de changement et leur corrélation sont disponibles sur notre application mobile, permettant aux intervenants de trier rapidement les incidents et de réduire le délai de résolution, où qu'ils soient.
Il est souvent difficile de déterminer avec précision la cause première, car les systèmes étant devenus plus complexes et interconnectés, il est de plus en plus rare d'en identifier une seule. En réalité, l'expression « cause première » ne signifie même pas nécessairement que la « racine » présentait un dysfonctionnement ; elle indique simplement que la complexité de cet état particulier a engendré un problème. L'ensemble du processus consiste à identifier, parmi plusieurs pistes potentielles, les éléments à examiner, puis à approfondir l'analyse pour déterminer les corrections à apporter en amont afin de résoudre l'incident. Les intervenants peuvent désormais tirer parti de ces informations. Origine probable Cette fonctionnalité de la page Détails de l'incident propose une liste des points d'origine probables, permettant aux intervenants de cibler leurs recherches. Combinée aux sections Modifications récentes et Incidents antérieurs/liés, l'Origine probable et les autres fonctionnalités de cette catégorie fournissent des conseils utiles pour une résolution plus rapide, permettant ainsi aux intervenants de reprendre leurs activités (ou de se reposer).
Automatisation des processus sur PagerDuty et plus d'automatisation partout
Nombre de dirigeants s'enthousiasment pour l'idée d'incidents qui s'auto-réparent grâce à l'automatisation. Mais lorsqu'on leur demande précisément quels types d'incidents ils souhaiteraient voir résolus automatiquement, la réponse favorite de tout ingénieur est toujours la même : « ça dépend ». Ces dépendances incluent le niveau de maturité global de l'équipe en matière d'automatisation opérationnelle, la compréhension du problème et de sa résolution, l'impact du processus automatisé à exécuter et la maturité du service logiciel lui-même. PagerDuty prend en charge à la fois la résolution automatisée déclenchée par un humain pour les incidents nécessitant encore une évaluation humaine, et l'automatisation déclenchée par le système pour les situations bien comprises.
Annoncé pour la première fois lors du PagerDuty Summit, Actions d'automatisation , La nouvelle fonctionnalité, désormais disponible pour tous, intègre l'automatisation du diagnostic et de la résolution des problèmes au flux de travail de réponse aux incidents de PagerDuty . Elle offre aux ingénieurs une interface conviviale pour concevoir et diffuser des automatisations aux équipes de première ligne, leur permettant ainsi de déléguer en toute sécurité des tâches qui nécessitaient auparavant l'intervention d'ingénieurs plus spécialisés. Désormais, pour les situations exigeant une expertise humaine, les intervenants peuvent exécuter en toute sécurité des commandes de diagnostic à faible impact sur les services impliqués dans un incident afin d'en déterminer la cause probable. Ils peuvent également lancer des actions correctives lorsque les ingénieurs jugent opportun de diffuser ces automatisations de réparation aux équipes de première ligne.
Ce travail s'est déroulé en parallèle avec le développement de Orchestration d'événements L'orchestration d'événements est un puissant moteur de décision qui introduit une logique personnalisée et des règles imbriquées pour déclencher des actions, notamment des actions automatisées via des webhooks. Elle permet ainsi de définir des règles moins nombreuses mais plus complexes pour guider l'enrichissement, la modification et le routage des événements à grande échelle, afin de déterminer la meilleure action à entreprendre. Nous recevons déjà d'excellents retours de clients qui souhaitent utiliser cette fonctionnalité avant et après l'intervention humaine pour réduire les perturbations avant qu'elles ne deviennent des interruptions, et pour acheminer ou déclencher des actions afin de faciliter la résolution des problèmes lorsqu'une intervention humaine est requise. Début 2024, il sera possible de connecter l'orchestration d'événements aux actions automatisées pour déclencher des diagnostics introspectifs, voire une automatisation corrective pour les problèmes bien identifiés.
La différence PagerDuty
Nous avons parcouru un long chemin depuis le lancement d'Event Intelligence il y a quelques années, avec ses fonctionnalités de réduction du bruit. La solution AIOps de PagerDuty offre une solution véritablement différenciée, avec une fonctionnalité complète de bout en bout, de l'ingestion des événements à la résolution des incidents, grâce à la réduction intégrée du bruit, l'analyse des causes profondes et l'automatisation, le tout sur une plateforme unique et indépendante du domaine.
J'espère que ce blog a mis en lumière certaines des façons dont nous avons continuellement investi pour que PagerDuty puisse contribuer à résoudre les problèmes liés à l'AIOps dès maintenant :
- Nous aidons les équipes à prendre de meilleures décisions, fondées sur les données. Parce que notre solution est facile à mettre en œuvre, offre un retour sur investissement rapide et ne nécessite aucun data scientist. Nous y parvenons en fournissant des informations détaillées sur les services, les intervenants, les incidents, la surveillance, etc., permettant ainsi aux équipes de prendre de meilleures décisions opérationnelles sans avoir besoin d'être expertes de la plateforme. Immédiatement, les équipes peuvent tirer parti des algorithmes d'apprentissage automatique et de science des données que nous avons développés à partir de notre ensemble de données unique pour bénéficier d'une réduction du bruit, d'une identification plus rapide des causes profondes et d'une automatisation accrue.
- Nous démocratisons la plateforme pour offrir des opérations en libre-service avec une configuration décentralisée adaptée aux équipes distribuées et aux modèles opérationnels hybrides. Qu'il s'agisse de fournir aux équipes informatiques centrales un bouton facile à utiliser pour déclencher des diagnostics et une correction automatique, ou aux équipes DevOps « Vous le construisez, vous le possédez » une méthode simplifiée pour résoudre les problèmes à la source, l'offre AIOps de PagerDuty s'intègre parfaitement à toute pile technologique grâce à plus de 600 partenaires d'intégration.
- Nous nous efforçons de prendre la meilleure décision possible tout au long du cycle de vie de la réponse aux incidents, grâce à une automatisation intégrée. Nous sommes conçus pour les tâches critiques – qu’il s’agisse d’orchestration d’événements pour réduire le traitement manuel en fournissant moins de règles imbriquées, mais plus intelligentes, de faire apparaître la cause probable et les changements pertinents en fonction des détails de l’incident, ou de tirer parti de Automatisation des processus PagerDuty pour réduire le nombre d'escalades et automatiser la résolution des incidents.
Approfondissez vos recherches
Pour en savoir plus sur PagerDuty AIOps et comment tout cela s'articule, je vous encourage à Regardez ce webinaire Ou, si vous préférez une approche plus pratique, vous pouvez opter pour notre visite du produit .