- PagerDuty /
- Blog /
- Université PagerDuty /
- Trouver la cause profonde (analyse des causes) en 5 étapes faciles
Blog
Trouver la cause profonde (analyse des causes) en 5 étapes faciles
Quelle est l'une des premières choses à faire lorsqu'un incident vous est attribué via PagerDuty? Si votre premier réflexe a été de « Accuser réception », vous avez raison. Mais ensuite, l'important est de résoudre le problème le plus rapidement possible. sans douleur Dans la mesure du possible. La première étape pour résoudre le problème est d'enquêter sur la cause initiale de l'incident afin de pouvoir y remédier rapidement.
Sur la plateforme PagerDuty , l'analyse des causes profondes* désigne un ensemble de fonctionnalités visant à fournir aux intervenants un maximum de contexte et d'informations exploitables. En faisant remonter les incidents passés et connexes, ainsi que les données relatives à leur fréquence, les intervenants disposent d'outils leur permettant d'appréhender rapidement la situation et de déterminer la cause profonde probable, d'accélérer le triage et, au final, de résoudre l'incident plus rapidement. Les points d'origine probables, basés sur les données historiques, sont également mis en évidence pour enrichir le contexte.
Voici les cinq endroits sur la page des détails de l'incident qui vous aideront à enquêter sur les causes profondes potentielles :
- Incident aberrant
Lors de l'ouverture d'un incident, recherchez les Incident aberrant Étiquette de classification. Cette étiquette se trouve directement sous le nom de l'incident et indique sa classification : « Fréquent », « Rare » ou « Anomalie ». Grâce à cette étiquette, vous pouvez rapidement déterminer si cet incident s'est déjà produit et comment y réagir en fonction de votre expérience. Survolez l'étiquette pour en consulter la définition.
- Incidents passés
Une fois que vous avez déterminé la fréquence à laquelle l'incident s'est produit sur le service, accédez à Incidents passés Faites défiler la page vers le bas. Une carte thermique s'affiche, indiquant la fréquence des incidents similaires à celui-ci au cours des six derniers mois. Observez les couleurs : plus elles sont foncées, plus la concentration d'incidents est élevée. Vous pouvez également survoler les couleurs de la carte thermique pour afficher plus de détails sur les incidents concernés. En dessous, vous trouverez des informations sur les 5 incidents les plus fréquents similaires à celui-ci (le cas échéant), ainsi que leur date et le nom de la personne qui les a modifiés en dernier. Remarque : cette personne serait une ressource précieuse si vous souhaitez lui poser des questions sur ses actions ou consulter ses notes concernant l'incident ! Pour accéder à la page de détails d'un incident, cliquez sur son titre (lien hypertexte).
- Incidents connexes
Une autre source d'information rapide est la Incidents connexes L'onglet « Incidents passés » vous permet de voir s'il existe des incidents en cours, tous services confondus, susceptibles d'être liés à votre problème. Contrairement à cet onglet, qui n'affiche que les incidents similaires du même service, l'historique des incidents vous aide à comprendre l'ampleur de l'incident au sein de l'entreprise (est-ce un incident isolé ou fait-il partie d'un problème plus vaste ?). Cela vous permettra d'en évaluer l'impact et d'identifier rapidement les personnes avec lesquelles collaborer pour résoudre le problème.
- Origines probables
Démarrez vos efforts de triage avec le Origines probables Ce widget, situé sur la page de détails de l'incident, calcule le pourcentage d'origine probable en fonction de données historiques, notamment si l'incident s'est produit juste avant ou après un événement similaire à l'incident en cours.
- Corrélation du changement
Enfin, la résolution peut être grandement accélérée si vous êtes informé de toute modification apportée à votre infrastructure ou à votre code susceptible d'avoir provoqué l'incident. Corrélation du changement L'onglet « Modifications récentes » de la page de détails de l'incident présente les trois événements les plus pertinents, classés par date, services associés ou grâce à l'apprentissage automatique de PagerDuty. Ces événements indiquent pourquoi la plateforme les a signalés, facilitant ainsi l'identification des causes potentielles.
Test de connaissances ! Vrai ou faux : Le L'onglet « Incidents passés » affiche les incidents résolus du même service, tandis que l'onglet « Incidents associés » n'affiche que les incidents ouverts sur d'autres services. (Voir la réponse en bas de page.)
Comment vous en êtes-vous sorti ? N'oubliez pas que ce sont cinq endroits où vous pouvez chercher pour obtenir rapidement le contexte et démarrer vos efforts de triage.
Pour résoudre les incidents plus rapidement et réduire davantage les temps d'arrêt, combinez ces fonctionnalités d'analyse des causes profondes avec les capacités de réduction du bruit et d'orchestration des événements. Si vous souhaitez vous perfectionner, suivez les formations Event Intelligence de PagerDuty University et démontrez votre capacité à travailler plus efficacement en obtenant la certification Event Intelligence !
Ressources pour les prochaines étapes :
Cours d'analyse événementielle Vous pouvez la trouver sur le portail d'apprentissage en ligne de l'université PagerDuty .
- Réduction du bruit
- Orchestration d'événements
- Analyse des causes profondes
Les informations concernant l'examen de certification Event Intelligence sont disponibles sur cette page Sous la rubrique « Certification de produits spécialisés ». Pour célébrer le lancement de cette nouvelle série, nous offrons l'inscription gratuite à l'examen pendant 30 jours, alors inscrivez-vous dès maintenant !
*Note de bas de page : Bien que nous désignions cette catégorie de fonctionnalités sous le nom d’analyse des causes profondes, PagerDuty ne prédit ni n’identifie la cause première. Nos fonctionnalités permettent plutôt de contextualiser les incidents afin d’accélérer leur résolution. Il convient également de noter que le secteur privilégie désormais le terme de cause probable ou immédiate plutôt que de suggérer l’existence d’une unique et véritable « cause profonde ».
Réponse au test de connaissances : Faux. Bien que l’affirmation selon laquelle la section « Incidents passés » n’affiche que les incidents résolus du passé qui concernaient le même service soit correcte, la section « Incidents associés » examine les autres incidents actifs (ouverts et récemment résolus) sur TOUS les services (y compris celui sur lequel se trouve votre incident actuel) afin de déterminer si des incidents sont liés à votre incident actuel.