- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Tirer le meilleur parti de votre post-mortem d'incident
Blog
Tirer le meilleur parti de votre post-mortem d'incident
Que faites-vous après avoir vécu un incident et effectué une autopsie (ou post-mortem) ? Cela peut paraître une question simple, voire une non-question ; après tout, il est facile de considérer l'autopsie comme la dernière étape de la gestion d'un incident.
Mais ce n'est pas le cas. À bien des égards, ce que vous faire En cas d'incident, l'autopsie peut être aussi importante que l'autopsie elle-même. J'explique ci-dessous pourquoi et je propose des conseils sur la marche à suivre une fois l'autopsie terminée.
Pourquoi des autopsies ?
Avant d’examiner cette question de plus près, nous devons toutefois examiner une question encore plus fondamentale : Quelle est la fonction d’une autopsie et que doit-elle contenir ?
Une autopsie d’incident remplit les fonctions de base suivantes :
- Il fournit un enregistrement de l'incident, de sa cause et des symptômes associés, de sa résolution et de ses conséquences pour référence ultérieure. Cela peut être important pour la compréhension future des problèmes techniques et la résolution des problèmes juridiques ou administratifs découlant de l'incident.
- Il sert de base à l’analyse et à la résolution des problèmes techniques fondamentaux qui ont donné lieu à l’incident.
- Il fournit un cadre pour comprendre et améliorer la processus de réponse aux incidents .
Pour soutenir ces fonctions de base, une autopsie doit inclure un enregistrement de l'incident, de la réponse apportée et de sa résolution. Elle doit également inclure une analyse de la cause profonde de l’incident, une description de la portée de l’incident et de ses effets, ainsi que toute recommandation appropriée pour résoudre le problème fondamental, améliorer le processus de réponse et/ou atténuer les impacts des incidents futurs.
Comprendre, mais pas blâmer
Il est important de noter qu'une autopsie ne doit pas servir à culpabiliser ou à régler des comptes dans le cadre de la politique interne ou organisationnelle. Si nécessaire, mettez en place un processus distinct (par exemple, une discussion informelle ou modérée au sein du service) pour aborder les questions relatives au personnel, afin d'éviter que l'autopsie elle-même ne sème le trouble dans la recherche de coupables.
L'autopsie doit toutefois inclure une discussion honnête sur tout problème technique ou organisationnel ayant pu contribuer à l'incident ou qui est apparu lors de l'intervention. L'accent doit être mis sur les améliorations technologiques ou du processus d'intervention, plutôt que sur les déficiences des individus ou des équipes, ou de leur travail.
Quand une autopsie est-elle nécessaire ?
Tous les incidents ne nécessitent pas une analyse post-mortem. Il peut s'agir de problèmes opérationnels mineurs, d'incidents dont la cause est bien comprise et la résolution simple, ou encore d'incidents facilement maîtrisés. pas de temps d'arrêt ou la perte de données peut ne pas nécessiter d'autopsie.
Voici quelques exemples de situations pour lesquelles une autopsie est nécessaire :
- L'incident entraîne une perte de données, de productivité ou d'accès client
- L'incident a nécessité un arrêt, un réacheminement, une restauration vers une version antérieure du logiciel et/ou une action prolongée pour être résolu.
- L'incident n'a pas été détecté ou traité correctement par les autorités compétentes. surveillance ou des systèmes d'alerte
- La cause profonde semble être inconnue, inattendue ou suspecte par nature
- Le problème semble impliquer des éléments sous-jacents de l'architecture ou de la technologie de l'application qui peuvent avoir des effets de grande envergure sur le fonctionnement du système.
- Il y a eu de graves problèmes ou des insuffisances dans le processus de réponse ou de résolution.
Les autopsies existent pour faciliter l'apprentissage
Pour qu’une autopsie soit utile, elle doit être lue et comprise par les personnes chargées d’analyser, de résoudre et de prévenir les problèmes à long terme qu’elle décrit.
Cela peut signifier, par exemple, que les équipes ou services concernés par le problème ou sa résolution doivent être tenus de lire le rapport d'analyse et d'engager une discussion dès que possible afin de déterminer les prochaines étapes appropriées. Le processus de diffusion des rapports d'analyse et de vérification de leur lecture et de leur mise en œuvre dépendra bien entendu de la structure et de la philosophie managériale de votre organisation.
Composantes de base d'une autopsie
Il y a trois domaines clés à examiner lors de la rédaction ou de la lecture d’un rapport post-mortem d’incident :
Cause première
Une analyse post-mortem doit toujours contenir une description de la cause profonde, même connue et triviale. Si elle n'est pas triviale, la description doit inclure une analyse de la cause, avec, si possible, une identification précise de la cause réelle du problème et la nécessité éventuelle d'y remédier. Si la cause profonde spécifique ne peut être identifiée avec précision, toute information pouvant permettre son identification ultérieure doit être incluse.
Si, par exemple, lors de la résolution d'un incident, il apparaît que le problème provient d'un module contenant une quantité importante de code hérité, il est important d'inclure ce fait dans l'analyse des causes profondes, même s'il n'est pas possible, lors de l'analyse post-mortem, d'identifier la cause profonde au-delà du niveau du module lui-même. Le simple fait d'identifier du code hérité lié à un incident peut s'avérer utile non seulement pour la résolution de l'incident, mais aussi pour les analyses ultérieures visant à identifier le code à remplacer.
Réponse
L'autopsie doit inclure une description technique complète du processus d'intervention. Elle doit également inclure une description et une analyse de son succès ou de son échec relatif. Cette analyse doit se faire sans pointer du doigt qui que ce soit, mais doit clairement indiquer toute défaillance ou faiblesse apparente du processus d'intervention ou de la manière dont l'intervention a été menée. Cela peut inclure la répartition des responsabilités entre les membres de l'équipe d'intervention, la communication au sein de l'équipe d'intervention ou entre l'équipe d'intervention et les autres parties prenantes de l'entreprise, ainsi que les problèmes liés à des procédures d'intervention spécifiques.
Les défaillances du processus de réponse peuvent être d'ordre technique ou organisationnel. Il peut s'agir de choses aussi simples que l'omission d'informer les services ou les utilisateurs concernés de l'indisponibilité d'un système ou d'une application pendant la résolution du problème. Si deux membres de l'équipe ont effectué la même tâche sans coordination, ou si personne n'a effectué une tâche requise, ce qui a retardé la résolution, il convient de le signaler lors du post-mortem, car cela indique des problèmes potentiels d'organisation ou de communication au sein de l'équipe.
Étendue et contrôle des dommages
L'analyse post-mortem doit inclure une description claire et précise de l'étendue des dommages causés par l'incident, notamment la perte de données, la perte de productivité et les interruptions d'accès des utilisateurs. Il est également important d'inclure une description et une analyse des mesures prises pour limiter ou réparer ces dommages. La gestion des dommages doit être considérée comme un processus distinct de la résolution des incidents techniques. Selon le type d'incident, la nature des dommages et la structure de l'organisation, elle peut relever de la responsabilité du service client ou nécessiter des actions de la part d'autres services de l'entreprise.
Les mesures de contrôle des dommages doivent être intégrées à l'analyse rétrospective, car elles peuvent influencer directement ou indirectement la gestion d'incidents similaires à l'avenir. Si, par exemple, une panne entraîne l'arrêt du système de réservation de vols d'une compagnie aérienne, il peut être nécessaire de mettre en place en priorité un système alternatif de gestion des réservations pendant cette période.
Pas de honte, mais de l'or
Pour tirer le meilleur parti des analyses post-mortem, il est essentiel de comprendre qu'elles constituent une feuille de route pour l'amélioration de votre application, de votre infrastructure et de votre processus de réponse. Chaque analyse post-mortem peut potentiellement améliorer le fonctionnement de votre système et votre gestion des incidents. Plutôt que de considérer les analyses post-mortem comme une source d'embarras ou le signe d'une défaillance, considérez-les comme une précieuse opportunité de les considérer comme une mine d'or.
PageDuty propose une solution entièrement gratuite manuel d'autopsie qui partage les meilleures pratiques de l'industrie et comprend un modèle d'autopsie Utilisez-le pour formaliser votre propre processus d'analyse post-mortem et faciliter au maximum la réponse de votre équipe aux problèmes. Mieux encore, les autopsies font partie de la plateforme PagerDuty — inscrivez-vous à un essai gratuit de 14 jours et rationalisez l'ensemble du processus post-mortem avec la création automatisée de chronologies, l'édition collaborative, des informations exploitables et bien plus encore !