- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Autopsies et plus avec J. Paul Reed
Blog
Autopsies et plus avec J. Paul Reed
PagerDuty s'est entretenu avec J. Paul Reed, ingénieur senior en résilience appliquée chez Netflix, pour un Ask Me Anything (AMA) afin de discuter des meilleures pratiques en matière d'autopsies.
Reed est un éminent conférencier et défenseur de DevOps et de la complexité opérationnelle. Il possède plus de 15 ans d'expérience en ingénierie des versions. Son expérience dans le secteur des technologies, ainsi que ses expériences passées au sein d'entreprises comme Mozilla et VMware, lui confèrent une perspective unique sur le fonctionnement interne des organisations innovantes.
Grâce aux questions et suggestions soumises par la communauté PagerDuty , Reed a abordé des sujets allant des post-mortems irréprochables et de leur impact sur les SLA, à l'importance du suivi et aux avantages de la maintenance par rapport au remplacement. Dans cet article, nous examinerons de plus près les réponses de Reed concernant les bonnes pratiques en matière de post-mortem et les étapes à suivre pour en mener un avec succès.
Garder une autopsie irréprochable
Un post-mortem sans reproche se concentre sur la manière dont un incident a été déclenché plutôt que sur son auteur. Un post-mortem véritablement sans reproche permet aux membres de l'équipe d'être honnêtes face à une situation sans crainte de sanctions. En leur offrant un espace sécurisé pour discuter ouvertement d'un incident, les employés se sentiront également plus à l'aise pour réfléchir à des solutions et éviter qu'un incident similaire ne se reproduise.
Mais il ne suffit pas d’être irréprochable : il est également important d’être conscient des reproches. Être conscient de nos préjugés signifie que nous sommes conscients de nos préjugés et de la manière dont ils peuvent affecter notre capacité à considérer un incident de manière impartiale.
Selon Reed, beaucoup de gens ont tendance à penser de manière linéaire, où une chose doit être la cause directe d'une autre, et cette dernière est directement cause d'une autre, et ainsi de suite. Ce mode de pensée peut être préjudiciable, car, lorsqu'il s'agit de programmes et d'intégrations complexes, ce n'est pas toujours le cas.
Les préjugés tendent à renforcer cette pensée linéaire sans tenir compte des circonstances. Heureusement, les managers et les supérieurs hiérarchiques sont toujours là pour aider, n'est-ce pas ? Eh bien, oui, mais ils ont leurs propres préjugés inconscients et, par conséquent, peuvent adopter une pensée linéaire sans le savoir.
Les managers ont la tâche délicate de rester conscients des responsabilités et de veiller à ce que l'après-mortem reste exempt de tout reproche. Ils doivent également corriger un employé s'il agit selon ses préjugés et transformer cet incident en un moment d'apprentissage. Cela peut s'avérer difficile, et la meilleure façon de gérer ce genre de situations, surtout lorsqu'il s'agit de favoriser un environnement exempt de reproches, est d'instaurer un climat de confiance au sein de l'équipe afin que chacun se sente à l'aise pour discuter des incidents et des erreurs personnelles.
Une grande confiance au sein des équipes favorise un sentiment de confort et d'honnêteté, offrant à chacun un environnement sûr où il peut faire face aux échecs et en tirer des leçons. À terme, cela favorisera l'efficacité des flux de travail et réduira le stress sur les projets de l'organisation.
À retenir : Afin de garantir un environnement conscient et sans reproche, demandez à toute l’équipe de travailler à l’instauration de la confiance et de s’exercer à être consciente des préjugés, ce qui contribuera à favoriser une culture sans reproche.
Amélioration et travail d'équipe
L'un des principaux objectifs d'un post-mortem est l'amélioration continue et l'optimisation des processus existants. Ceci est particulièrement important aujourd'hui, où de nombreuses grandes organisations fonctionnent sur une base continue. HybridOps modèle et souhaitent à la fois utiliser et améliorer ce qu'ils ont déjà, en plus de mettre en œuvre des fonctionnalités d'état d'exécution remaniées.
De nombreuses équipes privilégient une approche « démolition complète » des systèmes, car cela paraît plus simple. Cependant, si la maintenance d'un système existant et la mise en œuvre simultanée d'un nouveau système peuvent sembler fastidieuses, elles présentent également l'avantage d'améliorer et de perfectionner une fonctionnalité. Reed explique qu'en continuant à travailler avec un système donné, les employés développent une « connaissance tribale » à son sujet. Ainsi, lorsqu'ils rencontrent des incidents lors de leurs permanences, ils sont mieux armés pour les gérer, ce qui permet de trouver des solutions plus rapidement.
À retenir : Les post-mortems sont axés sur l'amélioration et le travail d'équipe. Si une entreprise remplace constamment ses systèmes au lieu de les maintenir, il devient difficile de constituer une base de connaissances commune sur les fonctionnalités actuelles.
Suivi des suivis
Des tâches de suivi doivent être assignées lors d’une autopsie afin de garantir que des améliorations sont apportées après l’autopsie.
Pour y parvenir, Reed recommande qu'à la fin d'un post-mortem, chaque personne note sur un post-it les trois tâches de suivi qu'elle juge les plus importantes. Une fois terminées, les notes sont compilées et l'équipe vote pour les classer par ordre d'importance et de probabilité de réalisation.
L'équipe sélectionne ensuite les cinq premières actions et se concentre sur leur réalisation. Au bout de six semaines, l'équipe se réunit à nouveau pour faire le point sur les tâches réalisées et leur date d'achèvement.
À retenir : Réaliser tous les suivis après un post-mortem peut être une source de satisfaction et procurer à chacun un sentiment d'accomplissement, mais il n'est pas toujours possible ni réaliste de s'attaquer à toutes les tâches souhaitées par chacun. Il est préférable de fixer des objectifs modestes et réalistes pour l'équipe et de restreindre les actions de suivi post-mortem.
Avantages d'une autopsie rapide
Selon Reed, effectuer une autopsie plus de 72 heures après un incident la rend caduque. Les biais cognitifs ont tendance à s'installer après ce délai, ce qui rend difficile une autopsie irréprochable et conduit à des données médiocres. Le biais rétrospectif et de récence rend particulièrement difficile la réalisation d'une autopsie réussie après de longues périodes, car ces biais font oublier ce que l'on pensait au moment de l'incident. De plus, la mémoire a tendance à s'estomper avec le temps, de sorte qu'un délai trop long entre un incident et l'autopsie peut conduire à des résultats basés sur une narration peu fiable.
À retenir : Effectuez une autopsie dès que possible, idéalement dans les 72 heures suivant un incident.
Conclusion
Des analyses post-mortem irréprochables favorisent une culture de connaissance, de compréhension et de productivité. Comme le souligne Reed, les analyses post-mortem sont plus que de simples réunions pour discuter des problèmes rencontrés : elles sont révélatrices de l'environnement dans lequel évolue une entreprise.
Envie d'en savoir plus ? Regardez l'AMA complet ici ou consultez notre Guide des opérations post-mortem .