- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- Autopsies irréprochables : stratégies de réussite
Blog
Autopsies irréprochables : stratégies de réussite
Lorsqu'un problème survient, il est essentiel d'identifier le « quoi » sans se soucier du « qui » pour comprendre les défaillances. Deux responsables d'ingénierie partagent leurs stratégies pour réaliser des analyses rétrospectives sans reproche.
L'échec est inévitable dans les systèmes complexes. Bien qu'il soit tentant de trouver un seul coupable, selon Sidney Dekker Ces défaillances résultent généralement de problèmes de conception plus vastes dans nos systèmes. La bonne nouvelle est que nous pouvons concevoir des systèmes pour réduire le risque d'erreurs humaines, mais pour cela, nous devons examiner les nombreux facteurs contribuant aux défaillances, tant systémiques qu'humaines. Autopsies irréprochables , dont l'objectif n'est pas de déterminer qui a commis une erreur, mais comment elle a été commise, sont un outil précieux. Bien que la mise en œuvre d'un tel outil ne soit pas une tâche facile, l'effort en vaut la peine. Deux responsables de l'ingénierie décrivent ici certains défis et expliquent comment ils réussissent des analyses post-mortem sans reproche.
Commencez avec le bon état d'esprit
Votre attitude lors de la discussion est essentielle et donne le ton. « Vous ignorez la partie 'cette personne a fait ça' », explique Arup Chakrabarti, responsable de l'ingénierie PagerDuty . « Ce qui compte avant tout, c'est l'impact client, et c'est sur cela que vous vous concentrez. »
Mike Panchenko, directeur technique chez Opsmatic, explique que cette approche repose sur le principe que personne ne veut commettre d'erreur. « Tout le monde doit partir du principe que chacun travaille pour faire du bon travail », explique-t-il. « Si quelqu'un a fait quelque chose de mal, ce n'est pas une question de caractère ou d'engagement, c'est simplement que les ordinateurs sont complexes et qu'on peut souvent tout casser. »
N'ayez pas peur de l'échec
Parce que ça va arriver. « Je dis toujours à mon équipe que s'ils ne commettent pas d'erreurs de temps en temps, c'est probablement qu'ils n'avancent pas assez vite », explique Chakrabarti. « L'important, c'est d'apprendre de ses erreurs le plus vite possible, de les corriger rapidement et de continuer à avancer. »
Étouffez la culpabilisation dans l'œuf
Il n'y a pas de raccourci. « Il faut être très ouvert et dire : 'Hé, je ne tolérerai pas que la personne A blâme la personne B', explique Chakrabarti. « Il faut le dire immédiatement, ce qui est gênant. Mais il faut le faire, sinon cela donne carte blanche à celui qui le fait. »
Panchenko est d'accord : « Je suis quelqu'un de plutôt direct, donc quand je vois ça se produire, je dis immédiatement : 'arrête de faire ça'. »
Cela vaut également pour l’incitation au blâme.
« On a naturellement tendance à se blâmer », explique Panchenko. « Mais souvent, c'est la goutte d'eau qui fait déborder le vase. » Il décrit une panne récente où plusieurs nœuds ont été redémarrés à cause d'un bug dans une bibliothèque d'automatisation. Ce bug a été déclenché par la réapparition d'une recette Chef, obsolète depuis longtemps, dans la liste d'exécution. Cette recette a ensuite été réintégrée à la liste d'exécution suite à un malentendu sur l'utilité d'un fichier de rôle laissé en suspens après une autre migration/obsolescence. Le développement de ce projet a pris plus d'un mois. « Quiconque exécuterait cette commande allait tomber sur une mine », dit-il, « et généralement, celui qui frappe la touche fatale s'attend à être blâmé. Amener les gens à se détendre et à accepter que le but de l'analyse rétrospective n'est pas de déterminer qui sera licencié pour la panne est mon plus grand défi. »
Gérez les problèmes de performances en cours ultérieurement
Il est naturel d'appréhender de partager des situations qui ne se sont pas bien déroulées lorsque votre performance professionnelle ou votre crédibilité sont en jeu. L'astuce consiste à distinguer les problèmes de performance récurrents des « échecs » dus à des lacunes dans vos processus ou votre conception.
Panchenko est attentif au type d'erreur commise. « Dès qu'on constate une défaillance d'un certain type, il faut mettre en place un système de surveillance ou des mesures de protection », explique-t-il. « Dans ce cas, le principal risque de devenir une mauvaise personne est de ne pas suivre le processus. C'est donc ce que je recherche : avons-nous un processus en place pour éviter les erreurs ? Ces erreurs surviennent-elles parce que le processus est contourné, ou le processus doit-il être amélioré ? »
Et parfois, oui, il faut licencier. « J'ai connu des situations où une même personne répétait la même erreur, et il fallait l'accompagner et lui donner la possibilité de la corriger », explique Chakrabarti. « Mais après un certain temps, il faut agir. »
Obtenir l'adhésion de la direction
Arup et Mike s'accordent tous deux à dire qu'un post-mortem irréprochable ne fonctionnera pas sans le soutien de la haute direction. « Il faut obtenir le soutien de la direction », explique Chakrabarti, « et si je dis cela, c'est parce que les post-mortem irréprochables demandent plus de travail. Il est très facile d'entrer dans une pièce et de dire : 'C'est Dave qui a fait le coup, on le vire et on a réglé le problème.' » Au lieu de cela, vous dites aux dirigeants que non seulement un membre de votre équipe a provoqué une panne coûteuse, mais qu'il va aussi participer à sa résolution. « Presque tous les dirigeants seront très préoccupés par cela », dit-il.
« Ce qui est absolument vrai, c'est que le ton doit être donné au sommet », affirme Panchenko. « Et ce ton doit aller au-delà des simples analyses rétrospectives. »
Avez-vous mené ou participé à des autopsies sans reproche ? Nous aimerions en savoir plus sur vos expériences ! Laissez-nous vos commentaires ci-dessous !