- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- Les quatre accords de réponse aux incidents
Blog
Les quatre accords de réponse aux incidents
(Cet article de blog est inspiré de la conférence que je donnerai à Conférence DevOps Talks à Melbourne et Conférence DevOps Talks à Auckland . J'espère vous y voir !)
Avez-vous déjà participé à un de ces appels téléphoniques où vous vous hurlez dessus en essayant de résoudre un problème urgent ? Avez-vous vraiment apprécié cette expérience et avez-vous envie de la répéter ?
Je suppose que non.
La résolution des incidents peut être un processus très difficile, mais il existe des moyens de les rendre moins stressants, et le rôle de commandant d’incident est essentiel.

Dans son livre, Les quatre accords , Don Miguel Ruiz présente un code de conduite personnelle basé sur l'ancienne sagesse toltèque qui aide à éliminer les structures et les croyances autolimitantes.
Les quatre accords sont :
- Soyez impeccable avec votre parole
- Ne prenez rien personnellement
- Ne faites pas de suppositions
- Faites toujours de votre mieux
Chacun de ces accords peut nous aider à comprendre une approche plus mature, efficace et humaine de la gestion des incidents au sein de nos organisations. Ils peuvent être exprimés comme une modalité de gestion des incidents. Grâce à eux, il est plus facile de comprendre les approches modernes de résolution efficace des incidents et même de réduire l'épuisement professionnel !
Soyez impeccable avec votre parole
Informer les parties prenantes
Il est essentiel de continuer à impliquer les parties prenantes dans le processus de réponse aux incidents en leur donnant un moyen de rester informées.
Chez PagerDuty, nous avons une salle Slack séparée juste pour mises à jour des incidents C'est moins bruyant que notre salle de réponse principale et les utilisateurs peuvent y obtenir des mises à jour succinctes s'ils le souhaitent, fournies par l'agent de liaison interne (responsable de la surveillance et de la mise à jour du canal). Cela permet aux dirigeants de rester informés et de poser des questions sans affecter la réponse principale.
N'importe qui peut déclencher une réponse aux incidents
Chez PagerDuty, n'importe qui peut déclencher notre processus de réponse aux incidents. Nous le faisons via une commande de chat dans Slack, mais la manière dont vous le mettez en œuvre importe peu. L'important est de disposer d'une méthode pour déclencher votre processus de réponse aux incidents : rapide, simple et accessible à tous. Évitez de perdre du temps à essayer de déterminer si un problème nécessite une réponse, car vous constaterez inévitablement qu'une réponse est nécessaire.
Ne plaidez pas la gravité
Ne discutez pas de la gravité de l'incident pendant l'appel. C'est une perte de temps. Lorsque vous aurez fini de discuter de la gravité de l'incident, il sera définitivement devenu un SEV-2. Bonne pratique : si vous ne parvenez pas à déterminer s'il s'agit d'un SEV-1 ou d'un SEV-2, considérez toujours qu'il s'agit de l'option la plus grave et passez à autre chose.
Ne prenez rien personnellement
Changement d'état d'esprit
Dès qu'un incident survient, l'équipe doit opérer un changement de mentalité ; autrement dit, chacun doit modifier son mode de pensée. C'est peut-être la différence entre « temps de paix et temps de guerre » ou « normal et urgence ». Ce qui est inacceptable au quotidien devient acceptable en situation d'urgence.
Cela signifie que lors d'un incident, beaucoup de choses changent. Et l'une d'elles concerne la façon dont vous communiquez. Cela ne signifie pas que vous devez vous maltraiter mutuellement. Mais vous devez vous concentrer sur votre objectif : gérer la situation de manière à limiter les dégâts et à réduire le temps et les coûts de rétablissement.
Le commandant d'incident est la plus haute autorité
Si votre équipe suit un processus de réponse aux incidents similaire à celui de PagerDuty , quelqu'un sera affecté à un rôle appelé le Commandant d'incident (CI).
L'un des points les plus importants à retenir concernant le CI est qu'il est la plus haute autorité lors d'un appel. Il est la source ultime de vérité lors d'un incident, et aucune action ne doit être entreprise sans son accord. C'est essentiel à une réponse efficace aux incidents, mais cela peut demander un certain temps d'adaptation. Assurez-vous de préparer votre organisation à ce problème avant qu'il ne survienne. Ne le prenez pas personnellement : c'est la fonction de ce poste.
Le commandant d'incident n'est pas un résolveur
Chez PagerDuty, notre processus d'intervention repose sur le Système de commandement des interventions, un modèle national utilisé par les services d'urgence locaux, étatiques et fédéraux. Dans les casernes de pompiers, le commandant des interventions porte un casque blanc pour l'identifier. Un dicton dit que si vous voyez quelqu'un portant un casque blanc prendre une clé à molette, prenez-la et frappez-le sur la tête avec.
Le même concept s'applique à PagerDuty lors d'un incident. (Peut-être sans les attaquer.) Le rôle du responsable de l'incident est de déléguer et de coordonner, et non de résoudre l'incident. Il est crucial que le responsable de l'incident ne se transforme pas en expert en la matière se connectant aux serveurs ou consultant les journaux.
Même si vous ne devez pas attaquer vos IC avec une clé à molette, il est tout de même approprié de leur rappeler parfois qu'ils ne doivent pas tenter directement de résoudre l'incident. Si vous êtes IC et que quelqu'un vous le rappelle, ne le prenez pas personnellement !
Coup de force exécutif
Lors d'un incident, les dirigeants peuvent tenter de prendre le contrôle, ce qui complique la tâche des intervenants. La solution est simple : laissez-les prendre le contrôle. L'intervenant doit demander : « Prenez-vous la relève ? » Si la réponse est positive, tant mieux. La plupart du temps, cependant, ils ne diront rien et l'équipe peut se concentrer sur la résolution de l'incident.
Adopter cette approche peut s'avérer difficile, car tous les membres de la haute direction ne réagiront pas favorablement à un IC de rang supérieur à eux lors de l'appel. C'est pourquoi il est important de préparer la haute direction à l'avance ! Gardez toutefois à l'esprit que même si ce point a été abordé, des ajustements peuvent encore être nécessaires.
Il peut également arriver qu'un responsable exige que l'incident soit résolu « dans les 10 prochaines minutes ». Même si cela peut paraître très démotivant, restez professionnel. Dites : « Nous sommes en train de résoudre un incident. Veuillez limiter vos commentaires à la fin », ou orientez-les vers le canal de communication/agent de liaison approprié.
N'oubliez pas que vos dirigeants ne cherchent pas à aggraver la situation, mais à vous aider. Ne le prenez pas personnellement.
Ne faites pas de suppositions
Le consensus est difficile
Obtenir l'accord d'un large groupe de personnes chargées de la résolution d'un appel peut s'avérer complexe. Il est donc préférable d'optimiser la situation pour la majorité. C'est pourquoi, plutôt que de demander si tout le monde est d'accord sur une action, il est préférable de se demander : « Y a-t-il de fortes objections ? » Cela permet également d'éviter l'effet rétrospectif (« Je savais que ça ne marcherait pas ») et de souligner que nous ne recherchons pas la solution idéale.
Mieux vaut être clair que concis
L'utilisation d'un jargon trop chargé (par exemple, « Mettons l'IC sur le RC et obtenons des BLT pour toutes les PME ») entraîne une surcharge cognitive importante. Cela peut également donner aux nouveaux arrivants un sentiment d'exclusion. Privilégiez une communication claire plutôt que concise.
Attribuer des tâches à une personne spécifique et les limiter dans le temps

Quelques éléments critiques à noter dans la capture d'écran ci-dessus :
- Les tâches sont attribuées à des personnes spécifiques, et non à un groupe.
- Définissez des tâches dans des délais précis afin que le répondant sache quand vous rechercherez une mise à jour et ne soit pas pris au dépourvu.
- Assurez-vous que la tâche est reconnue.
Suivre ces bonnes pratiques permettra d'éviter l'effet « témoin ». N'oubliez pas que lors d'un incident, la phrase « Quelqu'un peut-il… » est fatale.
Faites toujours de votre mieux
Il vaut mieux prendre une mauvaise décision que ne pas en prendre
C'est une affirmation très controversée, mais n'oubliez pas que les règles changent légèrement en cas d'incident. Prendre la mauvaise décision vous apportera plus d'informations, car vous pourrez apprendre de vos erreurs, tandis que ne pas prendre de décision revient à rester bloqué dans une paralysie analytique.
Rassemblez-vous vite, dispersez-vous plus vite
Garder des ressources inutiles sur un appel peut coûter très cher, tant en argent qu'en énergie. Dès que vous n'avez plus besoin d'une personne, encouragez-la à se déconnecter (vous pouvez toujours la rappeler si vous en avez besoin). La présence de personnes en communication qui ne travaillent pas activement sur l'incident est stressante pour celles qui y travaillent activement, car elles savent que de nombreuses personnes sont en ligne et s'impatientent. Gardez les ressources nécessaires, mais n'hésitez pas à les laisser partir.
Les transferts sont encouragés
Les intervenants se fatiguent-ils ? Les CI se fatiguent-ils ? Bien sûr ! Nous sommes tous humains. C'est pourquoi nous encourageons les transferts de responsabilités chez PagerDuty. Transférer les responsabilités à un nouveau CI est très simple : demandez-lui de vous suivre un moment pour se familiariser avec la situation, et informez tout le monde qu'un transfert de responsabilités est en cours. C'est aussi simple que ça.
Autopsies utiles
Que vous l'appeliez une autopsie, un rapport d'incident ou une revue d'apprentissage (ou autre chose), il est essentiel de les effectuer pour chaque incident.
Les autopsies doivent suivre une approche irréprochable , mais il est également essentiel que votre organisation et votre équipe en tirent des leçons. Ne vous contentez pas de remplir le formulaire. Analysez-les. Partagez les témoignages au sein de votre organisation (voire même en dehors de votre équipe). Cela favorise une culture d'apprentissage et contribue à réduire le stress. Les analyses post-mortem « en écriture seule » ne sont d'aucune utilité.
Pour plus de détails sur la façon de mener une excellente autopsie, consultez notre nouveau Guide post-mortem .
Revoyez votre processus
L'amélioration continue est essentielle ! Que vous révisiez votre processus trimestriellement ou annuellement, il est essentiel de le faire pour continuer à progresser. Tirez le meilleur parti de ces évaluations en posant les bonnes questions pour vous assurer que votre processus est adapté à la croissance et à la maturité de votre organisation.
Par exemple, dans une petite organisation, il peut être judicieux d'alerter tout le monde à chaque incident critique (par exemple, si vous ne disposez que d'une poignée d'ingénieurs), puis de licencier les personnes inutiles. Cependant, cette approche n'est pas adaptée à la croissance de l'organisation, et il est important d'adapter le processus. Remettez-vous constamment en question et n'hésitez pas à l'affiner.
Ne pas paniquer
Il est tout à fait naturel de paniquer lors d'un incident majeur. Être réveillé en pleine nuit par une alarme peut être très stressant. Mais quelle que soit votre nervosité et votre anxiété, faites de votre mieux pour ne pas le laisser paraître. La panique est contagieuse, et si vous en présentez les symptômes en tant que membre de l'équipe d'intervention, cela peut également provoquer la panique chez les autres personnes travaillant sur le problème. Cela entravera le processus de résolution de l'incident.
Restez calme, et les autres suivront. Les personnes expérimentées resteront calmes, et cela peut faire la différence entre un incident chaotique et un incident qui se résout en douceur. Alors pas de panique !
Quelles sont les bonnes pratiques de réponse aux incidents de vos équipes ? Partagez-les sur notre Forums communautaires —nous aimerions avoir de vos nouvelles !