Maîtriser la réponse aux incidents : tout repose sur les améliorations itératives
Récemment, j'ai préparé du matériel de formation pour notre prochain cours sur « « Prendre en charge la réponse aux incidents » à Université PagerDuty J'ai écouté les enregistrements des appels d'incident couvrant de nombreuses années d'histoire de PagerDuty . Après plusieurs heures à entendre mes collègues en vitesse x2, deux observations m'ont amené à faire : premièrement, je devrais retrouver mon exemplaire de… Noël avec les Chipmunks Deuxièmement, l'évolution de nos processus de gestion des incidents a nécessité du temps, des efforts et de la concentration. Toute entreprise, quelle que soit la taille de ses équipes et de son infrastructure, peut mettre en place un système performant. processus de réponse aux incidents Mais cela ne se produit pas par hasard, et cela ne se fait pas du jour au lendemain.
Il y a de nombreuses années, PagerDuty utilisait en interne une méthode simple, mais fastidieuse : « envoyer un message d’alerte générique à tout le monde et les faire participer à une conférence téléphonique ». Cela engendrait un véritable chaos, même avec des équipes d’exploitation expérimentées. Les tâches étaient effectuées sans coordination, l’impact sur les clients était souvent mal compris, etc.
L'une des premières choses que nous avons choisi d'améliorer a été de peaufiner le langage utilisé lors des appels, que ce soit pour fournir des informations ou formuler une demande. Nous avons pris le temps de définir un vocabulaire commun, avec des expressions comme « Existe-t-il une objection majeure ? À partir de là, nous avons commencé à réduire le temps de réponse aux incidents et à diminuer la durée d'impact sur nos clients.
Ensuite, une autre amélioration majeure est survenue lorsque nous avons commencé à utiliser Rôles de type système de commandement des incidents . S’entendre à l’avance sur les personnes qui prendraient en charge le problème (experts en la matière) et celles qui géreraient le processus de gestion de l’incident lui-même (responsables des incidents et personnes concernées).
Cela nous a également permis de limiter la réponse initiale aux seuls ingénieurs qui devaient participer à l'appel. Fini le temps de la confusion et des personnes qui rejoignaient la conférence en demandant simplement « Qu'est-ce qui ne va pas ? ». Au fil du temps, nous avons développé nos propres solutions de contournement pour anti-modèles dans la réponse aux incidents , par exemple en excluant de la réunion les personnes perturbatrices et non productives, même s'il s'agit du PDG.
Une grande partie des informations relatives aux « opérations » ou à la « fiabilité des sites » se transmet par le biais de connaissances tribales, ou narration orale Mettre en place un processus de réponse aux incidents efficace, complet et humain ne devrait pas être si difficile. Les entreprises ne devraient pas avoir à élaborer seules chaque aspect d'une réponse optimale aux incidents, mais pour une amélioration globale, il est essentiel que chacun s'y intéresse.