Blog

Meilleures pratiques en matière de communication en cas de panne : Équipe d'intervention

par Sam Lewis 7 avril 2015 | 4 min de lecture

blog-outage-com-team

Cet article fait partie d'une série en trois parties sur les bonnes pratiques de communication lors d'incidents critiques. Découvrez comment communiquer en cas de panne. parties prenantes internes et avec clients .

Vous venez de réaliser qu'un problème grave s'est produit et que vous ne pouvez pas le résoudre vous-même. Surtout si vous travaillez au sein d'une entreprise. un environnement DevOps collaboratif Il est préférable de se débrouiller avec un peu d'aide de ses collègues. Bien coordonner la réponse aux incidents entre les experts et les intervenants de première ligne est un facteur clé de succès opérationnel qui distingue les meilleures équipes. Il est donc important de disposer d'un moyen efficace et rapide de donner l'alerte et de veiller à ce que vos échanges soient enregistrés et exploitables.

La première étape pour une communication efficace en cas de panne au sein de votre équipe de réponse aux incidents est de s'assurer que les bonnes personnes sont impliquées. Vous devez mettre en place des processus clairs pour identifier les experts, les contacter et les réunir. Vous devez également disposer d'une équipe dédiée à la communication externe et, si la panne est suffisamment grave, l'impliquer immédiatement afin qu'elle puisse anticiper les problèmes. alerter vos clients. Un système comme PagerDuty peut s'avérer utile sur ces deux points en stockant automatiquement les plannings d'astreinte et les modes de contact préférés des personnes.

Deuxièmement, il est essentiel de comprendre l'importance de la documentation. Au cours d'un incident, l'équipe d'intervention recueillera de nombreuses informations et devra prendre rapidement des décisions quant à la meilleure façon de maîtriser la situation. Documenter immédiatement est crucial pour éviter tout oubli ou omission. Heureusement, des outils et des procédures existent pour faciliter cette démarche.

Parlez au téléphone.

Tout d'abord, il est essentiel d'en discuter. Créez une ligne de conférence fixe ; personne ne devrait perdre de temps à configurer manuellement un pont pour chaque appel. Chaque membre de l'équipe doit connaître les informations de connexion, ou savoir où les trouver. Il est judicieux d'inclure ces informations dans l'événement PagerDuty ou dans la description du service, afin qu'elles soient facilement accessibles en cas de besoin. Pensez également à enregistrer vos conversations si vous souhaitez déboguer votre processus.

Les appels téléphoniques sont parfaits pour les conversations et les discussions en temps réel. Cependant, ils présentent des limites : ils ne fournissent que des données imprécises sur la panne et la répartition des tâches. Aucun compte rendu écrit n'est disponible pour responsabiliser les personnes quant aux décisions prises au cours de la conversation. Comment, dès lors, assurer le suivi de ces échanges ?

Transférez-le vers un client de messagerie instantanée.

La réponse est ChatOps Une conversation simultanée dans un client de messagerie instantanée fournit des données exploitables, consultables et horodatées indiquant qui fait quoi et sur quels services. Pensez également à nommer vos services. Chez PagerDuty, les nôtres portent des noms de divinités grecques. Ainsi, toute notre équipe comprend de quoi nous parlons lorsque nous évoquons Artémis.

Pour faciliter encore davantage la réponse aux incidents, vous pouvez connecter vos outils à votre client de messagerie instantanée. Incidents liés à PagerDuty et utiliser plugins pour personnaliser et optimiser votre service de chat. Par exemple, vous pouvez utiliser un chatbot pour diffuser les mises à jour du serveur, ou vous pouvez avoir Datadog Les graphiques fournissent des analyses directement dans la fenêtre de discussion. Vous pouvez également interagir avec les outils de la discussion, et les bots peuvent effectuer des actions ou prendre en charge des tâches de suivi.

Conservez une trace écrite.

Enregistrez votre historique de conversation dans un CMS ou dans Notes de PagerDuty Ce document peut être cité ultérieurement. Il constitue un excellent outil pédagogique pour tirer des enseignements de la résolution d'un incident et permettre à votre équipe de gagner en efficacité en s'appuyant sur les pratiques passées. De plus, cette discussion horodatée et consultable, précieuse lors de la résolution de l'incident, facilite grandement la rédaction du rapport d'analyse post-mortem.

Un avantage supplémentaire du ChatOps semble évident, mais mérite d'être souligné : la communication écrite est généralement de meilleure qualité que la communication orale. Votre équipe dispose de plus de temps pour structurer ses idées qu'en conférence téléphonique ou en face à face, et elle peut plus facilement se référer aux propos des autres membres de l'équipe au cours de la conversation afin d'élaborer un plan d'action clair.

Apprenez et progressez.

Une communication efficace lors d'un incident facilite grandement la formation des nouveaux membres de l'équipe. Vous n'aurez pas à analyser vos expériences passées pour élaborer un plan d'action futur. manuel d'exploitation Vous rédigez en temps réel des supports de formation et des plans d'action, prêts à l'emploi dès que vous avez terminé de documenter et de résoudre l'incident.

 

Comment votre équipe communique-t-elle les pannes en interne ? Faites-nous part de votre expérience dans les commentaires.

Pour en savoir plus, consultez Meilleures pratiques en matière de communication en cas de panne : clients .

 

eBook_440_220