- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Leçons sur la communication distribuée tirées de la réponse aux incidents
Blog
Leçons sur la communication distribuée tirées de la réponse aux incidents
Alors que les cas de nouveau coronavirus (COVID-19) continuent d'augmenter dans le monde, de nombreuses entreprises se tournent de plus en plus vers le télétravail afin de minimiser l'exposition de leurs collaborateurs. Mais même si certaines de ces entreprises ont déjà favorisé le télétravail par le passé, beaucoup peinent actuellement à adapter leurs activités au télétravail.
Alors que de nombreuses entreprises cherchent soudainement à devenir des organisations distribuées du jour au lendemain, nous pouvons tirer de nombreuses leçons en examinant les modèles de réponse aux incidents.
Le passage au travail à distance
Alors que les entreprises adoptent de plus en plus le travail à distance, les personnes qui y travaillent Postes en informatique et en ingénierie ont été à l’avant-garde de ce changement.
Il y a vingt ans, la norme pour les équipes d'ingénierie était de se trouver au même endroit, de disposer d'une salle de serveurs sur site pour leurs applications de production et d'un intranet privé sur lequel tout le travail se déroulait. Les équipes informatiques et d'ingénierie étaient sur place, car en cas d'incident en production, l'équipe d'exploitation déplaçait un chariot d'urgence dans la salle des serveurs pour enquêter, tandis que les équipes de développement et les managers se réunissaient dans une salle de conférence, appelée « salle de crise ». Les incidents majeurs pouvaient avoir un tel impact qu'un manager utilisait son téléphone portable Nextel pour appeler par radio un ingénieur absent ce jour-là et lui demander de se connecter via VPN afin de l'aider à résoudre le problème.
Au cours de la dernière décennie, le passage à l'utilisation d'infrastructures et d'applications cloud a permis aux équipes informatiques et d'ingénierie d'accéder à leurs applications de production partout dans le monde. Aujourd'hui, la norme est que ces équipes travaillent de manière distribuée. Par conséquent, les équipes informatiques et d'ingénierie ont été à l'avant-garde du développement de pratiques efficaces en matière de télétravail.
L'époque des serveurs sur site, des intranets et des centres de crise physiques a généralement été abandonnée dans de nombreuses organisations au profit de solutions plus modernes. L'analyse de l'articulation de ces solutions et de ces flux de travail peut aider toute organisation qui cherche à opérer sa transition vers le travail distribué.
Leçons tirées d'une décennie de gestion des opérations en temps réel
PagerDuty a aidé des milliers d'organisations gérer leurs opérations en temps réel depuis plus d'une décennie Nos vies sont de plus en plus connectées à une expérience numérique, ce qui signifie que le monde est connecté en permanence. Les clients exigent la perfection, et les organisations ne disposent que de quelques secondes, et non d'heures, pour résoudre les problèmes numériques lorsqu'ils surviennent. Gérer efficacement les opérations en temps réel consiste à coordonner les réponses et la communication entre les bonnes personnes, au bon moment, lorsque chaque seconde compte. Cela implique de s'assurer que chaque équipe, chaque membre, chaque service et chaque responsable est impliqué, informé et aligné sur les actions qui se déroulent en temps réel, où qu'il se trouve dans le monde.
PagerDuty est largement reconnu comme un leader en matière de réponse aux incidents Nous avons donc pensé qu'un point de départ évident était d'examiner les leçons que nous pouvons enseigner sur la gestion d'une communication efficace pour les équipes à distance. Chez PagerDuty, nos équipes réagissent aux incidents en utilisant non seulement notre propre plateforme, mais aussi plusieurs autres outils de productivité à distance (chez PagerDuty, nous utilisons Slack et Zoom) pour gérer efficacement le travail en temps réel, où que nos équipes soient situées.
En cas d'incident majeur, nos équipes utilisent la plateforme PagerDuty pour communiquer avec les différentes équipes et contacter les experts compétents, si nécessaire, afin de trouver une solution. La « salle de crise » physique a été remplacée par une plateforme de visioconférence (avec option de connexion de secours, si nécessaire) et un espace de discussion dédié où toutes les communications critiques sont enregistrées.
Plusieurs pratiques de communication sont essentiels lorsque l'on travaille à distance :
- Les canaux de communication informels devraient être remplacés par des canaux de communication formels
- Plutôt que de vous fier aux explications verbales, privilégiez l’écriture et l’enregistrement des connaissances.
- Plutôt que de restreindre l’information en fonction du besoin de savoir, vous devriez privilégier le partage d’informations en interne.
Au lieu d'utiliser un canal de communication ad hoc, nos équipes utilisent un canal de communication bien connu et documenté en cas d'incident. Lorsqu'elles sont sollicitées lors d'un incident, elles devraient déjà savoir quels canaux de communication utiliser. Cependant, si ce n'est pas le cas, la plateforme PagerDuty envoie des notifications contenant des liens intégrés permettant de rejoindre ces canaux en un seul clic.
La gestion des incidents peut être un travail rapide et stressant. Une grande partie de la communication nécessaire à la coordination de ce travail se fait oralement via la passerelle vidéo. Mais pour garantir la consignation écrite et l'enregistrement des informations, chaque appel d'incident est associé à un responsable. Scribe Notre mission consiste à créer une chronologie des événements clés d'un incident en documentant les faits importants et les mesures prises, et en suivant les points à traiter. Notre solution de visioconférence nous permet de créer des transcriptions automatiques de l'appel. Cependant, les notes créées par Scribe constituent une référence rapide pour quiconque souhaite se tenir au courant des événements survenus.
Le Scribe consigne la chronologie dans le canal de discussion dédié. Ainsi, les autres intervenants peuvent rapidement la consulter pour rattraper leur retard lorsqu'ils rejoignent l'appel (en tant qu'intervenants indispensables ou simples observateurs). Les observateurs sont encouragés à rejoindre le canal de discussion dédié ou l'appel vidéo (en mode écoute uniquement) s'ils souhaitent mieux comprendre l'évolution de la situation.
Lors d'un incident, nos équipes envoient généralement des mises à jour aux parties prenantes internes et externes afin de les tenir informées de l'actualité. Les parties prenantes internes comprennent généralement les dirigeants, les chefs d'entreprise, les équipes en contact avec la clientèle, etc., et les parties prenantes externes, généralement les clients. Ces notifications sont gérées par la plateforme PagerDuty . Les décisions ayant conduit à l'envoi de ces notifications, notamment la conclusion d'un accord commun sur le contenu des communications, sont enregistrées dans la chronologie du Scribe, également enregistrée dans le canal de discussion dédié.
Cet équilibre entre communication verbale et enregistrée permet aux équipes dispersées de travailler rapidement et de communiquer efficacement avec l'ensemble de l'organisation. L'enregistrement de la chronologie du Scribe dans un canal de discussion dédié présente également l'avantage de pouvoir l'intégrer automatiquement à une analyse post-incident à partir d'un compte-rendu existant. Intégration de PagerDuty .
Après un incident, nous utilisons la fonction Postmortems de PagerDuty pour nous aider à exécuter une autopsie irréprochable , où nous résumons les événements ayant mené à la résolution de l'incident, identifions les facteurs contributifs et documentons les mesures convenues susceptibles de contribuer à atténuer ce type d'incident à l'avenir. Ces rapports d'autopsie sont ensuite partagés en interne afin que chaque équipe puisse mieux comprendre l'événement, quel que soit son emplacement physique.
Ce n’est qu’un exemple de la manière dont nous sommes capables de prendre en charge une tâche qui était auparavant reléguée aux salles de guerre en personne et de la gérer au sein d’équipes distribuées de manière très efficace.
Passer au télétravail pour minimiser l'exposition au COVID-19
Alors que les organisations s'orientent vers le télétravail pour une plus grande partie de leurs collaborateurs, il est essentiel de comprendre comment adopter rapidement des pratiques de communication à distance efficaces afin de minimiser les perturbations de leurs activités. Le monde est connecté en permanence, et nos clients continueront d'exiger la perfection de notre monde numérique, ce qui est notre responsabilité, d'autant plus que chacun s'efforce de minimiser l'exposition au nouveau coronavirus.
Gérer l’équilibre entre la communication verbale et écrite n’est qu’un des nombreux défis auxquels les organisations sont confrontées dans les premières étapes de l’atténuation de cette crise de santé publique en cours. L’utilisation de la plateforme PagerDuty en tandem avec d’autres outils de productivité à distance et des pratiques bien définies peut aider les organisations à maintenir une communication efficace entre les bonnes personnes au bon moment alors qu’elles passent à un travail plus à distance.
Faites-nous savoir s'il y a des sujets spécifiques à travail à distance efficace que vous aimeriez que nous explorions en visitant notre Forums communautaires .