Blog

Écoutez un appel enregistré de réponse aux incidents

par Georges Miranda 20 juin 2019 | 6 minutes de lecture

Le Processus de réponse aux incidents de PagerDuty Il s'agit d'un document détaillé qui fournit un cadre pour structurer votre processus de réponse aux incidents. Il est parfois utile de comprendre comment ces concepts, apparemment abstraits, se manifestent dans des situations réelles. Vous pouvez désormais écouter un enregistrement d'appel basé sur un incident réel de PagerDuty .

En raison de la nature des pratiques de réponse aux incidents, le guide de processus que nous publions regorge de détails très explicites concernant diverses situations. Ce niveau de détail est précieux pour décortiquer les nuances de scénarios complexes. Mais pour quelqu'un qui n'a jamais participé à une panne technique, le niveau de détail fourni peut paraître un peu déroutant sans un contexte de base. Qu'est-ce qu'un appel d'incident ? À quoi ressemble-t-il et comment les intervenants interagissent-ils ?

Quel que soit votre niveau d'expérience en matière de réponse aux incidents en temps réel, disposer d'un contexte commun sur lequel vous appuyer peut être utile pour développer vos propres processus de réponse au sein de vos équipes. Pour vous aider, nous avons décidé de partager un exemple de nos interventions en réponse aux incidents chez PagerDuty.

https://www.youtube.com/watch?v=vw6I5DYWkNA

L'appel enregistré est une reconstitution d'un incident majeur réel survenu à PagerDuty en janvier 2017. Certains noms et détails d'identification ont été modifiés dans l'intérêt de la confidentialité, mais l'incident reste par ailleurs largement non expurgé.

Par souci de concision, certains détails ont été modifiés ou omis de la reconstitution. Bien que cet incident ait duré environ 79 minutes, l'audio de l'appel a été compressé à un peu plus de 26 minutes. Lors du visionnage de la vidéo, veuillez noter l'horodatage des commentaires retranscrits. Cet horodatage vous donnera une idée du temps écoulé entre les événements. Il n'est pas rare qu'un silence règne lors d'un appel d'incident, le temps que les intervenants s'efforcent de résoudre un problème.

Pour les nouveaux venus dans le processus de réponse aux incidents, quelques diapositives expliquant les différents rôles des intervenants tout au long de l'appel ont été ajoutées pour plus de contexte. Cet enregistrement est destiné à compléter, et non à remplacer, le Guide de réponse aux incidents Avant de mettre en pratique les compétences démontrées dans cette vidéo ou de modifier quoi que ce soit à vos propres processus existants, assurez-vous de consulter le guide de réponse aux incidents dans son intégralité, car il fournit un niveau de détail critique et supplémentaire qui n'est pas contenu dans cet enregistrement.

Choses à surveiller

Cet incident a été choisi pour la reconstitution en raison de sa complexité et des nombreuses étapes d'un incident présentées. Il a nécessité une collaboration interfonctionnelle entre plusieurs équipes, présentait un problème difficile à diagnostiquer et comportait des exemples courants d'actions nécessaires, comme l'appel d'urgence à des intervenants non disponibles. De légères modifications ont été apportées pour mettre en évidence certaines de ces actions au fur et à mesure de leur déroulement.

PagerDuty Formation à la réponse aux incidents Cet article explique en détail le rôle d'un commandant d'intervention (CI) et propose de nombreux conseils sur la gestion d'un incident. Écoutez comment le CI crée un espace permettant aux intervenants de résoudre l'incident : il maintient l'intervention en cours, obtient un consensus avant d'agir et ajuste le cap en fonction des retours.

Le rôle du scribe est clairement illustré par le texte d'accompagnement de la vidéo. Un scribe n'est pas un sténographe. Son rôle n'est pas de retranscrire chaque parole prononcée lors d'un appel ; son rôle consiste plutôt à noter les événements importants qui pourraient être utiles dans le cadre d'une autopsie. Regardez comment il saisit les détails pertinents qui seront utiles ultérieurement.

Le rôle de l'adjoint est d'aider le commandant d'intervention à rester concentré sur l'incident en assumant toutes les tâches susceptibles de le distraire. Lors de cet incident, notre responsable expérimenté lui a délégué des tâches et a également géré le temps imparti pour les tâches à durée limitée. Cependant, il n'est pas rare qu'un adjoint propose de décharger l'agent d'intervention de certaines tâches ou de lui servir de chronométreur.

Le responsable communication fournit des mises à jour aux parties prenantes externes et internes. Par souci de concision, l'incident enregistré se concentre sur la manière dont les communications externes avec les clients sont générées. En pratique, chez PagerDuty, le responsable communication génère automatiquement les notifications aux parties prenantes internes depuis notre produit. Si votre propre système de réponse aux incidents ne le permet pas, le responsable client gère le processus de la même manière que les notifications externes.

À propos de l'incident

L'incident à l'origine de cet enregistrement reconstitué s'est produit le 6 janvier 2017. Aucune notification n'a été envoyée en dehors de notre contrat de niveau de service (SLA). Les clients ont été affectés de trois manières :

  1. 500 erreurs ont été rencontrées sur la page Détails de l'incident (1 % des clients)
  2. J'ai rencontré un message d'erreur sur la page /incidents en cliquant sur le lien « Afficher les détails » (2 %)
  3. Erreurs rencontrées dans l'application Android PagerDuty (1 %)

L'autopsie de l'incident est disponible sur le Page d'état PagerDuty . Vous remarquerez dans le autopsie L'incident a duré environ 80 minutes. L'analyse de l'horodatage de l'enregistrement vidéo révèle que la durée de l'appel n'est que d'environ 50 minutes. En effet, l'incident a été détecté et géré comme un incident mineur pendant environ 30 minutes avant d'être transformé en incident majeur, nécessitant une intervention coordonnée plus importante.

Comment utiliser cet enregistrement

La plupart des incidents ne permettent pas de démontrer toutes les facettes du système de réponse aux incidents. Les incidents sont imprévisibles et le processus de réponse vise à vous fournir les outils en temps réel nécessaires pour les résoudre efficacement. Plutôt que de mettre en scène une fiction, nous avons préféré partager un incident réel avec la plus grande transparence possible.

Cet enregistrement d'incident ne constitue pas un guide définitif et ne couvre que quelques-unes des considérations auxquelles vous pourriez être confronté face à un incident réel. Cependant, utilisé conjointement avec notre Guide de réponse aux incidents, il illustre comment ces principes, parfois abstraits, s'appliquent dans des situations réelles. Pour de meilleurs résultats, utilisez cet enregistrement en complément du guide. Consultez le guide pour plus de détails et l'enregistrement pour découvrir comment les principes du guide sont appliqués.

Comme toujours, si vous avez des questions à ce sujet et souhaitez en discuter davantage, n'hésitez pas à nous contacter sur le Forum communautaire PagerDuty Nous aimerions avoir de vos nouvelles !