Blog

PagerDuty + Atlassian : Gérer les incidents modernes avec aisance

par Dave Cliffe 31 mai 2018 | 5 min de lecture

Afin de répondre aux exigences croissantes des clients et à leur attente d'une réactivité permanente, les opérations numériques transforment les méthodes de travail. L'une des tendances macroéconomiques les plus intéressantes consiste à observer son impact non seulement sur les équipes d'exploitation et de développement informatique, mais aussi sur l'implication de l'ensemble de l'entreprise dans l'amélioration de la réactivité client. La gestion des incidents en est un excellent exemple, tant en raison de la pression temporelle que des efforts déployés par toute l'organisation (support client, direction, communication/marketing, ventes, etc.) pour élaborer une réponse efficace. Les incidents majeurs constituent un problème métier, et non un problème produit. Une communication et une collaboration efficaces sont donc essentielles. réponse moderne aux incidents .

Atlassian l'a bien compris. En plus de notre gamme déjà étendue d'intégrations avec JIRA, HipChat et StatusPage, nous sommes ravis d'annoncer la disponibilité générale de notre extension PagerDuty Stride. Foulée Stride est la solution de communication d'équipe complète, idéale pour améliorer la visibilité au sein de votre équipe lorsqu'un incident PagerDuty est déclenché. Mais son principal atout réside dans sa capacité à aligner votre organisation en temps de crise, notamment lors d'un incident majeur. Elle offre en particulier un ensemble de fonctionnalités performantes permettant aux commandants d'incident, à leurs adjoints et aux secrétaires de mener une réponse efficace. (Vous n'êtes pas familier avec la gestion des incidents ? Consultez nos bonnes pratiques : https://response.pagerduty.com/ .)

Voici quelques-unes de nos fonctionnalités Stride préférées pour Commandement des opérations .

La barre latérale PagerDuty Stride

PagerDuty a l'honneur d'être associé à la création de ChatOps (Merci à GitHub) : l’une des utilisations les plus courantes de ChatOps consiste à obliger les nouveaux intervenants à lire l’intégralité de l’historique des conversations pour comprendre les détails d’un incident. La barre latérale de Stride permet de conserver un aperçu des informations les plus pertinentes. Les échanges détaillés relatifs à l’incident se déroulent dans la salle de discussion, tandis que l’incident actif affiché dans la barre latérale contient un résumé de l’impact, des événements, des décisions clés et des actions entreprises.

Ce type d'information correspond exactement à ce que le Scribe doit enregistrer et est idéal à la fois pour une mise à jour en temps réel et pour la compilation ultérieure de la chronologie post-mortem. Terrain d'entente Il s'agit d'un concept clé en communication, particulièrement important lors de la gestion des incidents. Les responsables des opérations sont d'ailleurs formés à réaliser régulièrement ce type de synthèses (souvent oralement lors des appels vocaux) afin de maintenir une compréhension partagée. Arrêtez d'obliger les gens à « lire l'historique des conversations » pour être au courant ! (Dan Slimmon d'Exosite a…) discussion fantastique (Extrait de Velocity Santa Clara 2016 sur ce sujet précis, si cela vous intéresse.)

Décisions de foulée

Un des principes clés d'une gestion efficace des incidents est de confier l'intégralité du pouvoir de décision au responsable des opérations. Ceci est particulièrement important lors d'un incident majeur, où des décisions plus risquées peuvent s'avérer nécessaires pour limiter l'impact sur les clients. Un exemple utilisé lors de nos formations : il est rare de redémarrer tous ses serveurs web simultanément, car cela entraînerait une interruption de service. Cependant, lorsque tous les clients sont déjà impactés d'une manière ou d'une autre, opter pour cette solution plutôt qu'un redémarrage progressif peut être la meilleure solution.

Stride Decisions facilite la consignation des décisions difficiles directement dans le document, au fur et à mesure de la rédaction de la réponse. Ces points de décision sont essentiels pour assurer une compréhension commune au sein de votre équipe. N'oubliez pas : même si vous avez le pouvoir de décision, il est toujours préférable de solliciter l'expertise de vos spécialistes. Vos décisions ne nécessitent pas d'approbation, mais il est judicieux de demander s'il y a des objections importantes avant de poursuivre, afin d'éviter les biais liés à la rétrospection.

Actions de foulée

Maintenir une organisation optimale pendant la phase intense de la gestion des incidents peut s'avérer complexe. Une fois la décision prise, de nombreuses actions sont généralement entreprises. Stride Actions est l'outil idéal pour suivre les différentes investigations et expérimentations nécessaires à la compréhension de l'impact sur les clients et des mesures potentielles pour l'atténuer.

Pour ce type d'actions urgentes, nous recommandons également vivement trois points :

  1. Attribuez-leur, soit à une personne par son nom (« Dave Cliffe »), soit par sa fonction (« Réseau d'astreinte »).
  2. Limitez-les dans le temps, Ainsi, la personne sait combien de temps elle doit attendre avant de revenir avec plus d'informations (cela contribue également à créer implicitement un sentiment d'urgence).
  3. Recevoir un accusé de réception, ainsi, le commandant des opérations sait qu'ils ont bien compris la tâche.

Ne négligez pas l'autopsie

Une fois le chaos retombé et l'impact sur les clients atténué, l'une des dernières tâches d'un responsable d'incident consiste à assigner l'analyse post-mortem. N'oubliez pas que chaque incident est une occasion d'apprentissage, et pas seulement sur le plan technique. Comprendre comment vos équipes communiquent peut contribuer à rendre les futures interventions encore plus efficaces ; il est donc important de revoir régulièrement votre processus de réponse aux incidents. Intégration PagerDuty JIRA Il offre également un excellent moyen d'assurer le suivi des actions identifiées par votre équipe d'intervention.

La gestion moderne des incidents exige une nouvelle approche, fondée sur la responsabilisation partagée et permettant une réponse précise, automatisée et collaborative, qui s'améliore par itération et apprentissage. Grâce à l'extension PagerDuty Stride et aux intégrations JIRA et StatusPage, PagerDuty et Atlassian offrent une plateforme idéale pour des opérations efficaces. Testez-la et faites-nous part de votre avis !

 

Ressources supplémentaires :

  • Premiers pas avec Stride
  • Formation moderne à la réponse aux incidents
  • Meilleures pratiques en matière de réponse aux incidents