Blog

6 bonnes pratiques pour une meilleure gestion des incidents

par David Hayes 15 mai 2018 | 10 minutes de lecture

Les entreprises modernes gèrent aujourd'hui des portefeuilles technologiques de plus en plus complexes et sont contraintes d'innover, tout en étant confrontées à des enjeux bien plus importants que jamais pour maintenir la performance et la fiabilité de leurs services. Si ces exigences peuvent paraître paradoxales, de nombreuses organisations ont réussi à mettre en œuvre des processus leur permettant d'équilibrer agilité et risque. Dans cet article, j'aborderai l'importance d'intégrer la réponse aux incidents à votre outil ITSM et vous expliquerai les étapes à suivre pour trouver le juste équilibre entre agilité et risque.

Étape 1 : Intégrer la réponse aux incidents et l’ITSM

Vous ne pouvez pas ajouter de minutes pendant une panne, il est donc essentiel de prioriser efficacement votre travail planifié en dehors d'un incident. Cela consiste notamment à utiliser une plateforme de gestion des incidents d'entreprise comme PagerDuty pour gérer et lier votre travail non planifié au travail planifié suivi dans votre outil ITSM comme Jira, ServiceNow ou Remedy.

Comment cela est-il utile ? Tout d'abord, les informations transitent de l'ITSM vers PagerDuty afin que les intervenants sachent ce qui a changé et qui signale un impact. Ensuite, les éléments de suivi de PagerDuty sont renvoyés à l'ITSM, y compris les résultats de l'analyse rétrospective à prioriser.

Un employé peut avoir des dizaines de tickets prioritaires dans un outil ITSM, mais il ne devrait en avoir qu'un seul (ou idéalement aucun) à la fois dans PagerDuty afin de pouvoir se concentrer sur les problèmes impactant les clients et nécessitant une réponse immédiate. De même, le concept d'incidents non attribués n'existe pas dans PagerDuty: en cas de problème, quelqu'un en est responsable.

Étape 2 : Mobilisation proactive

En termes simples, le moyen le plus simple d'accélérer votre réponse est de la lancer plus tôt. Le meilleur moyen d'y parvenir est de suivre non pas ce qui affecte vos machines, mais ce qui affecte vos clients. Les organisations qui utilisent Real User Monitoring peuvent vérifier si les utilisateurs parviennent à charger, télécharger ou acheter leurs outils. De plus, comme vous cherchez principalement à détecter les problèmes avant qu'ils n'affectent les utilisateurs (même si cela peut engendrer des faux positifs), la surveillance de l'infrastructure sous-jacente est tout aussi importante pour identifier la cause d'un problème rencontré par les clients.

L'automatisation contribue également à accélérer la réponse aux incidents, et votre outil de surveillance doit automatiquement attribuer les problèmes à un responsable. De même, pour éviter qu'un problème n'affecte vos revenus, l'outil de surveillance doit également attribuer et notifier immédiatement à un responsable tous les problèmes dépassant une certaine priorité, via son mode de communication préféré (téléphone, e-mail, SMS, etc.).

Pour faciliter l'automatisation, PagerDuty s'intègre à des centaines d'outils de surveillance. Ainsi, par exemple, si votre outil de surveillance détecte que votre panier est passé de lent à complètement inactif, PagerDuty peut automatiquement créer un incident avec la priorité appropriée afin que l'intervenant dispose de toutes les informations.

Dans le même ordre d'idées, créez des flux de travail automatisés dès que possible. Si un niveau 1 doit mobiliser des parties prenantes de la direction, automatiser ce jeu de réponse .

Étape 3 : Définir un processus

Supprimez toute ambiguïté, confusion et perte de temps lors d'une intervention en définissant votre processus et en clarifiant les différents rôles impliqués. Nous recommandons d'inclure les rôles suivants : commandant d'incident et adjoint, secrétaire, agent de liaison client et experts métier. (Pour plus de détails sur la signification de chaque rôle, consultez la page https://response.pagerduty.com/before/different_roles/ .)

Lors d'une panne, la situation peut devenir un véritable cauchemar et la hiérarchie organisationnelle passe au second plan face aux rôles d'intervention. Lorsque les dirigeants commencent à randomiser le processus défini, il est nécessaire de les en exclure et de communiquer clairement et brièvement les raisons pour lesquelles certains processus sont suivis. Si le PDG souhaite modifier le processus à la volée, il peut décider de devenir le responsable. Commandant d'incident .

Pour aider tout le monde à rester ensemble, rappelez-vous ce qui suit :

  • Sondage pour de fortes objections. Sollicitez des objections, et non un consensus. Cela vous évitera de vous retrouver bloqué dans des discussions non urgentes et la recherche d'un consensus au lieu d'agir pour résoudre le problème.
  • Définissez des limites de temps et attribuez des tâches à des individus. Un incident génère de nombreuses informations, et une communication claire et concise est essentielle en temps de crise. L'attribution de tâches et de délais permet à chaque rôle de se concentrer sur un seul objectif, réduisant ainsi la confusion et les doubles emplois du temps, et idéalement, le temps de résolution.
  • Normaliser le jargon et l’étiquette. Assurez-vous que chacun sache quand et comment s'exprimer. Adopter un ton pragmatique et focalisé sur le sujet, sans émotion, est essentiel pour une communication et une réponse efficaces.

Étape 4 : Élaborez votre stratégie de communication

Il est également important de définir un processus de communication avec les personnes extérieures à l'équipe d'intervention principale. Selon le type d'incident, vous pourriez être amené à traiter avec des clients internes (nous les appelons souvent parties prenantes), des clients externes, voire le marché dans son ensemble. Par exemple, lors d'une intervention sur un incident de sécurité, vous pourriez avoir besoin d'impliquer le service juridique en plus des autres dirigeants.

Ces groupes doivent tous être tenus informés en fonction des besoins, mais le lieu de travail des intervenants est déconseillé. Il est déconseillé de voir quelqu'un se joindre à l'appel et demander une mise à jour, car cela perturberait les discussions sur les solutions possibles. Pour reprendre ce que je disais plus haut, il est déconseillé de voir un cadre appeler et exiger que l'équipe répare la panne en 10 minutes. Cela impliquerait que l'équipe ne travaille pas déjà aussi vite qu'elle le pourrait. C'est démotivant et cela n'apporte rien à la réponse. C'est là qu'intervient le service client, grâce à une fonctionnalité comme PagerDuty. Engagement des parties prenantes , le responsable de la liaison client peut fournir des mises à jour simplifiées et en temps réel aux parties prenantes concernées de l'entreprise.

Voici quelques autres moyens d’améliorer les communications en temps réel :

  • Disposer d'un pont de conférence pour les discussions internes. Les humains sont des animaux sociaux et ce format semble le plus naturel. Utilisez l'outil de conférence téléphonique que vos utilisateurs connaissent déjà : une panne n'est pas le moment d'apprendre à utiliser un nouvel outil. Joignez automatiquement les informations de la conférence téléphonique en cas d'incident majeur.
  • Avoir une salle de discussion pour enregistrer les actions. Cela permet aux personnes qui répondent rapidement de se mettre à jour sans poser de questions répétitives et fournit un enregistrement horodaté de la réponse. De plus, de nombreuses entreprises commencent à déclencher des actions de réponse directement depuis des bots dans la salle de discussion.
  • Fournissez des mises à jour proactives et planifiées à vos parties prenantes. Créez une page d'état des incidents afin de rester informé en temps réel des informations pertinentes. C'est essentiel pour éviter que les parties prenantes ne s'immiscent et ne deviennent des obstacles.
  • Déterminez les notifications à l’avance. Décidez quels critères et quels délais les intervenants doivent utiliser pour informer vos parties prenantes, vos clients ou vos utilisateurs en aval.

Étape 5 : Autopsies

Les post-mortems permettent de résoudre un problème à long terme. Ils permettent aux personnes de tourner la page après un événement particulièrement stressant et garantissent que votre équipe puisse prendre des mesures réfléchies et productives pour résoudre les correctifs apportés dans l'urgence.

À quoi ressemble donc une autopsie efficace ? Elle doit :

  • Mettre l’accent sur la prévention et l’apprentissage. Votre équipe cherche à comprendre ce qui peut être modifié pour éviter ce problème à l’avenir.
  • Soyez transparent, irréprochable et apolitique. L'objectif est d'obtenir toutes les informations pertinentes, et la dernière chose à faire est d'attiser la rancune. Les reproches entravent la circulation de l'information. Le seul reproche acceptable est celui d'avoir découvert un employé intentionnellement malveillant, ce qui est extrêmement rare.
  • Soyez orienté vers l’amélioration. Cela s'applique à la fois à la résilience du système et au processus de réponse. L'objectif est de toujours s'améliorer.
  • Ciblez une cause profonde. Nous trouvons le « cinq pourquoi ' utile ici.
  • Être requis pour les incidents majeurs et rationalisé pour gagner du temps. Personne ne souhaite réaliser des post-mortem, mais ils constituent un outil essentiel pour maximiser l'impact de votre travail planifié. Pour vous faciliter la tâche, nous avons créé un outil post-mortem intégré Conçu sur le modèle des processus existants de nos clients, il vous permet d'économiser du temps en jonglant entre différents outils pour collecter des informations, car il crée automatiquement une chronologie des activités PagerDuty et de chat pertinentes.

Nous publions tous nos post-mortems en interne grâce à notre outil post-mortem. Nous les considérons non seulement comme une source d'apprentissage pour notre équipe, mais aussi comme une contribution à notre formation aux meilleures pratiques , où nous partageons nos expériences et nos apprentissages avec nos clients.

Pour plus de conseils post-mortem, téléchargez notre livre électronique détaillé.

Étape 6 : Formation et pratique

Vous ne pouvez pas vous attendre à ce que votre processus de réponse aux incidents soit optimal si vous ne l'utilisez qu'occasionnellement. Tous les services ne tombent pas souvent en panne et certains ont plus de pratique que d'autres. Mais chacun doit être entraîné afin que, si un incident survient, vous et votre équipe soyez prêts.

  • Facilitez l’observation et l’intégration. Une solution comme PagerDuty permet aux intervenants débordés de trouver facilement de l'aide. L'un de nos clients les plus courageux a lancé une procédure d'astreinte en solo : si un nouvel employé ne comprend pas la solution dans le cahier des charges, il peut ajouter son mentor comme intervenant, et avec le temps, le pourcentage d'incidents nécessitant une assistance diminue.
  • Enregistrez vos pannes pour les utiliser à des fins de formation. Ces enregistrements sont une mine d'or et aident les équipes à comprendre ce qui se passe réellement en cas de panne réelle. Ils sont également utiles pour les analyses post-mortem.
  • Les pré-mortem (« Si cela se casse, que dois-je rechercher ? ») sont précieux comme exercice d’entraînement. Ils peuvent également vous aider à identifier les points où vous pouvez ajouter une surveillance supplémentaire pour détecter les causes profondes ou émettre des avertissements préventifs. Par exemple, si la vérification de la connexion à la base de données est votre première réaction en cas d'alerte d'interruption de votre activité e-commerce, configurez une surveillance sur cette connexion et envoyez les données à PagerDuty, même si l'application n'est pas affectée.
  • Mettre en œuvre Les vendredis de l'échec . Ingénierie du chaos Cela dépasse probablement les capacités de la plupart des organisations à l'heure actuelle, mais nous tirons beaucoup de profit de nos « Failure Fridays », par exemple en découvrant les problèmes de mise en œuvre qui réduisent notre résilience et en découvrant de manière proactive les déficiences pour éviter qu'elles ne deviennent la cause première de futures pannes.

Moins vous consacrez de temps à la résolution des pannes imprévues, plus vos services sont performants, ce qui contribue à la satisfaction de vos clients, car les incidents impactant la clientèle sont probablement la pire chose qui puisse arriver à une entreprise. Ils nuisent à la réputation de votre marque, entraînent d'importantes pertes de clients et de revenus, nuisent à la productivité des employés et minent le moral, entre autres. En parvenant à optimiser votre efficacité et à réagir aux incidents majeurs sans chaos ni stress, en étant convaincu que vous apprendrez et vous améliorerez à chaque incident, vous créerez une culture gagnante et stimulante qui saura ravir vos clients et vos employés.

Vous souhaitez en savoir plus sur la réponse aux incidents ? Consultez notre page de documentation sur la réponse aux incidents.

Conclusion de PagerDuty + CTA

Une gestion efficace des incidents implique une équipe solide, et une équipe solide implique un produit performant. Si vous êtes prêt à utiliser le logiciel de gestion des incidents PagerDuty, vous êtes au bon endroit. Grâce à notre produit, vous pouvez facilement protéger vos revenus et améliorer l'expérience client en résolvant plus rapidement les incidents critiques et en prévenant leur récurrence. Nous vous aidons à mettre en œuvre les meilleures pratiques en matière d'incidents majeurs au sein de votre organisation grâce à une automatisation complète des réponses et à des analyses post-mortem fluides. Apprendre encore plus .

Vous souhaitez en savoir plus sur la gestion des incidents ? Nous sommes là pour vous aider. Notre site web propose plusieurs formations pour vous aider à démarrer, toutes adaptées de documents internes que nous avons créés pour nos commandants d'intervention. Découvrez-les. ici .