Blog

L'avenir de la gestion des incidents est automatisé, flexible et proactif.

par Vivian Chan 7 juin 2022 | 9 min de lecture

Nous savons que nos clients comptent sur PagerDuty pour leurs opérations critiques en temps réel. C'est pourquoi nous veillons à ce que chaque amélioration contribue à simplifier la gestion des incidents. Comment pouvons-nous aider nos clients à consacrer moins de temps à la résolution des problèmes et plus de temps à l'innovation ?

L'une des valeurs fondamentales de PagerDuty est la priorité absolue accordée au client, et nous y accordons une importance capitale. Lors du développement et de l'amélioration de nos fonctionnalités, nous veillons à rester à l'écoute de nos clients : quelles sont leurs principales préoccupations ? De quoi ont-ils besoin aujourd'hui ? Comment leur situation a-t-elle évolué récemment ? Et comment pouvons-nous les aider à atteindre leurs objectifs futurs ?

J'ai rencontré Dan McCall, vice-président produit en charge de la gestion des incidents, pour en savoir plus sur sa vision du développement de la solution de gestion des incidents PagerDuty, une solution de référence dans son domaine. Pour découvrir toutes les fonctionnalités que l'équipe de Dan développe chez PagerDuty, visionnez sa présentation : « Discours d'ouverture sur la gestion des incidents : automatisée, flexible et proactive ». L'inscription est simple, il suffit de cliquer. ici .

Q : Alors Dan, y a-t-il des tendances qui se dégagent de vos échanges avec les clients ? Qu'est-ce qui les préoccupe le plus ?

J'entends de plus en plus de clients parler d'optimisation de l'efficacité, de réduction des efforts et, de manière générale, d'une approche davantage axée sur les données afin de renforcer leur résilience à grande échelle. Ce qui est intéressant, c'est que ce constat est valable aussi bien pour les nouveaux venus dans le domaine du DevOps que pour ceux qui y travaillent depuis des années. Cela se comprend aisément : la complexité augmente et les incidents sont plus fréquents, mais leur impact varie d'un client à l'autre. Pour certains, l'objectif est simplement de mobiliser la bonne personne au bon moment, tandis que d'autres privilégient l'optimisation des réponses afin de rationaliser les processus en cours et de limiter les répercussions sur la santé des intervenants.

Mais il y a une chose que j'entends le plus souvent : si renforcer la résilience et optimiser l'efficacité sont des défis de taille même en temps normal, la situation s'est considérablement compliquée avec la « grande vague de démissions ». En effet, dans notre dernière enquête auprès des clients, 64 % des répondants ont déclaré constater une augmentation du taux de rotation du personnel cette année. Il va sans dire que cette attrition met les équipes à rude épreuve : recruter et intégrer de nouveaux employés demande des ressources, et le manque de personnel peut engendrer un cercle vicieux de surcharge de travail et d'épuisement professionnel. Cette situation rend d'autant plus urgente la nécessité d'optimiser et de moderniser nos opérations.

Q : Que voulez-vous dire par maturité opérationnelle ?

La maturité opérationnelle consiste à offrir une expérience meilleure et plus prévisible à vos équipes afin de pouvoir traiter et anticiper les problèmes sous-jacents à l'attrition et à l'épuisement professionnel, grâce à des processus et des comportements permettant d'enrayer une partie de ce roulement potentiel.

Nous avons créé ce modèle de maturité des opérations numériques après avoir examiné les équipes et les organisations de notre plateforme, en codifiant les comportements que nous avons observés.

Pour celles et ceux qui découvrent la maturité opérationnelle, nos clients nous demandent souvent à quoi ressemble une « bonne » performance. Afin d'aider les organisations à mesurer leur maturité opérationnelle, nous avons développé le Modèle de Maturité des Opérations Numériques. Ce modèle permet aux organisations de définir leur maturité opérationnelle, de se situer sur l'échelle de maturité et de déterminer les domaines prioritaires pour améliorer leurs performances.

Pour aller plus loin et rendre le tout encore plus concret, notre équipe d'analyse produit a modélisé le modèle de maturité opérationnelle à l'aide des données de notre plateforme. Nous constatons que Les équipes réactives connaissent systématiquement un taux de roulement plus élevé que les équipes préventives – rien que le dernier trimestre, l'écart était de plus de 2 fois ! Si l'on considère le contexte de la Grande Démission, il est plus évident que jamais que nos produits peuvent faire une réelle différence pour aider nos clients à relever leurs défis opérationnels les plus urgents. Je vous recommande vivement de visionner la conférence « Passer d'une approche réactive à une approche proactive (et au-delà !) » de Scott Bastek et Tejere Oteri, accessible après inscription. ici .

Q : Comment les retours de vos clients influencent-ils votre vision de l'avenir de notre solution de réponse aux incidents ?

Pour déterminer comment orienter au mieux notre produit afin d'aider nos clients à réussir cette transformation et à améliorer leur maturité opérationnelle, la vision de mon équipe est de rendre la réponse aux incidents plus :

  • Automatisé éliminer le gaspillage et l'inefficacité
  • Flexible pour répondre à une multitude de besoins commerciaux uniques à grande échelle
  • Proactif anticiper et prévenir les perturbations des activités commerciales

Et nous allons le faire tout en restant fidèles à l'essence même de ce que nos clients connaissent et apprécient chez PagerDuty.

Q : L’automatisation peut signifier beaucoup de choses pour beaucoup de gens – lorsque vous pensez à la réponse automatisée aux incidents, qu’est-ce que cela signifie pour vous ?

Pour moi, la réponse automatisée aux incidents consiste en une meilleure collaboration entre les humains et les machines. Pour illustrer ce concept, je pense souvent à celui de Échecs du Centaure En résumé : une IA peut battre un humain aux échecs, mais un humain associé à une IA peut battre une IA pure.

L'automatisation en première ligne de défense permet aux équipes d'équilibrer les charges de travail critiques entre les humains et les machines, optimisant ainsi le travail des équipes lorsqu'il est nécessaire et les déchargeant des tâches inutiles. Le processus de réponse aux incidents comporte de nombreuses étapes manuelles ou des tâches bien définies ; notre objectif est de soulager vos équipes de ces contraintes afin qu'elles puissent se concentrer sur leurs missions et exceller.

Par exemple, nous permettons d'exécuter des diagnostics automatisés directement depuis votre application mobile. Ainsi, vos intervenants n'ont plus à effectuer manuellement les tâches répétitives liées aux diagnostics standard dès leur arrivée sur les lieux. Grâce à l'automatisation, le diagnostic est déjà lancé et opérationnel lorsque votre intervenant arrive sur place.

L'automatisation et l'IA, lorsqu'elles sont pleinement exploitées, peuvent prendre en charge des tâches que vos équipes ne devraient pas effectuer. En réduisant les tâches répétitives et manuelles, elles contribuent à accroître l'engagement des collaborateurs, ce qui limite l'épuisement professionnel et le taux de roulement du personnel. Disposer de plus de temps pour réfléchir et se concentrer sur l'innovation permet également de tirer les leçons des incidents et d'améliorer les processus afin de renforcer la résilience recherchée.

Q : PagerDuty a activement investi dans plusieurs acquisitions – comment cela s'inscrit-il dans votre feuille de route ?  

Nous sommes ravis de tirer parti de partenariats très solides avec nos acquisitions les plus récentes, Rundeck en 2020 et Catalytic plus tôt cette année, afin d'offrir de meilleures expériences à nos clients.

Pour la gestion des incidents, nous avons travaillé avec nos collègues de l'acquisition de Rundeck afin d'intégrer leur produit (désormais connu sous le nom de Process Automation) et d'intégrer profondément les actions d'automatisation dans notre expérience de gestion des incidents, depuis l'ingestion et l'orchestration des événements, jusqu'aux appareils mobiles et même à notre expérience web.

Les équipes d'intervention de première ligne se retrouvent souvent à effectuer les mêmes étapes de diagnostic répétitives lors du triage et de la résolution des incidents, ce qui les empêche de se concentrer sur des tâches à forte valeur ajoutée, les oblige à gérer les urgences au lieu d'innover et allonge le MTTR (temps moyen de réparation). Il était donc essentiel pour nous de simplifier au maximum l'intégration de l'automatisation dans le cycle de vie de la réponse aux incidents. Grâce à la possibilité de déclencher des diagnostics automatisés de différentes manières, les équipes gagnent un temps précieux qu'elles auraient consacré à des tâches manuelles fastidieuses. Ainsi, les résultats sont disponibles dès l'arrivée de l'intervenant à son poste.

Avec Catalytic, nous adoptons une approche différente. Lorsqu'un incident survient, les organisations suivent généralement une liste de contrôle des étapes importantes, souvent manuelle et difficile à mémoriser, surtout en pleine crise, à 2 heures du matin ! Retrouver et se souvenir de ces étapes peut détourner l'attention de l'équipe d'intervention de sa priorité : la résolution de l'incident. Nous proposons des solutions d'intervention simplifiées depuis quelques années et nos clients nous ont demandé davantage de moyens d'automatiser les étapes de leurs processus de réponse aux incidents avec plus de flexibilité. C'est pourquoi nous sommes ravis de présenter les flux de travail d'incident.

Plus tard cette année, nous allons transformer nos jeux de réponse légers en jeux puissants. Flux de travail des incidents S’appuyant sur le nouveau moteur de workflow issu de l’acquisition de Catalytic, ces workflows vous permettront de définir une réponse orchestrée grâce à une logique conditionnelle (« si ceci, alors cela »). Vous pourrez ainsi facilement configurer une séquence d’actions courantes liées à un incident (comme l’ajout d’un intervenant, l’inscription des parties prenantes ou le lancement d’une conférence téléphonique) au sein d’une réponse orchestrée.

Vous pouvez personnaliser vos flux de travail de gestion des incidents pour qu'ils correspondent aux processus spécifiques de votre organisation et à de nombreux cas d'utilisation, par exemple en fonction de la priorité, du statut ou de l'urgence de l'incident. Les enseignements tirés d'un incident peuvent ensuite être intégrés à vos flux de travail afin d'automatiser les tâches répétitives et fastidieuses lors du prochain incident.

Q : Selon vous, laquelle de ces annonces enthousiasmera le plus nos clients ?

Difficile de n'en choisir qu'une, alors je vais vous en dévoiler deux. Je vous invite à assister à ma session pour découvrir toutes les nouveautés que nous vous avons préparées. Tout d'abord, je pense que nos clients seront ravis de découvrir l'avenir des Response Plays. Nous avons déjà reçu d'excellents retours sur la façon dont les Incident Workflows, grâce à leur interface utilisateur performante et leur modularité basée sur des critères comme la priorité, apporteront une amélioration significative aux Response Plays. Je suis personnellement impatient de voir comment nos clients utiliseront les Incident Workflows et se les approprieront. L'un des grands avantages de cette approche « plateforme » est que, même si nous montrons son utilité lors d'incidents majeurs, elle peut être utilisée de multiples autres manières. Vous pourrez en apprendre davantage lors de ma session au Summit, où Stephanie Gridley, responsable de la résilience chez Wayfair, expliquera en détail comment son équipe pourrait utiliser cette fonctionnalité pour les incidents de niveau 1 et 5.

Les clients seront ravis de découvrir les mises à jour de fonctionnalités essentielles qu'ils attendaient depuis longtemps, comme les modèles de notifications de mise à jour de statut. Le plus intéressant sera sans doute l'interaction de ces fonctionnalités, qui permettra de réaliser des prouesses techniques. C'est la synergie de ces fonctionnalités, fonctionnant de manière cohérente, qui produira un effet multiplicateur supérieur à la somme de leurs parties.

Pour en savoir plus sur les autres points du plan de réponse aux incidents pour cette année, visionnez la conférence virtuelle de Dan : « Conférence sur la réponse aux incidents : automatisée, flexible et proactive ». Il n’est pas trop tard pour vous inscrire au PagerDuty Summit. Inscrivez-vous ici.