La prochaine vague d'automatisation laisse plus de place aux humains.
Lorsqu'un système tombe en panne, l'impact n'est pas seulement technique. Ce sont les personnes au cœur du système qui s'adaptent, improvisent, font preuve de discernement et assurent la continuité des activités.
J'ai travaillé dans les opérations pendant plus de 25 ans, et j'ai appris une chose : dans tout système, ce sont les humains qui constituent la véritable force motrice. En matière de gestion des incidents, je suis convaincu que la prochaine vague d'automatisation basée sur l'IA permettra aux équipes surchargées de se concentrer sur des tâches à fort impact et centrées sur l'humain.
Cela permettra, à son tour, d'offrir une meilleure expérience à toutes les personnes impliquées dans un incident, qu'il s'agisse des parties prenantes en quête de clarté, des ingénieurs SRE effectuant le triage ou des utilisateurs attendant une résolution.
Les entreprises constatent déjà cet impact. Lors d'un récent événement PagerDuty on Tour à San Francisco, j'ai eu l'occasion d'interroger des leaders du secteur sur les domaines où l'automatisation et l'IA font la plus grande différence. Tous secteurs et fonctions confondus, trois points sont revenus fréquemment : collecte de contexte, communication avec les parties prenantes et expérience utilisateur .
Voici ce que certains de ces dirigeants m'ont confié. Les présentations complètes sont disponibles en ligne. Site de PagerDuty en tournée .
L'automatisation permettra de réduire la collecte de contexte lors des incidents.
Quiconque a déjà été ingénieur SRE connaît cette sensation : il est en pleine nuit et vous venez de recevoir une alerte urgente. Mais avant de pouvoir résoudre le problème, il faut d’abord comprendre le contexte.
L'obtention des données pertinentes prend du temps, ce qui retarde la mise en œuvre des solutions. Par conséquent, des indicateurs clés, comme le temps moyen de rétablissement (MTTR), s'en trouvent affectés. Les pannes durent plus longtemps et leurs conséquences – financières, réputationnelles et juridiques – sont plus importantes.
L'automatisation de la collecte de contexte permet aux ingénieurs SRE d'intervenir plus rapidement sur un incident en mettant à profit leur jugement et leur expertise. Ils peuvent ainsi évaluer le problème et rétablir le service plus vite. Surtout, ils peuvent accomplir toutes ces tâches avec moins de travail manuel, moins de stress et un risque d'épuisement professionnel réduit.
Mikhail Malamud, directeur général de CloudAware, me l'a expliqué ainsi : « En cas d'incident, dans environ 70 à 75 % des cas, quelque chose a changé. Comment savoir de quoi il s'agit ? Une règle de pare-feu ? Un déploiement de code ? Un changement de routage ? Aujourd'hui, nous utilisons l'IA pour identifier ce changement. »
Voici comment cela pourrait fonctionner : Le service de paiement d'un site e-commerce rencontre un problème de délai d'attente. Agentic AI analyse les incidents passés et les données d'événements actuels pour diagnostiquer le problème et proposer plusieurs solutions. Ces informations sont ensuite transmises via Slack à un ingénieur SRE humain qui les examine, identifie la cause du problème (une modification récente du code) et lance la restauration du service avant que l'incident ne s'aggrave.
Chez TD Bank, Chris Conklin, responsable de la surveillance d'entreprise, constate déjà les avantages de l'utilisation de l'IA pour la collecte de contexte. « Elle nous permet de cibler les événements pertinents avec la bonne attention », m'a-t-il expliqué. « Et ainsi, d'obtenir les résultats escomptés. »
L'automatisation améliorera la communication avec les parties prenantes
Les ingénieurs SRE ne sont pas les seuls à avoir besoin d'informations en plein incident. Un autre point qui est revenu fréquemment lors de mes conversations concernait le temps considérable que les organisations gagnent en utilisant l'IA pour personnaliser leurs communications avec les parties prenantes.
Toutes les parties prenantes ont besoin d'informations précises et actualisées. Les utilisateurs veulent savoir quand le service sera rétabli. La direction souhaite connaître l'impact sur l'activité. Les autres équipes veulent savoir comment elles seront affectées. Sans IA, cette responsabilité incombe aux ingénieurs SRE, les détournant ainsi de la résolution du problème.
Mais différents publics exigent souvent la même réponse, avec différents niveaux de détail et adaptée à différents niveaux de compréhension technique.
Mikhail, de CloudAware, a indiqué que cela représentait un fardeau important pour son équipe. « Les parties prenantes veulent toutes savoir ce qui se passe. Quand allons-nous régler ce problème ? Quelle en est la cause profonde ? Quel est le délai de résolution ? » m’a-t-il expliqué. « L’IA agente peut répondre à leurs besoins. »
Grâce aux communications basées sur l'IA, la bonne information parvient à la bonne personne au bon moment, ce qui réduit le travail manuel pour l'ingénieur SRE.
Sam Brinley, vice-président en chef, architecte et ingénieur de solutions cloud d'entreprise chez New York Life Insurance, anticipe des avantages similaires grâce à l'adoption par son équipe de l'IA de PagerDuty pour la communication avec les parties prenantes : « Nous envoyons cinq communications à la même audience. PagerDuty nous aide à réduire ce nombre. Nous pourrons ainsi informer les personnes concernées, prioriser et acheminer les messages correctement ; cela devrait vraiment nous permettre d'optimiser la gestion des incidents. »
L'automatisation améliorera l'expérience utilisateur
Bien souvent, la différence entre une interaction fluide et une interaction frustrante tient à la rapidité avec laquelle une organisation peut se remettre d'un incident.
« Tout le monde a des incidents », m’a dit Malamud. « Ça fait partie de la vie… Ce dont les clients se souviendront, c’est de la façon dont ils ont été traités. »
Pour Conklin, c'est un élément essentiel de la relation client chez TD Bank. Chaque seconde gagnée lors du rétablissement du service réduit le risque d'échec des transactions, protège l'accès aux comptes et préserve la confiance que les clients accordent à la banque. « Nous devons instaurer la confiance chez nos clients, et la meilleure façon d'y parvenir est d'intervenir rapidement », a-t-il déclaré.
Je pense que la prochaine vague d'automatisation basée sur l'IA permettra de répondre plus rapidement aux problèmes en réduisant l'écart entre leur apparition et leur résolution. Pour les incidents simples, un agent IA pourra résoudre le problème automatiquement (évitant ainsi à l'ingénieur SRE une alerte en pleine nuit). Pour les problèmes plus complexes, l'intervention humaine, grâce au contexte nécessaire, permettra d'agir rapidement et efficacement.
Il en résulte que les incidents qui provoquaient autrefois des retards importants ou des pannes de service sont résolus avant qu'ils n'ébranlent la confiance. Les entreprises évitent ainsi les coûts et les atteintes à leur réputation liés à une interruption prolongée. Les clients bénéficient d'un service stable, fiable et disponible.
Comme l'a dit Conklin, « Nous tirons parti [de l'automatisation] de toutes les manières possibles… car nous savons que cela nous permet de gagner un temps précieux et de bâtir encore plus de confiance. »
Ce qui est encore plus intéressant, c'est que l'impact de cette approche ne se limite pas à la gestion des incidents. Lorsque les incidents mobilisent moins de temps, chacun peut consacrer davantage de temps à l'essentiel : créer des liens avec les personnes qui comptent.
Daniel Brusilovsky, Vice-président de la technologie chez Pour les Golden State Warriors, l'automatisation est essentielle pour offrir une meilleure expérience client. « Si nous pouvons consacrer plus de temps à interagir avec nos fans et à créer des expériences client personnalisées, c'est un atout majeur. Et cela nous permettra, à terme, d'augmenter nos revenus. »
Comment se préparer à la prochaine vague
Pour moi, le principal enseignement de nos événements Pager Duty on Tour est que l'automatisation basée sur l'IA donne aux humains l'espace nécessaire pour réfléchir de manière critique et résoudre les problèmes de façon créative.
En accélérant la collecte d'informations contextuelles et en personnalisant la communication avec les parties prenantes, l'IA et l'automatisation permettent aux équipes de fonctionner de manière optimale. Il en résulte une expérience plus fiable pour l'utilisateur final et, au final, une réduction de l'impact des incidents sur l'activité.
Les organisations qui adoptent cette approche développeront des relations plus solides avec leurs parties prenantes, leurs employés et leurs clients. Pour découvrir comment le partenariat humain-agent peut transformer votre organisation, consultez notre e-book. Le modèle de partenariat humain + agent .