Ce que NVIDIA, Okta et Warner Bros. Discovery ont appris sur le passage à l'échelle des opérations d'IA au-delà de la phase pilote
Un point clé à retenir de AWS re:Invent 2025 Le constat est qu'un fossé évident est apparu entre les équipes qui expérimentent encore l'IA et celles qui constatent une valeur ajoutée mesurable à grande échelle.
Lors de deux sessions, des clients de PagerDuty nous ont rejoints sur scène pour expliquer comment ils ont transformé leurs projets pilotes en opérations d'IA réussies.
« Débloquer la résilience de l’entreprise : l’IA et l’automatisation en action », animé par notre vice-président principal de l’ingénierie Rukmini Reddy , mettant en vedette NVIDIA Rama Akkiraju et Okta Dennis Henry , qui ont expliqué comment ils mettent en place l'infrastructure permettant aux agents d'IA de fonctionner de manière fiable lorsque cela compte.
« L’automatisation pilotée par l’IA pour les opérations modernes », notre responsable de la stratégie et de la croissance des produits, Nora Jones , s'est entretenu avec le vice-président de l'ingénierie de la fiabilité des sites chez Warner Bros. Discovery, Tom Leaman , à propos de l’importance souvent négligée mais pourtant cruciale du travail de fond « ennuyeux » qui rend possible l’innovation en IA.
Voici quelques-unes des principales conclusions qui sont ressorties de ces discussions.
Discipline et infrastructure comme levier opérationnel
Pour réussir ses opérations d'IA, il faut commencer par bien organiser son infrastructure : des systèmes documentés, des relations claires et des données structurées que les humains et les machines peuvent comprendre.
Lors de la session « Automatisation pilotée par l’IA », Tom Leaman a expliqué que lors de la fusion de Discovery et Warner Media pour créer Max, ils disposaient de neuf mois pour développer une plateforme de streaming entièrement nouvelle. Ils ont créé un schéma de métadonnées opérationnelles (OMD), une approche standardisée pour cataloguer tous les services et systèmes tout au long de leur cycle de vie de développement logiciel.
« Nous cataloguons nos services et systèmes… afin de pouvoir facilement comprendre, dès la création d'un référentiel, la hiérarchie des fonctions métier… à travers les pipelines CI/CD jusqu'à notre infrastructure déployée, nos services, nos indicateurs, nos journaux et, finalement, les incidents gérés dans PagerDuty», a expliqué Tom.
Ils ont également cartographié l'ensemble des fonctionnalités en fonction des parcours utilisateurs critiques (CUJ), c'est-à-dire les fonctionnalités essentielles pour les clients, comme la lecture de vidéos, la connexion et la navigation dans le contenu. L'objectif était de créer un langage commun utilisable aussi bien par les humains que par l'IA.
« La structure et l’organisation rendent les choses plus efficaces, non seulement pour les humains, mais aussi pour l’intelligence artificielle et l’automatisation », a-t-il fait remarquer.
L'équipe de Tom a validé les performances de l'IA par des tests systématiques. Avant de déployer leur agent de classification de la gravité, ils l'ont testé sur des dizaines d'incidents historiques afin de vérifier qu'il aboutirait aux mêmes conclusions que leurs opérateurs humains.
À la suite de ce travail détaillé et systématique :
- Les interruptions ont été réduites de 40 à 50 % grâce à la cartographie des dépendances entre les services et au regroupement intelligent des alertes afin d'identifier les causes profondes communes.
- La classification de la gravité est désormais gérée automatiquement, grâce à un cadre de gravité bien documenté et à une validation par rapport aux incidents historiques.
- Les mises à jour de statut générées par l'IA permettent aux opérateurs de se concentrer sur l'atténuation des problèmes, les parcours utilisateurs étant cartographiés en amont afin que l'IA comprenne quels services ont un réel impact sur les clients.
La priorisation de l'habilitation
L’habilitation à l’ère de l’IA concerne aussi bien les personnes que les agents IA avec lesquels elles interagissent. Les organisations doivent investir dans la formation de leurs employés tout en fournissant aux agents le contexte, les garde-fous et l’infrastructure nécessaires à leur bon fonctionnement.
« Les entreprises qui ne donnent pas la priorité à la formation de leurs employés sur l'utilisation des LLM passent à côté de l'essentiel », a déclaré Dennis Henry d'Okta lors de la session « IA et automatisation en action » animée par Rukmini.
L’habilitation, ou la formation des individus à collaborer efficacement avec les agents d’IA, est essentielle.
Au cours de la même session, Rama Akkiraju, qui dirige les initiatives d'IA chez NVIDIA IT, a partagé une citation de son PDG : Jensen Huang Cette phrase a particulièrement résonné en elle : « Les services informatiques deviennent de plus en plus le rôle des RH pour les agents d’IA. »
Le service informatique est responsable de l'intégration des agents dans le contexte d'entreprise approprié, de la définition de ce à quoi ils sont autorisés à accéder et sur quoi ils sont autorisés à agir, de l'évaluation de la qualité de leurs résultats et du maintien de leurs accès et autorisations au fil du temps.
La responsabilité de l'habilitation s'applique également à la manière dont les équipes sont habilitées à concevoir, utiliser et faire confiance aux systèmes d'IA dans la pratique. NVIDIA a créé ce qu'elle appelle sa « usine à IA », une plateforme en libre-service qui fournit à ses équipes les éléments nécessaires pour travailler efficacement avec l'IA :
- Connecteurs préfabriqués aux journaux, traces, métriques, alertes et tickets
- pipelines de données sécurisés pour les informations structurées et non structurées
- Plans d'agents pour un assemblage rapide des flux de travail courants
- interfaces en langage naturel à la plateforme elle-même
Comme l'a expliqué Rama, leurs équipes SRE « sont tellement occupées à maintenir les systèmes en fonctionnement… qu'elles n'ont pas le temps de prendre du recul et de repenser le processus ou de construire certains de ces agents. »
L’« usine à IA » remédie à cette contrainte en rendant le développement d’agents reproductible et autonome, plutôt que d’exiger que chaque équipe consacre du temps à la création de solutions ponctuelles.
Appliquer l'IA aux situations appropriées
L'un des enseignements les plus pratiques qui sont ressortis de notre session avec Tom de Warner Bros. Discovery a été ce cadre simple permettant de savoir où et comment utiliser l'IA :
- Automatisez ce qui est bien compris.
- Augmenter ce qui est partiellement compris.
- Maintenez l'attention des humains sur les situations nouvelles.
Situations bien comprises sont des candidats idéaux pour une automatisation complète. Lors d'incidents majeurs, les équipes opérationnelles sont confrontées à des tâches prévisibles mais chronophages, suivant des schémas établis. Prenons l'exemple de la communication en cas d'incident.
« Ces mises à jour de statut, ce sont des tâches bien définies », a expliqué Tom. Lorsqu'un service critique tombe en panne, les parties prenantes ont besoin d'être régulièrement informées de la situation et de la date de résolution prévue.
« Vous savez que vos parties prenantes s'attendent à recevoir des messages toutes les 15 minutes, toutes les 30 minutes, et qu'il y a un processus de synthèse associé à cela. »
C'est un travail important, mais il suit des modèles établis et exploite des sources d'information connues. C'est précisément le genre de tâche routinière mais essentielle que l'IA peut gérer efficacement, permettant ainsi aux ingénieurs de se concentrer sur la résolution du problème.
Dans scénarios partiellement compris L'IA peut exceller en tant qu'outil d'assistance. Ces situations semblent familières, mais varient suffisamment pour qu'une validation humaine soit nécessaire avant d'agir.
Lors d'un incident, Tom a reçu des alertes concernant une fonctionnalité appelée « Expérience gratuite limitée », qu'il ne connaissait pas. Au lieu de perdre de précieuses minutes, en plein incident, à se renseigner sur le fonctionnement de cette fonctionnalité et ses éventuelles conséquences, il a demandé des précisions à leur agent IA.
« Je me suis tourné vers mon agent virtuel, et celui-ci m'a immédiatement fourni un rapport contenant des informations sur cette fonctionnalité », a expliqué Tom. L'IA a rapidement expliqué ce qu'était l'Expérience Gratuite Limitée, comment elle fonctionnait et quels services elle utilisait, fournissant ainsi à Tom le contexte dont il avait besoin.
Situations inédites nécessite un leadership humain complet, même si l'IA peut tout de même faire émerger le contexte pertinent.
Dennis Henry d'Okta a fait écho à ce sentiment lors de la session « L'IA et l'automatisation en action ».
« Les titulaires d'une maîtrise en droit (LLM) excellent dans l'étude de l'histoire, l'analyse de très grandes quantités de données et leur décryptage. Mais tant que nous n'aurons pas atteint l'intelligence artificielle générale (AGI), ils ne pourront pas trouver de solutions aux problèmes nouveaux et inédits », a déclaré Dennis.
Dans ces situations, l'IA peut s'avérer utile en faisant rapidement émerger des données historiques pertinentes, des schémas similaires ou des documents connexes, mais la résolution de problèmes, la prise de décision et la pensée créative doivent impérativement revenir à l'humain. L'objectif est de fournir aux individus une information de meilleure qualité plus rapidement afin qu'ils puissent se concentrer sur leurs points forts.
La gouvernance en pratique : attentes, autorisations et validation
À mesure que les organisations intègrent des agents d'IA dans la gestion des incidents, la gouvernance devient essentielle. Les équipes ont besoin de normes claires concernant la justification des décisions des agents, de contrôles stricts sur leurs actions autorisées et de processus de validation permettant d'instaurer la confiance avant leur mise en production.
Lors des sessions « IA et automatisation en action » de Rukmini, lorsqu'on lui a demandé comment il gérerait les scénarios où deux agents d'IA pourraient être en désaccord lors d'un incident à forte visibilité, Dennis d'Okta a répondu que c'était la même chose que lorsque deux SRE sont en désaccord : « Ils doivent montrer leur travail. »
« J'ai besoin de ce concept de 'montrer son raisonnement' car c'est ainsi que je gérerais deux humains me présentant des théories contradictoires. J'attends la même chose d'une IA : qu'elle me dise et me montre ses données, en disant par exemple : 'J'ai récupéré ce graphique d'ici, cette analyse RCA d'ici et cette trace d'ici, et grâce à ces éléments, je pense que c'est X.' »
Cette exigence instaure la responsabilité, mais celle-ci ne suffit pas à elle seule. La gouvernance requiert également des limites claires quant aux actions autorisées pour les systèmes d'IA.
« Nous ne devons jamais perdre de vue les principes fondamentaux qui doivent nous guider tous, à savoir la sécurité de nos systèmes et la sécurité de nos données », a-t-il déclaré.
En pratique, son équipe configure par défaut les agents en accès lecture seule, avec des contrôles d'approbation explicites pour toute opération d'écriture, en particulier les actions destructives comme la suppression de fichiers, l'arrêt de services ou la restauration de déploiements.
Lors de notre session « Automatisation pilotée par l'IA » avec Warner Bros. Discovery, Tom a déclaré qu'avant qu'un agent ne soit mis en production, son équipe effectue des tests rétrospectifs approfondis.
« Nous avons analysé un certain nombre d'incidents différents signalés par le service client, par l'équipe produit, par d'autres ingénieurs, et nous les avons intégrés à l'agent, puis validés : le niveau de gravité obtenu correspondait-il à celui que nous avions finalement retenu ? »
Les enseignements tirés des deux sessions ont révélé que les équipes de Warner Bros. Discovery et d'Okta ont adopté une approche cohérente en matière de gouvernance de l'IA. Les agents IA sont soumis aux mêmes exigences que les intervenants humains quant à la justification de leurs décisions. Toutefois, ils opèrent avec des limites d'autorisation plus strictes et font l'objet d'une validation rigoureuse avant d'être mis en production.
Une feuille de route pragmatique pour le passage à l'échelle des opérations d'IA
Lors des discussions à AWS re:Invent, une tendance s'est dégagée : les organisations qui reconnaissent la réelle valeur de l'IA ne recherchent pas l'autonomie pour elle-même. Elles investissent dans une discipline opérationnelle rigoureuse afin de permettre aux humains et aux agents IA de travailler efficacement, et appliquent des cadres de référence clairs pour déterminer les domaines où l'automatisation est pertinente.
Cela signifie associer des données structurées et des processus reproductibles au jugement humain, imposer la gouvernance et la sécurité dès le départ et valider les systèmes d'IA avant de leur faire confiance dans des environnements à forts enjeux.
La leçon de re:Invent n'est pas d'accélérer le déploiement de l'IA, mais de le faire de manière plus réfléchie. Les équipes qui orientent l'IA vers les tâches appropriées, l'appliquent avec des garde-fous et investissent dans les outils nécessaires transforment l'expérimentation en avantages opérationnels durables.
Regardez les discussions complètes :
- Nora Jones (Pager Duty) et Tom Leaman (Warner Bros. Discovery) : AWS re:Invent 2025 – Automatisation pilotée par l’IA pour les opérations modernes
- Rukmini Reddy (Pager Duty), Rama Akkiraju (NVIDIA), Dennis Henry (Okta) : AWS re:Invent 2025 – Débloquer la résilience des entreprises : l’IA et l’automatisation en action (AIM101)