• PagerDuty
    /
  • Blog
    /
  • IA
    /
  • Nouvelles améliorations apportées à l'agent SRE de PagerDuty : triage plus rapide sans réveiller un humain

Blog

Nouvelles améliorations apportées à l'agent SRE de PagerDuty : triage plus rapide sans réveiller un humain

par Ariel Russo 6 mai 2026 | 7 min de lecture

Cet article fait partie d'une série de PagerDuty consacrée à l'accompagnement de ses clients dans leur transition vers l'autonomie opérationnelle. Découvrez comment les récentes améliorations apportées à l'agent SRE de PagerDuty (EA/GA) contribuent à la réalisation de cette vision.


 

Les promesses et les capacités de l'IA divergent souvent : les développeurs constatent fréquemment une production de code beaucoup plus rapide, mais une gestion des incidents qui ne s'améliore pas suffisamment. Lorsque le rythme des changements s'accélère sans précédent, mais que le rythme de rétablissement après un incident stagne, les développeurs se retrouvent bloqués dans une gestion de crise permanente. Et, lorsque ces systèmes dysfonctionnent, les conséquences sont coûteuses. Selon… État des opérations axées sur l'IA chez PagerDuty , Plus d'un tiers des entreprises interrogées déclarent perdre 500 000 $ par heure d'indisponibilité. Ce n'est pas viable pour l'entreprise ni pour les équipes.

La solution consiste à combattre le feu par le feu et à s'assurer que les outils d'IA utilisés par les développeurs pour corriger les dysfonctionnements correspondent à l'intelligence des outils qu'ils conçoivent. Agents SRE sont devenues une nouvelle catégorie pour les équipes cherchant à réduire les tâches fastidieuses et les temps de triage, et à libérer davantage de ressources pour le développement.

PagerDuty annonce des améliorations apportées à son agent SRE PagerDuty Advance, le rendant encore plus intelligent et performant. Il peut désormais effectuer un triage automatique, déclenché par un flux de travail d'incident dans le cadre de l'automatisation d'une équipe. Il exploitera les connecteurs, outils et compétences de l'agent comme source de données de triage et fournira des informations aux équipes avant même qu'elles n'examinent l'incident. Pendant la résolution de l'incident, les équipes pourront interagir directement avec l'agent SRE sur la page de détails de l'incident. Examinons ces améliorations et leurs implications dans un monde qui évolue rapidement vers des opérations autonomes.

Déclencher des enquêtes autonomes

Lors d'un incident, de nombreuses priorités concurrentes exigent l'attention des intervenants. Dans le chaos, il arrive que les actions les plus simples soient négligées. On a alors l'impression d'oublier un membre essentiel de l'équipe.

Pour résoudre ce problème, l'agent SRE pourra fonctionner comme un véritable répondeur virtuel, déclenché intelligemment via les flux de travail d'incident (disponibles pour Accès anticipé ) pour effectuer le triage. Les utilisateurs peuvent configurer ces flux de travail pour solliciter automatiquement l'agent SRE dès qu'un incident se déclenche ou lorsque des critères tels que la priorité ou la gravité sont remplis. Cela élimine le délai d'attente lié à la prise en compte d'une alerte par un humain et au lancement d'une investigation manuelle.

Une fois activé automatiquement, l'agent SRE arrive sur les lieux de l'incident, pré-équipé de données de triage, afin d'accélérer le processus de résolution. Il utilise sa mémoire des incidents passés pour analyser l'état actuel de vos systèmes et identifier la cause première. Et tout cela peut se produire avant même qu'un intervenant ne prenne en charge l'incident.

Diagnostic rapide grâce aux connecteurs d'agents, aux outils et aux compétences

Un agent d'IA autonome n'est performant que dans la mesure où les données qu'il analyse le sont. La plupart des équipes perdent un temps précieux car les informations recueillies par l'IA restent cloisonnées dans différents outils, obligeant les ingénieurs à combler manuellement le manque que les agents devraient pouvoir assurer.

L'agent SRE de PagerDuty propose désormais les fonctionnalités suivantes : nouvelles expériences de configuration (EA) qui facilitent l'extension des capacités de l'agent grâce à des connecteurs et des outils, avec des compétences EA prévues en mai.

  • Connecteurs vous permet de connecter l'agent SRE à des sources de données tierces telles que Grafana, New Relic, Honeycomb, et plus encore via MCP ou API — il vous suffit de saisir vos identifiants et de vous autoriser.
  • Outils permettre à l'agent de récupérer les journaux et les métriques des plateformes d'observabilité (Splunk, Dynatrace) et d'extraire le contexte des bases de connaissances (Confluence, GitHub).
  • Compétences Dotez l'agent d'instructions personnalisées, de scripts et d'une expertise du domaine, lui conférant ainsi des capacités spécialisées adaptées à votre environnement.

Ensemble, ces éléments permettent à l'agent SRE de déduire intelligemment les étapes de dépannage avant même qu'un humain n'examine l'incident. Le triage est déclenché automatiquement via les flux de travail d'incidents : dès que les critères sont remplis, l'agent extrait les données et lance l'analyse. Plus besoin de se déplacer.

Rassembler tous les éléments pour les humains dans la boucle

Les agents SRE ne peuvent remplacer l'expérience humaine et les compétences en résolution de problèmes. Dans de nombreux cas où le problème est nouveau, complexe, majeur ou mal compris, l'intervention humaine reste indispensable pour le résoudre. L'agent SRE agit alors comme un assistant précieux, fournissant les données de triage, ainsi que celles d'autres agents comme l'agent de rédaction et l'agent de changement de poste, dès qu'un intervenant prend le relais. Il peut même aller plus loin en recommandant le flux de travail le plus adapté à la gestion de l'incident, en fonction du contexte clé, réduisant ainsi la charge cognitive des intervenants et accélérant sa résolution.

Désormais, les utilisateurs peuvent accéder à l'agent SRE directement depuis la page de détails de l'incident, en plus d'interagir avec lui via Slack, Microsoft Teams (EA) ou la console des opérations. Où que se trouve l'intervenant, l'agent SRE est là pour l'assister.

L'agent SRE ayant collecté toutes ces données de triage critiques dès qu'un incident survient, il a le temps de les analyser et de suggérer des mesures correctives. Depuis la page de détails de l'incident, le chat ou la console des opérations, les intervenants peuvent consulter les solutions proposées, présentées de manière claire et concise. Pour optimiser encore les résultats, les utilisateurs peuvent enrichir la mémoire de l'agent, soit en interagissant avec lui, soit en la mettant à jour directement. API de mémoire partagée L'humain reste au cœur du processus et prend les décisions. Mais désormais, il est informé dès le départ d'informations cruciales provenant de sources diverses, synthétisées afin de lui permettre de prendre la meilleure décision possible dans des circonstances difficiles.

Une nouvelle anatomie d'un incident

Voyons comment ces éléments s'articulent pour avoir un impact concret sur les développeurs. Auparavant, une hausse du taux d'erreur entraînait l'affichage d'une page, puis le déclenchement manuel de l'agent SRE, et enfin l'analyse de données qui ne correspondaient pas facilement aux systèmes complexes.

Avec l'agent SRE amélioré, le flux pourrait ressembler à ceci :

  • Déclenchement: Une alerte de haute gravité déclenche un flux de travail d'incident.
  • Collecte du contexte : L'agent SRE utilise immédiatement connecteurs d'agents et outils Pour extraire les journaux de Datadog, celui-ci détecte un pic de latence spécifique des requêtes de base de données, correspondant à un schéma observé il y a trois mois. Il utilise sa configuration. compétences , l'agent peut vérifier l'état complet du service en utilisant les dépendances de service dans PagerDuty.
  • Analyse: En quelques secondes, l'agent SRE publie un résumé sur la page Détails de l'incident : « Augmentation de 15 % des erreurs de validation de commande détectée. Liée à une migration récente de la base de données. Trois incidents similaires ont été trouvés dans l'historique. »
  • Recommandation: L'agent SRE propose une solution : « Exécuter le flux de travail d'optimisation de la base de données. »
  • Remédiation : Après une rapide vérification intuitive, l'intervenant clique sur le bouton. Le processus s'exécute, la latence diminue et l'incident est résolu.

Dans cet exemple, des humains ont été consultés pour toute décision importante, comme la mise en œuvre de la correction des problèmes. Mais le temps consacré à des tâches à faible valeur ajoutée a été considérablement réduit. Le développeur a ainsi pu reprendre le développement plus rapidement.

La voie vers les opérations autonomes

Votre équipe ne devrait pas être submergée d'alertes alors que l'IA complexifie encore davantage la situation. L'approche de PagerDuty en matière d'opérations autonomes :

  • Déploie des agents intelligents à grande échelle : ils gèrent le bruit, accélèrent la résolution et vous tiennent informé des points importants.
  • Approfondit le cycle de vie complet de la gestion des incidents en permettant aux équipes de résoudre les incidents plus rapidement.
  • Élargit la plateforme et l'écosystème grâce à des fonctionnalités qui aident les équipes à prévenir les incidents.

L'agent SRE de PagerDuty ouvre la voie à des opérations autonomes. Grâce aux workflows d'incidents pour le déclenchement automatisé et à de nouveaux connecteurs, outils et compétences permettant de décloisonner les données, l'agent SRE peut effectuer le triage et le diagnostic sans interrompre l'intervention humaine. Les utilisateurs peuvent collaborer étroitement avec l'agent pour mener les actions appropriées et résoudre les incidents depuis l'interface de leur choix : chat, console d'opérations ou page de détails de l'incident. Ensemble, ces améliorations permettent aux développeurs de gagner un temps précieux et de lutter efficacement contre les incidents, épaulés par un agent SRE fiable.

Envie de tester certaines des fonctionnalités en accès anticipé dont vous avez entendu parler ? Inscrivez-vous ici ou contactez votre équipe PagerDuty .

 

 

Ce blog contient des déclarations prospectives, notamment concernant la disponibilité prévue de nouvelles fonctionnalités. Ces déclarations prospectives ne constituent pas une garantie de performance future et comportent des risques importants susceptibles d'entraîner une différence entre nos résultats réels et ceux exprimés ou sous-entendus par ces déclarations. Pour une description complète de ces risques, veuillez consulter le formulaire 10-K le plus récent de la Société ainsi que les documents déposés ultérieurement auprès de la SEC, disponibles sur le site web de la SEC à l'adresse http://www.sec.gov.