• PagerDuty
    /
  • Blog
    /
  • IA
    /
  • Votre prochain incident a déjà commencé. Vous ne l'avez simplement pas encore remarqué.

Blog

Votre prochain incident a déjà commencé. Vous ne l'avez simplement pas encore remarqué.

par David Williams 24 octobre 2025 | 4 min de lecture

Le meilleur moyen de minimiser l'impact d'un incident est de le détecter au plus tôt, avant que de petits problèmes ne se transforment en perturbations majeures. Cela implique de maintenir des systèmes performants et de garantir la disponibilité de ressources suffisantes en cas de problème. Cependant, les développeurs et les professionnels de l'exploitation informatique travaillant dans les grandes entreprises sont confrontés à un défi : Les systèmes complexes fonctionnent dans un état intrinsèquement dégradé. Dans son essai « Comment les systèmes complexes échouent « La complexité de ces systèmes rend impossible leur fonctionnement sans la présence de multiples défauts », écrit le Dr Richard Cook.

Pour renforcer la résilience, les équipes techniques doivent d'abord comprendre les mécanismes de défaillance d'un système complexe. Ensuite, elles doivent s'efforcer de résoudre proactivement ces défaillances avant qu'elles ne se transforment en incidents majeurs.

Historiquement, ce niveau de résilience s'est avéré difficile à atteindre. Les systèmes sont généralement trop vastes et complexes pour permettre une surveillance proactive de chaque aspect. Cependant, avec l'avènement de l'IA agentielle, les directeurs techniques et les directeurs informatiques disposent désormais d'un outil puissant pour pallier ce déséquilibre.

La tempête parfaite : comment des changements mineurs peuvent déclencher un incident

Les systèmes complexes sont souvent à un incident mineur près de connaître une défaillance catastrophique. Mike Hamilton, DSI de Cloudflare. Intervention lors de la tournée PagerDuty , a noté que « la grande majorité des incidents majeurs qui se produisent sur notre plateforme commencent par la genèse d'un changement qui a été déployé ».

En soi, annuler une modification ne devrait pas poser de problème. Cependant, dans un système complexe, la dette technique, le cloisonnement des opérations et le manque de visibilité sur les dépendances peuvent rapidement transformer un incident mineur en catastrophe.

Deux incidents réels montrent à quel point cela peut se produire facilement.

Perturbation de Slack

Le 4 janvier 2021, un problème mineur de routage réseau chez le fournisseur de cloud de Slack a provoqué une perte de paquets généralisée, perturbant la communication entre les services backend.

Les systèmes de mise à l'échelle automatique de Slack ont tenté de déployer une nouvelle infrastructure, mais le provisionnement a échoué en raison du même problème réseau sous-jacent. Par conséquent, des services opérationnels ont été marqués par erreur comme défaillants, provoquant des redémarrages en cascade et des suppressions de services.

En quelques minutes, un petit problème de routage s'est transformé en incident de plusieurs heures qui a affecté les connexions, la messagerie et les téléchargements de fichiers dans le monde entier.

Incident rapide

Le 8 juin 2021, une modification de configuration a révélé un problème jusque-là inconnu. Bug logiciel dans l'infrastructure périphérique de Fastly ce qui a entraîné une interruption de service de près d'une heure.

Même si la surveillance interne a rapidement détecté le problème, les basculements et les redondances automatisés n'ont pas pu empêcher son impact généralisé, et des sites web majeurs comme Amazon, Reddit et CNN sont devenus inaccessibles.

Slack et Fastly ont tous deux subi des incidents déclenchés par une simple modification. Dans les deux cas, la complexité du système a rendu presque impossible d'anticiper les répercussions de cette modification.

Quelles sont les conséquences de l'échec ?

Avec les réseaux sociaux qui amplifient le signal, les dommages à la réputation suite à un incident peuvent être considérables et graves. « Quand la technologie fait défaut, les clients ne blâment pas la technologie ; ils blâment votre marque. » notes de Jeff Hausman « Même un incident mineur peut avoir des conséquences coûteuses à long terme », a déclaré le directeur du développement produit de PagerDuty.

Les conséquences se font sentir en quelques minutes, et non en quelques heures. Pourtant, le coût de ces dégâts est énorme. En 2024 enquête menée par Information Technology Intelligence Consulting 41 % des entreprises prévoyaient qu'un incident majeur leur coûterait cher. De 1 million à 5 millions de dollars par heure.  

Comment renforcer la résilience et anticiper les défaillances grâce à l'IA agentielle

L'IA agentique contribue à la résolution des incidents de plusieurs manières. Dans les situations bien comprises, où la cause de la dégradation est connue, les agents d'IA peuvent exécuter une remédiation automatique qui corrige le problème sans l'intervention de l'ingénieur SRE. Dans les incidents partiellement compris, ils peuvent suggérer une procédure à l'ingénieur SRE et fournir un contexte historique précieux qui aide les intervenants à prendre des décisions.

Tout aussi important, l'IA agentive peut déceler des signaux d'alerte précoces que les humains ne remarqueraient pas autrement. En s'appuyant sur les enseignements tirés d'incidents antérieurs, elle établit des liens de manière proactive afin de repérer des problèmes bien connus avant qu'ils ne dégénèrent en incident.

Les agents d'IA sont toujours actifs et analysent en permanence. Ils traitent l'intégralité de votre flux d'événements, utilisant les données historiques et actuelles pour repérer les tendances avant même que les humains ne les détectent. Grâce à ces données, ils peuvent suggérer des actions et même exécuter des automatisations à la place de l'intervenant.

Il en résulte un filtrage des faux positifs, des pics transitoires et autres perturbations, une réduction des interventions manuelles et la possibilité pour les experts de se concentrer sur les incidents nécessitant leur expertise. Dans les cas bien compris, un SRE proactif peut agir pour contenir le problème avant qu'il n'affecte l'expérience client.

Donnez les moyens aux experts, améliorez votre résilience

Vos experts possèdent les connaissances approfondies et la compréhension du contexte qui font d'eux les personnes les plus aptes à gérer des problèmes complexes. Pourtant, ils sont souvent cantonnés à des tâches manuelles. Les agents d'IA aident les équipes à s'en affranchir.

Les agents d'IA aident les équipes à gérer les tâches imprévisibles engendrées par des systèmes plus complexes que jamais, en consacrant moins de temps aux opérations et plus de temps à l'innovation. Il en résulte des experts plus performants, des systèmes résilients et une reprise d'activité plus rapide en cas d'incident.

Explorer L'IA de PagerDuty pour les opérations critiques Pour en savoir plus.