Surveillance par IA et opérations de longue durée avec PagerDuty
Cet article a été rédigé par Mitra Goswami, Ralph Bird, Everaldo Aguiar et Scott Sieper.
Ces deux dernières années, l'intelligence artificielle générative (GenAI) a considérablement évolué, passant de l'enthousiasme initial suscité par ChatGPT aux premières explorations et au déploiement croissant de fonctionnalités basées sur la GenAI en production. Face à cette évolution constante, ponctuée d'avancées quasi quotidiennes, l'équipe PagerDuty est restée mobilisée pour analyser tous les aspects de cette transformation et la manière d'exploiter la GenAI en toute sécurité afin d'améliorer notre produit et de mieux vous accompagner dans le vôtre.
Le PagerDuty Operations Cloud Elle se distingue par son utilisation de l'IA et du ML pour aider les équipes à éliminer les alertes superflues, améliorer le triage, gérer les incidents et en tirer des enseignements, automatiser les tâches et fluidifier la communication. À cet égard, nous avons récemment annoncé… PagerDuty Advance , ce qui ajoute une couche de capacités GenAI à nos fonctionnalités et apporte des améliorations tangibles au cycle de vie de la gestion des incidents.
Des milliers d'utilisateurs comptent sur nous pour maintenir un haut niveau de confiance dans leurs produits. Or, tout comme une panne de serveur peut ébranler cette confiance, une « hallucination de modèle » peut avoir le même effet. Si la surveillance des infrastructures traditionnelles est un domaine que nous maîtrisons parfaitement, la surveillance des modèles d'IA (en particulier les LLM) représente un nouveau défi. C'est pourquoi nous souhaitons partager quelques enseignements tirés de notre expérience et notre vision de la surveillance de l'IA pour l'avenir.
Le rôle d'opérateur de basse dépendance (LLMOps) diffère à plusieurs égards des autres rôles d'exploitation. Les entreprises, des startups aux grands acteurs traditionnels, proposent divers outils pour faciliter ce processus. Qu'il s'agisse de garde-fous pour bloquer les contenus inappropriés en temps réel ou d'une surveillance permettant d'identifier les problèmes de performance, ces outils se combinent pour fournir une boîte à outils aux ingénieurs afin de les aider à exploiter l'IA de génération de génération (GenAI) en production. Mais contrairement à l'exploitation traditionnelle, où un système est soit « allumé », soit « éteint », comment gérer la sortie d'un modèle de basse dépendance (LLMOps) par nature non déterministe et fortement dépendante des entrées de l'utilisateur ?
Ce non-déterminisme et cette sensibilité aux entrées rendent la surveillance plus difficile. Le signal que vous observez correspond-il à un problème réel, à un changement de comportement de l'utilisateur ou à une fluctuation aléatoire des données du LLM ? Comment savoir s'il faut alerter vos ingénieurs ou les laisser se reposer ? Prenons ces deux exemples :
Surveillance de sécurité : Surveillance et alertes en temps réel en cas de jailbreak
Vous avez un système de surveillance bloquant les jailbreaks. Il vient d'être déclenché. Quelqu'un tente-t-il de pirater votre système et de divulguer votre adresse IP ? Avant de déclarer un incident de sécurité, il est essentiel de déterminer s'il s'agit d'une simple augmentation du taux normal de faux positifs ou d'une attaque délibérée. L'automatisation déclenchée par l'événement envoyé à PagerDuty peut s'avérer utile. Un simple script permet de déterminer si le déclenchement est dû à un seul utilisateur (une attaque probable – il est temps d'alerter) ou à de nombreux utilisateurs (un bruit de fond plus probable – il est temps de les laisser tranquilles). Ce tri automatique nous permet de paramétrer un seuil bas pour la surveillance afin de détecter toutes les attaques, tout en laissant nos ingénieurs travailler sans se soucier des fausses alertes.
Montre de qualité : surveillance intelligente et alertes en temps réel
De nombreuses entreprises font appel à un prestataire tiers pour leurs modèles LLM. Cette dépendance introduit un risque de défaillance : toute modification du modèle peut altérer la qualité des résultats. Comment détecter ce risque ? La première étape consiste à surveiller les paramètres clés (nous privilégions ici des indicateurs rapides et peu coûteux, comme la longueur des résultats ou la pertinence des réponses, évaluée à l’aide d’un modèle simple). Cela permet de constater d’éventuels changements, mais sont-ils liés au modèle ? À une interaction différente des utilisateurs avec le produit ? Ou s’agit-il simplement d’une variation aléatoire due au caractère non déterministe d’un LLM ? La meilleure solution est d’exécuter un jeu de données de test avec des réponses connues et de vérifier si un changement est survenu (par exemple, en faisant intervenir le LLM comme juge). Là encore, l’automatisation permet de déclencher ce test afin que l’ingénieur alerté dispose des informations nécessaires pour enquêter sur l’incident.
Automatisation et flux de travail
PagerDuty permet aux équipes de créer des procédures d'intervention décrivant les étapes de dépannage et de résolution des problèmes courants liés aux LLM. Ces procédures peuvent être déclenchées automatiquement en réponse à des incidents spécifiques, ce qui contribue à standardiser et à accélérer les interventions au sein de l'équipe. Avec l'essor de l'IA, ces procédures deviendront intelligentes. Au lieu de suivre un flux de travail prédéfini, elles diagnostiqueront le problème, entreprendront des actions correctives à faible risque (comme le lancement d'une formation de recyclage) et n'alerteront un ingénieur que si une autorisation est nécessaire pour entreprendre des actions plus risquées (comme le blocage de l'accès d'un utilisateur).
Intégrations
PagerDuty s'intègre avec Arize, fournisseur de solutions de surveillance des opérations LLM.
L'intégration d'Arize et de PagerDuty Arize surveille vos modèles de production et envoie des alertes à PagerDuty lorsqu'ils s'écartent d'un certain seuil. Associés à PagerDuty , Arize permet à vos équipes de rester informées, de transmettre des métadonnées plus complètes via les alertes et de déboguer vos modèles plus rapidement que jamais. Arize facilite le suivi des performances du ML, la surveillance des données non structurées et la surveillance automatisée des modèles.
Conclusion
Avec l'essor de l'IA, et notamment de l'IA générale, les entreprises seront confrontées à des défis croissants pour garantir la fiabilité et la sécurité de leurs systèmes. La surveillance est une première étape essentielle, mais comment optimiser la valeur ajoutée des alertes générées tout en minimisant les perturbations pour vos équipes, sans une gestion adéquate ? C'est là que PagerDuty, et plus particulièrement ses fonctionnalités d'automatisation, intervient. En réduisant le bruit et en fournissant aux ingénieurs les informations nécessaires, PagerDuty permet de diminuer les incidents, d'améliorer les performances et de garantir un service optimal à vos clients.