Blog

Mettre l’« action » au cœur du renseignement exploitable

par Heath Newburn 24 février 2022 | 5 min de lecture

L'AIOps combine l'apprentissage automatique et l'expertise humaine pour optimiser les opérations informatiques. Le potentiel de cette technologie continue d'attirer de nouveaux acteurs sur le marché. L'AIOps est devenue un argument de vente central pour tous les grands acteurs de la gestion d'événements. Nombre d'entre eux ont d'ailleurs récemment rebaptisé leurs produits pour mettre en avant cette technologie. fonctionnalités AIOps De nouveaux acteurs de la gestion d'événements ont fait leur apparition et ont tenté de s'imposer sur le marché de l'AIOps. Presque tous les fournisseurs de solutions d'observabilité et d'APM ont suivi la même voie, affirmant être désormais l'outil AIOps de référence.

Qu'est-ce que l'AIOps ?

Mais prenons un peu de recul et soyons réalistes un instant. L'AIOps n'est pas un outil, mais un ensemble de capacités. Par conséquent, définir l'AIOps comme une offre de produits est complexe, un peu comme prétendre que son outil est l'outil DevOps de référence. Même les analystes les plus réputés du secteur divergent quant à l'approche fondamentale et aux heuristiques spécifiques de l'AIOps. Malgré ces divergences, nous, praticiens, pouvons sans risque classer la grande majorité des solutions AIOps en deux grandes catégories.

Option n° 1 : Surveillance des applications

Les outils de supervision applicative dominent le premier camp. Cette approche centrée sur la supervision vise à exploiter les métriques, les indicateurs clés de performance (KPI), les journaux, etc., et à utiliser l'apprentissage automatique et l'analyse des tendances pour effectuer des prédictions, permettant ainsi des alertes plus pertinentes et plus rapides. L'avantage principal est qu'en supervisant l'ensemble des éléments, il est possible de se rapprocher de la cause première d'un problème. L'inconvénient est qu'il faut soit dupliquer la supervision, soit remplacer une grande partie des outils existants pour tirer parti de ces nouvelles solutions. De plus, l'instrumentation de l'ensemble du réseau, du stockage, des applications, de la supervision des performances, etc., avec un seul outil peut s'avérer coûteuse, notamment lorsqu'il s'agit de remplacer des outils de supervision jugés « suffisants ».

Option n° 2 : Gestion d'événements

La deuxième approche est gestion d'événements Ce groupe de solutions offre une vision globale et indépendante du domaine en intégrant des systèmes de surveillance hétérogènes. Il en résulte une infrastructure NOC centralisée offrant une vue unifiée. Cette approche promet de centraliser toutes les informations disparates, idéalement pour une meilleure prise de décision. Cependant, un goulot d'étranglement peut se produire, car la mise à jour des règles nécessite un point central. De plus, le dimensionnement de la solution peut s'avérer complexe, car de nombreux fournisseurs appliquent des modèles de facturation différents, basés sur des données telles que la consommation de pointe, la consommation quotidienne moyenne, le nombre de nœuds ou le nombre de sources d'événements.

Ces deux approches omettent un point essentiel : même en identifiant la cause racine « parfaite », la question « et maintenant ? » reste sans réponse. Comment résoudre le problème ? Les équipes utilisant ces solutions se retrouvent confrontées à des questions cruciales pour gérer la situation d'urgence. Quel service est affecté ? Qui en est responsable ? Qui est d'astreinte ? Quels diagnostics sont nécessaires ? Quelles automatisations peuvent être déployées ?

Sans ces réponses, le rétablissement du service peut s'avérer difficile.

Une meilleure solution AIOps

PagerDuty relève ce défi pour résoudre le problème du travail en temps réel que la plupart des solutions AIOps ignorent. Nous contribuons à réduire les perturbations, à contextualiser les problèmes pour en identifier la cause profonde et à automatiser les processus afin de réduire la charge de travail et de rétablir le service. Avec PagerDuty, les équipes bénéficient d'une prise en charge complète du service, permettant ainsi aux développeurs et aux innovateurs de commercialiser leurs solutions plus rapidement que leurs concurrents et d'apporter une valeur ajoutée à leurs clients. Plutôt que de tout remplacer, nous tirons parti des outils, des équipes et des compétences déjà en place pour vous aider à obtenir rapidement des résultats opérationnels concrets, tout en vous accompagnant dans la construction d'avantages stratégiques plus larges pour votre transformation numérique.

Approche axée sur l'automatisation

Notre approche axée sur l'automatisation Transformez le fonctionnement de vos équipes dès aujourd'hui en tirant parti de Rundeck, notre plateforme d'orchestration de procédures opérationnelles, comme premier intervenant. Grâce à Rundeck, les équipes peuvent souvent résoudre les problèmes sans mobiliser d'équipe. Cette résolution automatisée améliore considérablement le MTTR et, tout aussi important, permet à vos experts de se concentrer sur leurs activités principales. Si l'automatisation ne peut pas résoudre immédiatement le problème, nos diagnostics automatisés fournissent aux intervenants de première ligne le contexte nécessaire pour comprendre les services affectés, l'impact sur les clients et les conséquences sur les SLA. Ils peuvent ainsi collecter des informations à partir des journaux, des scripts et des procédures afin de piloter leurs réponses automatisées. L'ensemble de ces éléments crée une piste d'audit complète qui améliore les analyses post-mortem et la gestion des problèmes ITSM, permettant ainsi d'éviter les incidents futurs.

Notre plateforme s'appuie sur une API de configuration permettant aux grandes organisations ou aux équipes multiples de gérer leurs ressources en toute autonomie. Ainsi, au lieu de dépendre d'une équipe centralisée pour la mise à jour des règles ou la gestion des configurations, les administrateurs peuvent utiliser des référentiels et des outils comme Terraform pour garantir aux équipes un accès rapide aux mises à jour nécessaires, sans les contraintes liées à une gestion exclusivement centralisée.

Nous sommes convaincus qu'une approche axée sur l'automatisation, les données et le libre-service, qui réunit les équipes et l'apprentissage automatique pour résoudre les problèmes plutôt que de simplement en identifier la cause, tient la véritable promesse de l'AIOps. En tirant parti de votre système de surveillance actuel et des meilleures solutions existantes, cette approche indépendante du domaine vous permet de vous concentrer sur la diffusion de la bonne information aux bonnes personnes au bon moment, lorsque chaque seconde compte. En transformant l'action en renseignements exploitables, nous pouvons réduire le bruit et la surcharge d'alertes, permettre aux équipes d'intervention de résoudre les problèmes, alléger la charge de travail et permettre aux développeurs et aux innovateurs de fournir de nouvelles fonctionnalités au lieu de simplement réagir aux incidents.