Mettre l’« action » dans les renseignements exploitables
L'AIOps combine l'apprentissage automatique et les personnes pour fournir des résultats techniques dans les opérations informatiques. La promesse de cette capacité continue d'attirer de nouveaux concurrents sur le marché. L'AIOps est devenu un composant de messagerie essentiel pour tous les principaux acteurs de la gestion d'événements. Beaucoup d'entre eux ont simplement rebaptisé leurs produits pour mettre spécifiquement en avant Fonctionnalités AIOps . De nouveaux acteurs de la gestion d'événements sont arrivés et ont également essayé de s'emparer de l'espace AIOps. Presque tous les fournisseurs d'observabilité et d'APM ont fait de même, affirmant qu'ils étaient désormais l'outil AIOps de choix.
Qu'est-ce que AIOps ?
Mais prenons un peu de recul et soyons réalistes pendant une minute. L’AIOps n’est pas un outil, c’est un ensemble de fonctionnalités. Par conséquent, l’AIOps en tant qu’ensemble de produits est difficile à définir, un peu comme si vous prétendiez que votre outil est l’outil DevOps de choix. Même les analystes les plus réputés du secteur ne sont pas d’accord sur ce que devrait être l’approche de base de l’AIOps et sur les heuristiques spécifiques de l’AIOps. Malgré ces divergences, nous, les praticiens, pouvons sans risque classer la grande majorité des solutions AIOps en deux camps principaux.
Option 1 : Surveillance des applications
Les outils de surveillance des applications occupent la première place. Cette approche centrée sur la surveillance vise à exploiter les métriques, les indicateurs clés de performance, les journaux, etc., et à utiliser l’apprentissage automatique et l’analyse des tendances pour faire des prévisions, ce qui permet d’émettre des alertes plus intelligentes et plus tôt. L’avantage est qu’en surveillant tout, vous pouvez potentiellement vous rapprocher d’une cause fondamentale. L’inconvénient est que vous finissez par répliquer la surveillance ou par devoir supprimer et remplacer de grandes parties de votre ensemble d’outils actuel pour exploiter ces ensembles d’outils. De plus, l’instrumentation de l’ensemble de votre réseau, de votre stockage, de vos applications, de votre surveillance des performances, etc. avec un seul outil peut être coûteuse, en particulier lorsque vous remplacez des outils de surveillance « suffisamment performants ».
Option 2 : Gestion d'événements
La deuxième approche est gestion d'événements Ce groupe de solutions maintient une vue indépendante du domaine en intégrant une surveillance disparate, et vous vous retrouvez avec un type de capacité NOC centralisé qui se concentre sur un résultat à panneau unique. Cette approche permet de centraliser toutes les informations disparates, idéalement pour prendre de meilleures décisions. Cependant, vous pouvez vous retrouver avec un goulot d'étranglement des capacités, car vous devez disposer d'un emplacement centralisé pour mettre à jour les règles. De plus, le dimensionnement de la solution peut être difficile car de nombreux fournisseurs ont des mesures de facturation différentes basées sur des données telles que l'utilisation de pointe, l'utilisation quotidienne moyenne, le nombre de nœuds ou le nombre de sources d'événements.
Ces deux approches omettent de préciser que même si l’on parvient à identifier la cause fondamentale « parfaite », il manque la question « et maintenant ? ». Comment résoudre le problème ? Les équipes qui utilisent ces solutions se retrouveront toujours avec des questions cruciales qui les aideront à lutter contre le problème. Quel service est concerné ? Qui est le propriétaire de ce service ? Qui est de garde ? Quels sont les diagnostics nécessaires ? Quelle automatisation peut être déployée ?
Sans ces réponses, le rétablissement du service peut être douloureux.
Une meilleure solution AIOps
PagerDuty relève ce défi pour résoudre le problème du travail en temps réel ignoré par la plupart des solutions AIOps. Nous aidons à réduire le bruit, créons le contexte pour isoler la cause profonde et conduisons l'automatisation pour réduire le travail et rétablir le service. Avec PagerDuty, les équipes peuvent tirer parti d'une approche de propriété de service complet pour aider les constructeurs et les innovateurs à mettre leurs solutions sur le marché plus rapidement que leurs concurrents et à créer de la valeur pour leurs clients. Plutôt que de procéder à tout type de suppression et de remplacement, nous exploitons les outils, les équipes et les capacités dont vous disposez déjà pour vous aider rapidement à remporter des victoires opérationnelles tactiques tout en vous soutenant dans la création d'avantages stratégiques plus larges pour la transformation numérique.
Approche de l'automatisation en premier
Notre approche axée sur l'automatisation Vous pouvez transformer la façon dont vos équipes travaillent aujourd'hui en exploitant Rundeck, notre plateforme d'orchestration de cahiers d'exécution, en tant que premier intervenant. Grâce à Rundeck, les équipes peuvent souvent résoudre les problèmes sans jamais mobiliser une équipe. Cette résolution automatisée peut grandement améliorer le MTTR, mais tout aussi important, elle peut permettre à vos experts en la matière de rester concentrés sur leur travail quotidien. Si l'automatisation ne peut pas résoudre immédiatement le problème, nos diagnostics automatisés peuvent créer un contexte pour les premiers intervenants afin qu'ils puissent comprendre les services affectés, l'impact sur le client et les implications du SLA. De cette façon, ils peuvent recueillir des informations à partir des journaux, des scripts et des procédures qui les guideront dans la conduite de leurs réponses automatisées. Tout cela crée une piste d'audit complète qui améliore les post-mortem et la gestion des problèmes ITSM pour éviter les problèmes à l'avenir.
Notre plateforme s'appuie sur une fonctionnalité de configuration d'API qui permet aux grandes organisations ou à plusieurs équipes de gérer leurs données en libre-service. Ainsi, plutôt que de dépendre d'une équipe centralisée pour mettre à jour les règles ou gérer les configurations, les administrateurs peuvent exploiter des référentiels et des outils tels que Terraform pour garantir que les équipes obtiennent rapidement les mises à jour dont elles ont besoin sans avoir à se soucier des fonctionnalités centralisées uniquement.
Nous pensons qu'une approche en libre-service axée sur l'automatisation, basée sur les données et réunissant les équipes et l'apprentissage automatique pour résoudre les problèmes plutôt que de simplement trouver la cause profonde, tient la promesse de l'AIOps. En tirant parti de votre surveillance suffisamment bonne et de la meilleure qualité, lorsque cela est approprié, cette approche indépendante du domaine vous permet de vous concentrer sur la transmission des bonnes informations aux bonnes personnes au bon moment, lorsque chaque seconde compte. En mettant l'action dans des renseignements exploitables, nous pouvons réduire le bruit et la fatigue des alertes, permettre aux premiers intervenants de résoudre les problèmes, réduire le travail et permettre aux constructeurs et aux innovateurs de fournir de nouvelles capacités au lieu de simplement traquer les incidents.