Blog

Décomposer la surveillance

par Patrick O'Fallon 6 octobre 2016 | 5 minutes de lecture

mangagedmonitoringconsole La surveillance est essentielle à la proactivité soutenue de votre ITOps Architecture. Ces dernières années, nous avons assisté à une explosion du nombre et des types d'outils de « surveillance ». Si cet écosystème d'outils en constante expansion a considérablement accru la visibilité des équipes ITOps, l'intégration de cette vaste gamme d'outils a parfois pour effet secondaire de générer encore plus de bruit. Ce paradoxe « visibilité et bruit » a transformé le paysage de la surveillance en un véritable cercle vicieux pour de nombreux services informatiques, tandis que d'autres ont rationalisé leur proactivité pour résoudre les problèmes. Examinons le paysage de la surveillance et construisons un environnement intégré performant.

La surveillance se décompose en types d’outils :

  • Surveillance des performances des applications (APM) : En regardant uniquement la couche applicative
  • Analyse des journaux : Généralement dirigé vers la couche d’infrastructure.
  • Surveillance des exceptions : Configuration d'alertes pour chaque bloc d'exception au niveau du code.
  • Surveillance des artefacts : S'assurer que tous les artefacts et composants de l'application sont exempts de vulnérabilités et à jour.
  • Gestion des incidents : Intégrez-vous à n'importe quelle partie de la pile et assurez-vous de savoir immédiatement quand quelque chose ne va pas.

Certains outils englobent plusieurs types de surveillance, tandis que certaines organisations n'en requièrent qu'un seul. Cependant, toute organisation a besoin d'une gestion des incidents, car quelle que soit la surveillance effectuée en amont, si le système effectue une surveillance sans intervention, il perd sa valeur.

Vous trouverez ci-dessous quelques indicateurs clés de performance (KPI) typiques qui sont enregistrés et surveillés pour les alertes :

  • Performance (CPU, Disque, Mémoire, Réseau, Utilisation)
    • Il s'agit d'un élément essentiel de toute pile de surveillance, qui inclut la surveillance des performances et de l'utilisation des équipements critiques tels que le processeur, le disque, la mémoire et le réseau. Les signaux d'alerte à surveiller sont une utilisation excessive, des erreurs d'E/S ou des pannes prédictives.
  • Temps de disponibilité (Disponibilité des ressources, disponibilité du serveur, disponibilité du réseau)
    • Ces incidents sont généralement classés comme des tickets de réponse prioritaires, car ils indiquent qu'un de vos serveurs, périphériques réseau ou ressources clés ne fonctionne plus. Ce problème peut être détecté simplement par l'accès au réseau ou la disponibilité du service.
  • Événements d'application/système (Erreurs, Requêtes, Avertissements, Échecs)
    • Cette catégorie permet de suivre les erreurs et les événements sur les applications et systèmes clés. Par exemple, la surveillance des erreurs et des requêtes HTTP sur un serveur web ou la surveillance des services qui alimentent un composant applicatif particulier.
  • Sécurité (IDS/IPS, gestion des informations d'identification, détection des incidents)
    • Tout ce qui touche à la sécurité et à la visibilité. Cela inclut la surveillance de votre pare-feu, de vos terminaux, de vos services de chiffrement et de vos autres systèmes de sécurité. La surveillance des intrusions détectées et des tentatives de connexion infructueuses fait partie des nombreuses alertes de sécurité que vous pouvez mettre en place.
  • Enregistrement (Services Syslog, SNMP, agrégation de journaux, enrichissement et notification)
    • Services d'agrégation et d'enrichissement des journaux. Par exemple, l'envoi de notifications réseau et de sécurité à un serveur Syslog ou à un outil tiers permet d'enrichir vos données de journal et de générer des alertes basées sur les données.

Le bruit est l'ennemi

Dans tout service informatique, que vous travailliez en interne ou en tant que consultant, le bruit est l'ennemi numéro un. C'est unanime. Le temps est notre bien le plus précieux, et dès que notre journée est consacrée à la gestion réactive des incidents, il est temps de repenser les économies que la simplification des processus de surveillance et d'alerte aurait pu nous faire réaliser. La première étape pour atteindre cet objectif consiste à garantir un niveau fondamental de votre stratégie de surveillance. Cela comprend la mise en place d'un suivi des incidents pour les services critiques à haut niveau de service (SLA) tels que le trafic réseau, la disponibilité des serveurs, la disponibilité des applications, les services de sécurité et l'utilisation des ressources. Une fois ce niveau fondamental en place, les équipes ITOps bénéficient d'une visibilité et d'informations essentielles pour prévenir les violations des SLA produits.

La plupart des outils et systèmes disponibles proposent des modèles prédéfinis pour faciliter la remise en production de ces services critiques. Cependant, la configuration de seuils et de priorités d'incidents appropriés est primordiale pour réduire le bruit et améliorer la visibilité. Configurer les seuils de CPU, de disque, de mémoire et de réseau en fonction des besoins de votre équipe ITOps requiert une certaine finesse. L'essentiel est de définir ces seuils afin de donner à votre équipe suffisamment d'avance pour réagir aux problèmes et identifier les incidents prioritaires.

Une fois le cadre de surveillance de base configuré, il est temps de passer à une surveillance plus intelligente des services, comme l'analyse des logs, la connaissance des applications, la veille opérationnelle et la détection des intrusions. L'utilisation d'outils comme Splunk peut fournir une quantité considérable d'informations multiplateformes aux équipes ITOps et SecOps. Plus précisément, des outils comme Rollbar et Errorception peuvent aider les équipes de développement à obtenir une visibilité sur les informations applicatives en générant des incidents pour les erreurs de code. De plus, les outils Rapid7, AlienVault et Threat Stack peuvent contribuer à optimiser la surveillance de la sécurité et la veille sur les menaces. Quel que soit l'ensemble d'outils le mieux adapté à votre environnement, l'objectif reste le même : réduire le bruit des alertes et accélérer le délai moyen de résolution (MTTR).

Il est temps de passer à l'action

Une fois les bases de surveillance solides en place, nous pouvons ensuite nous concentrer sur l'actionnabilité. Comment traduire les alertes en actions concrètes, surtout si nous exploitons plusieurs outils pour optimiser notre surveillance ? C'est là qu'il est crucial d'agréger les alertes de plusieurs outils de surveillance en une seule solution. plateforme de gestion des incidents Les plateformes de gestion des incidents comme PagerDuty peuvent non seulement connecter les services informatiques critiques, mais aussi exploiter les données d'événements générées pour recruter et alerter immédiatement les équipes compétentes. Elles transforment les problèmes générés par vos systèmes de surveillance en alertes et incidents. De plus, les politiques d'escalade automatisées permettent à votre équipe de résoudre rapidement et efficacement les incidents en garantissant qu'un intervenant intervienne. C'est le point crucial pour maximiser le retour sur investissement de vos outils de surveillance.

Étapes pour décomposer la surveillance

  • Fondation: Détection d'incidents de base et avancée
  • Enrichissement: Déduplication, seuillage et priorisation
  • Actionnabilité : Notification et alerte
  • Succès: Agilité opérationnelle accrue et MTTR réduit

Grâce à un cadre de surveillance solide, les équipes ITOps disposent des outils et de la visibilité nécessaires pour être proactives dans leurs opérations et réagir plus rapidement aux incidents. L'objectif n'est pas de submerger les équipes ITOps d'alertes, mais de générer et de détecter les alertes critiques nécessitant une action immédiate.

Le bruit a un coût : en termes de coûts de personnel, de perte de productivité, de temps d'arrêt et même de perte de revenus. En vous assurant de disposer d'un cadre de surveillance adapté et d'une plateforme de gestion des incidents qui centralise, classe et enrichit les événements vous pouvez éviter le paradoxe « visibilité et bruit ».