- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Surveillance des meilleures pratiques apprises lors des pannes informatiques
Blog
Surveillance des meilleures pratiques apprises lors des pannes informatiques
Article invité d'Alexis Lê-Quôc, co-fondateur et CTO de Datadog Datadog est un service de surveillance destiné aux équipes informatiques, opérationnelles et de développement qui souhaitent transformer les quantités massives de données produites par leurs applications, outils et services en informations exploitables.
À Datadog Nous mangeons notre propre… nourriture pour chien. Nous suivons des centaines de milliers d'indicateurs en interne. Apprendre sur quoi émettre des alertes et quoi surveiller nous a pris du temps. Tous les indicateurs ne se valent pas, et nous avons trouvé une méthode simple pour les gérer, accessible à tous. Voici comment nous procédons.
Objectifs de suivi
Pourquoi consacreriez-vous du temps à obtenir une meilleure surveillance ?
- Être informé d'un problème avant vos clients ou votre patron
- Pour connaître les performances de vos systèmes et applications
- Pour minimiser votre niveau de stress
Classification des métriques
Quels types de métriques votre outil de surveillance suit-il ? Exemples : utilisation du processeur, utilisation de la mémoire, requêtes de base de données ou requêtes web. Il existe de nombreux types de métriques différents, répartis en deux catégories fondamentales : le travail et les ressources.
Indicateurs de travail
Une métrique de travail mesure la quantité de données utiles produites par votre système ou application. Par exemple, nous pouvons examiner le nombre de requêtes auxquelles répond une base de données ou le nombre de pages traitées par un serveur web par seconde. Le rôle d'une base de données est de répondre aux requêtes. Le rôle d'un serveur web est de traiter les pages. Ce sont donc des métriques de travail appropriées.
Un autre indicateur de performance serait de savoir combien d'argent votre application génère. C'est un indicateur très utile pour suivre la disponibilité et comprendre l'efficacité de votre application et de votre infrastructure.
Mesures des ressources
L'autre catégorie concerne les métriques de ressources. Une ressource est un élément utilisé pour produire quelque chose d'utile. On l'utilise pour produire du travail. Une métrique de ressources mesure donc la quantité consommée pour produire du travail. La question « Quelle est la quantité de CPU que je consomme dans la base de données ? » ne dit pas grand-chose sur son utilité. Elle indique simplement : « J'ai plus de CPU disponible » ou « Je suis au maximum de ma capacité et mon CPU est complètement saturé. » Il en va de même pour la mémoire, le disque, le réseau, etc. En général, j'utilise les métriques de ressources pour la planification de la capacité plutôt que pour la gestion de la disponibilité.
Optimiser votre surveillance
Maintenant que nous avons défini les mesures de travail et de ressources, nous pouvons passer aux meilleures pratiques. Classer les mesures clés comme travail ou ressources
1. Classer les indicateurs clés en travail ou en ressources
Examinez vos indicateurs clés, en particulier ceux qui vous intéressent vraiment, et déterminez s’il s’agit d’indicateurs de travail ou d’indicateurs de ressources.
2. Alerte uniquement sur les indicateurs de travail
Une fois cette classification effectuée – et il est essentiel d'y consacrer du temps –, vous devez identifier les éléments pour lesquels vous souhaitez être alerté. Vous souhaitez uniquement être alerté sur les indicateurs de travail.
En d’autres termes, vous souhaitez être alerté sur des éléments qui mesurent l’utilité de votre système.
Il est important de mentionner qu'il est utile d'alerter sur certaines mesures de ressources si elles constituent un indicateur avancé d'une défaillance. Par exemple, l'espace disque est une mesure de ressource. Cependant, lorsque l'espace disque est insuffisant, tout s'arrête ; il est donc également important d'alerter sur ces mesures. En général, les alertes sur les mesures de ressources devraient être rares.
3. Alerter uniquement sur les indicateurs de travail exploitables
L'amélioration par rapport à la bonne pratique précédente consiste à ne signaler que les indicateurs de travail exploitables. Autrement dit, il est important de signaler les indicateurs de travail sur lesquels vous pouvez agir.
Par exemple, un indicateur de performance exploitable pour un serveur web est le nombre de pages web que vous diffusez sans erreur par seconde. C'est un indicateur de performance, car si vous ne diffusez aucune page, votre site web est hors service.
Un indicateur de travail non exploitable pourrait être le nombre d'erreurs 404 que je génère par seconde. Ce n'est pas un indicateur exploitable, car cela dépend entièrement de l'activité des utilisateurs sur votre site. S'ils naviguent vers des URL inexistantes, vous obtiendrez de nombreuses erreurs 404. Cela ne signifie pas que c'est un problème, mais plutôt qu'ils font quelque chose d'inattendu. Il est donc déconseillé de générer des alertes sur des indicateurs de travail non exploitables.
4. Examinez périodiquement les mesures et les alertes
La quatrième bonne pratique, et peut-être l'une des plus difficiles à appliquer, consiste à réévaluer et à répéter ce processus régulièrement. Cela peut être hebdomadaire, bimensuel ou mensuel, mais il est essentiel de réserver du temps dans votre emploi du temps chargé pour effectuer une évaluation avec votre équipe.
Retour aux objectifs
Relions maintenant ces bonnes pratiques aux objectifs initiaux du suivi que j'ai mentionnés. Classer les indicateurs clés en fonction du travail ou des ressources est une condition préalable à tout.
a. Être informé d'un problème avant vos clients ou votre patron
Alertez uniquement sur les mesures de travail afin de savoir que vous n'alerterez pas sur des éléments inutiles et d'obtenir ainsi un bien meilleur résultat
b. Pour minimiser votre niveau de stress
Alertez uniquement sur les mesures de travail exploitables, car vous ne serez pas alerté sur des éléments sur lesquels vous n'avez aucun contrôle.
c. Pour connaître les performances de vos systèmes et applications
Consultez régulièrement les mesures et les alertes afin d’avoir une bonne idée des performances de vos systèmes, des tendances et de la manière dont vous pouvez modifier les choses.
Utilisez ces meilleures pratiques pour améliorer votre stratégie de surveillance et lorsque vous êtes prêt à la mettre en œuvre, essayez-en une. Essai gratuit de 14 jours de Datadog pour créer des graphiques et des alertes sur vos mesures de travail exploitables et sur toutes autres mesures et événements provenant de plus de 80 outils d'infrastructure courants.