- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- Alertes de gestion des journaux en temps réel : tirer le meilleur parti des inconvénients
Blog
Alertes de gestion des journaux en temps réel : tirer le meilleur parti des inconvénients
Article invité de Trevor Parsons, directeur scientifique et cofondateur de Logentries. Trevor possède plus de 10 ans d'expérience dans le développement d'outils de surveillance et de performance pour les systèmes logiciels. Il a auparavant travaillé comme chercheur au Centre d'études avancées d'IBM et est titulaire d'un doctorat de l'University College Dublin, en Irlande. Échangez avec Trevor sur Twitter : @trevparsons.
Les données de journalisation peuvent révéler des activités commerciales et des événements utilisateurs importants à partager au sein de votre organisation. La plupart des solutions de journalisation traditionnelles exécutent des tâches en arrière-plan toutes les 5 ou 10 minutes, ce qui est insuffisant. Imaginez : en cas d'urgence à domicile, serait-il acceptable d'attendre 5, 10 ou 15 minutes avant d'appeler les secours ? Outre l'identification des événements en temps réel, il est crucial d'informer les personnes concernées. Mais comment distinguer ce qui justifie de réveiller quelqu'un en pleine nuit d'une information simplement utile ? Définir des seuils appropriés et associer certains événements à un type d'alerte spécifique permet de tenir tout le monde informé.
Voici les 5 alertes les plus utiles que nous trouvons sur Logentries à envoyer via PagerDuty. J'admets que les deux dernières méthodes sont un peu inhabituelles pour une plateforme de gestion des incidents informatiques, mais pourquoi ne pas partager les bonnes nouvelles avec les mauvaises ?
1. Exceptions et erreurs
Cela paraît évident, mais vous seriez surpris du nombre d'exceptions ou d'erreurs qui passent inaperçues, surtout sans un système de journalisation et de surveillance bien conçu. Les alertes contenant des informations contextuelles, comme le composant applicatif concerné et l'origine de l'exception, vous aideront à en identifier rapidement la cause.
Ce que vous pouvez faire : Corréler ces alertes intégrées avec toutes les notifications relatives aux problèmes de performance ou aux informations d’utilisation des ressources afin d’identifier la cause exacte du problème. Le choix des exceptions à surveiller dépend de votre application et de ce qui est important dans le contexte de votre problème. Toutefois, réfléchissez-y en amont et configurez les alertes en fonction des exceptions et erreurs particulièrement importantes pour votre application. Il peut être utile de regrouper les différentes exceptions/erreurs. utilisation des niveaux de gravité de la journalisation de sorte que les alertes ne soient créées que pour les cas particulièrement importants.
2. Temps de réponse
Configurer des alertes en cas de dépassement des seuils de performance est un excellent moyen d'être averti lorsque vos utilisateurs rencontrent des ralentissements sur une application ou un site web. La plupart des outils de gestion des journaux permettent généralement de manipuler les valeurs des champs, afin de recevoir des notifications lorsque le temps de réponse dépasse 50 ms. Ceci est particulièrement utile lorsque vous pouvez mesurer le temps de réponse du point de vue de l'utilisateur. Logentries propose des intégrations permettant d'enregistrer directement les journaux depuis le navigateur ou l'application mobile de l'utilisateur, pour un suivi en temps réel. Vous pouvez ainsi déclencher des notifications lorsqu'un utilisateur constate des ralentissements lors du chargement des pages sur un appareil, un navigateur ou un système d'exploitation donné.
Ce que vous pouvez faire : Une bonne règle générale pour les alertes sur les temps de réponse est de respectez les 3 délais de réponse Comme l'a souligné Jakob Nielsen dans sa publication sur l'« ingénierie de l'utilisabilité » en 1993, toujours d'actualité : en résumé, 0,1 seconde est la limite à partir de laquelle l'utilisateur perçoit une réaction instantanée du système ; 1 seconde est la limite à partir de laquelle le flux de pensée de l'utilisateur reste ininterrompu ; et 10 secondes sont la limite à partir de laquelle l'attention de l'utilisateur reste concentrée sur le dialogue.
3. Utilisation des ressources
Tout comme pour la définition de seuils de temps de réponse, il peut être utile d'être notifié lorsqu'un serveur rencontre des difficultés et atteint la saturation d'une ressource particulière (processeur, réseau, disque, mémoire, etc.). La surveillance proactive de l'utilisation des ressources – notamment lorsqu'une instance de serveur présente un dysfonctionnement soudain et que le processeur est saturé – est devenue essentielle pour les services cloud à disponibilité permanente. Dans ce cas, il peut être nécessaire de redémarrer l'instance défaillante ou de lancer automatiquement une autre instance pour la remplacer ou répartir la charge.
Ce que vous pouvez faire : L’un des avantages d’une solution de gestion des journaux pour analyser les tendances d’utilisation des ressources est la possibilité de regrouper les entrées de journal individuelles dans un tableau de bord d’utilisation des ressources. Ce tableau de bord permet de visualiser les tendances d’utilisation du processeur, du réseau, de la mémoire, etc. Vous pouvez également explorer en détail les événements de journalisation et établir des corrélations entre ceux liés aux pics d’utilisation du processeur. Par exemple, pour les événements liés aux erreurs ou aux exceptions, vous pouvez identifier très rapidement les causes profondes et corriger les problèmes. Ceci est généralement impossible avec les outils de surveillance des serveurs, qui ne permettent pas une vue aussi précise ni la corrélation avec d’autres événements de journalisation relatifs aux temps de réponse, aux erreurs ou aux exceptions.
Et maintenant, les bonnes nouvelles…
4. Événements ayant un impact sur votre chiffre d'affaires
Avouons-le, voir affluer les clients qui utilisent un nouveau service, ça fait plaisir à tout le monde. Les alertes ne sont pas forcément synonymes de mauvaises nouvelles. Imaginez un peu : être réveillé en pleine soirée par une bonne nouvelle !
Ce que vous pouvez faire : Chez Logentries, nous envoyons des alertes à tous les niveaux, qu’elles soient positives, négatives ou non. Nous envoyons d’ailleurs des alertes à notre propre équipe pour tous les événements importants, afin que chacun soit informé de l’activité du service et de l’entreprise, qu’elle soit positive ou négative. Configurez un système de tags et de suivi personnalisé pour les événements tels que les inscriptions à un essai gratuit ou les visites de pages web, afin de surveiller en temps réel la santé de votre entreprise, au-delà des simples exceptions et erreurs.
5. Événements d'adoption de fonctionnalités
Dans la même veine, il peut être utile, lors du lancement d'une nouvelle fonctionnalité, d'être notifié lorsque vos 100 ou 1 000 premiers clients l'ont testée. Vous n'avez peut-être pas envie d'être réveillé en pleine nuit pour cela, mais vous pouvez partager cette étape importante avec votre entreprise via une méthode d'alerte plus discrète, comme l'e-mail.
Ce que vous pouvez faire : Utilisez les seuils d’alerte dans Logentries pour être notifié uniquement si un événement correspond à un modèle particulier un certain nombre de fois (par exemple, lorsque la fonctionnalité X a été utilisée plus de 100 fois). Cela peut s’avérer utile pour plusieurs raisons :
- C'est tout simplement excellent pour le moral de l'équipe quand, après avoir travaillé d'arrache-pied sur une nouvelle fonctionnalité, on la publie et… oui… les gens l'utilisent et l'apprécient.
- Vous aimeriez peut-être connaître l'avis des utilisateurs sur cette nouvelle fonctionnalité et leur demander leur avis. En configurant votre système pour enregistrer un identifiant de compte ou un identifiant utilisateur, vous pourrez toujours les recontacter, leur demander leur avis, apporter des améliorations et répéter l'opération pour les 100 prochains utilisateurs.
Grâce à ces alertes de gestion des journaux en temps réel, vous pouvez améliorer la visibilité au sein de vos équipes et de votre organisation. Découvrez la nouvelle fonctionnalité. Intégration de Logentries et PagerDuty dans votre propre environnement dès aujourd'hui !