Blog

Trier les alertes PagerDuty à l'aide de Loggly

par Vivian Au 19 mai 2014 | 3 minutes de lecture

Article de blog invité de Jason Skowronki, chef de produit chez Loggly Loggly est le service de gestion de journaux basé sur le cloud le plus populaire au monde avec plus de 3 500 clients actifs et les développeurs et administrateurs système résolvent les problèmes, surveillent l'état du système et traitent de manière proactive les problèmes avec des alertes.

Vous êtes au restaurant avec des amis et vous recevez une alerte via PagerDuty. Votre taux d'inscription est bien en dessous de son niveau habituel. Cela pourrait indiquer un problème grave sur votre site, mais il pourrait aussi s'agir simplement d'un trafic inhabituel. Devriez-vous quitter le restaurant et rentrer chez vous en courant ? Ou sacrifieriez-vous simplement un temps d'arrêt bien mérité pour quelque chose qui pourrait attendre demain ?

Les alertes sont essentielles dans une économie centrée sur le Web, 24h/24 et 7j/7. C'est un moyen de minimiser l'impact des problèmes applicatifs sur le chiffre d'affaires et les bénéfices. Chez Loggly, nous apprécions PagerDuty car il nous a permis de mieux identifier les problèmes opérationnels, d'affecter les ressources nécessaires à leur résolution et de les suivre jusqu'à leur résolution. Il répond aux questions cruciales sur le « qui » ​​et complète parfaitement le service Loggly, qui permet aux équipes DevOps d'approfondir le « pourquoi ».

Trier et trouver la cause profonde des problèmes plus rapidement

Revenons à notre repas interrompu. PagerDuty vous informe qu'une alerte s'est déclenchée suite à une baisse inattendue des inscriptions. Cependant, vous avez besoin de plus d'informations sur le système d'origine et le responsable. Cliquez sur l'alerte et accédez directement à votre tableau de bord Loggly. Vous constatez que l'alerte s'est déclenchée exactement au moment du déploiement. Il s'agit donc probablement d'un problème de site réel. Il est temps de vérifier.

Incident_Log_Data

En attendant, vous consultez les journaux de votre page d'inscription. Vous constatez que les clics sont enregistrés, mais que les appels ne sont pas systématiquement transmis au service back-end. Plus tard, une analyse approfondie du code révèle que la page ne s'affiche pas correctement dans Internet Explorer. Vous annulez le déploiement, signalez un bug à l'équipe front-end et résolvez l'alerte PagerDuty .

Loggly offre aux équipes DevOps une visibilité approfondie sur leurs systèmes, tant lors de l'évaluation initiale et du triage que lors de l'identification et de la résolution des problèmes opérationnels. Nos puissants outils de recherche et de filtrage, nos graphiques en un clic et nos tableaux de bord vous aident à comprendre instantanément les volumes importants de données de journaux provenant des applications, des plateformes et des systèmes. Vous pouvez rapidement identifier les corrélations entre un état d'alerte et d'autres événements survenant sur vos systèmes, et accéder à toutes les données nécessaires pour identifier les causes profondes.

Ainsi, vous n'interrompez plus votre journée pour des petits problèmes et pouvez vous concentrer sur les plus importants. Et vous pouvez les résoudre beaucoup plus rapidement.

Passez du temps avec Loggly, New Relic et PagerDuty ce soir à la réception de DataBeat et recevez des Data-tinis !