Blog

Optimiser l'utilisation de PagerDuty et Datadog

par David M. Lentz 10 octobre 2019 | 6 min de lecture

Pour que votre équipe puisse réagir efficacement aux incidents, vous avez besoin d'une définition commune et sans ambiguïté des incidents afin de pouvoir reconnaître quand un incident s'est produit et lui attribuer le niveau de gravité approprié. Définitions d'un incident Les définitions diffèrent selon les équipes, mais quelle que soit la définition utilisée, l'identification et le suivi des indicateurs clés de niveau de service (SLI) peuvent vous aider à comprendre quand votre service fonctionne normalement et quand ses performances se sont dégradées au point de nécessiter le déclenchement d'un incident.

Datadog PagerDuty vous permet de surveiller et d'alerter sur les indicateurs de performance de votre infrastructure et de vos applications, notamment vos SLI. Dans cet article, nous aborderons quatre bonnes pratiques pour utiliser PagerDuty avec Datadog afin d'enrichir et d'accélérer votre processus de réponse aux incidents et de réduire votre délai moyen de résolution (MTTR).

  • Baser les incidents sur des indicateurs de niveau de service significatifs

Datadog facilite collecter toutes les métriques Ces indicateurs peuvent vous être utiles, mais tous ne constituent pas des indicateurs de niveau de service (SLI). Un bon SLI est un indicateur qui mesure un comportement pertinent pour fournir le niveau de service souhaité. Par exemple, si vous gérez une API et que votre objectif est de minimiser la latence, vous devriez utiliser le temps de réponse comme SLI, même si vous surveillez également le taux de réponse de l'API, le taux d'erreur et la charge système de ses serveurs.

Les objectifs de niveau de service (SLO) sont les cibles de votre équipe concernant la performance de votre service ou application. L'exemple de SLI ci-dessus (temps de réponse) peut servir à définir un SLO tel que « répondre à 99,99 % des requêtes en moins de 300 ms ». Les accords de niveau de service (SLA) représentent les engagements de votre organisation envers ses clients. Chaque SLA comprend un SLO et une conséquence en cas de non-respect de ce SLO, comme un remboursement partiel des frais mensuels payés par le client.

Pour que votre organisation respecte ses SLA, votre équipe doit atteindre ses SLO. Afin de suivre vos progrès, vous devez identifier les SLI pertinents et configurer des alertes en cas de non-respect. Si un SLI est enfreint, il s'agit d'une priorité absolue : vous devez créer un incident et vous appuyer sur PagerDuty et le processus de réponse aux incidents de votre équipe pour corriger tout comportement non conforme à votre SLO.

  • Déclencher automatiquement les incidents à partir des alertes SLI

Pour détecter un incident de manière fiable et réagir rapidement, vous devez automatiser le processus de déclenchement d'un incident lorsqu'un SLI franchit un seuil. Intégrer PagerDuty à Datadog Une alerte dans Datadog peut déclencher immédiatement un incident dans PagerDuty, lançant ainsi le processus de réponse aux incidents de votre équipe. Pour créer un incident automatiquement, définissez une alerte dans Datadog basée sur un SLI et mentionnez PagerDuty dans le corps de l'alerte.

Lorsqu'une alerte est déclenchée, un événement apparaît dans votre flux d'événements Datadog et l'intégration crée un incident dans PagerDuty. Si la métrique revient à un état normal, l'intégration résout automatiquement l'incident dans PagerDuty. Ainsi, votre équipe de réponse aux incidents n'a pas besoin d'intervenir, et PagerDuty conserve l'historique de l'incident pour consultation ultérieure.

En plus d'accélérer votre processus de réponse, le déclenchement automatique des incidents vous permet de disposer d'un historique fiable des moments où votre équipe n'a pas respecté vos SLO. Vous pouvez consulter ces données historiques dans le Tendances des incidents PagerDuty un rapport indiquant le nombre d'incidents déclenchés, leur date et les services PagerDuty concernés.

  • Démarrez votre réponse aux incidents en étant bien informé.

Pour accélérer la résolution des incidents, vos équipes d'intervention ont besoin du contexte et d'informations actualisées sur chaque incident, notamment les données de surveillance en temps réel des services concernés, ainsi que les dépendances potentiellement impactées. Vous pouvez configurer chaque service PagerDuty pour inclure un graphique Datadog pertinent, voire un tableau de bord complet, pour chaque incident. Les équipes d'intervention peuvent ainsi consulter les données relatives à l'état et à l'historique de l'indicateur de niveau de service (SLI) sous-jacent, ainsi que les indicateurs associés qui les aident à évaluer l'état des composants et services en amont et/ou en aval.

Si vous utilisez tests synthétiques Dans Datadog, pour confirmer la disponibilité et les performances des points de terminaison d'API dont dépend votre service ou application, vous pouvez inclure les résultats des tests dans les tableaux de bord Datadog affichés sur vos pages d'incident PagerDuty . Cela permet aux intervenants de visualiser immédiatement l'état des services en amont lors d'un incident. Si le tableau de bord indique qu'un incident est dû à une panne d'un point de terminaison d'API, il est possible d'identifier immédiatement le point de terminaison d'API. dépendance à un tiers Vous pourriez reconfigurer votre application pour utiliser un autre service.

Vous pouvez également collecter des données de surveillance provenant des composants internes de votre application (tels que les points de terminaison, les bases de données, les moteurs de cache et le DNS) et les afficher sur vos tableaux de bord d'incidents, comme illustré dans la capture d'écran ci-dessus. La surveillance des performances de ces composants peut vous aider à identifier les problèmes susceptibles d'expliquer la cause d'un incident.

  • Intégrer dans les deux sens

En intégrant PagerDuty à Datadog, vous pouvez ajouter et mettre à jour en toute transparence les informations sur les incidents en temps réel sur les deux plateformes afin de garantir que les membres de l'équipe disposent d'informations complètes et à jour à portée de main.

Les informations relatives aux incidents que vous collectez ou créez dans PagerDuty peuvent être automatiquement envoyées à Datadog afin que toutes les équipes soient informées de l'incident. Vous pouvez configurer l'intégration Pour mettre à jour en continu votre flux d'événements Datadog avec les informations de vos incidents PagerDuty (par exemple, lorsqu'un incident est pris en charge ou délégué), vous pouvez superposer ces événements aux graphiques Datadog afin de les corréler avec des indicateurs et ainsi analyser la portée, l'impact et les causes potentielles d'un incident.

Lorsque votre équipe met à jour un incident dans PagerDuty(par exemple, pour le résoudre ou l'annoter en ajoutant une note), **Remarques** Dans le champ correspondant de l'interface utilisateur de PagerDuty , vous pouvez voir ces modifications apparaître automatiquement dans le flux d'événements Datadog.

Vous pouvez également configurer l'intégration pour ajouter automatiquement vos informations de surveillance Datadog à vos incidents PagerDuty . Lorsqu'une alerte est déclenchée dans Datadog, un incident peut être automatiquement créé dans PagerDuty. Vous pouvez également créer manuellement un incident à tout moment en publiant un événement mentionnant l'alerte. @ PagerDuty dans votre flux d'événements Datadog.

Pour accuser réception de l'incident ou le résoudre directement depuis le flux d'événements, ajoutez un commentaire à l'événement qui mentionne : @ PagerDuty-accusé de réception ou @ PagerDuty-résolution Le résultat est que l'incident est mis à jour — reconnu et résolu — comme si ces modifications avaient été effectuées dans l'interface utilisateur de PagerDuty , comme le montre la capture d'écran ci-dessous.

Tirez le meilleur parti de PagerDuty et Datadog

Une réponse rapide et efficace aux incidents vous permet de minimiser leur impact négatif sur vos utilisateurs et votre activité. Intégrez PagerDuty à Datadog pour déclencher automatiquement les incidents, visualiser les données pertinentes dans une vue unique et réduire votre MTTR. Si vous n'utilisez pas encore Datadog, vous pouvez commencer par… Essai gratuit de 14 jours.