Blog

Comment réduire le MTTR avec PagerDuty et Puppet Relay

par Melissa Sussmann 6 octobre 2020 | 4 min de lecture

Biographie : Melissa Sussmann est responsable du marketing technique produit pour Relay chez Puppet. Elle apprécie particulièrement écrire sur le DevOps, la fiabilité des sites, l’open source et la technologie blockchain.

Les équipes DevOps et SRE subissent une forte pression pour réduire le temps moyen de récupération (MTTR) lors de la résolution d'incidents. Avec la prolifération des services cloud et la complexité croissante des chaînes d'outils DevOps, les ingénieurs doivent aujourd'hui non seulement apprendre à utiliser ces services, mais aussi à les dépanner lorsqu'un incident survient à 2 heures du matin. Le problème est que de nombreux processus de réponse aux incidents restent manuels : ils consistent à assembler des manuels d'exploitation et des scripts ad hoc et à coordonner les équipes pour répondre. Cette approche de « bricolage numérique » aboutit à ce que nous appelons le « … » Dépotoir DevOps « ce qui augmente finalement le MTTR. »

Comment PagerDuty et Relay fonctionnent ensemble

PagerDuty est la plateforme de gestion des opérations numériques leader du secteur, qui fournit des notifications fiables, des escalades automatiques, une planification des astreintes et d'autres fonctionnalités pour aider les équipes à détecter et à résoudre rapidement les problèmes d'infrastructure.

Relay by Puppet est une plateforme d'automatisation événementielle qui centralise tous les outils et technologies nécessaires aux ingénieurs DevOps pour gérer efficacement un environnement cloud. Contrairement à de nombreux outils d'automatisation de flux de travail existants, Relay réagit intelligemment aux signaux externes en combinant des déclencheurs événementiels à un puissant moteur de flux de travail, le tout sur une plateforme unique.

La dernière intégration entre Relay et PagerDuty élimine les solutions de fortune en créant des flux de travail réutilisables et événementiels pour un traitement plus rapide des incidents grâce à l'approche d'automatisation événementielle de Relay. Les utilisateurs de PagerDuty peuvent désormais :

  • Enrichir les données d'alerte : En utilisant le nouveau Événements de changement Lancée lors du PagerDuty Summit, Relay enrichit les alertes d'informations de diagnostic afin d'accélérer la résolution en présentant davantage de contexte autour de l'alerte.
  • Automatiser la communication en cas d'incident : Qu'il s'agisse de créer un canal Slack, de mettre à jour un ticket Jira ou d'informer les membres de l'équipe, Relay garantit une communication rapide et à jour.
  • Déclencher les flux de travail de correction automatique : Le signalement d'incidents PagerDuty peut déclencher des exécutions de flux de travail Relay pour dépanner et résoudre les problèmes courants de manière sécurisée et rapide.

Exemple : Comment automatiser les plans de communication en cas d'incident

Un moyen essentiel de réduire le MTTR consiste à formaliser un plan de communication en cas d'incident. S'assurer que les équipes disposent d'un plan clair pour la compréhension des rôles et l'ouverture des canaux de communication est primordial pour réduire le temps de réponse aux incidents. Relay peut automatiser ce processus en contactant l'intervenant d'astreinte avec un message détaillant le contenu de l'incident.

Relay utilise des « déclencheurs » et des « étapes » pour automatiser une série d'actions. Les étapes sont réutilisables, modulaires et composables : elles peuvent, par exemple, récupérer les informations d'un utilisateur, envoyer des messages Slack et Twilio, ou encore utiliser l'API d'événements PagerDuty pour fournir des informations supplémentaires sur un incident. Les « déclencheurs » sont basés sur des événements cloud, des événements Git, des alertes de surveillance, des tickets et des incidents. L'exemple ci-dessous illustre comment un incident PagerDuty déclenche le flux de travail de réponse suivant, en utilisant les étapes mentionnées.

Lorsqu'un nouvel incident PagerDuty est signalé, Relay recherche l'adresse e-mail de la personne d'astreinte, l'identifie dans Jira et Slack, et crée un ticket Jira pour l'incident de production. Relay crée ensuite un canal Slack dédié à la gestion des incidents de production, y invite la personne d'astreinte ainsi que le responsable technique concerné, et définit l'objet du canal avec un lien vers le ticket Jira créé. Enfin, Relay envoie un message sur le canal Slack et publie une note expliquant la procédure à suivre en cas d'incident de production.

Grâce à la nouvelle fonctionnalité « Événements de changement » de PagerDuty, Relay enrichit les informations relatives à l'incident avec des données d'alerte détaillées. L'intervenant d'astreinte peut ainsi intervenir rapidement, en simplifiant la création des tickets et la communication des éléments déclencheurs.

Essayez ce flux de travail ici.

Personnalisez votre réponse aux incidents

Plusieurs flux de travail de démarrage sont disponibles pour les utilisateurs de PagerDuty ; vous les trouverez sur Page d'intégration de Relay. Vous pouvez utiliser ces flux de travail pour créer un problème dans Jira, envoyer un message à Slack et envoyer automatiquement un SMS Twillo lorsqu'un incident PagerDuty est déclenché.

Chaque flux de travail étant unique, les flux de travail Relay sont personnalisables selon les cas d'utilisation. Relay propose une aide contextuelle dans sa barre latérale. Cette fonctionnalité permet de parcourir la bibliothèque d'intégrations et d'étapes pour faciliter la personnalisation de votre flux de travail.

Inscrivez-vous au relais !

Utilisez Relay avec PagerDuty pour réduire votre temps de réponse aux incidents et améliorer l'observabilité. Réduire le temps moyen de résolution (MTTR) est essentiel à une gestion DevOps réussie, et l'automatisation événementielle permet de réduire considérablement ce temps de réponse. Relay simplifie cette tâche grâce à des workflows qui résolvent les problèmes courants et bien identifiés par les équipes. Pour en savoir plus sur Relay, consultez notre site web. relais.sh Inscrivez-vous à notre version bêta gratuite !