- PagerDuty /
- Blog /
- Automation /
- Du chaos aux informations exploitables grâce aux intégrations et à l'automatisation de PagerDuty
Blog
Du chaos aux informations exploitables grâce aux intégrations et à l'automatisation de PagerDuty
Nous sommes en 2023. Aujourd'hui, chaque entreprise et chaque particulier, quel que soit son secteur d'activité, s'appuie sur des logiciels pour accroître sa productivité. Nos utilisateurs s'attendent à ce que notre technologie soit disponible et fiable à tout moment. Si votre logiciel est utilisé par des entreprises d'un même pays pendant les heures ouvrables, elles s'attendent à ce qu'il soit disponible pendant toute cette période. Facile, non ?
Cependant, si votre logiciel sert des clients dans le monde entier, 24h/24 et 7j/7, avec un besoin de faible latence, vous devrez exécuter vos services dans plusieurs régions et disposer d'équipes prenant en charge les clients dans différents endroits.
Bien que ce dernier scénario puisse paraître plus complexe, les mêmes principes s'appliquent. Inévitablement, une panne inattendue peut survenir et le chaos peut survenir en cas de stress, comme lors d'incidents ou de pannes de service. Soyez donc préparé.
Donner un sens au chaos
Nos services actuels sont distribués et utilisent différentes plateformes, composants matériels et logiciels, dont certains ne sont même pas gérés par nos soins. Dès qu'un problème survient, nous nous retrouvons en mode « résoudre le mystère ». Bien que j'aie grandi en lisant les aventures de Sherlock Holmes, je n'aime pas travailler sous pression. Il est temps d'y remédier !
PagerDuty Operations Cloud centralise tous les événements provenant de vos outils existants. Vous n'avez pas besoin de changer de plateforme CI/CD, d'ITSM ou d'outils de surveillance. Il vous suffit de les intégrer à PagerDuty en profitant de nos plus de 700 intégrations intégrées ou en créant votre propre intégration personnalisée grâce à nos API Événements ou REST.
Une fois les intégrations activées sur vos services, les fonctionnalités AIOps de PagerDuty traiteront et agrégeront intelligemment les événements et les associeront aux services cibles. Cela réduira le nombre d'incidents créés et enrichira les incidents existants avec des informations pertinentes qui vous aideront à identifier la cause profonde du problème.
En tant qu'intervenant en cas d'incident, vous souhaitez être averti dès qu'un problème est identifié et avoir accès à toutes les informations sur ce qui s'est passé avant et après le déclenchement de l'incident. L'intégration de PagerDuty avec Amazon Cloudwatch est un exemple d'intégration qui vous permet d'être averti lorsque vos ressources entrent en état d'alarme. Les alarmes déclenchées dans AWS génèrent des alertes dans PagerDuty , susceptibles de provoquer des incidents.


Un autre exemple consiste à demander à GitHub d'envoyer toutes les modifications apportées à la base de code dans PagerDuty afin que le responsable de l'incident sache quand quelque chose de nouveau a été déployé et analyse l'impact potentiel de ces modifications.

Utilisation des API
Il peut arriver que les intégrations intégrées ne soient pas suffisantes et que vous deviez créer vos propres intégrations. Pour ce faire, utilisez l'une des options suivantes : API d'événements ou le API REST .
Pour les intégrations nécessitant une fréquence plus élevée, comme les outils de surveillance ou d'observabilité, nous recommandons l'utilisation de l'API Événements en raison de ses limites de débit et de sa fiabilité supérieures. Il est toutefois important d'en tenir compte. Codes de réponse de l'API et approches pour réessayer vos demandes en cas d'erreurs.
Les événements envoyés via l'API sont dirigés vers un service PagerDuty et traités. Ils peuvent entraîner la création d'une nouvelle alerte et/ou d'un nouvel incident, ou la mise à jour ou la résolution d'un incident existant.
L'API Événements prend en charge deux types d'événements :
- Événements – Les outils de surveillance doivent envoyer un événement déclencheur à PagerDuty pour signaler un nouveau problème ou mettre à jour un problème en cours, selon le type d’événement.
- Événements de changement – L'API Événements de modification vous permet d'envoyer des événements d'information sur les modifications récentes, telles que les déploiements de code et les modifications de configuration système, depuis tout système disposant d'une connexion HTTP sortante. Ces événements ne créent pas d'incidents et n'envoient pas de notifications, mais ils sont affichés dans le contexte des incidents sur le même service PagerDuty .
Pour acheminer efficacement vos événements, l'API Événements utilise deux points de terminaison différents : https://événements [.eu].pagerduty.com/v2/enqueue pour Événements d'alerte , et https://événements [.eu].pagerduty.com/v2/change/enqueue pour Événements de changement . Une fois que vous ajouter l'intégration de l'API Events v2 à votre service, vous recevrez les URL de votre compte ainsi qu'une clé d'intégration pour votre service (reportez-vous à l'image ci-dessous).

Grâce à cela, vous pouvez intégrer virtuellement n'importe quel service, outil ou plateforme avec PagerDuty Operations Cloud sans dépendre des intégrations natives fournies par PagerDuty.
Dormain Drewitz, vice-président de la promotion de la plateforme chez PagerDuty, s'est récemment entretenu avec Nakul Bhagat, de l'équipe Produit, au sujet des API de PagerDuty. regarder si vous cherchez plus de détails sur la façon de les utiliser.
Les bonnes personnes, au bon moment
Maintenant que toutes les données sont intégrées à PagerDuty Operations Cloud et acheminées vers les services appropriés, vous devez impliquer les bonnes personnes au bon moment. intervenants en cas d'incident , ceci est réalisé en définissant Équipes , Horaires de garde et Politiques d'escalade . Pour autres parties prenantes , cela se fait généralement par l'utilisation de Pages d'état , Mises à jour de statut ou par les ajouter en tant qu'abonnés à un incident actif .
En plus des mécanismes de notification configurés sur les comptes utilisateurs, PagerDuty propose une gamme d'intégrations et d'extensions qui permettent aux équipes de rester dans les outils qu'elles utilisent déjà au quotidien, réduisant ainsi le besoin de changement de contexte et facilitant une adoption plus facile.
Par exemple, en activant l'intégration de PagerDuty pour des plateformes de communication existantes telles que Slack ou Microsoft Teams, vous permettez à chaque membre de l'organisation d'être informé, de contribuer et d'être informé de la situation concernant un incident spécifique susceptible de causer des problèmes dans différents services de l'entreprise. La création de canaux d'incidents et l'ajout d'intervenants et de parties prenantes concernés peuvent être automatisés. Flux de travail des incidents .

En suivant ces étapes, vous serez bien préparé à fournir un service client efficace. Vos clients seront ainsi plus satisfaits qu'avant. Mais pouvez-vous aller encore plus loin ?
Gagner du temps grâce à l'automatisation
L'automatisation joue un rôle important dans PagerDuty Operations Cloud car elle vous permet d'automatiser les tâches répétitives et de fournir en toute sécurité des capacités limitées à d'autres en libre-service (voir les exemples ici ). En intégrant l’automatisation à votre flux de travail, vous pouvez réduire le risque d’erreurs et améliorer l’efficacité des ingénieurs qui l’utilisent.
Lors de l'exécution de services sur une plateforme cloud, de nombreux points de défaillance potentiels existent avant même d'atteindre l'application. Vous pouvez automatiser les diagnostics de la plateforme grâce à Automatisation des processus ou Automatisation du cahier des charges dans Flux de travail des incidents Au lieu de vider l'intégralité des journaux, vous pouvez générer ces diagnostics dans votre chronologie des incidents dans un format lisible.

Exemple de capture d'écran de notes d'incident ajoutées à partir de l'automatisation des processus
Cela permettra non seulement aux intervenants en cas d’incident de comprendre rapidement où se situent les problèmes, mais permettra également aux autres parties prenantes d’être au courant du travail effectué pour résoudre l’incident.
Une étape à la fois
Dans cet article, vous avez découvert les capacités de PagerDuty Operations Cloud pour réduire le bruit et permettre une résolution efficace des incidents. Correctement mise en œuvre, une stratégie de gestion des incidents et d'astreinte peut apporter des avantages considérables. Vos clients seront plus satisfaits, votre entreprise prospérera et vos équipes seront plus satisfaites de leur travail et des connaissances acquises.
Il est toutefois important de ne pas sous-estimer l'importance des outils seuls. Commencez par de petites étapes, recueillez des informations, impliquez d'autres personnes et concentrez-vous sur ce qui est pertinent pour vos clients et votre entreprise.
Dites-nous ce que vous en pensez !
Avez-vous déjà commencé à utiliser nos API REST ou Événements ? Faites-le-nous savoir en remplissant ce court formulaire. enquête !
Rejoignez également notre Forums communautaires ou contactez community-team@pagerduty.com Nous aimerions savoir ce que vous pensez des nouvelles fonctionnalités et ce que vous espérez voir à l’avenir.