Blog

Un examen plus approfondi des nouvelles fonctionnalités AIOps de PagerDuty

par Ariel Russo 29 septembre 2020 | 7 minutes de lecture

Un autre Sommet PagerDuty C'est chose faite, et nous nous remettons encore de l'enthousiasme et de l'énergie dont nos clients et notre communauté ont fait preuve la semaine dernière. Nous avons fait plusieurs annonces importantes au cours de la conférence, mais aucune n'a été aussi significative que les avancées AIOps sur notre plateforme d'opérations numériques.

Nous avons présenté plusieurs façons pour nos clients d'appliquer les algorithmes d'apprentissage automatique et l'automatisation à un large éventail de workflows sur la plateforme. De la réduction du bruit et de l'analyse des causes profondes à la correction automatique et aux analyses avancées, notre version vise à optimiser l'efficacité des équipes informatiques en appliquant l'AIOps pour réduire la complexité et le travail humain, à l'heure où les entreprises cherchent à en faire plus sans augmenter leurs ressources.

PagerDuty s’efforce également de réduire la fatigue qui s’accompagne inévitablement de la gestion d’environnements informatiques de plus en plus complexes, fatigue qui a été accentuée par la pandémie mondiale. AIOps est essentiel pour déterminer la relation entre les milliers d'alertes que tous les éléments d'un environnement informatique peuvent désormais générer. L'objectif est de fournir aux équipes informatiques davantage de contexte et d'informations exploitables.

Pour en savoir plus sur AIOps en tant que catégorie de cas d'utilisation et sa définition, assurez-vous de consulter ces blogs :

 

Maintenant, plongeons dans les détails des dernières fonctionnalités AIOps de PagerDuty.

Plongée en profondeur dans l'innovation

Recommandations intelligentes

Rien n'est plus important que la santé et la tranquillité d'esprit de votre équipe. Mais dans le paysage informatique actuel, rapide et complexe, les facteurs environnementaux peuvent nuire à cet impératif en provoquant fatigue et épuisement professionnel. Les recommandations intelligentes utilisent l'apprentissage automatique pour suggérer des actions. réduire le bruit et améliorer l'efficacité de l'équipe et la santé, tout en fournissant également les résultats projetés du retour sur investissement de l’adoption des actions prescrites.

  • Recommandations de réduction du bruit Identifier automatiquement les services concernés par le bruit d'alerte, diagnostiquer la cause et proposer aux intervenants et aux propriétaires de services des recommandations personnalisées pour réduire le bruit non significatif. PagerDuty a constaté qu'en appliquant des recommandations de réduction du bruit, les clients peuvent constater une diminution moyenne des alertes et des incidents allant jusqu'à 67 %, soit 67 % de fausses alertes et de travail inutile !
  • Recommandations en matière de santé de l'équipe. Les équipes sont plus que jamais sollicitées pour maintenir les activités en ligne, mais les intervenants fatigués commettent des erreurs. Améliorez la santé de vos employés et maintenez la motivation de votre équipe d'astreinte en signalant les interventions de nuit ou en dehors des heures de travail à l'équipe ou au responsable concerné, et en envoyant une recommandation de remplacement de quart à l'intervenant.

 

Analyse avancée organisée et planification du modèle de maturité

S'appuyant sur l'API d'analyse complète et puissante de PagerDuty pour ouvrir notre riche ensemble de données aux requêtes de nos clients, nos dernières améliorations mettent à disposition de nos utilisateurs les analyses les plus utiles et les plus utilisées, directement via une interface intuitive. Une fois les requêtes et les rapports spécifiques identifiés, la programmation régulière des rapports peut être configurée pour tenir informés les différentes parties prenantes.

  • Laboratoire d'analyse PagerDuty Extrait des informations issues des données approfondies de PagerDuty pour des analyses personnalisées et répondre à une multitude de questions (par exemple, quel a été le coût du dernier incident ? Quels incidents ont affecté mon délai de résolution ?). De plus, nous avons codifié notre modèle de maturité et les données de référence de plus de 13 000 clients pour aider les utilisateurs à évaluer où se situe leur entreprise dans son parcours numérique et à leur montrer comment améliorer leur maturité en appliquant les recommandations d'optimisation.

Vous pouvez automatiser la création de rapports et partager des analyses là où votre équipe travaille grâce à notre intégration Slack. Voici quelques exemples de rapports disponibles :

    • Incidents critiques et les plus impactants
    • Santé et optimisation du service
    • Opportunités d'efficacité des coûts opérationnels
    • Santé et optimisation de l'équipe
    • Analyse d'impact sur l'entreprise

  • Analyse de l'état de préparation aux astreintes Aide à organiser efficacement les équipes afin qu'elles puissent assumer efficacement leurs responsabilités d'astreinte. Utilisez ce rapport pour améliorer votre gestion des astreintes et suivre vos progrès vers la préparation organisationnelle. Une bonne organisation des équipes peut réduire les délais de résolution et améliorer la capacité de votre organisation à réagir aux incidents.
Dépendances de services dynamiques

L'approche orientée services de PagerDuty repose sur la mise à jour et la précision de notre annuaire de services unique et en temps réel. Nous avons considérablement amélioré notre annuaire en simplifiant la collecte et la mise à jour des informations de dépendance. Vous pouvez désormais identifier automatiquement les dépendances en amont et en aval afin d'accélérer la résolution des problèmes, de réduire les doublons et de prévenir les incidents futurs. Nous avons également automatisé la mise à jour des informations de dépendance dans votre annuaire de services grâce à des recommandations issues du machine learning et à des données de service intégrées bidirectionnelles provenant de partenaires clés, permettant ainsi à votre équipe de travailler à partir d'une source unique et fiable.

  • Dépendances définies par l'utilisateur peuvent être rapidement cartographiés et définis dans une interface simplifiée. Vous pouvez désormais suivre les dépendances et les relations entre les services techniques et métiers en amont et en aval, avec une maintenance simplifiée.
  • Prise en compte automatisée des dépendances Les fonctionnalités suggèrent des dépendances pertinentes grâce au machine learning et les mettent en évidence directement dans la page Détails de l'incident. Lors du tri actif des incidents, ces informations sur les dépendances vous aident à éviter les impasses, à collaborer rapidement et à prendre les mesures appropriées pour résoudre les problèmes. PagerDuty a publié plusieurs variantes de cette fonctionnalité, notamment :

  • Intégration ServiceNow v7 Aide les clients à renforcer leur intégration et à optimiser la valeur de leurs investissements dans ServiceNow et PagerDuty grâce à de nouvelles fonctionnalités bidirectionnelles, comme l'exécution d'un scénario de réponse PagerDuty dans ServiceNow ou la publication d'un appel à l'action depuis ServiceNow sur la page de détails des incidents de PagerDuty pour informer les utilisateurs en temps réel de l'état d'avancement. De plus, les dépendances des services métier et techniques de la CMDB de ServiceNow peuvent être partagées avec l'annuaire des services de PagerDuty, permettant aux équipes de mieux comprendre l'impact des incidents et d'identifier les services critiques.

Cartographie de l'impact du changement

On estime que 80 % des incidents sont causés par des changements. C'est pourquoi PagerDuty a entièrement intégré les événements de changement dès le processus de livraison du logiciel. CI/CD pipelines) et les référentiels de code, offrant une visibilité sur les changements et une meilleure compréhension de leurs impacts. Exploitez ce contexte en temps réel pour identifier immédiatement les sources de défaillance et anticiper les risques que ces changements pourraient représenter pour les services métier critiques.

  • Enquête sur les changements pour la résolution des incidents réduit les temps de résolution en aidant DevOps Les intervenants comprennent les changements susceptibles d'avoir causé ou contribué à un problème. Ils peuvent utiliser les informations contextuelles sur les modifications récentes du logiciel ou de la configuration pour diagnostiquer et potentiellement prévenir l'aggravation d'un problème, ou prendre rapidement les mesures nécessaires pour coordonner une intervention efficace.
  • Intégrations d'événements de changement avec GitHub , Fantoche , et Évolué offrez aux clients de PagerDuty un moyen plus simple d'ingérer les événements de modification à partir de leur pipeline de livraison de logiciels.

Contrôles d'automatisation flexibles

Appliquer l'IA et l'automatisation à un domaine aussi crucial que les opérations numériques d'une entreprise exige une confiance totale. C'est pourquoi nous avons créé des contrôles d'automatisation flexibles pour garantir en toute sécurité qu'un humain garde le contrôle à tout moment. PagerDuty indique les domaines dans lesquels l'automatisation peut s'avérer utile et garantit qu'aucun humain ne soit interrompu inutilement, tout en l'avertissant si nécessaire. Les entreprises disposent ainsi d'un moyen fiable d'intégrer et d'accélérer l'automatisation au sein de l'organisation. Fidèle à notre engagement en faveur d'une automatisation conviviale, PagerDuty a annoncé un accord définitif d'acquérir Rundeck, un fournisseur leader d'automatisation des runbooks pour l'entreprise, dans le cadre d'une démarche qui rendra la correction automatique plus accessible aux clients cherchant à automatiser leurs processus de réponse aux incidents.

  • Notifications d'incident suspendues Réduisez le bruit de fonctionnement en retardant les déclenchements, ce qui permet aux machines de corriger automatiquement le problème avant d'avertir les intervenants. Les clients peuvent conserver une trace des déclencheurs et des actions, qu'un intervenant ait été averti ou non.
  • Webhooks déclenchés par des événements Offrez aux équipes d'intervention un moyen de résoudre les incidents plus rapidement et avec moins de ressources grâce à l'automatisation par simple pression d'un bouton et à l'utilisation de règles d'événements pour déclencher des processus et workflows externes. Les utilisateurs peuvent également surveiller et suivre l'état des séquences d'automatisation déclenchées sur un service.
  • Enrichissement et extraction de champs dynamiques Aide les ingénieurs DevOps à normaliser le contenu des alertes pour l'adapter à leurs exigences spécifiques de formatage terminologique. Cela peut améliorer les résultats des rapports et des analyses, et contribue à lever les obstacles à l'adoption de fonctionnalités économes en ressources, comme le regroupement intelligent des alertes basé sur le contenu.

Si votre équipe pourrait bénéficier de l’une de ces améliorations, assurez-vous de consulter notre essai gratuit ou inscrivez-vous pour obtenir un accès anticipé aux nouvelles fonctionnalités.