- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- Les 4 indicateurs opérationnels que vous devriez suivre
Blog
Les 4 indicateurs opérationnels que vous devriez suivre
Vivre dans un monde saturé de données est à la fois une bénédiction et une malédiction. Les systèmes de surveillance flexibles, les API ouvertes et les ressources de visualisation de données faciles à utiliser permettent de représenter graphiquement tout ce que l'on souhaite, mais un excès de données les rend rapidement confuses et inexploitables.
Nous avons blogué , parlé Nous avons longuement réfléchi aux éléments à surveiller et à leur raison d'être du point de vue des systèmes, mais qu'en est-il du suivi des données relatives aux performances de vos opérations ? Nous avons collaboré avec de nombreux clients PagerDuty lors du développement de notre nouvelle solution. Rapports avancés Nous souhaitons partager avec vous des indicateurs et des recommandations spécifiques pour aider ces équipes à mesurer et à améliorer leurs performances opérationnelles, notamment celles des équipes les plus performantes du secteur.
Principaux indicateurs à suivre
1. Nombre brut d'incidents
Une augmentation soudaine ou continue du nombre d'incidents reçus par une équipe indique deux choses : soit l'infrastructure de cette équipe présente un problème grave, soit ses outils de surveillance sont mal configurés et nécessitent un ajustement.
Le nombre d'incidents peut augmenter à mesure qu'une organisation se développe, mais les véritables incidents par répondant devrait rester constant ou diminuer à mesure que l'organisation identifie et corrige les alertes de faible qualité, élabore des manuels d'exploitation, automatise les corrections courantes et gagne en maturité opérationnelle.
« Nous passions beaucoup de temps à désactiver les alertes redondantes. » – Kit Reynolds, chef de produit SI, thetrainline.com
Lorsqu'on analyse des incidents, il est important de les ventiler par équipe ou service, puis d'examiner en détail les incidents sous-jacents pour comprendre l'origine des problèmes. Le pic d'activité de mercredi était-il dû à un déploiement raté ayant perturbé plusieurs équipes, ou simplement à un dysfonctionnement du système de surveillance d'un service peu critique ? Comparer le nombre d'incidents entre les services et les équipes permet également de contextualiser les données et de déterminer si une charge d'incidents donnée est inférieure ou supérieure à la moyenne de l'organisation.
2. Délai moyen de résolution (MTTR)
Le délai de résolution est le critère de référence pour évaluer la disponibilité opérationnelle. Lorsqu'un incident survient, combien de temps faut-il à votre équipe pour le résoudre ?
Les interruptions de service nuisent non seulement à votre chiffre d'affaires, mais aussi à la fidélité de vos clients. Il est donc essentiel que votre équipe puisse réagir rapidement à tout incident. Pour la Major League Soccer, les supporters s'attendent à ce que leurs 20 plateformes web soient accessibles en direct pendant les matchs. Justin Slattery, directeur de l'ingénierie, et son équipe travaillent sans relâche pour améliorer leurs délais de résolution, car « le coût d'une panne en plein match est incalculable ».
Bien que le temps de résolution soit un indicateur important, il est souvent difficile à normaliser. Les entreprises constatent des variations de ce temps en fonction de la complexité de leur environnement, de l'organisation des équipes et des responsabilités liées à l'infrastructure, du secteur d'activité et d'autres facteurs. Cependant, des procédures standardisées, l'automatisation de l'infrastructure, ainsi que des systèmes d'alerte et des politiques d'escalade fiables contribuent à réduire ce temps.
3. Délai d'accusé de réception / Délai de réponse
Voici la mesure que la plupart des équipes oublient : le temps nécessaire à une équipe pour reconnaître un incident et commencer à travailler dessus.
« Le temps de réponse est important car il permet d'identifier les équipes et les personnes prêtes à intervenir rapidement. Un temps de réponse rapide témoigne d'une culture de disponibilité opérationnelle, et les équipes qui ont la capacité et les outils nécessaires pour réagir plus vite ont généralement aussi la capacité et les outils nécessaires pour se rétablir plus rapidement. » – Arup Chakrabarti, Responsable des opérations, PagerDuty
Bien qu'un intervenant en cas d'incident n'ait pas toujours la maîtrise de la cause première d'un incident, il est entièrement responsable de son délai de prise en compte et de réponse. Les équipes opérationnellement performantes exigent beaucoup de leurs membres en matière de réactivité et se fixent des objectifs internes de temps de réponse.
Si vous utilisez un système de gestion des incidents comme PagerDuty, un Délai d'escalade dépassé C'est un excellent moyen de garantir un délai de réponse cible. Par exemple, si vous décidez que tous les incidents doivent être traités en moins de 5 minutes, configurez le délai d'attente à 5 minutes afin de vous assurer que la personne suivante soit alertée. Pour évaluer les performances de l'équipe et déterminer si votre objectif doit être ajusté, vous pouvez suivre le nombre d'incidents escaladés.
4. Escalades
Pour la plupart des organisations utilisant un outil de gestion des incidents, une escalade est l'exception : elle indique soit qu'un intervenant n'a pas pu accéder à l'incident à temps, soit qu'il ne disposait pas des outils ou des compétences nécessaires pour le traiter. Bien que les politiques d'escalade soient un élément essentiel et précieux de la gestion des incidents, les équipes devraient généralement s'efforcer de réduire progressivement le nombre d'escalades.
Dans certaines situations, l'escalade fait partie des procédures opérationnelles standard. Par exemple, vous pouvez disposer d'un centre d'opérations réseau (NOC), d'une équipe de support de premier niveau ou même d'un outil de remédiation automatique qui trie ou escalade les incidents entrants en fonction de leur contenu. Dans ce cas, il est important de suivre les types d'alertes qui doivent être escaladées et de connaître les seuils normaux pour ces alertes.
Suivez les performances de vos opérations avec PagerDuty
« Avant PagerDuty, il fallait parfois une journée pour répondre à un incident. Maintenant, cela se fait en quelques secondes. » – Aashay Desai, DevOps, Inkling.
PagerDuty a toujours pris en charge l'extraction de données d'incidents détaillées grâce à notre API à couverture complète, et nous avons également proposé des rapports intégrés limités à tous nos clients.
