Blog

Réduisez votre temps de résolution des incidents

par Julie Arsenault 12 novembre 2014 | 4 min de lecture

Il y a quelque temps, nous avons publié un article de blog sur indicateurs clés de performance Les meilleures équipes d'exploitation suivent de près ces indicateurs. Le temps moyen de résolution (MTTR) en fait partie. Il s'agit du temps écoulé entre une panne et sa résolution, et il est directement lié à la disponibilité du système. Le MTTR est un excellent indicateur à suivre ; cependant, il est important d'éviter une vision à court terme.

Mettre le MTTR en perspective

Votre temps d'indisponibilité global dépend du nombre de pannes ainsi que de la durée de chacune d'elles. Dan Slimmon Ce document aborde très bien ces deux facteurs et la manière de les hiérarchiser. Selon votre situation, il peut être plus important de minimiser les alertes intempestives qui se résolvent rapidement (ce qui peut entraîner une augmentation de votre MTTR). Si vous avez identifié le MTTR comme un axe d'amélioration, voici quelques stratégies qui pourraient vous être utiles.

Travailler plus vite ne résoudra pas le problème

Il serait idéal de pouvoir résoudre les pannes plus rapidement simplement en travaillant plus vite, mais nous savons tous que ce n'est pas le cas. Pour améliorer durablement et concrètement votre MTTR (temps moyen de réparation), il est indispensable d'analyser en profondeur ce qui se passe lors d'une panne. Certes, le temps de résolution variera toujours en raison de la complexité des incidents. Mais examiner vos processus est un bon point de départ : souvent, la clé pour gagner du temps réside dans la collaboration entre vos équipes et vos systèmes.

Vérifiez votre temps de réponse

Le délai moyen de réparation (MTTR) commence à courir dès qu'un incident est déclenché, et en ajustant vos processus de notification, vous pourrez peut-être obtenir des résultats rapides.

Vous souhaitez connaître votre temps de réponse ? Nous avons analysé les données PagerDuty sur un mois afin de comprendre les délais d'accusé de réception (réponse) et de résolution, ainsi que leur corrélation. Le délai médian d'accusé de réception était de 2,82 minutes, et 56 % des incidents ont été accusés de réception en moins de 4 minutes. Le délai médian de résolution était de 28 minutes. Pour 40 % des incidents, le délai d'accusé de réception représente entre 0 et 20 % du délai de résolution.

Temps de réponse médian : 2,82 minutes

Temps de résolution médian : 28 minutes

Incident Response Time as % of Resolution Time

Si votre temps de réponse est relativement long, il serait judicieux d'examiner comment l'équipe est alertée. Les alertes parviennent-elles systématiquement à la bonne personne ? Si la première personne notifiée ne répond pas, les alertes peuvent-elles être automatiquement transmises à un niveau supérieur ? Et combien de temps faut-il réellement attendre avant de passer à autre chose ? Définir des attentes et des objectifs réalistes concernant le temps de réponse permet de garantir que tous les membres de l'équipe répondent à leurs alertes le plus rapidement possible.  

Mettre en place une procédure pour les pannes

Une panne est une période stressante, et ce n'est pas le moment de se demander comment réagir face à un incident. Mettez en place une procédure (même imparfaite au départ) pour que chacun sache quoi faire. Assurez-vous de disposer des éléments suivants :

  1. Établir un protocole de communication – Si l’incident nécessite la collaboration de plusieurs personnes, assurez-vous que chacun sache où se trouver. Les conférences téléphoniques ou Google Hangouts sont une bonne solution, tout comme une salle de réunion virtuelle sur Hipchat.
  2. Désigner un leader Cette personne sera chargée de coordonner le travail de l'équipe pour résoudre la panne. Elle prendra des notes et donnera des instructions. En cas de désaccord avec le reste de l'équipe, le responsable pourra être destitué par un vote, mais un autre responsable devra être désigné immédiatement.
  3. Prenez de bonnes notes – sur tout ce qui se passe pendant la panne. Ces notes vous seront utiles lors de l'analyse a posteriori. Chez PagerDuty, certains de nos responsables d'intervention préfèrent utiliser un carnet papier à côté de leur ordinateur portable pour se rappeler visuellement de tout consigner.
  4. C'est en forgeant qu'on devient forgeron Si vous ne subissez pas de pannes fréquentes, mettez en pratique votre plan de réponse aux incidents tous les mois afin de garantir que l'équipe le maîtrise parfaitement. N'oubliez pas non plus de former les nouvelles recrues à cette procédure.

Pour en savoir plus, consultez Conférence de Blake Gentry À propos de la gestion des incidents chez Heroku.

Trouver et résoudre le problème

Découvrir l'origine du problème représente souvent la majeure partie du temps consacré à sa résolution. Il est essentiel de disposer d'outils d'analyse et de surveillance pour chacun de vos services, et de s'assurer que ces informations vous aident à identifier la cause du dysfonctionnement. Pour les problèmes relativement courants et bien compris, vous pouvez mettre en œuvre des correctifs automatisés. Nous aborderons chacun de ces points plus en détail dans de prochains articles.