- PagerDuty /
- Blog /
- Opérations numériques /
- Le coût de l'augmentation des incidents : comment la COVID-19 a affecté le MTTR, le MTTA et plus encore
Blog
Le coût de l'augmentation des incidents : comment la COVID-19 a affecté le MTTR, le MTTA et plus encore
La transformation numérique s'est accélérée pour de nombreuses entreprises au cours des 18 derniers mois. Bien qu'elle ait pu figurer à l'ordre du jour avant la COVID-19, les équipes ont été contraintes d'adopter un rythme effréné pour se numériser et répondre à la demande croissante en ligne. Durant cette période, les organisations ont tiré des enseignements précieux qu'elles pourront mettre à profit dans ce nouveau contexte. Les dirigeants peuvent s'appuyer sur ces enseignements pour concevoir de meilleurs produits, des équipes plus performantes et plus épanouies, et une clientèle plus satisfaite.
Notre équipe a rassemblé certains de ces principaux résultats dans notre Rapport sur l'état des opérations numériques Une leçon importante que nous avons tirée est que les incidents critiques ont augmenté de 19 % en glissement annuel entre 2019 et 2020, et il ne semble pas que le volume d'incidents ralentira de sitôt.
Certaines organisations ont eu davantage d'occasions d'apprendre et de se développer que d'autres durant cette période. Par exemple, la plus forte augmentation du nombre d'incidents critiques a été observée dans les secteurs du voyage et de l'hôtellerie ainsi que des télécommunications, avec une hausse de 20 %. Fin mars 2020, nous avons constaté que les secteurs les plus sollicités, notamment les plateformes d'apprentissage en ligne, les services de collaboration, le voyage, le commerce de détail non essentiel et les services de divertissement, subissaient jusqu'à 11 fois plus d'incidents critiques.

Dans ce nouvel épisode de notre série Série de blogs sur l'état des opérations numériques Nous aborderons l'impact de l'année 2020 sur des indicateurs tels que le MTTR (temps moyen de résolution) et le MTTA (temps moyen de prise en compte), les taux d'épuisement professionnel et de roulement du personnel, ainsi que les mesures que les dirigeants peuvent prendre pour améliorer la vie de leurs équipes et de leurs clients dans une perspective d'avenir numérique.
Comment les taux MTTA et MTTR ont-ils évolué ?
Le MTTA correspond au temps nécessaire à un intervenant pour accuser réception de l'alerte. Le MTTR, quant à lui, correspond au temps nécessaire pour résoudre l'incident. Bien que ces indicateurs ne soient pas les seuls à déterminer l'excellence opérationnelle, de nombreuses organisations les utilisent comme approximation et en tirent des enseignements précieux. Ces enseignements sont utiles pour identifier les points forts et les points faibles des processus de réponse aux incidents.
Les données de notre plateforme ont montré que, malgré une amélioration du MTTR (temps moyen de résolution), le temps total consacré à la résolution des incidents continue d'augmenter. Ceci est probablement dû à la hausse du nombre d'incidents critiques. Même si les équipes améliorent leurs performances en matière de résolution, le temps total passé sur les incidents ne cesse de croître. Cette situation a un impact négatif sur les équipes techniques, dont la charge de travail bascule du travail planifié vers le travail imprévu.

Le MTTA diminue parallèlement au MTTR. À mesure que les équipes adoptent PagerDuty, elles parviennent à atteindre un niveau plus élevé de maturité des opérations numériques via la plateforme. La maturité des opérations numériques correspond au niveau de compétence des équipes, qu'elles soient manuelles ou préventives, dans la gestion des interventions urgentes. Chaque étape est caractérisée par des capacités clés. À mesure que les équipes standardisent leur réponse aux incidents, leur MTTR (temps moyen de réparation) s'améliore. De même, en créant des règles d'astreinte et d'alerte plus efficaces, leur MTTA (temps moyen d'intervention) s'améliore.

Un autre aspect du MTTA est le taux d'accusé de réception (ack%), soit le pourcentage d'alertes critiques accusées de réception après leur déclenchement. C'est un indicateur supplémentaire de maturité opérationnelle. Plus ce taux est élevé, plus vos équipes sont réactives et responsables. Les utilisateurs de PagerDuty ont pu augmenter leur taux d'accusé de réception tout au long de la durée de vie de leur compte. Plus la durée d'utilisation de PagerDuty était longue, meilleurs étaient le taux d'accusé de réception et le MTTA. Même en distinguant les groupes de performance (le 10e percentile étant presque deux fois plus rapide à accuser réception des incidents que le 25e percentile), tous les comptes constatent une amélioration du MTTA au fil du temps.

L'adoption mobile de l'application PagerDuty contribue à améliorer le MTTA et le taux d'accusé de réception, car les membres de l'équipe d'astreinte sont rarement à portée de main pour répondre à une alerte. Ainsi, les problèmes ayant un impact sur les clients sont traités plus rapidement que jamais. Cependant, cela signifie aussi que les ingénieurs ne sont jamais vraiment déconnectés du travail. Alors que la frontière entre vie professionnelle et vie privée s'estompe, il est important de comprendre l'impact de ces alertes sur les équipes techniques.
Quel a été l'impact sur l'épuisement professionnel et le taux d'attrition ?
Un réveil brutal à 2 heures du matin peut être un inconvénient s'il se produit une fois tous les quelques mois. Mais s'il se produit plusieurs fois par semaine, l'effet est beaucoup plus marqué : les équipes s'épuisent, leur santé mentale se détériore et elles finissent par quitter l'entreprise dans l'espoir de trouver un meilleur équilibre entre vie professionnelle et vie personnelle ailleurs. Durant cette période, on parle de La Grande Résignation Il est donc impératif que les organisations soient capables d'attirer et de fidéliser les talents.
Les responsables souhaitant comprendre les difficultés rencontrées par leurs équipes peuvent analyser les astreintes de manière qualitative et quantitative afin d'identifier les personnes à risque d'épuisement professionnel et d'en comprendre les raisons. Les données de notre plateforme nous ont permis de mieux cerner ces facteurs déclencheurs.

Par rapport à 2019, les organisations ont constaté 4 % d'interruptions supplémentaires en 2020. Cependant, en analysant la répartition selon les différentes périodes, On a constaté une augmentation de 9 % des interruptions en dehors des heures de travail et de 7 % des interruptions pendant les jours fériés et les week-ends. , comparativement à une augmentation de 5 % des interruptions pendant les heures de travail et à une diminution de 3 % des interruptions pendant les heures de sommeil.
Bien que le fait que moins d'ingénieurs soient dérangés pendant leur sommeil soit une bonne chose, l'augmentation de 9 % des heures supplémentaires signifie que le temps passé en famille, les dîners, les séances de sport en soirée et d'autres activités sont sacrifiés pour répondre aux interruptions. À terme, cet horaire irrégulier représente environ 12 semaines de travail supplémentaires par an pour chaque membre de l'équipe d'astreinte.

Les données de notre plateforme ont également révélé que plus les ingénieurs étaient sollicités en dehors des heures de travail, plus ils souffraient d'épuisement professionnel. L'utilisateur moyen subit deux interruptions hors des heures de travail par mois. À l'inverse, les utilisateurs en situation d'épuisement professionnel subissaient jusqu'à 19 interruptions par mois. Sans surprise, ces derniers étaient les plus susceptibles de quitter l'entreprise.
Nous avons constaté que les profils des intervenants quittant la plateforme (notre indicateur d'attrition) présentaient une charge d'incidents hors des heures ouvrables supérieure à la moyenne. À l'aide d'une analyse de régression, nous avons examiné le volume de travail lié aux incidents hors des heures ouvrables pour les utilisateurs supprimés et les utilisateurs restants, et avons découvert une corrélation positive statistiquement significative entre ce volume et la probabilité de suppression d'un utilisateur.
Autrement dit, pour fidéliser leurs employés, les dirigeants doivent savoir comment réduire les interruptions (surtout celles qui surviennent en dehors des heures de travail) pour leurs équipes. Une solution consiste à utiliser des techniques intelligentes de réduction du bruit.
Réduire le bruit pour préserver la santé des intervenants
Ces interruptions en dehors des heures de travail sont parfois inévitables. Après tout, si votre panier d'achat tombe en panne à 19 h, vous ne pouvez pas vous permettre de perdre du chiffre d'affaires jusqu'au lendemain matin, date à laquelle votre équipe sera de nouveau en ligne. Or, il arrive que les ingénieurs d'astreinte soient appelés à 2 h du matin pour des problèmes sur lesquels ils n'ont aucune prise. Réduction du bruit Cela peut être utile car cela permet aux équipes de se concentrer sur ce qui est vraiment important.
Les systèmes de production génèrent de nombreux événements ; seuls certains d'entre eux constituent une alerte ou un problème potentiel. La plupart peuvent simplement être enregistrés dans votre système de surveillance pour une analyse ultérieure. Par ailleurs, certaines alertes peuvent être non pertinentes : alertes répétées, alertes sans action ou alertes pouvant être résolues automatiquement, sans intervention humaine.
Les données de notre plateforme ont démontré que grâce à des techniques de compression des événements et de regroupement des alertes, nous aidons nos clients à réduire de 98 % le nombre d'événements et d'incidents. Ainsi, les pics d'alertes sont réduits au strict minimum nécessaire pour ne retenir que les alertes exploitables. Pour en savoir plus, contactez-nous. Etsy sur la manière dont nous avons aidé l'équipe à identifier de manière proactive les alertes parasites et non exploitables, et à contrôler ce qui pouvait perturber l'état de concentration ou le sommeil profond de l'équipe.
Lorsque les alertes sont pertinentes, vos équipes peuvent traiter moins de tâches, mais avec plus d'attention. Cela limite le temps qu'elles passent loin de leurs passions en dehors des heures de travail et contribue à prévenir l'épuisement professionnel et le roulement du personnel.
Cela signifie également qu'ils peuvent se concentrer sur les enjeux cruciaux et offrir un service client d'excellence. Dans un monde numérique où l'expérience client est devenue primordiale, cet aspect revêt une importance accrue.
À quoi ressemblera l'avenir ?
L'année 2020 a accéléré le rythme de la transformation numérique de nombreuses entreprises. Mais ce rythme ne faiblira pas. Les entreprises doivent se préparer à ce niveau de dépendance au numérique qui perdurera.
Si vous pensez que vos équipes sont prêtes pour une plateforme de gestion des opérations numériques, Essayez PagerDuty gratuitement pendant 14 jours Si vous souhaitez en savoir plus sur nos conclusions, consultez le Rapport sur l'état des opérations numériques .