- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Comment éviter les « coups de poing et les dérapages » de la direction et autres bonnes pratiques pour une maturité opérationnelle
Blog
Comment éviter les « coups de poing et les dérapages » de la direction et autres bonnes pratiques pour une maturité opérationnelle
Nous mangeons à nouveau au restaurant. Nous retrouvons nos familles après une trop longue séparation. Certains d'entre nous retourneront peut-être même au bureau. Mais cela ne signifie pas que la pression sur les services numériques s'est atténuée, et le développement de la maturité opérationnelle reste une priorité.
Alors que les transformations numériques se poursuivent depuis deux décennies, la COVID-19 a accentué la pression pour accélérer les initiatives. Les équipes ont connu davantage d'incidents pendant cette période et, la frontière entre travail et vie privée s'étant estompée, de nombreuses personnes ont dû travailler plus longtemps pour éteindre les incendies.
En fait, dans une enquête de plus de 700 développeurs et professionnels des opérations informatiques, 58 % des répondants affirment que sur une période de 3 à 6 mois, les incidents ont augmenté de plus de 40 % — avec une augmentation moyenne de 47 % — ce qui exerce une pression considérable sur leurs équipes.
En discutant avec les clients de la manière dont ils se sont adaptés à cet environnement, on constate une nette distinction entre les cohortes d'organisations et les équipes en termes de maturité opérationnelle. En résumé, plus une organisation est mature, plus elle s'adapte facilement à l'évolution du rythme et aux exigences accrues. Mais avant d'aborder ce sujet, prenons un peu de recul. Qu'est-ce que la maturité opérationnelle exactement ?
Maturité opérationnelle est un mesure de la cohérence globale, de la fiabilité et de la résilience de l'infrastructure informatique, y compris la manière dont elle est gérée et maintenue Cela englobe la manière dont les équipes gèrent les incidents. La maturité opérationnelle influence la santé et le bien-être des équipes qui soutiennent cette infrastructure, ainsi que celui de l'utilisateur final, ce qui en fait un investissement de plus en plus crucial.
Nous avons déterminé que presque toutes les organisations se classent dans 5 catégories de maturité opérationnelle : manuel, réactif, réactif, proactif et préventif Atteindre un niveau supérieur de maturité opérationnelle nécessite des changements de processus, d'outils et de culture. Nous avons créé un webinaire pour aider les équipes à comprendre leur situation actuelle et à progresser.
Pour vous donner un avant-goût de ce qui sera abordé, voici trois bonnes pratiques que vous apprendrez de nos intervenants :
Faire de la réponse aux incidents une réponse commerciale
Imaginez une équipe de pompiers. Lors d'une intervention sur un incendie majeur, ils disposent d'un chef qui délègue la procédure (sans intervenir directement sur l'incendie), d'un navigateur et d'un communicateur, ainsi que de plusieurs pompiers qui s'occupent activement de l'extinction. La réponse aux incidents fonctionne de manière similaire. Les équipes opérationnellement matures auront des rôles assignés pour les incidents majeurs. Elles auront un commandant qui organise les interventions, un responsable de la communication qui partage les nouveautés, ainsi que plusieurs experts en la matière qui résolvent l'incident.
Mais réponse aux incidents commerciaux Cela va au-delà de la simple implication des responsables de services et des intervenants directs. Les équipes les plus expérimentées veillent également à ce que les autres parties prenantes de l'entreprise soient informées tout au long du processus. Cette tâche est souvent confiée au responsable de la communication.
En cas d'incident majeur, plusieurs équipes doivent être sensibilisées au problème. Par exemple, le support client doit savoir qu'il doit s'attendre à un volume d'appels et de tickets plus important. L'équipe commerciale peut être amenée à reporter des démonstrations ou des appels. Le marketing peut avoir besoin de savoir s'il doit différer une publication sur les réseaux sociaux ou anticiper une couverture médiatique supérieure à la moyenne. Les dirigeants souhaiteront connaître l'impact global sur l'activité, non seulement de l'équipe technique impliquée, mais aussi de l'ensemble de ces équipes.
En communiquant avec les parties prenantes, en les tenant informées des nouveautés et en travaillant ensemble sans cloisonnement, les incidents sont résolus plus rapidement et ont un impact moindre sur les clients et la marque. De plus, cela permet d'éviter les « coups de poing et de pied », terme utilisé lorsque d'autres acteurs du secteur interrompent les interventions en cas d'incident pour tenter de comprendre l'impact de la situation sur leurs équipes. Répondre proactivement à leurs préoccupations avant qu'elles ne les sollicitent permet aux intervenants de gagner du temps et de l'énergie.
Apprenez de vos erreurs et apportez des changements
Les incidents surviennent. Impossible de les éviter. Mais on peut en tirer des leçons et, dans certains cas, éviter qu'un incident du même type ne se reproduise. Cela dépend de la capacité de votre équipe à apprendre des échecs et constitue un autre signe de maturité opérationnelle.
Autopsies Les analyses de données constituent un moyen important de tirer les leçons des défaillances système. Une fois l'incident résolu, les équipes opérationnelles expérimentées se mobilisent pour déterminer les causes de l'incident et les moyens d'éviter qu'il ne se reproduise. Ce processus implique généralement la création d'une documentation complète sur l'incident, incluant les chronologies, les scripts ou les manuels d'exploitation utilisés dans le processus de résolution, ainsi que les données de télémétrie pertinentes.
Une fois la documentation terminée, l'équipe d'intervention se réunira (virtuellement ou en personne) et discutera des événements, des causes profondes potentielles, du déroulement du processus et des mesures à prendre pour renforcer la résilience du système face à ce type de défaillance. Il est important, dans ce processus, d'aborder la défaillance sans reproche afin de préserver la sécurité psychologique et d'en tirer le meilleur parti.
Une fois l'analyse post-mortem terminée, les équipes se retrouvent souvent avec une liste d'actions susceptibles de protéger le système contre une défaillance similaire. Créer ces actions et les laisser sans affectation dans une file d'attente ne suffit pas. La maturité opérationnelle consiste également à prendre des mesures pour apporter des changements positifs.
Toutes les actions ne se valent pas. Certaines sont plus importantes que d'autres. Lorsque vous déterminez les actions à prioriser, examinez-les sous l'angle de leur impact sur l'ensemble de l'entreprise. Si deux actions sont conçues pour durer le même temps, mais que l'une ne bénéficiera qu'aux responsables des services et l'autre à une plus grande partie de l'entreprise, privilégiez celle qui bénéficiera au plus grand nombre.
Mesurer l'épuisement professionnel de manière qualitative et quantitative
Les incidents sont imprévisibles. C'est pourquoi on les considère comme des travaux non planifiés. Si nous pouvions tous planifier nos emplois du temps en fonction des pannes prévisibles, la vie serait bien plus simple. Cependant, ce n'est pas le cas et les interruptions sont inévitables. Si ces interruptions sont très fréquentes ou surviennent en dehors des heures de travail, comme la nuit, le week-end ou les jours fériés, les membres de l'équipe d'astreinte pourraient commencer à se sentir épuisés.
Un récent rapport Une étude de PagerDuty a montré qu'en 2020, l'utilisateur moyen de PagerDuty travaillait 2 heures de plus par jour qu'en 2019. Cela équivaut à 12 semaines de travail supplémentaires par an. De plus, le rapport révèle que les utilisateurs les plus fréquemment interrompus en dehors des heures de travail sont ceux qui ont le plus souvent supprimé leur compte PagerDuty (notre indicateur d'attrition). Les entreprises doivent détecter le burn-out le plus tôt possible avant qu'il n'entraîne une baisse du moral des équipes et une attrition.
Comment les organisations peuvent-elles y parvenir ? D'un point de vue quantitatif, les managers devraient examiner le temps passé en permanence, le nombre moyen et la durée des incidents par période d'astreinte, ainsi que la fréquence à laquelle leurs équipes sont mobilisées en dehors des heures de travail pour intervenir.
Mais l'épuisement professionnel ne se résume pas seulement à des chiffres. Il est essentiel d'avoir une vision qualitative de la performance des équipes. Par exemple, les managers doivent être attentifs aux conversations concernant les nuits tardives ou le sentiment de surcharge de travail des membres de l'équipe. Ils doivent également être attentifs à toute baisse de qualité du travail ou aux délais non respectés, qui peuvent être des indicateurs d'épuisement professionnel. Enfin, les managers doivent surveiller le moral de l'équipe et veiller à ce que, même si beaucoup d'entre nous travaillent encore à distance, une politique de porte ouverte soit en place pour répondre à toute préoccupation.
Si les équipes parviennent à se concentrer sur la prévention du burn-out, à résoudre les incidents en tant qu'entreprise plutôt qu'équipe, et à apprendre de leurs erreurs, elles seront sur la bonne voie vers la maturité opérationnelle. Mais cette transformation ne se limite pas à cela.
Notre webinaire, « Plongée en profondeur sur la santé opérationnelle ” explique comment planifier la maturation de votre organisation. Rejoignez Mandi Walls, défenseure DevOps, et Logan Life, responsable principal senior de la réussite client de PagerDuty, pour découvrir des tactiques permettant de gagner en maturité opérationnelle et d'adopter les meilleures pratiques DevOps, telles que propriété à service complet et cultiver une culture irréprochable.
Registre pour regarder le webinaire à la demande.