Blog

Manuel de gestion technique de PagerDuty pour des équipes et des services plus sains

par Hannah Culver 5 octobre 2021 | 9 minutes de lecture

En juillet dernier, nous avons lancé L'état des opérations numériques , qui met en lumière le volume de travail en temps réel, sa croissance au fil du temps et la charge croissante que cela représente pour les équipes techniques. Nous souhaitions comprendre comment les responsables de l'ingénierie de notre organisation abordent certains des défis évoqués dans le rapport. Nous avons donc demandé à notre Directeur du marketing produit, Julian Dunn , asseyez-vous avec deux de nos propres responsables d'ingénierie chez PagerDuty, Leeor Engel et Dileshni Jayasinghe , pour un table ronde pour discuter de tactiques concrètes pour aborder des sujets tels que :

  • Gérer le travail non planifié en temps réel et développer la force de l'astreinte
  • Comprendre la santé de l'équipe et du service
  • Réaliser des revues opérationnelles et partager des connaissances

Si vous préférez regarder ou écouter le webinaire, vous pouvez consulter l'enregistrement ici Pour ceux qui préfèrent scanner ou lire, nous partagerons quelques-uns des points saillants de leur discussion dans cet article de blog.

Gérer le travail en temps réel, non planifié et développer la force de l'astreinte

Notre conclusions du rapport Les données montrent que les incidents chez nos clients ont augmenté d'environ 19 % entre 2019 et 2020. Engel et Jayasinghe ont tous deux indiqué que leurs équipes étaient confrontées à une augmentation du bruit et des signaux. Une meilleure compréhension des alertes reçues peut contribuer à alléger la charge de travail des équipes d'astreinte.

Jayasinghe a expliqué qu'elle encourageait ses équipes à affiner leurs outils, notamment la manière et le moment des alertes et des messages, ce qui reflétait la philosophie d'Engel : il est important de repenser les seuils de surveillance et de déterminer si les alertes reçues par les membres de l'équipe sont exploitables. L'optimisation du niveau d'alerte exploitable est une préoccupation récurrente chez nos clients, notamment avec l'évolution des modes de travail.

Comme de nombreuses équipes à travers le monde, les ingénieurs de PagerDuty ont adopté le télétravail. Dans le cadre de ce changement, l'ensemble de l'organisation a dû repenser la gestion des alertes. Auparavant, les collègues pouvaient se tourner vers leur chaise et demander de l'aide pour le triage ou poser une question avant de déclencher une intervention. Aujourd'hui, Jayasinghe affirme qu'il est important de privilégier la prudence et de déclencher les interventions le plus tôt possible afin de pouvoir coordonner les interventions.

Tout comme nos clients, les équipes de PagerDuty progressent constamment dans leur propre parcours de maturité opérationnelle numérique, et l'un des principaux enseignements que nous avons retenus est l'importance de développer une force d'astreinte capable de supporter l'augmentation des alertes.

Que vous soyez fraîchement sorti de l'école ou d'une formation intensive, ou que vous n'ayez tout simplement jamais eu à effectuer d'astreinte dans vos précédents postes, être d'astreinte pour la première fois peut être intimidant. Dans le webinaire, Dunn se souvient de son expérience d'ingénieur logiciel : « On ne parle jamais de l'aspect opérationnel : être responsable d'un service et être d'astreinte. » Alors, comment les ingénieurs sont-ils censés se familiariser avec les astreintes ?

Chez PagerDuty, la philosophie est de privilégier une culture d'appropriation, de sécurité psychologique, d'irresponsabilité et d'apprentissage continu. En résumé, Jayasinghe explique que la meilleure façon d'aider les ingénieurs à développer leur capacité d'astreinte est de s'assurer qu'ils se sentent soutenus. Elle informe ses équipes qu'elles peuvent toujours faire remonter le problème sans jugement, et qu'une personne d'astreinte secondaire est toujours prête à aider le triage principal et à examiner le problème si nécessaire.

Elle estime également que les responsables d'ingénierie devraient être munis d'un téléavertisseur et d'astreintes. « En tant que responsable, il est important d'être d'astreinte et de montrer que vous comprenez les besoins de vos équipes afin de développer l'empathie. Cela montre aux nouveaux ingénieurs que chacun est maître de ses services. »

À titre de bonne pratique, Engel et Jayasinghe recommandent tous deux de mettre en place un suivi entre le deuxième et le troisième mois de la carrière d'un ingénieur. Engel a également mis l'accent sur le suivi inversé, où l'ingénieur formateur est aux commandes et bénéficie d'un accompagnement tout au long du processus. Il a souligné que c'est en forgeant qu'on devient forgeron et que cela permet aux nouveaux coéquipiers de se familiariser avec les outils et les tableaux de bord.

Il faut éviter autant que possible les nouveautés lorsqu'on vous contacte. Ainsi, vous avez tout ce dont vous avez besoin à portée de main. Si vous pouvez vous entraîner mentalement en mémorisant ces outils, c'est d'une grande aide.

Comprendre la santé de l'équipe et du service

En 2020, les données de notre plateforme ont montré que les utilisateurs travaillaient plus longtemps et moins régulièrement qu'en 2019, un tiers de nos utilisateurs travaillant un 12 semaines de travail supplémentaires par an De plus, nous avons constaté que plus un ingénieur était sollicité en dehors des heures de bureau, plus il était susceptible de quitter la plateforme (notre indicateur d'attrition). Avec de telles statistiques, il est clair que la gestion de la santé de l'équipe est primordiale. Mais qu'en est-il concrètement ?

Engel envisage la santé selon deux dimensions clés : la perspective humaine et la perspective de service. La perspective humaine consiste à comprendre l'état mental de son équipe, la fréquence et le moment des interruptions. La perspective de service (fonctionner avec un modèle de propriété à service complet ) comptabilise la charge par service.

Il note qu'il est important de réfléchir à la manière d'obtenir le meilleur « retour sur investissement » en donnant la priorité aux services bruyants et en apportant les changements qui auront le plus grand impact sur votre équipe.

« Je suis particulièrement attentif à ce qui se passe : quelqu'un a-t-il été réveillé pendant la nuit, ou pire, plusieurs fois ? C'est un problème qu'il faut régler rapidement », a déclaré Engel.

Jayasinghe et Engel ont tous deux souligné l'importance de mettre en place des procédures pour gérer ce genre de nuits. Jayasinghe recommande aux managers de créer une documentation précisant quand une personne a besoin d'une dérogation pour le reste de son quart de travail ou quand un technicien d'astreinte doit bénéficier d'un jour de repos pour récupérer.

« En tant que manager, vous devez rédiger ces politiques afin que les gens soient en mesure de dire : « J'ai été réveillé, je vais prendre le temps de récupérer et de revenir frais et dispos » », a déclaré Jayasinghe.

Elle a également suggéré aux équipes de revoir leurs outils de surveillance. Chez PagerDuty, nous disposons d'un tableau de bord partagé par toutes les équipes. services et indicateurs clés Cela nous permet de détecter les anomalies et les surcharges de travail, afin de pouvoir traiter les problèmes de manière proactive avant même qu'un appel ne soit lancé. Grâce à cette approche proactive, Jayasinghe et son équipe parviennent à maintenir leur charge de travail non planifiée à moins de 20 %.

Jayasinghe a déclaré que les managers souhaitant obtenir une vision plus qualitative de la santé de leur équipe devraient s'assurer de planifier des entretiens individuels réguliers avec leurs collaborateurs. Elle recommande Pack de démarrage Plucky 1:1 , en particulier les questions relatives à l’équilibre entre vie professionnelle et vie privée, pour avoir une idée de la performance des équipes.

Réaliser des revues opérationnelles et partager des connaissances

À mesure que les équipes grandissent et mûrissent, il est important de créer des processus favorisant l'analyse de l'état de santé et le partage des connaissances. Cela permet aux équipes d'ingénierie de se tenir informées et d'apprendre les unes des autres. Voici quelques conseils de nos intervenants pour garantir un large partage des connaissances.

Les revues opérationnelles sont un excellent moyen pour les équipes de comprendre leurs performances. Nous utilisons même Analyses de PagerDuty Pour cela, nous avons notamment réalisé des bilans opérationnels. Nous avons créé un tableau de bord des astreintes qui couvre des éléments clés comme les interruptions par personne et par service. Cela permet non seulement à l'équipe de mieux comprendre le déroulement de la rotation, mais aussi de développer l'empathie entre les membres de l'équipe. Ces bilans opérationnels examinent également les objectifs de performance du service.

SLO (objectifs de niveau de service) Ces indicateurs montrent la fiabilité d'un service par rapport à un objectif client. La disponibilité et la latence comptent parmi les SLO les plus courants. Si des anomalies de surveillance impactent ces SLO, l'équipe peut identifier des actions susceptibles de l'aider à préserver l'expérience client. Cela permet également de déterminer les incidents prioritaires, même si cela prend du temps et nécessite des itérations.

« Vous choisissez vos objectifs de niveau de service comme un indicateur représentatif de l'impact sur les clients. Il faut du temps pour déterminer cet indicateur, car il doit s'agir d'un élément réellement important pour les clients », a réitéré Dunn.

Un autre aspect des SLO est le budget d'erreur correspondant, ou le nombre acceptable de défaillances qu'un service peut subir dans un laps de temps donné. Engel a souligné que les budgets d'erreur aident ses équipes à comprendre comment calibrer la prise de risque et l'expérimentation.

Vous pouvez utiliser votre marge d'erreur restante de chaque fenêtre pour gérer le chaos. Chez PagerDuty, nous appelons cela Vendredi de l'échec Les équipes peuvent interrompre intentionnellement des parties de services de manière planifiée et sécurisée afin de comprendre comment elles réagiront en cas de panne. Cela les prépare à une panne réelle et peut leur fournir des opportunités d'apprentissage pour atténuer complètement cette panne.

Au-delà des Vendredis de l'échec, Engel suggère également d'apprendre de autopsies Toutes les équipes doivent être encouragées à partager leurs analyses rétrospectives et à rendre les réunions aussi ouvertes que possible. Outre la lecture des analyses rétrospectives actuelles, les équipes peuvent également consulter les analyses rétrospectives historiques pour comprendre ce qui s'est passé, les actions qui en ont découlé et leur impact sur le système dans son ensemble. Engel suggère également de réaliser des analyses rétrospectives avec les responsables de l'ingénierie de toutes les équipes.

« Nous cherchons ici des problèmes systémiques qui pourraient avoir affecté cette équipe, mais qui pourraient également être observés lors d'autres incidents. Nous pourrions peut-être y remédier et éviter à d'autres équipes de rencontrer ce problème », a expliqué Engel.

La lecture des analyses post-mortem est un excellent moyen d'apprendre des échecs passés, tant pour les anciens que pour les nouveaux membres de l'équipe. Mais si vous cherchez spécifiquement des moyens de partager vos connaissances avec vos équipes à mesure que vous évoluez et grandissez, Jayasinghe partage ses conseils.

Elle suggère de doter les nouvelles équipes d'au moins quelques ingénieurs déjà en poste afin de préserver la culture d'entreprise. Les nouveaux managers devraient intégrer des équipes expérimentées afin de pouvoir apprendre de leurs nouveaux collaborateurs. Cela permet de pérenniser les pratiques existantes. De plus, les nouvelles équipes devraient suivre les anciennes équipes lors des astreintes pour se familiariser avec les outils et les tableaux de bord de suivi.

Jayasinghe et Engel ont souligné l'importance cruciale de leur groupe de pairs managériaux pour l'apprentissage. Les responsables de PagerDuty s'efforcent de standardiser les outils, les processus et les tableaux de bord, et de les documenter dans nos guides opérationnels. Chaque service dispose d'un guide opérationnel accessible via un dépôt GitHub. Les liens sont accessibles à tous. Vous pouvez par exemple consulter notre Guide des opérations d'astreinte .

Apprentissage approfondi auprès de nos leaders en ingénierie

Enfin, Engel et Jayasinghe ont partagé les ressources sectorielles qu'ils jugent les plus utiles. Parmi celles-ci :

Si vous souhaitez en savoir plus sur Leeor Engel, Dileshni Jayasinghe et Julian Dunn, regardez leur webinaire à la demande, « Perspectives sur les opérations numériques : le volume et l’impact humain du travail d’astreinte et en temps réel. « Si vous souhaitez voir ce que PagerDuty peut faire pour vos équipes, commencez votre Essai gratuit de 14 jours .