- PagerDuty /
- Blog /
- Meilleures pratiques et perspectives /
- Guide des nouvelles opérations : Meilleures pratiques pour les équipes d’astreinte
Blog
Guide des nouvelles opérations : Meilleures pratiques pour les équipes d’astreinte
L'exigence de disponibilité permanente des services numériques a accru les contraintes pesant sur les équipes techniques, qui doivent être prêtes à intervenir 24 h/24 et 7 j/7. Pour les équipes découvrant ce concept, la mise en place d'un système d'astreinte peut s'avérer complexe et stressante. La gestion des astreintes est un élément clé de la plateforme PagerDuty, mais les aspects non techniques doivent également être pris en compte par les équipes.
Nous avons rassemblé un grand nombre de ressources de PagerDuty dans un guide complet pour vous aider à vous y retrouver dans les méandres des astreintes avec des équipes qui n'y sont pas habituées. Nous espérons que vous connaissez déjà nos ressources. Guides d'opérations Mais sinon, celui-ci est un excellent point de départ !
Déterminez pourquoi vous avez besoin d'un programme de garde.
Si votre équipe découvre tout juste le système d'astreinte, il est important de définir clairement les raisons pour lesquelles elle va assumer ces responsabilités. Plusieurs raisons peuvent justifier l'inclusion de plusieurs équipes d'astreinte au sein de votre organisation.
Si votre équipe s'appuie sur un centre d'opérations réseau (NOC) ou d'autres intervenants de premier niveau externes, un nombre élevé d'escalades et/ou d'alertes non résolues pourrait vous inciter à mettre en place un plan d'astreinte plus robuste. Si votre NOC est incapable de résoudre une alerte et doit la transférer à une équipe sans rotation d'astreinte clairement définie, les délais engendrés par ce transfert peuvent allonger les temps de résolution. N'oubliez pas que chaque transfert lors de la résolution d'un incident représente un temps précieux. De plus, chaque nouvel intervenant a besoin de temps pour recueillir les informations et le contexte nécessaires.
Des retards et de la confusion surviennent également lorsque les équipes de développement d'applications s'appuient sur des équipes d'exploitation distinctes pour leurs environnements de production. De même que dans l'exemple du centre d'opérations réseau (NOC), pour les erreurs et incidents liés au code applicatif, les intervenants de l'équipe d'exploitation doivent consacrer du temps à trouver un membre de l'équipe de développement pour résoudre les problèmes.
La séparation des tâches liées aux incidents peut également retarder la correction définitive des problèmes dans le code de l'application. Personne ne souhaite devoir corriger sans cesse la même erreur parce qu'elle n'a pas été définitivement résolue. Ajouter une tâche à la liste des problèmes à résoudre ne suffit pas ; la correction doit être priorisée et mise en œuvre. Si le retour sur investissement d'une correction n'est pas suffisant, la meilleure solution consiste à documenter la procédure à suivre pour les équipes suivantes.
Vous pourriez donc vous retrouver dans une organisation qui attend des développeurs d'applications qu'ils jouent un rôle plus visible dans les astreintes pour leurs applications afin de réduire le temps nécessaire à la résolution d'un problème et à la mise en place d'une solution permanente.
Apaiser les peurs
L'un des principaux défis pour les équipes qui assument une nouvelle responsabilité d'astreinte est la réputation selon laquelle cette astreinte perturbe considérablement la vie des intervenants. Personne ne souhaite manquer des événements familiaux, des fêtes ou son sommeil.
Offrir une meilleure expérience d'astreinte à votre équipe nécessite de bonnes pratiques techniques et culturelles. Votre équipe souhaitera éliminer les alertes intempestives, que ce soit en corrigeant définitivement les problèmes ou en créant… automation pour gérer les problèmes courants ou pour déprioriser les alertes ayant un impact minimal sur l'utilisateur.
Lorsqu'une alerte peut potentiellement réveiller quelqu'un à 2 heures du matin, elle devrait en valoir la peine !
Il est également important d'établir des règles pour que votre équipe puisse échanger ses horaires et se remplacer mutuellement en cas d'imprévu. Les aléas de la vie sont imprévisibles, et il est impossible de tout prévoir. Facilitez donc la tâche à votre équipe pour qu'elle puisse modifier ses horaires selon les besoins.
Utilisez vos outils
La plateforme PagerDuty met à votre disposition plusieurs outils utiles pour garantir que votre équipe est prête à intervenir en cas d'astreinte. Parmi ces outils, on trouve : Rapports de disponibilité d'astreinte .
Ces rapports aideront votre équipe à rester connectée à PagerDuty comme vous le souhaitez.
Les options du rapport de préparation dépendent des exigences que vous avez définies pour votre équipe et vous indiquent quels membres ont correctement configuré leurs comptes. Vous pouvez décider avec votre équipe des méthodes de notification les plus adaptées aux services que vous prenez en charge. Pour les tâches de faible priorité, vous pouvez choisir « Inclure le téléphone obligatoire ». Pour les équipes gérant des services clients essentiels, il est préférable d'opter pour une option comme « Ne manquez aucune notification », en encourageant votre équipe à configurer ses comptes avec les notifications par e-mail, téléphone, SMS et notifications push de l'application mobile PagerDuty .
Partagez vos idées
Nous espérons que vous donnerez le nouveau guide des opérations Lisez ceci ! Alors rejoignez-nous dans le forums communautaires N'hésitez pas à nous faire part de vos commentaires et à nous signaler tout élément manquant. De plus, si vous avez des éléments indispensables à inclure dans notre liste de vérification pour les astreintes, merci de nous les indiquer ici. fil Nous allons compiler les réponses et ajouter une liste de contrôle téléchargeable au guide.