Blog

5 signes que vous avez besoin d'une solution pour votre planning d'astreinte informatique

par Vivian Au 31 octobre 2013 | 4 min de lecture

on call rotation Depuis notre premier article sur les meilleures pratiques de garde En mars 2011, les méthodes de planification des astreintes étaient restées globalement inchangées. De nombreuses équipes commençaient par envoyer des alertes par courriel à tous les membres, puis une personne se portait volontaire pour résoudre l'incident. Avec ce modèle, certains membres, véritables héros de l'équipe, finissaient par gérer un nombre disproportionné d'incidents, tandis que les nouvelles recrues n'avaient pas l'occasion d'apprendre à les résoudre.

Le pire, c'est que tout le monde est d'astreinte en permanence. À mesure que votre équipe s'agrandit et que les responsabilités se répartissent, un système d'astreinte par roulement devient indispensable. Sa mise en place n'est cependant pas simple : vos collègues peuvent être basés dans différentes villes, leurs horaires sont variables et chaque ingénieur a sa propre méthode d'alerte préférée. Il vous faut un système suffisamment flexible pour gérer ces contraintes et suffisamment robuste pour fonctionner de manière fiable.

État actuel de la planification des astreintes

Il existe aujourd'hui plusieurs méthodes de planification des astreintes utilisées par les organisations. Certaines sont plus sophistiquées que d'autres, mais chacune présente ses propres limites.

1. Charge de travail injuste liée aux astreintes

Une solution d'astreinte simple et courante consiste à utiliser un téléphone ou un bipeur dédié, transmis ensuite à l'ingénieur d'astreinte suivant. Bien que cela puisse paraître désuet, de nombreuses organisations avec lesquelles nous avons discuté utilisent cette méthode. Si votre équipe est répartie dans plusieurs villes, certains membres ne peuvent pas participer s'ils sont hors de portée. Cela représente une charge injuste pour certains de vos collègues les plus précieux.

2. Temps de réponse retardé

Une autre option simple, mais exigeante en main-d'œuvre, consiste à mettre en place un centre d'opérations réseau (NOC) fonctionnant 24 h/24 et 7 j/7. Cette méthode implique de rémunérer du personnel pour surveiller les indicateurs en continu et identifier les problèmes. En cas de problème, ce personnel doit consulter un annuaire pour trouver les contacts appropriés et alerter le personnel d'astreinte afin de résoudre la situation. Il serait bien plus simple pour votre équipe NOC de gérer de manière centralisée un système d'astreinte qui notifie directement la personne d'astreinte compétente et réduit ainsi votre temps moyen de réponse.

3. Fatigue d'alerte

Certaines entreprises optent pour la simplicité en envoyant des newsletters à toute leur équipe. Dans ce modèle, l'équipe d'astreinte est chargée de surveiller ses e-mails 24h/24 et 7j/7 ; les autres destinataires doivent supprimer manuellement les alertes. Cela génère du spam et diminue le sentiment d'urgence lors de la réception des alertes.

4. Des alertes passent entre les mailles du filet

Une option plus sophistiquée consiste à automatiser la gestion des alertes par e-mail dans votre outil de supervision. Par exemple, vous pouvez configurer un agenda Google avec le planning d'astreinte et utiliser un script qui l'interroge. Ce script récupérera l'adresse e-mail du personnel d'astreinte et mettra à jour l'outil de supervision en cas de modification. Cependant, cette solution ne prend en charge que la planification des astreintes à un seul niveau. Elle ne permet pas de gérer les situations d'escalade où l'ingénieur principal manque la première alerte et où il est nécessaire de notifier le collègue d'astreinte secondaire.

5. Absence de source centrale pour les horaires de garde

Certains outils de supervision prennent en charge nativement la planification des astreintes via l'importation de fichiers CSV, mais avec une flexibilité limitée. Souvent, les options se limitent à des rotations quotidiennes (et non horaires) ou à des plannings simplistes. Ils ne permettent pas de gérer des astreintes plus complexes, comme les astreintes en continu. De nombreuses entreprises utilisent plusieurs outils de supervision pour leur site web, leurs serveurs, leurs bases de données, etc. Configurer et gérer plusieurs outils de supervision uniquement pour la planification des astreintes est fastidieux.

Si vous souffrez de l'un des problèmes mentionnés ci-dessus, vous avez besoin d'une solution. Il est temps d'opter pour une solution de gestion des incidents afin d'alléger vos contraintes liées aux astreintes et de préserver votre bien-être mental. N'hésitez pas à nous en parler si vous ressentez ces désagréments. Nous avons nous-mêmes éprouvé ces symptômes et c'est pourquoi nous avons créé… PagerDuty guérir.