- PagerDuty /
- Blog /
- Non classé /
- Conseils rapides : comment autopsier chaque incident
Blog
Conseils rapides : comment autopsier chaque incident
Plaidoyer pour une autopsie de chaque incident
UN post mortem Il s'agit d'un processus d'enquête visant à déterminer ce qui s'est passé suite à un incident et les leçons à en tirer. écrit avant pourquoi vous ne devriez pas simplement post-mortem les incidents majeurs, mais les publier Mais il ne faut pas faire d'autopsie uniquement pour les incidents majeurs. En règle générale, nous vous recommandons d'assurer un suivi de chaque incident, surtout s'il a réveillé quelqu'un. Chaque incident est une occasion d'apprendre en équipe et d'améliorer votre produit. Mais il n'y a aucune raison que ce soit toujours un processus fastidieux.
Conseils pour vous faciliter la tâche
Voici quelques conseils pour le rendre rapide et facile :
- Établissez un seuil pour ce qui fait l'objet d'une analyse rétrospective complète de l'équipe. Chez PagerDuty, l'équipe examine tous les incidents de niveau 1 et 2, ainsi que tous les processus défaillants. Tout le reste est vérifié par une seule personne.
- Regroupez les incidents mineurs et examinez-les sur une semaine (astuce : PagerDuty fonctionnalité d'analyse Le meilleur moment est probablement la fin du changement de poste.
- L’objectif est de prioriser vos différents efforts de résolution, et non de attribuer le blâme .
- Les résultats peuvent être simples, comme les exemples suivants :
- Ajuster le seuil d'alerte de cet outil de surveillance. (D'après mon expérience, celui-ci est sous-utilisé.)
- Ajout d'un nouveau filtre dans PagerDuty via filtres de courrier électronique , heures d'assistance ou utilisez notre nouveau Enrichissement des événements Plateforme bêta.
- Comptage des incidents récurrents et peu urgents. La plupart des problèmes ne sont pas bloquants, mais il est important de suivre leur fréquence afin de les prioriser et de les traiter dès que possible.
- Ajuster le routage d'une notification particulière.
- Planification automatique une fenêtre de maintenance, si tout le reste échoue (je ne recommande personnellement pas cette solution, mais c'est une utilisation courante de notre API .)
- Mise à jour du runbook (et lien dans la description du service pour que les intervenants le voient).
- Suivez quelques estimations approximatives de la façon dont perturbateur Un incident particulier survenu pendant un quart de travail peut concerner votre équipe. La situation s'est-elle améliorée ou aggravée au cours des derniers quarts de travail ? Vos incidents suivent-ils une loi de puissance (un incident majeur, plusieurs incidents mineurs) ou éteignez-vous toujours des incendies de taille moyenne ?
- Inclure toutes les matières premières de support disponibles (journaux, transcriptions de chat , etc.) dans votre document Motif de la panne (RFO) sous forme d'annexes.
Les post-mortem améliorent votre produit
Si l'idée de réaliser un post-mortem pour chaque incident est épuisante, c'est d'autant plus important. Grâce à ces conseils, votre équipe gagnera facilement en efficacité face aux pannes, petites ou grandes. Cela permettra également à votre équipe de constituer une bibliothèque de documentation qui facilitera l'intégration, la formation et la compréhension de la conception d'un meilleur produit.
