Blog

Qu’est-ce que l’analyse des incidents et pourquoi devriez-vous la pratiquer ?

par Jeli 1er février 2022 | 4 min de lecture

Cet article a été initialement publié sur le blog de Jeli. Jeli a été racheté par PagerDuty en 2023 et nous le republions ici afin de faire profiter notre communauté de leur expertise.

Les interruptions de service sont monnaie courante dans l'exploitation des logiciels modernes, surtout en cas de développement rapide ou à grande échelle ! De nombreuses entreprises l'ont compris et investissent désormais dans l'analyse des incidents afin d'en tirer des enseignements. Voyons d'abord en quoi consiste précisément l'analyse des incidents et quels avantages vos équipes peuvent en retirer.

Définition de l'analyse des incidents

L'analyse d'incident est un processus permettant d'identifier ce qui s'est passé lors d'une panne : découvrir qui et quelles parties du système étaient impliquées, et comment le problème a été géré. Il existe de nombreuses méthodes pour mener une analyse d'incident. Cependant, elle consiste généralement en :

  1. Collecte de données sur l'événement
  2. Analyse des données
  3. Tirer des conclusions des données
  4. Renforcer la résilience future

Nombreux sont ceux qui considèrent l'analyse des incidents comme une simple fonction de prévention de leur récurrence : corriger un bug, améliorer la visibilité ou mettre à jour les procédures opérationnelles. Pour nous, c'est bien plus que cela. Il s'agit de renforcer la résilience future en préparant mieux les individus, les équipes – et, bien sûr, leurs systèmes logiciels – à gérer les défaillances imprévues.

Aller plus loin

Nous aimons nous inspirer des techniques d'improvisation théâtrale. Nous disons : « Oui ! Nous voulons éviter que cela ne se reproduise… » et Cela signifie que nous formerons des ingénieurs dotés de compétences plus étendues que la simple prévention du même incident ultérieurement !

De même qu'on ne se baigne jamais deux fois dans le même fleuve, car son courant est perpétuel, on ne sera jamais confronté deux fois au même incident, car l'intégration et le déploiement continus engendrent un changement continu. Lorsque l'analyse est axée sur l'apprentissage et non sur la simple correction, l'analyse des incidents permet à une entreprise de mieux réagir face aux incidents futurs.

Comment nous en tirons le meilleur parti

Bien sûr, vous souhaitez que votre organisation comprenne la nature des événements imprévus et prenne des mesures pour minimiser leur récurrence. Cependant, le véritable avantage de l'analyse des incidents réside dans une meilleure compréhension du fonctionnement du système dans différentes conditions d'exploitation. Cette compréhension permettra aux ingénieurs d'être mieux préparés à gérer les imprévus futurs, dont certains pourraient ressembler à des incidents passés.

Il est important que votre analyse des incidents permette à la fois d'empêcher que des incidents similaires ne se reproduisent à l'avenir. et elle enseigne aux ingénieurs un plus large éventail de compétences qui les aident à relever les défis constants en matière de fiabilité. Comme indiqué dans le Méthodologie IBM Garage pour l'analyse des incidents « Les problèmes récurrents frustrent les utilisateurs, épuisent les ingénieurs et peuvent entraîner une perte de confiance dans la fiabilité de votre application. Plus largement, les problèmes répétés nuisent à la réputation de l'équipe ou de l'organisation, ce qui peut avoir des conséquences commerciales telles que la perte de clients. L'analyse des incidents est une compétence essentielle pour tout ingénieur en fiabilité des sites, et en réalité, pour tous les postes techniques. »

Ce que nous apprenons ensuite

Nous sommes convaincus que l'analyse des incidents est une méthode essentielle pour améliorer la résilience non seulement des équipes d'ingénierie, mais aussi de l'entreprise dans son ensemble. Alors, préparez-vous à découvrir notre série « Analyse des incidents 101 » ! Nous aborderons des sujets tels que :

  • quels incidents enquêter
  • qui devrait diriger les enquêtes ?
  • Quels types de données devez-vous utiliser dans vos analyses d'incidents ?
  • comment rédiger des rapports convaincants qui aident les gens à apprendre
  • comment partager les résultats avec les autres et favoriser un apprentissage significatif
  • Comment décider des améliorations à apporter une fois l'analyse terminée ?

Pour plus d'informations sur ces sujets et d'autres encore, vous pouvez toujours consulter le site de Jeli. Howie : Guide post-incident pour plus d'informations sur l'analyse des incidents.

Bon apprentissage !