• PagerDuty
    /
  • Blog
    /
  • Automation
    /
  • Rétrospective Asie-Pacifique : Leçons tirées d’une année de pannes technologiques – Décloisonner les connaissances

Blog

Rétrospective Asie-Pacifique : Leçons tirées d’une année de pannes technologiques – Décloisonner les connaissances

par David Ridge 16 janvier 2024 | 8 min de lecture

Notre exploration se poursuit jusqu'en 2023. deuxième segment de blog, « Mobiliser : du signal à l’action » Un fait demeure indéniable : les incidents sont une réalité inévitable pour les organisations, quels que soient leur secteur d’activité ou leur taille.

Dans la région Asie-Pacifique, on observe un renforcement des contrôles réglementaires à l'encontre des grandes entreprises ne respectant pas les normes de service, ce qui entraîne de lourdes sanctions. Pour ces entreprises, les répercussions d'un incident ne se limitent plus aux pertes de revenus et à l'érosion de la confiance des clients ; elles s'étendent désormais à de fortes amendes et à des restrictions opérationnelles.

Face à des défis allant des problèmes techniques majeurs aux interruptions de services cloud en passant par les failles de cybersécurité, les entreprises modernes doivent adopter une approche proactive de la gestion des incidents. Dans ce troisième article de notre série, nous analysons en détail le cycle de vie d'un incident et présentons des stratégies permettant aux entreprises de se préparer à l'inévitable : leur prochain incident.

Diagram of the incident lifecycle

Partie 3 : Triage : Démantèlement des silos de connaissances

Aperçu

En analysant plus en profondeur les défis liés à la gestion des incidents, on constate un problème récurrent : une poignée d’ingénieurs expérimentés sont systématiquement impliqués dans tous les incidents. L’une des principales raisons est le manque de connaissances, d’accès et de compétences des intervenants de garde pour effectuer le triage initial lors d’un incident. De ce fait, l’ingénieur senior est sollicité à chaque fois pour réaliser une tâche souvent simple et répétitive. Ce manque de connaissances, de compétences et d’accès est appelé « fossé d’automatisation ».

En utilisant un outil d'orchestration de l'automatisation pour activer l'automatisation événementielle, les organisations peuvent fournir aux intervenants d'astreinte un accès immédiat à des manuels d'intervention automatisés, conçus sur mesure par des experts du domaine. Une approche progressive est toutefois nécessaire : diagnostic, corrections contextuelles et, enfin, automatisation complète. L'équilibre délicat entre automatisation et jugement humain, notamment dans les secteurs réglementés, demeure un point crucial, mais peut s'avérer extrêmement efficace.

À ce stade du cycle de vie d'un incident, vous maîtrisez le flux incessant d'alertes provenant de toute votre organisation et vous avez automatisé la mobilisation de l'intervenant d'astreinte compétent uniquement pour les actions pertinentes. Alors pourquoi est-ce toujours le même petit groupe d'ingénieurs seniors qui intervient sur tous les incidents ?

Qui d'autre possède les connaissances, les compétences et les accès nécessaires pour exécuter les scripts permettant de diagnostiquer le problème ? Après tout, ce sont eux qui ont conçu le système et écrit les scripts ; il serait donc plus rapide et plus sûr qu'ils s'en chargent eux-mêmes, non ?

Si le problème était ponctuel et survenait pendant les heures de travail, cela pourrait se comprendre. Mais il est bien plus fréquent qu'il se produise en dehors des heures de travail, de manière récurrente ou fréquente. De ce fait, ce sont toujours les mêmes experts qui interviennent, car ils possèdent une connaissance approfondie du fonctionnement des systèmes et savent comment diagnostiquer et résoudre rapidement et efficacement les problèmes. Pour chaque système affecté, ils ont élaboré leurs propres procédures de contrôle et manuels d'exploitation afin d'identifier plus précisément la cause du problème.

Leur connaissance tacite des dépendances non documentées, ou un script sur mesure qu'ils ont écrit eux-mêmes et qui n'existe que localement sur leur machine, justifie leur présence à chaque incident. Sans eux, l'intervenant d'astreinte risque de passer la première heure à chercher une solution qui ne prendrait qu'une ou deux minutes à notre expert métier.

« Plus rapide et plus sûr » signifie désormais réveiller un ingénieur senior épuisé, contraint d'exécuter des commandes complexes sur un système de production à 2 heures du matin. Ses connaissances sont essentielles à l'activité, mais il constitue le goulot d'étranglement du cycle de vie des incidents.

Le fossé de l'automatisation

Ce scénario très courant est appelé le déficit d'automatisation.

Elle peut être mesurée de plusieurs manières, par exemple en fonction du nombre d'escalades nécessaires, du nombre d'intervenants supplémentaires par incident, ou encore en fonction de l'écart (en minutes et en personnes) entre la personne alertée de l'incident et celle qui le résout.

En clair, plus l'écart d'automatisation est important, plus vos incidents seront longs et coûteux.

The Automation Gap

Le fossé en matière d'automatisation entre ceux qui ont besoin d'utiliser l'automatisation et ceux qui peuvent l'utiliser

Les raisons de cet écart peuvent être regroupées en trois grandes catégories : les connaissances, les compétences et l’accès.

  • Lacune en matière de connaissances Les entreprises peuvent déployer de nombreux types de services différents, et en proposent souvent un grand nombre couvrant différents cas d'utilisation ; il y en a tellement qu'aucune seule personne ne peut tous les connaître.
  • déficit de compétences : Une grande partie de l'automatisation actuelle requiert une expertise spécifique pour être utilisée correctement, et le développement d'une valeur ajoutée plus large exige des compétences supplémentaires, comme la maîtrise de la programmation. De nombreux profils généralistes ne possèdent pas ces compétences spécifiques.
  • Écart d'accès : Les normes de sécurité modernes exigent que les accès privilégiés ne soient pas accordés à la légère à n'importe qui.

Les organisations modernes doivent décloisonner leurs connaissances afin d'éviter les blocages liés aux incidents et la dépendance à une seule personne, sans pour autant compromettre la résilience ni la sécurité de leurs systèmes. Elles peuvent y parvenir grâce à une orchestration automatisée pilotée par les événements, l'incident étant considéré comme l'événement en question.

Automatisation pilotée par les événements

Une fonctionnalité d'automatisation événementielle doit être disponible lorsqu'une alerte ou un incident survient, et doit pouvoir être déclenchée automatiquement, conditionnellement ou manuellement en fonction de la nature de l'incident.

L'outil d'orchestration lui-même résout le problème d'accès, offrant ainsi un moyen sûr et sécurisé d'accéder aux données des systèmes de production contrôlés. Par conséquent, l'intervenant en cas d'incident n'a pas à se soucier d'un accès manuel au système affecté.

Pour pallier les lacunes en matière de connaissances et de compétences, on confie la création du manuel d'intervention automatisé à l'expert métier systématiquement sollicité lors des incidents. Il y a fort à parier qu'il dispose déjà des scripts et de la logique nécessaires. Ces connaissances peuvent ensuite être intégrées à une plateforme d'orchestration et mises instantanément à la disposition des intervenants d'astreinte, en toute sécurité.

Bien sûr, tous les incidents ne peuvent pas être résolus de manière automatisée. Les deux principaux critères d'automatisation sont la connaissance de l'incident (on ne peut automatiser ce qu'on ignore) et sa reproductibilité. Dans le monde dynamique et imprévisible de la gestion des incidents, les résolutions « connues » et « reproductibles » sont rares.

Cependant, les contrôles d'intégrité, les validations de faux positifs et les scripts de diagnostic qui constituent la plupart des manuels d'exploitation ou des procédures de reprise standard sont très connus et très reproductibles. En réalité, le triage et le diagnostic prennent souvent plus de temps que toute autre étape du cycle de vie d'un incident.

L'automatisation des procédures opérationnelles peut être appliquée à différentes étapes du cycle de vie d'un incident, partout où des processus répétitifs consomment de précieuses minutes (ou heures) au moment où cela compte le plus. De même, quel que soit votre modèle opérationnel, l'automatisation événementielle permet de réduire les délais de triage lors d'un incident.

Par exemple:

NOC Adoptez l'automatisation de niveau 0 pour qu'elle s'exécute avant même de faire appel à un technicien. Cela réduit le temps moyen de réparation (MTTR), les risques et les coûts pour l'entreprise, tout en limitant l'épuisement professionnel des équipes d'intervention de première ligne.

SRE Automatisez l'intégralité du processus de résolution d'un incident en intégrant des mécanismes de remédiation automatique ou une intervention humaine lorsque cela est pertinent. Vous réduirez ainsi le temps moyen de réparation (MTTR) et libérerez le temps des équipes SRE pour des initiatives à forte valeur ajoutée, comme le déploiement de l'automatisation à plus grande échelle.

MIM Alimentez les incidents avec des diagnostics automatisés et normalisez les données d'événements pour les rendre exploitables. Cela améliore la rapidité du triage et permet à tous vos intervenants d'être aussi efficaces que votre meilleur intervenant.

Ingénierie Orientez intelligemment les incidents vers l'équipe appropriée et mettez en place une résolution automatique des problèmes bien identifiés. Vous libérez ainsi du temps pour les ingénieurs, qui peuvent se consacrer à des initiatives à forte valeur ajoutée et génératrices de revenus.

Ramper, marcher, courir

Lorsqu'on aborde l'automatisation de la gestion des incidents, on pense souvent d'emblée à l'idée séduisante d'une solution en boucle fermée, autoréparatrice et entièrement automatisée. Or, en réalité, seule une petite partie des incidents peut être résolue automatiquement. Nous avons déjà évoqué les exigences connues et reproductibles de l'automatisation. Cependant, ce qui est connu et reproductible, c'est le temps consacré à la recherche des informations nécessaires au tri et au diagnostic du problème.

Ce type d'automatisation est également bien plus sûr à exécuter automatiquement qu'une intervention corrective. Les organisations, notamment dans les secteurs fortement réglementés, exigent qu'une personne responsable, dont le jugement est auditable, approuve le redémarrage, la restauration ou la modification des systèmes de production. Ainsi, la combinaison de l'automatisation et du jugement humain permet de mettre en place un processus automatisé avec intervention humaine, qui tire le meilleur parti des deux approches.

Commencer par un simple diagnostic automatisé qui enrichit l'incident avec les détails dont l'intervenant a besoin dès qu'il est informé est un point de départ puissant mais sûr (exploration).

Fournir au répondant des mesures correctives contextuelles à déclencher manuellement en fonction des diagnostics ajoute un niveau d'efficacité supplémentaire (marche).

Enfin, sur la base des incidents précédents, la correction automatique des incidents connus et ne nécessitant pas de décision humaine supprime complètement ces incidents (exécution).

Dans la quatrième partie, nous aborderons la résolution des incidents. Nous détaillerons les processus et les décisions qui sous-tendent la restauration du service par rapport à la correction de la cause première, et nous analyserons les critères permettant de déclarer un incident résolu.

Vous souhaitez en savoir plus ?

Nous organiserons également une série de webinaires en trois parties consacrée au compte de résultat et à son utilité pour aider nos clients à se concentrer sur la croissance et l'innovation. Cliquez sur les liens ci-dessous pour en savoir plus et vous inscrire :