Blog

Rétrospective APAC, partie 2 : Mobiliser : du signal à l'action

par David Ridge 4 janvier 2024 | 7 minutes de lecture

Poursuivant notre série sur Enseignements de la région Asie-Pacifique pour 2023 , il est de plus en plus évident que les incidents dans les organisations ne sont pas une question de « si » mais de « quand », quelle que soit leur taille ou leur secteur d'activité.

Récemment, la région APAC a vu les organismes de réglementation prendre des mesures plus strictes à l’encontre des grandes entreprises pour des services de qualité inférieure. , ce qui entraîne des sanctions importantes. Outre la perte immédiate de revenus et de confiance des clients, ces organisations sont désormais confrontées à d'importantes conséquences financières et opérationnelles.

Alors que les entreprises sont aujourd’hui confrontées à un large éventail de problèmes, allant des pannes techniques majeures aux interruptions de services cloud et aux menaces de cybersécurité, elles Il faut être constamment en état d'alerte et de préparation. Dans cette deuxième partie de notre série d'articles, nous explorerons plus en détail les étapes critiques du cycle de vie d'un incident, en mettant l'accent sur la manière dont les organisations peuvent se préparer à l'inévitable : leur prochain incident.

Diagram of the incident lifecycle

Partie 2 : Mobiliser : du signal à l'action

TL;DR La gestion des incidents exige des organisations qu'elles répondent aux divers besoins des parties prenantes. La mise en œuvre de systèmes automatisés et conviviaux de gestion des astreintes est essentielle pour réduire le délai moyen d'accusé de réception (MTTA) et accélérer les premières interventions. En cas d'incident majeur, La mobilisation simultanée de groupes d'intervenants ciblés garantit une efficacité optimale au moment opportun. De plus, la simplification des mises à jour de l'état d'avancement des incidents, avec des informations détaillées pour chaque personne, améliore l'efficacité de la communication, permettant à l'organisation de gérer le récit et de tenir toutes les parties informées de manière fiable.

Selon un rapport et enquête récents menés par EMA Research La plupart des répondants estiment que les pannes informatiques et les incidents majeurs augmentent (40 %) ou restent quasiment stables (27 %). Cependant, 15 % des participants reconnaissent avoir constaté une augmentation, mais affirment pouvoir « en atténuer l'impact grâce à l'AIOps et à l'automatisation ». Selon le rapport, face à l'augmentation du coût et à la généralisation des pannes imprévues, les organisations ne peuvent pas se permettre d'adopter des solutions et des processus de gestion des incidents « suffisamment performants » pour gérer leurs opérations.

Même si nous aimerions optimiser l'automatisation et l'IA pour éviter les incidents, l'humain restera toujours au cœur de la gestion des incidents. Par nature, les incidents sont des tâches imprévues, non prévues ni prises en compte, qui (du moins en dehors des problèmes connus) nécessitent la mobilisation de personnes capables de contribuer à leur gestion et à leur résolution. Selon l'impact et la gravité de l'incident, la taille de l'équipe requise peut varier considérablement. Qu'il s'agisse d'appeler l'ingénieur d'astreinte qui développe et exécute sa propre application, du référentiel ITIL classique de niveaux 1, 2, 3+, ou d'un incident majeur géré de manière centralisée par des dizaines d'intervenants, sensibiliser les bonnes personnes à un incident et leur permettre d'y répondre peut souvent être la principale source de perte de temps du cycle de vie.

Concevoir le chemin de moindre résistance

La principale cause de cette perte de temps ? Les gens.

Plus précisément, les processus manuels et les dossiers obsolètes. Livrés à eux-mêmes, les employés auront souvent Adoptez la voie de la moindre résistance : le cerveau humain est programmé pour cela. Dans ce scénario, il suffit d'appeler manuellement votre connaissance, ou la personne qui a résolu le problème la dernière fois, ou même simplement le responsable de l'équipe, et de le laisser décider qui appeler. Cela peut sembler la solution la plus rapide et la plus simple pour mobiliser une réponse, mais c'est une victoire à court terme qui s'effondrera à la moindre contrainte et complexité.

    • Quelle équipe possède le système affecté ?
    • Qui est actuellement de garde dans cette équipe ?
    • Que se passe-t-il s'ils ne répondent pas ?
    • Combien de temps attendez-vous ?
    • Qui d’autre devriez-vous appeler ?
    • Et s'ils sont en congé ?
    • Quelqu'un d'autre devrait-il être mis au courant ?

Toutes ces questions nécessitent du temps pour y répondre et des étapes à exécuter manuellement.

Même avec la mise en place de ces processus, les employés ont besoin de flexibilité. Ils sont en congé, tombent malades ou ont des urgences personnelles qui les rendent indisponibles à court terme. Ces événements quotidiens sont simples et mettent à rude épreuve une gestion manuelle ou basée sur des feuilles de calcul des astreintes.

Fondamentalement, pour qu’un processus centré sur l’humain fonctionne, nous devons nous assurer que la voie de moindre résistance est également la bonne chose à faire.

Les organisations modernes ont besoin d'une solution automatisée pour mobiliser la réponse appropriée en cas d'incident. Ce système doit tenir compte du modèle de gestion des services au sein de l'organisation, mais aussi être suffisamment flexible pour s'adapter à l'étendue de l'impact en constante évolution. De plus, il doit s'adapter aux personnes qui interviennent. utilisez-le, avec un changement facile des points de contact, des escalades automatisées et plusieurs modes de communication.

Ces exigences sont d'autant plus cruciales pour l'entreprise en cas d'incident majeur qu'elles le sont pour réveiller un ingénieur DevOps à 2 heures du matin. Sans solution automatisée, les responsables des incidents majeurs doivent suivre ce processus pour chaque représentant d'équipe requis. Et comme nous l'avons constaté à maintes reprises au cours de l'année écoulée, le temps est un facteur essentiel. Réunir les bonnes personnes le plus rapidement possible pour lancer le processus de réponse à l'incident est crucial dès les premières minutes d'un incident. Être capable d’anticiper une panne potentielle avant qu’elle n’ait d’impact sur le client peut souvent faire la différence entre une journée normale d’exploitation et une journée d’actualité matinale.

Il est donc nécessaire de disposer de scénarios prédéfinis ou de flux de travail automatisés spécifiques au système qui peuvent être déclenchés lors de la déclaration d'un incident majeur. peut transformer les 30 premières minutes d’un incident en 30 premières secondes.

Pas de nouvelles, mauvaises nouvelles

L'un des enseignements à tirer de l'année écoulée, marquée par les incidents, est que le silence n'est pas toujours une bonne chose. Il est indispensable de tenir régulièrement les différents groupes de parties prenantes informés. Sans cela, ces derniers cherchent leurs propres mises à jour, et la chaîne officielle perd le contrôle du récit. Spéculations et histoires parallèles devenir la dernière mise à jour, et la perception de l’incident peut devenir plus grande que l’incident lui-même.

UN La clé de la gestion du récit d'incident réside dans une communication simplifiée avec les parties prenantes : la possibilité de disposer de canaux de communication personnalisés pour les parties prenantes internes et externes. Les parties prenantes doivent pouvoir s'abonner aux systèmes et services qui les intéressent (elles aussi peuvent être informées !), mais les responsables des incidents doivent également pouvoir diffuser une mise à jour à toute personne qu'ils jugent utile de connaître.

A key to managing the incident narrative is streamlined communication for internal and external stakeholders.

C'est là qu'entrent en jeu nos cercles de communication toujours plus nombreux. Différentes parties prenantes peuvent exiger différents niveaux de détail. Certains termes internes et noms de systèmes peuvent ne pas être transposables à l'externe. De même, une mise à jour d'un canal Slack ou Teams peut ne pas convenir aux e-mails très formatés et structurés adressés à l'équipe de direction.

Les modèles de communication basés sur les personas peuvent automatiser les données statiques et répétables, mais aussi utiliser l'IA générative pour créer une mise à jour de statut appropriée à approuver. Ils peuvent aider les organisations modernes à alléger la charge de travail des gestionnaires d'incidents majeurs. afin qu'ils puissent se concentrer sur la restauration du service. De plus, transmettre automatiquement cette mise à jour à un spécialiste des communications externe, qui peut l'adapter et l'approuver pour les parties prenantes externes et/ou le grand public via les mises à jour de la page d'état externe, garantit la cohérence et la régularité des communications sur les incidents.

En résumé, il est important pour les organisations de comprendre les besoins des différents groupes en matière de notifications et de communications d'incidents. Une gestion automatisée et conviviale des astreintes peut réduire considérablement le temps moyen d'accusé de réception (MTTA) des premiers intervenants. L'extension de cette gestion pour mobiliser simultanément plusieurs groupes ciblés d'intervenants lors d'incidents majeurs permet de gagner un temps précieux au moment le plus crucial. Enfin, la simplification des mises à jour de l'état des incidents afin que chaque personne reçoive le niveau de détail approprié permettra à l'organisation de gérer le récit et de tenir chacun informé de manière fiable.

Un regard vers l'avenir

Dans la partie 3 : Triage, j'examinerai les différentes tâches, actions et manuels d'exploitation utilisés lors d'un incident afin de voir comment les organisations peuvent démocratiser en toute sécurité leurs connaissances et donner aux équipes de niveau 1 et aux ingénieurs juniors les moyens de réduire l'ampleur et la durée d'un incident. Nous examinerons également des moyens de rationaliser le processus de gestion des incidents en automatisant entièrement certains manuels d'exploitation.

Vous voulez en savoir plus ?

Nous serons également Nous organisons une série de webinaires en trois parties consacrée au compte de résultat et à la manière dont il a aidé nos clients à se concentrer sur la croissance et l'innovation. Cliquez sur les liens ci-dessous pour en savoir plus et vous inscrire :