- PagerDuty /
- Blog /
- Gestion et réponse aux incidents /
- 3 façons dont vous pourriez ressentir les effets néfastes d'un processus NOC
Blog
3 façons dont vous pourriez ressentir les effets néfastes d'un processus NOC
Les processus des centres d'opérations réseau (NOC) sont restés figés pendant des décennies. Mais il est temps que certains d'entre eux évoluent. La transformation numérique et l'ère du cloud ont entraîné l'essor du DevOps et, par conséquent, de la responsabilisation des services. Propriété du service Cela signifie que les développeurs assument la responsabilité du support du logiciel qu'ils livrent à chaque étape de son cycle de vie. Cela rapproche les équipes de développement de leurs clients, de l'entreprise et de la valeur qu'elles apportent.
Cela implique également de s'éloigner des méthodes traditionnelles de gestion des incidents des centres d'opérations réseau (NOC). Pourtant, malgré la transition des organisations vers une gestion responsable des services, certains processus NOC obsolètes persistent. Voici trois exemples courants de ces processus hérités et comment les remplacer ou les moderniser.
Problèmes liés au processus : les intervenants de niveau 1 ne parviennent pas à résoudre les problèmes.
Les centres d'opérations réseau (NOC) étaient autrefois le centre névralgique de la gestion des problèmes techniques. Fonctionnant comme un cerveau, ils envoyaient des signaux aux services concernés. Un problème de réseau ? On contactait le service réseau. Un problème de sécurité ? On contactait le service sécurité. La fonction principale du NOC était de mobiliser l'expert compétent pour résoudre un problème. Cela impliquait de fouiller dans des tableurs (et parfois même dans des répertoires papier !) pour identifier les responsables.
Lorsque tout était géré sur site et en présentiel, cela se justifiait. Il y avait moins de services et les incidents pouvaient être clairement classés par département. En cas de problème avec la base de données, il suffisait d'appeler le technicien d'astreinte. Ce dernier (généralement au bureau ou à proximité pour intervenir sur place) se rendait alors au centre de données pour examiner le problème.
Aujourd'hui, à l'ère du télétravail et du cloud, où les organisations gèrent des centaines, voire des milliers de services assurés par des dizaines ou des centaines d'équipes réparties dans le monde entier, la méthode du répertoire personnel est devenue obsolète. Il est quasiment impossible de tenir à jour des tableaux précis permettant de savoir quelles équipes sont responsables de quels services. De plus, avec l'évolution de l'organisation, les informations deviennent rapidement obsolètes. Les services peuvent être transférés d'une équipe à l'autre. Les équipes évoluent en fonction des mouvements de personnel (arrivées, départs). Désormais, un technicien de niveau 1 doit déployer des efforts considérables pour identifier la bonne personne de manière efficace et rapide.
Les organisations ont besoin d'un moyen de supprimer les étapes manuelles nécessaires pour identifier la personne compétente et acheminer les incidents directement vers les experts métiers capables d'intervenir rapidement. Plusieurs solutions existent. Pour certaines organisations, un modèle de gestion des services DevOps est la voie à suivre. Les développeurs sont chargés d'intervenir et de résoudre les incidents. L'alerte est directement transmise à la personne d'astreinte de l'équipe de développement qui assure le support du service, et l'expert métiers prend ensuite le relais.
Pour d'autres organisations, une approche hybride peut s'avérer pertinente : les intervenants de niveau 1 constituent la première ligne de défense avant de faire appel à des équipes d'astreinte réparties sur plusieurs sites. Les intervenants de niveau 1 ne doivent pas servir de centre de routage, mais être habilités à résoudre eux-mêmes les incidents. Pour optimiser leur efficacité, il est essentiel de leur donner les moyens de résoudre les problèmes. et sélectivement Pour résoudre les incidents, l'accès à l'automatisation et à des ressources telles que les procédures d'intervention permet aux équipes de niveau 1 d'accélérer le diagnostic et la résolution, souvent sans solliciter les experts responsables du service concerné. En mettant l'automatisation à la disposition des équipes de niveau 1, les organisations peuvent éviter les escalades inutiles et leur permettre de résoudre les problèmes plus rapidement.
Conséquences des procédures : les incidents majeurs ne sont pas signalés ou le sont trop tard.
On le sait, le temps c'est de l'argent. Lorsque les centres de contrôle des incidents (CCI) étaient le principal moyen de garantir la prise en charge des incidents, ils avaient une responsabilité supplémentaire : celle de veiller à la bonne gestion des ressources. Cela impliquait d'éviter le déploiement inutile de personnel. Les CCI étaient souvent tenus responsables lorsqu'ils déclenchaient un incident majeur trop tôt, interrompant ainsi les équipes pour un problème mineur. Ces interruptions détournaient les PME de leurs activités d'innovation. Il était donc crucial que les équipes des CCI ne déclenchent un incident majeur que lorsqu'il était évident qu'un problème bien plus important était en jeu.
Mais aujourd'hui, le temps n'est plus de l'argent, c'est la disponibilité qui l'est. coût d'un incident majeur Ce qui passe inaperçu est bien plus important que le coût d'un renfort ponctuel. Imaginez que vous soyez un commerçant en ligne et que votre panier d'achat soit hors service. Chaque minute où vos clients ne peuvent pas ajouter d'articles à leur panier, vous perdez des centaines de milliers de dollars. De plus, les attentes des clients ont augmenté ces dernières années. Ils s'attendent à ce que leur application, outil, plateforme, service de streaming, etc., fonctionne sans interruption. Et tout dysfonctionnement érode leur confiance. En réalité, d'après PWC 1 client sur 3 cesserait de faire affaire avec une marque qu'il appréciait après une seule mauvaise expérience.
Les organisations doivent signaler les incidents majeurs plus rapidement afin de limiter leur impact sur les clients. Certes, cela peut impliquer de réveiller quelqu'un inutilement de temps à autre. Mais ce risque est bien moindre lorsque les responsables de service sont en charge de la gestion du service. Les experts métiers responsables d'un service comprennent mieux quand déclencher une alerte majeure qu'un technicien de niveau 1. On observe donc moins de fausses alertes.
Gueule de bois post-processus : salles de crise éphémères
Les centres d'opérations réseau (NOC) servent souvent de plateforme de communication lors d'un incident majeur. Cela permet aux équipes d'intervention de rester concentrées sur leur tâche. À l'époque où de nombreuses entreprises avaient tout (et tout le personnel) sur site, il existait un salle de guerre Avant, les gens se rendaient sur place et le coordinateur du centre d'opérations réseau (NOC) tenait tout le monde informé. Aujourd'hui, avec les équipes et les systèmes distribués, les salles de crise physiques appartiennent au passé. De nombreuses entreprises privilégient désormais les salles de crise virtuelles, dotées d'une plateforme de visioconférence ou d'un canal de discussion qui restent ouverts pendant un incident.
D'autres parties prenantes pourraient vouloir considérer cette salle de crise virtuelle comme une salle physique, en y participant à leur guise. Cependant, dans cet environnement virtuel, cela signifie qu'elles posent des questions aux intervenants, ce qui retarde la résolution des incidents. Les entreprises dotées de salles de crise virtuelles à accès intermittent risquent de rencontrer davantage de problèmes de communication et de frustration. Les intervenants sont frustrés par les interruptions et les parties prenantes par le manque de communication.
Une façon d'atténuer ce problème est de fermer la salle de crise aux non-participants. Si une personne ne fait pas partie de l'équipe d'intervention, elle n'a pas besoin d'accéder à la salle de crise virtuelle de cette équipe. En revanche, elle a besoin d'un liaison interne Il s'agit d'un communicateur désigné de l'équipe d'intervention en cas d'incident.
Le chargé de communication interne centralise les informations relatives aux incidents et les transmet aux parties prenantes concernées. Pour faciliter cette tâche, il peut utiliser… modèles de notification de mise à jour de statut Ces modèles définissent la manière de rédiger les communications destinées à un public spécifique. Ils garantissent que les parties prenantes reçoivent toutes les informations nécessaires à la prise de décision. Ainsi, les intervenants n'ont pas à interrompre leur travail sur l'incident en cours pour diffuser les mises à jour.
La gueule de bois, c'est pas drôle, mais ça finit toujours par passer.
Les centres d'opérations réseau (NOC) constituent une méthode éprouvée de gestion des incidents pour de nombreuses organisations. Cependant, leurs méthodes deviennent obsolètes à l'ère de la transformation numérique. Une communication fluide et une réactivité optimale sont essentielles pour préserver la confiance des clients. À l'avenir, les équipes impliqueront immédiatement les experts métiers et signaleront les incidents majeurs sans délai. Elles communiqueront également avec les principales parties prenantes tout au long de l'incident, tout en définissant clairement les limites de l'intervention.
Souvent, les équipes ont besoin d'une plateforme d'opérations numériques pour faciliter cette transition. PagerDuty leur permet d'appliquer les meilleures pratiques de gestion des incidents majeurs au sein de leur organisation, de résoudre plus rapidement les incidents critiques et d'en prévenir l'apparition. Essayez-nous gratuit pendant 14 jours.