PagerDuty
/
Blog
/
Gestion et réponse aux incidents
/
Briser les silos : corréler les données entre les fournisseurs

Blog

Briser les silos : corréler les données entre les fournisseurs

par Chris Riley 21 février 2017 | 5 min de lecture

Grâce à Mouvement DevOps Nous comprenons maintenant pourquoi chaînes de livraison de logiciels Les organisations cloisonnées sont néfastes. Elles compliquent la communication entre les différentes équipes, ce qui entraîne des retards de livraison, des allers-retours et des bugs.

En matière de gestion des incidents, un autre type de silo se pose : celui qui répartit les données de gestion des incidents d’un fournisseur ou d’un produit à l’autre. Ces silos entravent la résolution des incidents, car ils compliquent la collecte et l’analyse des données de surveillance provenant de sources multiples.

Comment décloisonner ces services pour assurer le bon déroulement des opérations de gestion des incidents ?

Identifier les silos

La première étape pour dépasser les silos de gestion des incidents consiste à comprendre pourquoi ces silos existent.

La raison est simple : Infrastructures modernes L'infrastructure se compose de matériels et de logiciels divers. La plupart des composants ont des besoins spécifiques en matière de surveillance. Ils produisent des informations dans un format précis, selon une fréquence déterminée, et requièrent une méthode de collecte des données particulière. Par conséquent, les informations de surveillance associées à chaque élément de l'infrastructure sont cloisonnées, car elles ne sont pas facilement comparables aux données provenant d'autres éléments.

Prenons l'exemple d'un centre de données composé de dix serveurs physiques sous Windows et de dix autres sous Linux. Dans ce cas, l'entreprise aurait besoin d'outils de surveillance différents pour ses serveurs Windows et Linux. Si certaines informations de surveillance seraient identiques pour chaque système d'exploitation (comme l'état de fonctionnement du serveur), d'autres données différeraient. Quoi qu'il en soit, les données devraient être collectées par des outils compatibles avec le système d'exploitation concerné. Chaque contexte devient ainsi un silo distinct, avec son propre écosystème miniature. outils de surveillance et données .

Il ne s'agit là que d'un simple exemple. Dans la plupart des contextes réels, la situation est bien plus complexe : il faut alors surveiller non seulement deux types de serveurs physiques, mais aussi des serveurs virtuels exécutés sur un ou plusieurs hyperviseurs, des postes de travail fonctionnant sous différents systèmes d'exploitation et des appareils mobiles équipés d'une grande variété de systèmes d'exploitation et de versions.

Briser les silos

Comment éliminer les silos qui séparent chaque contexte de surveillance au sein de votre infrastructure afin d'obtenir une intégration fluide et transparente ? visibilité de la surveillance holistique La solution comporte deux parties.

Étape 1 : Centraliser la collecte de données

La première étape consiste à mettre en œuvre une solution de gestion des incidents capable de collecter des informations provenant d'environnements divers, puis de les centraliser. Ainsi, les ingénieurs peuvent… surveiller l'ensemble de l'infrastructure D'un point de vue unique, ils n'ont plus besoin de consulter chaque service individuellement pour surveiller les différentes parties de l'infrastructure.

La collecte centralisée des données exige une solution de gestion des incidents suffisamment intelligente pour agréger les informations de surveillance provenant de sources multiples. Il ne s'agit pas d'une tâche simple ; la prise en charge d'une grande variété d'environnements et de points de terminaison nécessite… intégration avec de nombreux types de systèmes de surveillance différents , parfois même des outils sur mesure.

Étape 2 : Traduire les données

La deuxième étape est souvent négligée. Outre le regroupement des données provenant de nombreux outils de surveillance et leur centralisation, les équipes de gestion des incidents doivent également les convertir dans un format cohérent.

La traduction des données est indispensable pour garantir que chaque ingénieur puisse interpréter les alertes, quelle que soit leur origine, et y réagir. Sans traduction, les ingénieurs devraient posséder une expertise pointue dans un type particulier de système de surveillance ou connaître le schéma d'un fournisseur spécifique pour comprendre les données issues de ce système. Centraliser toutes les données ne suffirait donc pas à décloisonner les systèmes, car des barrières importantes subsisteraient entre les différents contextes de surveillance.

Prenons par exemple les différentes manières dont Zabbix et Nagios Utilisez le terme « alias ». Dans l'ancien système de supervision, un alias sert généralement de raccourci pour tout type de terme de configuration. Dans Nagios, en revanche, un alias est un nom spécifique pour un hôte. Sa signification est plus précise. Si vous ne comprenez pas cette différence et que vous visualisez des données provenant à la fois de Zabbix et de Nagios agrégées dans un tableau de bord centralisé, la situation peut rapidement devenir confuse.

Pour une gestion efficace des incidents, il vous faut donc une solution capable de traduire la terminologie spécifique aux fournisseurs et aux plateformes en un langage unique et cohérent. Seule la normalisation des événements, telle que celle permise par… Format d'événement commun de PagerDuty , peuvent permettre aux intervenants d'interpréter facilement et avec précision les données provenant de sources multiples.

La complexité des infrastructures modernes rend difficile la création de silos. Pourtant, cela ne signifie pas que les informations de surveillance doivent rester cloisonnées, car une information n'est utile que si elle est compréhensible et exploitable. En agrégeant les informations de surveillance provenant de sources diverses et en les traduisant dans un langage compréhensible par tous les membres de l'équipe d'astreinte, les équipes de gestion des incidents peuvent décloisonner leur infrastructure. Elles bénéficieront ainsi d'une communication fluide et d'une réactivité optimale face aux incidents, en temps réel.

^{Dunatov, Devin. « Excès de vitesse ». 17 juil. 2012. Image en ligne. https://www.flickr.com/photos/ddunatov/7588797542 >}

Gestion des incidents Surveillance

Vous pourriez aussi aimer ces articles...

IA , Gestion et réponse aux incidents
Transformer les incidents en enseignements : le cycle d’opérations d’IA continu expliqué

IA , Gestion et réponse aux incidents
De la réponse réactive à la résilience systémique : le système qui s'améliore à chaque incident

IA , Meilleures pratiques et perspectives , Gestion et réponse aux incidents , Intégrations
Travaillez là où vos équipes se trouvent déjà grâce aux agents IA de PagerDuty pour Slack.