Blog

Données rapides, surveillance rapide

par Christophe Tozzi 16 février 2017 | 6 minutes de lecture

Le Big Data est une notion dépassée. Aujourd'hui, la clé pour exploiter efficacement les données est de les traiter rapidement.

De même, la gestion traditionnelle des incidents, qui implique la collecte et l'analyse de volumes importants d'informations de surveillance, ne suffit plus. Les organisations doivent désormais mettre en place une « surveillance rapide », ce qui signifie non seulement collecter des données de surveillance, mais aussi les rendre exploitables en temps réel.

Cet article examine ce que signifie la surveillance rapide et explique comment les équipes de gestion des incidents peuvent mettre en œuvre cette approche pour obtenir de grands avantages.

Définition des données rapides

Pour comprendre le concept de surveillance rapide, vous devez comprendre données rapides - l'un des dernières innovations dans le monde du big data.

En termes simples, les données rapides sont des données volumineuses traitées rapidement. Alors que le big data consistait traditionnellement à stocker de grandes quantités d'informations et à les analyser ultérieurement, les données rapides consistent à analyser de grandes quantités d'informations le plus rapidement possible, idéalement en temps réel. L'objectif est d'analyser les données lorsqu'elles sont aussi exploitables et pertinentes que possible.

Pouvoir diffuser des données depuis leur source vers une plateforme d'analyse est essentiel pour exploiter rapidement les données. C'est pourquoi des outils Big Data comme Apache Spark sont devenus populaires ces dernières années. Grâce à la prise en charge de la collecte de données en continu et du traitement en mémoire, Spark peut ingérer et analyser de grandes quantités d'informations à des vitesses bien supérieures à celles des plateformes d'analyse de données sur disque, sans streaming.

Gestion rapide des données et des incidents

La gestion des incidents est un domaine distinct de l'analyse de données, mais les administrateurs de cette gestion peuvent tirer de nombreux enseignements de cette tendance rapide. Dans le domaine de la surveillance des infrastructures et de la gestion des incidents, il est plus important que jamais de pouvoir analyser en temps réel de grandes quantités de données de surveillance et d'alerte afin d'optimiser la réponse.

De la gestion traditionnelle des incidents à la gestion rapide des incidents

Le lien entre données rapides et surveillance rapide n'est pas une coïncidence. À bien des égards, l'évolution de la gestion des incidents reflète celle de l'analyse des données.

Jusqu'à il y a une dizaine d'années, les données, comme les infrastructures, étaient relativement petites. La plupart des organisations n'avaient pas besoin d'analyser des pétaoctets de données, car elles n'en généraient pas autant. De même, la plupart des organisations n'avaient pas besoin de solutions de surveillance capables de prendre en charge des infrastructures vastes et diversifiées. Elles pouvaient se contenter de systèmes de surveillance basiques pour surveiller des réseaux de serveurs et de postes de travail relativement petits et peu complexes.

Puis, au milieu des années 2000, les données et les infrastructures ont commencé à prendre une ampleur considérable. La numérisation de tous les aspects a poussé les organisations à collecter des quantités considérables d'informations, donnant naissance au big data. Parallèlement, la prolifération des appareils mobiles, l'essor de la virtualisation et le besoin croissant de puissance de calcul ont rendu les infrastructures beaucoup plus volumineuses et complexes. Ce nouveau paysage a nécessité une surveillance intensive.

Ces dernières années, une nouvelle vague de changements s'est produite. À une époque où l'information évolue constamment, analyser des données datant de quelques heures seulement en réduit la valeur. De même, gérer les incidents sur la base d'informations de surveillance non actualisées empêche les administrateurs de les trier et d'y répondre efficacement.

Ainsi, même si la rapidité des données et la surveillance peuvent nécessiter des outils différents, les principes et motivations qui sous-tendent ces deux tendances sont identiques. Les équipes de gestion des incidents qui cherchent à garantir le meilleur fonctionnement possible de l'infrastructure et des applications auraient intérêt à s'inspirer de leurs collègues analystes de données en privilégiant la surveillance rapide.

Faciliter une surveillance rapide

Collecter et réagir rapidement aux informations de surveillance peut paraître simple, mais comment mettre en pratique cette surveillance rapide ? Les principales lignes directrices à suivre sont les suivantes :

  • Centraliser la collecte de données Pour donner un sens aux informations de surveillance le plus rapidement possible, vous devez transmettre toutes les données de surveillance à un interface centrale Cela évitera d’avoir à basculer entre différents tableaux de bord ou systèmes de surveillance, ce qui gaspille du temps et de l’énergie mentale et rend très difficile la compréhension de la cause profonde.
  • Collecter toutes les informations disponibles La gestion traditionnelle des incidents se concentre généralement uniquement sur la collecte des données machine et des alertes. Ces informations fournissent une partie des éléments nécessaires à une surveillance rapide, mais pour réagir au plus vite aux incidents, il est essentiel de disposer d'une visibilité et d'une compréhension aussi larges que possible. Par exemple, la collecte de données générées par les utilisateurs à partir des tickets et des appels au support ne doit pas être négligée. Cela implique également de tirer parti de fonctionnalités telles que Transformateur d'événements personnalisé de PagerDuty afin de collecter des données à partir de sources telles que réseaux sociaux , qui ne font pas traditionnellement partie des flux de travail de gestion des incidents.
  • Minimiser le bruit Vous recevrez un grand nombre d'alertes, mais seules certaines d'entre elles nécessiteront une action. Il est donc crucial d'éliminer les éléments superflus et de supprimer tout ce qui ne nécessite pas d'action, afin de minimiser le nombre d'alertes auxquelles vous devrez prêter attention. Les alertes doivent être automatiquement dédupliquées et il doit être facile de regrouper les symptômes connexes en un seul problème à résoudre. Cela facilitera l'identification instantanée des alertes nécessitant une intervention et déclenchera le flux de réponse approprié en temps réel.
  • Rendre les données faciles à interpréter Collecter de grandes quantités de données de surveillance et les centraliser vous permettra de les exploiter rapidement. Cependant, pour optimiser le processus, veillez également à normaliser les données provenant de différentes sources dans un format cohérent. Cela facilitera l'analyse de toutes les informations du tableau de bord et réduira la charge cognitive. Ainsi, vous n'aurez plus besoin de mémoriser ni de contextualiser tous les schémas de différents fournisseurs. Pour ce faire, vous avez besoin de solutions de gestion des incidents capables de traiter des informations sous diverses formes et de normaliser les champs de manière universelle, afin de générer des informations immédiatement exploitables et faciles à comprendre.

Toutes ces pratiques réduisent le volume d'analyses manuelles requises par les administrateurs de la gestion des incidents lors d'un incident crucial. Elles réduisent également le délai entre la collecte des alertes et l'action, permettant ainsi à l'équipe de gestion des incidents de réagir rapidement aux incidents et de transformer une surveillance rapide en une réponse en temps réel pour une disponibilité accrue.

 

 


Delaney, Ozzy. « Speeding ». 20 janvier 2015. Image en ligne.<https://www.flickr.com/photos/24931020@N02/15854782234/>