PagerDuty et DataOps : permettre aux organisations d'améliorer leur prise de décision grâce à de meilleures données
Ce blog a été co-écrit par Jorge Villamariona du marketing produit et May Tong de l'écosystème technologique
Introduction
De nombreuses organisations ont procédé à la transformation numérique de leurs opérations et la plupart d'entre elles migrent vers le cloud. Avec cette transformation, les équipes data doivent analyser des ensembles de données toujours plus volumineux et complexes pour permettre aux équipes en aval de prendre des décisions plus rapides et plus précises au quotidien. Par conséquent, la plupart des organisations doivent travailler avec des données clients, des données produits, des données d'utilisation, des données publicitaires et des données financières. Certains ensembles de données sont structurés, d'autres semi-structurés, et d'autres encore non structurés. En bref, des quantités infinies de données de différents types, provenant de sources multiples, arrivent à un rythme croissant.
Face à l'augmentation du volume, de la vitesse et de la variété (communément appelés les 3V) du Big Data, les approches traditionnelles de gestion du cycle de vie des données ont commencé à s'avérer inefficaces. Parallèlement, vers la fin des années 2000, les équipes de développement logiciel ont commencé à adopter des méthodologies agiles pour le cycle de vie du développement logiciel. Ces méthodologies sont devenues connues sous le nom de DevOps (mot-valise entre Développement et Opérations). Le diagramme suivant illustre le processus DevOps à un niveau élevé.
Processus DevOps
Parallèlement, les professionnels des données ont pris exemple sur leurs collègues développeurs de logiciels et ont commencé à appliquer les méthodologies et concepts DevOps à leurs propres environnements de données complexes. C'est ainsi qu'est née l'approche DataOps.
Alors, qu’est-ce que DataOps ?
DataOps est une pratique qui consiste à exploiter l'ingénierie logicielle et des données, l'assurance qualité et les opérations d'infrastructure au sein d'une organisation unique et agile. DataOps optimise le développement et le déploiement des applications de données. Il s'appuie sur l'évolution des processus, l'harmonisation organisationnelle et la multiplicité des technologies pour faciliter les relations entre tous les acteurs de la production, du transfert, de la transformation et de l'utilisation des données : développeurs, ingénieurs de données, data scientists, analystes et utilisateurs métier. Il favorise la collaboration, supprime les silos et permet aux équipes d'exploiter les données à l'échelle de l'organisation pour prendre de meilleures décisions. Globalement, DataOps aide les équipes à collecter et préparer les données, à les analyser et à prendre des décisions plus rapides et plus précises à partir d'un ensemble de données complet. DataOps réduit également les temps d'arrêt ou les pannes de données en surveillant leur qualité.
Quels problèmes DataOps résout-il ?
DataOps répond à un certain nombre de défis courants dans les environnements de données de votre organisation, parmi lesquels :
- Supprimer les silos et favoriser la collaboration entre les équipes : Les ingénieurs, scientifiques et analystes de données doivent collaborer. Un changement culturel majeur est nécessaire. Les entreprises doivent permettre à leurs employés d'évoluer rapidement grâce à des idées fondées sur les données.
- Améliorer l'efficacité et l'agilité – La réponse aux bugs et aux défauts peut être considérablement réduite grâce à des niveaux de communication et de collaboration plus élevés entre les équipes et à l’utilisation de l’automatisation.
- Améliorer la qualité des données : DataOps offre aux professionnels des données la possibilité de formater automatiquement les données et utilise plusieurs sources de données pour aider les équipes à analyser les données et à prendre de meilleures décisions.
- Éliminer les temps d'arrêt et les pannes de données puisque les données sont surveillées pour la qualité des données par les équipes de données.
Qu'est-ce que l'observabilité des données ?
L'observabilité des données fournit les outils et méthodologies nécessaires pour surveiller et gérer la santé des données d'une organisation à travers de multiples outils et tout au long de leur cycle de vie. L'observabilité des données permet aux organisations de corriger proactivement les problèmes en temps réel avant qu'ils n'impactent les utilisateurs métier.
Quelle est la relation entre l’observabilité des données et DataOps ?
L'observabilité des données est un cadre qui permet le DataOps. Les équipes DataOps utilisent des approches agiles pour extraire la valeur métier des données d'entreprise. Cependant, tout problème lié à des données incorrectes ou inexactes peut engendrer de sérieux défis, surtout si les problèmes (par exemple, les interruptions de données) ne sont pas détectés avant qu'ils n'impactent l'entreprise. Heureusement, avec Observabilité des données alimentée par l'IA , les organisations peuvent détecter, résoudre et prévenir les temps d’arrêt des données.
Les outils d'observabilité des données concernent les données : fraîcheur, distribution statistique, volume, schéma et lignée. L’utilisation correcte des outils d’observabilité des données se traduit par des données de meilleure qualité, une confiance renforcée et un environnement opérationnel plus mature.
Qui sont les acteurs du DataOps ?
Il est essentiel de constituer une équipe de données centralisée et performante, favorisant les relations entre tous les services d'une organisation, pour atteindre la maturité opérationnelle des données. Cette équipe publie généralement les jeux de données les plus pertinents, garantissant ainsi que les décisions, les analyses et les modèles de données proviennent d'une source unique et fiable. À l'autre extrémité du spectre se trouvent les analystes de données et les utilisateurs métiers qui exploitent ces jeux de données en posant des questions et en extrayant des réponses. Une définition précise et réfléchie des rôles et des responsabilités permet aux organisations d'éviter les conflits, les redondances et les inefficacités.
Personnalités DataOps
Voici les profils les plus courants (alias personas) qui participent au cycle de vie des données :
- Ingénieurs de données : Ces professionnels des données sont chargés de capturer les données et de construire les pipelines qui les acheminent des systèmes sources vers les entrepôts de données, afin que les analystes et les data scientists puissent y accéder. Ils publient les jeux de données clés après les avoir nettoyés et transformés. Ils sont chargés de fournir des données actualisées, propres, organisées et accessibles à ceux qui en ont besoin. Dans les environnements de données les plus traditionnels, l'acronyme ETL (Extraction, Transformation et Chargement) apparaît dans leur intitulé.
- Scientifiques des données : Ils appliquent leurs connaissances en statistiques pour créer des modèles prédictifs et prescriptifs. Leurs environnements les plus courants sont Scala, Python et R. Outre les statistiques, ils sont généralement experts en exploration de données, en apprentissage automatique et en apprentissage profond. Le secteur financier, par exemple, les qualifie traditionnellement de quants, en raison de leur solide formation en mathématiques.
- Analystes de données/analystes commerciaux : Ce sont des professionnels des données qui font généralement partie d'un secteur d'activité ou d'un groupe fonctionnel (ventes, marketing, etc.). Ils connaissent le fonctionnement de l'organisation, ses objectifs stratégiques, ainsi que les besoins en données. Ils transforment les questions métier en requêtes de données. Ils maîtrisent parfaitement les informations et les indicateurs clés dont les dirigeants ont besoin pour mesurer et atteindre leurs objectifs. Ils maîtrisent parfaitement les outils de BI (Business Intelligence) front-end.
- D Administrateurs de la plateforme ata : Gérer l'infrastructure afin qu'elle fonctionne correctement, dispose d'une capacité suffisante et fournisse un service de haute qualité à tous les services qui l'utilisent. Ils sont responsables des bases de données transactionnelles, des entrepôts de données, des lacs de données, des outils de BI, etc. De plus, ils établissent les politiques d'accès, contrôlent l'infrastructure et les coûts de licence.
- Consommateurs de données métier : Ce sont les utilisateurs finaux des données et, généralement, les utilisent pour prendre des décisions. Ils s'appuient sur des outils de BI et sont chargés d'agir en fonction des données. Par exemple, les responsables commerciaux peuvent décider d'investir davantage dans une zone géographique donnée en fonction de l'activité commerciale. Les responsables marketing peuvent également décider d'allouer des fonds de campagne à certains types de campagnes en fonction des indicateurs de retour sur investissement.
- Directeur des données : Cette personne supervise l'ensemble des opérations de l'équipe de données. Elle est généralement rattachée au PDG, au directeur technique et parfois au directeur informatique.
Les acteurs du processus DataOps chez PagerDuty
Le diagramme ci-dessus place les parties prenantes dans leur domaine de responsabilité traditionnel au sein du processus DataOps chez PagerDuty. Il est indéniable que les chevauchements varient selon les organisations.
DataOps chez PagerDuty
Chez PagerDuty, nous avons mis en place une pratique DataOps qui s'appuie sur PagerDuty et quelques-uns de nos partenaires technologiques. Grâce à l'application des principes de PagerDuty et de DataOps, nous avons pu :
- Passez de plusieurs entrepôts de données à un seul entrepôt de données où les ensembles de données des pipelines MuleSoft, Segment, Fivetran, Kafka et Spark sont consolidés en une seule source de vérité.
- Respectez les SLA de données de plusieurs charges de travail de données en tirant parti des partenariats en matière d'automatisation et de technologie de données.
- Exploitez l’observabilité pour la détection, la résolution et la prévention des incidents avec nos données – avant que les utilisateurs n’en soient informés.
- Déplacez l’attention de l’équipe de données des tâches administratives vers les informations basées sur les données et la science des données.
- Pérenniser notre environnement de données pour répondre aux exigences de cas d'utilisation de données en constante augmentation, allant de la BI aux nouvelles applications d'intelligence artificielle (IA) utilisées par plus de 400 utilisateurs internes répartis dans plusieurs services et des milliers de clients.
Environnement DataOps chez PagerDuty
Le schéma ci-dessus illustre plusieurs des composants clés de notre environnement DataOps. Si les besoins et l'environnement de données de chaque organisation sont uniques, vous pouvez constater que nos problématiques et notre architecture ne le sont pas toutes (multiples entrepôts de données, multiples outils ETL, SLA stricts, demande croissante d'ensembles de données). Vous identifiez probablement déjà plusieurs problèmes généraux communs, ainsi que des similitudes architecturales avec votre propre environnement de données.
Vous pouvez également exploiter PagerDuty dans votre environnement DataOps
La plateforme d'opérations numériques PagerDuty alerte les équipes données, ainsi que les utilisateurs et consommateurs de données en aval, dès l'apparition de problèmes de données, afin d'éviter toute interruption de service. Nous sommes ravis d'annoncer nos six intégrations DataOps ou liées aux données actuellement publiées au sein de notre écosystème. Ces partenaires technologiques résolvent les problèmes de pipeline et de qualité des données dans toute l'organisation. Ils améliorent la collaboration, réduisent les frictions et limitent les défaillances de données en améliorant l'alignement :
- Monte-Carlo : Fournit une observabilité des données de bout en bout, résolvant les temps d'arrêt des données avant qu'ils ne se produisent.
- S'allumer :Aide les entreprises à obtenir une excellente qualité de données à l'échelle du cloud.
- Arize :Une plate-forme d'observabilité d'apprentissage automatique (ML) pour surveiller, dépanner et résoudre les problèmes de modèle ML.
- PourquoiLabs : Empêche les pannes coûteuses de l'IA en fournissant une surveillance des données et des modèles
- Préfet :Créez et surveillez des pipelines de données avec des alertes en temps réel
- Astronome :Réduit les temps d'arrêt des données grâce à la surveillance des données en temps réel sur les pipelines

Écosystème PagerDuty DataOps
Plus important encore, ces nouvelles intégrations DataOps avec PagerDuty couvrent des domaines clés tels que l'orchestration des pipelines de données, la qualité des tests et de la production, l'automatisation du déploiement et la gestion des modèles de science des données et de machine learning. Nous vous encourageons à essayer PagerDuty avec certains de ces outils. Écosystème PagerDuty Des partenaires technologiques pour vous aider à renforcer la collaboration entre équipes interfonctionnelles et à prendre des décisions plus judicieuses et plus rapides, avec moins de temps d'arrêt des données. De même, si vous envisagez de créer une intégration PagerDuty , veuillez vous inscrire à un compte développeur pour commencer.