Qu’est-ce qu’un pipeline de données – comment fonctionne-t-il ?
I write about fintech, data, and everything around it
Un pipeline de données est une série d’étapes de traitement des données. Chaque étape produit un résultat qui sert d’entrée à l’étape suivante, et ce jusqu’à ce que le pipeline soit complet.
Le pipeline de données se compose de trois éléments clés : la source, les étapes de traitement et la destination. Les entreprises qui cherchent à créer des applications à l’aide d’une architecture microservices déplacent des données entre les applications, ce qui fait de l’efficacité du pipeline de données un élément essentiel de leur planification et de leur développement.
Les données générées par un système ou une application source peuvent alimenter plusieurs pipelines de données, et ces pipelines peuvent avoir de nombreux autres pipelines ou applications qui dépendent de leurs résultats.
Prenons un exemple.
Vous écrivez un article d’opinion sur LinkedIn avec un tas de mots-clés. En supposant que vous soyez une personne célèbre, nous pouvons envisager les activités d’engagement suivantes :
- Des centaines de personnes aimeraient cette pièce
- Des centaines de personnes commenteraient l’article – des sentiments positifs, négatifs et neutres sur votre opinion.
- Il est possible d’inclure plusieurs personnes dans les commentaires et de les inviter à donner leur avis sur votre article.
- Des centaines de personnes partageront votre article avec des étiquettes supplémentaires.
- Des centaines de personnes se référeront à votre article et y ajouteront leur point de vue.
Bien que la source des données soit la même, les différentes mesures alimentent des pipelines de données différents. Votre article d’opinion est visible sous votre profil, sous les profils des personnes qui ont participé à votre contenu et sous les innombrables étiquettes utilisées pour définir le contenu.
Les étapes courantes des pipelines de données comprennent la transformation des données, l’augmentation, l’enrichissement, le filtrage, la segmentation, l’agrégation et l’exécution d’algorithmes sur les données qui fournissent des informations à l’entreprise.
Prenons un autre exemple de big data.
Netflix est passé maître dans l’art de vous faire des recommandations personnelles. C’est l’une des raisons pour lesquelles nous revenons toujours à Netflix pour tous nos besoins en matière de divertissement.
Netflix est une entreprise axée sur les données, et toutes ses décisions sont basées sur des informations tirées de l’analyse des données. La charte du pipeline de données consiste à collecter, agréger, traiter et déplacer des données à l’échelle du nuage. Voici quelques statistiques sur le pipeline de données de Netflix :
- 500 milliards d’événements, 1,3 PB par jour
- 8 millions d’événements et 24 Go par seconde pendant les heures de pointe
- Plusieurs centaines de flux d’événements circulent dans le pipeline de données – activités de visualisation vidéo, activités de l’interface utilisateur, journaux d’erreurs, événements de performance, dépannage et événements de diagnostic.
Netflix effectue des analyses en temps réel (latence inférieure à la minute) avec les données capturées et suit le traitement des flux. Les volumes dont nous parlons ici sont énormes et la croissance a été explosive.
Il s’agit de 150 grappes d’adoption de la recherche élastique, soit un total de 3500 instances hébergeant 1,3 Po de données.
Comment fonctionne le pipeline de données ?
Pour comprendre le fonctionnement d’un pipeline de données, imaginez un tuyau dans lequel un élément est ingéré à la source et acheminé vers la destination. La manière dont les données sont traitées dans le tuyau dépend du cas d’utilisation de l’entreprise et de la destination elle-même.
Source des données : Base de données relationnelle ou données provenant d’applications. Cela peut se faire à l’aide d’un mécanisme “push”, d’un appel API, d’un “webhook” ou d’un moteur qui extrait des données à intervalles réguliers ou en temps réel.
Destination des données :
La destination peut être un entrepôt de données sur site ou dans le nuage, ou encore une application analytique ou de BI.
Transformation des données : La transformation fait référence aux opérations qui modifient les données – normalisation, tri, déduplication, validation et vérification. L’idée est de permettre d’analyser et de donner un sens aux données.
Traitement des données :
Le traitement des données comporte trois modèles.
Modèle n° 1 : traitement par lots, dans lequel les données sources sont collectées périodiquement et envoyées aux systèmes de destination.
Modèle n° 2 : traitement en continu, dans lequel les données sont extraites, manipulées et chargées dès leur création.
Modèle n° 3 : architecture Lambda, qui combine le traitement par lots et le traitement en continu en une seule architecture. Cette méthode est très répandue dans les environnements de big data et encourage le stockage des données au format brut afin d’exécuter continuellement de nouveaux pipelines de données.
Flux de données :
Le flux de travail implique le séquençage et la gestion des dépendances, qui peuvent être techniques ou commerciales. Les dépendances techniques impliquent une validation et une vérification avant l’acheminement vers la destination. La dépendance commerciale implique une vérification croisée des données provenant de différentes sources afin d’en préserver l’exactitude.
Contrôle des données : Le contrôle est utilisé pour garantir l’intégrité des données. Les scénarios d’échec potentiels incluent la congestion du réseau, une source ou une destination hors ligne, et il doit disposer de mécanismes d’alerte pour informer les administrateurs.
ZIO, la plateforme de pipeline de données
ZIO peut gérer toutes les sources de données et peut traiter les données en fonction des dépendances techniques et commerciales et les transférer vers la destination. Cela permettrait aux entreprises de générer des informations exploitables.
Ainsi, que vous soyez une PME ou une grande entreprise, le suivi des données est la clé du succès de votre activité. Planifiez un appel de 30 minutes et découvrez les services d’ingénierie des données de Zuci pour créer un système de source unique de vérité pour l’analyse des données en temps réel, les rapports d’activité, l’optimisation et l’analyse.