Wat is een gegevenspijplijn – hoe werkt het?
I write about fintech, data, and everything around it
Een gegevenspijplijn is een reeks stappen voor gegevensverwerking. Elke stap levert een output die de input is voor de volgende stap, en dit gaat zo door tot de pijplijn compleet is.
Een gegevenspijplijn bestaat uit drie belangrijke elementen: bron, verwerkingsstappen en bestemming. Naarmate organisaties applicaties bouwen met behulp van een microservices-architectuur, verplaatsen ze gegevens tussen applicaties, waardoor de efficiëntie van de gegevenspijplijn een kritieke overweging wordt bij hun planning en ontwikkeling.
Gegevens die worden gegenereerd in één bronsysteem of -toepassing kunnen meerdere gegevenspijplijnen voeden, en die pijplijnen kunnen talloze andere pijplijnen of toepassingen hebben die afhankelijk zijn van hun output.
Laten we een voorbeeld bekijken.
Je schrijft een opiniestuk op LinkedIn met een hoop trending tags. Ervan uitgaande dat je een bekend individu bent, kunnen we de volgende engagementactiviteiten bekijken:
- Honderden mensen zouden het stuk willen hebben
- Honderden mensen zouden commentaar geven op het stuk – positieve, negatieve en neutrale gevoelens over jouw mening
- Meerdere mensen kunnen worden getagd als onderdeel van het commentaar en worden uitgenodigd om hun mening over je stuk te geven.
- Honderden mensen zouden je stuk delen met extra tags erop
- Honderden mensen zouden naar je artikel verwijzen en hun mening eraan toevoegen
Hoewel de bron van de gegevens hetzelfde is, worden de verschillende meetgegevens ingevoerd in verschillende gegevenspijplijnen. Je opiniestuk is zichtbaar onder je eigen profiel, onder profielen van mensen die betrokken waren bij je inhoud en de ontelbare tags die gebruikt zijn om de inhoud te definiëren.
Veel voorkomende stappen in datapijplijnen zijn datatransformatie, -uitbreiding, -verrijking, -filtering, -segmentering, -aggregatie en algoritmen die tegen de gegevens worden uitgevoerd om inzichten te verschaffen aan het bedrijf.
Laten we eens kijken naar een ander voorbeeld van big data.
Netflix is een meester in het geven van persoonlijke aanbevelingen. Dit is een van de redenen waarom we steeds weer teruggaan naar Netflix voor al onze entertainmentbehoeften.
Netflix is een datagestuurd bedrijf en al zijn beslissingen zijn gebaseerd op inzichten uit gegevensanalyses. Het doel van de datapijplijn is om gegevens op cloudschaal te verzamelen, samen te voegen, te verwerken en te verplaatsen. Hier zijn wat statistieken over de datapijplijn van Netflix:
- 500 miljard gebeurtenissen, 1,3 PB per dag
- 8 miljoen gebeurtenissen en 24 GB per seconde tijdens piekuren
- Enkele honderden gebeurtenisstromen stromen door de gegevenspijplijn – videoweergaveactiviteiten, UI-activiteiten, foutlogs, prestatiegebeurtenissen, probleemoplossing en diagnostische gebeurtenissen.
Netflix maakt realtime analyses (latentie van minder dan een minuut) met de gegevens die ze vastleggen en volgt de streamverwerking. De volumes waar we het hier over hebben zijn enorm en de groei is explosief.
We hebben het over 150 clusters van elastische zoekadoptie, in totaal 3500 instanties die 1,3 PB aan gegevens hosten.
Hoe werkt de gegevenspijplijn?
Om te weten hoe een gegevenspijplijn werkt, kun je denken aan een pijp waarin iets wordt opgenomen bij de bron en naar de bestemming wordt gebracht. Hoe de gegevens in de pipe worden verwerkt, hangt af van het bedrijfsgebruik en de bestemming zelf.
Gegevensbron: Relationele database of gegevens uit applicaties. Dit kan via een pushmechanisme, een API-oproep, een webhook of een engine die op regelmatige tijdstippen of in realtime gegevens ophaalt.
Bestemming van gegevens:
De bestemming kan een datawarehouse op locatie of in de cloud zijn, maar het kan ook een analyse- of BI-toepassing zijn.
Gegevenstransformatie: Transformatie verwijst naar bewerkingen die gegevens veranderen – standaardiseren, sorteren, ontdubbelen, valideren en verifiëren. Het idee is om het mogelijk te maken om de gegevens te analyseren en er wijs uit te worden.
Gegevensverwerking:
Verwerking heeft drie modellen.
Model #1: Batchverwerking, waarbij brongegevens periodiek worden verzameld en naar de bestemmingssystemen worden gestuurd.
Model #2: Stroomverwerking, waarbij gegevens worden opgehaald, gemanipuleerd en geladen zodra ze zijn aangemaakt
Model #3: Lambda-architectuur, die zowel batch- als streamverwerking combineert in één architectuur. Dit is populair in big data-omgevingen en het moedigt het opslaan van gegevens in onbewerkt formaat aan om voortdurend nieuwe datapijplijnen uit te voeren.
Data Workflow:
Workflow houdt sequentie- en afhankelijkheidsbeheer in, en de afhankelijkheden kunnen technisch of bedrijfsgericht zijn. Technische afhankelijkheden zouden validatie en verificatie betekenen voordat het naar de bestemming wordt verplaatst. Bedrijfsafhankelijkheid omvat kruisverificatie van gegevens uit verschillende bronnen om de nauwkeurigheid te handhaven.
Gegevensmonitoring: Monitoring wordt gebruikt om de integriteit van gegevens te waarborgen. Mogelijke storingsscenario’s zijn onder andere netwerkcongestie, offline bron of bestemming, en het moet waarschuwingsmechanismen hebben om de beheerders te informeren.
ZIO, het datapijplijnplatform
ZIO kan alle gegevensbronnen aan en kan gegevens verwerken op basis van de technische en zakelijke afhankelijkheden en deze naar de bestemming dumpen. Dit zou bedrijven in staat stellen om bruikbare inzichten te genereren.
Dus of u nu een kmo of een groot bedrijf bent, het bijhouden van gegevens is de sleutel tot het succes van uw bedrijf. Plan een gesprek van 30 minuten en kom meer te weten over de Data Engineering Services van Zuci om een single source of truth-systeem te ontwikkelen voor real-time gegevensanalyse, bedrijfsrapportage, optimalisatie en analyse.