Leestijd : 2 minuten

Componenten, typen en use-cases van datapijplijnen

Janaha
Assistant Marketing Manager

I write about fintech, data, and everything around it

Gegevens zijn essentieel om organisaties te helpen betere strategieën op te bouwen en weloverwogen beslissingen te nemen in de moderne markt van vandaag. Het stelt bedrijven in staat om strategisch te zijn in hun aanpak, argumenten te onderbouwen, oplossingen te vinden voor alledaagse problemen en de effectiviteit van een bepaalde strategie te meten.

Naast de voordelen is het beheren van en toegang tot gegevens een kritieke taak bij tal van ondernemingen. En het is waar Data Pipeline het nuttigst blijkt te zijn.

Met Data Pipeline hebben datawetenschappers en teams toegang tot gegevens op basis van cloudplatforms. Tools voor gegevenspijplijnen beheren gegevens van een startpunt tot een opgegeven eindpunt. Hiermee kunt u gegevens uit vele bronnen verzamelen om nuttige inzichten te creëren voor een concurrentievoordeel.

Zelfs de meest doorgewinterde datawetenschappers kunnen snel overweldigd raken door het aanzienlijke datavolume, de snelheid en de diversiteit. Om deze reden gebruiken organisaties een datapijplijn om ruwe data om te zetten in analytische, hoogwaardige informatie.

Om uw begrip van de datapijplijn te verdiepen, hebben we deze definitieve gids samengesteld die de componenten, typen, use cases en alles behandelt.

Dan is deze gids iets voor jou. Laten we er meteen in duiken.

Wat is een gegevenspijplijn?

Een datapijplijn is een reeks tools, acties en activiteiten die in een specifieke volgorde zijn geïmplementeerd om onbewerkte gegevens uit meerdere bronnen te verzamelen en naar een bestemming te verplaatsen voor opslag en analyse. Met een datapijplijn kan het automatisch gegevens uit verschillende bronnen verzamelen, wijzigen en combineren tot één krachtige gegevensopslag.

De vijf kritieke componenten van een datapijplijn zijn voorverwerking, opslag, analyse, toepassingen en levering. Deze vijf componenten helpen organisaties naadloos met data te werken en waardevolle inzichten te genereren.

What is data pipeline

Waarom zou u een datapijplijn implementeren?

Een datapijplijn helpt u big data te begrijpen en om te zetten in hoogwaardige informatie voor analyse en business intelligence. Ongeacht de grootte kunnen alle bedrijven datapijplijnen gebruiken om concurrerend te blijven in de huidige markt. Deze gegevens kunnen verder worden gebruikt om de behoeften van klanten te begrijpen, goederen te verkopen en inkomsten te genereren. Aangezien het vijf essentiële elementen biedt, speelt datapijplijnintegratie een belangrijke rol in het proces en stelt het bedrijven in staat enorme hoeveelheden data te beheren.

Data groeit snel en zal blijven groeien. En toevallig helpen de datapijplijnen om alle onbewerkte gegevens om te zetten in een dagelijkse gegevensstroom. Applicaties, data-analyse en machine learning kunnen allemaal gebruikmaken van deze gewijzigde data. Als u van plan bent deze gegevens te gebruiken, heeft u gegevensintegratie nodig, waarvoor een gegevenspijplijn nodig is.

Gegevenspijplijn versus ETL

De uitdrukkingen ETL en Data Pipeline worden soms door elkaar gebruikt, maar ze verschillen enigszins. ETL verwijst naar extraheren, transformeren en laden. ETL-pijplijnen worden veel gebruikt om gegevens uit een bronsysteem te extraheren, deze volgens vereisten te converteren en in een database of datawarehouse te laden, voornamelijk voor analytische doeleinden.

  • Extract: Data-acquisitie en opname van originele, diverse bronsystemen.
  • Transformeren: Gegevens overbrengen in een verzamelgebied voor kortetermijnopslag en gegevens transformeren zodat deze voldoen aan geaccepteerde vormen voor andere toepassingen, zoals analyse.
  • Laden: Opnieuw geformatteerde gegevens laden en overbrengen naar de doelschijf.

Datapijplijn daarentegen kan worden gezien als een meer algemene uitdrukking die ETL als een subset bevat. Het verwijst naar een systeem dat wordt gebruikt om gegevens tussen systemen over te dragen. Er kunnen al dan niet wijzigingen in deze gegevens worden aangebracht. Afhankelijk van het bedrijf en de gegevensvereisten, kan het in batches of in realtime worden afgehandeld. Deze informatie kan op verschillende locaties worden opgeslagen, zoals een AWS S3 Bucket of een Data Lake.

Het kan zelfs een webhook op een ander systeem activeren om een bepaalde zakelijke activiteit te starten.

Verschillende onderdelen van de gegevenspijplijn

Een datapijplijn bestaat uit verschillende onderdelen. Al deze componenten van de datapijplijn hebben hun technische vereisten en uitdagingen die moeten worden overwonnen. U moet eerst bekend zijn met de componenten van een datapijplijn om te begrijpen hoe deze werkt. De structuur van een typische datapijplijn lijkt op deze:

Different data pipeline components

1. Oorsprong

In een gegevenspijplijn is de oorsprong waar gegevens voor het eerst worden ingevoerd. Het wordt vaak aangestuurd door het ontwerp van de datastore. De meeste pipelines zijn afkomstig van opslagsystemen zoals datawarehouses, datalakes, applicaties voor transactieverwerking, sociale media, API’s en IoT-apparaatsensoren.

De ideale plek voor gegevens is meestal de plek waar het het meest logisch is om de latentie te verlagen voor near-real-time pijplijnen of om de transactieprestaties te optimaliseren Als transactiesystemen betrouwbare en tijdige informatie leveren die nodig is op de bestemming van de pijpleiding, moeten ze als oorsprong(en) worden beschouwd.

2. Bestemming

Een bestemming is een eindpunt waar gegevens uiteindelijk naartoe worden getransporteerd. Het eindpunt kan van alles zijn, van een datawarehouse tot een datameer. Het hangt vooral af van de use-case. Daar is het hele proces op gericht. Begin hier bij het maken van uw datapijplijnen.

Het bepalen van oorsprong en bestemming gaan hand in hand, waarbij eindpuntbehoeften van invloed zijn op de ontdekking van gegevensbronnen en gegevensbronselectie die van invloed is op de keuze van pijplijneindpunten. Het is bijvoorbeeld noodzakelijk om rekening te houden met zowel de tijdigheidsvereisten op de bestemming van de pijplijn als de latentiebeperkingen op de oorsprong van de pijplijn.

3. Gegevensstroom

Oorsprong en bestemming bepalen samen wat er in de pijplijn gaat en wat eruit komt, terwijl dataflow bepaalt hoe gegevens door een pijplijn gaan. Eenvoudig gezegd is dataflow de volgorde waarin processen en opslag worden gebruikt om gegevens van een bron naar een eindpunt te transporteren. Het verwijst naar de overdracht van gegevens tussen punten van herkomst en bestemmingen, evenals eventuele wijzigingen die daarin worden aangebracht. De drie fasen van dataflow zijn:

  • Extract: Het wordt gedefinieerd als het proces waarbij alle essentiële gegevens uit de bron worden gehaald. De bronnen omvatten voor het grootste deel databases zoals MySQL, Oracle, MongoDB, CRM, ERP en meer.
  • Transformeren:Het is het proces waarbij de essentiële gegevens worden omgezet in een formaat en structuur die geschikt zijn voor analyse. Het wordt gedaan met een beter begrip van data met behulp van business intelligence of data-analysetools. Het omvat ook activiteiten zoals filteren, opschonen, valideren, dedupliceren en authenticeren.
  • Laden:Het is het proces waarbij de geconverteerde gegevens op de gewenste locatie worden opgeslagen. Laden is een term die vaak wordt gebruikt om datawarehouses zoals Amazon Redshift, Google BigQuery, Snowflake en andere te beschrijven.

4. Opslag

Opslag verwijst naar alle systemen die worden gebruikt om gegevens te onderhouden terwijl deze door de verschillende stadia van de gegevenspijplijn gaan. De factoren die van invloed zijn op de beschikbare opslagopties zijn de hoeveelheid gegevens, hoe vaak en grondig een opslagsysteem wordt doorzocht en hoe de gegevens zullen worden gebruikt.

5. Verwerking

Verwerking verwijst naar de stappen en activiteiten die worden gevolgd om gegevens over de pijplijn te verzamelen, transformeren en distribueren. Gegevensverwerking, hoewel verbonden met de gegevensstroom, richt zich op de uitvoering van deze beweging. Processing converts input data into output data by completing the proper steps in the correct order. Deze gegevens worden tijdens het opnameproces geëxporteerd of geëxtraheerd en verder verbeterd, uitgebreid en geformatteerd voor het beoogde gebruik.

6. Werkstroom

De workflow schetst de volgorde van activiteiten of taken in een datapijplijn en hoe ze onderling afhankelijk zijn. U zult hier veel baat bij hebben als u banen kent, stroomopwaarts en stroomafwaarts. Banen verwijzen naar de afzonderlijke arbeidseenheden die een bepaalde taak voltooien, in dit geval het wijzigen van gegevens. De upstream en downstream verwijzen naar de bronnen en bestemmingen van gegevens die via een pijplijn reizen.

7. Toezicht

Het belangrijkste doel van monitoring is om de efficiëntie, nauwkeurigheid en consistentie van de gegevens te onderzoeken terwijl deze door de verschillende verwerkingsfasen van de gegevenspijplijn gaan en om ervoor te zorgen dat er onderweg geen informatie verloren gaat. Het wordt gedaan om ervoor te zorgen dat de pijpleiding en al zijn fasen naar behoren functioneren en de noodzakelijke taken uitvoeren.

Bekijk deze video van onze technische leider – Business Intelligence, Balasubramanian Loganathan, om 8 belangrijke stappen te leren om een optimale datapijplijn te bouwen.

Data Pipeline-architectuur

Bedrijven evolueren in de richting van het implementeren van geavanceerde tools, cloud-native infrastructuur en technologieën om hun bedrijfsvoering te verbeteren. Dit vraagt om het overzetten van enorme hoeveelheden data. Geautomatiseerde datapijplijnen zijn essentiële elementen van deze hedendaagse stapel waarmee bedrijven hun gegevens kunnen verrijken, op één locatie kunnen verzamelen, analyseren en hun bedrijfsinformatie kunnen verbeteren. Deze moderne stapel bevat:

  • Een tool voor geautomatiseerde gegevenspijplijnen
  • Een bestemmingscloudplatform zoals Databricks, Amazon Redshift, Snowflake, Data Lakes, Google BigQuery, enz.
  • Business Intelligence-tools zoals Tableau, Looker en Power BI
  • Een hulpmiddel voor gegevenstransformatie

Inname van gegevens, transformatie en opslag zijn de drie hoofdfasen van de datapijplijnarchitectuur.

1. Gegevensopname

Voor het verzamelen van data (gestructureerde en ongestructureerde data) wordt gebruik gemaakt van meerdere databronnen. Producenten, uitgevers en afzenders zijn algemene termen die worden gebruikt om streaming gegevensbronnen te beschrijven. Voordat u onbewerkte gegevens verzamelt en verwerkt, verdient het altijd de voorkeur om te oefenen met het opslaan ervan in een datawarehouse in de cloud. Bedrijven kunnen ook oudere gegevensrecords bijwerken met deze techniek om gegevensverwerkingstaken te wijzigen.

2. Gegevenstransformatie

In deze fase worden gegevens via een reeks taken verwerkt tot het formaat dat nodig is voor de uiteindelijke gegevensopslagplaats. Deze activiteiten garanderen dat gegevens regelmatig worden opgeschoond en getransformeerd door repetitieve werkstromen, zoals bedrijfsrapportage, te automatiseren. In het geval van een datastroom in geneste JSON-indeling kunnen sleutelvelden bijvoorbeeld tijdens de datatransformatiestap worden opgehaald uit geneste JSON-streams.

3. Gegevensopslag

Na opslag worden de gewijzigde gegevens toegankelijk gemaakt voor verschillende belanghebbenden in een databewaarplaats. Binnen streaminggegevens worden de getransformeerde gegevens vaak klanten, abonnees of ontvangers genoemd.

Casestudy

Voorspellen van frauduleuze subsidies voor ’s werelds grootste ngo

Soorten Data Pipeline-architectuur

Om een effectieve datapijplijn te creëren, moet u zich eerst bewust zijn van de architecturen. Er zijn verschillende datapijplijnarchitecturen die verschillende voordelen bieden. En we zullen elk van hen hieronder in meer detail bekijken:

ETL-gegevenspijplijn

De term “ETL-pijplijn” verwijst naar een reeks bewerkingen die worden uitgevoerd om gegevens van een of meer bronnen over te dragen naar een doeldatabase, meestal een datawarehouse. De drie stappen van gegevensintegratie, “extraheren, transformeren en laden” (ETL), zijn met elkaar verweven en maken gegevensoverdracht van de ene database naar de andere mogelijk. Nadat de gegevens zijn geïmporteerd, kunnen deze worden geanalyseerd, gerapporteerd en gebruikt om strategische zakelijke beslissingen te nemen.

Gebruik gevallen:

  • Faciliteer de overdracht van informatie van een ouder systeem naar een modern gegevensopslagsysteem.
  • Door alle data op één plek te verzamelen, kunnen nieuwe inzichten worden verkregen.
  • Het aanvullen van informatie die is opgeslagen in het ene systeem met informatie die is opgeslagen in een ander systeem.

ELT-gegevenspijplijn

ELT (Extract, load, and transform) beschrijft de stappen die door een datapijplijn worden gebruikt om inhoud van het bronsysteem naar een bestemmingssysteem te dupliceren, zoals een datawarehouse in de cloud.

Gebruik gevallen:

  • Faciliteren van on-the-fly rapportage
  • Vergemakkelijking van het onderzoek van gegevens in realtime
  • Activeren van aanvullende software om aanvullende ondernemingsprocedures uit te voeren

Batchgegevenspijplijn voor traditionele analyse

Organisaties gebruiken pijplijnen voor batchgegevens wanneer ze regelmatig een grote hoeveelheid gegevens moeten verplaatsen. Voor de meerderheid wordt de batchgegevenspijplijn uitgevoerd volgens een vooraf bepaald schema. Het wordt bijvoorbeeld gebruikt wanneer gegevens elke 24 uur moeten worden verwerkt of wanneer het gegevensvolume een vooraf bepaalde drempel bereikt.

Gebruik gevallen:

  • Bouwen van een datawarehouse voor maandelijkse analyse en rapportage
  • Integratie van gegevens over twee of meer platforms
How to Streamline Data Labeling for Machine Learning

Gegevenslabeling stroomlijnen voor machinaal leren: hulpmiddelen en praktische benaderingen die u moet kennen

Dit is een beknopte gids om u te helpen bij het oplossen van het probleem van pijn bij het labelen van gegevens. Het introduceert verschillende tools en praktische benaderingen die u moet kennen om uw proces te stroomlijnen.

Stream-gebaseerde pijplijn

Bij real-time of streaming-analyses worden binnen milliseconden conclusies getrokken uit snelle gegevensstromen. In tegenstelling tot batchverwerking, werkt een streamingpijplijn continu statistieken, rapporten en samenvattende statistieken bij als reactie op elke gebeurtenis die beschikbaar komt. Het neemt ook continu een reeks gegevens op terwijl deze wordt gegenereerd.

Gebruik gevallen:

  • Monitoring en rapportage van IT-infrastructuur
  • Problemen met software, hardware en meer oplossen via logboekbewaking
  • Event and security information management (SIEM) is de praktijk van het bewaken, meten en detecteren van bedreigingen door logboeken en real-time gebeurtenisgegevens te analyseren.
  • Winkel- en magazijnvoorraad: beheer van de voorraad in alle winkels en magazijnen en maak het voor klanten gemakkelijk om vanaf elk apparaat toegang te krijgen tot hun bestellingen
  • Om ritten te koppelen aan de meest geschikte chauffeurs op het gebied van afstand, locatie, prijsstelling en lange wachttijden, moeten gegevens over locaties, gebruikers en tarieven worden geïntegreerd in analytische modellen.

Lambda-pijpleiding

Deze pijplijn combineert een batchpijplijn met een streamingpijplijn. Omdat het programmeurs in staat stelt rekening te houden met zowel real-time streaming use cases als historische batchanalyse, wordt deze architectuur vaak gebruikt in big data-contexten. Het feit dat dit ontwerp bevordert dat gegevens in hun onbewerkte vorm worden bewaard, betekent dat ontwikkelaars nieuwe pijplijnen kunnen gebruiken om eventuele problemen met oudere pijplijnen op te lossen of aanvullende gegevensbestemmingen kunnen opnemen, afhankelijk van de use-case.

Gebruik gevallen:

  • Snelle conversie
  • Gebruikers hebben niet altijd specificaties, handleidingen of transactiegegevens in één standaardformaat nodig. On-demand documentcreatie is doorgaans eenvoudiger. Lambda-software kan snel en eenvoudig inhoud ophalen, formatteren en transformeren voor online of download.
  • Back-ups en dagelijkse taken
  • Lambda-evenementen die zijn gepland, zijn fantastisch voor het uitvoeren van onderhoud aan AWS-accounts. Met behulp van Lambda is het mogelijk om snel alledaagse activiteiten te creëren, zoals het maken van back-ups, het monitoren van inactieve bronnen en het genereren van rapporten.

Big Data-pijplijn voor Big Data-analyse

Ontwikkelaars en ontwerpers hebben zich moeten aanpassen aan de groeiende diversiteit, het volume en de snelheid van Big Data. Big Data staat voor een groot volume. Deze grote hoeveelheid informatie kan onderzoeksrapportage, monitoring en data-analyse mogelijk maken.

Big Data Pipelines kunnen grote hoeveelheden data transformeren, in tegenstelling tot reguliere Data Pipelines. Big Data Pipelines verwerken informatie in stromen en groepen. Regardless of the method, a Big Data Pipeline must be scalable to meet business needs.

Gebruik gevallen:

  • Bouwbedrijven houden alles nauwgezet bij, van arbeidsuren tot materiaaluitgaven.
  • Winkels, zowel fysiek als virtueel, die de voorkeuren van consumenten monitoren.
  • Big Data wordt door de bank- en financiële sector gebruikt om gegevenstrends te voorspellen en de kwaliteit van de klantenservice te verbeteren.
  • Gezondheidszorgsystemen doorzoeken bergen gegevens, op zoek naar nieuwe en verbeterde therapieën.
  • Er zijn verschillende manieren waarop bedrijven die actief zijn in de sociale, entertainment- en communicatie-industrie Big Data gebruiken, zoals het aanbieden van real-time updates van sociale media, het faciliteren van verbindingen tussen smartphones en het verbeteren van HD-mediastreaming.

Voor- en nadelen van datapijplijnarchitectuur

Voorbeelden van datapijplijnarchitectuur Voordelen Nadelen
ETL-gegevenspijplijn
  • Ontwikkelaars kunnen zich concentreren op relevantere taken zonder zich zorgen te hoeven maken over het onderhoud en de verplaatsing van gegevens.
  • Overzetten van oude databases naar een centrale repository
  • Na eenvoudige wijzigingen, geavanceerde statistische analyse.
  • Datatransformatie is ik I/O- en CPU-intensief voor grootschalige extracties Data-engineers en -ontwerpers moeten vanwege deze beperking minder gegevens extraheren.
  • Datateams moeten vooraf algemene voorwaarden verstrekken, waardoor de flexibiliteit afneemt en de onderhoudskosten stijgen. Naarmate gegevens worden verwerkt, is de tijd tot inzicht lang.
ELT-gegevenspijplijn
  • Waarde-tijd-voor het integreren of verwerken van gegevens, ETL brengt tijd en middelen met zich mee.
  • Schaalbaarheid – De cloud maakt gebruik van ELT-tools. On-premises databasesystemen vereisen nieuwe apparatuur, terwijl cloudopties snel opschalen.
  • Flexibiliteit – Veel BI-oplossingen stellen een schema op bij het lezen en leveren transformatie op verzoek, zodat u onbewerkte gegevens kunt herhalen en indien nodig kunt aanpassen.
  • Toenemende systeemeisen. ELT-gegevensopslag heeft aanvullende systemen nodig, maar de voordelen wegen niet op tegen de kosten.
  • Schrijven kan traag zijn. Herhaalde stappen kunnen EL belemmeren.
Batchgegevenspijplijn
  • Batchdatapijplijnen hebben altijd toegang tot de volledige dataset aan het begin van de uitvoering, waardoor joins en aggregaties gemakkelijker te bouwen zijn.
  • Het maakt verbinding met gegevensbronnen en putten. JDBC-stuurprogramma’s kunnen databasesystemen direct integreren zonder tussenlaag.
  • Batchpijplijnen houden geen gegevenswijzigingen bij. Ze moeten altijd alle gegevens verwerken, zelfs als ze niet zijn veranderd sinds de laatste run, wat rekenkracht verspilt.
  • Batchpijplijnen houden geen gegevenswijzigingen bij. Ze moeten altijd alle gegevens verwerken, zelfs als deze niet zijn veranderd sinds de laatste run, wat rekenkracht verspilt.
  • Batchgegevenspijplijnen zijn van invloed op de prestaties van de verbruikende gegevensbron, omdat ze alle gegevens in één keer extraheren.
Stream-gebaseerde pijplijn
  • ROI-In staat zijn om snel gegevens te verzamelen, analyseren en ernaar te handelen, geeft bedrijven een concurrentievoordeel. Realtime informatie helpt bedrijven te reageren op marktontwikkelingen, wensen van klanten en zakelijke vooruitzichten.
  • Minimaliseer verliezen
  • Realtime informatie kan waarschuwen voor systeemstoringen, economische neergang, inbreuken op de beveiliging en andere problemen die het bedrijf schaden. Met deze informatie kunnen bedrijven deze incidenten voorkomen of beperken.

  • Toegang – Gegevens moeten niet alleen toegankelijk zijn op het moment dat ze worden vastgelegd, maar ze moeten ook worden opgeslagen voor historische context. Het is fantastisch dat een klant het abonnement heeft verlengd, maar als je eerdere abonnementsperioden niet kunt bekijken, heb je geen volledig beeld van hun aankoopgeschiedenis.
  • Schaalbaarheid
  • Datastromen kunnen groot zijn, dus opslag- en verwerkingssystemen moeten gereed zijn. Geen gegevensverlies door een tijdelijke volumeverhoging of systeemuitval. Dit betekent dat uw systeem over failsafes moet beschikken om computer- en opslagpieken aan te kunnen.
Lambda-pijpleiding
  • AWS Lambda kan de ontwikkel-, test- en productieomgevingen standaardiseren, waardoor ontwikkelaars fouten sneller kunnen identificeren en oplossen.
  • AWS Lambda kan worden geïntegreerd met andere cloudservices. Ontwikkelaars kunnen eenvoudig functies aanroepen die deze services gebruiken of hun gegevens gebruiken.
  • Relatief weinig programmeertalen worden ondersteund.
  • Het abstraheert de complexiteit van de infrastructuur, maar een ingewikkeld programma zal complexe oproepen creëren voor AWS Lambda-functies. Dit verhoogt de ontwerpkosten en cloudkosten op basis van opslag en netwerkbandbreedte.
Big data-pijplijn
  • Betere besluitvorming
  • Wanneer organisaties gemakkelijk veel gegevens kunnen verwerken en analyseren, is de kans groter dat ze patronen en informatie vinden die van invloed kunnen zijn op strategische en operationele beslissingen. Gegevensgestuurde inzichten verbeteren de besluitvorming.
  • Productiviteit en efficiëntie
  • Oplossingen voor big data-analyse helpen bedrijven om meer informatie sneller te verwerken.
  • Veiligheidsrisico
  • De meeste gevoelige documenten hebben speciale bescherming nodig in een datameer. Deze gegevens zijn een verhoogd doelwit voor hackers en maken de organisatie kwetsbaar.
  • Kosten, infrastructuur
  • Het beheer van enorme hoeveelheden gegevens op locatie kan moeilijk en kostbaar zijn. Cloudgebaseerde analyses en oplossingen voor het beheer van grote hoeveelheden gegevens helpen, maar er blijven problemen met de implementatie en het beheer.

Voorbeelden van gegevenspijplijnen

Het is één ding voor u om gegevens te verzamelen, maar iets heel anders als u deze niet kunt begrijpen en analyseren op een manier die voordelig is voor het bedrijf. De hedendaagse datapijplijn is in deze situatie nuttig. Het schalen van uw gegevens en het trekken van conclusies zijn essentiële vaardigheden voor elke organisatie, klein of groot. De mogelijkheid om schaalbare pijplijnen te beheren en te implementeren, stelt u in staat inzichten te ontdekken die u nooit voor mogelijk had gehouden en helpt u het volledige potentieel van uw gegevens te realiseren.

De infrastructuur van digitale systemen bestaat uit datapijplijnen. Pijpleidingen vervoeren gegevens, verwerken deze en slaan ze op zodat bedrijven nuttige inzichten kunnen krijgen. Datapijplijnen moeten echter worden bijgewerkt, zodat ze de toenemende complexiteit en het volume aan gegevens aankunnen. Teams zullen echter sneller betere beslissingen kunnen nemen en een concurrentievoordeel kunnen verwerven met behulp van moderne en efficiënte datapijplijnen zodra het moderniseringsproces is voltooid.

Lijst met bedrijven die datapijplijn gebruiken:

Uber

Uber begon in 2015 te werken aan zijn datapijplijn, Michelangelo. Het heeft de interne teams van het bedrijf in staat gesteld om machine learning-oplossingen te creëren, implementeren en beheren. Het is gemaakt om het gegevensbeheer, de training, de beoordeling en de implementatiefasen van de machine learning-workflow aan te kunnen. Met behulp van deze informatie kan het ook toekomstige gebeurtenissen voorspellen en volgen.

Voorafgaand aan de ontwikkeling van Michelangelo had Uber moeite met het ontwikkelen en implementeren van machine learning-modellen op de reikwijdte en schaal van hun bedrijf. Dit beperkte het gebruik van machine learning door Uber tot wat een klein aantal getalenteerde datawetenschappers en ingenieurs in een beperkte tijd konden creëren. Dit platform houdt niet alleen toezicht op Uber Eats, maar ook op honderden andere vergelijkbare modellen met voorspellende use cases die door de hele organisatie worden gebruikt.

Michelangelo bespreekt schattingen van de bezorgtijd van eten, restaurantrangschikkingen, zoekrangschikkingen en automatisch aanvullen van zoekopdrachten met UberEATs als voorbeeld. Alvorens een bestelling te plaatsen en opnieuw bij elke stap van het bezorgproces, informeert dit bezorgmodel de klant hoe lang het duurt om een maaltijd te maken en te bezorgen. De datawetenschappers van Uber Eats gebruiken regressiemodellen met gradiëntversterking om deze end-to-end levertijd op Michelangelo te voorspellen. Deze voorspelling is gemaakt op basis van de informatie over het tijdstip van de dag, de gemiddelde bereidingstijd van de maaltijd in de afgelopen week en de gemiddelde bereidingstijd van de maaltijd in het afgelopen uur.

GoFundMe

GoFundMe is het grootste sociale fondsenwervende bedrijf ter wereld, met meer dan 25 miljoen donateurs en meer dan $ 3 miljard aan donaties. Desondanks ontbrak het aan een centraal magazijn om de informatie uit de relationele databases op de backend, online evenementen en analyses, ondersteuningsdiensten en andere bronnen te bevatten, die in totaal ongeveer een miljard gebeurtenissen per maand bevatten. Zonder deze centralisatie waren deze statistieken geïsoleerd en konden hun IT-medewerkers geen grondig inzicht krijgen in de richting die hun bedrijf opging.

Om deze visie te bereiken, was GoFundMe zich ervan bewust dat ze een flexibele en aanpasbare gegevensstroom nodig hadden. Uiteindelijk bood hun pijplijn hen alle connectoren die ze nodig hadden voor hun gegevensbronnen, evenals de flexibiliteit om unieke Python-scripts te maken waarmee ze hun gegevens naar behoefte konden bewerken, waardoor ze volledige controle hadden. Deze pijplijn bood GoFundMe zowel flexibiliteit als integriteit omdat er maatregelen waren getroffen om het gebruik van gepersonaliseerde ETL-scripts, die gegevens zouden kunnen wijzigen, te voorkomen. Om te voorkomen dat gegevens verloren gaan, beschadigd raken of gedupliceerd worden in de pijplijn, is een functie de mogelijkheid om ze opnieuw te streamen.

AT&T

Miljoenen mensen, federale, staats- en lokale overheden, grote bedrijven en andere organisaties vertrouwen op AT&T als hun primaire leverancier van communicatie- en televisiediensten. Ze zijn grotendeels afhankelijk van een vlotte gegevensstroom om deze diensten aan te bieden. Daarnaast hosten ze de datacenters van verschillende klanten, bieden ze cloudservices aan en helpen ze met IVR-oplossingen. AT&T moest deze gegevens langer bewaren vanwege een wijziging in de Telemarketing Sales Rule van de Federal Trade Commission, waardoor ze hun technologieën voor het verplaatsen van gegevens moesten heroverwegen.

Aangezien AT&T het merendeel van de diensten van zijn contactcenters uitbesteedt aan externe contractanten, was het een probleem om dit materiaal veilig van 17 callcenters naar hun datacenters te verplaatsen. Ze hadden betrouwbare gegevensverplaatsing en snelle bestandsoverdracht nodig om deze audio-opnamen te verzenden. Uiteindelijk had AT&T een pijplijn nodig met een hogere transmissiesnelheid en -capaciteit, evenals eenvoud van installatie, automatisering en planning.

Het mandaat van de Federal Trade Commission werd verzekerd door de nieuwe pijplijn van AT&T, waardoor het eenvoudig werd om tienduizenden enorme audiobestanden per dag te transporteren. Diepgaande rapportage, geavanceerde beveiliging, een overvloed aan configuratiekeuzes en configureerbare workflows zijn ook inbegrepen.

engineered-efficient-etl-data-pipeline_thumbnail

Casestudy

Ontwikkelde efficiënte ETL-gegevenspijplijn voor bijna realtime zelfbedieningsrapportage

Implementatie van datapijplijnen

Uw datapijplijn kan op locatie worden gebouwd of worden geïmplementeerd met behulp van cloudservices van leveranciers.

Open-source gegevenspijplijn

U kunt open-sourcealternatieven gebruiken als uw bedrijf commerciële pijplijnoplossingen onbetaalbaar vindt.

Voordelen

  • De prijs van software voor gegevensanalyse
  • Het downloaden, bestuderen en gebruiken van open-source software is volledig gratis. Bedrijfsanalisten en ingenieurs kunnen dus snel en goedkoop experimenteren met een verscheidenheid aan open-sourceoplossingen om te zien wat het beste werkt.
  • Maatwerk onbeperkt
  • Open-sourceprogramma’s kunnen moeilijk te gebruiken zijn, maar u kunt de code bewerken.
  • Open-sourcetools zijn flexibel voor gegevensverwerking.

Nadelen:

  • Geen commerciële steun
  • De gemeenschap van open-grote bronnen is uitstekend, maar af en toe heb je een snelle oplossing van een vertrouwde bron nodig.
  • Afhankelijk van de populariteit en invloed ervan, is sommige open-sourcetechnologie achterhaald, nauwelijks onderhouden of oud. Misschien hebben degenen die de codebase hebben gecontroleerd en de toevoegingen van communitycodes hebben gecontroleerd, het te druk of hebben ze een nieuwe baan gekregen.

Gebruik gevallen:

  • Maak gebruik van open-source datapijplijntechnologieën met behoud van dezelfde use cases voor batch en real-time

On-premises datapijplijn

Om een datapijplijn op locatie te hebben, moet u software en hardware aanschaffen en instellen voor uw persoonlijke datacenter. Bovendien moet u zelf zorgen voor het onderhoud van het datacenter, zorgen voor gegevensback-up en -herstel, de gezondheid van uw gegevenspijplijn evalueren en de opslag- en verwerkingskracht uitbreiden. Hoewel het veel tijd en middelen kost, geeft deze methode u volledige controle over uw gegevens.

Voordelen

  • Vorm alleen nieuwe clusters en wijs middelen toe wanneer dit absoluut noodzakelijk is.
  • De mogelijkheid om taken te beperken tot specifieke tijden van de dag.
  • Beveiliging voor zowel opgeslagen als verzonden informatie. Het toegangscontrole mechanisme in AWS maakt het mogelijk om precies te regelen wie toegang heeft tot welke resources.

Nadelen

  • Voorbereiding die veel tijd kost
  • Uitdagingen met betrekking tot compatibiliteit
  • Kosten gemaakt voor onderhoud

Gebruik gevallen:

  • Informatie over verkoop en marketing delen met klantrelatiebeheersystemen om de klantenservice te verbeteren.
  • Het overbrengen van informatie over het online en mobiele gebruik van consumenten naar platforms voor het maken van aanbevelingen

Laatste afhaalmaaltijden

U hebt nu een goed begrip van de datapijplijn en de componenten waaruit de moderne pijplijnen bestaan. In de huidige markt hebben alle bedrijven te maken met een enorm datavolume. Om een geheel nieuwe datapijplijn te creëren, moet u veel resources inhuren en veel tijd investeren. Het is niet alleen duur, maar ook tijdrovend. Als u uw data wilt benutten en een efficiënte datapijplijn wilt creëren, kunt u gebruikmaken van cloudgebaseerde Zuci-oplossingen. Het verlaagt uw bedrijfskosten, brengt efficiëntie in uw gegevensverwerking en bespaart tijd.

We hopen dat je dit artikel leuk vindt en leert hoe datalabeling een intrinsiek onderdeel is van datawetenschap! Boek een ontdekkingsgesprek voor onze data-engineering dienstenvandaag en blijf de concurrentie voor. Maak het eenvoudig en snel.

Leave A Comment