15 tips en best practices voor gegevensmodellering

Assistant Marketing Manager

I write about fintech, data, and everything around it

Datamodellering is een van de belangrijkste onderdelen van informatiemodellering. Een goed datamodel, nauw geïntegreerd met zijn applicaties of systemen, is eenvoudig te begrijpen, te onderhouden en te wijzigen. In dit bericht bespreken we de top 15datamodellering tips en best practices.

Het thema van dimensionale gegevensmodellering is eenvoudig. Het gaat om het organiseren van gegevens met een aanpak die gemakkelijk te begrijpen is met nauwkeurige analyse en rapportage. Dit thema is nog steeds van toepassing. Het enige dat is veranderd, is dat het datawarehouse van vandaag meerdere toepassingen heeft dan alleen analyse en rapportage.

Datawetenschap, machine learning en data-engineering zijn enkele van de opkomende toepassingen voor big data die zijn opgeslagen in moderne datawarehouses of databanken. Voor deze wijziging hoeven we echter geen geheel nieuwe benadering van datamodellering te ontwikkelen. Sommige aanpassingen in het ontwerp van gegevensmodellering kunnen voldoen aan de uitgebreide gegevensvereisten van het veel uitgebreide publiek van vandaag.

Zonder een goed datamodel zullen de data en bedrijfsprocessen ongeorganiseerd en ongeorganiseerd zijn. In deze blog zal ik proberen best practices aan te pakken bij het werken met relationele databasemodellen.

15 tips en best practices om uw gegevensmodellering te verbeteren

Nauwkeurig datamodellering heeft een grote invloed opzakelijke groei en volwassenheid omdat het organisaties kan helpen bij het vergaren van inzichten die hen een voorsprong kunnen geven op de concurrentie op de markt.

Gegevens modellering transformeert met het nieuwe potentieel om moeiteloos toegang te krijgen tot bedrijfsgegevens en deze te analyseren om de prestaties te verbeteren. Datamodellering moet meer aansluiten bij de eisen en vragen van gebruikers dan het willekeurig organiseren van datastructuren en relaties.

Gegevensmodellering moet verder leiden om ervoor te zorgen dat de specifieke gegevenssets correct worden gebruikt voor nauwkeurige resultaten. De 15 hieronder beschreven tips helpen u bij het verbeteren van uw ontwerp van gegevensmodellering en de waarde ervan voor uw bedrijf.

15 Data Modeling Tips and Best Practices Infographic

1. Begrijp de zakelijke behoeften en de vereiste resultaten

Het doel van gegevensmodellering is om een organisatie te helpen beter te werken. Als een datamodelleringsprofessional, Het nauwkeurig vastleggen van zakelijke vereisten om te weten welke gegevens prioriteit moeten krijgen, verzamelen, opslaan, wijzigen en toegankelijk maken voor gebruikers, is vaak de belangrijkste uitdaging bij het modelleren van gegevens.

We raden je dus volledig aan de behoeften begrijpen door belanghebbenden en gebruikers te vragen naar de resultaten die zij van de gegevens verlangen. Het is beter om te beginnen met het goed organiseren van uw datasets met belanghebbenden en gebruikerswijzers in gedachten.

2. Visualiseer expliciet de te modelleren data en informatie

Het bekijken van ontelbare rijen en kolommen met alfanumerieke records levert waarschijnlijk geen inzichten op. De meeste mensen kijken veel meer ontspannen naar grafische gegevensillustraties die het snel maken om eventuele afwijkingen te zien. Bovendien moeten mensen toegang krijgen tot eenvoudige scherminterfaces met slepen en neerzetten om gegevenstabellen snel te bekijken en te verbinden.

Datavisualisatie helpt u bij het opschonen van datasets om ze stabiel en vrij van fouten te maken. Het helpt u ook bij het identificeren van verschillende gegevensrecordcategorieën die zijn gekoppeld aan de daadwerkelijke entiteiten om ze te wijzigen en vervolgens eenvoudige velden en indelingen te gebruiken, waardoor het eenvoudig wordt om gegevensbronnen te combineren.

3. Begin met primaire datamodellering en schaal daarna op

Datasets kunnen snel complex worden vanwege aspecten als grootte, categorie, structuur, volwassenheid en zoektaal. Door datamodellen op het primaire niveau klein en bescheiden te houden, wordt het eenvoudiger om eventuele problemen of verkeerde afslagen te corrigeren.

Als u er zeker van bent dat uw voorlopige modellen nauwkeurig en expressief zijn, kunt u meer gegevenssets invoeren en discrepanties verwijderen. Het zou helpen als u tools gebruikt die het eenvoudig maken om te starten, maar later uitgebreide datamodellen kunnen ondersteunen, zodat u snel talloze databronnen van verschillende fysieke locaties kunt ‘mash-up’.

4. Splits zakelijke vragen op in dimensies, feiten, filters en volgorde

Als u begrijpt hoe deze vier factoren zakelijke vragen kunnen formuleren, kunt u goed georganiseerde gegevenssets gebruiken in benaderingen die het beantwoorden ervan eenvoudiger maken.

Uw winkelbedrijf heeft bijvoorbeeld winkels op verschillende plaatsen en u wilt de best presterende winkels van de afgelopen 12 maanden vinden.

In dit scenario zijn de feiten de historische verkoopgegevenssets, de dimensies het product en de winkellocatie, het filter is “laatste 12 maanden” en de bestelling is “beste vijf winkels in dalende volgorde van verkopen”.

Door uw datasets goed te organiseren, gebruik te maken van individuele tabellen voor dimensies en feiten, kunt u de analyse mogelijk maken voor het identificeren van de beste verkopers in elk period en beantwoord zelfs andere business intelligence-vragen nauwkeurig.

5. Gebruik alleen de gegevens die u nodig heeft in plaats van alle beschikbare gegevens

Computers en software waarmee wordt gewerkt grote datasets kunnen binnenkort geheugen- en snelheidsproblemen tegenkomen. In veel scenario’s zijn echter slechts beperkte datasets nodig om zakelijke vragen te beantwoorden.

Bij voorkeur zou u in de software alleen maar de selectievakjes moeten kunnen aanvinken om aan te geven welke delen van datasets moeten worden gebruikt, zodat u verspilling van gegevensmodellering kunt mijden en prestatie-uitdagingen kunt vermijden.

6. Maak vooraf berekeningen om verschillen tussen gebruikers te voorkomen

Een belangrijk doel van datamodellering is om bouw een enkele versie van de waarheid, waartegen een diverse gebruikersgroep hun zakelijke vragen kan stellen. Hoewel mensen verschillende antwoorden kunnen kiezen, mag er geen verschil zijn tussen de oorspronkelijke gegevens of de berekening die is gebruikt om tot de oplossingen en antwoorden te komen.

U hebt bijvoorbeeld mogelijk een berekening nodig om dagelijkse verkoopinformatie te verzamelen om maandcijfers te genereren, die u vervolgens kunt matchen om de beste of slechtste maanden te laten zien. In plaats van andere mensen hun rekenmachines te laten gebruiken, kunt u problemen voorkomen door deze berekening van tevoren in te stellen als een integraal onderdeel van uw rapport over gegevensmodellering en toegankelijk maken op de zakelijke dashboards voor verschillende gebruikers.

7. Valideer elke fase van uw gegevensmodellering voordat u verder gaat

Het helpt als u elke actie verifieert voordat u naar de volgende gegevensmodelleringsfasen gaat. Er moet bijvoorbeeld een attribuut met de naam primaire sleutel worden geselecteerd voor een gegevensset, zodat elk record exclusief kan worden gevonden op basis van de waarde van de primaire sleutel in dat specifieke gegevensrecord.

Dezelfde methode kan worden toegepast op een samenvoeging van 2 datasets om te valideren dat de associatie ertussen één-op-één of één-op-veel is en om veel-op-veel-associaties te vermijden die leiden tot te veelzijdige of onbeheersbare gegevens modellen.

8. Zoek naar verbinding, niet alleen correlatie

Gegevensmodellering omvat begeleiding bij de aanpak van de gemodelleerde gegevens. Hoewel het een belangrijke stap is om gebruikers zelf toegang te geven tot business intelligence, is het ook van vitaal belang dat ze voorkomen dat ze verkeerde conclusies trekken.

Bijvoorbeeld als we bekijken dat de verkoop van twee verschillende producten tegelijk lijkt toe te nemen en af te nemen. Stuurt de verkoop van het ene product de verkoop van het andere, of stijgen en dalen ze samen door een ander aspect, zoals de economie of de weersomstandigheden? Raadselachtige verbanden en correlaties hier kunnen de verkeerde kant op gaan en zo middelen verslechteren.

Voor uw verdere lezing

Check onze blog”Wat is een correlatiematrix? Hoe het te gebruiken bij het nemen van zakelijke beslissingen?” om messcherpe inzichten uit uw gegevens te halen om potentiële resultaten te voorspellen en weloverwogen beslissingen te nemen op basis van wat er staat.

9. Gebruik moderne tools en technieken om de complexe taken uit te voeren

Meer veelzijdige datamodellering kan programmering omvatten om datasets te verwerken voordat de analyse begint. Stel dat u dergelijke complexe taken kunt beheren met software of een app. In dat geval bevrijdt u zich van de verplichting om verschillende programmeertalen te verkennen en kunt u tijd investeren in andere functies die van waarde zijn voor uw organisatie.

Een expliciete software kan alle verschillende fasen van gegevensextractie mogelijk maken of automatiseren, transformatie, en informatie laden. U kunt gegevens visueel ophalen zonder enige programmering. Ook kunnen diverse gegevensbronnen worden samengevoegd met behulp van een slepen-en-neerzetten-interface, en u kunt zelfs gegevensmodellering automatisch uitvoeren met betrekking tot de specifieke querycategorie.

10. Laat uw datamodellen vooruit en vooruit gaan

Gegevensmodellen zijn nooit in steen gebeiteld, aangezien gegevensbronnen en gebruikersvereisten herhaaldelijk veranderen. Daarom zou het helpen als u hun updates in de loop van de tijd beter plant.

Sla uw datamodellen dus op in een bron waardoor ze eenvoudig toegankelijk zijn voor wijzigingen, en maak gebruik van een datadictionary met de nieuwste inzichten voor het doel en formaat van elke categorie gegevens.o worden verwerkt.

11. Verbeter gegevensmodellering voor superieure bedrijfswinsten

Zakelijke prestaties met effectiviteit, opbrengst, competentie, klantplezier en meer kunnen profiteren van gegevensmodellering die gebruikers helpt snel antwoorden te krijgen op hun zakelijke vragen.

Essentiële aspecten zijn onder meer het aansluiten op organisatorische vereisten, zakelijke doeleinden en het gebruik van tools om de fasen in het verkennen van datasets voor antwoorden op alle vragen te versnellen. Het omvat ook het maken van gegevensprioriteiten voor diverse zakelijke functionaliteiten. Zodra u aan deze scenario’s voldoet, kan uw bedrijf beter verwachten dat uw gegevensmodellering u essentiële waarde en productiviteitswinst oplevert.

12. Controleer en test de uitvoering van uw gegevensanalyse

Test uw analyse-uitvoering zoals u elke andere functionaliteit test die u bouwt en implementeert. Een test moet controleren of het volledige datasetvolume en de gegevens nauwkeurig zijn. Overweeg ook of uw informatie goed gestructureerd is en u in staat stelt een belangrijke statistiek te verkrijgen.

Bovendien kunt u enkele vragen genereren om beter te begrijpen hoe het werkbaar en toepasbaar zou zijn. We raden ook aan om een divers project te bouwen om uw uitvoering en implementatie te testen.

13. Controleer op gegevenstype of niet-overeenkomende categorie

Zorg ervoor dat uw datasets de juiste indeling hebben. Als u een expliciete eigenschap heeft zoals “aantal producten” en u voert de waarde in als “4”, kunt u de waarden niet toevoegen om een “totaal aantal producten” te reguleren, aangezien het een tekenreeks is.

We raden aan om de evenementeigenschappen die je hebt verzameld te bekijken en te controleren. Voer een grondige kwaliteitscontrole uit om er zeker van te zijn dat het object het gegevenstype of de categorie heeft die u verwacht.

14. Ontwijk het bedriegen van uw datasets

We raden u aan om het gebruik van lijsten met objecten te omzeilen. De meeste filters gedragen zich verschillend bij het werken met lijsten. De filters “in” en “eq” zijn significant. Aanvullende filters en analyses maken geen objectwaarden mogelijk in een gedetailleerde lijst, dus vermijd trucjes met uw datasets.

15. Vermijd het gebruik van lijsten met objecten

Verken een query over het modelleren van een activiteit, zoals een winkelwagentransactie die uit meerdere items bestaat. Een mogelijke oplossing is om één orderverzameling te genereren voor elke mogelijke transactie met één gebeurtenis. Dit is echter geen definitieve oplossing.

U kunt niet zien wat de meest gekochte producten zijn, omdat ze vastzitten in het winkelwagentje-lijstobject.

Gebruik geen lijsten met objecten om dit probleem te omzeilen. We stellen voor dat de beste benadering voor het modelleren van winkelwagentransacties is om twee afzonderlijke verzamelingen te genereren en vervolgens de datasets te analyseren.

Overwegingen en praktijken bij het ontwerpen van gegevensmodellen

Voor het ontwerp van datamodellering zijn er vier overwegingen en werkwijzen die we aanbevelen om u te helpen de efficiëntie van uw datawarehouse te maximaliseren:

Best practices voor gegevensmodellering #1: Grain

Vermeld de granulariteit waarmee de gegevens naar verwachting zullen worden opgeslagen. In de meeste scenario’s zou de meest voorgestelde korrel de laagste korrel zijn om te beginnen met gegevensmodellering. Vervolgens kunt u gegevens wijzigen en combineren om tot samengevatte inzichten te komen.

Best practices voor gegevensmodellering #2: naamgeving

Het benoemen van dingen blijft een probleem bij datamodellering. De beste praktijk is om een naamgevingsschema te selecteren en hetzelfde vast te houden.

Maak gebruik van schema’s voor naamruimterelaties zoals gegevensbronnen of een bedrijfseenheid. U kunt bijvoorbeeld het marketingschema gebruiken om alle tabellen te bevatten die het meest van toepassing zijn op het marketingteam en het analyseschema om superieure concepten zoals waarde op langere termijn te huisvesten.

Best practices voor gegevensmodellering #3: materialisatie

Het is een van de belangrijkste tools voor het ontwikkelen van een superieur datamodel. Door deze praktijk kunt u, als u de relatie als een tabel genereert, alle benodigde berekeningen vooraf berekenen, en uw gebruikersbestand zal snellere responstijden voor query’s zien.

Als u uw relatie als een weergave laat, krijgt uw gebruikersbestand de nieuwste datasets wanneer ze een zoekopdracht toepassen. De reactietijden zullen echter traag zijn. Afhankelijk van de datawarehousingtechniek en -tools die u gebruikt, kunt u verschillende afwegingen maken op basis van materialisatie.

Best practices voor gegevensmodellering #4: Toestemming en beheer

Datamodelleurs moeten zich bewust zijn van de machtigingen en gegevensbeheerbehoeften van het bedrijf, die aanzienlijk kunnen verschillen. Het helpt als u nauw samenwerkt met uw beveiligingsteam om ervoor te zorgen dat uw datawarehouse voldoet aan het toepasselijke beleid.

Bedrijven die medische datasets gebruiken, zijn bijvoorbeeld onderworpen aan HIPAA-regelgeving met betrekking tot gegevenstoestemmingen en privacy. Alle klantgerichte online bedrijven zouden hiervan op de hoogte moeten zijn Algemene verordening gegevensbescherming (EU AVG),en SaaS-bedrijven worden vaak beperkt in de manier waarop ze de gegevens van hun klanten kunnen benutten op basis van het overeengekomen contract.

Belangrijkste leerpunten

Datamodellering speelt een cruciale rol bij het ontwerpen van datacenteroplossingen. Het datamodel is de blauwdruk voor de persistente laag in de applicatie. Het is de basis voor het ontwikkelen van Data Access Layer (DAL), business layer en service tier componenten. Bij het ontwikkelen van data-centered bedrijfsapplicaties moet men een robuust datamodel creëren om het verbeteren, migreren naar toekomstige releases en vooral het verbeteren van de prestaties te vergemakkelijken.

Overweeg de eisen van de gebruiker, plan en doe inspanningen om het datamodel te creëren dat het beste bij die planning past. Zodra alle criteria overeenkomen, kunnen u en uw kleine of grote onderneming verwachten dat uw datamodellering substantiële bedrijfswaarde oplevert.

Als je vragen hebt of een ontdekkingsgesprek nodig hebt om te helpen met datawetenschaps- en analyseprojecten, helpen we je graag verder. Stuur ons een e-mail op sales@zucisystems.com of neem nu contact met ons op.

Lees volgende: