Etter hvert som bedrifter genererer mer og mer data, blir den tradisjonelle tilnærmingen til datavarehus stadig vanskeligere og mer kostbar å vedlikeholde. Data Vault, en relativt ny tilnærming til datavarehus, tilbyr en løsning på dette problemet ved å tilby en skalerbar, smidig og kostnadseffektiv måte å administrere store datamengder på.
I dette innlegget vil vi utforske hvordan Data Vaults er fremtiden for datavarehus og hvorfor flere og flere selskaper tar i bruk denne tilnærmingen. Vi vil også gi læringsressurser for de som ønsker å dykke dypere inn i temaet!
Innholdsfortegnelse
Hva er Data Vault?
Data Vault er en datavarehusmodelleringsteknikk spesielt egnet for smidige datavarehus. Det tilbyr en høy grad av fleksibilitet for utvidelser, en fullstendig tidsenhetshistorisering av dataene, og tillater en sterk parallellisering av datainnlastingsprosessene. Dan Linstedt utviklet Data Vault-modellering på 1990-tallet.
Etter den første utgivelsen i 2000 fikk hun større oppmerksomhet i 2002 gjennom en serie artikler. I 2007 vant Linstedt godkjenningen av Bill Inmon, som beskrev det som det «optimale valget» for sin Data Vault 2.0-arkitektur.
Alle som driver med begrepet smidig datavarehus vil fort ende opp med Data Vault. Det som er spesielt med teknologien er at den er fokusert på behovene til bedrifter fordi den muliggjør fleksible, lite anstrengende tilpasninger av et datavarehus.
Data Vault 2.0 vurderer hele utviklingsprosessen og arkitekturen og består av komponentene metode (implementering), arkitektur og modell. Fordelen er at denne tilnærmingen vurderer alle aspekter av forretningsintelligens med det underliggende datavarehuset under utvikling.
Data Vault-modellen tilbyr en moderne løsning for å overvinne begrensningene til tradisjonelle datamodelleringsmetoder. Med sin skalerbarhet, fleksibilitet og smidighet gir den et solid grunnlag for å bygge en dataplattform som kan imøtekomme kompleksiteten og mangfoldet til moderne datamiljøer.
Data Vaults hub-and-spoke-arkitektur og separasjon av enheter og attributter muliggjør dataintegrasjon og harmonisering på tvers av flere systemer og domener, noe som muliggjør inkrementell og smidig utvikling.
En avgjørende rolle for Data Vault i å bygge en dataplattform er å etablere en enkelt kilde til sannhet for alle data. Dens enhetlige visning av data og støtte for å fange og spore historiske dataendringer gjennom satellitttabeller muliggjør overholdelse, revisjon, regulatoriske krav og omfattende analyse og rapportering.
Data Vaults evner til nesten sanntid dataintegrering via delta-lasting letter håndtering av store datavolumer i raskt skiftende miljøer som Big Data og IoT-applikasjoner.
Data Vault vs. tradisjonelle datavarehusmodeller
Third-Normal-Form (3NF) er en av de mest kjente tradisjonelle datavarehusmodellene, ofte foretrukket i mange store implementeringer. Dette tilsvarer forresten ideene til Bill Inmon, en av «forfedre» til datavarehuskonseptet.
Inmon-arkitekturen er basert på relasjonsdatabasemodellen og eliminerer dataredundans ved å bryte ned datakilder i mindre tabeller som er lagret i datamarts og kobles sammen med primær- og fremmednøkler. Det sikrer at data er konsistente og nøyaktige ved å håndheve regler for referanseintegritet.
Målet med normalskjemaet var å bygge en omfattende, bedriftsomfattende datamodell for kjernedatavarehuset; den har imidlertid problemer med skalerbarhet og fleksibilitet på grunn av svært koblede datamars, lastingsvansker i nesten sanntidsmodus, møysommelige forespørsler og top-down design og implementering.
Kimbal-modellen, brukt for OLAP (online analytical processing) og datamarts, er en annen kjent datavarehusmodell der faktatabeller inneholder aggregerte data og dimensjonstabeller beskriver lagrede data i et stjerneskjema eller snøfnuggskjemadesign. I denne arkitekturen er data organisert i fakta- og dimensjonstabeller som er denormalisert for å forenkle spørring og analyse.
Kimbal er basert på en dimensjonsmodell som er optimalisert for spørring og rapportering, noe som gjør den ideell for business intelligence-applikasjoner. Den har imidlertid hatt problemer med isolering av emneorientert informasjon, dataredundans, inkompatible spørringsstrukturer, skalerbarhetsvansker, den inkonsekvente granulariteten til faktatabeller, synkroniseringsproblemer og behovet for top-down design med bottom-up implementering.
Derimot er datahvelvarkitektur en hybrid tilnærming som kombinerer aspekter av både 3NF- og Kimball-arkitekturer. Det er en modell basert på relasjonsprinsipper, datanormalisering og redundansmatematikk som representerer relasjoner mellom enheter annerledes og strukturerer tabellfelt og tidsstempler annerledes.
I denne arkitekturen lagres alle data i et rådatahvelv eller datainnsjø, mens de ofte brukte dataene lagres i et normalisert format i et forretningshvelv som inneholder historiske og kontekstspesifikke data som kan brukes til rapportering.
Data Vault løser problemene i tradisjonelle modeller ved å være mer effektive, skalerbare og fleksible. Det gir mulighet for nesten sanntidslasting, bedre dataintegritet og enkel utvidelse uten å påvirke eksisterende strukturer. Modellen kan også utvides uten å migrere de eksisterende tabellene.
ModelleringstilnærmingDatastrukturDesigntilnærming3NF-modelleringstabeller i 3NFBottom-upKimbal ModelingStar Schema eller Snowflake SchemaTop-down Data VaultHub-and-Spoke Bottom-up
Arkitektur av Data Vault
Data Vault har en hub-and-spoke-arkitektur og består i hovedsak av tre lag:
Staging Layer: Samler inn rådata fra kildesystemene, for eksempel CRM eller ERP
Datavarehuslag: Når det er modellert som en datahvelv-modell, inkluderer dette laget:
- Rådatahvelv: lagrer rådataene.
- Business Data Vault: inkluderer harmoniserte og transformerte data basert på forretningsregler (valgfritt).
- Metrics Vault: lagrer kjøretidsinformasjon (valgfritt).
- Operational Vault: lagrer dataene som strømmer direkte fra driftssystemer inn i datavarehuset (valgfritt.)
Data Mart Layer: Dette laget modellerer data som stjerneskjema og/eller andre modelleringsteknikker. Den gir informasjon for analyse og rapportering.
Bildekilde: Lamia Yessad
Data Vault krever ikke en ny arkitektur. Nye funksjoner kan bygges parallelt direkte ved å bruke konseptene og metodene til Data Vault, og eksisterende komponenter går ikke tapt. Rammer kan gjøre arbeidet betydelig enklere: de skaper et lag mellom datavarehuset og utvikleren og reduserer dermed kompleksiteten i implementeringen.
Komponenter av Data Vault
Under modellering deler Data Vault all informasjon som tilhører objektet i tre kategorier – i motsetning til klassisk tredje normalformsmodellering. Denne informasjonen lagres deretter strengt atskilt fra hverandre. Funksjonsområdene kan kartlegges i Data Vault i såkalte huber, lenker og satellitter:
#1. Huber
Huber er hjertet av kjerneforretningskonseptet, som kunde, selger, salg eller produkt. Hubtabellen dannes rundt forretningsnøkkelen (butikknavn eller plassering) når en ny forekomst av denne forretningsnøkkelen først introduseres i datavarehuset.
Huben inneholder ingen beskrivende informasjon og ingen FK-er. Den består kun av forretningsnøkkelen, med en lagergenerert sekvens av ID- eller hashnøkler, lastedato/tidsstempel og postkilde.
#2. Lenker
Lenker etablerer relasjoner mellom forretningsnøklene. Hver oppføring i en lenke modellerer nm-relasjoner til et hvilket som helst antall huber. Det lar datahvelvet reagere fleksibelt på endringer i forretningslogikken til kildesystemene, for eksempel endringer i relasjoners hjertelighet. Akkurat som navet, inneholder ikke lenken noen beskrivende informasjon. Den består av sekvens-ID-ene til hubene den refererer til, en lagergenerert sekvens-ID, lastedato/tidsstempel og postkilde.
#3. Satellitter
Satellitter inneholder beskrivende informasjon (kontekst) for en forretningsnøkkel som er lagret i en hub eller et forhold som er lagret i en lenke. Satellitter fungerer «bare inn», noe som betyr at hele datahistorikken er lagret i satellitten. Flere satellitter kan beskrive en enkelt forretningsnøkkel (eller relasjon). En satellitt kan imidlertid bare beskrive én nøkkel (hub eller link).
Bildekilde: Carbidfischer
Hvordan bygge en datahvelvmodell
Å bygge en Data Vault-modell involverer flere trinn, som hver er avgjørende for å sikre at modellen er skalerbar, fleksibel og i stand til å møte behovene til virksomheten:
#1. Identifiser enheter og attributter
Identifiser forretningsenhetene og deres tilsvarende attributter. Det innebærer å jobbe tett med virksomhetens interessenter for å forstå kravene deres og dataene de trenger for å fange opp. Når disse enhetene og attributtene er identifisert, skiller du dem i huber, lenker og satellitter.
#2. Definer enhetsrelasjoner og opprett koblinger
Når du har identifisert enhetene og attributtene, blir relasjonene mellom enhetene definert, og koblingene opprettes for å representere disse relasjonene. Hver lenke er tildelt en forretningsnøkkel som identifiserer forholdet mellom enhetene. Satellittene blir deretter lagt til for å fange opp enhetenes attributter og relasjoner.
#3. Etablere regler og standarder
Etter å ha opprettet koblinger, bør et sett med regler og datahvelvmodelleringsstandarder etableres for å sikre at modellen er fleksibel og kan håndtere endringer over tid. Disse reglene og standardene bør gjennomgås og oppdateres regelmessig for å sikre at de forblir relevante og tilpasset virksomhetens behov.
#4. Fyll ut modellen
Når modellen er opprettet, bør den fylles ut med data ved hjelp av en inkrementell lastingsmetode. Det innebærer å laste dataene inn i huber, lenker og satellitter ved hjelp av delta-belastninger. Deltaet lastes for å sikre at bare endringene som er gjort i dataene lastes, noe som reduserer tiden og ressursene som kreves for dataintegrasjon.
#5. Test og valider modellen
Til slutt bør modellen testes og valideres for å sikre at den oppfyller forretningskravene og er skalerbar og fleksibel nok til å håndtere fremtidige endringer. Regelmessig vedlikehold og oppdateringer bør utføres for å sikre at modellen forblir på linje med forretningsbehovene og fortsetter å gi en enhetlig oversikt over dataene.
Data Vault læringsressurser
Mastering Data Vault kan gi verdifulle ferdigheter og kunnskaper som er svært ettertraktet i dagens datadrevne bransjer. Her er en omfattende liste over ressurser, inkludert kurs og bøker, som kan hjelpe deg med å lære detaljene ved Data Vault:
#1. Modellering av datavarehus med Data Vault 2.0
Dette Udemy-kurset er en omfattende introduksjon til Data Vault 2.0-modelleringsmetoden, smidig prosjektledelse og Big Data-integrasjon. Kurset dekker det grunnleggende og grunnleggende om Data Vault 2.0, inkludert arkitektur og lag, forretnings- og informasjonshvelv og avanserte modelleringsteknikker.
Den lærer deg hvordan du designer en Data Vault-modell fra bunnen av, konverterer tradisjonelle modeller som 3NF og dimensjonsmodeller til Data Vault, og forstår prinsippene for dimensjonsmodellering i Data Vault. Kurset krever grunnleggende kunnskap om databaser og grunnleggende SQL.
Med en høy vurdering på 4,4 av 5 og over 1700 anmeldelser, passer dette bestselgende kurset for alle som ønsker å bygge et sterkt grunnlag i Data Vault 2.0 og Big Data-integrasjon.
#2. Datahvelvmodellering forklart med brukstilfelle
Dette Udemy-kurset er rettet mot å veilede deg i å bygge en Data Vault-modell ved å bruke et praktisk forretningseksempel. Den fungerer som en nybegynnerveiledning til datahvelvmodellering, og dekker nøkkelbegreper som passende scenarier for bruk av datahvelvmodeller, begrensningene til konvensjonell OLAP-modellering og en systematisk tilnærming til å konstruere en datahvelvmodell. Kurset er tilgjengelig for personer med minimal databasekunnskap.
#3. Data Vault Guru: en pragmatisk guide
Datahvelv-guruen av Mr. Patrick Cuba er en omfattende guide til datahvelv-metodikken, som gir en unik mulighet til å modellere bedriftens datavarehus ved å bruke automatiseringsprinsipper som ligner de som brukes i programvarelevering.
Boken gir en oversikt over moderne arkitektur og gir deretter en grundig veiledning for hvordan man kan levere en fleksibel datamodell som tilpasser seg endringer i virksomheten, datahvelvet.
I tillegg utvider boken datahvelvmetodikken ved å tilby automatisert tidslinjekorreksjon, revisjonsspor, metadatakontroll og integrasjon med smidige leveringsverktøy.
#4. Bygge et skalerbart datavarehus med Data Vault 2.0
Denne boken gir leserne en omfattende veiledning for å lage et skalerbart datavarehus fra start til slutt ved å bruke Data Vault 2.0-metoden.
Denne boken dekker alle de essensielle aspektene ved å bygge et skalerbart datavarehus, inkludert Data Vault-modelleringsteknikken, som er utformet for å forhindre typiske datavarehusfeil.
Boken inneholder en rekke eksempler for å hjelpe leserne å forstå konseptene tydelig. Med sin praktiske innsikt og eksempler fra den virkelige verden er denne boken en viktig ressurs for alle som er interessert i datavarehus.
#5. The Elephant in the Fridge: Guided Steps to Data Vault Success
The Elephant in the Fridge av John Giles er en praktisk guidebok som tar sikte på å hjelpe lesere med å oppnå Data Vault-suksess ved å starte med virksomheten og avslutte med virksomheten.
Boken fokuserer på viktigheten av bedriftsontologi og forretningskonseptmodellering og gir steg-for-steg veiledning om hvordan disse konseptene kan brukes for å lage en solid datamodell.
Gjennom praktiske råd og eksempelmønstre gir forfatteren en klar og ukomplisert forklaring på kompliserte emner, noe som gjør boken til en utmerket guide for de som er nye i Data Vault.
Siste ord
Data Vault representerer fremtiden for datavarehus, og tilbyr bedrifter betydelige fordeler når det gjelder smidighet, skalerbarhet og effektivitet. Den er spesielt godt egnet for bedrifter som trenger å laste inn store datamengder raskt, og de som ønsker å utvikle sine business intelligence-applikasjoner på en smidig måte.
Videre kan bedrifter som har en eksisterende siloarkitektur ha stor nytte av å implementere et oppstrøms kjernedatavarehus ved hjelp av Data Vault.
Du kan også være interessert i å lære om datalinjen.