En datamaske[1][2] (engelsk: data mesh) er et domeneorientert dataarkitektur-paradigme for administering av stordata som et alternativ til datasjøer (data lakes) og tradisjonelle datavarehus, og er ment å kombinere noen av fordelene fra datareservoar og datavarehus. En datamaske kan bestå av et eller flere datavarehus og/eller datasjøer, samt felles verktøy og standarder for disse. En viktig komponent i datamasken er et tilkoblingslag for å kontrollere, administrere og støtte datatilgang på tvers av organisasjonen.
Datamasken er en type dataplattformarkitektur som omfavner allestedsnærværende data i bedriften ved å utnytte et domeneorientert og selvbetjent design. Hovedtanken med en datamaske er at man istedenfor å bygge en stor sentralisert dataplattform lar bedriftsdataarkitekter lage distribuerte datanettverk. Dette gjøres ved at datamasken fødererer dataeierskap blant dataeierne, som i sin tur holdes er ansvarlige for å levere dataene som et produkt. Hvert av domenene har da sine egne ETL-kommandokøer (ETL-pipelines), men deler på lagring, katalogisering og tilgangskontroll til rådataene. Datamasker kan hjelpe med å unngå informasjonssiloer.
Design basert på datamasker har blant annet ha blitt tatt i bruk av nettbutikken Zalando.[3]
Historie
Begrepet data mesh ble først definert av Zhamak Dehghani i 2019,[4] mens hun jobbet som prinsipalkonsulent hos teknologiselskapet ThoughtWorks. Hun har fått støtte for idéene sine fra Agile Lab og Deloitte.[5]
Navnet datamaske kommer fra maskenettverk, som i likhet med datamaske-arkitekturen er basert på en desentralisert nettverksarkitektur. Det domeneorienterte og selvbetjente designet låner dermed den amerikanske teknologen Eric Evans sin teori om domenedrevet design som han lanserte i 2003.[6]
Prinsipper
Datamasker er definert etter prinsipper som:
- Domeneorientert, desentralisert dataeierskap og arkitektur
- Hvert domene håndterer sine egne kommandokøer eller kanaler (data pipelines).
- Data som produkt
- (DaaP, data as a product)[7] Hvert domene må definere en tjenestenivåavtale og kvalitetsmål som de kan garantere for sine forbrukere.
- Selvbetjent datainfrastruktur som en platform
- Muliggjør blant annet selvbetjent virksomhetsetterretning (self-service business intelligence). Abstraherer kompliserte tekniske detaljer ved å ha en sentral plattform med domeneagnostisk datainfrastruktur som håndterer motorene for data pipeline-ene, lagring og strømmeinfrastruktur. Imidlertid er hvert av domenene ansvarlige for å gjøre seg nytte av disse komponentene for å lage spesialtilpassede ETL-pipelines.
- Føderert forvaltning av dataressurser
- I motsetning til en monolittiske datainfrastruktu støttes distribuerte, domenespesifikke datakonsumenter. Grunnlaget for dette gjøres ved å definere datastandarder som legger til rette for samarbeid på tvers av domenene. Dette kan være standarder for formatering, governance, oppdagbarhet, metadata-felter, med mer. Det legges til rette for å benytte dataene på tvers av domener, både når det gjelder rådata og vaskede data.
Skalerbarhet
Zhamak har argumentert for at dataarkitekturen kan skaleres ved å brytes ned i mindre, domeneorienterte komponenter.[8]
Sammenlignet med data fabric
Begrepene data mesh (datamaske) og data fabric brukes av og til om hverandre, men data fabric er en mer arkitektonisk tilnærming til datatilgang, mens en datamaske forsøker å koble dataprosesser med brukere.[9][10]
Se også
- Dataforvaltning
- Datahvelvmodellering, metode for datamodellering med lagring av data fra ulike driftssystemer og sporing av dataopprinnelse, tilrettelagt for revisjon, lastehastigheter og resiliens
- Datavarehus, veletablert type databasesystem for å organisere data på en tematisk rettet måte
- Mikrotjenester (Microservices), variant av tjenesteorientert arkitektur hvor en tjeneste sys sammen av løst koblede tjenester
- ETL og ELT
Referanser