De principes van data mesh toepassen op een IoT-data-architectuur

Geschreven door Tom De Wolf | 6-apr-2022 23:00:00

De evolutie naar data mesh

Laten we beginnen met uit te leggen wat 'data mesh' is en welke principes het nastreeft. We beginnen met te kijken hoe de operationele ruimte de afgelopen tien jaar is geëvolueerd.

Van monolithische architecturen naar microservices

In het verleden werden softwareapplicaties vaak gebouwd als grote monolithische systemen met hun typische problemen. Een monolithische architectuur evolueert meestal naar een 'grote modderbal' die het moeilijk maakt om dingen te onderhouden, te veranderen en de nodige bedrijfsflexibiliteit te bieden die een bedrijf nodig heeft. Tegelijkertijd biedt een dergelijke architectuur bij het schalen naar meerdere teams binnen een bedrijf niet genoeg flexibiliteit en maakt het onduidelijk welk deel van de software eigendom is van welk team. Als oplossing onderging de operationele ruimte een evolutie naar een microservices-architectuur. Met behulp van technieken uit domain driven design wordt een decompositie ontworpen op basis van bedrijfsdomeinen en in softwareservices. De uitdaging is om de juiste granulariteit te vinden om de gewenste bedrijfsflexibiliteit in een samenstelbare architectuur mogelijk te maken. Deze decompositie maakt het ook mogelijk om op te schalen naar meerdere teams. Elk team is verantwoordelijk voor een bedrijfsdomein, wat betekent dat elke microservice duidelijk eigendom is van één team.

Wat we vandaag zien is een gelijkaardige trend in de analytische en dataruimte. Als we de analytische en dataruimte naast de operationele ruimte zetten, zien we opnieuw een monolithische structuur in de vorm van data lakes en data warehouses die eigendom zijn van een apart team van data engineers. Dus zelfs als er een duidelijke decompositie is in de operationele ruimte, is er nog steeds een monoliet in de analytische ruimte, wat resulteert in vergelijkbare problemen. Datapijplijnen hebben de neiging om na verloop van tijd uit te groeien tot een onbeheersbare puinhoop van aaneengeschakelde pijplijnen met lange uitvoeringstijden, hoge opslagvereisten, alles-of-niets-upgrades met wereldwijde downtime, enz. De verantwoordelijkheid om gegevens te structureren en bruikbaar te maken wordt toegewezen aan een centraal team van data engineers die een bottleneck worden wanneer de hoeveelheid datasets toeneemt en de frequentie van wijzigingen toeneemt. Dit wordt weer problematisch voor de bedrijfsflexibiliteit die een bedrijf nodig heeft.

Dataproducten voor meer structuur en eigenaarschap

Voor de analytics & data ruimte moeten we dus ook een geschikte decompositie vinden die aansluit bij de bedrijfsdomeinen waarvoor business agility gewenst is. Deze decompositie wordt een'dataproduct' genoemd, dat data verbruikt van operationele services en andere dataproducten en data produceert met een duidelijke API of datacontract. Deze dataproducten zijn eigendom van de respectieve bedrijfsdomeinen, samen met microservices voor dat domein. Een cross-functioneel team van software engineers en data engineers is verantwoordelijk voor het bouwen, onderhouden en evolueren van een domein. Op die manier ontstaat er een netwerk van onderling verbonden dataproducten die een 'datamaas' worden genoemd. Merk op dat er nog steeds verbindingen zijn tussen services en tussen dataproducten die kunnen resulteren in geavanceerde netwerken, maar het grootste verschil is dat deze verbindingen duidelijke API's of contracten volgen die gedefinieerd zijn door componenten die het IT-landschap en het eigendom ervan duidelijk structureren.

Het concept van data mesh werd geïntroduceerd door Zhamak Dehgani. Je kunt haar recent gepubliceerde boek raadplegen voor alle details. Er zijn vier principes die een data mesh-traject moet bereiken. Deze principes vullen elkaar aan en elk gaat in op nieuwe uitdagingen die kunnen voortkomen uit andere:

Domeingericht eigendom: decentraliseer het eigendom van analytische gegevens naar bedrijfsdomeinen die het dichtst bij de gegevens staan - ofwel de bron van de gegevens of de belangrijkste gebruikers ervan.
Data als product: voorkom isolatie in domeinsilo's door het delen van data als product te stimuleren. Pas technieken uit het productdenken en producteigendom toe om een nieuwe autonoom evolueerbare en inzetbare architecturale eenheid te ontwerpen met een API voor gegevenscontracten die is geoptimaliseerd voor bruikbaarheid door gegevensgebruikers, gegevensanalisten en gegevenswetenschappers.
Self-serve dataplatform: verlaag de totale eigendomskosten en verwijder fricties uit het traject van datadeling, -toegang en -consumptie met een self-serviceplatform dat de volledige levenscyclus van individuele dataproducten beheert (bouwen, implementeren en onderhouden), en mogelijkheden op mesh-niveau biedt om beschikbare dataproducten te ontdekken en de observeerbaarheid te vergroten door middel van kennisgrafieken, datalineage en datakwaliteit/gebruiksmetriek op de hele mesh.
Federated computational governance: in plaats van centrale governance, verhoog domeinbetrokkenheid door gefedereerde besluitvorming en verantwoording mogelijk te maken, met een team bestaande uit domeinvertegenwoordigers, dataplatform en materiedeskundigen (bv. juridisch, compliance, beveiliging, enz.). Dit model brengt de autonomie en wendbaarheid van domeinen in evenwicht met de globale interoperabiliteit van de mesh. Deze interoperabiliteit maakt het mogelijk om waarde van een hogere orde te verkrijgen door het eenvoudig te maken om gegevensproducten met elkaar te verbinden. Het 'computationele' aspect verwijst naar het automatiseren van het beheerbeleid voor elk gegevensproduct en het afdwingen ervan door middel van betrouwbare self-service platformmogelijkheden.

Dataproduct als nieuw architecturaal kwantum

Volgens het boek'Building Evolutionary Architectures' is een architectuurquantum een onafhankelijk inzetbaar onderdeel met een hoge functionele samenhang, dat alle structurele elementen bevat die nodig zijn om goed te functioneren. Als zodanig is het 'gegevensproduct' in ons gegevensnetwerk een nieuw architecturaal kwantum. Het kan als volgt gevisualiseerd worden:

Een gegevensproduct kapselt deze structurele elementen in die nodig zijn om de gegevens als een product aan te bieden:

1 of meer invoerpoorten die gegevens ontvangen van bronsystemen of andere gegevensproducten
1 of meer uitvoerpoorten die de gegevens aanbieden in (meerdere) formaat(en) en via (meerdere) protocol(len) volgens een API van het gegevenscontract. Merk op dat 'API' niet beperkt is tot een typische REST API, maar verwijst naar een overeengekomen technologie, formaat en protocol om gegevens uit te wisselen. Dit kan een REST API zijn, maar ook een SQL databaseverbinding, een S3 opslag, enz. Het mag echter nooit het interne model van een operationeel systeem zijn, maar een expliciet ontworpen extern model/tabel/schema dat dient als API.
de gegevensopslag die intern nodig is of om de gegevens te serveren in een uitvoerpoort
de feitelijke code die de transformatielogica van invoerpoorten naar uitvoerpoorten toepast
verstrekte beleidsregels voor governance die worden afgedwongen binnen het gegevensproduct
metagegevens die het gegevensproduct vindbaar en zelfdocumenterend maken(ontdekkingspoort)
monitoring (d.w.z. metrieken) en beheer van het gegevensproduct(controlepoort)

Aan de hand van dit gegevensproduct en de verschillende aspecten ervan kan een geschikte decompositie van een dataplatform worden beredeneerd en ontworpen.

IoT-gegevens als een eenvoudige use case

Laten we een voorbeeld use case nemen om te illustreren hoe een netwerk van gegevensproducten al kan helpen als een nuttig ontwerpparadigma. De use case betreft het gebruik van Internet of Things (IoT)-gegevens samen met andere bedrijfsgegevens om waardevolle inzichten te bieden in welzijn en gezondheid van werknemers op de werkplek en kinderen op scholen. Voor een volledige beschrijving van de use case verwijzen we naar onze eerdere blogpost getiteld'Using IoT and digital canaries to improve health'.

In het kort gaat het om 3 operationele systemen:

een IoT-platform dat telemetriegegevens uitleest van de IoT-apparaten met behulp van Google Cloud IoT Core en Google Cloud Pub/Sub
een Google-sheet waarin metadata over de IoT-apparaten wordt vastgelegd (locatie, gebouw, verdieping, co2-niveau buiten, ...)
een Google-blad waarin een logboek wordt bijgehouden van de acties die worden ondernomen om de gezondheid van de werkomgeving te verbeteren en zo de waarden te verbeteren die door de IoT-apparaten worden gemeten.

Al deze systemen behoren tot het IoT-domein en zijn eigendom van één team: het IoT-team.

Voor analyse en rapportage wordt Google Data Studio gebruikt, dat eigendom is van het data-analyseteam. Hieronder ziet u een voorbeeld van een dashboard. In wat volgt laten we zien hoe een netwerk van dataproducten is ontstaan uit het ontwerpen van het dataplatform. De resulterende data mesh krijgt de gegevens uit de operationele systemen in het gewenste dashboard.

Evolutie van het IoT-datamaas

Bij IoT zijn de kerngegevens natuurlijk de telemetriegegevens die afkomstig zijn van de IoT-apparaten zelf. Het team dat eigenaar is van dit IoT-systeem is nu ook verantwoordelijk voor het delen van deze tijdreeksgegevens als gegevensproduct op het data mesh-platform. Ons eerste gegevensproduct genaamd 'IoT Telemetry' wordt geïntroduceerd, dat de IoT-gebeurtenissen met meerdere metriekgegevens uit Google Pub/Sub neemt en ze met behulp van Google Dataflow omzet in een SQL-zoekbare tabel in Google BigQuery met één rij voor elke metriek. De deviceId is hier een belangrijke identifier. Bij het gebruik van een meer centrale technologiedienst zoals BigQuery voor een decentraal eigenaarschap van een datanetwerk, is het belangrijk om de grenzen binnen BigQuery duidelijk af te bakenen. In dit geval wordt elk dataproduct een andere dataset binnen BigQuery, waardoor de teams specifieke toegangsrechten krijgen om alleen hun dataproduct te wijzigen en te vullen. In data mesh wordt dit soort dataproducten een source-aligned dataproduct genoemd, omdat ze nauw verbonden zijn met het operationele bronsysteem en hun gegevens blootstellen aan de mesh. Om deze gegevens in een grafiek weer te geven, kan het team dat verantwoordelijk is voor het dashboard in Google Data Studio rechtstreeks uit de uitvoerpoort van dit gegevensproduct lezen.