De achtste sessie die Gijs bijwoonde tijdens LEAP ging over de functionaliteiten en ontwikkelingen in rondom de governance oftewel het beheer van data in Azure Data Catalog en de bredere Azure stack. De sessie werd geleid door Prasad Mujumdar Principal Program Manager, Azure Data Governance.

Waarom Ambient Data Governance?

Prasad is sinds drie maanden in dienst bij Microsoft. Hij zat bij BlueTalon, een start-up die onlangs is overgenomen. Dat bedrijf was gespecialiseerd in data governance. En die technologie is nu het belangrijkste onderdeel van de governance tooling van Microsoft.

Data is tegenwoordig niet meer alleen opgeslagen in een (paar) SQL databases, maar verspreid over verschillende data stores, zowel relationeel als niet relationeel, gestructureerd en ongestructureerd. Het wordt dus steeds lastiger om hier governance op te doen. Governance gaat over:

  • Discover (ontdekken en classificeren);
  • Monitor (analyseren van data en risico’s identificeren);
  • Protect (policies toepassen).

Veiligheid en beheer in Azure Data Catalog

Er is sprake van Native Enforce Points en Add on (= 3rd party) Enforce Points. De eerste zijn er voor SQL, ADF, SSIS, Spark, Data Lake Store en Power BI. De laatste zijn er voor andere relationele databases en big data stores. Dit zijn in feite de agents die ervoor moeten zorgen dat Azure Data Catalog (ADC) haar werk kan uitvoeren in de verschillende stores.

Veel van de data classificaties die standaard in het product gebruikt kunnen worden komen voort uit de GDPR compliancy werkzaamheden bij Microsoft zelf. Deze zijn natuurlijk wel uit te breiden met je eigen classificaties. Voorbeeld van een regel die vervolgens toegepast kan worden is “Deny access to highly classified information for non-FTE”.

De roadmap voor Azure Data Catalog Gen 2 (Babylon)

De roadmap voor de verschillende onderdelen van Azure Data Catalog (ADC) Gen2 (codename Babylon) ziet er grofweg als volgt uit:

  • Catalog public preview: Q1, 2020.
  • Guardian private preview: Q1, 2020.
  • Policies private preview eind Q1 2020.

De catalogus kan gevuld worden vanuit metadata voor zo’n beetje alle gangbare data formats. Vervolgens moet de data geclassificeerd worden. De Data Catalog kan daarna doorzocht worden. Bijvoorbeeld op basis van type entiteit, attributen, classificaties en termen uit de lijst van termen.

ADC kan de data lineage informatie uit ADF (Azure Data Factory), dataflow activiteiten en uit Power BI halen; opslaan bij de run informatie en vervolgens visualiseren. Als ik de demo bekijk vind ik dit nog wel erg high level. Het is niet zo dat je op een Power BI veldje klikt en dat het systeem vervolgens laat zien hoe dat tot stand is gekomen tot en met de bron(nen) waar het vandaan kwam.

Ik heb de vraag maar gelijk gesteld: het staat zeker op de roadmap, maar komt niet gelijk in de eerste release.

Natuurlijke taal gebruiken in Azure Data Catalog

Er kan in ADC ook een Business Glossary aangemaakt worden, zodat entiteiten echte namen kunnen worden gegeven die iets over jouw business zeggen zodat je niet de technische namen van entiteiten hoeft te gebruiken: Product, Klant, Order, etc. Relaties tussen business entiteiten kunnen ook mooi worden gevisualiseerd.

Policies worden in een eenvoudige, bijna natuurlijke taal geconfigureerd en kennen de volgende types:

  • Toegang (rechten);
  • Delen (buiten de eigen organisatie);
  • Locatie (gebaseerd op IP-adres of datacentrum locatie);
  • Doel (waarvoor data wel of niet gebruikt mag worden);
  • Retentie (wanneer mag data verwijderd of verplaatst worden).

Als onderdeel van deze policies kan ook gebruik worden gemaakt van Azure Subscription en AD groep informatie. Ook kan er gebruik worden gemaakt van variabelen die je zelf configureert, zoals #openingstijden#.

In een meer en meer self-service wereld, moet het ook mogelijk zijn om toegang te vragen tot bepaalde data als rapport- of app-bouwer. Hier biedt ADC ook de mogelijkheid voor. In een zeer bruikbaar uitziend dashboard wordt getoond hoeveel van de data estate onder governance is. En dat is zeer belangrijke informatie voor onder andere de Privacy Officer.

Meer weten of direct aan de slag?

Wil je meer weten over de laatste ontwikkelingen op het gebied van De Azure Data Catalog of de bredere Azure stack, en wat de toegevoegde waarde voor jouw organisatie zou kunnen zijn? Neem dan direct contact met ons op.

Wil je alle inzichten vanuit de sessies tijdens Microsoft LEAP meekrijgen? Klik dan hier.

Ben je bezig met de cloud transitie en wil je meer weten over het Azure platform en de mogelijkheden ervan? Download dan nu de nieuwste paper van Gijs in ’t Veld, “Integratie als hefboom voor de cloud transitie”.