De vierde sessie die Gijs bijwoonde tijdens LEAP ging over het analyseren van Big Data met behulp van verschillende elementen van de Microsoft stack. De sessie werd geleid door Michael Rys, Principal Program Manager Azure Big Data.

Azure Big Data: De Modern Datawarehouse Approach

Michael vertelt ons over Azure Synapse Analytics. Hij begint met uitleggen waarom traditionele datawarehousing tekortschiet: zodra er nieuwe typen data bijkomen (niet relationeel, IoT, social, etc.), de volumes enorm toenemen en zodra we te maken krijgen met cloud-born data.

Het datawarehouse is ontworpen om vragen te antwoorden die je al kent. Met de nieuwe vormen van data wil je kunnen experimenteren. Daarom is het data lake ontstaan, om dit soort uitdagingen te kunnen adresseren. Dit noemt Microsoft nu the modern datawarehouse approach. Het is in feite een hybride aanpak: data lake + datawarehouse.

Azure Synapse Analytics vs. SQL Datawarehouse

De gebundelde mogelijkheden worden nu door Azure Synapse Analytics geboden. Dit biedt een geïntegreerde gebruikerservaring, door middel van Synapse Analytics Studio. En kent als data-opslag SQL datawarehouse (wat nu verwarrend genoeg “Synapse Analytics” is genoemd, terwijl dat als geheel veel meer biedt) en Apache Spark.

Op de roadmap staat dat Azure Synapse Common Data Model aware wordt. Wat dat precies betekent wordt nog even in het midden gelaten, maar dat het CDM een steeds belangrijker rol gaat spelen in de hele Microsoft stack staat ondertussen wel als een paal boven water.

Nu ook data analyseren met .Net

Er is nu ook een nieuwe C# .Net integratie met Spark (nu versie 0.6, dus nog niet af, maar waarschijnlijk in de zomer van 2020 wel). Dus behalve SQL, Python, Java, Scala en R wordt nu ook .Net ondersteund; ik heb het met eigen ogen gezien. En de .Net implementatie is 10-15% sneller dan Python. Eigenlijk is Synapse Analytics een directe concurrent van Databricks.

Maar het is wel echt bedoeld voor enterprises, want niet goedkoop. Databricks is dan toch laagdrempeliger voor de laag van organisaties onder de enterprises. De Synapse engine draait overigens op Ubuntu Linux. Komt m’n uitgebreide Unix verleden toch nog van pas! De notebooks zijn Jupyter compatible (in tegenstelling tot Databricks notebooks).

Met C# code (geschreven in je .Net notebook in Synapse Analytics Studio) kan dus ETL van big data gedaan worden, de output kan naar SQL database tabellen (serverless en storageless; SQL on-demand!) worden geschreven, die je vervolgens met T-SQL kunt queryen. En analyseren door middel van Spark SQL. En weer visualiseren met .Net, bijvoorbeeld naar HTML. Ook de Plotly library is beschikbaar voor .Net, om mooie visualisaties mogelijk te maken. En dit allemaal vanuit dezelfde studio!

Ook dataflows zijn beschikbaar. Voor visuele configuratie en uitvoering van ETL’s. Op dit moment draait dat op de achtergrond nog in Databricks. Dat gaat nog veranderen. ETL’s kunnen ook georchestreerd worden met ADF. Met behulp van een geïntegreerde versie van Power BI kan ook de SQL on-demand data (zoals hierboven genoemd) benaderd worden.

Overigens wordt Power BI embedded ook uitgebreid met mogelijkheden om je eigen frontend samen te stellen. Je kunt dan aangeven welke elementen je in je eigen kijkdoos wilt hebben. Er is ook integratie met Azure Machine Learning. Helaas allemaal nu nog in private preview, dus nog even geduld.

Meer weten of direct aan de slag?

Wil je meer weten over Azure Big Data of Azure Synapse en wat de toegevoegde waarde voor jouw organisatie zou kunnen zijn? Neem dan direct contact met ons op.

Wil je alle inzichten vanuit sessies tijdens Microsoft LEAP meekrijgen? Klik dan hier.

Ben je bezig met de cloud transitie en wil je meer weten over het Azure platform en de mogelijkheden ervan? Download dan nu de nieuwste paper van Gijs in ’t Veld, “Integratie als hefboom voor de cloud transitie”.