In ons vorige blog hebben we gekeken naar het AERAA governancemodel.
In deze tweede blog zoomen we in op de architectuur en de achterliggende technologie.
2. Architectuur
De Azure Enterprise Ready Analytics Architecture brengt de belangrijkste facetten van een modern analyseplatform echt samen in één cohesie-architectuur.
2.1 Het brein van AERAA: Azure Core Platform
Het Azure-coreplatform is het brein van de Azure Enterprise Ready Analytics Architecture. Het in rood omlijnde centrum van het core data platform vormt het advanced analytics platform. De hub resourcegroup (RG) aan de linkerkant geïllustreerd in Figuur 1 wordt onderhouden door het cloud platformteam en fungeert als centraal punt voor logging, beveiligingsmonitoring en connectiviteit met on-premises omgevingen via express route of site-to-site VPN. Het vormt als een verlengstuk van het bedrijfsnetwerk. Maar wat kan je met het Azure-coreplatform? Een greep uit de mogelijkheden:
● Data gegevensintegratie. Met Azure Data Factory (ADF) kunnen gegevens geïntegreerd worden uit publieke- en private clouds, maar ook uit on-premises- en SaaS-omgevingen en vele andere databronnen. Met ADF worden de gegevens uit verschillende omgevingen gekopieerd naar één centraal opslag medium bijvoorbeeld een Azure Blob-storage of Azure Data Lake Storage voor verdere analyses. Vervolgens kan met behulp van pipelines de gegevensstroom verder getransformeerd worden.
● Azure Data Lake Storage Gen2 (ADLS G2) is ontworpen voor big-data analyses en biedt een robuuste en schaalbare opslag-omgeving voor het beheren van grote hoeveelheden gegevens. ADLS Gen2 bouwt voort op de Azure Blob-storage door de toevoeging van een hiërarchische naamgeving. Hiermee worden objecten/bestanden in een hiërarchie van mappen voor efficiënte gegevenstoegang opgeslagen en verbetert de prestaties, het beheer en de beveiliging. Verder borgt de geavanceerde technologie ingebouwde auditing, beveiliging op bestandsniveau en hoge beschikbaarheid. Bovendien biedt het de mogelijkheid om strikte toegangscontrole (IAM) toe te passen.
● Analytics engines. Het Azure platform biedt verschillende query-interfaces voor het analyseren van data. Voorbeelden hiervan zijn Synapse SQL, Databricks, HDInsight Hadoop, etc
● Data Catalogue. Een centrale catalogus bestaande uit informatie over datasets. De Data Catalogue ondersteund data analisten met het vinden van informatie van databronnen, metadata en objectdefinities (tabellen, views, indexec, etc). Het ondersteund om datasets te detecteren en classificeren die geschikt zijn voor selfservice-analyse. Voorbeeld van Data Catalogue systemen zijn Azure Data Catalogue Gen2, Informatica, Collibra.
● Visualisatie. Gebruik Power BI om analyses te maken (ook als je geen doorgewinterde data analist bent) en rapporten en dashboards te presenteren en inzichten binnen de hele organisatie te publiceren. Ons opleidingsinstituut Medicine for Business Academy biedt Power BI trainingen op verschillende niveaus, er zit er altijd een geschikte Power BI training voor u organisatie bij.
● Azure Key Vault. Biedt een veilige centrale opslag voor gevoelige informatie als API-keys, certificaten en wachtwoorden. Deze service zorgt ervoor dat op basis van het TLS-protocol verificatie tussen de Key Vault gegevens veilig gebruikt kunnen worden binnen de Azure systemen voor geautomatiseerde doeleinden.
● Azure Monitor. Verzamelt logs en telemetriegegevens uit Azure en on-premises omgevingen. Azure monitor help om inzicht te geven in prestaties en beschikbaarheid en biedt proactief de mogelijkheid om problemen te identificeren in één dashboard.
● MLOps. Azure Machine Learning zorgt voor AI/ML-ontwikkeling zoals het ontwikkelen, implementeren en beheren van modellen in een volledig geautomatiseerd DevOps- ML omgeving. Een andere SAAS opties voor MLOps is bijvoorbeeld SAS Viya.
Door al deze PaaS-diensten te koppelen aan een virtueel privénetwerk (VNET) via service-endpoints en private links creëer je een extra beveiligingslaag tot uw bedrijfsnetwerk en worden externe endpoints en verdacht of ongewenst verkeer van buitenaf geblokkeerd. Zo wordt werken met data nog veiliger!
Het core platform wordt gemodelleerd en geïmplementeerd als code middels DevSecOps (CI/CD) waarbij Azure policies worden gebruikt om beleid af te dwingen, bijvoorbeeld dat firewalls alle inkomende poorten moeten blokkeren en dat alle data versleuteld moet worden, later meer hierover in onze derde blog.
Wilt u al deze mogelijkheden en functionaliteiten in één geïntegreerde service en gebruikersinterface voor zowel uw datawarehouse als uw big data analytics-omgeving, waardoor de barrières tussen operationele rapportage en geavanceerde analyses en AI aanzienlijk worden verminderd, dan is Azure Synapse de aanbevolen keuze. Synapse biedt onder meer ondersteuning voor functies als on-demand-SQL en maakt zo het ontwerpen van nieuwe dataproducten gemakkelijker.
De kracht van het core analytics-platform is om alle belangrijke end-to-end analyses mogelijk te maken met een beperkt aantal services. Vanuit het oogpunt van expertise kunnen ontwikkelteams focussen op het verdiepen van hun expertise in plaats van dat ze veel verschillende technologieën moeten beheersen. Wanneer nieuwe mogelijkheden zich voordoen, kunnen architecten beoordelen hoe ze het platform kunnen aanvullen en de mogelijkheden kunnen uitbreiden die in het onderstaande diagram worden getoond als geïllustreerd in Figuur 2.
2.2 Het hart van AERAA:
Waar het core-platform het brein is van de Azure Enterprise Ready Analytics Architecture, fungeert de Data Lake als het hart van het framework. De schaalbare Azure Data Lake Storage Gen2 (ADLS G2) functioneert als abstractielaag tussen de datalaag en verschillende cloud analytics services om de kosten voor repliceren, opslag en toegang te optimaliseren. Tevens is het mogelijk met behulp van Azure Active Directory gebruikers per groep, persoon of apparaat gedetailleerde toegang te verlenen tot de hiërarchische mappenstructuur binnen het Data Lake. Omdat ADLS G2 is geïntegreerd met Azure Active Directory is het gebruik van SSO mogelijk voor toegang en auditing tot deze specifieke mappen en gedeelde read-only omgevingen.
De inrichting van een data lake omgeving kan veel omvattend zijn. Hoewel elke organisatie zijn eigen afweging dient te maken is ons advies een logische mappenstructuur aan te houden per domein, dit kan er als volgt uit zien:
{Laag} > {Organisatie | Domein} > {Systeem} > {Gevoeligheid} > {Dataset} > {Laaddatum} > [Bestanden]
Voorbeeld: Onbewerkt > Medicineforbusiness> Exact > Vertrouwelijk > Klant > 2020 > 04 > 08 > [Bestanden]
Meer richtlijnen en verschillende overwegingen zijn te vinden op Hitcher Hikers Guide to the Data-lake.
2.3 Data Products
Soms hebben Data Product-teams (zie §2.1) speciale meer aan hun specifieke behoefte aangepaste omgeving nodig met aanvullende services. In al die gevallen bieden centraal vastgestelde producten waar op voortgeborduurd wordt uitkomst (Data Products). Een team kan namelijk eigen resourcegroepen aanvragen die zijn gekoppeld aan het DPCS VNET . Hier kunnen verschillende redenen voor zijn. Een paar voorbeelden:
- Er is behoefte aan een federated lay-out: sommige groepen willen meer controle, maar tegelijkertijd toch aansluiten bij het core-platform en de bijbehorende processen.
- Maatwerk: sommige oplossingen vereisen veel niche-aanpassingen (denk bijvoorbeeld aan optimalisatie).
- Teams willen oplossingen die vragen om functionaliteiten die (nog) niet beschikbaar zijn in het core-platform
De resources zijn beveiligd en geïntegreerd in alle DPCS-services, zoals het Data Lake en de analytics-engines. Daarnaast hebben gebruikers de vrijheid om binnen een resourcegroep aanvullende services op te starten. Denk bijvoorbeeld aan extra databases.
2.4 Selfservice Analytics
Zogenoemde ‘selfservice-analytics’ zijn populair in dataland waarbij Power BI momenteel de marktleider is.
De reden? Ze geven data-analisten de kans om snel analytics te ontwikkelen en toe te passen zonder elke keer aan de bel te hoeven trekken bij IT. Gebruikers hebben toegang tot de data op de volgende manieren:
- Met Power BI; Stel de datasets beschikbaar als een service. Met DPCS kan er een veilige verbindingen worden gemaakt naar de gepubliceerde dataset in Power BI. De dataset worden op een low-code wijze beschikbaar gesteld, voor het gebruik van deze datasets in Power BI is geen specialistische kennis van coderen nodig voor uw dashboards, datasheets en rapporten.
Met behulp van de “Endorsement” functie binnen Power BI DPCS kan worden aangegeven of de content is gecertificeerd, gepromoot of niet.
- ADF-dataflows: stellen je in staat om met low- of no-code data te integreren in grote en geautomatiseerde ADF-pipelines.
- Code first query access: Snel meerdere datasets verkennen en analyseren? Dankzij DPCS biedt Azure Synapse Power-users de mogelijkheid op een snelle manier on-demand op Spark- of SQL- interfaces verschillende datasets te verkennen en analyses uit te voeren. In combinatie met Azure Active Directory wordt geautomatiseerde toegang tot de verschillende lagen van het core-platform gerealiseerd. Dankzij DCPS kunnen extra security controles worden toegepast op de analytics-engines op het core-platform zoals het maskeren van privacy gevoelige data, het verbergen van rijen en kolommen, etc.
- Direct storage access: Data Lake maakt het mogelijk dat groepen, ,jvoorbeeld data-engineers leestoegang kunnen vragen tot sommige data en lees-/schrijftoegang tot andere, bijvoorbeeld hun opslagwerkruimte (vergelijkbaar met een persoonlijke schijf), door lid te worden van de respectievelijke Azure Active Directory-groepen.
Extra voordelen
U ziet, technisch is er enorm veel mogelijk met de AERAA. Maar u profiteert ook van een aantal essentiële elementen die eigenlijk niet mogen ontbreken in een toekomstbestendige advanced analytics werkomgeving.
In het derde gedeelte van deze blog gaan we in dieper op de beveiliging binnen AERAA. Wil je na het lezen van deze blog aan de slag met AERAA in jouw organisatie? Neem dan contact op met Ronald Schilperoort (ronald@medicineforbusiness.nl).