In ons vorige blog hebben we gekeken naar het AERAA governancemodel. In deze tweede blog zoomen we in op de architectuur en de achterliggende technologie.
De Azure Enterprise Ready Analytics Architecture brengt de belangrijkste facetten van een modern analyseplatform echt samen in één cohesie-architectuur.
Het Azure-coreplatform is het brein van de Azure Enterprise Ready Analytics Architecture. Het in rood omlijnde centrum van het core data platform vormt het advanced analytics platform. De hub resourcegroup (RG) aan de linkerkant geïllustreerd in Figuur 1 wordt onderhouden door het cloud platformteam en fungeert als centraal punt voor logging, beveiligingsmonitoring en connectiviteit met on-premises omgevingen via express route of site-to-site VPN. Het vormt als een verlengstuk van het bedrijfsnetwerk. Maar wat kan je met het Azure-coreplatform? Een greep uit de mogelijkheden:
● Data gegevensintegratie. Met Azure Data Factory (ADF) kunnen gegevens geïntegreerd worden uit publieke- en private clouds, maar ook uit on-premises- en SaaS-omgevingen en vele andere databronnen. Met ADF worden de gegevens uit verschillende omgevingen gekopieerd naar één centraal opslag medium bijvoorbeeld een Azure Blob-storage of Azure Data Lake Storage voor verdere analyses. Vervolgens kan met behulp van pipelines de gegevensstroom verder getransformeerd worden.
● Azure Data Lake Storage Gen2 (ADLS G2) is ontworpen voor big-data analyses en biedt een robuuste en schaalbare opslag-omgeving voor het beheren van grote hoeveelheden gegevens. ADLS Gen2 bouwt voort op de Azure Blob-storage door de toevoeging van een hiërarchische naamgeving. Hiermee worden objecten/bestanden in een hiërarchie van mappen voor efficiënte gegevenstoegang opgeslagen en verbetert de prestaties, het beheer en de beveiliging. Verder borgt de geavanceerde technologie ingebouwde auditing, beveiliging op bestandsniveau en hoge beschikbaarheid. Bovendien biedt het de mogelijkheid om strikte toegangscontrole (IAM) toe te passen.
● Analytics engines. Het Azure platform biedt verschillende query-interfaces voor het analyseren van data. Voorbeelden hiervan zijn Synapse SQL, Databricks, HDInsight Hadoop, etc
● Data Catalogue. Een centrale catalogus bestaande uit informatie over datasets. De Data Catalogue ondersteund data analisten met het vinden van informatie van databronnen, metadata en objectdefinities (tabellen, views, indexec, etc). Het ondersteund om datasets te detecteren en classificeren die geschikt zijn voor selfservice-analyse. Voorbeeld van Data Catalogue systemen zijn Azure Data Catalogue Gen2, Informatica, Collibra.
● Visualisatie. Gebruik Power BI om analyses te maken (ook als je geen doorgewinterde data analist bent) en rapporten en dashboards te presenteren en inzichten binnen de hele organisatie te publiceren. Ons opleidingsinstituut Medicine for Business Academy biedt Power BI trainingen op verschillende niveaus, er zit er altijd een geschikte Power BI training voor u organisatie bij.
● Azure Key Vault. Biedt een veilige centrale opslag voor gevoelige informatie als API-keys, certificaten en wachtwoorden. Deze service zorgt ervoor dat op basis van het TLS-protocol verificatie tussen de Key Vault gegevens veilig gebruikt kunnen worden binnen de Azure systemen voor geautomatiseerde doeleinden.
● Azure Monitor. Verzamelt logs en telemetriegegevens uit Azure en on-premises omgevingen. Azure monitor help om inzicht te geven in prestaties en beschikbaarheid en biedt proactief de mogelijkheid om problemen te identificeren in één dashboard.
● MLOps. Azure Machine Learning zorgt voor AI/ML-ontwikkeling zoals het ontwikkelen, implementeren en beheren van modellen in een volledig geautomatiseerd DevOps- ML omgeving. Een andere SAAS opties voor MLOps is bijvoorbeeld SAS Viya.
Door al deze PaaS-diensten te koppelen aan een virtueel privénetwerk (VNET) via service-endpoints en private links creëer je een extra beveiligingslaag tot uw bedrijfsnetwerk en worden externe endpoints en verdacht of ongewenst verkeer van buitenaf geblokkeerd. Zo wordt werken met data nog veiliger!
Het core platform wordt gemodelleerd en geïmplementeerd als code middels DevSecOps (CI/CD) waarbij Azure policies worden gebruikt om beleid af te dwingen, bijvoorbeeld dat firewalls alle inkomende poorten moeten blokkeren en dat alle data versleuteld moet worden, later meer hierover in onze derde blog.
Wilt u al deze mogelijkheden en functionaliteiten in één geïntegreerde service en gebruikersinterface voor zowel uw datawarehouse als uw big data analytics-omgeving, waardoor de barrières tussen operationele rapportage en geavanceerde analyses en AI aanzienlijk worden verminderd, dan is Azure Synapse de aanbevolen keuze. Synapse biedt onder meer ondersteuning voor functies als on-demand-SQL en maakt zo het ontwerpen van nieuwe dataproducten gemakkelijker.
De kracht van het core analytics-platform is om alle belangrijke end-to-end analyses mogelijk te maken met een beperkt aantal services. Vanuit het oogpunt van expertise kunnen ontwikkelteams focussen op het verdiepen van hun expertise in plaats van dat ze veel verschillende technologieën moeten beheersen. Wanneer nieuwe mogelijkheden zich voordoen, kunnen architecten beoordelen hoe ze het platform kunnen aanvullen en de mogelijkheden kunnen uitbreiden die in het onderstaande diagram worden getoond als geïllustreerd in Figuur 2.
Figuur 2: Capaciteitsmodel van Stephan Mark-Armoury
Waar het core-platform het brein is van de Azure Enterprise Ready Analytics Architecture, fungeert de Data Lake als het hart van het framework. De schaalbare Azure Data Lake Storage Gen2 (ADLS G2) functioneert als abstractielaag tussen de datalaag en verschillende cloud analytics services om de kosten voor repliceren, opslag en toegang te optimaliseren. Tevens is het mogelijk met behulp van Azure Active Directory gebruikers per groep, persoon of apparaat gedetailleerde toegang te verlenen tot de hiërarchische mappenstructuur binnen het Data Lake. Omdat ADLS G2 is geïntegreerd met Azure Active Directory is het gebruik van SSO mogelijk voor toegang en auditing tot deze specifieke mappen en gedeelde read-only omgevingen.
De inrichting van een data lake omgeving kan veel omvattend zijn. Hoewel elke organisatie zijn eigen afweging dient te maken is ons advies een logische mappenstructuur aan te houden per domein, dit kan er als volgt uit zien:
{Laag} > {Organisatie | Domein} > {Systeem} > {Gevoeligheid} > {Dataset} > {Laaddatum} > [Bestanden]
Voorbeeld: Onbewerkt > Medicineforbusiness > Exact > Vertrouwelijk > Klant > 2020 > 04 > 08 > [Bestanden]
Meer richtlijnen en verschillende overwegingen zijn te vinden op Hitcher Hikers Guide to the Data-lake.
Soms hebben Data Product-teams (zie §2.1) speciale meer aan hun specifieke behoefte aangepaste omgeving nodig met aanvullende services. In al die gevallen bieden centraal vastgestelde producten waar op voortgeborduurd wordt uitkomst (Data Products). Een team kan namelijk eigen resourcegroepen aanvragen die zijn gekoppeld aan het DPCS VNET . Hier kunnen verschillende redenen voor zijn. Een paar voorbeelden:
De resources zijn beveiligd en geïntegreerd in alle DPCS-services, zoals het Data Lake en de analytics-engines. Daarnaast hebben gebruikers de vrijheid om binnen een resourcegroep aanvullende services op te starten. Denk bijvoorbeeld aan extra databases.
Zogenoemde ‘selfservice-analytics’ zijn populair in dataland waarbij Power BI momenteel de marktleider is.
De reden? Ze geven data-analisten de kans om snel analytics te ontwikkelen en toe te passen zonder elke keer aan de bel te hoeven trekken bij IT. Gebruikers hebben toegang tot de data op de volgende manieren:
Extra voordelen
U ziet, technisch is er enorm veel mogelijk met de AERAA. Maar u profiteert ook van een aantal essentiële elementen die eigenlijk niet mogen ontbreken in een toekomstbestendige advanced analytics werkomgeving.
In het derde gedeelte van deze blog gaan we in dieper op de beveiliging binnen AERAA. Wil je na het lezen van deze blog aan de slag met AERAA in jouw organisatie? Neem dan contact op met Ronald Schilperoort (ronald@medicineforbusiness.nl).