Cracking the rough data with Google Cloud

Bij één van de grootste retailers ter wereld wordt er volop data gedreven gewerkt. Om dit te handhaven is de transitie naar moderne systemen en het werken in “de cloud” van cruciaal belang. Mede door de coronapandemie is er een enorme groei van online orders te zien, wat resulteert in een forse toename van data. Om het immense volume aan data te verwerken en te analyseren, is en project gestart dat zich focust op het opzetten van een full-fledged data platform binnen het Google Cloud Platform (= GCP). 

De rol van ElastIQ
Onze fitlancer is vanaf de start bij dit data platform betrokken en is verantwoordelijk om het hele traject van A tot Z te begeleiden. Van het instellen van automatische alerts naar berichtdiensten (met behulp van Cloud Functions) tot aan het organiseren dat het data platform honderden ‘messages’ per seconde kan verwerken. Dat laatste is gerealiseerd door ETL pipelines op te zetten (met tools als Dataflow Apache Beam en Pub/Sub). Door deze pipelines wordt de data weggeschreven naar tabellen (in BigQuery) zodat het beschikbaar wordt voor analisten.

Door het opzetten van een nieuwe (CICD) infrastuctuur is ervoor gezorgd dat het gehele proces geautomatiseerd wordt. Hierbij is binnen de sterk beveiligde Kubernets cluster omgeving gebruik gemaakt van self hosted Git runners. Om het schakelen tussen de development- en de productie omgeving soepel te laten verlopen, is ervoor gekozen de infrastructuur met name met Terraform op te zetten (IaC – Infrastucture as Code) in combinatie met de eerdergenoemde CICD infrastructuur.

Resultaat
Het fundament van het full-fledged data platform is opgezet. Hierdoor wordt inkomende ruwe data getransformeerd naar handelbare datatabellen die o.a. gebruikt worden door data analisten en data scientisten om de business van waardevolle stuur informatie te voorzien.

World Of Data