Arnaud Milleker | Devoxx

Arnaud Milleker
Arnaud Milleker Twitter

From Ogury

Bonjour, Je suis Arnaud, travailleur de la Data depuis maintenant 9 ans. J'ai commencé Analyste Business Intelligence pour ensuite faire du consulting, du Big Data. Je suis depuis 2 ans chez Ogury en tant que Tech Lead où nous faisons de la Data sur AWS (Redshift, Athena, Spectrum, Glue, ...). Je suis passionné de Data, je mange des MOOCs et des meetup à longueur de temps. Je partage cette passion en interne dans mes entreprises où je fais souvent des formations, ou même en Meetup, notamment lorsque j'ai été orateur au meetup "Perfug" où le sujet était l'optimisation de Redshift.

bigd Big Data, Machine Learning, Analytics

Comment nous avons construit un Data Lake AWS de 700 To, performant et scalable

Conference

A l'origine était le Data Warehouse

Ogury a commencé à entreposer ses Data "propres" dans Redshift (Data Warehouse d'AWS) en 2016. Le besoin est simple : centraliser les données pour voir et comprendre ce qu'il se passe opérationnellement sur le targeting publicitaire de nos millions de téléphones en services.

Le Data Lake efficace

2 ans plus tard, nous avons des centaines de millions de téléphones en service, alimentant de la Data pour des usages bien différents (Data Scientist, Business Analysts, ...). Nous avons maintenant un Data Lake de 700 To, basé sur Redshift, Spectrum, Athena, Data Pipeline, Spark. Il est performant, scalable et répond à tous les besoins :
- depuis le Business Analysts qui veut un accès très simple
- au Data Scientist qui veux des accès à tout et partout ... Perfs incluses !
- tout en évitant le Data swamp ou manque d'organisation

Nous verrons ensemble quelles sont les principales composantes de notre proposition de Data Lake AWS, leur fonctionnements, leur optimisations et limitations. Cette présentation est particulièrement adaptée aux Data Engineers, Tech Lead, Architectes ... Ou curieux !