OYU-8905 Comment nous avons construit un Data Lake AWS de 700 To, performant et scalable | Devoxx

Comment nous avons construit un Data Lake AWS de 700 To, performant et scalable

Conference

bigd Big Data, Machine Learning, Analytics Intermediate

Paris 241

Thursday 16:45 - 17:30

A l'origine était le Data Warehouse

Ogury a commencé à entreposer ses Data "propres" dans Redshift (Data Warehouse d'AWS) en 2016. Le besoin est simple : centraliser les données pour voir et comprendre ce qu'il se passe opérationnellement sur le targeting publicitaire de nos millions de téléphones en services.

Le Data Lake efficace

2 ans plus tard, nous avons des centaines de millions de téléphones en service, alimentant de la Data pour des usages bien différents (Data Scientist, Business Analysts, ...). Nous avons maintenant un Data Lake de 700 To, basé sur Redshift, Spectrum, Athena, Data Pipeline, Spark. Il est performant, scalable et répond à tous les besoins :
- depuis le Business Analysts qui veut un accès très simple
- au Data Scientist qui veux des accès à tout et partout ... Perfs incluses !
- tout en évitant le Data swamp ou manque d'organisation

Nous verrons ensemble quelles sont les principales composantes de notre proposition de Data Lake AWS, leur fonctionnements, leur optimisations et limitations. Cette présentation est particulièrement adaptée aux Data Engineers, Tech Lead, Architectes ... Ou curieux !

 Amazon Web Services    Big Data  
Room Paris 241
Arnaud Milleker Arnaud Milleker

Bonjour, Je suis Arnaud, travailleur de la Data depuis maintenant 9 ans. J'ai commencé Analyste Business Intelligence pour ensuite faire du consulting, du Big Data. Je suis depuis 2 ans chez Ogury en tant que Tech Lead où nous faisons de la Data sur AWS (Redshift, Athena, Spectrum, Glue, ...). Je suis passionné de Data, je mange des MOOCs et des meetup à longueur de temps. Je partage cette passion en interne dans mes entreprises où je fais souvent des formations, ou même en Meetup, notamment lorsque j'ai été orateur au meetup "Perfug" où le sujet était l'optimisation de Redshift.

Simon Cocula Simon Cocula

Actuellement Data Engineer chez Ogury, je participe au traitement de larges volumes de données et à l'élaboration de l'architecture (sur AWS) d'un Data Lake scalable, afin de donner accès à cette Data de manière simple et sécurisée aux équipes de Business Analysts et Data Scientists. J'ai aussi 3 ans d'expériences en tant qu'ingénieur Data-Platform chez Microsoft, où j'ai pu collaborer avec de nombreux clients sur des problématiques de haute disponibilité et de scalabilité de plateforme OLTP ou OLAP.