Simon Cocula | Devoxx

Simon Cocula
Simon Cocula

From Ogury

Actuellement Data Engineer chez Ogury, je participe au traitement de larges volumes de données et à l'élaboration de l'architecture (sur AWS) d'un Data Lake scalable, afin de donner accès à cette Data de manière simple et sécurisée aux équipes de Business Analysts et Data Scientists. J'ai aussi 3 ans d'expériences en tant qu'ingénieur Data-Platform chez Microsoft, où j'ai pu collaborer avec de nombreux clients sur des problématiques de haute disponibilité et de scalabilité de plateforme OLTP ou OLAP.

bigd Big Data, Machine Learning, Analytics

Comment nous avons construit un Data Lake AWS de 700 To, performant et scalable

Conference

A l'origine était le Data Warehouse

Ogury a commencé à entreposer ses Data "propres" dans Redshift (Data Warehouse d'AWS) en 2016. Le besoin est simple : centraliser les données pour voir et comprendre ce qu'il se passe opérationnellement sur le targeting publicitaire de nos millions de téléphones en services.

Le Data Lake efficace

2 ans plus tard, nous avons des centaines de millions de téléphones en service, alimentant de la Data pour des usages bien différents (Data Scientist, Business Analysts, ...). Nous avons maintenant un Data Lake de 700 To, basé sur Redshift, Spectrum, Athena, Data Pipeline, Spark. Il est performant, scalable et répond à tous les besoins :
- depuis le Business Analysts qui veut un accès très simple
- au Data Scientist qui veux des accès à tout et partout ... Perfs incluses !
- tout en évitant le Data swamp ou manque d'organisation

Nous verrons ensemble quelles sont les principales composantes de notre proposition de Data Lake AWS, leur fonctionnements, leur optimisations et limitations. Cette présentation est particulièrement adaptée aux Data Engineers, Tech Lead, Architectes ... Ou curieux !