Construire et partager un Data Lake propre, transactionnel et performant avec Delta Lake & Delta Sharing

Tools-in-Action

bigd

Track : Big Data, Machine Learning, Analytics

Niveau de la présentation : beginner/novice

Salle : Neuilly 251

Horaire : Wednesday 12:00 12:30

Résumé de la présentation :

Vous avez toujours rêvé de concevoir un Data Lake aussi simple à opérer qu'une base SQL transactionnelle et de pouvoir partager vos tables en toute sécurité via Delta Sharing ? Pouvoir lancer des DELETE sur les tables parquet de votre Data Lake sans vous préoccuper de vos pipelines d'ingestion ? Garantir le schema de vos tables ? Accélérer vos requêtes spark ? Simplifier vos flux de données en unifiant batch et stream ? Ce Tools In Action est pour vous !

Open-sourcé en 2019 par Databricks (à l'origine d'Apache Spark), Delta Lake offre un nouveau standard pour gérer les transactions ACID, un support DML complet (DELETE, UPDATE, MERGE), du Time Travel, garantir la qualité de vos données et offrir une gestion scalable de vos metadata.

Delta Sharing a été ajouté récemment à l'écosystème Delta Lake pour vous permettre de partager vos tables en toutes sécurité (https://delta.io/sharing)

Rejoignez ce Tools In Action pour découvrir tout le bien que Delta Lake OSS peut apporter à votre Data Lake via les API d'Apache Spark!

Room Neuilly 251

Quentin Ambard Quentin Ambard

Solution Architect chez Databricks. J'aide les entreprises à mettre en production leur projet data dans un environnement cloud sur la plateforme Databricks (Spark, Delta, Streaming, MLFlow, ML & IA).

Précédemment @Datastax, Passionné par le Machine Learning, les systèmes distribués, systèmes à faibles latences et problèmatiques d'optimisation.