Quentin Ambard

Quentin Ambard

Datastax

Solution Architect chez Databricks. J'aide les entreprises à mettre en production leur projet data dans un environnement cloud sur la plateforme Databricks (Spark, Delta, Streaming, MLFlow, ML & IA).

Précédemment @Datastax, Passionné par le Machine Learning, les systèmes distribués, systèmes à faibles latences et problèmatiques d'optimisation.

Twitter : @qambard

bigd

Track : Big Data, Machine Learning, Analytics

Type de présentation : Conference

Nouveaux développements dans l'écosystème Big Data : Apache Spark 3.1, Delta Lake et Koalas

Au cours de cette conférence, nous mettrons en évidence les efforts importants qui sont déployés dans l'écosystème Spark. En particulier, nous exposerons les nouveautés de Spark3.0 avec les optimisations des requêtes adaptatives et statiques, les catalogues de données et le support GPU pour plus de facilité d'utilisation et performances.

En parallèle de Spark 3, Delta Lake est devenu le nouveau standard de stockage de données dans l'écosystème Spark. Avec ses transactions ACID, l'unification du batch et du streaming, l'enforcement des schémas et le time travel Delta lake apporte plus de fiabilité et performance à Spark.

Nous montrerons également comment les nouvelles fonctionnalités de Koalas, une bibliothèque open source qui fournit les API de Pandas avec un moteur d'execution Spark, aident les data scientist à tirer plus rapidement parti de leurs données.

bigd

Track : Big Data, Machine Learning, Analytics

Type de présentation : Tools-in-Action

Construire un Data Lake propre, transactionnel et performant avec Delta Lake

Vous avez toujours rêvé de concevoir un Data Lake aussi simple à opérer qu'une base SQL transactionnelle ? Pouvoir lancer des DELETE sur les tables parquet de votre Data Lake sans vous préoccuper de vos pipelines d'ingestion ? Garantir le schema de vos tables ? Accélérer vos requêtes spark ? Simplifier vos flux de données en unifiant batch et stream ? Ce Tools In Action est pour vous !

Open-sourcé en 2019 par Databricks (à l'origine d'Apache Spark), Delta Lake offre un nouveau standard pour gérer les transactions ACID, un support DML complet (DELETE, UPDATE, MERGE), du Time Travel, garantir la qualité de vos données et offrir une gestion scalable de vos metadata.

Rejoignez ce Tools In Action pour découvrir tout le bien que Delta Lake OSS peut apporter à votre Data Lake via les API d'Apache Spark!