Nouveaux développements dans l'écosystème Big Data : Apache Spark 3.1, Delta Lake et Koalas

Conference

bigd

Track : Big Data, Machine Learning, Analytics

Niveau de la présentation : beginner/novice

Horaire : Wednesday 16:30 17:15

Résumé de la présentation :

Au cours de cette conférence, nous mettrons en évidence les efforts importants qui sont déployés dans l'écosystème Spark. En particulier, nous exposerons les nouveautés de Spark3.0 avec les optimisations des requêtes adaptatives et statiques, les catalogues de données et le support GPU pour plus de facilité d'utilisation et performances.

En parallèle de Spark 3, Delta Lake est devenu le nouveau standard de stockage de données dans l'écosystème Spark. Avec ses transactions ACID, l'unification du batch et du streaming, l'enforcement des schémas et le time travel Delta lake apporte plus de fiabilité et performance à Spark.

Nous montrerons également comment les nouvelles fonctionnalités de Koalas, une bibliothèque open source qui fournit les API de Pandas avec un moteur d'execution Spark, aident les data scientist à tirer plus rapidement parti de leurs données.

Room name is available few days before the conference.

Quentin Ambard Quentin Ambard

Solution Architect chez Databricks. J'aide les entreprises à mettre en production leur projet data dans un environnement cloud sur la plateforme Databricks (Spark, Delta, Streaming, MLFlow, ML & IA).

Précédemment @Datastax, Passionné par le Machine Learning, les systèmes distribués, systèmes à faibles latences et problèmatiques d'optimisation.

Seifeddine Saafi Seifeddine Saafi

Je suis Solution Architect chez Databricks. J'accompagne nos clients dans la mise en place de leur architecture data dans le cloud autour des projets open source Delta Lake, Spark et Mlflow.

Passionné par la data et les technology in-memory j'ai occupé auparavant les postes de Consultant chez Activeviam et de Data Scientist chez Hitachi Vanatara où j'ai contribué à l'implementation de projet dans différent secteur: IoT, Supply Chain, e-Commerce et finance.

Arduino Cascella Arduino Cascella

Mathématicien de formation, j'ai incursionné dans le monde de l'informatique par la cryptographie et la sécurité, avant de me passionner pour le monde de la data.

Ceci m'a amené à m'intéresser au Machine Learning et à travailler en tant que Data Scientist, avant de transitionner vers un rôle d'architecte solution, avec un intérêt élargi à l'ensemble de l'écosystème Big Data.