Seifeddine Saafi

Seifeddine Saafi

Databricks

Je suis Solution Architect chez Databricks. J'accompagne nos clients dans la mise en place de leur architecture data dans le cloud autour des projets open source Delta Lake, Spark et Mlflow.

Passionné par la data et les technology in-memory j'ai occupé auparavant les postes de Consultant chez Activeviam et de Data Scientist chez Hitachi Vanatara où j'ai contribué à l'implementation de projet dans différent secteur: IoT, Supply Chain, e-Commerce et finance.

bigd

Track : Big Data, Machine Learning, Analytics

Type de présentation : Conference

Nouveaux développements dans l'écosystème Big Data : Apache Spark 3.1, Delta Lake et Koalas

Au cours de cette conférence, nous mettrons en évidence les efforts importants qui sont déployés dans l'écosystème Spark. En particulier, nous exposerons les nouveautés de Spark3.0 avec les optimisations des requêtes adaptatives et statiques, les catalogues de données et le support GPU pour plus de facilité d'utilisation et performances.

En parallèle de Spark 3, Delta Lake est devenu le nouveau standard de stockage de données dans l'écosystème Spark. Avec ses transactions ACID, l'unification du batch et du streaming, l'enforcement des schémas et le time travel Delta lake apporte plus de fiabilité et performance à Spark.

Nous montrerons également comment les nouvelles fonctionnalités de Koalas, une bibliothèque open source qui fournit les API de Pandas avec un moteur d'execution Spark, aident les data scientist à tirer plus rapidement parti de leurs données.