Arduino Cascella

Arduino Cascella

Databricks

Mathématicien de formation, j'ai incursionné dans le monde de l'informatique par la cryptographie et la sécurité, avant de me passionner pour le monde de la data.

Ceci m'a amené à m'intéresser au Machine Learning et à travailler en tant que Data Scientist, avant de transitionner vers un rôle d'architecte solution, avec un intérêt élargi à l'ensemble de l'écosystème Big Data.

Twitter : @ArduinoCascella

bigd

Track : Big Data, Machine Learning, Analytics

Type de présentation : Tools-in-Action

MLflow : un outil open source pour la gestion du cycle de vie des projets de Machine Learning

Cette session présentera une démonstration de MLflow, une plateforme open source complètement agnostique (possibilité de l’utiliser avec toutes les librairies ML, dans n’importe quel langage) pour standardiser et gérer le cycle de vie des projets de Machine Learning.

À la fin de la session, vous deviendrez un expert MLOps et saurez répondre aux questions suivantes :

  • Comment centraliser et partager les expérimentations ML au sein de l’équipe ?
  • Comment stocker les hyper-paramètres, la donnée et le code des modèle entraîné ?
  • Comment packager un projet ML et s’assurer de sa reproductibilité ?
  • Comment simplifier le déploiement des modèles avec un format unique ?
  • Où déployer les modèles, comment assurer leur suivi, la monté de version, la compatibilité et la gouvernance ?

… et aussi les mettre en pratique avec MLflow !

bigd

Track : Big Data, Machine Learning, Analytics

Type de présentation : Conference

Nouveaux développements dans l'écosystème Big Data : Apache Spark 3.1, Delta Lake et Koalas

Au cours de cette conférence, nous mettrons en évidence les efforts importants qui sont déployés dans l'écosystème Spark. En particulier, nous exposerons les nouveautés de Spark3.0 avec les optimisations des requêtes adaptatives et statiques, les catalogues de données et le support GPU pour plus de facilité d'utilisation et performances.

En parallèle de Spark 3, Delta Lake est devenu le nouveau standard de stockage de données dans l'écosystème Spark. Avec ses transactions ACID, l'unification du batch et du streaming, l'enforcement des schémas et le time travel Delta lake apporte plus de fiabilité et performance à Spark.

Nous montrerons également comment les nouvelles fonctionnalités de Koalas, une bibliothèque open source qui fournit les API de Pandas avec un moteur d'execution Spark, aident les data scientist à tirer plus rapidement parti de leurs données.