Databricks
Mathématicien de formation, j'ai incursionné dans le monde de l'informatique par la cryptographie et la sécurité, avant de me passionner pour le monde de la data.
Ceci m'a amené à m'intéresser au Machine Learning et à travailler en tant que Data Scientist, avant de transitionner vers un rôle d'architecte solution, avec un intérêt élargi à l'ensemble de l'écosystème Big Data.
Twitter : @ArduinoCascella
Cette session présentera une démonstration de MLflow, une plateforme open source complètement agnostique (possibilité de l’utiliser avec toutes les librairies ML, dans n’importe quel langage) pour standardiser et gérer le cycle de vie des projets de Machine Learning.
À la fin de la session, vous deviendrez un expert MLOps et saurez répondre aux questions suivantes :
… et aussi les mettre en pratique avec MLflow !
Au cours de cette conférence, nous mettrons en évidence les efforts importants qui sont déployés dans l'écosystème Spark. En particulier, nous exposerons les nouveautés de Spark3.0 avec les optimisations des requêtes adaptatives et statiques, les catalogues de données et le support GPU pour plus de facilité d'utilisation et performances.
En parallèle de Spark 3, Delta Lake est devenu le nouveau standard de stockage de données dans l'écosystème Spark. Avec ses transactions ACID, l'unification du batch et du streaming, l'enforcement des schémas et le time travel Delta lake apporte plus de fiabilité et performance à Spark.
Nous montrerons également comment les nouvelles fonctionnalités de Koalas, une bibliothèque open source qui fournit les API de Pandas avec un moteur d'execution Spark, aident les data scientist à tirer plus rapidement parti de leurs données.