JPJ-2087 10 choses que j'aurais aimé savoir avant d'utiliser Spark en production | Devoxx

10 choses que j'aurais aimé savoir avant d'utiliser Spark en production

Conference

bigd Big Data, Machine Learning, Analytics Intermediate

Neuilly 253

Thursday 11:45 - 12:30

Vous avez récemment commencé à travailler sur Spark et vos jobs prennent une éternité pour se terminer? Ce talk est pour vous!

Nous avons rassemblé de nombreuses bonnes pratiques, optimisations et ajustements que nous avons appliqués au fil des années en production pour rendre nos jobs plus rapides et moins consommateurs de ressources. Dans ce talk, nous allons apprendre les techniques avancées d'optimisation de spark tuning, les formats de serialisation des données, les formats de stockage, les optimisations hardware, contrôle sur la parallélisme, paramétrages de resource manager, meilleur data localité et l'optimisation du GC etc.

Nous découvrirons également l'utilisation appropriée de RDD, DataFrame et Dataset afin de bénéficier pleinement des optimisations internes apportées par Spark.

 Apache Spark    Big Data    optimisations  
Room Neuilly 253
Himanshu Arora Himanshu Arora

Himanshu Arora is a passionate Senior Data Engineer from Paris. He is currently working for NeoLynk. He has been using Scala, Reactive systems and Big data stack for a few years now in production to help enterprises accelerate digital transformation. He is a Lightbend certified expert on Scala, Play, Akka and FastData and Databricks certified Spark developer. He loves to be a reactive and functional programming advocate. He contributes time to time in open source community and participates in scala, data, FP and reactive system conferences around the globe.

Nitya Nand YADAV Nitya Nand YADAV

Nitya Nand YADAV is a data engineer based in Paris and currently at NeoLynk. He has been working in the domain of Big Data since last few years and worked with different French companies as a software developer on Hadoop stack. He worked on several projects in different sectors as a data engineer and helped build software of production level from scratch. He is a Big Data enthusiast, he believes in learning, sharing and encouraging people to learn and adopt modern technologies.