Himanshu Arora | Devoxx

Himanshu Arora
Himanshu Arora Twitter

From NeoLynk

Himanshu Arora is a passionate Senior Data Engineer from Paris. He is currently working for NeoLynk. He has been using Scala, Reactive systems and Big data stack for a few years now in production to help enterprises accelerate digital transformation. He is a Lightbend certified expert on Scala, Play, Akka and FastData and Databricks certified Spark developer. He loves to be a reactive and functional programming advocate. He contributes time to time in open source community and participates in scala, data, FP and reactive system conferences around the globe.

Blog: https://www.linkedin.com/in/himanshu-arora-78709156/

bigd Big Data, Machine Learning, Analytics

10 choses que j'aurais aimé savoir avant d'utiliser Spark en production

Conference

Vous avez récemment commencé à travailler sur Spark et vos jobs prennent une éternité pour se terminer? Ce talk est pour vous!

Nous avons rassemblé de nombreuses bonnes pratiques, optimisations et ajustements que nous avons appliqués au fil des années en production pour rendre nos jobs plus rapides et moins consommateurs de ressources. Dans ce talk, nous allons apprendre les techniques avancées d'optimisation de spark tuning, les formats de serialisation des données, les formats de stockage, les optimisations hardware, contrôle sur la parallélisme, paramétrages de resource manager, meilleur data localité et l'optimisation du GC etc.

Nous découvrirons également l'utilisation appropriée de RDD, DataFrame et Dataset afin de bénéficier pleinement des optimisations internes apportées par Spark.