Loading…
SnowCamp 2019 has ended
23rd-26th of January 2019 / 23-26 Janvier 2019, Grenoble
Back To Schedule
Friday, January 25 • 14:00 - 14:45
Contrôler le partitionnement et le cache pour optimiser les performances dans Spark

Sign up or log in to save this to your schedule, view media, leave feedback and see who's attending!

Feedback form is now closed.
Pour exploiter au maximum le calcul distribué dans Spark, il est nécessaire de contrôler le nombre de tasks dans vos jobs pour s'assurer que tous les executors Spark travaillent en continu.

Il faut également s'assurer que les données soient bien distribuées afin que la charge de travail soit équitablement partagée entre tous les executors Spark.

Enfin, savoir quand il est pertinent d'activer le cache permet d'optimiser de façon significative vos applications Spark.

Dans cette présentation, nous allons aborder tous les points ci-dessus, et montrer comment régler ces problèmes en partitionnant de manière pertinente les datasets et en adoptant une stratégie de cache adaptée.

Nous allons apprendre, au travers d’exemples concrets :

* ce qu'est une partition, comment le nombre de partitions dans un dataset est déterminé
* comment modifier le nombre de partitions pour avoir de meilleures performances
* quels sont les principaux niveaux de stockage du cache dans Spark
* à évaluer les surcoûts liés à l'utilisation du cache
* quand vous devez mettre un dataset en cache (et quand vous ne devriez pas)

Speakers
avatar for Christophe Préaud

Christophe Préaud

Kelkoo Group
Christophe Préaud ----------------------------- Big data and distributed computing enthusiast Christophe est data engineer à Kelkoo Group, en charge de la maintenance et de l'évolution de la pile technologique big data, du développement d'applications Spark et du support Spark... Read More →



Friday January 25, 2019 14:00 - 14:45 CET
Chrome 2 + 3 + 4 La Maison Minatec, 3 Parvis Louis Néel, 38000 Grenoble

Attendees (4)