Loading…
SnowCamp 2019 has ended
23rd-26th of January 2019 / 23-26 Janvier 2019, Grenoble

Sign up or log in to bookmark your favorites and sync them to your phone or calendar.

Data [clear filter]
Friday, January 25
 

10:00

Avoir un train à l'heure, c'est Kafkaïen !!
Tout le monde connaît la ponctualité légendaire de la SNCF. Malheureusement, c'est souvent un ressenti subjectif, et lorsqu'il s'agit de trouver des données chiffrées objectives, on se confronte à la subjectivité de la SNCF (c’est un peu comme le nombre de manifestants selon la police ou les syndicats).

Une base de Kafka, un soupçon d’Elasticsearch, un zeste de Kubernetes, saupoudrer de Jenkins-X, voilà notre recette pour concevoir un système de prédiction de retards de trains basé sur les observations des utilisateurs.

Venez déguster le résultat en notre compagnie !
Les slides sont visibles sur slides.google.com Et le code utilisé est sur Github

Speakers
avatar for Logan HAUSPIE

Logan HAUSPIE

Zenika Lille
Consultant [@ZenikaLille](https://twitter.com/ZenikaLille) orienté vers le développement back-end et l'architecture de solution. | Avide d'explorations techniques, c'est un vrai touche à tout qui n’hésite pas à tenter de nouvelles aventures. | Speaker à ses heures autour... Read More →


Friday January 25, 2019 10:00 - 10:45
Chrome 2 + 3 + 4 La Maison Minatec, 3 Parvis Louis Néel, 38000 Grenoble

14:00

Contrôler le partitionnement et le cache pour optimiser les performances dans Spark
Pour exploiter au maximum le calcul distribué dans Spark, il est nécessaire de contrôler le nombre de tasks dans vos jobs pour s'assurer que tous les executors Spark travaillent en continu.

Il faut également s'assurer que les données soient bien distribuées afin que la charge de travail soit équitablement partagée entre tous les executors Spark.

Enfin, savoir quand il est pertinent d'activer le cache permet d'optimiser de façon significative vos applications Spark.

Dans cette présentation, nous allons aborder tous les points ci-dessus, et montrer comment régler ces problèmes en partitionnant de manière pertinente les datasets et en adoptant une stratégie de cache adaptée.

Nous allons apprendre, au travers d’exemples concrets :

* ce qu'est une partition, comment le nombre de partitions dans un dataset est déterminé
* comment modifier le nombre de partitions pour avoir de meilleures performances
* quels sont les principaux niveaux de stockage du cache dans Spark
* à évaluer les surcoûts liés à l'utilisation du cache
* quand vous devez mettre un dataset en cache (et quand vous ne devriez pas)

Speakers
avatar for Christophe Préaud

Christophe Préaud

Kelkoo Group
Christophe Préaud | ----------------------------- | Big data and distributed computing enthusiast | | Christophe est data engineer à Kelkoo Group, en charge de la maintenance et de l'évolution de la pile technologique big data, du développement d'applications Spark et du... Read More →



Friday January 25, 2019 14:00 - 14:45
Chrome 2 + 3 + 4 La Maison Minatec, 3 Parvis Louis Néel, 38000 Grenoble