Loading…
SnowCamp 2019 has ended
23rd-26th of January 2019 / 23-26 Janvier 2019, Grenoble

Sign up or log in to bookmark your favorites and sync them to your phone or calendar.

Data [clear filter]
Wednesday, January 23
 

09:30

Les mains dans Spark
Le workshop est ouvert à tous.
L'idée est de découvrir et commencer à jouer avec Spark.

Les participants en tireront une première vision de ce framework et auront vraiment pu toucher un peu son API.
Ils verront quelques cas d'usage concrets de traitement de données.

Pré-requis :
accès à https://community.cloud.databricks.com ainsi que l'accès à une adresse mail des participants (gmail, outlook, yahoo, etc) afin de se créer un compte sur le site et de jouer directement avec sans avoir besoin de rien installer.
Mais au cas où, installer avant l'atelier :
- Java JDK 8
- Scala 2.11.x
- Apache Spark 2.4.x ou Apache Spark 2.3.x.

Speakers
avatar for Nastasia Saby

Nastasia Saby

Zenika
Développeur, passionnée de programmation en général, consultante Zenika, je suis fan de Software Craftsmanship et de Big Data. J'ai commencé dans le monde PHP avant d'embrasser celui exaltant de la Big Data.


Wednesday January 23, 2019 09:30 - 12:30
Chrome 1 La Maison Minatec, 3 Parvis Louis Néel, 38000 Grenoble

14:00

Hands-on lab : Redécouvrir l'Univers connu avec des dataset de la NASA
Cela fait des années que l’humanité explore le ciel, rêvant de voyages intersidérales et de nouvelles colonies planétaires. Et toi, as-tu envie de partir avec nous à la découverte de l’univers ?

Il se trouve que la NASA possède un formidable jeu de données publiques, notamment celui qui est utilisé pour la recherche d’exoplanètes, c’est-à-dire de planètes situées en dehors de notre système solaire.
C’est ainsi que le projet HelloExoWorld a vu le jour. Son objectif ? Voir des développeurs fans d’analyse de données sont capables de participer à la recherche d’exoplanètes en utilisant ces données publiques de la NASA. Vous découvrirez durant ce talk la création du projet, les résultats actuels, ainsi que son évolution vers une communauté active.

Notes du speaker :
Le Hands-on est un dérivé de la conférence donnée au premier Warp10Meetup en octobre dernier (slides disponibles ici). L’idée est de permettre aux participants de s’initier à l’analyse de séries temporelles grâce à un jeu de données disponible en opendata.
Derrière cette initiative il y a une association, HelloExoWorld et une communauté de passionnés de l’informatique et de l’espace qui essaie de prouver qu’on peut aider la recherche depuis notre rôle de scientifique citoyen.
Le site https://helloexo.world contient tous les liens vers les ressources disponibles (Medium, Github, Google Groups).
On a fait ce lab au BreizhCamp, Devoxx France, RivieraDev et Sunny Tech, et on aimerait vraiment descendre à Grenoble pour que un nouveau publique puisse se l’approprier.
Par rapport aux speakers, nous avons tous pas mal d’expérience (Devoxx Belgique, Devoxx France, MixIT, BreizhCamp, DevFest Nantes…) et on est surtout des passionnés. Et on aime particulièrement le format lab, car pour nous c’est la meilleure façon de transmettre cette passion.

Lien sur l'atelier : https://helloexoworld.github.io/hew-hands-on

At the end of this workshop, you will:
  • Learn about Warp10, a platform designed to collect, store and manipulate sensor data.
  • learn about a NASA mission called Kepler
  • learn about time-series 
  • learn WarpScript, a language designed to manipulate time-series


Speakers
avatar for Horacio Gonzalez

Horacio Gonzalez

OVH
Malgré ce que son accent espagnol bien prononcé peut suggérer, Horacio est arrivé en France il y a une quinzaine d'années déjà. Passionné d'informatique, dans laquelle il est tombé depuis tout petit, il a découvert Java en 1997 et depuis il n'a pas arrêté de bosser autour... Read More →


Wednesday January 23, 2019 14:00 - 17:00
Chrome 3 La Maison Minatec, 3 Parvis Louis Néel, 38000 Grenoble
 
Friday, January 25
 

10:00

Avoir un train à l'heure, c'est Kafkaïen !!
Tout le monde connaît la ponctualité légendaire de la SNCF. Malheureusement, c'est souvent un ressenti subjectif, et lorsqu'il s'agit de trouver des données chiffrées objectives, on se confronte à la subjectivité de la SNCF (c’est un peu comme le nombre de manifestants selon la police ou les syndicats).

Une base de Kafka, un soupçon d’Elasticsearch, un zeste de Kubernetes, saupoudrer de Jenkins-X, voilà notre recette pour concevoir un système de prédiction de retards de trains basé sur les observations des utilisateurs.

Venez déguster le résultat en notre compagnie !
Les slides sont visibles sur slides.google.com Et le code utilisé est sur Github

Speakers
avatar for Logan HAUSPIE

Logan HAUSPIE

Zenika Lille
Consultant [@ZenikaLille](https://twitter.com/ZenikaLille) orienté vers le développement back-end et l'architecture de solution. | Avide d'explorations techniques, c'est un vrai touche à tout qui n’hésite pas à tenter de nouvelles aventures. | Speaker à ses heures autour... Read More →


Friday January 25, 2019 10:00 - 10:45
Chrome 2 + 3 + 4 La Maison Minatec, 3 Parvis Louis Néel, 38000 Grenoble

14:00

Contrôler le partitionnement et le cache pour optimiser les performances dans Spark
Pour exploiter au maximum le calcul distribué dans Spark, il est nécessaire de contrôler le nombre de tasks dans vos jobs pour s'assurer que tous les executors Spark travaillent en continu.

Il faut également s'assurer que les données soient bien distribuées afin que la charge de travail soit équitablement partagée entre tous les executors Spark.

Enfin, savoir quand il est pertinent d'activer le cache permet d'optimiser de façon significative vos applications Spark.

Dans cette présentation, nous allons aborder tous les points ci-dessus, et montrer comment régler ces problèmes en partitionnant de manière pertinente les datasets et en adoptant une stratégie de cache adaptée.

Nous allons apprendre, au travers d’exemples concrets :

* ce qu'est une partition, comment le nombre de partitions dans un dataset est déterminé
* comment modifier le nombre de partitions pour avoir de meilleures performances
* quels sont les principaux niveaux de stockage du cache dans Spark
* à évaluer les surcoûts liés à l'utilisation du cache
* quand vous devez mettre un dataset en cache (et quand vous ne devriez pas)

Speakers
avatar for Christophe Préaud

Christophe Préaud

Kelkoo Group
Christophe Préaud | ----------------------------- | Big data and distributed computing enthusiast | | Christophe est data engineer à Kelkoo Group, en charge de la maintenance et de l'évolution de la pile technologique big data, du développement d'applications Spark et du... Read More →



Friday January 25, 2019 14:00 - 14:45
Chrome 2 + 3 + 4 La Maison Minatec, 3 Parvis Louis Néel, 38000 Grenoble