Big data

Mission : pour la start-up Crowdify, créer un environnement Big-Data pour y concevoir et y faire fonctionner des algorithmes de machine learning dans le but d’étudier les flux de mobilités humains dans les villes.

Crowdify : plateforme logicielle de crowd-sensing permettant la collecte de données auprès de communautés mobiles privées.
Christophe Ribeiro, son PDG, porte son intérêt sur les données générées par les objets connectés et les futures évolutions des comportements que ces derniers vont apporter. Il a travaillé sur les thématiques de Crowdsensing et de mobilité en tant qu’ingénieur à l’Inria et dans l’industrie.

Elève-ingénieur : Projet de fin d’études de Kévin en dernière année de Génie informatique et statistique

Contexte : les flux de mobilité dans les villes est un enjeu actuel très important. Dans un monde qui s’urbanise chaque jour un peu plus, les villes deviennent de plus en plus complexes à comprendre et à administrer. Étudier les mouvements des hommes dans les villes permet de rendre ces dernières plus intelligentes (“smart cities”) et mieux adaptées à nos modes de vie.

Grâce à l’équipe SPIRALS de l’Inria et à la start-up Crowdify, la technologie Apisense permet de remonter les données de mobilités depuis les smartphones. Ces données brutes, si elles sont correctement traitées avec les bons algorithmes de machine learning, permettent de connaître les habitudes des habitants, les points et les heures de forte influence, les types de transport en commun les plus utilisés, etc… Bien sur, en plus de la mise en place des algorithmes, ce type de projet demande aussi la création et la maintenance d’une plate-forme Big-Data capable à la fois de stocker et de traiter toutes ces données.

Résultat : à la fin du projet de fin d’étude, une plate-forme opérationnelle regroupant plusieurs outils de Big-Data, était disponible sur le cloud de Microsoft. Après avoir étudié les données de mobilités, Kevin a du choisir le meilleur algorithme pour détecter les zones de forte influences dans une ville. Le clustering à été la méthode retenue. Les données sont traitées grâce à l’outil Spark spécialisé dans la Big-Data. Une fois les zones de forte influence détectées, elles sont affichées sur une page internet. Il reste encore à tester cet algorithme sur un volume de données très important pour tester sa robustesse.