Se connecter

Ou se connecter avec
Date limite de participation :
30 septembre 2014

Prédiction de la fréquentation des gares SNCF en Ile-de-France

Le challenge consiste à construire un modèle permettant d’estimer efficacement le nombre de voyageurs montant par gare pour un jour de semaine, dans les gares SNCF du réseau Ile-de-France, à partir de données open data caractérisant la gare d’un point de vue SNCF (nombre de lignes, nombre de trains par jour, services en gare, etc.), mais également de données externes (caractéristiques socio-démographiques de la ville, présence de transports urbains, etc.)

Classement
1. (1) Martin P. Score 16
2. (2) Marion Paclot Score 17
3. (3) Eric Biernat Score 19
Ce challenge est terminé.

1 800 € de voyages

354

contributions

401

participants

terminé
terminé
En Ile-de-France, SNCF transporte quotidiennement plus de 3 millions de voyageurs dans ses trains Transilien. Connaître la fréquentation des gares est un enjeu essentiel pour Transilien pour proposer les aménagements, offres et services bien dimensionnés et les plus adaptés. Les déterminants de cette fréquentation sont multiples et complexes : liés à la fois à l’offre en place mais également à l’environnement proche de la gare.

L’objet de ce challenge est de tirer partie des données disponibles en open data pour élaborer un modèle prédictif du nombre de voyageurs montant dans une gare (dont seule une vision en classes est disponible) à l’aide de données la caractérisant suivant différents aspects.

Les 3 meilleurs contributeurs recevront chacun 600 € en « chèque cadeau SNCF » :

Description chèque cadeau SNCF


Parmi les 508 gares et points d’arrêts desservis du réseau Transilien, deux échantillons sont fournis pour ce challenge :
  • Un échantillon d'apprentissage : une liste de 276 gares et point d'arrêts, qui peuvent servir à établir le modèle de prévision, associés au nombre de voyageurs montant.
  • Un échantillon de test : une liste de 105 gares qui sont réservées pour le calcul de la performance du modèle.
Ces deux échantillons sont fournis sous la forme de fichiers csv.

Note importante : les valeurs associées aux gares de l'échantillon de test étant publiques, il est expressément demandé aux participants de développer une méthode qui ne tienne pas compte de ces valeurs, soit directement, soit indirectement par apprentissage.

Dans ce challenge, le participant est libre de puiser dans toutes les données publiées en open data pour élaborer son modèle prédictif. Il pourra notamment se référer aux sites data.sncf.com et data.gouv.fr pour découvrir des sources améliorant la performance des modèles développés.

On peut notamment citer :
  • Lignes par gare en Île-de-France. Points d'arrêt desservis par Transilien et liste des lignes qui les desservent. 
  • Horaires des lignes Transilien au format GTFS. Ces horaires sont les horaires théoriques mis à jour chaque semaine
  • Paniers fraîcheurs dans les gares du réseau Transilien. Dans les gares disposant du service, des maraîchers locaux vendent leurs produits directement sur les quais une fois par semaine. Chaque semaine, plus de 7 tonnes de fruits et légumes sont vendues dans les gares d'Île-de-France. 
  • Équipements d'accessibilité des gares du réseau Transilien. Equipements d'accessibilité qui sont proposés dans les gares desservies par Transilien. Sont notamment listés tous les équipements dédiés à l’accessibilité (guichets adaptés PMR, boucles magnétiques, portillons élargis,…) ainsi que les ascenseurs et escaliers mécaniques. 
  • Offre vélos et Véligo sur le réseau Transilien. Capacité des abris à vélos dans les gares du réseau Transilien et nombre d’emplacements dans les abris collectifs sécurisés Véligo, là où ce service est disponible. 

Mesure de la performance

La performance des modèles sera calculée selon la matrice de confusion dont les coûts les suivants :

Valeur de référence / valeur prédite Moins de 300 voyageurs/jour Entre 300 et 1000 voyageurs/jour Entre 1000 et 5000 voyageurs/jour Entre 5000 et 15000 voyageurs/jour Plus de 15000 voyageurs/jour
Moins de 300 voyageurs/jour 0 1 2 3 4
Entre 300 et 1000 voyageurs/jour 1 0 1 2 3
Entre 1000 et 5000 voyageurs/jour 2 1 0 1 2
Entre 5000 et 15000 voyageurs/jour 3 2 1 0 1
Plus de 15000 voyageurs/jour 4 3 2 1 0

Format du fichier à fournir

Le fichier que doit fournir le candidat est un fichier au format .csv, dont la structure est la suivante :

Code UIC;Classe estimée
87381848;entre 1000 et 5000
87415893;entre 300 et 1000
......

Les livrables

Les lauréats devront fournir la méthode utilisée :
  • Sous la forme d’un rapport explicitant la démarche proposée, le formalisme mathématique retenu et les choix d’implémentations. Ce rapport devra décrire les algorithmes utilisés pour l’élaboration du modèle prédictif mais aussi le pré-traitement des données.
  • Les fichiers de données utilisés (sous licence open source) et les codes sources développés permettant de reproduire les résultats devront être fournis avec une notice explicative. Ils peuvent être développés en SAS®, R ou tout logiciel open source.

Participants ex-aequo

En cas de scores identiques, c'est la date de la contribution ayant le meilleur score qui servira à départager les candidats.
1. (1) Martin P. 3 contributions 30/09/14 18:45 Score 16
2. (2) Marion Paclot 3 contributions 30/09/14 00:45 Score 17
3. (3) Eric Biernat 3 contributions 30/09/14 23:54 Score 19
4. (4) Matt Sco 4 contributions 29/09/14 15:57 Score 22
5. (5) Maxime Gasse 6 contributions 30/09/14 23:56 Score 23
6. (6) Christophe Bourguignat 7 contributions 30/09/14 23:12 Score 25
7. (7) ISPF 8 contributions 05/08/14 04:05 Score 31
8. (8) Raywat Makkhongkaew 3 contributions 14/09/14 19:56 Score 31
9. (9) Vinz 4 contributions 05/09/14 21:15 Score 32
10. (10) Arnaud de Myttenaere 2 contributions 21/07/14 22:05 Score 33
11. (11) VALADIER François 4 contributions 09/09/14 16:10 Score 33
12. (12) Raphaëlle Suard 4 contributions 30/09/14 17:34 Score 33
13. (13) Abdelkrim Hadjidj 7 contributions 30/09/14 21:37 Score 33
14. (14) Bob Curator 7 contributions 16/07/14 20:16 Score 35
15. (15) Frédéric Kozlowski 3 contributions 30/09/14 20:11 Score 35
16. (16) Thierry Silbermann 4 contributions 18/09/14 18:06 Score 37
17. (17) Olivier Kahn 4 contributions 11/07/14 10:24 Score 38
18. (18) Stéphane FENIAR 1 contribution 28/09/14 20:20 Score 38
19. (19) Guillaume Ferry 5 contributions 29/09/14 20:40 Score 38
20. (20) Jeremy Atia 1 contribution 30/09/14 08:23 Score 38
21. (21) Thomas PALUGAN 9 contributions 08/07/14 15:47 Score 39
22. (22) Romain Ayres 1 contribution 22/07/14 20:45 Score 39
23. (23) Marouane Azlaf 2 contributions 23/09/14 23:43 Score 40
24. (24) Amina Bouabdallah 2 contributions 29/09/14 21:31 Score 40
25. (25) Thierry Moudiki 6 contributions 30/09/14 23:13 Score 40
26. (26) AlbanC 2 contributions 17/08/14 10:51 Score 41
27. (27) Alexis Marceau 1 contribution 16/09/14 16:35 Score 41
28. (28) DL 27 contributions 22/09/14 21:04 Score 41
29. (29) Benjamin Goupil 2 contributions 06/07/14 23:25 Score 42
30. (30) Gabriel Dissard 2 contributions 20/08/14 14:11 Score 43
31. (31) Yolan Honoré-Rougé 5 contributions 30/09/14 11:43 Score 43
32. (32) Arthur Flam 1 contribution 06/07/14 17:37 Score 44
33. (33) Yass B 11 contributions 12/07/14 15:01 Score 44
34. (34) François Dupont 3 contributions 03/07/14 21:30 Score 47
35. (35) QIU Jiqiong 14 contributions 15/09/14 18:19 Score 47
36. (36) AshtonIzmev 1 contribution 29/09/14 01:26 Score 47
37. (37) Ludovic Gibert 14 contributions 12/09/14 16:41 Score 48
38. (38) Abdelhadi DANBA 2 contributions 12/08/14 17:33 Score 49
39. (39) aaron 2 contributions 27/09/14 16:46 Score 50
40. (40) nicolas maillard 6 contributions 14/09/14 18:37 Score 51
41. (41) Mohamed TSOULI 2 contributions 16/09/14 11:58 Score 51
42. (42) soline leblanc 2 contributions 30/08/14 23:46 Score 52
43. (43) Franck Coppolani 5 contributions 28/09/14 21:33 Score 56
44. (44) Vincent Labbé 4 contributions 06/07/14 13:20 Score 58
45. (45) Guiba 8 contributions 26/08/14 10:12 Score 58
46. (46) Redakle 6 contributions 25/09/14 15:32 Score 58
47. (47) root 5 contributions 14/08/14 17:09 Score 62
48. (48) p v 6 contributions 17/07/14 00:42 Score 64
49. (49) Rtest 2 contributions 25/08/14 17:44 Score 65
50. (50) Frédéric Logé 10 contributions 30/09/14 23:22 Score 65
51. (51) Berkane Meriem 2 contributions 12/09/14 15:24 Score 66
52. (52) Boris Demay 2 contributions 20/09/14 07:00 Score 66
53. (53) Heybo 7 contributions 28/07/14 14:15 Score 75
54. (54) kev 5 contributions 29/07/14 16:14 Score 79
55. (55) uguelo 1 contribution 12/09/14 16:51 Score 90
56. (56) Thibault POISSONNIER 2 contributions 23/06/14 17:29 Score 91
57. (57) bsoun 1 contribution 12/09/14 15:32 Score 99
58. (58) Elie 2 contributions 22/09/14 23:18 Score 103
Discussions
loading... Chargement...