Se connecter

Ou se connecter avec
Date limite de participation :
4 juin 2014

Estimation du prix de vente de véhicules d'occasion

Il s'agit de fournir un modèle d'estimation du prix de vente de véhicules d'occasion, à une maille d'analyse la plus fine possible, à partir du descriptif et des caractéristiques du véhicule, des éléments connus de sa vie (kilométrage...), et des historiques de transaction.

Classement
1. (3) (confidentiel) Score 9,05194%
2. (2) (confidentiel) Score 9,07828%
3. (1) (confidentiel) Score 9,09577%
Ce challenge est terminé.

12 000

€ 

977

contributions

208

participants

terminé
terminé

Récompenses

  • Première place : 5 000 €
  • Deuxième place : 4 000 €
  • Troisième place : 3 000 €

Description du challenge

Il s'agit de fournir un modèle d'estimation du prix de vente des véhicules d'occasion à une maille d'analyse la plus fine possible.
Les choix de la maille d'analyse et de la méthode sont libres. En revanche, les candidats devront restituer des modèles et une approche susceptibles d'être déployés et étendus de manière industrielle à d'autres véhicules et d'autres marques. 

Les candidats disposent en base de données d'une sélection de véhicules provenant de deux marques et ayant fait l'objet de transactions entre février 2012 et juin 2013. 

Les données communiquées comportent à la fois le descriptif technique du véhicule d'occasion objet de l'échange, ses caractéristiques intrinsèques (dimensions, puissance, confort, options, prix catalogue, etc.), les données relatives à la vie de ce véhicule (kilométrage, ancienneté, frais de remise en état, etc.) mais aussi toutes les informations caractérisant la vente (date, lieu, prix de vente, type d'acheteur, etc.).

Le résultat est un jeu de données de deux colonnes et contenant l'ensemble des observations. La première colonne correspond à l'identifiant du véhicule, la seconde au prix de transaction estimé par votre modèle.

Challenge privé

Ce challenge est un challenge d'un type un peu particulier : c'est un challenge privé. C'est-à-dire que tout le monde ne peut pas participer : l'accès aux données nécessite un accord préalable et individuel de l'Organisateur du challenge.

Les données fournies, même si elles ont été partiellement masquées et anonymisées, sont en effet des données sensibles, et le candidat doit s'engager à en conserver la confidentialité.

Pour accéder aux données, vous devez faire une demande d'inscription sur la page suivante :

Vous devrez préciser dans ce formulaire vos nom et prénom, le nom de votre société ou de votre établissement si vous êtes étudiant, votre numéro de téléphone ainsi qu'un bref descriptif de votre parcours. Ces informations permettront à l'Organisateur de vous donner l'accès à ces données.

Une fois votre participation validée, vous pourrez accéder aux données sur la plateforme sécurisée :
Les données sont hébergées par notre partenaire OpenDataSoft

Vous pourrez ensuite poster vos contributions sur datascience.net en cliquant sur l'onglet "Envoyer", comme vous le feriez pour un challenge normal.

Nouveau : classements publics partiels

Désormais, sauf exception, les mesures de performance d'un modèle seront réalisées sur deux échantillons de données : 
  • Pendant toute la durée du challenge, les scores et le classement ne seront établis que sur une petite partie des données de validation. Le classement affiché ne sera donc qu'un classement estimatif, en attendant le classement réel final.
  • En parallèle, les scores seront également évalués sur l'ensemble des données de validation, mais demeureront secrets jusqu'à la fin du challenge. C'est sur cette base que sera établi le classement final.
De cette façon, les contributions s'appuyant sur une forme de sur-apprentissage pourront améliorer temporairement le classement du candidat, mais risquent de détériorer les performances du modèle quand il sera évalué sur l’échantillon complet... et potentiellement faire perdre des places au candidat dans le classement final.

Du suspense en perspective !

Filtrage des données

Dans l'échantillon d'apprentissage, les véhicules dont le prix de transaction constaté est inférieur ou égal à 1000€ doivent être filtrés. Ces montants correspondent par exemple à des véhicules anciens qui sont finalement partis à la casse.
Lors des calculs de performance, ce même critère sera appliqué sur l'échantillon de test.

Format du fichier à fournir

Le fichier que doit fournir le candidat est un fichier au format .csv, dont la structure est la suivante :

IDENTIFIANT;PRIX_ESTIME
710253;10080
710246;12005
......

Mesure de la performance

La mesure de performance sera établie sur la base du Mean Absolute Percentage Error (MAPE). 
$$M = \frac{100\%}{n} \sum_{i=1}^n | \frac{P_t - {P_t}^*}{P_t} |\ $$
où \(P_t\) est le prix de vente constaté, et \({P_t}^*\) le prix estimé par le modèle

Le test est réalisé sur un échantillon de données qui contient :
  • de nouvelles transactions concernant des véhicules uniquement présents dans l'échantillon d'apprentissage ;
  • des transactions concernant une gamme de véhicules non présente dans l'échantillon d'apprentissage.  

Le vainqueur du challenge sera défini sur la base du score obtenu sur cet échantillon. 
1. (3) (confidentiel) 58 contributions 03/06/14 18:52 Score 9,05194%
2. (2) (confidentiel) 69 contributions 03/06/14 23:30 Score 9,07828%
3. (1) (confidentiel) 90 contributions 04/06/14 01:17 Score 9,09577%
4. (6) (confidentiel) 63 contributions 03/06/14 21:05 Score 9,14375%
5. (4) (confidentiel) 101 contributions 04/06/14 08:02 Score 9,24127%
6. (5) (confidentiel) 19 contributions 04/06/14 19:24 Score 9,25048%
7. (7) (confidentiel) 84 contributions 01/06/14 22:02 Score 9,44816%
8. (8) (confidentiel) 88 contributions 22/04/14 20:16 Score 9,59501%
9. (9) (confidentiel) 29 contributions 20/05/14 00:01 Score 10,29585%
10. (10) (confidentiel) 29 contributions 16/05/14 12:28 Score 10,72654%
11. (11) (confidentiel) 12 contributions 24/05/14 22:44 Score 10,88949%
12. (12) (confidentiel) 9 contributions 04/06/14 21:54 Score 11,30900%
13. (13) (confidentiel) 5 contributions 01/04/14 08:15 Score 11,57537%
14. (14) (confidentiel) 7 contributions 26/05/14 09:40 Score 11,76500%
15. (15) (confidentiel) 24 contributions 11/03/14 17:28 Score 11,78949%
16. (16) (confidentiel) 9 contributions 03/06/14 21:39 Score 12,47729%
17. (17) (confidentiel) 6 contributions 14/05/14 15:23 Score 12,48268%
18. (18) (confidentiel) 6 contributions 21/05/14 07:34 Score 13,10958%
19. (19) (confidentiel) 9 contributions 12/04/14 15:02 Score 13,21071%
20. (20) (confidentiel) 46 contributions 13/03/14 18:38 Score 13,81935%
21. (22) (confidentiel) 5 contributions 24/05/14 15:26 Score 13,88509%
22. (21) (confidentiel) 3 contributions 07/05/14 19:20 Score 14,06159%
23. (23) (confidentiel) 2 contributions 13/05/14 22:27 Score 14,75829%
24. (24) (confidentiel) 9 contributions 01/06/14 14:32 Score 14,78855%
25. (25) (confidentiel) 9 contributions 11/05/14 18:09 Score 15,07404%
26. (26) (confidentiel) 3 contributions 04/06/14 20:37 Score 16,81138%
27. (27) (confidentiel) 10 contributions 02/06/14 10:19 Score 17,90830%
28. (28) (confidentiel) 5 contributions 19/05/14 00:02 Score 18,15354%
29. (29) (confidentiel) 12 contributions 07/05/14 00:10 Score 18,72515%
30. (30) (confidentiel) 23 contributions 14/05/14 14:08 Score 19,44455%
31. (31) (confidentiel) 3 contributions 04/06/14 23:16 Score 19,84287%
32. (32) (confidentiel) 36 contributions 14/04/14 14:18 Score 19,85676%
33. (33) (confidentiel) 4 contributions 02/06/14 06:24 Score 23,71209%
34. (34) (confidentiel) 5 contributions 11/04/14 10:22 Score 27,99418%
35. (35) (confidentiel) 1 contribution 11/04/14 17:51 Score 77,63956%
36. (36) (confidentiel) 3 contributions 23/04/14 17:44 Score 81,36994%
37. (37) (confidentiel) 7 contributions 01/05/14 18:39 Score 96,72759%
Discussions
loading... Chargement...