Se connecter

Ou se connecter avec
Date limite de participation :
21 janvier 2014

Prédiction d'intervalles de températures

L'objectif est de prévoir les meilleurs intervalles de températures de la ville de Candelia à partir des données météorologiques sur cette ville des cinq jours précédents. La qualité est mesurée par la longueur moyenne des intervalles. Le livrable est un ensemble d'intervalles.

Classement
1. (11) Charles de Ravel d'Esclapon Score 4,521628
2. (2) Matthieu Bizien Score 4,414738
3. (1) Alexis D Score 5,414286
Ce challenge est terminé.

1 000

€ 

445

contributions

52

participants

terminé
terminé

Félicitations à Charles, qui a remporté ce challenge.

Commençons par demander à Arnak Dalalian, enseigant-chercheur au CREST, de nous parler un peu de ce challenge, avant de découvrir comment Charles a procédé pour obtenir le meilleur modèle. 
Le 07/02/2014

Bonjour, tout d'abord un grand merci au CREST pour avoir proposé ce beau challenge. Peux-tu nous parler des difficultés rencontrées par les participants sur ce challenge ? 

A. Dalalian : Certains candidats ont utilisé une approche scientifique difficilement répliquable sur d'autres jeux de données, l'ajustement successif de paramètres opéré pour obtenir le meilleur modèle revenant, peu ou prou, à utiliser les données d'évaluation dans la procédure d'apprentissage. La nature du challenge et des données associées ouvraient effectivement la porte à ce type d'ajustement, et ce point a fait d'ailleurs l'objet de quelques discussions entre les participants en cours de compétition. Nous avons donc été très attentifs à la démarche scientifique adoptée lors de la validation des modèles proposés.

Peux-tu nous dire pourquoi le modèle de Charles a-t-il été retenu sur ce challenge ? 

A. Dalalian Charles, qui a proposé un modèle dont le score est très légèrement inférieur à celui de Matthieu, a proposé une approche scientifiquement très intéressante, qui ne s'appuie pas sur l'utilisation indirecte des données de test. Il a donc été jugé plus robuste et plus conforme à l'esprit du challenge.

Merci beaucoup Arnak. Ce challenge et les discussions qui y ont eu lieu nous ont fait beaucoup progresser dans notre réflexion sur les problématiques de sur-apprentissage. Nous annoncerons très bientôt à ce sujet des évolutions sur le fonctionnement de la plateforme pour améliorer encore l'expérience proposée. Demandons maintenant à Charles de nous parler un peu de son approche.
*
*    *

Bonjour Charles. Après analyse des modèles proposés par les différents candidats éligibles, tu as été déclaré vainqueur du deuxième challenge organisé sur datascience.net, par le comité en charge de l’instruction des dossiers. Nous te félicitons pour cela. Peux-tu s’il te plait te présenter en quelques mots ?

Charles : Bonjour à tous et tout d’abord merci à toute l’équipe de datascience.net pour l’organisation de ces challenges très intéressants.

Ancien élève de l’école Polytechnique (promotion 2004), j’ai suivi les cours de finance quantitative lors de ma scolarité à l’ENSAE et à Dauphine (la voie « datascience, statistique et apprentissage » n’existait pas à l’époque). Après une première expérience en finance de marché, j’ai rejoint en 2009 le cabinet MAPP qui réalise des analyses économiques, théoriques et/ou quantitatives pour déterminer l’impact d’une fusion, analyser un abus de position dominante, calculer un dommage, valoriser certains actifs, etc.

Chez MAPP, tu travailles sur des sujets qui sont a priori sans rapport direct avec le domaine d’application de ce challenge. Peux-tu nous dire ce qui t’a poussé à y participer ?

Charles : Nous utilisons très souvent chez MAPP des modèles économétriques mais quasi-systématiquement dans un cadre non supervisé, c’est-à-dire sans pouvoir comparer les prédictions obtenues avec la réalité. Un exemple simple est l’utilisation de régressions pour estimer l’impact d’un cartel sur le niveau des prix sur un marché donné. Le surprix estimé ne peut pas être confronté à la réalité dans la mesure où les prix en l’absence du cartel n’ont jamais pu être observés « toutes choses égales par ailleurs ». J’étais donc très curieux de participer à ce challenge où la qualité d’un modèle était jugée d’après sa capacité à prédire plutôt que d’après sa capacité à expliquer l’observé (ce qui arrive malheureusement très fréquemment dans les problèmes non-supervisés).

Peux-tu nous décrire les grands principes du modèle que tu as utilisé, ainsi que les raisons qui t’ont conduit à adopter cette forme de modélisation ?

Charles : L’outil à mon sens le plus pertinent pour traiter le problème était la régression quantile. J’ai testé un grand nombre de spécifications sur l’échantillon d’apprentissage pour obtenir le modèle le plus robuste (coefficients très significatifs et « stables », pseudo R2 élevé, etc.) et avec le plus grand caractère prédictif.

Le modèle retenu en définitive comporte des versions laggées des différentes variables météorologiques renseignées initialement dans la base mais également des versions quadratiques ou « croisées » de ces variables. J’ai également testé des spécifications avec des variables composites (comme l’écart-type de la vitesse du vent au cours des trois derniers jours ou encore une formule physique donnant une approximation du taux d’humidité dans l’air à partir des variables communiquées initialement).

Plusieurs astuces m’ont par ailleurs permis d’améliorer mon modèle :
  • Dans la mesure où il était nécessaire d’avoir au moins 95% des valeurs observées dans les intervalles prédits, la régression quantile devrait en théorie porter sur les quantiles à 2,5% et 97,5%. En pratique, l’estimation des quantiles extrêmes donnait généralement des résultats très peu convaincants (faible pseudo - R2, coefficients peu significatifs ou absurdes, faible pouvoir prédictif, etc.). Par conséquent, la majeure partie des spécifications ont été testées avec des quantiles à 5% et 95%. Différentes méthodes m’ont permis par la suite d’estimer l’écart interquartile de 2,5% restant aux deux queues de la distribution.
  • Lors de mes nombreux tests de spécification, je me suis aperçu que les variables relatives au 4ème et 5ème jours précédents n’étaient quasiment jamais significatives. Je me suis par conséquent volontairement restreint à des variables construites uniquement à partir des données des 3 jours précédents. Cela m’a permis de compléter l’échantillon d’apprentissage avec l’échantillon d’évaluation et d’effectuer les régressions avec 84 observations supplémentaires (initialement l’idée était également de capter les spécificités propres aux années 1982 et 1983 mais l’expérience m’a montré que les coefficients relatifs aux effets fixes année n’étaient généralement pas significatifs).
  • La précision des températures renseignées dans la base communiquée est de 0,1 degré.  On pouvait logiquement en déduire qu’il en était de même pour les 42 observations à prédire. Ce constat a permis de réduire sensiblement la taille des intervalles sans nuire au critère des 95% (à titre d’exemple, une borne inférieure de 4,23 pouvait être mise à 4,3).
  • En principe, les résultats pourraient être encore améliorés en sélectionnant des variables différentes pour chacune des deux régressions quantiles. En pratique, cette idée n’a pas conduit à une amélioration significative des résultats. Une autre idée (non testée) aurait consisté à utiliser des outils permettant d’estimer simultanément les deux quantiles (car a priori de l’information peut être déduite également de l’écart interquartile).

Pour finir, peux-tu nous faire part des évolutions qu’il te semblerait utile ou nécessaire de mettre en oeuvre sur notre plate-forme, pour en faire un outil de référence dans le domaine de la Data Innovation ?

Charles : Voici quelques suggestions d’améliorations :
1/ Partager le prix, en l’espèce de 1000 euros, entre le premier et le second, selon une règle à définir, pour les raisons suivantes :
  • Cela permet à l’entreprise ayant organisé le challenge de récupérer de l’information sur deux modèles potentiellement assez différents.
  • Cela limite un peu plus les incitations des candidats à améliorer leur modèle à la marge (et en particulier comme dans ce challenge de pratiquer de l’ « over-fitting » sur l’échantillon d’évaluation) pour terminer dans les premiers.
2/ Proposer des challenges ayant une composante plus « big data » (avec par exemple des données non structurées comme des images, des bandes-son, etc.). En effet, il me semble que c’est une des caractéristiques des défis qui se posent aujourd’hui en data science au-delà des aspects statistiques du problème (cela suppose évidemment qu’il y ait des entreprises demandeuses !).

Merci beaucoup Charles pour ton témoignage, et à bientôt sur un prochain challenge !

Prédire des intervalles

Il est demandé aux participants de proposer des intervalles de prédiction les plus petits possibles pour les températures moyennes à partir de la connaissance des variables météorologiques des cinq jours précédents pour les 6èmes et 21èmes jours de chaque mois sur une période de 21 mois.

Les données Fournies

Les participants du challenge ont accès à deux jeux de données :

  • "temperature-apprentissage" est l'échantillon d'apprentissage. Il contient les valeurs de différentes variables météorologiques de Candelia pour 2733 jours consécutifs (à peu près 7 ans et demi).
  • "temperature-evaluation" contient pour 21 mois consécutifs les valeurs des variables météorologiques pour les jours 1-5 et 16-20 de chaque mois.

Les variables météorologiques sont les suivantes :

AAAAMMJJ
La date à laquelle les mesures ont été faites. Par exemple, 19820508 correspond à la date du 8 mai 1982. (Attention, l'année est fictive)
TEMP
La température moyenne de la journée (en degrés Celsius)
PROS
Point de rosée moyen de la journée (en degrés Celsius)
N1
Le nombre d'observations utilisées pour calculer les deux variables précédentes
VISIB
La visibilité moyenne de la journée (en km)
N2
Le nombre d'observations utilisées pour calculer la visibilité moyenne
VITV
La vitesse moyenne du vent dans la journée (en km/h)
N3
Le nombre d'observations utilisées pour calculer la vitesse du vent moyenne
MXVIT
La vitesse du vent maximale de la journée (en km/h)
MAX
La température maximale de la journée (en degrés Celsius)
MIN
La température minimale de la journée (en degrés Celsius)

Le fichier de résultats

Le résultat est un jeu de données de trois colonnes et 42 observations. La première colonne correspond à la date concernée, au même format que dans le fichier d'origine, la deuxième colonne correspond à la valeur inférieure de l'intervalle, la troisième colonne à la valeur supérieure de prédiction.

Le fichier que doit fournir le candidat est un fichier au format .csv, dont la structure est la suivante :

AAAAMMJJ;BORNEMIN;BORNEMAX
19820106;-6,6;
-1,6
19820121;
-7,2;-1,2
19820206;
-9,1;-7,1
...
......

Formule d'évaluation

Le but est de fournir les intervalles les plus étroits possible, qui contiennent dans plus de 95% des cas les vraies valeurs.

Soient \(X = {X_1, ..., X_{42}}\) les vraies valeurs des températures qu'on cherche à prédire.

Soient \(I = {[a_1, b_1], ..., [a_{42}, b_{42}]}\) les intervalles de prévision soumis par le participant.

\(P(I, X)\) = pourcentage des points \(X_i\) qui se trouvent dans l'intervalle \([a_i, b_i]\).

\(L(I)\) et la longueur moyenne des intervalles de prédiction \([a_i, b_i]\).

Le vainqueur est celui qui minimise la longueur moyenne \(L(I)\) avec \(P(I, X) > 95\%\).

1. (11) Charles de Ravel d'Esclapon 36 contributions 21/01/14 20:39 Score 4,521628
2. (2) Matthieu Bizien 110 contributions 21/01/14 23:55 Score 4,414738
3. (1) Alexis D 51 contributions 08/01/14 13:39 Score 5,414286
4. Benoit Thieurmel 13 contributions 20/01/14 20:12 Score 5,770238
5. (3) Mathilde Didier 16 contributions 31/12/13 11:03 Score 5,914286
6. (4) Aoxi 100 contributions 15/01/14 18:11 Score 6,000000
7. tanya artioli 8 contributions 20/01/14 23:08 Score 6,147619
8. (5) Bertrand Marc 7 contributions 18/01/14 10:48 Score 6,489670
9. (6) Cédric Faucheux 5 contributions 05/12/13 11:50 Score 6,664855
10. Tanguy Foujols 6 contributions 20/01/14 20:31 Score 7,694433
11. (7) robin girard 13 contributions 07/01/14 11:30 Score 8,901037
12. (8) Vitali Marrenra 7 contributions 15/12/13 01:22 Score 9,792988
13. (9) Louis Kuhn 22 contributions 28/11/13 11:51 Score 999 999,00
14. A B 2 contributions 20/01/14 16:16 Score 999 999,00
15. (10) Maxime Havez 1 contribution 01/12/13 22:47 Score 999 999,00
16. Jean-Gabriel Despeyroux 6 contributions 20/01/14 18:51 Score 999 999,00
Discussions
loading... Chargement...