Se connecter

Ou se connecter avec

Félicitations à Charles, qui a remporté le challenge "Prédiction d'intervalles de températures"

Découvrons comment Charles a procédé pour obtenir le meilleur modèle sur le challenge.

Le 27/02/2014
Bonjour Charles. Peux-tu s’il te plait te présenter en quelques mots ?
 
Bonjour à tous et tout d’abord merci à toute l’équipe de datascience.net pour l’organisation de ces challenges très intéressants.
 
Ancien élève de l’école Polytechnique (promotion 2004), j’ai suivi les cours de finance quantitative lors de ma scolarité à l’ENSAE et à Dauphine (la voie « datascience, statistique et apprentissage » n’existait pas à l’époque). Après une première expérience en finance de marché, j’ai rejoint en 2009 le cabinet MAPP qui réalise des analyses économiques, théoriques et/ou quantitatives pour déterminer l’impact d’une fusion, analyser un abus de position dominante, calculer un dommage, valoriser certains actifs, etc.
 
Chez MAPP, tu travailles sur des sujets qui sont a priori sans rapport direct avec le domaine d’application de ce challenge. Peux-tu nous dire ce qui t’a poussé à y participer ?
 
Nous utilisons très souvent chez MAPP des modèles économétriques mais quasi-systématiquement dans un cadre non supervisé, c’est-à-dire sans pouvoir comparer les prédictions obtenues avec la réalité. Un exemple simple est l’utilisation de régressions pour estimer l’impact d’un cartel sur le niveau des prix sur un marché donné. Le surprix estimé ne peut pas être confronté à la réalité dans la mesure où les prix en l’absence du cartel n’ont jamais pu être observés « toutes choses égales par ailleurs ». J’étais donc très curieux de participer à ce challenge où la qualité d’un modèle était jugée d’après sa capacité à prédire plutôt que d’après sa capacité à expliquer l’observé (ce qui arrive malheureusement très fréquemment dans les problèmes non-supervisés).
 
Peux-tu nous décrire les grands principes du modèle que tu as utilisé, ainsi que les raisons qui t’ont conduit à adopter cette forme de modélisation ?
 
L’outil à mon sens le plus pertinent pour traiter le problème était la régression quantile. J’ai testé un grand nombre de spécifications sur l’échantillon d’apprentissage pour obtenir le modèle le plus robuste (coefficients très significatifs et « stables », pseudo R2 élevé, etc.) et avec le plus grand caractère prédictif.
 
Le modèle retenu en définitive comporte des versions laggées des différentes variables météorologiques renseignées initialement dans la base mais également des versions quadratiques ou « croisées » de ces variables. J’ai également testé des spécifications avec des variables composites (comme l’écart-type de la vitesse du vent au cours des trois derniers jours ou encore une formule physique donnant une approximation du taux d’humidité dans l’air à partir des variables communiquées initialement).
 
Plusieurs astuces m’ont par ailleurs permis d’améliorer mon modèle :
  • Dans la mesure où il était nécessaire d’avoir au moins 95% des valeurs observées dans les intervalles prédits, la régression quantile devrait en théorie porter sur les quantiles à 2,5% et 97,5%. En pratique, l’estimation des quantiles extrêmes donnait généralement des résultats très peu convaincants (faible pseudo - R2, coefficients peu significatifs ou absurdes, faible pouvoir prédictif, etc.). Par conséquent, la majeure partie des spécifications ont été testées avec des quantiles à 5% et 95%. Différentes méthodes m’ont permis par la suite d’estimer l’écart interquartile de 2,5% restant aux deux queues de la distribution.
  • Lors de mes nombreux tests de spécification, je me suis aperçu que les variables relatives au 4ème et 5ème jours précédents n’étaient quasiment jamais significatives. Je me suis par conséquent volontairement restreint à des variables construites uniquement à partir des données des 3 jours précédents. Cela m’a permis de compléter l’échantillon d’apprentissage avec l’échantillon d’évaluation et d’effectuer les régressions avec 84 observations supplémentaires (initialement l’idée était également de capter les spécificités propres aux années 1982 et 1983 mais l’expérience m’a montré que les coefficients relatifs aux effets fixes année n’étaient généralement pas significatifs).
  • La précision des températures renseignées dans la base communiquée est de 0,1 degré.  On pouvait logiquement en déduire qu’il en était de même pour les 42 observations à prédire. Ce constat a permis de réduire sensiblement la taille des intervalles sans nuire au critère des 95% (à titre d’exemple, une borne inférieure de 4,23 pouvait être mise à 4,3).
  • En principe, les résultats pourraient être encore améliorés en sélectionnant des variables différentes pour chacune des deux régressions quantiles. En pratique, cette idée n’a pas conduit à une amélioration significative des résultats. Une autre idée (non testée) aurait consisté à utiliser des outils permettant d’estimer simultanément les deux quantiles (car a priori de l’information peut être déduite également de l’écart interquartile).
 
Pour finir, peux-tu nous faire part des évolutions qu’il te semblerait utile ou nécessaire de mettre en oeuvre sur notre plate-forme, pour en faire un outil de référence dans le domaine de la Data Innovation ?
 
Voici quelques suggestions d’améliorations :
1/ Partager le prix, en l’espèce de 1000 euros, entre le premier et le second, selon une règle à définir, pour les raisons suivantes :
  • Cela permet à l’entreprise ayant organisé le challenge de récupérer de l’information sur deux modèles potentiellement assez différents.
  • Cela limite un peu plus les incitations des candidats à améliorer leur modèle à la marge (et en particulier comme dans ce challenge de pratiquer de l’ « over-fitting » sur l’échantillon d’évaluation) pour terminer dans les premiers.
2/ Proposer des challenges ayant une composante plus « big data » (avec par exemple des données non structurées comme des images, des bandes-son, etc.). En effet, il me semble que c’est une des caractéristiques des défis qui se posent aujourd’hui en data science au-delà des aspects statistiques du problème (cela suppose évidemment qu’il y ait des entreprises demandeuses !).
 
Merci beaucoup Charles pour ton témoignage, et à bientôt sur un prochain challenge !