Se connecter

Ou se connecter avec

Bravo à Mathilde Didier, qui a gagné le premier challenge de datascience.net

Découvrons qui est Mathilde, et comment a-t-elle gagné ce challenge. Elle nous raconte son expérience.

Le 19/12/2013
Pouvez-vous vous présenter en quelques mots ?

Après une classe préparatoire scientifique (filière PC*) au lycée Henri IV, j'ai intégré l'École Polytechnique. J’y ai suivi une formation scientifique, avec beaucoup de cours de physique et chimie. Ces matières m’intéressent beaucoup, mais conduisent essentiellement à  la recherchece qui m’attirait beaucoup moins, et j'ai choisi d'intégrer le corps de l'Insee. Je suis donc arrivée l’année dernière à l'ENSAE (où sont formés les administrateurs de l’Insee), où la formation est centrée sur l’économie, l’économétrie et les statistiques. Je suis actuellement en 3e année, dans la voie "datascience, statistique et apprentissage". C’est d’ailleurs par l’ENSAE que j’ai eu connaissance du site datascience.net.
 
Pouvez-vous nous dire ce qui vous a poussé à rejoindre datascience.net (l’intérêt scientifique, le côté ludique, le volet financier...) ?
Les trois !! L'intérêt scientifique bien sûr, puisque c'était l'occasion de tester les méthodes apprises à l'ENSAE sur une problématique bien réelle. Le côté ludique puisque c'est un jeu, un concours, bref, c'est beaucoup plus motivant qu'un projet purement scolaire. Et évidemment les 1000 euros en jeu ne gâchent rien. J’ai remarqué aussi que la population féminine était sous-représentée dans ce challenge, il fallait y remédier.
 
Pouvez-vous nous raconter l’expérience que vous avez vécue sur ce challenge ?
J’ai tout de suite apprécié le critère d’évaluation : il ne s'agit pas de proposer forcément un modèle académique aux fondements théoriques complexes, mais de proposer quelque chose qui marche selon un critère que tout le monde connaît.
 
Vous avez été inquiète en voyant d’autres candidats vous passer devant ?
Cela ne m'a pas tellement angoissée de voir d'autres candidats me passer devant, d’autant que j’en connais certains, cela m'a plutôt motivée pour trouver comment améliorer mon modèle…
 
Quelle méthode avez-vous utilisée ? Sur ce challenge, les candidats avaient la possibilité d'utiliser toute source de données externe qu'ils souhaitaient. Quelles sources avez-vous utilisées ? 
Les séries temporelles ne sont pas forcément mon point fort et j'étais sûre que si c'était la bonne manière de procéder, il y aurait d'autres candidats qui maîtriseraient le sujet mieux que moi, j'ai donc tout de suite cherché une autre méthode.
 
Pour construire mon modèle, j'ai commencé par tracer les données existantes : il apparaît alors que les variations quotidiennes de la consommation sont toujours assez similaires, et dépendent principalement du fait que le jour considéré soit un jour ouvré ou non, et du moment de l'année (en raison des variations de température). Pour les dimanches, on remarque également que la consommation reste généralement très faible, sauf quelques dimanches imprévisibles où elle ressemble plus aux autres jours de la semaine.
J'ai d’abord utilisé des régressions linéaires, sans donnée annexe, puis en incluant des températures journalières trouvées sur wunderground.com. Mais les résultats étaient moyens, et cela enfreignait un peu les règles du jeu puisque les températures utilisées pour la prédiction en 2013 avaient été obtenues a posteriori, et qu'on ne sait pas prévoir la température précisément 3 mois à l'avance. J'ai donc changé de méthode, et j'ai essayé quelque chose de beaucoup plus basique : j'ai moyenné les consommations observées pour les années 2010, 2011 et 2012, en décalant de quelques jours pour faire coïncider les dimanches, ce qui permet de prendre en compte la température indirectement. Les résultats étaient déjà meilleurs. Ensuite, j'ai gommé l'effet des dimanches imprévisibles en maximisant la consommation des dimanches et jours fériés par la médiane des consommations observées le dimanche en 2012 (qui correspond en gros à la borne supérieure de la consommation des dimanches réguliers). J'ai terminé en lissant mes prédictions (en remplaçant la prédiction d'un intervalle de 10 minutes par une moyenne pondérée des prédictions sur 5 intervalles consécutifs), ce qui donne améliore un peu les résultats avec le critère considéré.
 
Qu'avez-vous pensé de cette première version du site ? Quels types d'améliorations aimeriez-vous y voir apportés ?
Je trouve que le site est plutôt bien fait, notamment l’espace d’échange qui permet de poser des questions au cours du challenge. Il serait intéressant de savoir qui sont les participants, mais je suis plutôt mal placée pour donner ce conseil vu que je n’ai pas encore complété mon profil. Je serait également curieuse de connaître les modèles proposés par les autres candidats, d’autant que les résultats étaient assez proches.
 
Merci Mathilde, et à bientôt sur le prochain challenge !