Se connecter

Ou se connecter avec
Date limite de participation :
17 décembre 2013

Prévision de consommation d'électricité d'un site tertiaire

Le challenge consiste à proposer un modèle de prévision à moyen terme de la consommation d'électricité d'un site tertiaire d'un industriel, par tranche de 10 minutes.

Classement
1. (1) Mathilde Didier Score 388,337905
2. (2) LEPLATOIS Pierre Score 398,596567
3. (3) Matthieu T Score 415,728613
Ce challenge est terminé.

1 000

€ 

259

contributions

44

participants

terminé
terminé

Bravo à Mathilde Didier, qui a gagné le premier challenge de datascience.net

Découvrons qui est Mathilde, et comment a-t-elle gagné ce challenge. Elle nous raconte son expérience. 
Le 19/12/2013

Pouvez-vous vous présenter en quelques mots ?
Après une classe préparatoire scientifique (filière PC*) au lycée Henri IV, j'ai intégré l'École Polytechnique. J’y ai suivi une formation scientifique, avec beaucoup de cours de physique et chimie. Ces matières m’intéressent beaucoup, mais conduisent essentiellement à  la recherchece qui m’attirait beaucoup moins, et j'ai choisi d'intégrer le corps de l'Insee. Je suis donc arrivée l’année dernière à l'ENSAE (où sont formés les administrateurs de l’Insee), où la formation est centrée sur l’économie, l’économétrie et les statistiques. Je suis actuellement en 3e année, dans la voie "datascience, statistique et apprentissage". C’est d’ailleurs par l’ENSAE que j’ai eu connaissance du site datascience.net.

Pouvez-vous nous dire ce qui vous a poussé à rejoindre datascience.net (l’intérêt scientifique, le côté ludique, le volet financier...) ?
Les trois !! L'intérêt scientifique bien sûr, puisque c'était l'occasion de tester les méthodes apprises à l'ENSAE sur une problématique bien réelle. Le côté ludique puisque c'est un jeu, un concours, bref, c'est beaucoup plus motivant qu'un projet purement scolaire. Et évidemment les 1000 euros en jeu ne gâchent rien. J’ai remarqué aussi que la population féminine était sous-représentée dans ce challenge, il fallait y remédier.

Pouvez-vous nous raconter l’expérience que vous avez vécue sur ce challenge ?
J’ai tout de suite apprécié le critère d’évaluation : il ne s'agit pas de proposer forcément un modèle académique aux fondements théoriques complexes, mais de proposer quelque chose qui marche selon un critère que tout le monde connaît.

Vous avez été inquiète en voyant d’autres candidats vous passer devant ?
Cela ne m'a pas tellement angoissée de voir d'autres candidats me passer devant, d’autant que j’en connais certains, cela m'a plutôt motivée pour trouver comment améliorer mon modèle…

Quelle méthode avez-vous utilisée ? Sur ce challenge, les candidats avaient la possibilité d'utiliser toute source de données externe qu'ils souhaitaient. Quelles sources avez-vous utilisées ? 
Les séries temporelles ne sont pas forcément mon point fort et j'étais sûre que si c'était la bonne manière de procéder, il y aurait d'autres candidats qui maîtriseraient le sujet mieux que moi, j'ai donc tout de suite cherché une autre méthode.

Pour construire mon modèle, j'ai commencé par tracer les données existantes : il apparaît alors que les variations quotidiennes de la consommation sont toujours assez similaires, et dépendent principalement du fait que le jour considéré soit un jour ouvré ou non, et du moment de l'année (en raison des variations de température). Pour les dimanches, on remarque également que la consommation reste généralement très faible, sauf quelques dimanches imprévisibles où elle ressemble plus aux autres jours de la semaine.
J'ai d’abord utilisé des régressions linéaires, sans donnée annexe, puis en incluant des températures journalières trouvées sur wunderground.com. Mais les résultats étaient moyens, et cela enfreignait un peu les règles du jeu puisque les températures utilisées pour la prédiction en 2013 avaient été obtenues a posteriori, et qu'on ne sait pas prévoir la température précisément 3 mois à l'avance. J'ai donc changé de méthode, et j'ai essayé quelque chose de beaucoup plus basique : j'ai moyenné les consommations observées pour les années 2010, 2011 et 2012, en décalant de quelques jours pour faire coïncider les dimanches, ce qui permet de prendre en compte la température indirectement. Les résultats étaient déjà meilleurs. Ensuite, j'ai gommé l'effet des dimanches imprévisibles en maximisant la consommation des dimanches et jours fériés par la médiane des consommations observées le dimanche en 2012 (qui correspond en gros à la borne supérieure de la consommation des dimanches réguliers). J'ai terminé en lissant mes prédictions (en remplaçant la prédiction d'un intervalle de 10 minutes par une moyenne pondérée des prédictions sur 5 intervalles consécutifs), ce qui donne améliore un peu les résultats avec le critère considéré.

Qu'avez-vous pensé de cette première version du site ? Quels types d'améliorations aimeriez-vous y voir apportés ?
Je trouve que le site est plutôt bien fait, notamment l’espace d’échange qui permet de poser des questions au cours du challenge. Il serait intéressant de savoir qui sont les participants, mais je suis plutôt mal placée pour donner ce conseil vu que je n’ai pas encore complété mon profil. Je serait également curieuse de connaître les modèles proposés par les autres candidats, d’autant que les résultats étaient assez proches.

Merci Mathilde, et à bientôt sur le prochain challenge !

Il s'agit de proposer un modèle de prévision à moyen terme de la consommation d'un site tertiaire d'un industriel. Les données de consommation présentés fournissent, pour chaque tranche de 10 minutes la consommation d'électricité sur la tranche.

ex. : le premier janvier 2010 de 1h30 à 1h40, le site a consommé 52,5 kWh d'électricité, ce qui correspond à une puissance moyenne soutirée sur la tranche de 10 minutes de 315 kW (315 000 watts).

Ce site cherche à prévoir sa consommation d'électricité à un horizon de 3 mois glissants.

A partir des données fournies sur la période allant du 1er janvier 2010 au 31 décembre 2012 (3 années pleines d'historique), il s'agit donc de prévoir la consommation allant du 1er janvier 2013 au 31 mars 2013 inclus.

Pour cela, toute série temporelle annexe pourra être utilisée si nécessaire pour tenir compte des effets saisonniers ou climatiques. La seule condition à l'utilisation d'une telle série est que celle-ci soit disponible, publique, et anticipable sur un horizon de trois mois dans le futur pour garantir son utilisation.

A titre d'information, ce site est en région parisienne, dans le département 94.

Les résultats seront fournis dans un fichier exactement au même format que le fichier source :

  • csv séparateur ;
  • date au format jj/MM/aaaa hh:mm
  • consommation en kWh
  • 1 ligne d'en-tête
  • 12 954 lignes de données

La métrique permettant d'évaluer le modèle sera la proximité avec la consommation observée sur la période demandée au sens des moindres carrés.

Le score de classement des modèles sera donc \(\sum(obs_i - prev_i)^2\).

1. (1) Mathilde Didier 51 contributions 17/12/13 16:07 Score 388,337905
2. (2) LEPLATOIS Pierre 6 contributions 12/12/13 18:58 Score 398,596567
3. (3) Matthieu T 6 contributions 13/12/13 18:03 Score 415,728613
4. Cédric Bureau 15 contributions 17/12/13 12:18 Score 431,516784
5. (4) FOSSAT-CERCLER Damien 73 contributions 16/12/13 18:29 Score 487,743628
6. Matt Sco 4 contributions 17/12/13 18:46 Score 545,083459
7. (5) robin girard 13 contributions 14/12/13 14:44 Score 554,499257
8. Tanguy Foujols 3 contributions 17/12/13 23:04 Score 592,834050
9. (6) Vitali Marrenra 4 contributions 08/12/13 23:30 Score 813,553799
10. (7) Alexandre Crayssac 5 contributions 20/11/13 13:33 Score 1 009,12
11. (8) Aoxi 16 contributions 23/11/13 19:20 Score 1 852,68
Discussions
loading... Chargement...