Se connecter

Ou se connecter avec

Interview de Justin, qui avait gagné le challenge "Développement d’un score d’octroi"

Justin nous explique la démarche qu'il a adoptée et les difficultés qu'il a rencontrées lors de ce challenge.

Le 17/06/2014

Bonjour Justin, tu es le vainqueur du challenge « Développement d'un score d'octroi », qui s'est terminé il y a quelques mois. Peux-tu te présenter en quelques mots ?

Justin : Après avoir fait deux ans d’économie à l’Université de Bourgogne, j’ai intégré l’Ecole d’Economie de Toulouse. Je me destinais avant tout à la recherche en économie théorique et pour cela Toulouse était l’endroit idéal. Cependant au fil de ma scolarité, la science économique m’a de moins en moins plu et j’ai commencé à prendre goût aux statistiques par le biais de l’économétrie en Master 2. Maintenant, je suis en master spécialisé à l’ENSAE pour passer d’économètre à statisticien. Comme beaucoup de personnes participant au concours, c’est par l’ENSAE que j’ai connu Datascience.net.

Pourrais-tu nous décrire les méthodes statistiques et outils technologiques que tu as utilisés pour mettre au point ton modèle, ainsi que les raisons qui t’ont conduit à ces choix ?

Justin : Ce challenge nous imposait un modèle logistique. Ainsi, le but pour les participants était de sélectionner/créer les bonnes variables à partir des données fournies. Pour ce faire j’ai tout d’abord essayé de mieux comprendre les données en faisant quelques statistiques descriptives et en particulier des tableaux de contingence. Cela m’a permis de voir entre autre que la date de fermeture du produit allait être une variable déterminante pour le modèle. Ensuite, j’ai présélectionné une vingtaine de variables/modalités à l’aide de forêts aléatoires puis j’ai sélectionné le meilleur modèle (selon le BIC) parmi tous les modèles contenant au maximum ces 20 variables.

A ce stade j’avais déjà de bon résultats, cependant, pour passer premier, il fallait que je crée d’autres variables, notamment il fallait que je dichotomise les variables continues. Ma première idée a été d’estimer les densités conditionnellement à y=0 et conditionnellement à y=1 pour une même variable et de les comparer. Cependant, cette stratégie n’a pas donné de bons résultats. Ceci vient du fait qu’une telle analyse descriptive ne prend pas en compte le conditionnement par rapport aux autres variables. Fort de ce constat, j’ai ensuite pensé qu’un arbre de classification pourrait m’aider. En effet, les arbres produisent des seuils tout en effectuant un certain type de conditionnement. Cette approche s’est révélée fructueuse et m’a permis de créer des variables dichotomiques significatives à partir des variables continues. J’ai finalement sélectionné à nouveau via le BIC en incluant ces nouvelles variables.

Datascience.net est toujours à l’écoute des propositions d’axes de progrès. Quelles seraient tes suggestions en la matière ?

Justin : Les améliorations apportées jusqu'à présent à chaque challenge ont été très positives, comme la création d'un classement public et d'un classement privé, ou la limitation du nombre de participants, qui ont permis de réduire les tentatives de surapprentissage qui faussent le classement, et d’exacerber la compétition entre les concurrents. Un axe d'amélioration serait peut-être de préciser un peu plus les critères de validation et ce qu’on a le droit de faire et surtout de ne pas faire dans le cadre d'un challenge. Aujourd'hui, l’accent est surtout mis sur le score comme condition de victoire. Mais si les règles proposées ne sont pas suffisamment précises, le risque est que les entreprises se retrouvent à la fin avec des modèles gagnant inutiles ou peu utilisables, car reposant sur des hypothèses incompatibles avec la réalité de leurs contraintes. 

Merci Justin, et bravo pour ton entrée dans le top 5 du nouveau classement général ! A très bientôt.