Se connecter

Ou se connecter avec
Date limite de participation :
21 mai 2014

Modéliser l’impact des conditions économiques sur le comportement des clients

L’objectif d’AXA France est de disposer de modèles prédictifs permettant d’appréhender le comportement des clients selon différentes situations de marché (évolution des taux du marché, des prix de l’immobilier…).

Classement
1. (1) Stéphane Soulier Score 2,900685
2. (2) Arnaud de Myttenaere Score 2,519369
3. (3) elf22 Score 2,365057
Ce challenge est terminé.

10 000

€ 

219

contributions

129

participants

terminé
terminé

Récompenses

  • 3 000 € à partager entre les 3 candidats issus de la phase de pré-sélection qualitative par AXA France
  • 7 000 € pour le vainqueur final du challenge

Description du challenge

Il s’agit d’établir un modèle prédictif des comportements des clients sur leur contrat, en utilisant à la fois des données descriptives des contrats, et des données descriptives de la conjoncture économique.

Le modèle doit être prédictif à un horizon de 3 mois à 6 mois, afin de faciliter la mise en œuvre des leviers marketing et commerciaux.

Le modèle proposé doit surperformer les modèles actuellement utilisés par AXA France, notamment en exploitant d’autres données que celles utilisées par les modèles actuels. En particulier, il est impératif que les modèles proposés par les candidats intègrent les « données économiques », en complément des « données contrats ». En revanche, aucune autre donnée que celles fournies dans le cadre du challenge ne peut être utilisée à ce stade (en particulier, pas d’Open Data, car AXA France souhaite parfaitement maîtriser la source de la donnée, et le timing de sa mise à disposition par son producteur).

Déroulement du challenge

Le challenge se déroulera en trois phases :
  • Une première phase, dite quantitative, se déroulera sur une durée d’un mois au cours duquel les candidats soumettront, via la plate-forme, les résultats de leurs modèles prédictifs en respectant les conditions de participation décrites précédemment. Les candidats seront automatiquement classés sur la base du critère quantitatif décrit ci-dessous. A l’issue de cette phase, AXA France pré-sélectionnera 3 candidats avec lesquels elle entrera en phase 2.
  • Une seconde phase, dite de pré-sélection qualitative, se déroulera sur une période d’une semaine, au cours de laquelle :
    • Les candidats (présélectionnés à l’issue de la phase quantitative) transmettront à AXA France un mémoire détaillant précisément la méthodologie employée pour construire leur modèle (la structure attendue du mémoire est précisée ci-après)
    • Sous réserve que les 3 candidats fournissent un mémo jugé suffisamment convaincant par AXA France, et pour lesquels le modèle proposé aura été jugé manifestement conforme aux règles du challenge, se verront attribuer chacun la somme de 1 000 €, et seront invités à venir présenter leurs travaux en soutenance (phase 3).
      A noter que si le mémo des candidats n’est pas jugé suffisamment explicite, AXA France se réserve le droit d’écarter un candidat de la short-list et de le remplacer par un autre candidat choisi à l’aide du critère quantitatif.
  • Une troisième phase, dite de sélection définitive, se déroulera sur une période d’une semaine, au cours de laquelle :
    • Les 3 candidats issus de la phase 2 dont le mémo aura été jugé suffisamment explicite seront invités à venir présenter leurs travaux et modèles dans le cadre d’une soutenance, dont l’objet sera d’apprécier la qualité scientifique du modèle, et la possibilité de son industrialisation par AXA France.
    • A l’issue des 3 soutenances, AXA France établira le classement final entre les 3 participants short-listés, et désignera le vainqueur final qui se verra attribuer la somme supplémentaire de 7 000 €.

La désignation du vainqueur, et la remise des prix aux 3 candidats short-listés ainsi qu’au vainqueur seront effectuées en main propre par le Responsable du département CRM et Connaissance clients AXA France.

Calendrier

  • Début du challenge : Jeudi 10 avril 2014
  • Fin du challenge : Mercredi 21 Mai 2014
  • Soutenances organisées entre lundi 02 juin et le vendredi 13 juin 2014
Axa fournit 
  • Un jeu de données sur les « données contrats »
  • un jeu de données sur les « données économiques »
AXA fournit un premier jeu de « données contrats » sur lequel construire le modèle puis le valider. 
Un second échantillon, appelé « échantillon test » est également fourni, sans les événements à modéliser. L’évaluation des modèles précédemment crées se fera alors sur cet échantillon.

L’échantillon d’apprentissage des données de contrats

L’échantillon d’apprentissage des données de contrats est structuré de la façon suivante :

PERIODE;ID_CLIENT;ID_CONTRAT; CIBLE_M1;...CIBLE_M6; VAR1;...VAR13
01-2009;00019643;00019805; 0;...0; 38.92;...2.845845
Au cours d'un mois, un contrat peut :
  • Sortir de la base
  • Entrer dans la base
Les contrats sont observés sur une période de 55 mois, allant de janvier 2009 à juillet 2013.

Les variables disponibles sont les suivantes :
  • Les 13 variables VAR1 à VAR13 sont les variables explicatives :
    • De VAR1 à VAR9 : Elles sont propres à chaque client
    • De VAR10 à VAR13 : Elles sont propres à chaque contrat
  • La variable CIBLE est la variable à expliquer, disponible sur 6 mois consécutifs à partir de la période de référence donnée dans la première colonne :  CIBLE_M1… CIBLE_M6. Ces 6 variables cibles sont de type continu.

Le candidat aura libre choix de :
  • Créer de nouvelles variables cibles (cibles continues ou discrètes). Ces nouvelles variables doivent être construites par seuillage de la manière suivante (cas d’une variable continue) :  
    $$Nouvelle\ cible =  S  si S > 160$$ $$Nouvelle\ cible = 0  si S <= 160$$où l’on pose par exemple pour prédire l’événement entre le 3 et le 4 mois inclus :  $$S = \sum(CIBLE\_M3 : CIBLE\_M4)$$
  • Faire une prédiction de la variable cible choisie sur le futur : l’horizon est inférieur à 6 mois et supérieur à 2 mois. 

L’échantillon test des données de contrats

L’échantillon de test est constitué des mêmes contrats (individus) que ceux de l’échantillon d’apprentissage, mais observés sur une période différente et pour lesquels les variables cibles ne sont pas renseignées. 

La structure du fichier de test est donc la suivante :

ID;PERIODE;ID_CLIENT;ID_CONTRAT; VAR1;...VAR13
123;07-2012;00019643;00019805;38.92;...2.845845
La colonne ID est un identifiant unique de la ligne du fichier.

Tout comme pour l’échantillon d’apprentissage, au cours d’un mois, un contrat peut :
  • Sortir de la base
  • Entrer dans la base

Les données économiques

Le fichier de données économiques est structuré de la façon suivante :

PERIODE; Variable 1;...Variable n
01-2009;.........
Le dictionnaire de ces variables économiques est téléchargeable en même temps que le fichier de données.

La période d’observation des données économiques est plus longue que la période d’observation des données contractuelles, afin notamment que les participants puissent prendre en compte un effet retard entre l’observation de la conjoncture et la réalisation de la cible.

Note importante : Pour prévoir le comportement des clients à l’horizon M+3/M+6, seules les données économiques observées jusqu’au mois M peuvent être utilisées dans les modèles. En particulier, l’utilisation des données des mois M+1/M+2 (et évidemment les données des mois M+k pour k>=3)  est interdite.
Il est extrêmement important de respecter cette règle à la fois dans la construction des modèles et dans l’évaluation de leurs performances. Le fait de ne pas respecter cette règle conduira à une exclusion du challenge.
En retour du fichier de test, le fichier de résultats que doit fournir le candidat est un fichier au format .csv, dont la structure est la suivante :

ID;PROBA
123...
La colonne ID est l'identifiant de la ligne présent dans l'échantillon de test.

La variable PROBA désigne la probabilité estimée pour que :

le client réalise l’événement pour plus de 160 points sur CIBLE_1 cumulés entre M+3 à M+4, M+5 ou jusqu’à M+6.

La distribution de cette probabilité devra permettre de sélectionner sans ambiguïté la population associée à un quantile quelconque de la loi. Autrement dit, et à titre d'exemple, une probabilité de type 0/1 est à éviter car elle ne permettrait pas aisément d'opérer une telle sélection. 

Dans l'hypothèse où la distribution de probabilité proposée ne permettrait pas d'opérer une sélection explicite suffisante par simple ranking décroissant de probabilités (plusieurs contrats avec la même probabilité), nous nous verrions alors dans l'obligation d'appliquer un tri ‘Probabilité' / ‘Id-Contrat' pour calculer le score de performance (cf. infra), qui serait dès lors extrêmement défavorable aux modèles ainsi configurés.

Critère quantitatif utilisé pour le classement de la phase 1

L’indicateur de performance qui sera utilisé pour classer les modèles dans la phase dite quantitative sera le Lift au seuil de 25%. 

Autrement dit : $$Lift = \frac{\%\ cible\ observé\ sur\ les\ 25\%\ de\ contrats\ avec\ probabilité\ maximum}{\%\ cible\ obtenu\ sur\ la\ population\ totale} $$

Valeur de réserve

Un lift minimum de 2,5 sera imposé comme « valeur de réserve » : Les candidats dont les modèles mènent à un lift inférieur à 2,5 ne seront pas retenus, même s’ils figurent parmi les meilleurs. 

Les candidats dont les modèles mènent à un lift supérieur à 2,5 sont classées : de celui dont le modèle mène au lift le plus élevé à celui dont le modèle mène au lift le plus faible.

Si aucun modèle ne surperforme un lift de 2,5, aucun gagnant ne pourra être désigné.

Classement temporaire et classement définitif

Afin d’éviter le phénomène de sur-apprentissage, le classement temporaire affiché au fil de l’eau en cours de challenge sera établi sur la base d’un sous-échantillon de l’échantillon de test. Ce sous-échantillon correspondra à 30% de l’échantillon de test.

Le classement définitif sera quant à lui établi sur la base des 70% restant de l’échantillon de test. 

Traitement des ex-aequo

Le lift sera calculé avec 9 décimales après la virgule, rendant ainsi les cas d’ex-aequo peu probables. Si un tel cas se produisait toutefois, le nombre de modèles retenus pour la phase 2 serait alors augmenté en conséquence.

Structure de la note méthodologique attendue pour l’évaluation qualitative

La note méthodologique qui servira pour la validation des candidats short-listés pour la soutenance devra être claire, lisible et auto-porteuse, afin de permettre à AXA France une appropriation du modèle dans toutes ses dimensions.

A ce titre, elle devra notamment comporter les sections suivantes :
  • Définition du périmètre de l'étude
  • Description du pré-traitement des données : explication des transformations opérées sur les données brutes et argumentaire sur les raisons ayant conduit à ces transformations.
  • Description détaillée du ou des modèles utilisés : méthodes utilisées, choix de variables, explicitation des algorithmes
  • Évaluation de la robustesse du ou des modèles sur 2 aspects : niveau temporel et niveau client 
  • Présentation des méthodes alternatives envisagées et des raisons de leur éviction. Comparaison des méthodes et présentation de ce qui n’a pas fonctionné.
  • Code source des programmes développés (pas de contrainte de langage imposée, même si SAS, R et Python sont encouragés)

Eléments attendus à la soutenance

La soutenance consistera en une présentation orale de la méthode employée et des résultats obtenus. Le candidat devra être exhaustif sur la description du travail effectué et des méthodes employées et devra répondre avec clarté aux questions posées. Le temps alloué aux challengers short-listés sera de 45 minutes suivis de questions.

1. (1) Stéphane Soulier 10 contributions 20/05/14 08:02 Score 2,900685
2. (2) Arnaud de Myttenaere 20 contributions 08/05/14 10:38 Score 2,519369
3. (3) elf22 19 contributions 20/05/14 14:47 Score 2,365057
4. (4) Marouane Azlaf 40 contributions 21/05/14 23:31 Score 2,359318
5. (5) Matthieu Bizien 8 contributions 01/05/14 04:11 Score 2,275147
6. (7) Chris Aude 20 contributions 18/05/14 20:54 Score 2,272597
7. (6) moussab Djerrab 18 contributions 15/05/14 17:51 Score 2,268133
8. (9) AKD Team 20 contributions 21/05/14 14:45 Score 2,266220
9. (10) Olivier QUEDVILLE 1 contribution 20/05/14 23:16 Score 2,263670
10. (11) AshtonIzmev 6 contributions 20/05/14 00:02 Score 2,243265
11. (8) R F 1 contribution 21/05/14 19:28 Score 2,226048
12. (12) Didier Marin 14 contributions 14/05/14 16:25 Score 2,169297
13. (13) Denis Oblin 5 contributions 23/04/14 21:03 Score 2,018811
14. (14) Hervé Guérin 2 contributions 21/05/14 23:23 Score 1,902758
15. (15) Team F&H 3 contributions 21/05/14 22:43 Score 1,812849
16. (16) Mateja 1 contribution 14/05/14 17:14 Score 1,470425
Discussions
loading... Chargement...