Академический Документы
Профессиональный Документы
Культура Документы
Objectif
Le ciblage marketing est une des utilisations privilgies du data mining. Il sagit disoler parmi un ensemble dindividus, ceux qui sont les plus mme de rpondre positivement une offre, lobjectif est de proposer bon escient un produit que lon veut promouvoir. Dans la littrature, on parle gnralement de SCORING. Il est noter que cette dmarche peut tre tendue dautres domaines telles que le dpistage en pidmiologie, etc. Nous utiliserons deux nouveaux composants : SCORING et LIFT.
Fichier
Les donnes proviennent dune comptition qui a t organise en 2000 (CoIL Challenge 2000 -- http://www.liacs.nl/~putten/library/cc2000/report2.html) : il sagissait de reprer parmi les clients dune compagnie dassurance, ceux qui vont prendre une police dassurance pour leur caravane. Les fichiers taient organiss de la manire suivante : 1. Un fichier dapprentissage comprenant 5822 observations, outre la variable cible (prendre ou pas une police dassurance pour sa caravane), il y avait 85 autres descripteurs. Les 43 premiers dcrivent lenvironnement socio-conomique du prospect en utilisant comme repre son code postal ; les variables suivantes dcrivent le comportement du client par rapport dautres produits. 2. Un fichier dvaluation non tiquet comprenant 4000 observations, lobjectif est de prdire la propension consommer -- lapptence diraient les spcialistes -- le produit police dassurance pour caravane . Lvaluation mise en place par le comit dorganisation tait assez simple : isoler les 800 individus les plus apptents dans le fichier de validation (taille de la cible : 800 = 20% x 4000), le critre d valuation est le nombre de positifs que lon aura russi inclure parmi ces 800 individus. On sait par ailleurs que le nombre total de positifs dans le fichier de validation est de 238 individus. Dans ce didacticiel, nous avons runi lensemble des individus dans un seul fichier au format XLS, nous avons ajout un descripteur supplmentaire (STATUS) qui permet de discerner la partie apprentissage de la partie valuation.
28/04/2005
Page 1 sur 11
Didacticiel - Etudes de cas Scoring R.R. Nous avons, de plus, rcupr les vraies tiquettes des individus du fichier de validation, ce qui ntait pas possible lors de la comptition. Dans notre cas a nous permettra de raliser simplement tout le processus dvaluation sans avoir manipuler plusieurs fichiers.
28/04/2005
Page 2 sur 11
Didacticiel - Etudes de cas Scoring observations et 87 attributs. R.R. Vrifiez que les donnes charges correspondent bien laffichage ci-dessous : 9822
Mettons en INPUT tous les attributs continus. Nous considrons quils sont tous continus bien que dans certains cas, la premire variable par exemple, cela nest peut tre pas tout fait justifi. Nous plaons en TARGET la variable CLASS. La variable STATUS ne doit pas tre utilise ici. Placez alors lapprentissage supervis laide de la mthode LDA (Analyse Discriminante Linaire). Le diagramme de traitement est le suivant.
Les rsultats semblent dcevants, le taux derreur (6.27%) nest pas trs fameux compar au taux derreur du classifieur par dfaut (5.97% = 348/5822), ceci est notamment d au fait que les classes sont trs dsquilibres.
En ralit, le taux derreur nest pas trs pertinent pour juger de la qualit de notre apprentissage. Notre objectif nest pas tant de classer globalement les individus mais plutt 28/04/2005 Page 4 sur 11
Didacticiel - Etudes de cas Scoring de souscrire loffre. R.R. disoler, cots fixs cd une taille de cible de 800 individus les clients les plus mme
Les rsultats montrent bien quun nouvel attribut SCORE_1 a t gnr, le score a t attribu tous les individus de la base mme si le classifieur a t construit uniquement sur la partie apprentissage.
28/04/2005
Page 5 sur 11
Dans un deuxime temps, il sagit de placer le composant LIFT en spcifiant la modalit de lattribut classe correspondant aux positifs. Nous remarquerons au passage quil est donc possible dans TANAGRA de procder un ciblage pour les problmes o la variable prdire prend plus de deux valeurs. Il suffit de spcifier lors du SCORING et de la construction de la courbe LIFT laquelle de ces valeurs correspond la modalit positive.
28/04/2005
Page 6 sur 11
Didacticiel - Etudes de cas Scoring R.R. Plutt que de fournir un graphique, TANAGRA fournit un tableau recensant le taux de vrais positifs pour chaque taille de cible. Il affiche galement pour information la valeur du score qui a t utilise pour chaque palier.
Plusieurs rsultats sont recenss : La modalit positive correspond la valeur YES de la variable prdire. Nous utilisons les donnes dapprentissage pour construire la courbe LIFT. Il y a 5822 observations dans cet ensemble de donnes. 348 correspondent la modalit positive. Pour chaque taille de cible, nous disposons de la proportion de positifs retrouvs.
Prenons lexemple dune taille de cible gale 20% de la taille de lchantillon (20 % x 5822 # 1164 observations), nous pouvons esprer retrouver 58.62% des positifs cd 58.62 % x 348 # 204 positifs).
28/04/2005
Page 7 sur 11
Transposons ce raisonnement sur la partie validation. La taille de la cible est gale 800 observations (800 = 20% x 4000), il y a 238 positifs en tout, nous pouvons donc esprer retrouver 58.62 % x 238 # 139 positifs dans le fichier de validation. Pour encourageant quil soit, ce rsultat est nanmoins biais car nous avons utilis le mme fichier pour la construction du modle de classement (LDA) et son valuation (construction de la courbe LIFT). Nous devons plutt utiliser un fichier qui na pas particip lapprentissage pour obtenir une estimation honnte des performances du modle de ciblage.
28/04/2005
Page 8 sur 11
Il y a bien 4000 observations dans cette portion du fichier, dont 238 positifs. Pour une taille de cible 20% (800 observations), nous retrouvons 49.58% des positifs, soit 49.58% x 238 # 118 personnes ayant souscrit effectivement au contrat dassurance. Ce rsultat correspond bien ce qui a t dcrit dans les actes de la confrence, cest le meilleur rsultat que lon puisse obtenir laide dun modle linaire sans pr-traitement pralable des donnes. Pour la petite histoire, le gagnant du concours a utilis un modle bayesien naf (modle dindpendance conditionnelle) aprs avoir limin la quasi-totalit des variables socioconomiques et essay des combinaisons des autres variables. Il a russi intgrer 121 28/04/2005 Page 9 sur 11
Didacticiel - Etudes de cas Scoring R.R. positifs dans sa cible de 800 individus. Ce rsultat est dautant plus remarquable que, prcisons-le encore une fois, lors du concours, les comptiteurs ne disposaient pas de ltiquette sur la partie validation. On aura not dailleurs que tous les classifieurs compliqus, prtendument surpuissants, auront t surclasss par des modles linaires trs simples (on peut montrer que le Bayesien Naf induit une sparation linaire sous certaines conditions). Notons galement que la courbe LIFT construite sur la partie apprentissage conduisait une sur-estimation manifeste de la qualit du modle, ce qui confirme encore une fois sil en tait encore besoin, que lvaluation du modle en resubstitution nest pas du tout approprie dans un processus supervis.
28/04/2005
Page 10 sur 11
Didacticiel - Etudes de cas Scoring Le graphique peut tre ds lors labor simplement dans le tableur de votre choix. R.R.
28/04/2005
Page 11 sur 11