Вы находитесь на странице: 1из 11

Didacticiel - Etudes de cas Scoring R.R.

Objectif
Le ciblage marketing est une des utilisations privilgies du data mining. Il sagit disoler parmi un ensemble dindividus, ceux qui sont les plus mme de rpondre positivement une offre, lobjectif est de proposer bon escient un produit que lon veut promouvoir. Dans la littrature, on parle gnralement de SCORING. Il est noter que cette dmarche peut tre tendue dautres domaines telles que le dpistage en pidmiologie, etc. Nous utiliserons deux nouveaux composants : SCORING et LIFT.

Fichier
Les donnes proviennent dune comptition qui a t organise en 2000 (CoIL Challenge 2000 -- http://www.liacs.nl/~putten/library/cc2000/report2.html) : il sagissait de reprer parmi les clients dune compagnie dassurance, ceux qui vont prendre une police dassurance pour leur caravane. Les fichiers taient organiss de la manire suivante : 1. Un fichier dapprentissage comprenant 5822 observations, outre la variable cible (prendre ou pas une police dassurance pour sa caravane), il y avait 85 autres descripteurs. Les 43 premiers dcrivent lenvironnement socio-conomique du prospect en utilisant comme repre son code postal ; les variables suivantes dcrivent le comportement du client par rapport dautres produits. 2. Un fichier dvaluation non tiquet comprenant 4000 observations, lobjectif est de prdire la propension consommer -- lapptence diraient les spcialistes -- le produit police dassurance pour caravane . Lvaluation mise en place par le comit dorganisation tait assez simple : isoler les 800 individus les plus apptents dans le fichier de validation (taille de la cible : 800 = 20% x 4000), le critre d valuation est le nombre de positifs que lon aura russi inclure parmi ces 800 individus. On sait par ailleurs que le nombre total de positifs dans le fichier de validation est de 238 individus. Dans ce didacticiel, nous avons runi lensemble des individus dans un seul fichier au format XLS, nous avons ajout un descripteur supplmentaire (STATUS) qui permet de discerner la partie apprentissage de la partie valuation.

28/04/2005

Page 1 sur 11

Didacticiel - Etudes de cas Scoring R.R. Nous avons, de plus, rcupr les vraies tiquettes des individus du fichier de validation, ce qui ntait pas possible lors de la comptition. Dans notre cas a nous permettra de raliser simplement tout le processus dvaluation sans avoir manipuler plusieurs fichiers.

Ciblage marketing avec TANAGRA


Prparer le fichier
Le fichier TICDATA.XLS contient 9822 observations : 5822 pour lapprentissage et 4000 pour lvaluation. La variable STATUS permet de les distinguer. Vous pouvez le visualiser dans nimporte quel tableur qui gre ce type de fichier.

Charger le fichier dans TANAGRA


Pour importer le fichier dans TANAGRA, activez le menu FILE / NEW et slectionnez le fichier ci-dessus aprs vous tre assur quil nest plus ouvert dans votre tableur.

28/04/2005

Page 2 sur 11

Didacticiel - Etudes de cas Scoring observations et 87 attributs. R.R. Vrifiez que les donnes charges correspondent bien laffichage ci-dessous : 9822

Subdiviser les donnes en Apprentissage - Test


Pour nous replacer dans les conditions de la comptition, il faut distinguer les donnes dapprentissage, sur lesquelles nous construirons le modle de prdiction, des donnes tests auxquelles nous attribuerons un score dapptence. Utilisons pour ce faire le composant SELECT EXAMPLES (INSTANCE SELECTION) et paramtrons-le en mettant contribution lattribut STATUS.

Analyse discriminante linaire


Reste alors choisir les attributs puis lancer lapprentissage. 28/04/2005 Page 3 sur 11

Didacticiel - Etudes de cas Scoring R.R.

Mettons en INPUT tous les attributs continus. Nous considrons quils sont tous continus bien que dans certains cas, la premire variable par exemple, cela nest peut tre pas tout fait justifi. Nous plaons en TARGET la variable CLASS. La variable STATUS ne doit pas tre utilise ici. Placez alors lapprentissage supervis laide de la mthode LDA (Analyse Discriminante Linaire). Le diagramme de traitement est le suivant.

Les rsultats semblent dcevants, le taux derreur (6.27%) nest pas trs fameux compar au taux derreur du classifieur par dfaut (5.97% = 348/5822), ceci est notamment d au fait que les classes sont trs dsquilibres.

En ralit, le taux derreur nest pas trs pertinent pour juger de la qualit de notre apprentissage. Notre objectif nest pas tant de classer globalement les individus mais plutt 28/04/2005 Page 4 sur 11

Didacticiel - Etudes de cas Scoring de souscrire loffre. R.R. disoler, cots fixs cd une taille de cible de 800 individus les clients les plus mme

Attribuer un score aux individus


Pour ce faire, nous devons donc classer les individus selon leur apptence. Cest le rle du composant SCORING qui calcule pour tous les individus de la base, quils aient particip lapprentissage ou non, la probabilit de souscrire la police dassurance. Il est noter que si certaines mthodes produisent effectivement une probabilit, dautres en revanche proposent un score qui nest pas proprement parler une probabilit mais qui induit le mme classement des observations. Placez le composant SCORING la suite du diagramme et paramtrez-le en spcifiant que dans notre cas, les positifs correspondent aux individus qui prsentent la valeur YES pour lattribut TARGET.

Les rsultats montrent bien quun nouvel attribut SCORE_1 a t gnr, le score a t attribu tous les individus de la base mme si le classifieur a t construit uniquement sur la partie apprentissage.

28/04/2005

Page 5 sur 11

Didacticiel - Etudes de cas Scoring R.R.

Construire la courbe LIFT


Pour valuer la performance du ciblage, nous allons utiliser un outil diffrent de la matrice de confusion : la courbe lift. Elle dcrit le pourcentage de positifs retrouvs (taux de vrais positifs) pour diffrentes tailles de cible. Il faut dans un premier temps slectionner les attributs que nous allons utiliser. En TARGET nous remettons la variable CLASS, en INPUT nous plaons la variable SCORE_1. Cette tape supplmentaire peut paratre rptitive, en ralit elle amliore la souplesse du logiciel, il est possible en effet de placer plusieurs attributs en INPUT et comparer ainsi diffrents scores, notamment ceux qui auraient t fournis par un expert, en dehors de tout processus de modlisation.

Dans un deuxime temps, il sagit de placer le composant LIFT en spcifiant la modalit de lattribut classe correspondant aux positifs. Nous remarquerons au passage quil est donc possible dans TANAGRA de procder un ciblage pour les problmes o la variable prdire prend plus de deux valeurs. Il suffit de spcifier lors du SCORING et de la construction de la courbe LIFT laquelle de ces valeurs correspond la modalit positive.

28/04/2005

Page 6 sur 11

Didacticiel - Etudes de cas Scoring R.R. Plutt que de fournir un graphique, TANAGRA fournit un tableau recensant le taux de vrais positifs pour chaque taille de cible. Il affiche galement pour information la valeur du score qui a t utilise pour chaque palier.

Plusieurs rsultats sont recenss : La modalit positive correspond la valeur YES de la variable prdire. Nous utilisons les donnes dapprentissage pour construire la courbe LIFT. Il y a 5822 observations dans cet ensemble de donnes. 348 correspondent la modalit positive. Pour chaque taille de cible, nous disposons de la proportion de positifs retrouvs.

Prenons lexemple dune taille de cible gale 20% de la taille de lchantillon (20 % x 5822 # 1164 observations), nous pouvons esprer retrouver 58.62% des positifs cd 58.62 % x 348 # 204 positifs).

28/04/2005

Page 7 sur 11

Didacticiel - Etudes de cas Scoring R.R.

Transposons ce raisonnement sur la partie validation. La taille de la cible est gale 800 observations (800 = 20% x 4000), il y a 238 positifs en tout, nous pouvons donc esprer retrouver 58.62 % x 238 # 139 positifs dans le fichier de validation. Pour encourageant quil soit, ce rsultat est nanmoins biais car nous avons utilis le mme fichier pour la construction du modle de classement (LDA) et son valuation (construction de la courbe LIFT). Nous devons plutt utiliser un fichier qui na pas particip lapprentissage pour obtenir une estimation honnte des performances du modle de ciblage.

Courbe LIFT sur donnes de validation


Construisons la courbe LIFT sur des donnes qui nont pas particip lapprentissage. Ceci est possible en modifiant le paramtre USED EXAMPLES du composant LIFT.

La courbe est ds lors calcule sur les observations de la partie validation.

28/04/2005

Page 8 sur 11

Didacticiel - Etudes de cas Scoring R.R.

Il y a bien 4000 observations dans cette portion du fichier, dont 238 positifs. Pour une taille de cible 20% (800 observations), nous retrouvons 49.58% des positifs, soit 49.58% x 238 # 118 personnes ayant souscrit effectivement au contrat dassurance. Ce rsultat correspond bien ce qui a t dcrit dans les actes de la confrence, cest le meilleur rsultat que lon puisse obtenir laide dun modle linaire sans pr-traitement pralable des donnes. Pour la petite histoire, le gagnant du concours a utilis un modle bayesien naf (modle dindpendance conditionnelle) aprs avoir limin la quasi-totalit des variables socioconomiques et essay des combinaisons des autres variables. Il a russi intgrer 121 28/04/2005 Page 9 sur 11

Didacticiel - Etudes de cas Scoring R.R. positifs dans sa cible de 800 individus. Ce rsultat est dautant plus remarquable que, prcisons-le encore une fois, lors du concours, les comptiteurs ne disposaient pas de ltiquette sur la partie validation. On aura not dailleurs que tous les classifieurs compliqus, prtendument surpuissants, auront t surclasss par des modles linaires trs simples (on peut montrer que le Bayesien Naf induit une sparation linaire sous certaines conditions). Notons galement que la courbe LIFT construite sur la partie apprentissage conduisait une sur-estimation manifeste de la qualit du modle, ce qui confirme encore une fois sil en tait encore besoin, que lvaluation du modle en resubstitution nest pas du tout approprie dans un processus supervis.

Dessiner la courbe LIFT


TANAGRA prsente les rsultats sous forme de tableau. Il est possible de construire simplement la courbe sous forme graphique en exportant le rsultat vers un tableur. Il faut pour cela, copier les rsultats via le menu COMPONENT / COPY RESULTS .

28/04/2005

Page 10 sur 11

Didacticiel - Etudes de cas Scoring Le graphique peut tre ds lors labor simplement dans le tableur de votre choix. R.R.

28/04/2005

Page 11 sur 11

Вам также может понравиться