Вы находитесь на странице: 1из 177

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 1

COURS DE DATA MINING


Stphane TUFFERY
Universit Rennes 1
Master 2 Ingnierie conomique et financire
7 fvrier 2014
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 2
Prsentation de lintervenant
Responsable oe lqulpe statlstlque oans un groupe
bancalre tranals
Lnselgne a lLNSA| et a lUnlverslt Catbollque oe
lOuest (Angers)
Docteur en Matbmatlques
Auteur oe :
Data Mining et Statistique Dcisionnelle,
Loltlons Tecbnlp, 2005, 4
e
oltlon 2012,
prtace oe Gllbert Saporta
Data Mining and Statistics for Decision
Making, Loltlons Wlley, mars 2011
tude de cas en Statistique Dcisionnelle,
Loltlons Tecbnlp, 2009
Computational Actuarial Science with R
(ouvrage collectlt), Loltlons Cbapman &
Hall, 2014
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 3
Plan
Quest-ce que le oata mlnlng ?
Quest-ce que le 8lg Data ?
A quol sert le oata mlnlng ?
A quol sert le 8lg Data ?
La rtorme oe 8le et le ratlo oe solvablllt
Llaboratlon oun mooele oe scorlng
------------------------------------------------------------------------------------------------------------
La slectlon oes varlables
La moollsatlon
Quelques prlnclpes ou oata mlnlng
Lagrgatlon oe mooeles
Mtbooes pour le 8lg Data
La otectlon oes regles oassoclatlon
Concluslon
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 4
Quest-ce que le data mining ?
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 5
La fouille de donnes
Le data mining est lensemble oes :
mtbooes sclentltlques
.oestlnes a leploratlon et lanalyse
.oe (souvent) granoes bases oe oonnes lntormatlques
. en vue oe otecter oans ces oonnes oes protlls-type, oes
comportements rcurrents, oes regles, oes llens, oes tenoances
lnconnues (non tles a priori), oes structures partlculleres
restltuant oe taon conclse lessentlel oe llntormatlon utlle
.pour laloe a la oclslon
On parle oetralre llntormatlon oe la oonne
Selon le M|T, cest lune oes 10 tecbnologles mergentes
qul cbangeront le monoe au XX|
e
slecle
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 6
Les 2 types de mthodes de data mining
Les mtbooes oescrlptlves (recbercbe oe patterns ) :
vlsent a mettre en vidence des informations prsentes
mals cacbes par le volume oes oonnes (cest le cas oes
segmentations oe cllentele et oes recherches dassociations oe
prooults sur les tlckets oe calsse)
roulsent, rsument, syntbtlsent les oonnes
ll ny a pas oe varlable a epllquer
Les mtbooes prolctlves (moollsatlon) :
vlsent a extrapoler de nouvelles informations a partlr oes
lntormatlons prsentes (cest le cas ou scoring)
epllquent les oonnes
ll y a une varlable a epllquer
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 7
Les 2 principales familles de mthodes
descriptives
Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10
carte de Kohonen
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 8
Quest-ce que la classification ?
Regrouper oes objets en groupes, ou classes, ou tamllles, ou segments,
ou clusters, oe sorte que :
2 objets oun mme groupe se ressemblent le plus posslble
2 objets oe groupes olstlncts oltterent le plus posslble
le nombre oes groupes est partols tl
les groupes ne sont pas protlnls mals otermlns au cours oe lopratlon
Mtbooe oescrlptlve :
pas oe varlable a epllquer prlvllgle
ocrlre oe taon slmple une rallt complee en la rsumant
Utlllsatlon en marketlng, moeclne, sclences bumalnes.
segmentatlon oe cllentele marketlng
Les objets a classer sont :
oes lnolvlous
oes varlables
les oeu a la tols (blclusterlng)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 9
Complexit du prol!me "
Le nombre oe partltlons (classes non recouvrantes) oe n objets
est le nombre oe 8ell :
Lemple : pour n = 4 objets, on a 8
n
= 15, avec
1 partltlon a 1 classe (abco)
7 partltlons a 2 classes (ab,co), (ac,bo), (ao,bc), (a,bco), (b,aco), (c,bao),
(o,abc)
6 partltlons a 3 classes (a,b,co), (a,c,bo), (a,o,bc), (b,c,ao), (b,o,ac), (c,o,ab)
1 partltlon a 4 classes (a,b,c,o)
Lemple : pour n = 30 objets, on a 8
30
= 8,47.10
23
8
n
> ep(n) Ncesslt oe otlnlr oes crlteres oe bonne
classltlcatlon et oavolr oes algorltbmes pertormants

=
=
1
!
1
k
n
n
k
k
e
B
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 10
Classement et prdiction
Ce sont oes mtbooes prolctlves
on parle aussl oapprentlssage supervls (rseau oe neurones)
Classement : la varlable a epllquer (ou clble , rponse ,
openoante ) est qualitative
on parle aussl oe classification (en anglals) ou discrimination
Prdiction : la varlable a epllquer est quantitative
on parle aussl oe rgression
eemple : le prl oun appartement (en tonctlon oe sa supertlcle, oe
ltage et ou quartler)
Scoring : classement appllqu a une problmatlque
oentreprlse (varlable a epllquer souvent blnalre)
cbaque lnolvlou est attect a une classe ( rlsqu ou non rlsqu ,
par eemple) en tonctlon oe ses caractrlstlques
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 11
Quelques types de scores
Score oapptence
prolre lacbat oun prooult ou servlce
Score oe (comportement) rlsque
prolre les lmpays ou la trauoe
Score oe pr-acceptatlon
crolsement oes oeu prcoents
Score ooctrol (ou oacceptatlon)
prolre en temps rel les lmpays
Score oattrltlon
prolre le opart ou cllent vers un concurrent
Lt aussl :
Ln moeclne : olagnostlc (bonne sant : oul / non) en tonctlon ou
oossler ou patlent et oes analyses molcales
Courrlels : spam (oul / non) en tonctlon oes caractrlstlques ou
message (trquence oes mots.)
Apptence
+
-
+ Rlsque -
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 12
type famille sous-famille mthode
mthodes
descriptives
modles
gomtriques
analyse factorielle
(projection sur un
espace de
dimension
infrieure)
analyse en composantes principales ACP
(variables continues)
analyse factorielle des correspondances
AFC ( variables qualitatives)
analyse des correspondances multiples
AC! (" de var# qualitatives)
analyse typologique
(regroupement en
classes homognes)
mthodes de partitionnement (centres
mobiles$ %&means$ nues dynamiques)
mthodes hirarchiques (ascendantes$
descendantes)
analyse typologique
" rduction dimens#
classification neuronale (cartes de
'ohonen)
modles
combinatoires
classification relationnelle (variables
qualitatives)
modles ( base de
rgles logiques
dtection de liens dtection d)associations
#aleau des mthodes descriptives
En gris : mthodes
classiques
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 13
#aleau des mthodes prdictives
type famille sous-famille mthode
mthodes
prdictives
modles ( base
de rgles logiques
arbres de
dcision
arbres de dcision (variable ( e*pliquer
continue ou qualitative)
modles ( base
de fonctions
mathmatiques
rseau* de
neurones
rseau* ( apprentissage supervis +
perceptron multicouches$ rseau (
fonction radiale de base
modles
paramtriques
ou semi&
paramtriques
rgression linaire$ A,-.A$ !A,-.A$
A,C-.A$ !A,C-.A$ modle linaire
gnral /0!$ rgression P01$ 1.2
(variable ( e*pliquer continue)
analyse discriminante linaire$ rgression
logistique$ rgression logistique P01$ 1.!
(variable ( e*pliquer qualitative)
modle log&linaire$ rgression de
Poisson (variable ( e*pliquer discrte 3
comptage)
modle linaire gnralis$ modle additif
gnralis (variable ( e*pliquer continue$
discrte ou qualitative)
prdiction sans
modle
%&plus proches voisins (%&,,)

En gris : mthodes
classiques
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 14
$tatistique infrentielle et data mining
Statlstlque (avant 1950) :
quelques centalnes olnolvlous
quelques varlables recuelllles avec un
protocole spclal (cbantlllonnage,
plan oeprlence.)
tortes bypotbeses sur les lols
statlstlques sulvles (llnarlt, normallt,
bomoscoastlclt)
le mooele prlme sur la oonne : ll est
lssu oe la tborle et contront au
oonnes
utlllsatlon en laboratolre
Analyse oes oonnes (1960-1980) :
quelques olzalnes oe mllllers
olnolvlous
quelques olzalnes oe varlables
constructlon oes tableau |nolvlous
varlables
lmportance ou calcul et oe la
reprsentatlon vlsuelle
Data mlnlng (oepuls 1990) :
plusleurs mllllons olnolvlous
plusleurs centalnes oe varlables
certalnes varlables non numrlques
oonnes recuelllles avant ltuoe, et
souvent a oautres tlns
oonnes lmpartaltes, avec oes erreurs oe
salsle, oes valeurs manquantes.
pour laloe a la oclslon
ncesslt oe calculs raploes, partols en
temps rel
on ne recbercbe pas toujours loptlmum
tborlque, mals le plus comprbenslble
pour oes non statlstlclens
talbles bypotbeses sur les lols statlstlques
sulvles
la oonne prlme sur le mooele : le mooele
est lssu oes oonnes et on en tlre
ventuellement oes lments tborlques
utlllsatlon en entreprlse
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 15
Quest-ce que le Big Data ?
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 16
Lexplosion de la production de donnes
Donnes slgnaltlques et socloomograpblques
Donnes oe comportement (utlllsatlon ou tlpbone, oe la
carte bancalre, ou vblcule.)
Donnes CRM (contact avec un servlce cllent, tlollsatlon.)
Donnes eternes provenant oes mgabases oe oonnes
prlves ou oes aomlnlstratlons (Open Data)
|ntormatlons remontes par les capteurs lnoustrlels, routlers,
cllmatlques, puces RF|D, NFC, objets connects (camras,
compteurs lectrlques, apparells molcau, voltures.)
Golocallsatlon par GPS ou aoresse |P
Donnes oe tracklng sur |nternet (sltes vlslts, mots-cls
recbercbs...)
Contenu partag sur |nternet (blogs, pbotos, vloos.)
Oplnlons eprlmes oans les rseau soclau (sur une
entreprlse, une marque, un prooult, un servlce.)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 17
Caractrisation des %ig &ata ' les ( ) * +
volume
Lorore oe granoeur est le ptaoctet (10
15
octets)
Laccrolssement ou volume vlent oe laugmentatlon :
ou nombre olnolvlous observs (plus nombreu ou a un
nlveau plus tln)
oe la trquence oobservatlon et oenreglstrement oes
oonnes (mensuel -> quotlolen, volre boralre)
ou nombre oe caractrlstlques observes
Cet accrolssement vlent aussl oe lobservatlon oe oonnes
nouvelles, provenant notamment o|nternet : pages lnoees,
recbercbes ettectues, ventuellement avec oes oonnes oe
golocallsatlon
Cet aspect est peut-tre le plus vlslble et le plus spectaculalre,
mals ll nest pas le plus nouveau (granoe olstrlbutlon, banque,
tlpbonle manlpulent oe granos volumes oe oonnes)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 18
Caractrisation des %ig &ata ' les ( ) * +
varlt
Ces oonnes sont oe natures et oe tormes tres olverses :
numrlques, logs web, tetes (Woro, PDF, courrlels, SMS.),
sons, lmages, oonnes tonctlonnelles.
Cette varlt reno olttlclle lutlllsatlon oes bases oe oonnes
usuelles et requlert une varlt oe mtbooes (tet mlnlng,
web mlnlng.)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 19
Caractrisation des %ig &ata ' les ( ) * +
vltesse, ouvloclt
vloclt oes oonnes qul provlennent oe sources ou elles
sont mlses a jour raploement, partols en temps rel
vltesse oes traltements a mettre en ouvre sur ces oonnes
La oclslon ou cllent sur |nternet se talt vlte car ll suttlt
oun cllc pour cbanger oe slte, aussl taut-ll lnstantanment
lul talre la mellleure ottre commerclale
La otectlon oe la trauoe par carte bancalre oolt blen sr
aussl tre lnstantane
Dans certalns cas, vltesse oe mlse a jour oes mooeles, et pas
seulement vltesse oe leur appllcatlon
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 20
Le %ig &ata d,nternet
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 21
Quelques exemples dutilisations de ces
donnes -.2
Transports : tlatlon oynamlque ou prl oes blllets oavlon,
amlloratlon ou tratlc routler par golocallsatlon, recbercbe oe
la statlon-servlce la plus procbe, oes places llbres oe
statlonnement, tacturatlon oans les zones payantes grce a la
lecture et lOCR oes plaques olmmatrlculatlon.
Marketlng : la golocallsatlon permet lenvol oune promotlon
ou oun coupon sur votre smartpbone quano vous passez a
prolmlt oun commerce, oune alerte quano vous passez a
ct oune llbralrle contenant un ouvrage consult la vellle sur
|nternet, lanalyse oes prtrences, oes recommanoatlons,
ventuellement en llen avec les oonnes oe vente, permet oe
mleu clbler les consommateurs
Granoe olstrlbutlon : analyse oes tlckets oe calsse et crolsement
avec les oonnes ou programme oe tlollt
Ressources bumalnes : analyse oes Cv enrlcble par la otectlon
oes llens nous par le canoloat sur les rseau soclau
Sclentltlques : mtorologle, gnomlque, plomlologle, lmagerle
molcale, astronomle, pbyslque nuclalre.
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 22
Quelques exemples dutilisations de ces
donnes 2.2
Ylelo (ou revenue) management :
lntresse les actlvlts avec oes capaclts olsponlbles llmltes
(transport, btellerle, espaces publlcltalres, tourlsme.)
otermlne en temps rel les quantlts approprles a mettre en
vente, au prl approprl, oe taon a optlmlser le protlt gnr
par la vente
n oans les annes 1980 oans le transport arlen
|ntormatlque : survelllance oes macblnes et rseau, et
otectlon oe oystonctlonnements ou olncloents
scurltalres
Scurlt : vloo-survelllance, renselgnement
Lnselgnement : analyse oes rseau soclau pour connaitre
la popularlt oes enselgnements et la satlstactlon oes
leves
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 23
Les rseaux sociaux -.(
Un rseau soclal est un ensemble o'acteurs (lnolvlous,
groupes ou organlsatlons) rells par oes llens soclau
(tamlllau, amlcau protesslonnels)
On le reprsente sous la torme oun grapbe oont les
acteurs sont les sommets et les llens sont les artes
On peut tuoler le grapbe, son nombre oe sommets,
oartes, sa oenslt, son olametre, ses lments centrau
(avec le plus oe llens)
Dans la recbercbe sur |nternet, on peut aussl slntresser a
oes rseau oe sltes et regrouper les sltes par slmllarlt
Les sltes oe commerce en llgne loentltlent oes groupes
oacbeteurs en llgne pour tormuler oes consells oacbat
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 24
Les rseaux sociaux 2.(
Lemple oe Llnkeo|n |nMaps :
bttp://lnmaps.llnkeolnlabs.com/network
Le grapbe reprsente les connelons oes contacts avec
une personne et leurs connelons entre eu
Les connelons oe Llnkeo|n sont utlllses (au 1
er
et 2
e
nlveau), mals aussl les lnvltatlons oe connelons, les
aoresses e-mall, les numros oe tlpbone, les messages,
les groupes oe olscusslon, le protll (tormatlon,
qualltlcatlons, postes, recommanoatlons.)
Les couleurs olstlnguent les olttrents groupes otects
(collegues, camaraoes oe promotlon, partlclpants a un
projet.)
Des packages grapblques pour les rseau soclau elstent
aussl oans R
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 25
Les rseaux sociaux (.(
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 26
A quoi sert le data mining ?
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 27
Le data mining dans la anque
Nalssance ou score oe rlsque en 1941 (Davlo Durano)
Multlples tecbnlques appllques a la banque oe otall et la
banque oentreprlse
Surtout la banque oe partlcullers :
grano nombre oe oosslers
oosslers relatlvement stanoaros
montants unltalres moors
Lssor o a :
oveloppement oes nouvelles tecbnologles
nouvelles attentes oe quallt oe servlce oes cllents
presslon monolale pour une plus granoe rentablllt
surtout : ratlo oe solvablllt 8le 2
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 28
%r!ve histoire du credit scoring
1936 : analyse olscrlmlnante oe Flsber
1941 : utlllsatlon par Davlo Durano pour moollser le rlsque
oe otaut oun emprunteur a partlr oe quelques
caractrlstlques telles que son ge et son see
Apres la 2
e
guerre monolale : lntrt oes entreprlses
controntes a une pnurle oanalystes oe crolt
1958 : oveloppement oes orolnateurs et premler systeme
oe creolt scorlng oe Falr |saac
1968 : Z-score oAltman, tonctlon olscrlmlnante oe 5 ratlos
tlnanclers, capable oe prvolr a un an la otalllance oune
entreprlse, avec une tlablllt oenvlron 94
1998 : premlers travau sur le ratlo oe solvablllt 8le 2
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 29
Le data mining dans lassurance de risque
Des prooults obllgatolres (automoblle, babltatlon) :
solt prenore un cllent a un concurrent
solt talre monter en gamme un cllent que lon otlent oja
Dou les sujets oomlnants :
attrltlon
ventes crolses (crossselling)
montes en gamme (upselling)
8esoln oe oclslonnel o a :
concurrence oes nouveau entrants (bancassurance)
bases cllents oes assureurs traoltlonnels mal organlses :
compartlmentes par agent gnral
ou structures par contrat et non par cllent
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 30
Le data mining dans la tlphonie
Deu vnements :
tln ou monopole oe France Tlcom oans la tlpbonle tle
arrlve a saturatlon ou marcb oe la tlpbonle moblle
Dou les sujets oomlnants oans la tlpbonle :
score oattrltlon (churn = cbangement ooprateur)
optlmlsatlon oes campagnes marketlng
et aussl le te!t mining (pour analyser les lettres oe rclamatlon)
Probleme ou churn :
cot oacqulsltlon moyen en tlpbonle moblle : 250 euros
plus oun mllllon outlllsateurs cbangent cbaque oanne
ooprateur en France
les lols tacllltant le cbangement ooprateur
la portablllt ou numro taclllte le cburn
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 31
Le data mining dans le commerce
vente Par Corresponoance
utlllse oepuls longtemps oes scores oapptence
pour optlmlser ses clblages et en roulre les cots
oes centalnes oe mllllons oe oocuments envoys par an
e-commerce
personnallsatlon oes pages ou slte web oe lentreprlse, en
tonctlon ou protll oe cbaque lnternaute
optlmlsatlon oe la navlgatlon sur un slte web
Granoe olstrlbutlon
analyse ou tlcket oe calsse
otermlnatlon oes mellleures lmplantatlons (gomarketlng)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 32
/utres exemples
De llntlnlment petlt (gnomlque) a llntlnlment grano
(astropbyslque pour le classement en tolle ou galale)
Du plus quotlolen (reconnalssance oe lcrlture manuscrlte sur
les enveloppes) au molns quotlolen (aloe au pllotage
aronautlque)
Du plus ouvert (e-commerce) au plus scurltalre (otectlon oe
la trauoe oans la tlpbonle moblle ou les cartes bancalres)
Du plus lnoustrlel (contrle quallt pour la recbercbe oes
tacteurs epllquant les otauts oe la proouctlon) au plus
tborlque (sclences bumalnes, blologle.)
Du plus allmentalre (agronomle et agroallmentalre) au plus
olvertlssant (prvlslons oauolence Tv)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 33
A quoi sert le Big Data ?
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 34
Le %ig &ata dans le mar0eting
Lanalyse oes rseau soclau, oes torums et oes moteurs oe
recbercbe permet oe ocouvrlr les centres olntrt et les
prtrences oes lnternautes, et oonc leur comportement
posslble tace a une proposltlon oe prooult ou oe servlce
Cest partlcullerement utlle pour les entreprlses qul tont ou 8 to
8 to C, ont oes contacts avec oes olstrlbuteurs et non leurs
cllents tlnau, sur lesquels elles ont peu olntormatlons olrectes
Lanalyse oes rseau soclau nest pas seulement utlle a la vente
et elle peut aloer a la conceptlon oe nouveau prooults, par
lanalyse oe la perceptlon posltlve ou ngatlve oe certalnes
caractrlstlques oes prooults, et la comparalson avec la
concurrence
Des packages R elstent pour tralter les oonnes oe Twltter et
Facebook
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 35
Le %ig &ata dans la finance
Rlsque boursler
Une tuoe parue oans "ature (2013) omontre une corrlatlon entre
les mots cls salsls sur Google et lvolutlon oes cours oe bourse.
Avant une cbute oes lnolces bourslers, les lnvestlsseurs sont
proccups et recbercbent sur |nternet oes lntormatlons les aloant a
ocloer oe conserver ou venore leurs tltres.
Rlsque tlnancler
Ce que lon olt oune entreprlse, son lmage cbez ses partenalres, les
analystes tlnanclers ou le grano publlc, sa rputatlon, son lmage en
termes oe quallt, olnnovatlon, oe respect soclal et envlronnemental.
ces lments peuvent concourlr a sa sant tlnanclere a moyen/long
terme et peuvent tre lntgrs oans les analyses
Rlsque oe trauoe
Les oonnes oe golocallsatlon oes otenteurs oe smartpbones
peuvent tre compares au lntormatlons relatlves au termlnal oe
palement pour sassurer quelles sont cobrentes
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 36
Le %ig &ata dans lassurance
Avlva a mls au polnt une appllcatlon pour smartpbone
(Avlva Drlve) qul analyse le style oe conoulte oes
conoucteurs atln oe leur proposer oes tarlts approprls
(bttp://www.avlva.co.uk/orlve/)
Un projet slmllalre avalt t lmagln en 2006 mals
abanoonn en 2008 en ralson oe la olttlcult olnstaller oes
boites nolres oans les vblcules
Cette appllcatlon analyse penoant 300 km le nombre oe
kllometres parcourus, le temps, le type oe route.
Un cbangement raolcal oe comportement pourra talre
suspecter une trauoe
Des capteurs sur la volture pourralent mme slgnaler oes
rlsques oe panne, lnolquant au conoucteur la conoulte a
tenlr et le garage le plus procbe
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 37
Le %ig &ata dans lindustrie
Les nombreu capteurs (temprature, presslon, vlbratlon,
usure.) placs sur les composants oe lapparell proouctlt
permettent oe remonter en temps rel et a olstance oe
nombreuses lntormatlons qul, analyses et moollses, peuvent
tournlr une probablllt oe otalllance, oe rupture oune plece, et
permettre un arbltrage entre :
Des opratlons oe malntenance lnutllement louroes et trquentes,
entrainant oes openses lnutlles
Des opratlons oe malntenance lnsuttlsantes et lalssant se prooulre oes
otalllances coteuses, volre oangereuses
Optlmlsatlon oe la cbaine oapprovlslonnement (supply cbaln)
Prolctlon en temps rel oe la consommatlon lectrlque, mals
aussl oes oystonctlonnements, et tacturatlon plus conomlque et
plus raploe, grce au compteurs connects (Llnky)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 38
Le %ig &ata dans la sant -.2
Dlagnostlc molcal a olstance : otectlon oe rlsques oe
crlse carolaque
Des appllcatlons pour smartpbones savent analyser les
oonnes transmlses par oes capteurs (rytbme
carolaque, presslon sangulne.)
Monltorlng oes granos prmaturs : analyse en temps
rel oes oonnes tournles par oes capteurs placs sur
les bbs
Gnomlque :
Llens entre oonnes gnomlques et apparltlon oune
malaole ou rponse a un traltement
Gnomlque oes populatlons
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 39
Le %ig &ata dans la sant 2.2
Ln analysant les mots cls sur son moteur oe recbercbe, Google
a pu tabllr une corrlatlon entre certalnes requtes et
lapparltlon oune plomle oe grlppe. Cette corrlatlon a t
corrobore par les organlsmes oe vellle sanltalre et a talt lobjet
oune publlcatlon oans "ature (2009).
volr : bttp://www.google.org/tlutrenos/lntl/en_us/about/bow.btml et
bttp://websentl.u707.jussleu.tr/sentlweb/?page=google
Cet eemple lllustre le v oe la vltesse, avec oes mlses a jour oe
oonnes quotlolennes et non beboomaoalres comme oans les
sulvls traoltlonnels : permet une otectlon plus raploe oe
lplomle
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 40
Le %ig &ata dans la statistique pulique
Lanalyse oes messages Twltter au Pays-8as a montr une
corrlatlon entre les sentlments eprlms et llnolce publlc oe
contlance oes mnages
Twltter a succo au molas classlques oans les analyses
classlques en sclences bumalnes sur les olscours, loplnlon.
Les journallstes oe 8loomberg lntegrent aussl les oonnes oe
Twltter
Dautres oonnes peuvent aussl tre utlles : tlckets oe calsse et
calcul ou tau olntlatlon, sltes oe recbercbe oemplol et
estlmatlon ou tau oe cbmage.
Ces eemples lllustrent lapport posslble oes analyses prlves oe
8lg Data a la statlstlque publlque, avec oes lnolcateurs
qulvalents mals calculs blen plus raploement et peut-tre, ou
molns a terme, a molnore cot
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 41
La rforme de Ble et le ratio
de solvabilit
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 42
Les principaux types de risques financiers
Crolt : rlsque que l'emprunteur ne rembourse pas sa oette a l'cbance
tle
Nombreuses mtbooes statlstlques oveloppes oepuls 1941, surtout oes
mooeles blnalres oont la varlable a epllquer est le otaut oe remboursement
Passage oe 8le | a 8le || oune approcbe tortaltalre a une approcbe oe ratlng
Marcb : rlsque que la valeur oun actlt (oune oette) otenu(e) par une
lnstltutlon tlnanclere varle en ralson oe lvolutlon oes prl sur les marcbs
tlnanclers
Mooeles conomtrlques
Opratlonnel : rlsque oe pertes olrectes ou lnolrectes rsultant oune
lnaoquatlon ou oune otalllance attrlbuable a oes procoures, oes
personnes, oes systemes lnternes ou a oes vnements etrleurs
|ntrooult oans la rtorme ou ratlo oe solvablllt 8le ||
|nclut le rlsque jurlolque mals eclut le rlsque stratglque
Mtbooes probablllstes et a olre oepert
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 43
/utres types de risques financiers
De llqulolt : rlsque oe ne pouvolr venore un actlt suttlsamment raploement
pour vlter une perte par rapport au prl qu'on auralt o obtenlr
8le ||| oemanoe au banques oe otenlr un stock oactlts sans rlsque et
tacllement ngoclables (casb, tltres oLtat.) lul permettant oe rslster penoant
30 jours a une crlse oe llqulolt
De rputatlon : rlsque rsultant oune perceptlon ngatlve oe la part oes
cllents, oes contrepartles, oes actlonnalres, oes lnvestlsseurs ou oes
rgulateurs qul peut attecter otavorablement la capaclt oune banque a
malntenlr ou engager oes relatlons oattalres et la contlnult oe lacces au
sources oe tlnancement
De tau : rlsque oe osqulllbre entre les tau oes emplols et les tau oes
ressources
De cbange : rlsque ll au actlvlts en oevlse
Stratglque
.
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 44
Le ratio de solvailit %1le ,
La solvablllt oune banque est sa capaclt a rembourser ses
oettes
1988 : lnstauratlon oun ratlo Cooke vlsant a :
Rentorcer la sollolt et la stablllt ou systeme bancalre lnternatlonal
Promouvolr oes conoltlons ogallt oe concurrence entre les banques a vocatlon
lnternatlonale
Ce ratlo oe 8 est le rapport entre les encours ponors et le
montant oes tonos propres oe la banque
Ratlo oe 4 pour les tonos propres Tler 1
Les crolts sont ponors selon la catgorle oactlts conslore
(0 pour les Souveralns, 20 pour les 8anques, 50 pour
llmmoblller bypotbcalre, 100 pour le reste) mals non selon
la quallt oe la slgnature
Au rlsque oe crolt est ajout le rlsque oe marcb en 1996
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 45
Le ratio de solvailit %1le ,,
2004 : accoros 8le ||
Trols plllers
Plller 1 : elgences mlnlmales en tonos propres
Plller 2 : couverture oes rlsques non prls en compte oans le plller 1
Plller 3 : transparence et la olsclpllne oe marcb.
Plller 1 : lnstauratlon oun nouveau ratlo Mc Donougb
toujours gal a 8
mals olversltle les rlsques prls en compte (en lncluant les rlsques
opratlonnels)
et attlne la mtbooe oe ponoratlon oes rlsques, notamment en
autorlsant lutlllsatlon oe systemes ( notatlons lnternes ) oe
classltlcatlon oes emprunteurs a partlr oes probablllts oe otalllance
proltes oans les olttrents types oe porteteullle oe la banque :
souveralns, banques, entreprlses, banque oe otall (partlcullers et
protesslonnels), tltres, tltrlsatlon et autres
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 46
Laccord %1le ,,,
2010 : recommanoatlons 8le |||
Llqulolt :
|nstauratlon oun ratlo oe llqulolt LCR (Llqulolty Coverage Ratlo) a
30 jours et oun ratlo NSFR (Net Stable Funolng Ratlo) a un an
Fonos propres :
Rentorcement oe la quallt et ou nlveau oes tonos propres
Mlse en place oun coussln oe conservatlon allment oans les prlooes
tavorables
Surcbarge systmlque pour les tabllssements les plus lmportants
|nstauratlon oun ratlo oettet oe levler (ratlo tonos propres / total
oes actlts non ponors ) > 3
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 47
Le risque de crdit
Les mooeles oe scorlng permettent oattrlbuer une probablllt oe
otaut (PD) oe palement a toute entlt note, sur un borlzon oonn
La perte encourue par la banque openo oe oeu autres tacteurs :
LAD (Lposure At Detault) : montant ou crolt epos sl lemprunteur passe
en otaut (encours bllan + CCF encours bors-bllan)
CCF (Creolt Converslon Factor) : part oe lencours bors-bllan qul sera
utlllse par lemprunteur au moment ou otaut
LGD (Loss Glven Detault) : tau oe perte (y comprls trals oe recouvrement)
subl par la banque (apres actlvatlon oes ventuelles garantles) en cas oe
otaut oe lemprunteur
Un tabllssement bancalre peut avolr une approcbe 8le || :
Stanoaro (appllcatlon oe ponoratlons tortaltalres a lencours epos)
|nterne tonoatlon (|R8F) : estlmatlon par ltabllssement oe la PD, le CCF
et la LGD tant tortaltalres
|nterne avance (|R8A) : estlmatlon par ltabllssement oe tous les
parametres
Utlllsatlon posslble pour le calcul oe lelgence en tonos propres sous
rserve oune valloatlon lnopenoante par lautorlt oe tutelle
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 48
Pertes attendues et inattendues
Pertes attenoues (LL : epecteo losses)
Pertes annuelles moyennes : LAD PD LGD
Dolvent tre couvertes par les provlslons et ventuellement par oes tonos
propres
Pertes lnattenoues (UL : unepecteo losses)
vaR = pertes annuelles sl leves quelles ne sont posslbles quune tols sur
1000 : LAD t(PD) LGD
UL =vaR - LL
Dolvent tre couvertes par les tonos propres rglementalres
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 49
Calcul de lexigence en fonds propres
Actlts ponors : RWA (rlsk welgbteo assets)
12,5 LAD (t(PD) - PD) LGD pour le rlsque oe crolt
Llgence en tonos propres (couvrlr les pertes lnattenoues)
LFP = 8 (RWA + 12,5 capltal rlsqu au tltre ou rlsque oe marcb +
12,5 capltal rlsqu au tltre ou rlsque opratlonnel)
Rappel : Llgence en tonos propres 8le |
LFP = 8 Actlts ponors Cooke
Actlts ponors Cooke = encours crolt ponoratlon
,ature du risque Pondration
1ouverain 4 5
6anques 4 5
7mmobilier 84 5
Autres crdits 944 5
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 50
Notations externes
Contreparties AAA
AA-
A+
A-
BBB+
BBB-
BB+
B-
Infrieur
B -
Non
not
Souverains 4 5 4 5 84 5 9445 9845 9445
Banques 45 845 845 9445 9845 845
Entreprises 45 845 9445 jusqu)(
66& +
9445
:66 & +
9845
9445
etail
Immo!ilier
;8 5
etail Autres <8 5
%1le ,, ' pondrations en mthode standard
Mme mtbooe que 8le | avec une ponoratlon oes
eposltlons tle par le tete et attlne :
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 51
Pondration des risques de crdit
Ponoratlon oes rlsques
RW= 12,5 (t(PD) - PD) LGD pour le rlsque oe crolt
LFP = 8 RW LAD
Cette ponoratlon RWest a comparer :
Au tableau prcoent pour la mtbooe stanoaro 8le || (par eemple, 75
pour le Retall Autre)
Au valeurs pour 8le | : 100 Autres Crolts, 50 |mmoblller.
Lemple oe calcul en R : RW oun crolt babltat avec une PD = 3 et
une LGD a 20
> eao <- 100
> po <- 0.03
> lgo <- 0.2
> rbo <- 0.15 # lmmoblller mortgage
> tpo <- pnorm(qnorm(po)*sqrt(1/(1-rbo)) + qnorm(0.999)*sqrt(rbo/(1-rbo)))
> (rw <- 12.5*lgo*(tpo-po))
[1] 0.4977229
Cest quaslment le RW= 50 oe 8le | et plus que le 35 Stanoaro
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 52
Comparaison des approches
> rw = tunctlon(po,lgo,rbo) {
+ tpo <- pnorm(qnorm(po)*sqrt(1/(1-rbo)) + qnorm(0.999)*sqrt(rbo/(1-rbo)))
+ rw <- 12.5*lgo*(tpo-po)
+ return(rw)
+ }
> rpo <- seq(0,0.1,by=.001)
> plot(rpo,rw(rpo,lgo,rbo),type="l",lab="PD",ylab="RW")
0.00 0.02 0.04 0.06 0.08 0.10
0
.
0
0
.
2
0
.
4
0
.
6
0
.
8
PD
R
W
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 53
Calcul des actifs pondrs
94
Function is ta%en from paragraph
<
99
Function is ta%en from paragraph
<;
9
Function is ta%en from paragraph
;=
9;
Function is ta%en from paragraph
;>
7n 6asel 77+ 7nternational
Convergence of Capital !easurement
and Capital 1tandards+ a 2evised
Frame?or% (6C61) (,ovember 448
2evision)
1 3
!in(!a*(1ales@urnover)$8)$84
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 54
2isques oprationnels '
matrice ) lignes de mtier x types de risque +
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 55
#raitement des risques oprationnels
Certalns rlsques ne sont que potentlels : leur probablllt oe
survenance est tres talble mals leur gravlt tres granoe : ce sont les
rlsques oe gravlt, pour lesquels on labore oes scnarll avec les
eperts (on obtlent oes eposltlons, oes gravlts et oes probablllts oe
survenance conoltlonnes par oes tacteurs appels KR|)
Dautres rlsques sont plus trquents mals leur gravlt plus talble : ce
sont les rlsques oe trquence, pour lesquels on recbercbe oes
ajustements sur les blstorlques oe pertes unltalres oe lols tborlques
pour la survenance (lol oe Polsson) et la gravlt (lol log-normale, oe
Welbull.)
Puls slmulatlons tres nombreuses oe slnlstres selon les parametres
tablls, calcul oe pertes unltalres puls cumules sur 1 an, et obtentlon
oe la moyenne (= LL) et ou quantlle a 99,9 (= vaR = UL + LL) oe la
perte cumule, cest-a-olre oe la perte pouvant survenlr 1 tols sur
1000, solt 1 tols tous les 1000 ans
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 56
/pproches des risques oprationnels
Contralrement au rlsque oe crolt, pas oe relatlon slmple entre
les pertes attenoues et lnattenoues : ces oernleres peuvent
eploser , surtout sl la survenance oun rlsque est lle a la
survenance oun autre rlsque
Comme pour le rlsque oe crolt, trols nlveau oapprocbe pour
lelgence en tonos propres :
De base : un pourcentage ou PN8 moyen oes 3 annes prcoentes (tl a
15)
Stanoaro : loentlque a lapprocbe oe base, mals pourcentages olttrencls
(entre 12 et 18) par llgnes oe mtlers (volr matrlce prcoente)
Avance (AMA) : ltabllssement otermlne lul-mme ses besolns en tonos
propres par oes mooeles lnternes
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 57
Politique du risque et gestion dans la anque
Polltlque ou rlsque oans la banque
Lnjeu majeurs en termes tlnanclers, opratlonnels, rglementalres et olmage
Sous le contrle permanent oe lACPR : Autorlt oe Contrle Pruoentlel et oe
Rsolutlon
|ntrlcatlon oe ces enjeu
Apprbenslon oans lentreprlse
Ncessalre approprlatlon oe la polltlque ou rlsque par tous les acteurs
Lst value par lautorlt oe tutelle
Cest a la tols une conoltlon et une consquence oe la quallt oes outlls oe
maitrlse oe rlsque : un cercle vertueu a mettre en place
Les mooeles oe rlsque oolvent tre :
8len conus
8len mls en ouvre
8len sulvls (outlls a mettre en place tableau oe boro procoures)
8len approprls
Gouvernance ou rlsque
Les outlls ne suttlsent pas : ll taut gouverner leur utlllsatlon, leur sulvl et leur
volutlon
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 58
Llaboration dun modle de
scoring
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 59
&finition de la variale 3 expliquer
Ln moeclne : otlnltlon souvent naturelle
un patlent a ou non une tumeur (et encore taut-ll olstlnguer les
olttrents staoes oune tumeur)
Dans la banque : quest-ce quun cllent non rlsqu ?
aucun lmpay, 1 lmpay, n lmpays mals oette apure ?
Dans certalns mooeles, on otlnlt une zone lnotermlne
non moollse :
1 lmpay varlable a epllquer non otlnle
aucun lmpay varlable a epllquer = 0
2 lmpays varlable a epllquer = 1 ( 3 lmpays pour 8le 2)
Dtlnltlon partols encore plus problmatlque en attrltlon
oans la banque, contralrement a la tlpbonle ou lassurance, on peut
partlr brutalement ou progresslvement
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 60
%iais de slection
Ln rlsque : certalnes oemanoes sont retuses et on ne peut oonc pas
mesurer la varlable a epllquer
certalnes populatlons ont t eclues oe la moollsatlon et on leur
appllque pourtant le mooele
ll elste oes mtbooes olntrence oes retuss , mals oont aucune nest
totalement satlstalsante
et partols aucune trace nest conserve oes oemanoes retuses !
Ln apptence : certalnes populatlons nont jamals t clbles et on ne
leur a pas propos le prooult
sl on les moollse, elles seront prsentes oans lcbantlllon oes
mauvals (cllents sans apptence) peut-tre a tort
contralrement au cas prcoent, on peut mesurer la varlable a epllquer
car ll y a oes souscrlptlons spontanes
envlsager oe llmlter le prlmetre au cllents clbls
Frauoe a la carte bancalre : certalnes transactlons ont t rejetes et
on ne salt pas toujours sl elles talent trauouleuses
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 61
taux
d'erreur
donnes de test
t
donnes apprentissage
taille de l'chantillon
d'apprentissage
taille suffisante
#aille de lchantillon
mauvaise
gnralisation
bonne
gnralisation
n
h n h
R R
emp
) 4 / log( ) 1 ) / 2 (log( +
+ <
@horme de .apni% +
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 62
2eprsentativit de lchantillon dtude
Hypotbese tonoamentale :
lcbantlllon otuoe est reprsentatlt oe la populatlon a laquelle
sera appllqu le mooele
Nlmpllque pas un cbantlllonnage alatolre slmple :
vnement a prolre rare stratltlcatlon non proportlonnelle
oe lcbantlllon sur la varlable a epllquer
partols : 50 oe posltlts et 50 oe ngatlts
ncessalre quano on utlllse CART pour moollser 3 oe
posltlts, slnon CART prolt que personne nest posltlt
ecellent tau oerreur = 3 !
cbange la constante ou loglt oe la rgresslon loglstlque
lntressant en cas obtroscoastlclt oans une analyse
olscrlmlnante llnalre
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 63
,nventaire des donnes utiles
Recenser avec les spclallstes mtler et les lntormatlclens, les
oonnes utlles :
accesslbles ralsonnablement (pas sur mlcrotllms !)
tlables
suttlsamment a jour
blstorlses, sl besoln est
lgalement utlllsables
|l y a les oonnes :
ou systeme olntormatlon (S|) oe lentreprlse
stockes oans lentreprlse, bors ou S| (tlcblers Lcel...)
acbetes ou rcupres a letrleur oe lentreprlse
provenant o|nternet et oes rseau soclau
calcules a partlr oes oonnes prcoentes (lnolcateurs, ratlos,
volutlons au cours ou temps)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 64
Quand on manque de donnes
Lnqutes aupres ocbantlllons oe cllents
en les lncltant a rponore a oes questlonnalres en leur proposant
oes caoeau
Utlllsatlon oes mgabases oe oonnes (Aclom, Wegener
Dlrect Marketlng)
Scorlng prnom
Utlllsatlon oe oonnes goomograpblques (type obabltat en
tonctlon oe laoresse)
oonnes molns prclses que oes oonnes nomlnatlves
mals olsponlbles pour oes prospects
Recours a oes mooeles stanoaros prtablls par oes soclts
spclallses (e : scores gnrlques)
quano on a oes oonnes actuelles mals peu oblstorlque
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 65
$coring prnom
P
a
s
c
a
l
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 66
&onnes godmographiques
Donnes conomlques
nombre oentreprlses, populatlon actlve, cbmage, commerces et
servlces oe prolmlt, babltuoes oe consommatlon.
Donnes socloomograpblques
populatlon, rlcbesse, ge et nombre oentants moyens, structures
tamlllales, nlveau socloprotesslonnel.
Donnes rsloentlelles
anclennet, type et contort oes logements, proportlon oe
locatalres et proprltalres.
Donnes concurrentlelles
lmplantatlon oe lentreprlse, lmplantatlon oe ses concurrents, parts
oe marcb, tau oe pntratlon.
Type obabltat (classltlcatlon sur les oonnes prcoentes) :
beau quartlers, classe moyenne, classe ouvrlere, centre vllle et
quartlers commerants...
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 67
Construction de la ase danalyse
n
client
variable cible :
acheteur (O/N)
ge PCS situation
famille
nb
achats
montant
achats
variable
explicative m
chantillon
1 O 58 cadre mari 2 40 apprentissage
2 N 27 ouvrier clibataire 3 30 test


k O 46 technicien clibataire 3 75 test


1000 N 32 employ mari 1 50 apprentissage

variable expliquer variables explicatives rpartition
observe anne n observes anne n-1 alatoire
des clients
O : au moins 500 clients cibls dans l'anne n et acheteurs entre les 2
N : au moins 500 clients cibls dans l'anne n et non acheteurs chantillons
f
a
u

m
o
i
n
s

1
0
0
0

c
a
s
PREDICTION
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 68
$lection des priodes doservation
Le modle sera par exemple une fonction f telle que :
Probabilit(variable cible = x) = f(variables explicatives)

laboration du modle


:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois 12 mois aujourdhui
observation des observation de la
variables explicatives variable expliquer



Application du modle

?
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois aujourdhui + 12 mois
observation des prdiction de la
variables explicatives variable expliquer

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 69
Pr-segmentation
Segmentatlon (classltlcatlon) oe la populatlon :
en groupes torcment olstlncts selon les oonnes olsponlbles
(cllents / prospects) : bomognlt ou polnt oe vue oes varlables
epllcatlves
ou en groupes statlstlquement pertlnents vls-a-vls oes objectlts
oe ltuoe : bomognlt ou polnt oe vue oe la varlable a
epllquer
ou selon certalnes caractrlstlques socloomograpblques (ge,
protesslon.) sl elles corresponoent a oes regles mtlers (ottres
marketlng spcltlques)
Autres caractrlstlques recbercbes :
Slmpllclt oe la segmentatlon (pas trop oe regles)
Nombre llmlt oe segments et stablllt oes segments
Tallles oes segments gnralement ou mme orore oe granoeur
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 70
,ntr4t de segmenter ' le paradoxe de $impson
Hommes
sans achat avec achat TOTAL taux d'achat
courriel 950 50 1 000 5,00%
tlphone 475 25 500 5,00%
TOTAL 1 425 75 1 500 5,00%
Femmes
sans achat avec achat TOTAL taux d'achat
courriel 450 50 500 10,00%
tlphone 900 100 1 000 10,00%
TOTAL 1 350 150 1 500 10,00%
Tous clients
sans achat avec achat TOTAL taux d'achat
courriel 1 400 100 1 500 6,67%
tlphone 1 375 125 1 500 8,33%
TOTAL 2 775 225 3 000 7,50%
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 71
Paradoxe de $impson ' explication
Dans le oernler eemple :
les bommes ne rponoent pas mleu au tlpbone quau courrlel
oe mme pour les temmes
et pourtant, le tlpbone semble avolr globalement un mellleur tau oacbat
Lpllcatlon :
un lnolvlou prls au basaro ne rpono pas mleu au tlpbone
mals les temmes acbetent plus et on a prlvllgl le tlpbone pour les
contacter
llalson entre les varlables see et canal oe vente
Autre eemple publl oans le #allStreet $ournal ou 2/12/2009 :
le tau oe cbmage est globalement plus talble en octobre 2009 (10,2 )
quen novembre 1982 (10,8 )
et pourtant, ce tau oe cbmage est plus lev en 2009 a la tols pour les
olplms et pour les non-olplms !
lepllcatlon est lelstence oune llalson entre lanne et le nlveau otuoe :
le nlveau moyen otuoe est plus lev en 2009, et le tau oe cbmage est
plus talble cbez ceu oont le nlveau otuoe est plus lev
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 72
Lplorer la olstrlbutlon oes varlables
vrltler la tlablllt oes varlables
valeurs lncobrentes ou manquantes
suppresslon ou lmputatlon ou lsolement
valeurs etrmes
volr sl valeurs aberrantes a llmlner
certalnes varlables sont tlables mals trompeuses
le protll oe souscrlpteurs peut tre tauss par une campagne commerclale clble
rcente
varlables contlnues
otecter la non-monotonle ou la non-llnarlt justltlant la olscrtlsatlon
tester la normallt oes varlables (surtout sl petlts ettectlts) et les
transtormer pour augmenter la normallt
ventuellement olscrtlser : ocouper la varlable en trancbes en tonctlon
oe la varlable a epllquer
et lsoler les valeurs manquantes ou aberrantes
/nalyse exploratoire des donnes -.2

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 73
5xamen de la distriution des variales
La oure ou crolt prsente oes plcs prvlslbles a 12, 24, 36,
48 et 60 mols
On constate assez nettement la plus torte proportlon oe
crolts plus longs parml ceu qul ont oes lmpays
Pas oe valeur manquante ou aberrante

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 74
6ormalisation ' transformations
Log (v)
transtormatlon la plus courante pour corrlger un coettlclent oasymtrle > 0
Sl v 0, on preno Log (1 + v)
Raclne carre (v) sl coettlclent oasymtrle > 0
-1/v ou 1/v sl coettlclent oasymtrle > 0
v
2
ou v
3
sl coettlclent oasymtrle < 0
Arc slnus (raclne carre oe v/100)
sl v est un pourcentage comprls entre 0 et 100
La transtormatlon oe 8o-Co (t(X) = (X

-1)/ sl 0, et t(X) = log(X)


slnon) recouvre un ensemble oe transtormatlons posslbles, selon la valeur
ou parametre otermlne par malmlsatlon oe la vralsemblance (en
crlvant la oenslt oune lol normale), et est lmplmente oans plusleurs
loglclels, oont R (tonctlon boxplot ou package MASS)
"ransformation e*p(.) .
;
.

. . log(.) &9A. &9A.

Corre#tion asymtrie ( gauche


pas de
correction
asymtrie ( droite
Effet fort moyen moyen fort
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 75
6ormalisation ' un exemple
Revenus : Log(1+revenus) : Racine(revenus) :
Asymtrie = 2,38 Asymtrie = - 2,03 Asymtrie = 0,64
Aplatissement = 11,72 Aplatissement = 12,03 Aplatissement = 1,76
La racine carre normalise ici mieux que le logarithme
(Loi normale : asymtrie = aplatissement ( 3) = 0)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 76
7tilit de la normalisation
Une oes bypotbeses oe lanalyse olscrlmlnante llnalre :
multlnormallt oe X/G
l
et gallt oes matrlces oe covarlances
Nest en pratlque jamals satlstalte
Mals on constate une amlloratlon oes pertormances oe
lanalyse olscrlmlnante lorsque lon sen rapprocbe :
en neutrallsant les outllers (lnolvlous bors norme)
en normallsant les varlables epllcatlves susceptlbles oentrer
oans le mooele
Morallt : mleu vaut connaitre les contralntes tborlques
pour se rapprocber oes conoltlons optlmales
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 77
Densit
clients avec
apptence
clients sans
apptence
variable explicative Y
&iscrtisation en tranches naturelles
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 78
Pourquoi discrtiser ?
Apprbenoer oes llalsons non llnalres (oe oegr >1), volre non
monotones, entre les varlables contlnues et la varlable a epllquer
par une analyse oes corresponoances multlples, une rgresslon
loglstlque ou une analyse olscrlmlnante D|SQUAL
Neutrallser les valeurs etrmes ( outllers )
qul sont oans la 1
ere
et la oernlere trancbes
Grer les valeurs manquantes (lmputatlon toujours ollcate)
rassembles oans une trancbe spcltlque ou regroupe avec une
autre
Grer les ratlos oont le numrateur et le onomlnateur peuvent
tre tous oeu > 0 ou < 0
L8L / capltal conomlque (rentablllt conomlque), rsultat net /
capltau propres (rentablllt tlnanclere ou ROL)
Amllorer partols le pouvolr prolctlt
Faclllter la llslblllt ou mooele (grllle oe score)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 79
5xemple de discrtisation
On commence par
ocouper la varlable
epllcatlve en oclles, et a
regaroer a quelle valeur
correspono cbaque oclle
Par eemple , le 2
e
oclle
est 25 ans
Analysis Variable : Age
Rang pour
la variable
Age
N
Obs Minimum Maximum
0 105 19.0000000 23.0000000
1 85 24.0000000 25.0000000
2 101 26.0000000 27.0000000
3 120 28.0000000 30.0000000
4 105 31.0000000 33.0000000
5 72 34.0000000 35.0000000
6 113 36.0000000 39.0000000
7 98 40.0000000 44.0000000
8 105 45.0000000 52.0000000
9 96 53.0000000 75.0000000

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 80
5xemple de discrtisation
Le tableau oe contlngence montre que
les oeu premlers oclles oe lge
corresponoent a un tau olmpays
nettement suprleur a celul oes autres
oclles. |l y a oonc un seull a 25 ans
Aucun autre seull ne se olstlngue
nettement, les tau olmpays
tluctuant ensulte entre 20 et un peu
plus oe 30
Le ocoupage oe lge en oeu
trancbes est oonc oclo
Table de dAge par Cible
dAge(Rang
pour la
variable Age) Cible
FREQUENCE
Pourcentage
Pct en ligne 1 2 Total
0
63
6.30
60.00
42
4.20
40.00
105
10.50

1
47
4.70
55.29
38
3.80
44.71
85
8.50

2
74
7.40
73.27
27
2.70
26.73
101
10.10

3
79
7.90
65.83
41
4.10
34.17
120
12.00

4
72
7.20
68.57
33
3.30
31.43
105
10.50

5
55
5.50
76.39
17
1.70
23.61
72
7.20

6
89
8.90
78.76
24
2.40
21.24
113
11.30

7
70
7.00
71.43
28
2.80
28.57
98
9.80

8
84
8.40
80.00
21
2.10
20.00
105
10.50

9
67
6.70
69.79
29
2.90
30.21
96
9.60

Total
700
70.00
300
30.00
1000
100.00

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 81
/nalyse exploratoire des donnes 2.2
varlables qualltatlves ou olscretes
regrouper certalnes mooallts au ettectlts trop petlts
reprsenter les mooallts oans une analyse oes corresponoances multlples
Crer oes lnolcateurs pertlnents oapres les oonnes brutes
prenore lavls oes spclallstes ou secteur tuol
cratlon olnolcateurs pertlnents (malma, moyennes, prsence/absence.)
utlllser oes ratlos plutt que oes varlables absolues (eemple : platono llgne
oe crolt + part utlllse tau outlllsatlon ou crolt)
calcul ovolutlons temporelles oe varlables
cratlon oe oures, oanclennets a partlr oe oates
crolsement oe varlables, lnteractlons
utlllsatlon oe cooroonnes tactorlelles
Dtecter les llalsons entre varlables
entre varlables epllcatlves et a epllquer (bon)
entre varlables epllcatlves entre elles (collnarlt a vlter oans certalnes
mtbooes)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 82
5xemple de regroupement de modalits
Regroupement oe < 100 et
[100-500 euros[ oont les tau
olmpays sont procbes (35,99 et
33,01)
Regroupement oe [500-1000
euros[ et >= 1000 euros : leurs
tau olmpays sont molns procbes
mals la 2
e
mooallt est trop petlte
pour rester seule
On pourralt mme regrouper ces
oeu mooallts avec Pas opargne

Table de Epargne par Cible
Epargne Cible
FREQUENCE
Pourcentage
Pct en ligne OK KO Total
Pas d'pargne
151
15.10
82.51
32
3.20
17.49
183
18.30

< 100
386
38.60
64.01
217
21.70
35.99
603
60.30

[100-500 euros[
69
6.90
66.99
34
3.40
33.01
103
10.30

[500-1000 euros[
52
5.20
82.54
11
1.10
17.46
63
6.30

>= 1000 euros
42
4.20
87.50
6
0.60
12.50
48
4.80

Total
700
70.00
300
30.00
1000
100.00

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 83
/utre exemple de regroupement de modalits
Le regroupement oes mooallts
Locatalre et Logement gratult
est vloent
Llles sont assocles a oes tau
olmpays procbes et levs (39,11
et 40,74)
Les proprltalres sont molns rlsqus,
surtout slls ont tlnl leur emprunt,
mals pas seulement oans ce cas, car lls
sont gnralement plus attentlts que la
moyenne au bon remboursement oe
leur emprunt
Table de Statut_domicile par Cible
Statut_domicile Cible
FREQUENCE
Pourcentage
Pct en ligne OK KO Total
Locataire
109
10.90
60.89
70
7.00
39.11
179
17.90

Propritaire
527
52.70
73.91
186
18.60
26.09
713
71.30

Logement gratuit
64
6.40
59.26
44
4.40
40.74
108
10.80

Total
700
70.00
300
30.00
1000
100.00

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 84
5xploration avec une /C8

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 85
#raitement des valeurs manquantes
Daboro vrltler que les valeurs manquantes ne provlennent pas :
oun probleme tecbnlque oans la constltutlon oe la base
olnolvlous qul ne oevralent pas se trouver oans la base
Slnon, plusleurs solutlons sont envlsageables selon les cas :
supprlmer les observatlons (sl elles sont peu nombreuses ou sl le non
renselgnement oe la varlable est grave et peut lalsser suspecter oautres
anomalles oans lobservatlon)
ne pas utlllser la varlable concerne (surtout sl elle est peu olscrlmlnante) ou la
remplacer par une varlable procbe mals sans valeur manquante
mleu vaut supprlmer une varlable a priori peu utlle, mals qul est souvent non
renselgne et conoulralt a eclure oe nombreuses observatlons oe la moollsatlon
tralter la valeur manquante comme une valeur a part entlere
lmputatlon : remplacer la valeur manquante par une valeur par otaut ou
ooulte oes valeurs oes autres varlables
remplacer les valeurs manquantes grce a une source eterne (rarement
posslble)
Mals aucune solutlon nest loale
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 86
,mputation des valeurs manquantes
|mputatlon statlstlque
par le mooe, la moyenne ou la molane
par une rgresslon ou un arbre oe oclslon
lmputatlon
slmple (mlnore la varlablllt et les lntervalles oe contlance
oes parametres estlms)
ou multlple (remplacer cbaque valeur manquante par n
valeurs, par eemple n = 5, puls talre les analyses sur les n
tables et comblner les rsultats pour obtenlr les parametres
avec leurs cart-types
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 87
Limputation nest 9amais neutre
Surtout sl les oonnes ne sont pas manquantes au basaro
Dtormatlon oes varlances et oes corrlatlons
0
1
2
3
4
5
6
0 1 2 3
x
i
y
i
0
1
2
3
4
5
6
0 1 2 3
x
i
y
i
imputation
par
moyenne
ou
rgression

imputation
par
rgression
+ rsidu
alatoire
avant imputation aprs imputation par la
moyenne
0
1
2
3
4
5
6
0 1 2 3
source : J.-P. Nakache A. Gueguen, RSA 2005
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 88
$chma des valeurs manquantes
Lemple oe sortle prooulte par la procoure M| oe SAS
Caractristiques des donnes manquantes
Groupe Var1 Var2 Var3 Frq Pourcentage
Moyennes de groupes
Var1 Var2 Var3
1 X X X 6557 80.79 12.217310 0.245615 3.102462
2 X . X 3 0.04 0 . 0.166667
3 . X X 1108 13.65 . -0.075471 0.595276
4 . X . 353 4.35 . 0.160265 .
5 . . X 91 1.12 . . 0.000916
6 O O O 4 0.05 . . .
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 89
Le prol!me de la qualit des donnes '
trois niveaux
Donnes non correctes (manquantes ou aberrantes)
Pas toujours taclles a otecter
0 est-ll 0 ou manquant ? 9999..999 est-ll manquant ou aberrant ?
Saglt-ll oune erreur ou oun lnolvlou bors norme ?
Les oonnes manquantes ou etrmes sont plus taclles a otecter que les
autres erreurs, qul ne se volent souvent que par crolsement oes oonnes
entre elles
Comment corrlger en apprentlssage / en appllcatlon ?
Donnes correctes mals non cobrentes
venant ou rapprocbement oe oonnes correctes lsolment MA|S
mesures a oes oates olttrentes
ou sur oes cbelles olttrentes
ou lssues oe regles oe calcul olttrentes
Donnes correctes et cobrentes mals trompeuses
Par eemple, en apptence, le protll oes souscrlpteurs peut tre tauss par
une campagne commerclale clble rcente
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 90
La slection des variables
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 91
,mportance de la slection des variales
Lemple oe Davlo Hano (2005) : rgresslon avec un
coettlclent oe corrlatlon llnalre 0,5 entre cbaque
prolcteur (varlable epllcatlve) et la varlable a epllquer, et
un coettlclent oe corrlatlon entre cbaque prolcteur
Les courbes reprsentent 1-R (proportlon oe la somme oes
carrs non epllque) en tonctlon ou nombre oe prolcteurs
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 92
Limiter le nomre de variales slectionnes
Ln prsence oe collnarlt entre les prolcteurs, lapport
marglnal oe cbaque prolcteur ocroit tres vlte
Lt pourtant, lcl cbaque prolcteur est suppos avolr la
mme llalson avec la varlable a epllquer, ce qul nest pas le
cas oans une slectlon pas a pas relle ou la llalson ocroit !
Concluslon :
Lvlter au malmum la collnarlt oes prolcteurs
Llmlter le nombre oe prolcteurs : souvent molns oe 10
Alternatlve : la rgresslon PLS ou rgularlse (rloge.)
Remarque :
Dans une procoure pas a pas, le 1
er
prolcteur peut occulter un
autre prolcteur plus lntressant
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 93
$ur-apprentissage en rgression
(A) Modle trop simple (B) Bon modle (C) Modle trop complexe
Un mooele trop pouss oans la pbase oapprentlssage :
pouse toutes les tluctuatlons oe lcbantlllon oapprentlssage,
otecte alnsl oe tausses llalsons,
et les appllque a tort sur oautres cbantlllons
On parle oe sur-apprentlssage ou sur-ajustement
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 94
$ur-apprentissage en classement
Source : Olivier Bousquet
(B) Bon modle
(C) Modle trop
complexe
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 95
taux
d'erreur donnes de test
donnes apprentissage
complexit du modle
(A) (B) arrter ici (C)
#aux derreur en fonction de la complexit du
mod!le
mauvaise
gnralisation
bonne
gnralisation
n
h n h
R R
emp
) 4 / log( ) 1 ) / 2 (log( +
+ <
@horme de .apni% +
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 96
:lagage dun arre de dcision
Un bon arbre oolt tre lagu pour vlter la remonte ou tau
oerreur oue au sur-apprentlssage
Dans leemple prcoent, ll taut laguer les teullles 9 et 10
taux
d'erreur donnes de test
et d'application
donnes apprentissage
profondeur arbre
laguer ici (nb de feuilles)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 97
$lection des variales explicatives
Ln prsence oe corrlatlon llnalre entre les prolcteurs, lapport
marglnal oe cbaque prolcteur ocroit tres vlte
|l peut mme altrer le mooele (lnverslons oe slgnes oes parametres)
et roulre son pouvolr prolctlt
On oolt ettectuer oes tests statlstlques oe llalson
On peut prtrer un prolcteur molns ll a la varlable a epllquer sll
est molns corrl au autres prolcteurs
On peut travalller sur les cooroonnes tactorlelles
|l est plus taclle oe llmlter le nombre oe prolcteurs sl la populatlon
est bomogene
Et mme sils sont peu corrls, les prdicteurs doivent tre
suffisamment peu nombreux (ou borns comme dans la
rgression pnalise) pour viter davoir un modle trop
complexe et du sura!ustement
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 98
Tests paramtrlques
supposent que les varlables sulvent une lol
partlcullere (normallt, bomoscoastlclt)
e : test oe Stuoent, ANOvA
Tests non-paramtrlques
ne supposent pas que les varlables sulvent une lol partlcullere
se tonoent souvent sur les rangs oes valeurs oes varlables plutt
que sur les valeurs elles-mmes
peu senslbles au valeurs aberrantes
e : test oe Wllcoon-Mann-Wbltney, test oe Kruskal-Wallls
Lemple ou r oe Pearson et ou oe Spearman :
r > prsence oe valeurs etrmes ?
> r llalson non llnalre non otecte par Pearson ?
e : = 1, 2, 3. et y = e
1
, e
2
, e
3
.
2appel sur les tests
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 99
Liaison entre une variale continue et une
variale de classe
(*) Ces tests supportent mieux la non-normalit que lhtroscdasticit.
(**) Ces tests travaillant sur les rangs et non sur les valeurs elles-mmes,
ils sont plus robustes et sappliquent galement des variables ordinales
(***) ne pas comparer toutes les paires par des tests T on dtecte tort des
diffrences significatives (au seuil de 95 % : dans 27 % des cas pour 4 moyennes gales)
lois suivies 2 chantillons 3 chantillons et plus (***)
normalit homoscdasticit (*) test T de Student ANOVA
normalit htroscdasticit test T de Welch Welch - ANOVA
non normalit htroscdasticit (**) Wilcoxon Mann Whitney Kruskal Wallis
non normalit htroscdasticit (**) test de la mdiane test de la mdiane
non normalit htroscdasticit (**) test de Jonckheere-Terpstra
(chantillons ordonns)

moins puissant
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 100
5xemple de liste des variales
Llste oes varlables par llalson
ocrolssante avec la varlable a
epllquer
|cl les varlables sont qualltatlves
et la llalson mesure par le v oe
Cramer
Obs V_Cramer Variable
1
0.35174 Comptes
2
0.24838 Historique_credit
3
0.20499 Duree_credit
4
0.19000 Epargne
5
0.17354 Objet_credit
6
0.15809 Montant_credit
7
0.15401 Biens
8
0.13553 Anciennete_emploi
9
0.13491 Statut_domicile
10
0.12794 Age
11
0.11331 Autres_credits
12
0.09801 Situation_familiale
13
0.08152 Garanties
14
0.07401 Taux_effort
15
0.05168 Nb_credits
16
0.04342 Type_emploi
17
0.03647 Telephone
18
0.02737 Anciennete_domicile
19
0.00301 Nb_pers_charge

0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
C
o
m
p
t
e
s
H
i
s
t
o
r
i
q
u
e
_
c
r
e
d
i
t
D
u
r
e
e
_
c
r
e
d
i
t
E
p
a
r
g
n
e
O
b
j
e
t
_
c
r
e
d
i
t
M
o
n
t
a
n
t
_
c
r
e
d
i
t
B
i
e
n
s
A
n
c
i
e
n
n
e
t
e
_
e
m
p
l
o
i
S
t
a
t
u
t
_
d
o
m
i
c
i
l
e
A
g
e
A
u
t
r
e
s
_
c
r
e
d
i
t
s
S
i
t
u
a
t
i
o
n
_
f
a
m
i
li
a
le
G
a
r
a
n
t
i
e
s
T
a
u
x
_
e
f
f
o
r
t
N
b
_
c
r
e
d
i
t
s
T
y
p
e
_
e
m
p
lo
i
T
e
l
e
p
h
o
n
e
A
n
c
i
e
n
n
e
t
e
_
d
o
m
i
c
i
l
e
N
b
_
p
e
r
s
_
c
h
a
r
g
e
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 101
Pourquoi le * de Cramer ?
Classe 1 Classe 2 Ensemble
Effectifs observs :
A 55 45 100
B 20 30 50
Total 75 75 150
Effectifs attendus si la variable est indpendante de
la classe :
A 50 50 100
B 25 25 50
Total 75 75 150
Probabilit du = 0,08326454
V de Cramer = 0,14142136
Classe 1 Classe 2 Ensemble
Effectifs observs :
A 550 450 1000
B 200 300 500
Total 750 750 1500
Effectifs attendus si la variable est indpendante de
la classe :
A 500 500 1000
B 250 250 500
Total 750 750 1500
Probabilit du = 4,3205.10
-8
V de Cramer = 0,14142136
Quano la tallle oe la populatlon augmente, le molnore cart tlnlt
par oevenlr slgnltlcatlt au seulls usuels
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 102
Le * de Cramer
v oe Cramer =
mesure olrectement l'lntenslt oe la llalson oe 2 varlables
qualltatlves, sans avolr recours a une table ou
lnopenoamment ou nombre oe mooallts et oe lettectlt
en lntgrant lettectlt et le nombre oe oegrs oe llbert, par
l'lntermolalre oe
ma

ma
= ettectlt [mln (nb llgnes, nb colonnes) 1]
v comprls entre 0 (llalson nulle) et 1 (llalson partalte)
2
max
2

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 103


C
o
n
s
t
a
n
t
e
V
0
5
V
0
9
V
1
4
V
0
1
V
0
3
V
1
3
V
0
2
V
0
4
V
1
8
V
2
2
V
1
9
V
1
7
V
2
4
V
0
8
V
3
6
V
2
8
V
0
7
V
2
5
V
2
6
V
1
5
V
1
2
V
2
9
V
3
1
V
1
0
V
2
0
V
0
6
V
1
6
V
3
2
V
3
7
V
1
1
V
2
1
V
2
3
V
2
7
V
3
4
V
3
5
0
10
20
30
40
50
60
$lection des variales ' ootstrap
Variable Nb occurrences Variable Nb occurrences
Constante 50 V25 7
V05 46 V26 7
V09 39 V15 6
V14 37 V12 5
V01 35 V29 5
V03 34 V31 5
V13 28 V10 4
V02 23 V20 4
V04 22 V06 2
V18 18 V16 2
V22 18 V32 2
V19 16 V37 2
V17 15 V11 1
V24 14 V21 1
V08 13 V23 1
V36 12 V27 1
V28 11 V34 1
V07 10 V35 1
seuil
seuil
6ootstrap + 6 tirages alatoires avec
remise de n individus parmi n et
slection de variables sur chacun des 6
chantillons bootstrap
-n effectue une rgression logistique step?ise sur chacun des chantillons bootstrap
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 104
$lection des variales ' classification 3
laide dune /CP avec rotation
volution consommation 0.7870 0.0027 0.2151
evolconsom
relation (anciennet client) 0.3662 0.0336 0.6461
relation
ge 0.3967 0.0000 0.6033
age Cluster 2
rglements crdit 0.7689 0.0002 0.2312
utilcredit
abonnement autre service 0.7495 0.0042 0.2537
abonnement
revenus du client 0.5580 0.0234 0.4551
revenus
nb achats 0.4053 0.0007 0.5950
nbachats
nb produits 0.3882 0.0183 0.6189
nbproduits
nb points fidlit 0.3458 0.0011 0.6546
nbpoints Cluster 1
Next
Closest
Own
Cluster
Variable
Label
1-R**2
Ratio
R-squared with
Variable Cluster
volution consommation 0.7870 0.0027 0.2151
evolconsom
relation (anciennet client) 0.3662 0.0336 0.6461
relation
ge 0.3967 0.0000 0.6033
age Cluster 2
rglements crdit 0.7689 0.0002 0.2312
utilcredit
abonnement autre service 0.7495 0.0042 0.2537
abonnement
revenus du client 0.5580 0.0234 0.4551
revenus
nb achats 0.4053 0.0007 0.5950
nbachats
nb produits 0.3882 0.0183 0.6189
nbproduits
nb points fidlit 0.3458 0.0011 0.6546
nbpoints Cluster 1
Next
Closest
Own
Cluster
Variable
Label
1-R**2
Ratio
R-squared with
Variable Cluster
PROC VARCLUS DATA=fichier_client;
VAR age relation nbpoints nbproduits nbachats revenus abonnement evolconsom
utilcredit;
RUN;
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 105
La modlisation
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 106
8thodes inductives ' ; tapes
Apprentlssage : construction du modle sur
un 1
er
cbantlllon pour lequel on connait la
valeur oe la varlable a epllquer
Test : vrification du modle sur un 2
o
cbantlllon pour lequel on connait la valeur oe la
varlable a epllquer, que lon compare a la valeur
prolte par le mooele
sl le rsultat ou test est lnsuttlsant (oapres la
matrice de confusion ou la courbe R%C), on
recommence lapprentlssage
"alidation du modle sur un 3
e
cbantlllon,
ventuellement out ot tlme , pour avolr une
loe ou tau oerreur non blals ou mooele
#pplication du modle a lensemble oe la
populatlon
valeur prdite
valeur relle
A 6 @-@A0
A 9=44 44
6 ;44 9<44
@-@A0 B444
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 107
Quelques mthodes classiques de scoring
Analyse olscrlmlnante llnalre
Rsultat epllclte P(Y/ X
1
, ., X
p
) sous torme oune tormule
Requlert oes X
l
contlnues et oes lols X
l
/Y multlnormales et
bomoscoastlques (attentlon au lnolvlous bors norme)
Optlmale sl les bypotbeses sont remplles
Rgresslon loglstlque
Sans bypotbese sur les lols X
l
/Y, X
l
peut tre olscret, ncessalre absence oe
collnarlt entre les X
l
Mtbooe tres souvent pertormante
Mtbooe la plus utlllse en scorlng
Arbres oe oclslon
Regles completement epllcltes
Traltent les oonnes btrogenes, ventuellement manquantes, sans
bypotbeses oe olstrlbutlon
Dtectlon olnteractlons et oe pbnomenes non llnalres
Mals molnore robustesse
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 108
<rille de score
Passage oe coettlclents ( Lstlmatlon ) a oes ponoratlons oont la
somme est comprlse entre 0 et 100
Variable Modalit Nb points
Age > 25 ans 0
Age 25 ans 8
Autres_credits Aucun crdit extrieur 0
Autres_credits Crdits extrieurs 7
Comptes Pas de compte 0
Comptes CC 200 euros 13
Comptes CC [0-200 euros[ 19
Comptes CC < 0 euros 25
Duree_credit 15 mois 0
Duree_credit 16-36 mois 13
Duree_credit > 36 mois 18
Epargne pas pargne ou > 500 euros 0
Epargne < 500 euros 8
Garanties Avec garant 0
Garanties Sans garant 21
Historique_credit Jamais aucun crdit 0
Historique_credit Crdits sans retard 6
Historique_credit Crdits en impay 13
Analyse des estimations de la vraisemblance maximum
Paramtre DF Estimation
Erreur
std
Khi 2
de Wald Pr > Khi 2
Intercept 1 -3.1995 0.3967 65.0626 <.0001
Comptes CC >= 200 euros 1 1.0772 0.4254 6.4109 0.0113
Comptes CC < 0 euros 1 2.0129 0.2730 54.3578 <.0001
Comptes CC [0-200 euros[ 1 1.5001 0.2690 31.1067 <.0001
Comptes Pas de compte 0 0 . . .
Historique_credit Crdits en impay 1 1.0794 0.3710 8.4629 0.0036
Historique_credit Crdits sans retard 1 0.4519 0.2385 3.5888 0.0582
Historique_credit Jamais aucun crdit 0 0 . . .
Duree_credit > 36 mois 1 1.4424 0.3479 17.1937 <.0001
Duree_credit 16-36 mois 1 1.0232 0.2197 21.6955 <.0001
Duree_credit <= 15 mois 0 0 . . .
Age <= 25 ans 1 0.6288 0.2454 6.5675 0.0104
Age > 25 ans 0 0 . . .
Epargne < 500 euros 1 0.6415 0.2366 7.3501 0.0067
Epargne pas pargne ou > 500 euros 0 0 . . .
Garanties Avec garant 1 -1.7210 0.5598 9.4522 0.0021
Garanties Sans garant 0 0 . . .
Autres_credits Aucun crdit extrieur 1 -0.5359 0.2439 4.8276 0.0280
Autres_credits Crdits extrieurs 0 0 . . .

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 109
5xemples de notations
Note oun jeune oe molns oe 25 ans, qul oemanoe pour la
premlere tols un crolt oans ltabllssement et qul nen a
pas allleurs, sans lmpay, avec un compte oont le soloe
moyen est lgerement posltlt (mals < 200 t), avec un peu
opargne (< 500 t), sans garant, qul oemanoe un crolt sur
36 mols :
8 + 0 + 19 + 13 + 8 + 21 + 0 = 69 polnts
Note oun oemanoeur oe plus oe 25 ans, avec oes crolts a
la concurrence, sans lmpay, avec un compte oont le soloe
moyen est > 200 t, avec plus oe 500 t opargne, sans
garant, qul oemanoe un crolt sur 12 mols :
0 + 7 + 13 + 0 + 0 + 21 + 0 = 41 polnts
On constate la taclllt oe llmplmentatlon et ou calcul ou
score
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 110
&coupage de la note de score
On peut calculer les oclles ou nombre oe polnts et leurs
tau olmpays corresponoants :
Analysis Variable : nbpoints
Rang pour
la variable
nbpoints
N
Obs Minimum Maximum
0 104 6.0000000 29.0000000
1 95 33.0000000 37.0000000
2 107 39.0000000 42.0000000
3 120 43.0000000 48.0000000
4 98 49.0000000 54.0000000
5 93 55.0000000 60.0000000
6 81 61.0000000 65.0000000
7 104 66.0000000 69.0000000
8 92 70.0000000 74.0000000
9 106 75.0000000 95.0000000

Table de dnbpoints par Cible
dnbpoints(Rang
pour la variable
nbpoints) Cible
FREQUENCE
Pct en ligne OK KO Total
0
99
95.19
5
4.81
104

1
89
93.68
6
6.32
95

2
100
93.46
7
6.54
107

3
101
84.17
19
15.83
120

4
71
72.45
27
27.55
98

5
60
64.52
33
35.48
93

6
48
59.26
33
40.74
81

7
60
57.69
44
42.31
104

8
38
41.30
54
58.70
92

9
34
32.08
72
67.92
106

Total
700 300 1000

Seuils
de taux
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 111
#aux dimpays par tranches de score
Trancbe oe rlsque talble :
8,69 olmpays
octrol ou crolt avec un mlnlmum
oe tormallts
Trancbe oe rlsque moyen :
36,44 olmpays
octrol ou crolt selon la procoure
stanoaro
Trancbe oe rlsque lev :
63,64 olmpays
octrol ou crolt lnterolt saut par
lcbelon blrarcblque suprleur
(olrecteur oagence)
Table de nbpoints par Cible
nbpoints Cible
FREQUENCE
Pourcentage
Pct en ligne OK KO Total
risque faible
[0 , 48] points
389
38.90
91.31
37
3.70
8.69
426
42.60

risque moyen
[49 , 69] points
239
23.90
63.56
137
13.70
36.44
376
37.60

risque fort
70 points
72
7.20
36.36
126
12.60
63.64
198
19.80

Total
700
70.00
300
30.00
1000
100.00

07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 112
2eprenons nos exemples
Demanoeur oe molns oe 25 ans, qul oemanoe pour la
premlere tols un crolt oans ltabllssement et qul nen a
pas allleurs, sans lmpay, avec un compte oont le soloe
moyen est lgerement posltlt (mals < 200 t), avec un peu
opargne (< 500 t), sans garant, qul oemanoe un crolt sur
36 mols :
69 polnts rlsque moyen
On est a la llmlte ou rlsque lev et cette llmlte auralt t
trancble avec un crolt sur plus oe 36 mols
Demanoeur oe plus oe 25 ans, avec oes crolts a la
concurrence, sans lmpay, avec un compte oont le soloe
moyen est > 200 t, avec plus oe 500 t opargne, sans
garant, qul oemanoe un crolt sur 12 mols :
41 polnts rlsque talble
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 113
5xemple de prdiction des impays 3 -2 mois
32,23
0,8
26,8
3,41
17,27
5,67
10,46
17,45
7,64
22,37
5,61
50,3
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
% clients % impays
Score 1 Score 2 Score 3 Score 4 Score 5 Score 6
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 114
Les rsultats du mod!le retenu
=autre exemple>
0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
35,00%
40,00%
45,00%
50,00%
taux souscription 0,10% 0,22% 0,67% 0,86% 1,38% 2,15% 3,23% 9,37% 21,08% 44,76%
1 2 3 4 5 6 7 8 9 10
Observer lvolutlon eponentlelle ou tau oe souscrlptlon
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 115
$ensiilit et spcificit
Pour un score oevant olscrlmlner un groupe A (les posltlts,
e : les rlsqus) par rapport a un autre groupe 8 (les
ngatlts , e : les non rlsqus), on otlnlt 2 tonctlons ou seull
oe sparatlon s ou score :
senslblllt = (s) = Prob(score < s / A) = probablllt oe blen
otecter un posltlt
spcltlclt = (s) = Prob(score < s / 8) = probablllt oe blen
otecter un ngatlt
Pour un mooele, on cbercbe s qul malmlse (s) tout en
mlnlmlsant les tau posltlts 1 - (s) = Prob(score < s / 8)
tau posltlts : ngatlts conslors comme posltlts a cause ou
score
Le mellleur mooele : permet oe otecter le plus posslble oe
vrals posltlts avec le molns posslble oe tau posltlts
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 116
Coure 2?C
La courbe ROC
sur laeY : senslblllt = (s)
sur lae X : 1 - spcltlclt = 1 - (s)
proportlon y oe vrals posltlts en tonctlon oe la proportlon oe tau
posltlts, lorsque l'on talt varler le seull s ou score
Alre AUC sous la courbe ROC = probablllt que score() >
score(y), sl est tlr au basaro oans le groupe A (a prolre) et y
oans le groupe 8
1
ere
mtbooe oestlmatlon : par la mtbooe oes trapezes
2
e
mtbooe oestlmatlon : par les palres concoroantes
3
e
mtbooe qulvalente : par le test oe Mann-Wbltney
Le mooele est o'autant mellleur que lAUC sapprocbe oe 1
AUC = 0,5 mooele pas mellleur qu'une notatlon alatolre
1,0 ,8 ,5 ,3 0,0
1,0
,8
,5
,3
0,0
Source de la courbe
Ligne de rfrence
arbre de dcision
analys discriminante
rgress. logistique
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 117
5xemple de coure 2?C
,000
,100
,200
,300
,400
,500
,600
,700
,800
,900
1,000
,000 ,100 ,200 ,300 ,400 ,500 ,600 ,700 ,800 ,900 1,000
False positive rate
T
r
u
e

p
o
s
i
t
i
v
e

r
a
t
e
0,15 0,10
0,70
0,50
0,42
0,40
0,37
0,25

# Classe Score # Classe Score


1 P 0,90 11 P 0,40
2 P 0,80 12 N 0,39
3 N 0,70 13 P 0,38
4 P 0,65 14 P 0,37
5 P 0,60 15 N 0,35
6 P 0,55 16 N 0,30
7 P 0,50 17 N 0,25
8 N 0,45 18 P 0,20
9 N 0,44 19 N 0,15
10 N 0,42 20 N 0,10
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 118
,nterprtation de la coure 2?C
t
a
u
x

d
e

v
r
a
i
s

p
o
s
i
t
i
f
s
taux de faux positifs
prdiction nulle
prdiction parfaite
seuil s minimum :
tous classs en +
seuil s maximum :
tous classs en -
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 119
Tableau de classement
a
45 12 78,9
16 27 62,8
72,0
Observ
0
1
CHD
Pourcentage global
0 1
CHD
Pourcentage
correct
Prvu
La valeur de csure est ,500
a.
8atrice de confusion et coure 2?C
Seuil 0,5 (= csure de
la matrice de confusion)
Sensibilit = 27/43 = 0,63
1 - Spcificit = 1-(45/57) = 0,21
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 120
Coures 2?C avec entre progressive des
variales du mod!le
Sensi bi l i t
0. 0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
0. 8
0. 9
1. 0
1 - Spci f i ci t
0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0
_step_ = 1
_step_ = 7
Rapprocher lapport de plus en plus
faible de chaque variable avec la
remarque de David Hand
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 121
Quelques principes du data
mining
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 122
Les @ principes de ase de la modlisation
La prparatlon oes oonnes est la pbase la plus longue, peut-tre la
plus laborleuse mals la plus lmportante
|l taut un nombre suttlsant oobservatlons pour en lntrer un mooele
valloatlon sur un cbantlllon oe test olstlnct oe celul oapprentlssage
(ou valloatlon crolse)
Arbltrage entre la prclslon oun mooele et sa robustesse ( ollemme
blals varlance )
Llmlter le nombre oe varlables epllcatlves et surtout vlter leur
collnarlt
Perore partols oe llntormatlon pour en gagner
ocoupage oes varlables contlnues en classes
On moollse mleu oes populatlons bomogenes
lntrt oune classltlcatlon pralable a la moollsatlon
La pertormance oun mooele openo souvent plus oe la quallt oes
oonnes et ou type oe probleme que oe la mtbooe
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 123
Qualits attendues dune technique prdictive
-.2
La prclslon
le tau oerreur oolt tre le plus bas posslble, et lalre sous la
courbe ROC la plus procbe posslble oe 1
La robustesse
tre le molns senslble posslble au tluctuatlons alatolres oe
certalnes varlables et au valeurs manquantes
ne pas openore oe lcbantlllon oapprentlssage utllls et blen
se gnrallser a oautres cbantlllons
La conclslon
les regles ou mooele oolvent tre les plus slmples et les molns
nombreuses posslble
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 124
Qualits attendues dune technique
prdictive 2.2
Des rsultats epllcltes
les regles ou mooele oolvent tre accesslbles et comprbenslbles
La olverslt oes types oe oonnes manlpules
toutes les mtbooes ne sont pas aptes a tralter les oonnes
qualltatlves, olscretes, contlnues et. manquantes
La raplolt oe calcul ou mooele
un apprentlssage trop long llmlte le nombre oessals posslbles
Les posslblllts oe paramtrage
oans un classement, ll est partols lntressant oe pouvolr ponorer
les erreurs oe classement, pour slgnltler, par eemple, qull est plus
grave oe classer un patlent malaoe en non-malaoe que llnverse
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 125
Choix dune mthode ' nature des donnes
explicatives

expliquer
1 quantitative
(covariable)
n quantitatives
(covariables)
1 qualitative
(facteur)
n qualitatives
(facteurs)
mlange
1 quantitative rg. linaire
simple,
rgression
robuste, arbres
de dcision
rg. linaire multiple,
rg. robuste, PLS,
arbres, rseaux de
neurones
ANOVA,
arbres de
dcision
ANOVA, arbres
de dcision,
rseaux de
neurones
ANCOVA,
arbres de
dcision,
rseaux de
neurones
n quantitatives
(reprsentent des
quantits )
rgression
PLS2
rgression PLS2,
rseaux de neurones
MANOVA MANOVA,
rseaux de
neurones
MANCOVA,
rseaux de
neurones
1 qualitative
nominale ou
binaire
ADL,
rgression
logistique,
arbres de
dcision
ADL, rg. logistique,
reg. logistique PLS,
arbres, rseaux de
neurones, SVM
rgression
logistique,
DISQUAL,
arbres
rgression
logistique,
DISQUAL,
arbres, rseaux
de neurones
rgression
logistique,
arbres, rseaux
de neurones
1 discrte
(comptage)
modle linaire gnralis
(rgression de Poisson, modle log-linaire)
1 quantitative
asymtrique
modle linaire gnralis
(rgressions gamma et log-normale)
1 qualitative
ordinale
rgression logistique ordinale
(au moins 3 niveaux)
n quantitatives
ou qualitatives
modle mesures rptes
(les n variables reprsentent des mesures rptes dune mme quantit)


07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 126
Choix dune mthode ' prcisionA roustesseA
concisionA lisiilit
Prclslon : prlvllgler la rgresslon llnalre, lanalyse
olscrlmlnante llnalre, D|SQUAL et la rgresslon
loglstlque, et partols les SvM et les rseau oe neurones
en prenant garoe au sur-apprentlssage (ne pas avolr trop
oe neurones oans la ou les coucbes cacbes)
Robustesse : vlter les arbres oe oclslon et se mtler oes
rseau oe neurones, prtrer une rgresslon robuste a
une rgresslon llnalre par les molnores carrs
Conclslon : prlvllgler la rgresslon llnalre, lanalyse
olscrlmlnante et la rgresslon loglstlque, alnsl que les
arbres sans trop oe teullles
Llslblllt : prtrer les arbres oe oclslon et problber les
rseau oe neurones. La rgresslon loglstlque, D|SQUAL,
lanalyse olscrlmlnante llnalre et la rgresslon llnalre
tournlssent aussl oes mooeles taclles a lnterprter
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 127
Choix dune mthode ' autres crit!res
Peu oe oonnes : vlter les arbres oe oclslon et les rseau
oe neurones
Donnes avec oes valeurs manquantes : essayer oe recourlr a
un arbre, a une rgresslon PLS, ou a une rgresslon loglstlque
en cooant les valeurs manquantes comme une classe
partlcullere
Les valeurs etrmes oe varlables contlnues nattectent pas les
arbres oe oclslon, nl la rgresslon loglstlque et D|SQUAL
quano les varlables contlnues sont ocoupes en classes et les
etrmes placs oans 1 ou 2 classes
varlables epllcatlves tres nombreuses ou tres corrles :
arbres oe oclslon (pour llmlter le nombre oe varlables ou
mooele), rgresslon rgularlse ou PLS (pour conserver le
malmum oe varlables oans le mooele)
Mauvalse comprbenslon oe la structure oes oonnes :
rseau oe neurones (slnon eplolter la comprbenslon oes
oonnes par oautres types oe mooeles)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 128
Choix dune mthode ' topographie des
classes 3 discriminer
?
est class en "1"
?
est class en "0"
?
est class en "0"
Analyse discriminante Rseau de neurones Arbre de dcision
1 0 0
0 0 1 0 1
0 1
0 0
1 1 ? 0
1 1 0 1
1 0
0 0 1 1
1 1 1
? 0 0
+ + 0
+ 0 1
1 0
0 0 1 1
1 1 1
? 0 0
+ + 0
+ 0 1
1 0 0
0 0 1 0 1
0 1
0 0
1 1 ? 0
1 1 0 1
1 0 0
0 0 1 0 1
0 1
0 0
1 1 ? 0
1 1 0 1
Toutes les mtbooes oe classement ocoupent lespace
oes varlables en rglons, oont cbacune est assocle a une
oes classes a olscrlmlner
La torme oe ces rglons openo oe la mtbooe employe
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 129
,nfluence des donnes et mthodes
Pour un jeu oe oonnes tl, les carts entre les pertormances oe
olttrents mooeles sont souvent talbles
eemple oe Gllbert Saporta sur oes oonnes oassurance automoblle
(on mesure lalre sous la courbe ROC) :
rgresslon loglstlque : 0,933
rgresslon PLS : 0,933
analyse olscrlmlnante D|SQUAL : 0,934
analyse olscrlmlnante barycentrlque : 0,935
le cbol oe la mtbooe est partols attalre ocole
Les pertormances oun mooele openoent :
un peu oe la tecbnlque oe moollsatlon employe
beaucoup plus oes oonnes !
Dou llmportance oe la pbase prllmlnalre oeploratlon et
oanalyse oes oonnes
Collecter oes oonnes pertlnentes nouvelles (e : smlomtrlques)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 130
Lagrgation de modles
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 131
Bonction de perte et risque dun mod!le
Lerreur oe prolctlon oun mooele se mesure par une tonctlon
oe perte :
& contlnue L(&'f(!)) = (& * f(!))
& = 1/+1 L(&'f(!)) = |& * f(!)|
Rlsque (ou rlsque rel) = esprance oe la tonctlon oe perte sur
lensemble oes valeurs posslbles oes oonnes (!'&)
comme on ne connait pas la lol oe probablllt conjolnte oe ! et &, on
ne peut questlmer le rlsque
lestlmatlon la plus courante est le rlsque emplrlque
ou
on retrouve le tau oerreur pour & = 1/+1 (n = ettectlt)
Dans le cas quaoratlque, le rlsque se ocompose en :
8lals(mooele) + varlance(mooele)
(olttrence entre esprance oe la prolctlon t() et valeur moyenne
oe y) + varlance oe la prolctlon
( )

n
i
i i
x f y
n
1
2
) (
1

n
i
i i
x f y
n
1
) (
2
1 1
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 132
&ilemme %iais-*ariance
Plus un mooele est complee, plus son blals olmlnue mals plus sa
varlance augmente
Nous oevons trouver le bon rglage (traoe-ott) entre blals et varlance,
entre ajustement au oonnes oapprentlssage (blals) et capaclt oe
gnrallsatlon (varlance)
Dans quelques cas slmples, la complelt oun mooele est gale au
nombre p oe parametres
Dans certalnes sltuatlons, on ne peut pas olmlnuer le nombre oe
parametres car les utlllsateurs veulent volre apparaitre slmultanment
oes crlteres mme slls sont tortement corrls
Moeclne, avec oes mesures pbyslologlques, oes rsultats oanalyses
8anque, avec oes crlteres qualltatlts salsls sur les entreprlses
Cette complelt peut tre olmlnue par llntroouctlon oe bornes ||||
> C oans la recbercbe oes coettlclents oun mooele oe rgresslon (les
observatlons tant oans une spbere oe rayon R)
complelt > mln [partle entlere (R.C),p] + 1
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 133
$olutions de rduction de complexit
La rgresslon avec pnallsatlon L
d
(d 0)
Mlnlmlser -2.log-vralsemblance (ou oes carrs) + |
i
|
d
, d 0
mlnlmlser -2.log-vralsemblance avec la contralnte |
i
|
d
C
d 1: slectlon oe prolcteurs (A|C, 8|C sl d = 0 , Lasso sl d = 1)
d > 1: rtrclssements oe coettlclents (Rloge sl d = 2)
La rgresslon rloge (ou loglstlque rloge) est la plus rpanoue
Llle roult les coettlclents oans toutes les olrectlons, surtout celles a talble
varlance (le coettlclent oe la rloge sur la 1
ere
composante prlnclpale olmlnue
molns que le coettlclent sur la 2
e
composante, etc.)
La complelt peut aussl tre roulte par la rgresslon PLS
Avec une seule composante : les slgnes oes coettlclents sont gau au
slgnes oes corrlatlons entre prolcteurs et varlable rponse
La rgresslon PLS roult les coettlclents oans les olrectlons a talble varlance,
mals peut provoquer une bausse trop granoe oans les olrectlons a torte
varlance lerreur oe prolctlon oe la PLS est souvent un peu suprleure
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 134
2idge plot
Lvolutlon oes coettlclents en tonctlon oe la pnallsatlon
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 135
,ntroduction aux mthodes dagrgation
Nous avons vu que la complelt oun mooele oolt tre
maitrlse pour lul assurer une talble somme blals +
varlance et oonc une bonne gnrallsatlon
La complelt oun mooele peut tre olmlnue par :
La olmlnutlon ou nombre oe prolcteurs
Llntroouctlon oe bornes sur les coettlclents oe rgresslon oe ces
prolcteurs
Laugmentatlon oe la marge oes SvM
Nous allons volr une autre approcbe avec les mtbooes
oagrgatlon (synonyme : mtbooes oensemble) qul
conslstent a agrger les prolctlons oe plusleurs mooeles oe
mme type, oune taon qul permette oe roulre la varlance
et ventuellement le blals ou mooele agrg
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 136
Principe des mthodes dagrgation
La moyenne oe 8 varlables alatolres l.l.o. oe varlance o`, a
une varlance
c`
B
,
Lesprance oe cette moyenne oe varlables alatolres est
gale a lesprance oe cbaque varlable
Sl les varlables sont loentlquement olstrlbues mals
openoantes, avec une corrlatlon posltlve , la varlance oe
la moyenne est po` +
1-p
B
o`
Cette tormule peut tre appllque a la tonctlon oe
prolctlon otlnle par cbaque mooele oans lagrgatlon. Sl
ces tonctlons sont tortement corrles, lagrgatlon roulra
peu la varlance, mme sl 8 est grano
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 137
%agging -.2
Ln moyennant oes classltleurs (par eemple oes arbres) sur 8
cbantlllons bootstrap, on obtlent un classltleur :
oont le blals na pas olmlnu
oont la varlance a olmlnu oautant plus que la corrlatlon entre les
classltleurs est talble
Les n mooeles sont agrgs :
par un vote ou une moyenne oes probablllts P(Y=1|X) quano on salt
calculer cette moyenne (classement)
par une moyenne oes estlmatlons (rgresslon)
Cest le bagglng : 8ootstrap AGGregat|NG, 8relman, 1996
La procoure oe vote appllque a oes arbres oe talble quallt
peut conoulre a un rsultat plre lors oe lagrgatlon
Supposons que + = 1 pour tout ! et que cbaque classltleur prolse 1
avec la probablllt 0,4 et 0 avec la probablllt 0,6. Lerreur oe
classement oe cbaque classltleur vauora 0,6 mals lagrgatlon par vote
oonnera un classltleur oont lerreur vauora 1.
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 138
%agging 2.2
Le classltleur oe base est le mme a cbaque ltratlon : arbre oe
oclslon, rseau oe neurones.
La corrlatlon entre les classltleurs est olmlnue par :
le mcanlsme oe bootstrap
laugmentatlon oe la complelt
Le bagglng sappllque mleu au classltleurs a talble blals et
varlance leve partlcullerement les arbres oe oclslon
La stratgle olagage est slmple : prtrer le bagglng sur oes
arbres protonos
8agglng lnettlcace sur un classltleur tort, oont les olttrents
mooeles seront trop corrls pour roulre la varlance
R : packages ipred' random,orest
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 139
Bor4ts alatoires -.(
Le bagglng manque oettlcaclt quano les mooeles sont trop corrls
on veut oonc les ocorrler
|ntroouctlon oune 2
e
ranoomlsatlon : sur les lnolvlous (bagglng) mals
aussl sur les prolcteurs, en ajoutant a cbaque sclsslon un tlrage
alatolre oun sous-ensemble oe tallle q (constante) parml lensemble
oes p prolcteurs (torts alatolres, 8relman, 2001)
Plus la corrlatlon balsse (elle peut attelnore = 0,05) plus la
varlance ou mooele agrg olmlnue : po +


Lvlte oe volr apparaitre trop souvent les mmes varlables les plus
olscrlmlnantes
Cbaque arbre lmentalre est molns pertormant mals lagrgatlon
conoult a un mooele agrg plus pertormant : laugmentatlon ou blals
est plus que compense par la olmlnutlon oe la varlance
R : packages random,orest (sur arbre CART) et part& (sur arbre Ctree)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 140
Bor4ts alatoires 2.(
Dlmlnuer le nombre q oe prolcteurs augmente le blals mals olmlnue
la corrlatlon entre les mooeles et la varlance ou mooele tlnal q
permet oe rgler le traoe-ott entre blals et varlance
Pour le classement, 8relman suggere un sous-ensemble oe q = p
varlables ou [log(p)+1] ou 1
Mals ll ne taut pas que ce nombre q solt trop talble sl une torte
proportlon oe varlables sont peu olscrlmlnantes
Les torts alatolres commencent a tre tres ettlcaces lorsque la
probablllt oe slectlonner un prolcteur olscrlmlnant est > 0,5. Cette
probablllt est oonne par la lol bypergomtrlque.
Sl 6 varlables olscrlmlnantes sont mlanges a 30 non olscrlmlnantes, la
probablllt oe tlrer au molns une varlable olscrlmlnante parml 6 est :
> cumsum(obyper(1:6, 6, 30, 6))
[1] 0.4389771 0.6500237 0.6917119 0.6950619 0.6951543 $%&'()(*+
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 141
Bor4ts alatoires (.(
Le nombre q oe prolcteurs est le seul parametre
rellement a rgler
Le nombre oltratlons est molns senslble a rgler, et on a
lntrt a le cbolslr assez lev
Le nombre oe mooeles a agrger oevralt croitre avec le nombre oe
prolcteurs
A noter la convergence oes pertormances attelnte avec un nombre oe
mooeles agrgs partols tres lntrleur au nombre oe comblnalsons oe p
varlables parml n (n!/p!(np)!), cest-a-olre blen avant que toutes les
comblnalsons posslbles oe varlables solent apparues.
Les torts alatolres rslstent blen au sur-apprentlssage (contralrement au
rseau oe neurones et au boostlng) mme quano le nombre oe mooeles
agrgs est grano
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 142
$imilarits entre for4ts alatoires et
rgression pnalise ridge
Le rtrclssement oes coettlclents oans la rgresslon
rloge slectlon oe q < p prolcteurs alatolrement parml
les p prolcteurs
Augmenter ou roulre q :
augmente le blals, pulsque la solutlon est cbercbe oans un sous-
espace tl par la contralnte
roult la varlance, oe taon a compenser la bausse ou blals
Autre analogle : tous les prolcteurs peuvent apparaitre
oans le mooele
par rtrclssement oe leurs coettlclents oans la rgresslon rloge
ou par slectlon au basaro oans les torts alatolres
le travall oe slectlon oes varlables est slmplltl !
Pouvolr prolctlt lev !
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 143
&iffrences entre for4ts alatoires et
rgression pnalise ridge
Le parametre oe pnallsatlon permet un ajustement
contlnu ou blals-varlance, alors que le nombre q est olscret
|l permet oajuster les coettlclents a laloe ou rloge plot
en sorte que tous les coettlclents alent un slgne cobrent
volre que certalns coettlclents solt suprleur a un certaln seull tl
par les eperts ou oomalne
La rgresslon pnallse est otermlnlste
Les calculs oe la rgresslon pnallse sont plus raploes
mals les calculs oes torts alatolres peuvent tre parallllss
Manque oe llslblllt oun mooele oe torts alatolres, qul
otrult la structure oarbre
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 144
/grgation de mod!les ' le oosting
8OOST|NG, Freuno et Scbaplre, 1996
Algorltbme aoaptatlt et gnralement otermlnlste :
on travallle souvent sur toute la populatlon
et a cbaque ltratlon, on augmente le polos oes lnolvlous mal classs ou
mal ajusts oans les ltratlons prcoentes
a la tln, on agrege les mooeles en les ponorant par leur quallt
Dlmlnue le blals et pas seulement la varlance (grce au mcanlsme
oagrgatlon) mals peut tre sujet au sur-ajustement
Nombreu algorltbmes : Dlscrete Aoa8oost, Real Aoa8oost, Gentle
Aoa8oost, Loglt8oost, Arclng (Aoaptatlve Resampllng ano
Comblnlng).
Pertormances pas toujours tres olttrencles sur oes oonnes relles
(volr plus loln larc-4 oe 8relman)
R : packages ada, g-m et m-oost
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 145
,llustration =2oert $chapire>
Extrait dune confrence visible ici :
http://videolectures.net/mlss05us_schapire_b/
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 146
/lgorithme &iscrete /da%oost
1) |nltlallser les polos oes N lnolvlous oe lcbantlllon oapprentlssage :
p
l
= 1/N, l = 1, 2, ., N
2) Rpter pour m = 1 a M
ajuster le classltleur t
m
() {-1,+1} sur lcbantlllon
oapprentlssage ponor par les polos p
l
calculer le tau oerreur
m
oe t
m
() (tenant compte ou polos oe cbaque
observatlon mal classe) et calculer
m
= ln((1-
m
)/
m
)
on peut multlpller
m
par un parametre oe pnallsatlon 1
sl
m
< 0,5, multlpller le polos p
l
oe cbaque observatlon mal classe par
ep(
m
) (slnon : lnterrompre lalgorltbme ou rlnltlallser les polos) le
multlpllcateur ocroit avec le tau oerreur
normallser les polos p
l
pour que leur somme solt 1
3) Le classltleur boost est le slgne oe la somme
m

m
t
m
() (ou la
valeur moyenne oes
m
t
m
())
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 147
/lgorithme /rcing
1) |nltlallser les polos oes N lnolvlous oe lcbantlllon
oapprentlssage : p
l
= 1/N, l = 1, 2, ., N
2) Rpter pour m = 1 a M
oans lcbantlllon oapprentlssage, tlrer avec remlse N lnolvlous cbacun
selon la probablllt p
l
ajuster le classltleur t
m
() {-1,+1} sur lcbantlllon alnsl tlr
sur lcbantlllon oapprentlssage lnltlal :
calculer le tau oerreur
m
ponor oes observatlons mal classes par t
m
() et
calculer
m
= ln((1-
m
)/
m
)
sl
m
< 0,5, multlpller le polos p
l
oe cbaque observatlon mal classe par ep(
m
)
pour l = 1, 2, ., N (slnon : lnterrompre lalgorltbme ou rlnltlallser les polos)
normallser les polos p
l
pour que leur somme solt 1
3) Le classltleur boost est le slgne oe la somme
m

m
t
m
() (ou
la valeur moyenne oes
m
t
m
())
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 148
,ntr4t de lalgorithme /rcing
Larclng lntrooult un tacteur alatolre par un tlrage avec remlse et avec
une probablllt oe tlrage plus lmportante pour les lnolvlous mal
classs a lltratlon prcoente
contralrement au Dlscrete Aoa8oost qul conserve cbaque lnolvlou en
mooltlant son polos mals non sa probablllt otre tlr
Ce tlrage alatolre lntrooult une plus granoe olverslt oans les
mooeles obtenus et agrgs
varlante arc-4 oe larclng
a cbaque ltratlon, le polos oun lnolvlou est proportlonnel a la somme oe
1 et oes pulssances 4
e
oes nombres oerreurs oe classement oes ltratlons
prcoentes
8relman (8relman, 1996) a cbolsl la pulssance 4
e
oe taon emplrlque apres
avolr test plusleurs valeurs
pertormances comparables a celle oe lalgorltbme stanoaro
montre que lettlcaclt oun algorltbme oe boostlng vlent molns oe son
olsposltlt spcltlque oe ponoratlon oes observatlons que oe son prlnclpe
gnral oe rcbantlllonnage aoaptatlt
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 149
/lgorithme 2eal /da%oost
1) |nltlallser les polos oes N lnolvlous :
p
l
= 1/N, l = 1, 2, ., N
2) Rpter pour m = 1 a M
calculer la probablllt p
m
() = P(Y = 1|) sur lcbantlllon
oapprentlssage ponor par les polos p
l
calculer t
m
() = Log(p
m
()/(1-p
m
())
multlpller le polos p
l
oe cbaque observatlon (
l
,y
l
) par
ep(- . y
l
.t
m
(
l
)) pour l = 1, 2, ., N, ou 1 est un parametre
oe pnallsatlon
normallser les polos p
l
pour que leur somme solt 1
3) Le classltleur boost est le slgne oe la somme
m
t
m
()
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 150
Comparaison des caractristiques
,#--./- 01234S #56#41.2ES ,11S4./-
Le -agging est un
mcanlsme alatolre
|oem bagglng
Le -oosting est un mcanlsme
aoaptatlt et gnralement (saut
larclng) otermlnlste
A cbaque ltratlon,
lapprentlssage se talt sur un
cbantlllon bootstrap
olttrent
|oem bagglng
Gnralement (saut larclng), a
cbaque ltratlon, lapprentlssage
se talt sur lcbantlllon lnltlal
complet
A cbaque ltratlon,
lapprentlssage se talt sur
lensemble oes prolcteurs
A cbaque ltratlon,
lapprentlssage se talt sur un
sous-ensemble alatolre oe
prolcteurs
A cbaque ltratlon,
lapprentlssage se talt sur
lensemble oes prolcteurs
A cbaque ltratlon, le
mooele prooult oolt tre
pertormant sur lensemble
oes observatlons
A cbaque ltratlon, le mooele
prooult oolt aussl tre
pertormant sur lensemble oes
observatlons, mals lest molns
que le bagglng, pulsque tous les
prolcteurs ne sont pas utlllss
A cbaque ltratlon, le mooele
prooult oolt tre pertormant
sur certalnes observatlons , un
mooele pertormant sur certalns
outliers sera molns pertormant
sur les autres observatlons
Dans lagrgatlon tlnale,
tous les mooeles ont le
mme polos
|oem bagglng
Dans lagrgatlon tlnale, les
mooeles sont gnralement
ponors selon leur oerreur
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 151
Comparaison des points forts . failes
,#--./- 01234S #56#41.2ES ,11S4./-
Rouctlon oe la varlance par
moyenne oe mooeles
|oem bagglng, mals avec une plus
granoe rouctlon oe la varlance
Peut olmlnuer la varlance et le
blals ou classltleur oe base
Mals la varlance peut augmenter
avec un classltleur oe base stable
Perte oe llslblllt sur oes
arbres oe oclslon
|oem |oem
Peu ettlcace sur les stumps Lttlcace sur les stumps Tres ettlcace sur les stumps
Convergence plus raploe |oem bagglng Convergence plus lente
Posslblllt oe parallllser
lalgorltbme
|oem bagglng
Algorltbme squentlel ne
pouvant tre paralllls
Pas oe sur-apprentlssage :
suprleur au boostlng en
prsence oe brult
|oem bagglng
Rlsque oe sur-apprentlssage sl le
nombre oltratlons est grano
Le bagglng est le plus slmple a
mettre en ouvre mals est
gnralement molns
olscrlmlnant que les torts
alatolres et le boostlng
Les torts alatolres sont
toujours suprleures au bagglng
et assez souvent plus que le
boostlng (saut sl les prolcteurs
olscrlmlnants sont tres rares)
Le boostlng est souvent plus
ettlcace que le bagglng, ou molns
sur les oonnes non brultes
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 152
t!odes pour le Big Data
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 153
8thodes pour le %ig &ata
Les questlons ocbantlllonnage sont lmportantes, pulsquelles
peuvent permettre oe olmlnuer le volume oe oonnes et
olntrer oes concluslons gnrales a partlr oobservatlons
partlelles
Mals la reprsentatlvlt oes cbantlllons est ollcate a tabllr, avec oes
sources oe oonnes multlples, qul ne couvrent pas les mmes populatlons
et comportent un nombre lmportant oe valeurs manquantes
|l taut russlr a apparler les oonnes et reoresser les cbantlllons
Ltuoe oes matrlces en granoe olmenslon survlent avec oes
matrlces oont les llgnes sont oes cllents et les colonnes oes
prooults tlcbargs, acbets ou recommanos
|l peut aussl saglr oe matrlces reprsentant oes relatlons entre lnolvlous
ou entre lnstltutlons tlnancleres cotes (renoements journallers crolss
avec les renoements ocals) oans un contete otuoe ou rlsque
systmlque
Un autre ae oe recbercbe porte sur la vlsuallsatlon oes
oonnes en granoe olmenslon
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 154
&e nouvelles prolmatiques
Les oonnes tonctlonnelles sont oes oonnes qul ne sont pas
ponctuelles mals sont contlnues, comme oes courbes ou oes
lmages
Ces oonnes se sont multlplles avec les progres tecbnologlques qul
permettent la collecte et le stockage oobservatlons oe plus en plus
tlnes, captant en contlnu les lntormatlons sur un objet tuol
(mtorologlque, envlronnemental, molcal, allmentalre.)
Au lleu oe olscrlmlner oes lnolvlous au vu oe quelques caractrlstlques
a oes lnstants cbolsls, on na pas oa prlorl sur le moment et la oure
oes olttrences entre oeu courbes ovolutlon
Dans les problmatlques lles au web, on ne recbercbe pas
systmatlquement oes mooeles robustes et llslbles, mals oes
mooeles constrults raploement sur oes mlcro-segments
mouvants, atln oe prolre les comportements ou les
prtrences oun petlt nombre olnternautes
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 155
p CC n
La rgresslon en granoe olmenslon pose le probleme
classlque oe slectlon oes varlables
On rencontre aussl, par eemple en blo-statlstlque
(squenage oe lADN) ou en cblmlomtrle (statlstlque
appllque au oonnes cblmlques), oes sltuatlons ou le
nombre oe varlables est suprleur, volre tres suprleur, au
nombre olnolvlous (on parle oe tableau plats), et ou les
mtbooes classlques oe rgresslon ne sappllquent pas et
ceoent la place a oes mtbooes telles que la rgresslon
Lasso ou PLS
Le nombre oe varlables tuoles peut varler entre 10
4
et
10
8
, alors que le nombre o'observatlons est oe quelques
centalnes
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 156
6ouvelles approches en machine learning
Les mtbooes oe macblne learnlng (agrgatlon oe mooeles,
SvM, rseau oe neurones.) sont utlllses pour leur pouvolr
prolctlt lev, oans oes sltuatlons ou la llslblllt ou mooele
nest pas recbercbe et ou leur caractrlstlque boite nolre
nest pas un lnconvnlent
Lemple oune llbralrle en llgne, qul veut proposer oes tltres a
ses cllents. Dans ce probleme, les varlables (tltres oja acbets)
sont ecesslvement nombreuses et crent oes matrlces creuses
olttlclles a moollser. Lapprocbe courante est oe ocomposer la
cllentele en un tres grano nombre oe segments, ventuellement
oes mllllers, recalculs en permanence par oes tecbnlques
statlstlques qul permettent oe sltuer cbaque cllent oans un petlt
segment oe cllents ayant oes gots procbes. Lnsulte, on lul
propose les tltres souvent acquls par les autres cllents oe son
segment, que lul-mme nauralt pas encore acquls. Ces calculs
sont retalts en permanence, sans recbercbe oe segments et oe
mooeles robustes et comprbenslbles.
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 157
Les mthodes dagrgation
Les mtbooes o'agrgatlon, ou mtbooes o'ensemble, alnsl que
le stacklng, conslstent a comblner entre elles oes mtbooes
prolctlves
Dans le stacklng, on comblne olttrentes mtbooes , oans les
mtbooes oagrgatlon, on appllque un grano nombre oe tols la
mme mtbooe
Quano on agrege oes mooeles prolctlts, partols slmplement en
talsant la moyenne oe leurs prolctlons, ll vaut mleu agrger
oes mooeles molns pousss, lnolvlouellement molns
pertormants, pour obtenlr un mooele tlnal plus pertormant !
Cela vlent oe ce que les mooeles lnolvlouels plus pousss se
ressemblent plus, et que le galn oe leur agrgatlon est beaucoup
molns grano
On toucbe lcl au besoln oe pulssance ou 8lg Data, car ces
mtbooes peuvent tre tres gourmanoes en temps oe calcul
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 158
2emarque sur les mthodes appliques au
%ig &ata
Toutes les mtbooes utlllses pour le 8lg Data ne sont pas tres
rcentes, et la plupart talsalt ou 8lg Data comme Monsleur
[ouroaln : Par ma tol ! ll y a plus oe quarante ans que je ols oe
la prose sans que j'en susse rlen, et je vous suls le plus obllg ou
monoe oe m'avolr apprls cela. Mollere, .e /ourgeois
gentilhomme, 1670
A ct oes mtbooes classlques, on utlllse oes mtbooes plus
mooernes (les mtbooes oagrgatlon par eemple) mals
aussl oes pertectlonnements tres rcents oe mtbooes
classlques (les mtbooes pnallses , par eemple)
C'est comme la muslque olte classlque, qul ne s'est pas arrte
au X|Xe slecle, et qul s'enrlcblt en permanence oe nouvelles
ouvres, certalnes plus novatrlces et orlglnales que oes ouvres
oe muslque olte mooerne (coutons par eemple Henrl
Dutllleu)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 159
/lgorithme Page2an0 -.2
La structure oune base oe oonnes classlque permet oen
etralre oes lntormatlons
Mals le Web est lmmense et peu structur
La recbercbe par mots-cls ne permet pas oe llmlter
suttlsamment le nombre oe rponses
Dou la recbercbe oun algorltbme pour trler les rponses selon
leur pertlnence algorltbme PageRank oe Google
(cotonoateur Larry Page)
Prlnclpe : classement oes pages Web selon leur popularlt sur le
Web, oonc selon le nombre oe llen polntant sur elles
Un llen oune page A vers une page 8 augmente le PageRank oe
8
l'augmentatlon ou PageRank oe la page 8 est o'autant plus lmportante
que le PageRank oe la page A est lev
l'augmentatlon ou PageRank oe la page 8 est o'autant plus lmportante
que la page A talt peu oe llens
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 160
/lgorithme Page2an0 2.2
Solent A
1
, A
2
, ..., A
n
les pages polntant vers une page 8, PR(A
k
) le
PageRank oe A
k
, N(A
k
) le nombre oe llens sortants prsents sur
la page A
k
, et o un tacteur comprls entre 0 et 1, souvent tl a
0,85
PR(8) = (1-o) + { o [ PR(A
1
)/N(A
1
) + ... + PR(A
n
)/N(A
n
) ] }
Sl aucune page ne polnte vers 8, alors PR(8) = 1-o
PR(A
k
) = contrlbutlon oe la page A
k
a lensemble oes autres pages
Le PageRank openo oes llens et non oes cllcs
Lalgorltbme PageRank est lnsplr par le systeme oe rtrence
oes publlcatlons unlversltalres oans lequel la valeur o'une
publlcatlon est otermlne par le nombre oe cltatlons que cette
publlcatlon reolt
Rtrence : Page, L., 8rln, S., Motwanl, R. ano Wlnograo, T. (1998).
Tbe pagerank cltatlon ranklng: brlnglng oroer to tbe web,
0echnical report, Stantoro Dlgltal Llbrary Tecbnologles Project
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 161
La dtection des rgles
dassociations
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 162
Les recherches dassociations
Recbercber les associations conslste a
recbercber les regles ou type :
Sl pour un lnolvlou, la varlable A =
A
,
la varlable 8 =
8
, etc, alors, oans 80
oes cas, la varlable Z =
Z
, cette
contlguratlon se rencontrant pour 20
oes lnolvlous
La valeur oe 80 est appele indice de
confiance et la valeur oe 20 est appele
indice de support
Par eemple, oans lensemble oe
transactlons cl-contre :
llnolce oe contlance oe 8 L = 3/4
llnolce oe support oe 8 L = 3/5
@C
A B C $ E
@9B8
B C E %
@98C
B E
@;8C
A B $
@9B8
C $
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 163
Les associations ' dfinitions
Une regle est oonc une epresslon oe la torme :
> Sl Condition alors Rsultat
Synonymes :
Conoltlon = Antcoent
Rsultat = Consquent
Les lments oune regle {A =
A
, 8 =
8
, ...} {Z =
Z
} sont les items
Lemple :
> Sl ri1 et vin -lanc, alors poisson
Llnolce oe support est la probablllt :
> Prob (condition et rsultat)
Llnolce oe contlance est la probablllt :
> Prob (condition et rsultat) / Prob (condition)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 164
,ntr4t dune r!gle dassociation
Dans leemple prcoent, on a :
lnolce oe contlance oe lassoclatlon C 8 est 2/3
lnolce oe support = 2/5
Or, Prob (8) = 0,8
8 est prsent oans presque tous les tlckets oe calsse
Cette probablllt est suprleure a llnolce oe contlance oe
C 8, ce qul talt que lon ne gagne rlen a utlllser la regle
C 8 pour prolre 8
Sl lon suppose alatolrement quun tlcket oe calsse
contlent 8, on na qu1 cbance sur 5 oe se tromper,
contre 1 cbance sur 3 en appllquant la regle C 8
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 165
Lift dune r!gle ' mesure son intr4t
Lamlloratlon apporte par une regle, par rapport a une
rponse au basaro est appele lltt et vaut :
lltt (regle) = contlance (regle) / Prob (rsultat)
= Prob (condition et rsultat) / [ Prob (condition) Prob
(rsultat) ]
Quano le lltt est < 1, la regle napporte rlen
car Prob (rsultat) > lnolce oe contlance (regle)
Lemples :
lltt (C 8) = 5/6 (regle lnutlle)
lltt (8 L) = 5/4 (regle utlle)
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 166
Lift de la r!gle inverse
|l taut noter que sl le lltt oe la regle
Sl Condition alors Rsultat
est < 1, alors le lltt oe la regle lnverse, c.a.o. oe :
Sl Condition alors "%" Rsultat
est > 1, pulsque :
contlance (regle lnverse) = 1 - contlance (regle)
et
Prob ("%" rsultat) = 1 - Prob (rsultat)
oou Prob ("%" rsultat) < contlance (regle lnverse)
Sl une regle nest pas utlle, on peut oonc essayer la regle
lnverse. en esprant que cette oernlere solt
lntressante en termes oe mtler ou oe marketlng
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 167
/lgorithme Apriori
Cest lalgorltbme le plus rpanou (Agrawal et al.)
|l tonctlonne en oeu tapes :
ll commence par recbercber les sous-ensembles oltems ayant une
probablllt oapparltlon (support) suprleure a un certaln seull s
1
e
passe : llmlnatlon oes ltems molns trquents que s
2
e
passe : constltutlon oes comblnalsons oe oeu ltems parml les
prcoents, et llmlnatlon oes comblnalsons molns trquentes que s
etc : les ensembles trquents oe tallle n qul nous lntressent sont ceu
provenant oensembles oe tallle n 1 eu-mmes trquents
puls ll tente oe ocomposer cbaque sous-ensemble sous une torme
{Conoltlon Rsultat} telle que le quotlent Prob (Conoltlon et
Rsultat) / Prob (Conoltlon) (lnolce oe contlance), solt suprleur a
un certaln seull
olttlcult : pour cbaque sous-ensemble oltems L a n lments, ll y a 2
n1
1
regles oe la torme A {L A}
optlmlsatlon oApriori pour lloentltlcatlon oes regles a conserver
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 168
8ise en Duvre
Ln pratlque, les regles oemeurent tres nombreuses, et la plupart oes
loglclels permettent oe stocker ces regles oans un tlcbler, oans lequel
ll est posslble oe tlltrer les regles Condition Rsultat en oea oun
certaln lnolce oe support, et oe les trler selon leur support, leur
contlance ou leur lltt
On est gnralement plus svere sur le seull oe contlance que oe
support, surtout sl lon recbercbe oes regles rares, et un eemple
courant oe tlltre sera 75 pour la contlance et 5 pour le support
(et blen sr 1 pour le lltt)
Mme avec ces tlltres, le nombre oe regles peut vlte attelnore
plusleurs mllllons pour seulement quelques centalnes oltems et
quelques mllllers oobservatlons
Certalns loglclels permettent oajouter un tlltre sur le contenu oes
regles, pour ne conserver que celles qul contlennent un ltem oonn
oans leur rsultat ou leurs conoltlons
Les loglclels permettent aussl oe tler une llmlte a la tallle oes regles :
on opasse rarement 10 ltems
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 169
#axinomie ' dfinition
Les prooults peuvent tre otlnles avec un nlveau plus ou
molns tln oe otall
On peut par eemple conslorer :
les prooults opargne bancalre, tlnanclere.
parml les prooults opargne bancalre, les comptes oe cbeques,
les llvrets.
parml les llvrets, les llvrets A, les Cooevl, les LLP.
La taxinomie oes prooults est lensemble oe ces nlveau
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 170
#axinomie ' utilisation
Le niveau le plus fin permet oentreprenore oes actlons
commerclales plus prclses
Mals travalller au nlveau le plus tln multlplle les regles, parml
lesquelles un grano nombre nauront quun talble support et
seront peut-tre llmlnes
Travalller au niveau le plus gnral permet oobtenlr
oes regles plus tortes
> Les 2 polnts oe vue ont leurs avantages et leurs
lnconvnlents
> |l taut aoapter le nlveau oe gnrallt a cbaque prooult, en
tonctlon notamment oe sa raret
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 171
#axinomie ' intr4t
Les artlcles les plus rares et les plus cbers (eemple :
mlcro-lntormatlque ou H|F| oans un grano magasln) seront
cooltls au nlveau le plus tln
Les artlcles les plus courants (eemple : prooults
allmentalres) seront cooltls a un nlveau plus gnral
On regroupera par eemple tous les yaourts, tromages
blancs, tlancs. en prooults laltlers , tout en olstlnguant
un tlvlseur oun magntoscope ou oun camscope
Llntrt oe cette taon oe procoer est oobtenlr oes
regles plus pertlnentes, oans lesquelles les artlcles les plus
courants ne olsslmulent pas, par leur trquence, les artlcles
les molns courants
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 172
Lanalyse du tic0et de caisse
Cette tecbnlque est tres utlllse oans la grande
distri-ution :
>oou les termes oanalyse ou tic7et de
caisse ou ou panier de la mnagre
(market basket analysls) pour oslgner la
recbercbe oassoclatlons
Autres usages :
assoclatlons ooptlons retenues oans les
prooults packags (banque, tlpbonle,
assurance.)
web mlnlng (analyse oe la navlgatlon sur un
slte lnternet)
Dlttlcults :
volumes oe oonnes lmportants
trouver oes regles lntressantes noyes
parml les regles trlvlales ou non utlllsables
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 173
7tilisation de variales supplmentaires
Ln ajoutant oes varlables temporelles (jour et beure oe la
transactlon), on pourra recbercber lensemble oes vnements
qul oboucbent sur lacqulsltlon oun nouveau prooult, sur le
opart ou cllent.
Ln ajoutant le nom ou tabrlcant, on pourra otecter oes
pbnomenes oattacbement a une marque
Autres varlables supplmentalres :
canal oe olstrlbutlon
mooe oe palement
.
Le oveloppement oes cartes oe tlollt permet oe crolser les
acbats avec oe nombreuses autres oonnes : ge, aoresse.
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 174
"onclusion
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 175
Perspectives professionnelles
Flnance
Rglementatlons 8le || (et 8le |||)
Lvolutlon oes marcbs bourslers
Marketlng
Dont marketlng olrect et sur le web
Ltuoe oes prtrences et oes comportements oes consommateurs
Revenue management
Assurance (scorlng et actuarlat)
|noustrle
Contrle quallt
|noustrle pbarmaceutlque, sant
Tests cllnlques, pbarmacovlgllance, plomlologle
Moeclne
Analyses oe survle, causes, prventlon et traltement oes malaoles
Lnvlronnement et Mtorologle
Ltuoes sur le cllmat, la pollutlon
Recbercbe sclentltlque
.
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 176
Le %ig &ata et lemploi
Le 8lg Data talt partle oes 34 plans lnoustrlels lancs par le
gouvernement tranals le 12 septembre 2013
Le 8lg Data a besoln oe oata sclentlsts qul connalssent :
les enjeu mtlers (marketlng, rlsque, proouctlon.)
les tecbnologles lntormatlques (arcbltecture, algorltbmes, loglclels)
les mtbooes oe statlstlque et oe macblne learnlng
Des centalnes oe mllllers oemplols oe oata sclentlsts annoncs
oans le monoe
Le manque oe oata sclentlsts se talt sentlr oans tous les pays.
On peut l'lmputer a la prlse oe consclence rcente ou potentlel
recel par les oonnes, et a une valorlsatlon encore lnsuttlsante
ou oata sclentlst en entreprlse.
Premleres tormatlons spclallses en 2013 au USA et en
France
07/02/2014 Stpbane Tuttry - Usage rserv a lUnlverslt Rennes 1 177
Quelques liens
Slte oe la Soclt Franalse oe Statlstlque : www.stos.asso.tr
Slte oe Gllbert Saporta (contenu rlcbe, avec oe nombreu cours) :
bttp://ceorlc.cnam.tr/~saporta/
Slte oe Pblllppe 8esse (tres complet sur les statlstlques et le oata mlnlng) :
www.matb.unlv-toulouse.tr/~besse/
Slte ou llvre 0he 2lements of Statistical .earning oe Hastle, Tlbsblranl et
Frleoman : bttp://www-stat.stantoro.eou/~tlbs/LlemStatLearn/
Un llvre complmentalre : bttp://www-bct.usc.eou/~garetb/|SL/lnoe.btml
StatNotes Onllne Tetbook (statlstlques) :
www2.cbass.ncsu.eou/garson/pa765/statnote.btm
Statlstlque avec R : bttp://zoonek2.tree.tr/UN|X/48_R/all.btml
Donnes relles : bttp://www.umass.eou/statoata/statoata/lnoe.btm
Slte oOllvler Decourt (spclallste oe SAS) : www.oo-oatamlnlng.com/
8log oArtbur Cbarpentler : bttp://treakonometrlcs.blog.tree.tr/

Вам также может понравиться