Академический Документы
Профессиональный Документы
Культура Документы
Classificationnonsupervise:
Mthodesdepartitionnement
Classification
Regrouperdesobjetsengroupes,ouclasses,oufamilles,ou
segments,ouclusters,desorteque:
2objetsdunmmegroupeseressemblentle+possible
2objetsdegroupesdistinctsdiffrentle+possible
nombredesgroupesestparfoisfix
Classification
Lesobjetsclassersont
desindividus
desvariables
Mthodedescriptive:
pasdevariablecibleprivilgie
dcriredefaonsimpleuneralitcomplexeenlarsumant
Exempledeclassification
Classification
Applications
Marketing:
dcouperlaclientleensegmentsdotschacunduneoffreetdune
communicationspcifique
Mdical:
dterminerdesgroupesdepatientssusceptiblesdtresoumisdes
protocolesthrapeutiquesdtermins,chaquegrouperegroupanttousles
patientsragissantidentiquement
Sociologie:
dcouperlapopulationengroupeshomognesdupointdevue
sociodmographique,Styledevie,opinions,attentes
Dtectiondesprofilsdeclientsdebanques:
clientstendancepargne,clientstendancecrditconsommation,
clientstendancecrdithabitat
Questcequunbonregroupement?
Unebonnemthodederegroupementpermetdegarantir
Unegrandesimilaritintragroupe
Unefaiblesimilaritintergroupe
Qualitdunregroupement
Laqualitdpendde:lamesuredesimilarit
utiliseparlamthodeetdesonimplmentation
Mesuredesimilarit
Matricededonnes
x11
...
x
i1
...
x
n1
Matricedesimilarit
...
x1f
...
x1p
...
...
...
...
xif
...
...
xip
...
...
...
...
...
xnf
...
xnp
d(2,1)
d(3,1)
d ( n,1)
0
d ( 3, 2 )
:
d ( n, 2 )
0
:
...
... 0
Mesuredesimilarit
Mtriquepourlasimilarit:Lasimilaritestexprimeparlebiais
dunemesurededistance
Lesdfinitionsdedistancesonttrsdiffrentesquelesvariables
soientdesintervalles(continues),catgories,boolennesou
ordinales
Enpratique,onutilisesouventunepondrationdesvariables
10
Mesuredesimilarit
Lamesuredpenddelanaturedesattributs
Intervalles:
Binaires:
catgories,ordinales,ratio:
Diffrentstypes:
11
LesvariablesdetypeIntervalle(discrtes)
Personne1
Personne2
Personne3
Personne4
Age
50
70
60
60
Salaire
11000
11100
11122
11074
Mesurerlasimilaritentrelesdiffrentespersonnes
Calculerladistance
12
LesvariablesdetypeIntervalle(discrtes)
DistancedeMinkowski:
d (i, j) q (| x x | q | x x | q ... | x x | q )
i1
j1
i2
j2
ip
jp
oi=(xi1,xi2,,xip)etj=(xj1,xj2,,xjp)sontdeuxobjetsp
dimensionnelsetqunentierpositif
Siq=1,destladistancedeManhattan
d (i, j) | x x | | x x | ... | x x |
i1 j1
i2 j 2
ip jp
13
LesvariablesdetypeIntervalle(discrtes)
Siq=2,destladistanceEuclidienne:
d (i, j) (| x x |2 | x x | 2 ... | x x |2 )
i1
j1
i2
j2
ip
jp
Proprits
d(i,j)0
d(i,i)=0
d(i,j)=d(j,i)
d(i,j)d(i,k)+d(k,j)
14
LesvariablesdetypeIntervalle(discrtes)
Standardiserlesdonnes
Calculerlcartabsolumoyen:
sf 1
n (| x1 f m f | | x2 f m f | ... | xnf m f |)
mf 1
n (x1 f x2 f
...
xnf )
Calculerlamesurestandardise(zscore)
xif m f
zif
sf
15
LesvariablesdetypeIntervalle(discrtes)
Standardiserlesdonnes
Personne1
Personne2
Personne3
Personne4
Age
50
70
60
60
Salaire
11000
11100
11122
11074
Personne1
Personne2
Personne3
Personne4
Age
-2
2
0
0
Age
60
Age
Msalaire=11074Msalaire=?
Salaire
?
?
?
?
16
LesvariablesdetypeIntervalle(discrtes)
DistancedeManhattan
Personne1
Personne2
Personne3
Personne4
Age
50
70
60
60
Salaire
11000
11100
11122
11074
d(p1,p2)=120
d(p1,p3)=132
Conclusion: p1 ressemble plus p2 qu
p3
distancenormalise(zScore)
Age
Salaire
Personne1
-2
-2
Personne2
0,70
Personne3
1,29
Personne4
d(p1,p2)=6,7
d(p1,p3)=5,29
Conclusion: ?
17
Lesvariablesdetypebinaires
Unetabledecontingencepourdonnesbinaires
Objetj
Objeti
1
0
1
a
c
0
b
d
sum
a b
cd
sum
ac
bd
a= nombre de
positions o i a 1 et j
a1
Exempleoi=(1,1,0,1,0)etoj=(1,0,0,0,1)
a=1,b=2,c=1,d=1
18
Mesuresdedistances
Coefficientdappariement(matching)simple(invariantpour
variablessymtriques):
d (i, j)
bc
a bc d
Exempleoi=(1,1,0,1,0)etoj=(1,0,0,0,1)
d(oi,oj)=3/5
CoefficientdeJaccard
d(oi,oj)=3/4
d (i, j)
bc
a bc
19
Variablesbinaires(I)
Variablesymtrique:Ex.lesexedunepersonne,i.ecoder
masculinpar1etfmininpar0cestpareilquelecodage
inverse
Variableasymtrique:Ex.TestHIV.Letestpeuttrepositif
oungatif(0ou1)maisilyaunevaleurquiseraplusprsente
quelautre.Gnralement,oncodepar1lamodalitlamoins
frquente
20
Variablesbinaires(II)
Exemple
Nom
Jack
Mary
Jim
Sexe
M
F
M
Fivre
Y
Y
Y
Toux
N
N
P
Test-1
P
P
N
Test-2
N
N
N
Test-3
N
P
N
Test-4
N
N
N
Sexeestunattributsymtrique
Lesautresattributssontasymtriques
YetP1,N0,ladistancenestmesurequesurlesasymtriques
d(jack, mary)
d(jack,
jim)
d(jim, mary)
1
0 1
1 1
1 1 1
1 2
1 1 2
0.33
0.67
0.75
21
LesvariablesdetypeNominales
Unegnralisationdesvariablesbinaires,ex:rouge,vertetbleu
Mthode1:Matchingsimple
m:#dappariements,p:#totaldevariables
m
d (i, j)
p
Mthode2:utiliserungrandnombredevariablesbinaires
Crerunevariablebinairepourchaquemodalit(ex:variable
rougequiprendlesvaleursvraioufaux)
22
VariablesOrdinales
Unevariableordinalepeuttrediscrteoucontinue
Lordrepeuttreimportant,ex:classement
Peuventtretraitescommelesvariablesintervalles
remplacerxifparsonrang
rif {1,..., M f }
Remplacerlerangdechaquevariableparunevaleurdans[0,
1]enremplaantlavariablefdanslobjetIpar
rif 1
zif
M f 1
Utiliserunedistancepourcalculerlasimilarit
23
EnPrsencedeVariablesdediffrentsTypes
Pourchaquetypedevariablesutiliserunemesureadquate.
Onutiliseuneformulepondrepourfairelacombinaison
festbinaireounominale:
dij(f)=0sixif=xjf,sinondij(f)=1,oudistancedeJaccard
festdetypeintervalle:utiliserunedistancenormalise
zif r 1
M 1
festordinale
if
calculerlesrangsrifet
Ensuitetraiterzifcommeunevariabledetypeintervalle
24
Mthodesdeclassification
Mthodespartitionnement
kreprsentants(kmedoids)
25
Algorithmespartionnement
ConstruireunepartitionkclustersdunebaseDdenobjets
Leskclustersdoiventoptimiserlecritrechoisi
Algorithmeskmedoids
kmedoidsorPAM(Partitionaroundmedoids)(Kaufman&
Rousseeuw87):Chaqueclusterestreprsentparundesesobjets
26
Algorithmespartionnement
LamthodedesKMedoids(PAM)
Trouverdesobjetsreprsentatifs(medodes)danslesclusters(au
lieudelamoyenne)
Principe
Efficacepourdesdonnesdepetitetaille
27
AlgorithmedeskMedoides
Choisirarbitrairementkmedoides
Rpter
affecterchaqueobjetrestantaumedoideleplusproche
ChoisiralatoirementunnonmedoideOr
PourchaquemedoideOj
CalculerlecotTCduremplacementdeOjparOr
SiTC<0alors
RemplacerOjparOr
Calculerlesnouveauxclusters
Finsi
FinPour
Jusqucecequilnyaitplusdechangement
28
AlgorithmedeskMedoides
TCjhreprsentelegainendistanceglobalequelonvaavoiren
remplaanthparj
SiTCjhestngatifalorsonvaperdreendistance.Caveutdireque
lesclustersserontpluscompacts.
29
AlgorithmedeskMedoides:Exemple
SoitA={1,3,4,5,8,9},k=2etM={1,8}ensembledesmedoides
C1={1,3,4}etC2={5,8,9}
E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(9,8)2=23
Comparons1et3M={3,8}C1={1,3,4,5}etC2={8,9}
E{3,8}=dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
E{3,8}E{1,8}=13<0doncleremplacementestfait.
Comparons3et4M={4,8}C1etC2inchangset
E{4,8}=dist(1,4)2+dist(3,4)2+dist(5,4)2+dist(8,9)2=123nestpasremplacpar4
Comparons3et5M={5,8}C1etC2inchangsetE{5,8}>E{3,8}
30
Problmedeclassification
Fin
Classificationnonsupervise:
Mthodesdepartitionnement