Вы находитесь на странице: 1из 23

1

Mthodes de classification automatiques


1. Introduction :
La classification est une branche de lanalyse de donnes, qui consiste
construire une partition dun ensemble dobjets dont on connat les
distances deux deux. Les classes formes doivent tre le plus
homogne possible.

2
Domaines dapplication : tous les domaines dapplication danalyse de donnes,
intelligence artificielle, traitement dimage,
2. Gnralits
1. Distances et dissimilarits:
En classification linformation utile est contenue dans un tableau n*n donnant
les dissemblances entre les n individus classer (issu du TD (n*p)).
Notons E : ensemble des n objets classer. Une distance d est une
application





Lorsque d vrifie seulement (1),(2) et (3) elle est dite une dissimilarit.
Lorsque d est telle que (1) et (2) sont vrifies et que d(i,i)>=d(i,j) on
parle dune similarit.
2. Relation dordre :
Une prordonnance sur E est un prordre total sur les paires dlments de E
((i, j) sont plus semblables que (k,l)).
Une relation dordre < sur un ensemble E est une relation transitive, rflexive
et antisymtrique.

( ) ( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) j k d k i d j i d
j i j i d j i d i j d j i d
E E
, , , 4
0 , 3 , 0 , 2 , , , 1
que telle
+ s
= = > =
9
+
3
Un ensemble ordonne (E,<) est dit totalement ordonn si deux lments
quelconques de E a et b sont toujours comparables.
3. Inertie interclasse et inertie intraclasse :
tant donn une partition en k groupes dun nuage de n points, on dfinit
g
1
,g
2
,,g
k
: centres de gravit des k groupes.
I
1
,I
2
,,I
k
: inertie des k groupes (: la moyenne des carres des distances au
centre de gravit).







O I : inertie totale, I
W
: inertie intraclasse (bleu) et I
B
est linertie interclasse
(rouge) ou inertie du nuage des k centres de gravit.
Un critre usuel de classification consiste chercher la partition telle que I
W
soit
minimal pour avoir, en moyenne, des classes bien homognes, ce qui revient
chercher le maximum de I
B



Relation dHygens : I=I
B
+I
W
x
g1
x
x
x
x
x
g2
x
x
x
x
x
z x
4
Algorithme des nues dynamiques
Cest la technique de partitionnement la mieux adapte actuellement aux
vastes recueils de donnes.
Elle est utilise comme technique de description, danalyse et aussi de
rduction (associe avec des analyses factorielles et avec dautres
mthodes de classification).
1. Donnes : n units statistiques dcrites par p variables quantitatives, on se
donne un chantillon, il faut dposer dune distance d.
2. Objectifs : effectuer une classification des individus en k classes
homognes relativement aux p variables quantitatives.
3. Algorithme des nues dynamiques :
On part dun choix de k noyaux (noyau : cest un mode de reprsentation dun
groupe qui peut tre soit un sous ensemble du groupe soit le centre de
gravit du groupe) estims ou tirs au hasard parmi une famille de noyaux
admissibles, appel espace de reprsentation et not L
k
. Chaque point de la
population est affect ensuite au noyau dont il est le plus proche dans un
sens que lon prcisera. On obtient ainsi une partition en k classes dont on
calcule les noyaux. On recommence la procdure avec les nouveaux
noyaux.





5
On dmontre que, sous certaines conditions, lalgorithme converge vers une
solution stable en amliorant chaque itration un critre dhomognit que lon
prcisera. La solution obtenue constitue gnralement un optimum local en ce sens
que si lalgorithme est excut une deuxime fois avec des noyaux initiaux
diffrents, il nest pas garanti quon obtienne la mme solution.
a. Critre optimiser :
On note L
k
: espace de reprsentation.
P
k
: ensemble des partitions possibles (en k classes).
On dfinit


L={A
1
,A
2
,,A
k
}e L, P={P
1
,P
2
,,P
k
} e P
k
, D(A
i
,P
i
) est une mesure de la
dissemblance entre le noyau A
i
et la classe P
i
.
Gnralement, on prend






( ) ( )

=
=
k
i
i i
P A D P L W
1
o , ,
( ) ( )

e e
=
X x Y y
y x d Y X D , ,
6
Remarque : La mthode qui permet dobtenir cot sr la solution optimale consiste
considrer toutes les partitions de lchantillon et retenir celle qui minimise le
critre W, or on sait que le nombre des partitions dun ensemble de donnes devient
rapidement trs grand ds que le cardinal de lchantillon dpasse une cinquantaine.
Cette approche tant carter, lalgorithme des nues dynamiques se prsente comme
une heuristique qui, si elle ne permet pas dobtenir un optimum global, elle permet
dobtenir une excellente approximation. Le seul point faible de lalgorithme est la
fixation a priori du nombre de classes. A lheure actuelle, il nexiste aucun algorithme
permettant deffectuer une infrence sur le nombre de classes.
b. Formulation Mathmatique de lalgorithme des nues dynamiques :
Fonction daffectation :





Convention : En cas dgalit entre D(Ai,x) et D(Aj0,x), on affecte x la classe
correspondant au plus petit indice.
( )
( ) ( ) { } j x A D x A D E x P
P P P A A L
P L f
j i i
k k
k k
s e =
= =

, , /
,..., ) ,..., (
:
1 1

7
Fonction de reprsentation :









Condition darrt : W
i
=W
i-1
.

Si on dsire prendre comme noyaux les centres de gravit (cas le plus utilis) on doit
initialiser par partition.
( )
( ) { }
......
minimum , rendent qui lments des ensemble l' de partie fait /
) ,..., ( ,...,
:
3 3 2 2 1 1
1 1
3 2 1
P L P L L P P L L
P x D x L x A
A A L P P P
L P g
W
f g
W
f
k
g
k
W
f
k
i k i
k k
k k

e e e
e =
= =

8
Lalgorithme :
Donnes : X:tableau de donnes, k : nombre de classes et d : une distance
1. Initialisation : Choix de L
0
k
2. Affectation : A litration i, Dtermination de P
i
k
, calcul de W
i
3. Mise jour des noyaux : Calcul de nouveaux noyaux L
i+1
k

4. Test de convergence : W
i+1
=W
i


9
La Classification hirarchique
Elle consiste fournir un ensemble de partitions de E (population) de moins
en moins fines obtenues par regroupement successifs de parties. Une
classification hirarchique se reprsente par un dendrogramme ou un
arbre de classification.
Cet arbre obtenu dans la plupart des mthodes de manire ascendante : on
regroupe dabord les deux individus les plus proches qui forment un
sommet, il ne reste plus que n-1 objets et on itre le processus jusqu
regroupement complet. Un des problmes consiste dfinir une mesure
de dissimilarit entre parties.
Lintrt de ces arbres est quils peuvent donner une ide du nombre de
classes existant effectivement dans la population. Chaque coupure dun
arbre fournit une partition, ayant dautant moins de classes et des
classes dautant moins homognes que lon coupe plus haut.
10
1. Aspect formel :
a. Hirarchie de parties dun ensemble E :
Une famille H de parties de E est une hirarchie si :
i. E et les singletons appartiennent H
ii. deux classes sont soit disjointes, soit contenues lune dans lautre.

iii. Toute classe est la runion des classes qui sont incluses en elle.
En dautres termes deux classes sont soit disjointes, soit contenues lune
dans lautre.
Une partition de E compatible avec H est une partition dont les classes sont des
lments de H. Cest une partition obtenue en coupant larbre selon une
horizontal et en recueillant les morceaux.
Lorsque lon peut dire quun lment ou une partie A est relie B avant que C
ne soit relie D, on dit quon a affaire une hirarchie stratifie.
Une hirarchie est indice sil existe une application i de H dans R
+
, croissante:






{ } | , , alors , Si B A B A H B A e e
( ) ( ) B i A i B A s c
11
A toute hirarchie indice correspond une hirarchie stratifie. Les indices sont
aussi appels niveaux dagrgation : i(A) est le niveau auquel on trouve
agrgs pour la premire fois tous les constituants de A.
Les niveaux dagrgation sont pris gaux en gnral : lindice de dissimiarit
des deux parties constituant la runion des parties constituant la runion :



Le problme se pose alors de savoir si la hirarchie peut prsenter ou non des
inversions : si a, b sont runis avant c,d dans lalgorithme, on doit avoir
i(a,b)<i(c,d) sinon il ya inversion (voir Fig).








Fig : Phnomne dinversion. La distance entre c et le groupe (a,b) est plus faible que la
distance entre a et b



( ) ( ) ( ) c b a c b a i , , , , o =
12
b. Distances ultramtriques :
A toute hirarchie indice correspond un indice de distance entre lments
de H : d(A,B) est le niveau dagrgation de A et de B. Cette distance
possde la proprit suivante dite proprit ultramtrique :



Rciproquement, toute ultramtrique correspond une hirarchie indice.
Le problme cl de la classification est donc le suivant :



Connaissant une mtrique sur E, en dduire une ultramtrique
aussi proche que possible de la mtrique de dpart.
( ) ( ) ( ) ( ) c b d c a d b a d , , , sup , s
13
2. Principe :
Chaque point ou cluster est progressivement absorb par le cluster le plus
proche.
a. Algorithme :
Initialisation :
Chaque individu est plac dans son propre cluster,
Calcul de la matrice de ressemblance M entre chaque couple de
clusters (ici les points)
Rpter
Slection dans M des deux clusters les plus proches C
I
et C
J
Fusion de C
I
et C
J
par un cluster C
G
plus gnral
Mise jour de M en calculant la ressemblance entre C
G
et les
clusters existants
Jusqu' la fusion des 2 derniers clusters



14







schma du milieu = dendrogramme = reprsentation des fusions successives
hauteur d'un cluster dans le dendrogramme = similaritentre les 2 clusters
avant fusion
15
3. Mtrique :
Saut minimal (single linkage)(distance minimale entre observations a de A
et b de B) :
tendance produire des classes gnrales (par effet de chanage)
sensibilit aux individus bruits.
Saut maximal (complete linkage) )(distance maximale entre observations
a de A et b de B) :
tendance ne regrouper que des classes trs proches
sensibilit aux individus bruits.
Saut moyen :


tendance produire des classes de variance proche
Barycentre :
bonne rsistance au bruit

( ) ( )
( ) i' dans (resp) i ds objets d' nombre ) (
, ' ,
) , ' (
'
'
'
i i
i i
i i
n resp n
n n
k i d n k i d n
k i i d
+
+
=
16
Distance entre les barycentres ( centrodes ) de A et B
plus simple calculer mais moins prcise
distance des barycentres ou centroid method
Critre de Ward (baisse dinertie interclasse rsultant de la fusion
des 2 classes)
correspond lobjectif davoir la plus forte inertie interclasse
possible avoir la plus faible baisse dinertie en fusionnant 2
classes
la distance de 2 classes A et B, de barycentres a et b, et
deffectifs n
A
et n
B
, vaut :
cest une fonction de la distance des barycentres



trs sensible aux outliers
mthode la plus utilise (fonctionne bien sur les pbs rels)

( )
( )
B A
n n
b a d
B A d
1 1
,
,
+
=
17
a. Influence du choix de la distance :
Effet de chane :
Examinons la figure suivante forme de quatre points x, y, z, t, aligns et spars
par des distances voisines : d(x, y) = 1 ; d(x, z) = 2.1 ; d(x, t) = 3.3 ;
d(y, z) = 1.1 ; d(y, t) = 2.3 ; d(z, t) = 1.2.









Pour les mmes donnes o les points sont disposs en chane ( gauche), les CAH du
saut minimum (au centre) et du saut maximum ( droite) donnent des rsultats
radicalement diffrents



18
On remarque que l'agrgation par le saut minimum a tendance "
craser " les niveaux de liaison, tandis que la mthode du
diamtre les distend. Avec le saut minimum on conoit que 1'on
arrive rapprocher des points extrmement diffrents ; c'est ce
qu'on appelle l'effet de chane .
19
Exemple :

20
Mthodes mixtes
1. Critres de bon algorithme :
Dtecter les structures prsentes dans les donnes
Permettre de dterminer le nombre optimal de classes
Fournir des classes bien diffrencies
Fournir des classes stables vis--vis de lgres modifications
des donnes
Traiter efficacement les grands volumes de donnes
Traiter tous les types de variables (quantitatives et qualitatives)
Ce point est rarement obtenu sans transformation

21
Avantages de la CAH :
Permet de classer : des individus, des variables, des moyennes de
classes obtenues en sortie dun algorithme des centres mobiles
Sadapte aux diverses formes de classes, par le choix de la distance
Permet de choisir le nombre de classes de faon optimale, grce
des indicateurs de qualit de la classification en fonction du nombre
de classes.
Avantages des centres mobiles (nues dynamiques) :
Rapidit (complexit en n)
on ne compare pas toutes les observations entre elles mais par
rapport aux centres de classes.

22
Inconvnients de ces mthodes :
Centres mobiles
Obligation de fixer a priori le nombre de classes
Possibilit de saider dune ACP
Dpendance choix des centres initiaux
CAH
Complexit algorithmique non linaire (en n
2
ou n
3
)
Donnes volumineuses

23
Mthodes mixtes
Combiner les avantages de CAH et des k-means
effectuer une 1re classification sur les n observations
par les centres mobiles ou les k-means, en fixant
le nombre de classes entre 10 et 100.
puis effectuer la CAH sur les centres de ces pr-classes, le dendrogramme
suggrera le nombre de classes finales retenir, et enfin, on optimise (encore
par la technique des centres mobiles) la ou les partitions correspondant aux
coupures choisies de larbre.
Lalgorithme en tapes :
1. Partition prliminaire :
Centres mobiles
2. Classification hirarchique sur les centres
3. a. Partition finale par coupure de larbre
3. b. Consolidation par raffectation

Вам также может понравиться