Вы находитесь на странице: 1из 39

Statistiques pour des données de grande dimension :

Méthodes de classication

Mohammed El Haj Tirari


mtirari@hotmail.fr

2017-2018

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction
la classication hiérarchique

Les méthodes de classication

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction
la classication hiérarchique

Introduction

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction
la classication hiérarchique

Introduction

Les techniques de classication sont des techniques qui permettent


de construire des "typologies d'individus" en regroupant des
individus (ou des produits, des entreprises, des animaux, ...) en
classes homogènes.
Les techniques de classication est donc une démarche
algorithmique itérative facile à comprendre dont l'objectif est de
chercher à eectuer des regroupements d'individus statistiques les
plus proches selon plusieurs caractéristiques (dans un espace à
dimensions multiples).
Dans cette partie, nous aborderons deux grands types d'algorithmes
de classication :
1 la classication hiérarchique
2 la méthode des nuées dynamiques (Classication
non-hiérarchique)
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction
la classication hiérarchique

Introduction

Le nom de classication est donné à toute méthode ayant pour


objectif la représentation des liens entre individus d'une
population, sur lesquels on a observé un certain nombre de
variables, an de dégager l'existence de classes dans lesquelles
se répartissent ces individus.
Dans une bonne classication, une classe se réfère à un
sous-ensemble B de caractéristiques tel que :
,→ Chaque individu de la classe possède une proportion
importante de caractéristiques de B ;
,→ Chaque caractéristique de B est présente dans une proportion
importante.

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction
la classication hiérarchique

Introduction

Le but d'une méthode de classication est d'apporter une


réponse au problème suivant :
Comment décomposer une population d'individus, décrits par
un ensemble de caractéristiques (des variables) en
∗ un certain nombre de classes homogènes et disjointes :
partition ?
∗ ou une suite de partitions emboîtées, chacune correspondant à
un niveau de degré de ressemblance : classication
hiérarchique ?

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction
la classication hiérarchique

Introduction
La classication hiérarchique (Hierarchical Cluster Analysis) fait
partie des techniques de classication traditionnelles.
Menée à la n d'une phase exploratoire, elle permet d'identier des
groupes d'individus (répondants, clients, patients, produits) en
fonction de similitudes.
Nous pouvons distinguer deux types de techniques de classication :
∗ les classications hiérarchiques qui s'utilisent généralement sur
des jeux de données relativement petits,
∗ les classications non hiérarchiques (nuées dynamiques).
On note que les deux types de techniques de classication ne
s'utilisent pas dans le même contexte :
,→ Compte tenu de son algorithme relativement lourd, la
classication hiérarchique s'utilise sur des jeux de données
relativement petits (maximum 200 observations) contrairement
à la classication non-hiérarchique.
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

La classication hiérarchique

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Principe de la classication hiérarchique

Par défaut, la classication hiérarchique procède à un regroupement


d'individus (les lignes pour un chier de données SPSS) caractérisés
par des critères continus (les variables).
Lors de la première étape, chaque individu est considéré comme une
classe à part entière. Nous avons donc, à ce niveau du processus,
autant de classes que d'individus (N classes pour N individus).
L'algorithme de classication hiérarchique commence par calculer
une distance entre toutes les classes (généralement, la distance
euclidienne est utilisée) : plus cette distance sera petite, plus les
classes seront proches (similaires).
Une fois l'ensemble des distances entre les points sont calculées,
l'algorithme va fusionner les deux individus (ou les deux classes)
ayant la distance la plus petite (donc les plus semblables) pour ne
constituer qu'une seule classe.
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Principe de la classication hiérarchique

Ainsi, à la n de la première étape, une classe a disparu


(N − 1 classes pour N individus).
L'algorithme repart à zéro puisqu'il recalcule, à nouveau,
toutes les distances entre les classes, pour fusionner deux
nouvelles classes, selon le même principe que précédemment
(les classes dont les distances sont les plus petites).
A la n de la deuxième étape, nous avons N − 2 classes pour
N individus.

Ce processus continue jusqu'à ce qu'il ne reste plus qu'une


seule classe. En d'autres termes, toutes les classes nissent, en
n d'algorithme par ne constituer qu'une seule classe (1 classe
pour N individus).
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Principe de la classication hiérarchique


Soit un ensemble avec 9 éléments : a, b, c, d, e, f, g, h, i.
Supposons que la CHA a produit la suite de partitions suivante :
- niveau 0 a b c d e f g h i
- niveau 1 a b c d (e f) (g h) i
- niveau 2 (a b d) c (e f) (g h) i
- niveau 4 (a b d c) (e f g h) i
- niveau 5 (a b c d e f g h i)

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Choix des variables

Les variables qui caractérisent les individus sont, généralement,


continues.
Exemple : les âges, des salaires, des chires d'aaires, des volumes
de ventes, etc.
L'utilisation de données ordinales est également acceptée comme
des indices de satisfaction (échelle de 1 à 7, par exemple).
Pour le cas de variables nominales, on ne peut pas utiliser la
métrique euclidienne pour rendre compte de la proximité des
individus car elle repose sur des considérations de continuité.
Pour cela, nous devrons choisir une autre métrique plus adaptée à
ce type de variables catégorielles (l'Analyse des Correspondances
Multiples).

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Choix des variables

Lors de la présélection, il est aussi préférable de ne pas prendre


toutes les variables mais seulement de ne sélectionner que
celles étant jugés pertinentes.
On fait souvent recours à une Analyse en Composantes
Principales an de regrouper les variables contenant les mêmes
informations.
,→ L'ACP permet ainsi d'extraire des facteurs qui ont l'avantage
de comporter des informations diérentes les uns des autres.
Ces facteurs ou composantes peuvent alors être utilisées à la
place des variables de départ pour la Classication
Hiérarchique. Ils possèdent des propriétés très intéressantes
puisqu'ils sont
∗ linéairement indépendants donc, non corrélés,

∗ sur une même échelle de mesure (continue).

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Le choix de la métrique

L'utilisateur est confronté à trois questions :


Quelles types de variables doivent être prises en compte, et
donc, quelle métrique doit être choisie pour mesurer la
distance entre les individus ?
Quelle méthode doit être choisie pour regrouper les individus
ou classes ?
Doit-on opérer à des transformations préalables des variables ?

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Le choix de la métrique

Pour les variables continues, on utilise traditionnellement une


distance euclidienne car facile à comprendre et facile à
calculer : 0
d2M (k, l) = (xk − xl )M(xk − xl )
où M = I ou M = V−1 est la matrice de variance covariance.
SPSS propose un grand nombre de distances plus ou moins
utilisées. Nous pouvons citer :
∗ le coecient de corrélation de Pearson,
∗ Cosinus,
∗ Distance de Tchebyche, etc ...,
Pour les variables nominales, on utilise une distance du Chi2.
La Chi2 est à la base de nombreuses techniques statistiques
comme l'Analyse des Correspondances.
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Distances pour les données quantitatives

Distance euclidienne
0
d2M (k, l) = (xk − xl )M(xk − xl )

où M = I ou M = V−1 est la matrice de variance covariance.


Distance de Minkowsky
 1
p λ
X
2 λ
dM (k, l) =  | xkj − xlj |
j=1

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Distances pour les données qualitatives


Distance du Chi2 (χ2 ) : tableau de contingence
X \Y 1 ··· j ··· J Ensemble
1 n11 ··· n1j ··· n1J n1
.. .. .. .. .. .. ..
. . . . . . .
k nk1 ··· nkj ··· nkJ nk
.. .. .. .. .. .. ..
. . . . . . .
l nl1 ··· nlj ··· nlJ nl
.. .. .. .. .. .. ..
. . . . . . .
K nK1 ··· nKj ··· nKJ nK
Ensemble n1 ··· nj ··· nJ n
 2
nkj nlj
J
X nk − nl
d2M (k, l) = nj
j=1 n

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Indice de similarité pour les tableaux binaires

a= nombre de fois où xkj = xlj = 1


b= nombre de fois où xkj = 1 et xlj = 0
c= nombre de fois où xkj = 0 et xlj = 1
d= nombre de fois où xkj = xlj = 0

a+b+c+d=n

Indice de Jaccard : d1 (k, l) = (a+b+c)


a

Indice de Solak : d3 (k, l) = (a+b+c+d)


a+d

Indice de Pearson : d6 (k, l) = [(a+b)(c+d)(a+c)(b+d)]


|ad−bc|
2

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Standardisation des variables


Lorsque le nombre de variables devient conséquent, la probabilité
d'avoir des échelles diérentes augmente ce qui crée des biais très
dommageables lors du calcul de distances. C'est la raison pour
laquelle il convient de ramener toutes les variables sur une même
échelle de mesure.
La technique classique est de standardiser les variables. En d'autres
termes, cette opération consiste à soustraire à chaque valeur la
moyenne de la variable, que l'on divise, ensuite, par l'écart type.
SPSS propose également d'autres méthodes de standardisation
comme de normer les valeurs entre 0 et 1 ou 1 et +1. Il est, en tout
cas, très dicile de savoir quelle méthode est la meilleure.
m ces techniques de standardisation ne sont pas à appliquer
systématiquement. Si on applique une classication par
exemple sur des variables ordinales (indices de satisfaction), il
est déconseillé de réaliser cette opération car cela risquerait de
réduire l'inuence de certaines variables discriminantes.
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Choix de la méthode

Sur quel critère repose le regroupement des individus en


classes ?
,→ SPSS propose 7 méthodes dites d'agrégation
Pouquoi autant de méthodes proposées par SPSS ?
,→ car lors du calcul des distances entre deux classes qui
comprennent plusieurs individus, il existe plusieurs possibilités
en matière de choix de points de référence de la classe :
→ On peut se baser sur le centre des classes.

→ On peut prendre en compte le nombre d'individus par classe et

donc obtenir une moyenne pondérée.

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation

On appelle stratégie d'agrégation, la façon d'apprécier la proximité


entre deux classes C1 et C2 , au cours des agrégations successives
qui se réalisent lors de la construction de la hiérarchie.
La gure suivante présente deux exemples de méthodes
d'agrégation : l'agrégation selon le saut minimum et l'agrégation
selon le diamètre

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation

1. Méthode d'agrégation selon le saut minimum (Single Linkage ou


Nearest Neighbor) :
Cette méthode calcule les distances entre les points pour regrouper
les classes dont les distances entre les points sont les plus petites.
Elle se base sur la stratégie d'agrégation du lien minimum (le plus
proche voisin) :
D(C1 , C2 ) = M
| {zin} d(x, y)
x∈C1 ety∈C2

,→ Produit un phénomène de chaînage : Il sut que deux


points, même éloignés, soient reliés par une suite de points qui
soient l'un proche de son suivant, pour que ces deux points
soient considérés comme proches.
,→ Inconvénient : Incapacité de diérencier des classes proches

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation

2. La méthode d'agrégation suivant le diamètre (Complete


Linkage ou Furthest Neighbor)
Cette méthode prend la démarche inverse, c'est-à-dire qu'une
fusion entre deux classes s'opère lorsque les distances entre
deux points de deux classes diérentes sont les plus éloignées.
Elle se base sur la stratégie d'agrégation du lien maximum
(diamètre, complete linkage)
D(C1 , C2 ) = M
| {zax} d(x, y)
x∈C1 ety∈C2

Ces deux premières méthodes d'agrégation utilisent seulement le


rang. Elles sont relativement insensibles aux valeurs extrêmes.
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation
3. La méthode d'agrégation suivant la distance moyenne entre les
classes (Between-groups Average Linkage ou Baverage)
Le principe de cette méthode est de prendre en compte une moyenne
de distances entre les classes, pour chaque individu. Elle se base sur
la stratégie d'agrégation du lien moyen (Between group method)
1 X
D(C1 , C2 ) = d(x, y)
card(C1 )card(C2 )
x∈C1 ety∈C2

Cette méthode possède des propriétés intéressantes mais son


inconvénient est qu'elle est inuencée par les valeurs extrêmes.
4. Une variante de la méthode d'agrégation 3. consiste à minimiser
l'indice du lien moyen calculé sur toutes les intra-distances de la
classe union :
,→ La méthode d'agrégation suivant la distance moyenne dans les
classes (Within group method)
Mohammed El Haj Tirari Statistiques pour des données de gran
Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation

5. La méthode d'agrégation suivant les barycentres (centroïds)


Pour cette méthode le point de référence correspond à la
moyenne des points des classes. Puis, les distances sont
calculées à partir de ces moyennes qui vont représenter les
classes :
D(C1 , C2 ) = d(g1 , g2 )
où g1 et g2 sont respectivement les barycentres de C1 et C2 .
Cette technique est assez robuste et peu inuencée par les
valeurs extrêmes.

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation

6. La technique d'agrégation selon la méthode de Ward


Les propriétés de cette méthode sont assez proches de la
méthode des distances moyennes entre les classes. Son
approche repose sur la décomposition de la variance.
Une variance comporte 2 éléments : une partie qui explique les
diérences entre les classes (appelée variance inter classe ou
expliquée) et une autre qui relate les diérences dans les
groupes (variance intra classe ou résiduelle).
Le critère de Ward regroupe les classes telle que la variance
inter groupe reste la plus grande (signicatif de classes
éloignées les unes des autres) et la variance intra groupe la
plus petite (les classes doivent être homogènes).

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation
6. La technique d'agrégation selon la méthode de Ward

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Stratégies d'agrégation

6. La technique d'agrégation selon la méthode de Ward


Cette méthode se base sur la stratégie d'agrégation de Ward
(variance minimum) :
wC1 wC2
D(C1 , C2 ) = d(g1 , g2 )
wC1 + wC2

où wCi représente le poids de la classe Ci et gi le centre de


gravité de de la classe Ci (i = 1, 2). le centre de gravité g de
la classe union obtenue est donnée par
wC1 g1 + wC2 g2
g=
wC 1 + wC 2

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Démarche à suivre pour la classication hiérarchique

1. à partir du tableau de données T choisir un indice de


dissimilarité (la métrique) d sur les individus représentant les
associations deux à deux des individus.
2. Choisir une stratégie d'agrégation D sur les classes qui permet
d'agréger les classes les plus proches.
3. Construction de la hiérarchie de partitions :
∗ au départ, on part de la partition dont les classes sont réduites
à un individu par classe.
∗ à l'étape t + 1, parmi les classes obtenues à l'étape t, on
agrège celles qui soient les plus proches au sens de D.
∗ on recommence alors l'étape précédente jusqu'à obtenir une
partition en une seule classe.

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Pour la mise en oeuvre de la classication hiérarchique, nous allons


utiliser les données de la table "EchangesExterieurs" représentant les
échanges commerciaux internationaux du maroc selon : les
Investissement, les Recettes voyages, les Recettes MRE, les Importations
et les Exportations.

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Etude graphique

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Choix de la méthode

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Choix de la métrique

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Standardisation des variables

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Graphiques

Mohammed El Haj Tirari Statistiques pour des données de gran


Introduction Principe
la classication hiérarchique Mise en oeuvre avec SPSS

Statistiques

Mohammed El Haj Tirari Statistiques pour des données de gran