Академический Документы
Профессиональный Документы
Культура Документы
1
Réaliser une analyse en composantes
principales c’est représenter dans un espace de
dimension faible par exemple 2 une information
dont on dispose dans un espace de dimension
élevée n ou p avec l’objectif de restituer dans
cette opération une quantité d’information
maximale par rapport à l’information disponible
dans le fichier de base.
2
Par exemple, du fichier disponible ( tableau 1), on déduira les
coordonnées des individus dans un espace de dimension deux (tableau 2)
Tableau1 Tableau2
Quantité d’information?
3
Quantité d’information
Individus Axe 1 Axe 2
restituée?
1 -1,62 -0,20
2 -1,09 -0,52 9
3 -0,98 -0,72
4 1,27 0,09
5 0,67 -0,46
6 0,90 -0,90 7
4
7 0,81 0,35
10
1 8
2
8 -0,26 -0,16 5
3
9 -0,34 2,63 6
10 0,71 -0,10
Tableau2 Graphe 1
4
9
Axe 2
Axe 2
Axe 2
Individus Axe 1 Axe 2 Axe 3
1 -1,62 -0,20 -0,17
2 -1,09 -0,52 0,30
3 -0,98 -0,72 0,86 7
4
9
5
2
6
11
10
Peut-on améliorer
Axe 1
l’image?
8
7
5
9
Axe 2
Axe 2
7
4
Axe 3
10
1 8
2 4
5
3 Axe 1
6 3
5 9
6 2
10
1
Axe 3
4 Axe 2
3 8
9 7
5
2
6 6
1
10
Axe 1
8
7
6
Axe 3
.3
.2
.4
.1
.9
.5
. 10 Axe 2
.6
.8
.7
Axe 1
7
1. Le schéma de travail:
11. Du tableau de base
X1 Xj Xp Mi
1 x11 x1 j x1 p M1
i xi1 xij xip Mi
n xn1 xnj xnp Mn
Nj N1 Nj Np
M i , mi où i var ie de 1 à n N ,f j j où j var ie de 1à p
12. On détermine ensuite l’inertie I, c’est-à-dire la
dispersion du nuage par rapport à son centre de gravité.
8
13. Réaliser une A.C.P. c’est déterminer un espace de
dimension faible dans lequel le nuage choisi sera projeté
orthogonalement.
Axe Axe
Individus
1 2
. M’1
M’1
. M’i
…
M’i
…
. M’n
M’n
9
Espace de dimension
élevée dans lequel les
Fichier de base: individus sont
représentés par des Analyse et retour sur
individus i de poids
points Mi. axe étude.
respectifs mi
factoriel 1
A. C.P réalisée de
telle sorte que le ratio
I'/I soit le plus élevé
possible.
10
2. L’inertie
La forme mathématique de l’inertie est la suivante:
i n
I mi GM i
2
i 1
12
3. Matrice d’inertie
La réalisation d’une ACP est construite sur les qualités d’une
matrice qui porte le nom de matrice d’inertie. Celle-ci est définie de la
manière suivante:
i n
M mi GM i GM i'
i 1
i i i
m GM
i 1
GM '
i n i n i n
mi xi21 mi xi1 xi 2 m i i1 ip
x x
xi21 xi1 xi 2 xi1 xip i 1 i 1 i 1
i n in i n
xi 2 xi1 xi22 xi 2 xip
m x mi xi 2 xip
i n 2
mi xi 2 xi1
mi
i 1 i 1
i i2
i 1
i 1
x x 2
ip i1 xip i n i n
14
31. Nous constatons que la trace de cette matrice, c’est-à-dire la
somme de ses éléments diagonaux est égale à l’inertie de système.
Ainsi, avons-nous la possibilité de caractériser la dispersion du nuage par les
valeurs propres d’une matrice. En effet la trace est un invariant égal à la
somme des valeurs propres.
j p i n
Tr M m x V X j I j
p p
2
i ij
j 1 i 1 j 1 j 1
Parce que l’inertie est identifiée aux valeurs propres d’une matrice, il est
normal de sélectionner les plus importantes pour conserver au mieux
l’information. Rangeons celles-ci par ordre décroissant et sélectionnons les
plus fortes.
1 2 p
Le taux de restitution de l’information dans un plan est donné par:
1 2
100
j 15
32. Lorsque l’analyste juge que ce taux est correct, il peut
représenter son nuage en dimension 2. Le plan de projection est engendré
par deux vecteurs propres associés aux deux plus grandes valeurs propres.
Soit à résoudre les équations:
u j 0
Mu j j u j j variant de 1 à 2
16
33. Les diverses projections
Lorsque le plan est défini, il reste à donner les divers coordonnées. Pour
cela, on utilise les relations:
• abscisse
i GM i' u1
• ordonnée
i GM i' u2
17
Quelques éléments supplémentaires.
1. Que faire des valeurs manquantes ou des non
réponses?
Il est fréquent de constater que certains
fichiers sont incomplets: information non
disponibles, non réponses, fichier non
actualisé…Pour compenser le manque
d’information, on peut choisir entre plusieurs
options: insérer une valeur neutre,
recomposer l’information, supprimer toute la
ligne ou la colonne correspondante.
18
2. Donner un sens aux axes
Il est possible d’étudier la corrélation
entre les axes et les diverses variables qui
participent à l’analyse. Une corrélation forte
donne à la variable considérée un pouvoir
explicatif fort.
19
4. Projections des variables
Le nuage des individus et le nuage des
variables sont deux représentations différentes d’un
même tableau. Ainsi, des relations très fortes lient
ces deux nuages.
Les relations de transition, c’est-à-dire les relations
de passage d’un nuage projeté à l’autre sont
données ci-après:
j p xij x j
Pru i
1
pru X j
1
u 2 j 1 j
xij x j
in
Pru X j 1
1 pru i
u 2 i 1 j
20
4. Exemple
21
Individus Technicité Polyvalence Créativité
1 3 4 4
2 1 0 0
3 2 0 0
4 3 2 4
5 2 0 4
6 1 2 0
7 2 2 0
8 1 2 4
9 2 4 4
10 1 0 4
11 2 2 4
12 2 4 0
13 3 4 0
14 3 2 0
22
Points
représentant
les individus Vecteurs Technicité Polyvalence Créativité
M1 GM1 1 2 2
M2 GM2 -1 -2 -2
M3 GM3 0 -2 -2
M4 GM4 1 0 2
M5 GM5 0 -2 2
M6 GM6 -1 0 -2
M7 GM7 0 0 -2
M8 GM8 -1 0 2
M9 GM9 0 2 2
M10 GM10 -1 -2 2
M11 GM11 0 0 2
M12 GM12 0 2 -2
M13 GM13 1 2 -2
M14 GM14 1 0 -2
G 0 0 0
23
Si à chaque individu on accorde le même poids égal à 1/14,
l’inertie est égale à:
i 14
1 i 14 96
I mi GM GM i GM i'GM i V X 1 V X 2 V X 3
i
'
i 1 14 i 1 14
24
Lorsque l’on sélectionne ACP dans un logiciel, on demande de sélectionner le
meilleur plan de projection.
Celui-ci est dirigé par 2 vecteurs appelés vecteurs propres de la matrice d’inertie
associés aux deux plus grandes valeurs propres de la même matrice. ( Il faut noter
que dans l’opération, on a réussi à identifier la quantité d’information aux valeurs
propres d’une matrice).
25
Dans notre exemple, cette matrice est égale à:
8 8 0
1
8 32 0
14
0 0 56
Les valeurs propres s’obtiennent par différentes méthodes. Ici, elles sont
égales à:
1 4 2 2,46 3 0,4
On note que
I V X 1 V X 2 V X 3 1 2 3 6,86
26
Le taux de restitution de l’information est égal à:
1 2
100 94,17 %
1 2 3
Cela signifie que l’image de dimension deux que l’on va voir représente
bien le nuage de points.
27
Axe 1 Axe 2
2 2,11
Polyvalence et
-2 -2,11
-2 -1,92
technicité
2 0,19
Axe 2: 35,9 %
2 -1,92
-2 -0,19
-2 0
2 -0,19
13 1
2 1,92
2 -2,11 12 9
2 0
-2 1,92
-2 2,11
14 4 Axe 1: 58,3 %
-2 0,19
7 11
6 8
Créativité
3 5
2 10
94,17 %
28
Excellent collaborateur:
référence
Axe 2
15
13 1
12 9
14 4 Axe 1
7 11
6 8
3 5
2 10
29
Vecteurs Technicité Polyvalence Créativité Facteur 1 Facteur 2
GM1 1 2 2 2 2,11
GM2 -1 -2 -2 -2 -2,11
GM3 0 -2 -2 -2 -1,92
GM4 1 0 2 2 0,19
GM5 0 -2 2 2 -1,92
GM6 -1 0 -2 -2 -0,19
GM7 0 0 -2 -2 0
GM8 -1 0 2 2 -0,19
GM9 0 2 2 2 1,92
GM10 -1 -2 2 2 -2,11
GM11 0 0 2 2 0
GM12 0 2 -2 -2 1,92
GM13 1 2 -2 -2 2,11
GM14 1 0 -2 -2 0,19
30
Corrélations Technicité Polyvalence Créativité
Variables / axe 1 0 0 1
31
E 1. On donne le tableau suivant représentant les
notations réalisées ( sur des échelles de valeurs de 0 à 7) par
des acheteurs de 15 voitures de toutes marques et de tous
types à propos de 3 variables : confort, ligne, puissance.
Individus 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Confort 3 2 3 2 4 4 2 3 4 2 3 3 1 4 5
Ligne 1 0 0 4 1 5 6 7 0 2 5 3 3 6 3
Puissance 3 3 3 5 5 5 7 7 3 5 7 5 5 7 5
32
Code
Confort Ligne Puissance Axe 1 Axe 2
individus
1 0 -2,07 -2 -2,81 0
2 -1 -3,07 -2 -3,66 -1
3 0 -3,07 -2 -3,66 0
4 -1 0,93 0 0,80 -1
5 1 -2,07 0 -1,76 1
6 1 1,93 0 1,65 1
7 -1 2,93 2 3,55 -1
8 0 3,93 2 4,40 0
9 1 -3,07 -2 -3,66 1
10 -1 -1,07 0 -0,91 -1
11 0 1,93 2 2,69 0
12 0 -0,07 0 -0,06 0
13 -2 -0,07 0 -0,06 -2
14 1 2,93 2 3,55 1
15 2 -0,07 0 -0,06 2
33
La matrice des variances / covariances est
données ci-après
1,067 0 0
0 5,262 3,067
0 3,067 2,133
Corrélations variables /
axe 1 0 0,99 0,96
Corrélations variables /
axe 2 1 -0 0
34
E2. Étude de la comparaison de pays d’un point de vue
économique (statistiques anciennes; mais intéressantes).
Les 18 variables prises en compte sont:
35
X10: Réserves officielles (en millions de dollars);
X11: Le taux d’escompte officiel;
X12: Importations marchandises totales (en millions de dollars);
X13: Exportations marchandises totales ( en millions de dollars);
X14: Calories par habitant et par jour;
X15: Nombre de logements achevés pour 1000 habitants;
X16: consommation d’électricité en kwh par habitant et par an;
X17: Dépenses publiques d’éducation en % du P.N.B.;
X18: Nombre de T.V. pour 1000 habitants.
36
pays X1 X2 X3*100 X4*100 X5*100 X6 X7*100 X8*100 X9*100
D 60848 245 105 960 4910 2520 360 2440 3790
A 7373 88 50 1910 3990 1690 700 2320 3750
B 9984 332 60 540 4480 2353 540 2310 3510
CDN 21089 2 185 820 3230 3460 590 2170 3520
DK 4893 114 75 1190 3850 2860 890 2200 3710
E 32949 65 95 3470 3710 870 1500 2200 2240
USA 203213 22 135 460 3370 4660 290 1670 3150
SF 4706 14 70 2450 3460 1940 1470 2300 3590
F 50325 91 105 1510 4060 2770 600 2540 3010
GR 8866 67 70 4820 2250 950 2030 2970 2690
SE 2921 42 25 2840 2970 1040 1970 1990 3070
I 54123 180 85 2150 4370 1520 1130 2050 3330
JAP 102380 277 105 1880 3500 1630 870 3520 2120
NL 12873 352 125 750 4130 2190 700 2550 4190
pays 9583 105 90 3150 3550 600 1770 1840 2400
RUN 55643 228 65 290 4680 1970 300 1730 3900
S 7969 18 70 880 4040 3230 590 2360 4810
37
X10 X11*100 X12 X13 X14 X15*100 X16 X17*100 X18
10940 650 24926 29052 2990 860 3322 340 231
1563 500 2825 2412 2990 660 2647 440 134
2406 700 9984 10069 3150 500 2814 530 184
3846 600 13137 13754 3160 820 8199 570 279
384 900 3800 2958 3180 900 2413 600 244
1512 650 4233 199 2750 640 1245 210 84
12305 575 36052 37988 3210 770 7013 510 392
379 600 2023 1985 2900 790 3836 630 193
4617 750 17392 15020 3160 820 2407 480 185
290 650 1594 554 2910 1010 823 240 9
694 731 1413 891 3450 400 1577 420 111
4642 550 12450 11729 2940 510 1810 580 146
3072 600 15024 15990 2460 1190 2734 450 190
2621 600 10991 9965 3240 970 2565 670 197
1442 350 1231 823 2930 430 607 140 29
2469 700 19956 17515 3190 770 3680 420 253
506 700 5899 5698 2750 1340 6803 740 288
38
Réaliser une ACP du nuage des individus en utilisant
deux axes.
Définir, à partir de l’A.C.P., une typologie pour laquelle
on étudiera l’homogénéité des groupes.
39
Paramétrage de l’ACP avec SPSS
40
41
Sélectionner les variables dans la
fenêtre de gauche et valider votre
choix par la flèche centrale
42
Espérance et variance de chaque variable
43
Méthode d’extraction
Graphique des valeurs propres
44
Sélectionner
45
Enregistrement des coordonnées des individus sur les axes factoriels.
On utilisera ces coordonnées pour représenter graphiquement les individus
46