Академический Документы
Профессиональный Документы
Культура Документы
1.1 INTRODUCTION 2
1.2 MINI-EXEMPLE 2
1.2.1 ANALYSE EN COMPOSANTES PRINCIPALES (NORMEE) 3
1.3 ANALYSE EN COMPOSANTES PRINCIPALES AVEC XLSTAT 10
1.3.1 PRESENTATION DES DONNEES ETUDIEES 10
1.3.2 TRAITEMENT DES DONNEES AVEC STATISTICA 10
1.3.3 VARIABLES SUPPLEMENTAIRES ET INDIVIDUS INACTIFS AVEC STATISTICA 15
1.3.4 CALCULER LES DONNEES CENTREES REDUITES 16
1.4 INTERPRETER LES RESULTATS D'UNE ACP 16
1.4.1 EXAMEN DES VALEURS PROPRES. CHOIX DU NOMBRE D'AXES 16
1.4.2 INTERPRETER LES RESULTATS RELATIFS AUX INDIVIDUS 16
1.4.3 INTERPRETER LES RESULTATS RELATIFS AUX VARIABLES 17
1.4.4 QUELQUES REGLES D'INTERPRETATION PLUS GENERALES 19
1.5 EXEMPLES ET EXERCICES 19
1.5.1 LE CAS "BASKET" 19
1.5.2 LE CAS PSYCHOMETRIE 25
1.5.3 LE CAS "BUDGET-TEMPS MULTIMEDIA" 26
1.5.4 LE CAS SLEEP 27
1.5.5 TRAVAIL A RENDRE PAR MAIL 28
1.6 VARIANTES ET EXTENSIONS DE LA METHODE 30
1.6.1 ACP PONDEREE, ACP NON NORMEE 30
1.6.2 ACP AVEC ROTATION 30
On a observ p variables sur n individus. On dit qu'il s'agit d'un protocole multivari.
On cherche remplacer ces p variables par q nouvelles variables rsumant au mieux le protocole, avec q
p et si possible q=2.
L'ACP a l'avantage de rsumer un ensemble de variables corrles en un nombre rduit de facteurs non
corrls appels composantes principales.
1.2 Mini-exemple
Comme les variables sont centres rduites, la corrlation entre la variable Z k et la variable Z l est
1
simplement zik zil .
n i
Dans notre exemple, toutes les variables sont corrles positivement. La corrlation est forte entre les 2
premires, et entre la 3 et la 4. La cinquime est faiblement corrle aux autres variables.
Le terme de "valeur propre" (en anglais : eigenvalue) appartient au domaine de l'algbre linaire. Il s'agit
en fait des valeurs propres de la matrice des corrlations. Mathmatiquement, on dit que la matrice des
corrlations et la matrice diagonale des valeurs propres sont semblables : elles reprsentent la mme
information (l'inertie du nuage de points) dans deux systmes d'axes orthonorms diffrents.
3,0 57,24%
2,5
Valeur propre
2,0
1,5
23,01%
19,66%
1,0
0,5
,08% ,01%
0,0
-0,5
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
La variation totale (100%) est rpartie selon 5 valeurs propres. D'o l'ide de ne garder que les valeurs
propres (et directions propres) qui reprsentent au moins 20% de variation.
Variante : on observe une brusque dcroissance des valeurs propres entre la 3 et la 4 valeur propre.
Au final, on dcide de ne garder que trois valeurs propres.
Les scores des individus sont les valeurs des composantes principales sur les individus.
(2,7857) 2 (2,7857) 2
Par exemple : CTR( S1, CP1 ) = = = 0,3013
2,7857 2 + 1,2625 2 + ... + 0,62312 9 2,8618
1,5
Andr Brigitte
1,0
Didier
Jean
0,5 Aline
Fact. 2 : 23,01%
Monique
0,0
-0,5
Annie
-1,0
Evelyne
-1,5 Pierre
-2,0
-2,5
-5 -4 -3 -2 -1 0 1 2 3 4 5
Active
Fact. 1 : 57,24%
1,5
Monique
1,0 Pierre
Jean
Aline
0,5 Annie
Didier
Fact. 3 : 19,66%
0,0
-0,5 Brigitte
-1,0 Andr
-1,5
Evelyne
-2,0
-2,5
-3,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Active
Fact. 1 : 57,24%
0,8059 2
Par exemple : CTR(Z1,CP1 ) = = 0,2269
2,8618
Comme dans le cas des individus, les qualits des reprsentations d'une variable selon les composantes
principales s'additionnent. Le tableau ci-dessous donne les qualits de reprsentation selon la premire
composante principale, selon le plan des deux premires composantes, dans l'espace dfini par les trois
premires composantes.
Graphiquement, la qualit de la reprsentation d'une variable dans le plan (CP1, CP2) est le carr de la
norme (longueur) du vecteur reprsentant cette variable (projection de cette variable dans le plan).
1,0
Math
0,5 Sciences
Fact. 2 : 23,01%
0,0
Musique
Latin
-0,5
Franais
-1,0
1,0
0,5
Fact. 3 : 19,66%
Franais
Latin
0,0 Sciences
Math
-0,5
Musique
-1,0
Le tableau des coefficients des variables ("loadings" en anglais) peut tre lu de deux faons :
- il permet de calculer les valeurs des composantes principales partir des variables centres rduites de
dpart
- il permet de retrouver les valeurs des variables centres rduites de dpart partir des valeurs des
composantes principales.
Les valeurs propres pourraient galement tre calcules partir du tableau, comme variances des
composantes principales. Autrement dit, on pourrait l'aide du tableau des coefficients, retrouver tous les
rsultats indiqus ci-dessus.
Ce tableau permet galement de retrouver les saturations des variables, en multipliant les coefficients
correspondant chaque facteur par la racine carre de la valeur propre correspondante.
Par exemple, pour la premire variable et la premire composante principale :
Les temps sont nots en centimes d'heures. La premire case en haut gauche du tableau (HAU)
indique que les Hommes Actifs des USA passent en moyenne 6 heures et 6 minutes (6 heures + 10/100
d'heure, soit 6 heures et 6mn) en activit PROFessionnelle. Le total d'une ligne (sur ces 10 variables
numriques) est 2400 (24 heures).
PROF TRAN MENA ENFA COUR TOIL REPA SOMM TELE LOIS SEX ACT CIV PAYS
HAU 610 140 60 10 120 95 115 760 175 315 1 1 9 1
FAU 475 90 250 30 140 120 100 775 115 305 2 1 9 1
FNU 10 0 495 110 170 110 130 785 160 430 2 2 9 1
HMU 615 140 65 10 115 90 115 765 180 305 1 9 2 1
FMU 179 29 421 87 161 112 119 776 143 373 2 9 2 1
HCU 585 115 50 0 150 105 100 760 150 385 1 9 1 1
FCU 482 94 196 18 141 130 96 775 132 336 2 9 1 1
HAW 653 100 95 7 57 85 150 808 115 330 1 1 9 2
FAW 511 70 307 30 80 95 142 816 87 262 2 1 9 2
FNW 20 7 568 87 112 90 180 843 125 368 2 2 9 2
HMW 656 97 97 10 52 85 152 808 122 321 1 9 2 2
FMW 168 22 528 69 102 83 174 824 119 311 2 9 2 2
HCW 643 105 72 0 62 77 140 813 100 388 1 9 1 2
FCW 429 34 262 14 92 97 147 849 84 392 2 9 1 2
HAY 650 140 120 15 85 90 105 760 70 365 1 1 9 4
FAY 560 105 375 45 90 90 95 745 60 235 2 1 9 4
FNY 10 10 710 55 145 85 130 815 60 380 2 2 9 4
HMY 650 145 112 15 85 90 105 760 80 358 1 9 2 4
FMY 260 52 576 59 116 85 117 775 65 295 2 9 2 4
HCY 615 125 95 0 115 90 85 760 40 475 1 9 1 4
FCY 433 89 318 23 112 96 102 774 45 408 2 9 1 4
HAE 650 142 122 22 76 94 100 764 96 334 1 1 9 3
FAE 578 106 338 42 106 94 92 752 64 228 2 1 9 3
FNE 24 8 594 72 158 92 128 840 86 398 2 2 9 3
HME 652 133 134 22 68 94 102 763 122 310 1 9 2 3
FME 436 79 433 60 119 90 107 772 73 231 2 9 2 3
HCE 627 148 68 0 88 92 86 770 58 463 1 9 1 3
FCE 434 86 297 21 129 102 94 799 58 380 2 9 1 3
- Comment seront traites les valeurs manquantes ? Ici, les donnes ne comportent pas de valeur
manquante.
- L'analyse sera-t-elle base sur les covariances ou sur les corrlations ? Sur l'exemple trait ici, la
question mrite d'tre pose, car toutes les donnes sont exprimes avec la mme unit. Cependant,
l'tude mene partir des covariances ferait surtout apparatre les variables qui combinent valeurs leves
et fortes variations, telles que PROF par exemple. Le paragraphe prcdent concernait l'ACP norme,
c'est--dire l'ACP base sur les corrlations. Nous dirons ultrieurement quelques mots sur l'ACP non
norme.
- Utilise-t-on les variances et covariances non corriges (SC/N) ou les variances et covariances corriges
(SC/(N-1)). Dans le cas d'une ACP norme, les deux mthodes fournissent des rsultats presque
identiques : seuls les scores des individus sont lgrement modifis. En fait, l'ACP est une mthode
descriptive et non une mthode infrentielle. Elle est effectue dans un but exploratoire : on tudie les
donnes pour elles-mmes, et non en vue d'une gnralisation une population. C'est pourquoi
l'utilisation des variances non corriges est gnralement justifie.
Cliquez ensuite sur le bouton OK.
PROF TRAN MENA ENFA COUR TOIL REPA SOMM TELE LOIS
PROF 1 0,933 -0,908 -0,870 -0,658 -0,112 -0,455 -0,538 -0,059 -0,190
TRAN 0,933 1 -0,869 -0,809 -0,503 -0,079 -0,613 -0,702 -0,044 -0,105
MENA -0,908 -0,869 1 0,861 0,501 -0,035 0,361 0,433 -0,206 -0,113
ENFA -0,870 -0,809 0,861 1 0,543 0,124 0,367 0,277 0,122 -0,109
COUR -0,658 -0,503 0,501 0,543 1 0,593 -0,184 -0,030 0,216 0,235
TOIL -0,112 -0,079 -0,035 0,124 0,593 1 -0,360 -0,217 0,322 0,073
REPA -0,455 -0,613 0,361 0,367 -0,184 -0,360 1 0,817 0,316 -0,040
SOMM -0,538 -0,702 0,433 0,277 -0,030 -0,217 0,817 1 0,018 0,208
TELE -0,059 -0,044 -0,206 0,122 0,216 0,322 0,316 0,018 1 -0,095
LOIS -0,190 -0,105 -0,113 -0,109 0,235 0,073 -0,040 0,208 -0,095 1
Valeurs propres :
F1 F2 F3 F4 F5 F6 F7 F8 F9
Valeur propre 4,589 2,120 1,321 1,195 0,468 0,199 0,047 0,037 0,024
Variabilit (%) 45,887 21,198 13,210 11,953 4,684 1,990 0,468 0,371 0,239
% cumul 45,887 67,085 80,295 92,247 96,932 98,922 99,390 99,761 100,000
Pour cela, il suffit davoir coch la case valeurs propres de longlet Sorties dans la fentre
Analyse en composantes principales .
Pour les rsultats relatifs aux individus et aux variables, il faudra veiller cocher les cases
correspondantes de longlet Sorties .
On obtient leurs contributions la formation des composantes principales dans le tableau "Contributions
des variables (%)".
Dans le tableau Valeurs propres les qualits de reprsentation sont calcules, de faon cumulative
(qualit de la projection selon F1, puis selon le plan (F1,F2), puis selon l'espace (F1,F2,F3).
P rojec tio n des variab les s ur le plan factorie l ( 2 x 3 ) P rojec tio n des variab les s ur le plan factorie l ( 3 x 4 )
1,0 1,0
0,5 0,5
MENA
ENFA
MENA
Fact. 3 : 13,21%
Fact. 4 : 11,95%
TELE
ENFA PROF
TRAN
LOIS COUR REPA
TRAN
0,0 PROF 0,0 TOIL
COUR
SOMM
TOIL SOMM
REPA
-0,5 -0,5
TELE LOIS
-1,0 -1,0
-1,0 -0,5 0,0 0,5 1,0 -1,0 -0,5 0,0 0,5 1,0
Active Active
Fact. 2 : 21,20% Fact. 3 : 13,21%
Par exemple, lorsque des individus ou des variables ont une influence trop importante sur les rsultats
d'une ACP, on peut essayer de recommencer les calculs en les dclarant comme individus inactifs
(= observations supplmentaires) ou variables supplmentaires.
Les donnes correspondantes n'interviennent plus dans le calcul de dtermination des composantes
principales. En revanche, on leur applique les mmes transformations qu'aux autres donnes afin de les
r-introduire dans les tableaux et graphiques de rsultats.
Avec XLSTAT, il est simple de dclarer une variable comme variable supplmentaire : le premier
dialogue de l'ACP prvoit pour cela longlet Donnes supp. . Voir le tutoriel XLSTAT pour le dtail.
Dans une tude de psychologie sociale, il arrive frquemment que l'intrt du chercheur se porte sur les
variations et les oppositions entre groupes de sujets plutt que sur les variations individuelles. Pour
obtenir des rsultats concernant ces groupes, on peut ajouter au tableau les individus inactifs, avec comme
valeurs des variables, les moyennes observs sur les groupes.
Dans l'exemple que nous traitons, nous disposons d'une variable catgorise "sexe" et d'une variable
"zone gographique". Il serait intressant de faire apparatre sur les graphiques des points reprsentant les
moyennes observes sur les deux sexes, ou les moyennes correspondant chacune des 4 zones
gographiques tudies.
Calculer les moyennes de chaque variable, selon les groupes dfinis par la variable
catgorise SEX et selon la variable catgorise PAYS
Ces moyennes occuperont les 6 lignes supplmentaires, comme observations 29 34.
Attribuez ces 6 lignes les noms d'observations : Hommes, Femmes, USA, Ouest, Yougoslavie et Est.
1.3.3.2 ACP avec les moyennes par sexe et par zone gographique comme individus
supplmentaires
Introduisez dans la feuille de donnes "Budget-avec-moyennes" une variable supplmentaire : "Individus
actifs", valant 1 sur les 28 premires observations, et 0 sur les 6 moyennes qui suivent.
Rendez active cette feuille de donnes et refaites une ACP en dclarant en dclarant la variable
supplmentaire (Voir tutoriel XLSTAT).
3 FCU
FAU FM U FNU
HCU
2 USA
Fact. 2 : 21,20%
1 FCE
HCY HAU FAE
FCY
HM U Fe m m e s
HCE FAY Est FM E
Yo u g osl a vi e FNE
HAE
HM
0 HM
HA YYE FM Y
Ho m m es FNY
-1
FAW
FCW FNW
Ou e st FM W
-2
HAW
HM W
HCW
-3 Active
-3 -2 -1 0 1 2 3 4 5
Suppl.
Fact. 1 : 45,89%
Faites une nouvelle copie de la feuille de donnes "Budget-temps-ONU" et rinsrez-la dans le classeur.
Renommez-la Budget-centre-reduit
Affichez cette feuille et utilisez le menu Prparation de donnes Transformation de variables Autre
Transformations - /Ecart-type(n) pour remplacer les 10 premires variables par les variables centres
rduites associes.
- +
HCE (4,98%) FNW (14,5%)
HMY (3,84%) FNU (12,8%)
HAY (3,64%) FNE (11,95%)
HAE (3,59%) FNY (9,73%)
FMW (7,63%)
FMU (5,31%)
On peut ainsi caractriser l'axe en termes d'opposition entre individus : ici, femmes autres que "femmes
actives" v/s hommes actifs ou non prcis. Il peut galement tre intressant d'tudier comment l'axe
classe les individus.
Si un individu a une contribution trs forte la formation d'un axe, on peut choisir de recommencer
l'analyse en retirant cet individu, puis de l'introduire en tant qu'individu supplmentaire.
1.4.3.2 Analyse des projections des variables sur les plans factoriels
Les diagrammes reprsentant les projections des variables sur les axes factoriels nous fournissent
plusieurs types d'informations :
- Pour les variables bien reprsentes, l'angle entre deux variables est li au coefficient de
corrlation entre ces variables (si la reprsentation est exacte, le coefficient de corrlation est le
cosinus de cet angle). Ceci permet de dgager des "groupes de variables" de significations voisines,
des groupes de variables qui "s'opposent", des groupes de variables relativement indpendantes
entre eux.
Adaptation dun document de F.-G. Carpentier - 2006 17
- De mme, pour les variables bien reprsentes, l'angle que fait la projection de la variable avec un
axe factoriel est li au coefficient de corrlation de cette variable et de l'axe factoriel.
- L'exemple des notes est un cas (frquent en pratique) o toutes les variables sont corrles
positivement entre elles. Le premier axe factoriel correspond alors une synthse de l'effet commun
ces variables. Dans notre exemple, cela correspondrait au "niveau scolaire gnral" des sujets. Ce
facteur a souvent une interprtation vidente et l'tude doit s'attacher analyser les facteurs
suivants. Ce phnomne est connu sous le nom d'"effet taille".
Les commentaires qui suivent proviennent, pour l'essentiel, de l'ouvrage de W. Doise et al. cit en
bibliographie.
La technique en composantes principales reproduit avec parcimonie la variation totale d'un grand nombre
de variables (pour fixer les ides, dans les cas les plus courants: de 10 40) en un nombre sensiblement
plus restreint de dimensions (gnralement: de 2 6). L'chantillon des individus doit tre au moins aussi
important que le nombre de variables, mais si possible de quatre cinq fois plus important.
L'analyse implique ncessairement une certaine perte d'informations par rapport aux rponses des
individus. Elle fournit en contrepartie une vision bien structure et immdiatement accessible de la
manire dont les variables covarient, s'opposent, ou sont entre elles indpendantes.
On distingue habituellement trois types de dimensions (ou facteurs, ceci s'appliquant aussi bien la
technique en facteurs communs). La premire dimension dcrit la direction principale du faisceau de
corrlations. Cette dimension est le plus souvent un facteur gnral, sur lequel toutes les variables ont des
saturations positives et relativement leves. Elle dcrit donc une source de variation traversant
l'ensemble de la population analyse: la dimension est prsente chez tous les individus mais, fait
important, des degrs diffrents.
Les dimensions successives seront soit des dimensions de groupes, soit spcifiques. Les dimensions de
groupes sont constitues par deux ou plus de deux variables qui covarient sur une dimension. Lorsque des
signes positifs et ngatifs sont prsents sur la mme dimension, on parle de facteurs de groupe bipolaires
(par opposition unipolaires).
Enfin, les facteurs spcifiques sont ceux qui ne comportent que des saturations leves pour une variable
la fois. Habituellement, l'utilisateur arrte l'analyse avant l'apparition de telles dimensions.
La variable VIT est code systmatiquement avec un signe "-" afin que, comme pour les autres variables,
une valeur leve traduise une bonne performance.
Source : Institut National du Sport et de l'Education Physique (I.N.S.E.P.) - Extrait d'un fichier trait par
Marion Wolf pour la Fdration Franaise de Basket-Ball
On ralise une ACP norme sur ces donnes. Les rsultats fournis par Statistica (ou Excel) sont les
suivants :
Corrlations (Basket.sta)
TAI VIT DET PAS LEG STA
TAI 1,0000 -0,8833 -0,8974 0,1054 -0,9241 0,4630
VIT -0,8833 1,0000 0,9108 -0,2217 0,9206 -0,1748
DET -0,8974 0,9108 1,0000 -0,0760 0,9498 -0,2969
Adaptation dun document de F.-G. Carpentier - 2006 20
PAS 0,1054 -0,2217 -0,0760 1,0000 -0,1230 0,1278
LEG -0,9241 0,9206 0,9498 -0,1230 1,0000 -0,2621
STA 0,4630 -0,1748 -0,2969 0,1278 -0,2621 1,0000
4,0 64,93%
3,5
3,0
2,5
2,0
Valeur propre
1,5
16,96%
1,0 14,99%
0,5
1,46% 1,13% ,53%
0,0
-0,5
-1 0 1 2 3 4 5 6 7 8
Numro de valeur propre
2,0
I9
1,5 I8 I17
I16
I15
1,0
I7 I14
0,5 I12
I10
I2
0,0 I13
I6
-0,5 I5
I11
I3 I18
Fact. 2 : 16,96%
-1,0
-1,5 I1
I4
-2,0
-2,5
-3,0
-5 -4 -3 -2 -1 0 1 2 3 4 5
Active
Fact. 1 : 64,93%
2,0
1,5 I5
I16
I6
1,0 I13
I14 I17
I12 I15
0,5 I1
I4
I18
0,0
I9
-0,5 I7
I11 I8
I3
Fact. 3 : 14,99%
-1,0
-1,5 I2
I10
-2,0
-2,5
-3,0
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
Active
Fact. 2 : 16,96%
1,0
0,5
TAI
0,0 VIT
LEG
DET
Fact. 2 : 16,96%
STA
-0,5
PAS
-1,0
1,0
STA
0,5
VIT
LEG TAI
DET
0,0
Fact. 3 : 14,99%
PAS
-0,5
-1,0
2) Examen du nuage de points : quels sont les sujets dont l'inertie est la plus forte ? Quels sont ceux dont
l'inertie est la plus faible ?
b) Citez deux sujets qui sont bien reprsents par leur premire composante principale. Quels sont les
deux sujets les plus mal reprsents par cette composante ?
4) a) Quelles sont les variables les plus fortement corrles avec la premire composante principale.
Interprtez cette composante l'aide de ces variables.
1) Saisir les donnes dans Statistica sous une forme convenant la ralisation d'une analyse en
composantes principales..
2) Ralisez une analyse en composantes principales norme, sur les 4 variables Comb, Prob, Logi et
Math.
Dterminez notamment la matrice des corrlations, les valeurs propres, les scores, contributions et
qualits des individus sur les deux premires composantes, les coefficients des variables et les saturations,
contributions et qualit des variables (2 premires composantes). Ralisez le graphique des individus et
celui des variables par rapport aux deux premiers axes principaux.
Adaptation dun document de F.-G. Carpentier - 2006 25
3) Examiner et commenter le tableau des corrlations.
4) Les variables Comb et Proba apparaissent proches sur le graphique. Quel est pourtant leur coefficient
de corrlation ? Comment peut-on l'expliquer ?
5) Les points s8 et s14 apparaissent trs proches sur le graphique. Est-ce le cas dans la ralit ? Mme
question pour s9 et s15.
6) Comment les variables contribuent-elles la formation de l'axe CP1 ? Comment cet axe classe-t-il les
individus ?
7) Comment les variables contribuent-elles la formation de l'axe CP2 ? Dcrire cet axe en termes
d'oppositions entre variables, en termes d'oppositions entre individus.
8) a) Ralisez le graphique des individus en tiquetant les points l'aide des modalits de la variable
Pdagogie, puis en tiquetant les points l'aide des modalits de la variable Milieu. Interprtez les
graphiques obtenus.
b) Calculez les moyennes des variables observes dans les 4 groupes dfinis par les combinaisons de
modalits des variables Pdagogie et Milieu. Ajoutez ces moyennes comme observations supplmentaires
dans la feuille de donnes Statistica, puis reprenez l'ACP en dclarant ces valeurs comme individus
supplmentaires. Ralisez un graphique des individus affichant ces individus supplmentaires.
9) L'tude limite aux deux premires composantes vous parat-elle suffisante ? Comment souhaiteriez-
vous poursuivre cette tude ?
Le CESP (Centre d'tude des Supports de Publicit) a relev, dans son Enqute Budget-temps
Multimdia de 1991/1992 auprs de 17 665 personnes, des descripteurs de frquentation de divers mdias
(radio, tlvision, presse) et des temps d'activits quotidiennes (cf. Boeswillwald, 1992). Ont t
galement releves de nombreuses caractristiques socioconomiques, parmi lesquelles l'ge, le sexe,
l'activit, le niveau d'ducation, et le lieu de rsidence de ces personnes, ce qui a conduit crer 96
catgories en croisant ces divers critres.
Nous nous intressons seulement ici la sous-population des hommes actifs, soit 27 groupes qui seront,
pour cet exemple, les "individus". On cherche connatre les associations entre les temps consacrs
diffrentes activits par les "individus" observs et tudier les liens entre ces familles d'activits et les
caractristiques de base des individus.
L'tude originale se proposait d'tudier le lien entre les activits quotidiennes et la frquentation de divers
mdias (presse, radio, tlvision, cinma). Pour ce faire, elle faisait intervenir les caractristiques socio-
conomiques (variables nominales) et les habitudes de frquentation des mdias (variables numriques
continues) en tant que variables supplmentaires. Mais ces donnes ne sont pas prsentes ici.
Les 27 "individus" (qui sont en ralit dans le cadre de cet exemple des groupes d'individus) sont reprs
par un identificateur en 4 caractres:
- le 1er caractre est l'ge du groupe (1=jeune, 2=moyen, 3=g)
- le 2me caractre est ici toujours gal 1 (car il s'agit ici d'une slection d'hommes actifs)
On lit par exemple sur la premire ligne du tableau que le groupe '1111' (jeunes, actifs, peu instruits,
ruraux) consacre en moyenne par jour 463,8 minutes au "sommeil", 23,8 minutes des activits
regroupes sous la rubrique "repos", 107,3 minutes pour les "repas chez soi", etc.
Analysez ces donnes l'aide d'une ACP, en suivant la mthode d'interprtation qui a t indique en
cours.
N.B. Bien que la dcroissance des valeurs propres soit relativement progressive, on tudiera
essentiellement les deux premires composantes principales.
Crez des variables nominales supplmentaires Age, Niveau d'ducation, Catgorie d'agglomration et,
pour chacune d'elle, ralisez un graphe de projection des individus en utilisant comme tiquettes les
modalits de la variable. Essayez d'interprtez les graphes ainsi obtenus.
L'exemple qui suit est extrait d'une tude sur les relations qu'entretient le sommeil des mammifres avec
diffrents facteurs morphologiques et cologiques.
L'ensemble tudi est constitu des reprsentants typiques de 62 espces de mammifres varis, de la
taupe l'lphant, dcrits par 10 variables numriques. Chaque individu est d'abord caractris par des
mesures concernant le poids du corps en kilogrammes, le poids du cerveau en grammes, le nombre
d'heures de sommeil sans rve par jour, le nombre d'heures de sommeil avec rves, la somme des deux
types de sommeil, la dure de vie maximale en annes, et la dure de la priode de gestation en jours.
Trois indices ont t calcul :
- Un indice de prdation : 1= faible risque d'tre chass par un prdateur 5 = fort risque.
- Un indice d'exposition pendant le sommeil : 1= animal dormant dans une tanire trs protge, 5 =
animal trs expos aux prdateurs pendant son sommeil
Traitez ces donnes l'aide d'une ACP norme et interprtez les rsultats, en utilisant essentiellement les
rsultats relatifs aux variables, et les deux premires dimensions factorielles.
On observe que toutes les variables sont relativement bien reprsentes par les 2 premiers axes factoriels.
On observe galement qu'aucune variable n'a un rle dominant dans l'orientation des axes factoriels. Trois
groupes de variables apparaissent : un premier groupe concernant directement le sommeil, un deuxime
groupe de variables lies l'valuation du danger et un troisime groupe relatif aux caractristiques
physiques.
Le premier axe factoriel oppose le groupe "sommeil" aux deux autres groupes : les temps de sommeil les
plus longs sont observs chez les mammifres qui sont le moins en danger.
Le deuxime axe factoriel montre une autre opposition, moins forte, entre le groupe "danger" et le groupe
"caractristiques physiques" : il existe, globalement, une corrlation ngative entre la taille du mammifre
et le danger encouru.
L'lment le plus vident dans le diagramme de projection des individus est la position excentre des
individus 1 et 5 (lphants d'Afrique et d'Asie). Pour l'essentiel, l'examen du diagramme des individus
confirme l'analyse propose partir de l'examen des variables.
Reprenez alors l'tude en plaant dclarant ces deux individus comme individus inactifs.
1) Traitez ces donnes par une analyse en composantes principales norme, en plaant l'astrologie comme
individu supplmentaire.
Calculez notamment l'aide de Statistica le tableau des corrlations, celui des valeurs propres, les scores,
contributions et qualits de reprsentation des individus et les saturations, contributions et qualits de
reprsentation des variables.
Ralisez la reprsentation des individus et celle des variables dans le premier plan factoriel.
3) Etude du tableau des corrlations. Quelles sont les variables le plus fortement corrles entre elles ? Y
a-t-il des variables pratiquement non corrles ?
4) Etude des qualits de reprsentation dans le premier plan principal. Quel est l'individu le moins bien
reprsent par le premier plan principal ? Quel est l'individu le mieux reprsent ?
N.B. Les rsultats fournis par cette ACP ne constituent videmment en aucune faon un jugement de
valeur sur les disciplines cites. Les conclusions ventuelles peuvent tout au plus porter sur les opinions
des 11 sujets interrogs...
Il est galement possible de raliser l'ACP sur les covariances des variables de dpart, au lieu d'utiliser les
corrlations. Le poids d'une variable dpend alors de son cart type, alors que dans l'ACP norme, toutes
les variables ont le mme poids.
Cette possibilit n'est pas disponible dans la mthode "ACP la franaise" de Statistica. En revanche, on
peut l'utiliser en utilisant le module "Analyse factorielle" convenablement paramtr.