Академический Документы
Профессиональный Документы
Культура Документы
MI020AX
Statistique S6
2011 / 2012
Sommaire
p.3
p.351
Connectez-vous sur lENT La plateforme pdagogique IRIS est votre disposition. Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Universit Toulouse II-Le Mira - Service dEnseigne r ail e ement Dis stance Anne Un niversitaire 2011 / 2012 2
Sa abine Merciier
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Envoi pour le SED 3 anne de licence MIASHS MI020AX Analyse des donnes 1 me
Sabine MERCIER
Contact
Mercier Sabine
mercier@univ-tlse2.fr
Tel. : 05-61-50-46-11
Modalits dexamen
Une preuve crite de 1h30 sans document.
Envois prvus
Un seul envoi est prvu lheure actuelle. o Cette lettre ; o Du fascicule de cours : ce fascicule de cours comporte en plus du cours, des exemples corrigs, des noncs dexercices avec quelques corrections, et bien sur une bibliographie qui complte celle fournie dans cette lettre ; o Des annexes, comportant les photocopies dexemples tirs de livres, des fiches rsum , ainsi que des sorties logicielles ; o Du fascicule dinitiation au logiciel R correspondant au DAAP de L3 et qui vous permettra de vous familiariser avec le logiciel utilis par la suite avec les TP. o Du document de travaux pratiques utilisant le logiciel R. o Dun document comportant les noncs des partiels et examens des annes prcdentes. o Dun document comportant quelques corrections des partiels et examens. o Dun petit fascicule de rappels concernant des outils simples quil est important de connatre.
Conseil
Afin de ne pas sparpiller dans votre travail, voici quelques dmarches suivre. Commencez tout dabord par bien assimiler le chapitre des rappels dalgbre (premier chapitre du cours). Poursuivez par le chapitre sur lACP. Travaillez minutieusement lexemple du cours et rflchissez sur les travaux dirigs proposs. Vous pouvez ensuite faire quelques annales sur le sujet. Si le besoin sen fait ressentir, lisez le chapitre sur la rgression simple dans le fascicule de rappels. Afin daborder ensuite la partie travaux pratiques, il est indispensable deffectuer les exercices proposs dans le fascicule dinitiation R avant. Pour les chapitres suivants (AFC et AFCM), procdez de manire similaire : cours, TD, annales, TP, mais je pense quil est vraiment ncessaire de lire le fascicule de rappel sur le coefficient phi et le test du Chi-deux dindpendance avant de commencer le travail proprement dit sur les AFC et AFCM.
Bibliographie
Georgin J.-P. (2002). Analyse interactive des donnes (ACP, AFC) avec Excel 2000, Thorie et pratique. PUR, Rennes. Jambu, M. (1999). Mthodes de base de l'analyse des donnes. Collection Technique et Scientifique des Tlcommunications, Eyrolles. Saporta, G. (1990). Probabilits Analyse des Donnes et Statistique. Editions Technip, Paris. Bouroche, J.-M. et Saporta, G. (2002). Analyse des Donnes. Que saisje, PUF, Paris.
Contents
I Cours et noncs des exercices e e
. . . . . distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
11 11 11 14 15 16 17 18 18 18 18 19 19 21 21 21 22 23 23 23 23 27 28 28 28 29 29 29 32 32 33 33
1 Rappels dalg`bre linaire e e 1.1 Espaces euclidiens et gomtrie . e e 1.1.1 Norme, produit scalaire et 1.1.2 Projection . . . . . . . . . 1.1.3 Esprance conditionnelle . e 1.2 Elments propres, diagonalisation e 1.3 Variables multidimensionnelles . 1.4 Autres rappels divers et utiles . . 1.4.1 Transpose . . . . . . . . e 1.4.2 Trace . . . . . . . . . . . 1.4.3 Dterminant . . . . . . . e 1.4.4 Inverse . . . . . . . . . . . 1.4.5 Rang . . . . . . . . . . . .
2 LA.C.P., Analyse en Composantes Principales 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Premi`res notations . . . . . . . . . . . . . . . . . e 2.1.2 Applications . . . . . . . . . . . . . . . . . . . . . 2.1.3 Objectif . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Principe de lACP . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Approche image de lACP : vache ou cheval ? . . e 2.2.2 Maximiser la dispersion . . . . . . . . . . . . . . . 2.3 Choix de la dimension . . . . . . . . . . . . . . . . . . . . 2.3.1 R`gle du coude . . . . . . . . . . . . . . . . . . . . e 2.3.2 Pourcentage de la variance ou part dinertie . . . . 2.3.3 R`gle de Kaiser . . . . . . . . . . . . . . . . . . . . e 2.3.4 Exemples . . . . . . . . . . . . . . . . . . . . . . . 2.4 Reprsentation des variables . . . . . . . . . . . . . . . . . e 2.4.1 Cercle des corrlations . . . . . . . . . . . . . . . . e 2.4.2 Qualit de reprsentation ou CO2 . . . . . . . . . e e 2.4.3 Interprtation du cercle des corrlations suite et n e e 2.5 Reprsentation des individus . . . . . . . . . . . . . . . . e 2.5.1 Nouvelles coordonnes . . . . . . . . . . . . . . . . e 3
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
4 2.5.2 Individus atypiques et supplmentaires e ACP gnralise du triplet (X, D, M ) . . . . e e e 2.6.1 ACP centre-rduite . . . . . . . . . . e e 2.6.2 ACP - cas gnral . . . . . . . . . . . e e Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
CONTENTS . . . . . . . . . . . . . . . . . . . . . . . . . 33 34 34 34 35 39 40 40 41 44 44 46 47 48 48 48 49 49 50 51 53 53 54 55 56 58 58 58 59 60 60 60 61 61 61 61 61 61 62 62
2.6
2.7
3 Analyse Factorielle des Correspondances 3.1 Prliminaires . . . . . . . . . . . . . . . . . . . . . e 3.1.1 Quelques dnitions . . . . . . . . . . . . . e 3.1.2 AFC et indpendance . . . . . . . . . . . . e 3.2 LAFC . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Principe . . . . . . . . . . . . . . . . . . . . 3.2.2 Reprsentations graphiques . . . . . . . . . e 3.3 Interprtation des rsultats dune AFC . . . . . . . e e 3.3.1 Choix de la dimension . . . . . . . . . . . . 3.3.2 Qualit et contribution . . . . . . . . . . . . e 3.3.3 Interprtation du diagramme simultan . . e e 3.4 Etudes de cas . . . . . . . . . . . . . . . . . . . . . 3.4.1 Exemple Dpots de Brevets . . . . . . . . e 3.4.2 Exemple Catgories Socioprofessionnelles e 3.5 Exercices . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
10
4 AFC Multiple 4.1 Codages, dnitions . . . . . . . . . . . . . . . . . . . e 4.1.1 Codage disjonctif et tableau de Burt . . . . . . 4.1.2 Rapport de corrlation . . . . . . . . . . . . . . e 4.2 Principe de lAFCM . . . . . . . . . . . . . . . . . . . 4.3 Reprsentation graphique . . . . . . . . . . . . . . . . e 4.3.1 Proprits des valeurs propres et nombre daxes ee 4.3.2 Reprsentation des variables . . . . . . . . . . . e 4.3.3 Reprsentation des individus . . . . . . . . . . e 4.4 Rsum et autres approches . . . . . . . . . . . . . . . e e 4.4.1 Approche de ce cours . . . . . . . . . . . . . . 4.4.2 Approche principale de Saporta [4] . . . . . . . 4.4.3 Utilisation du tableau de Burt . . . . . . . . . 4.4.4 Conclusion . . . . . . . . . . . . . . . . . . . . 4.5 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Les chiens . . . . . . . . . . . . . . . . . . . . . 4.5.2 Les pommes . . . . . . . . . . . . . . . . . . . . 4.5.3 Cancers du seins . . . . . . . . . . . . . . . . . 4.5.4 Les lms . . . . . . . . . . . . . . . . . . . . . . 4.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
CONTENTS
II
63
65 65 66 66 67 67 67 68 69 69 70 70 71 71 73 77 77 77 78 78 79 79 80 81 82
5 Correction de lACP Notes de partiels 5.1 Centrage des donnes . . . . . . . . . . . e 5.2 Choix des mtriques . . . . . . . . . . . . e 5.3 Calcul de V . . . . . . . . . . . . . . . . . 5.4 Diagonalisation de V . . . . . . . . . . . . 5.4.1 Premi`re mthode . . . . . . . . . e e 5.4.2 Seconde mthode . . . . . . . . . . e 5.4.3 Les vecteurs propres . . . . . . . . 5.5 Calcul des composantes C j . . . . . . . . 5.5.1 Retrouvons les proprits . . . . . ee 5.6 Dcomposition des variables . . . . . . . . e 5.6.1 Dans la base des C k . . . . . . . . 5.6.2 Dans la base des C k . . . . . . . . 5.6.3 Le cercle des corrlations . . . . . e 5.7 Reprsentation des individus . . . . . . . e
6 Correction de lAFC Partis politiques 6.1 Rappel des donnes . . . . . . . . . . . . . . . . . . . . . e 6.2 Prols lignes et colonnes . . . . . . . . . . . . . . . . . . 6.2.1 Matrice des prols lignes . . . . . . . . . . . . . . 6.2.2 Matrice des prols colonnes . . . . . . . . . . . . 6.2.3 Programmation R . . . . . . . . . . . . . . . . . 6.3 Prols dindpendance . . . . . . . . . . . . . . . . . . . e 6.3.1 Mthode 1 : dnition du prol dindpendance . e e e 6.3.2 Mthode 2 : prol moyen . . . . . . . . . . . . . e 6.4 Test du Khi-deux . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
11
7 Quelques corrections et dmonstrations e 85 7.1 Exercices sur lACP . . . . . . . . . . . . . . . . . . . . . . . . . 85 7.2 Exercices sur lAFC . . . . . . . . . . . . . . . . . . . . . . . . . 89 7.3 Exercices sur lAFCM . . . . . . . . . . . . . . . . . . . . . . . . 90 8 Annales 9 Liste des annexes volantes 93 101
CONTENTS
12
Part I
13
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
14
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Introduction
Ce document correspond au cours danalyse des donnes dispens aux tudiants e e e ` de licence 3eme anne de la li`re MIASHS (Mathmatiques, Informatique Ape e e pliques et Sciences Humaines et Sociales) du dpartement de Mathmatiquee e e Informatique de luniversit de Toulouse le Mirail. e En France, lexpression Analyse des Donnes recouvre les techniques utilises e e pour dcrire les grands tableaux. Ces techniques regroupent un certain nombre e doutils statistiques permettant de construire des supports et/ou des rsums e e de linformation an de faciliter linterprtation. e Parmi ces outils, ce trouvent les mthodes dites factorielles qui fournissent des e reprsentations graphiques sous la forme de nuage de points provenant de proe jections sur des plans choisis. Ces mthodes ont le gros avantage de traiter ` la e a fois les individus et les variables. Les mthodes factorielles que nous aborderons, sont lAnalyse en Composante e Principale, ou ACP ; lAnalyse Factorielle des Correspondances ou AFC; ainsi que lAnalyse des Correspondances Multiples qui fait lobjet du dernier chapitre de ce cours. Les mthodes factorielles que nous allons voir reposent toutes sur la diagonale isation dune matrice que nous dterminerons, suivant quil sagira dune ACP e ou autre. Sachez cependant quil existe dautres techniques ou approches que celles abordes dans ce cours, comme par exemple lanalyse canonique. e Quelques rappels dalg`bre linaire sont eectus dans le premier chapitre. Nous e e e aborderons ensuite le chapitre principale portant sur lACP. Les deux chapitres sur lAnalyse Factorielle simple (AFC) et Multiple (AFCM) qui suivent ensuite ne peuvent tre abords sans avoir assimil correctement le chapitre sur lACP. e e e Tout au long du document des exemples et exercices de cours sont proposs dont e le corrig est parfois fourni en annexes. Il est indispensable de les faire ou du e moins dessayer. Chaque chapitre comporte galement une section dexercices, e certes parfois plus diciles que les exercices de cours, mais qui apportent des notions complmentaires qui ne peuvent tre abordes faute de temps dans le e e e cours. Lensemble de ces notions sont tudies, travaux pratiques compris, sur e e une plage horaire de 25h. Le rythme est donc assez intense pour des notions pas toujours faciles au premier abord. Un travail personnel consquent est donc e ncessaire. Une bibliographie est propose ` la n du document an de vous e e a 9
15
10 y aider. Cependant, les approches et les notations, comme notamment celles de lAFC, di`rent souvent dun livre ` lautre et ne facilitent pas toujours les e a choses. Toutes remarques constructives tant sur le fond que sur la forme sont les bienvenues. Lortaugrae ntant pas mon fort, je remercie par avance votre ine dulgence et dautre part les personnes qui prendront le soin de mindiquer les erreurs rencontres. e Il me reste ` vous souhaiter bon courage ! a
16
Chapter 1
17
1.1
1.1.1
Norme
On appelle norme sur E toute application de E dans R+ vriant les proprits e ee de linarit : ( K) e e (x E) || x|| = | | ||x||
de sous-additivit (ingalit triangulaire, ou IT) : e e e (x, y E) ||x + y|| ||x|| + ||y|| de sparation : ||x|| = 0 (x = 0) e On parle parfois de mtrique ` la place de norme. e a 11
12
xk ||
i=1,...,k
||xk || .
Exercice 2 Montrez lingalit suivante e e | ||x|| ||y|| | ||x y|| . Exercice 3 Pour E = Rn , montrez que les applications suivantes sont des normes de Rn , avec x = (x1 , . . . , xn ) ||x|| = sup1in |xi | ||x||1 =
i=1,...,n
|xi |
||x||2 = ||x||q =
i=1,...,n
(xi )2
i=1,...,n
18
Produit scalaire On appelle produit scalaire sur E (et on crit ps sur E), toute application de e E E dans R qui soit bilinaire, symtrique et dnie positive (ou DP, ceste e e a `-dire < x, y > 0 et < x, x >= 0 x = 0E ). On note souvent < x, y > le produit scalaire de x et y. Soit (e1 , ..., en ) la base canonique de E. On appelle matrice associe au produit e scalaire < ., . >, la matrice dnie par Mij =< ei , ej >. e De mani`re rciproque, on parle de ps associ ` la matrice M pour le ps dni e e ea e par < x; y >M = x M y. A tout produit scalaire peut-tre associe une norme (on parle alors de norme e e euclidienne) dnie de la faon suivante e c ||x|| = < x, x > . Exercice 4 1. Soient 1 M = 2 3 x = (3, 2, 1) Calculer < x; y >M . et 2 3 1 1 1 2
y = (2, 2, 1).
13
2. Montrer que la matrice associe au produit scalaire < .; . >M est bien M . e Exercice 5 (Ingalit de Cauchy-Schwartz) Soient x et y dans E, on a e e | < x, y > | ||x|| ||y|| . Exercice 6 1. Montrez que lespace X 2 .dP < +}
des variables alatoires relles de carr intgrable est un espace vectoriel e e e e sur R. 2. Soit lapplication dnie de L2 (, A, P ) L2 (, A, P ) qui ` tout (X, Y ) e a associe X.Y dP . Montrez quil sagit dun produit scalaire. La norme associe est appele norme L2 . e e Quelques dnitions e On dit que deux vecteurs x et y sont M -orthogonaux si < x, y >M = 0, quun vecteur x est norm si ||x|| = 1, quun n-uplet (x1 , ..., xn ) de E est M -orthonore m si pour tout i et j dans {1, ..., n} < xi , xj >M = ij avec ij = 1 si i = j et e 0 sinon. Exercice 7 1. Soit x = (4, 5, 7) un vecteur de R . Normer ce vecteur pour la norme ||.||1 puis pour la norme ||.||2 . 2. Normer le vecteur x = t(1, 3, 5, 6) de R4 ` laide de la norme dnie par a e I4 , avec (I4 )ij = 1 si i = j et 0 sinon, pour 1 i, j 4. Exercice 8 (Thor`me de Pythagore) Soit E un espace euclidien. Mone e trez limplication suivante x et y orthogonaux : (ie < x, y >= 0) ||x + y||2 = ||x||2 + ||y||2 . Cosinus On appelle cosinus de langle dni par les vecteurs x et y de E espace euclidien, e et on note cos(x, y), la quantit suivante : e cos(x, y) = < x, y > , ||x|| ||y||
3
19
avec ||.|| la norme associe au produit scalaire de E. e Distances On dnit une distance ` partir dune norme, de la faon suivante e a c d(x, y) = ||x y|| . On notera dM pour une distance relie ` la norme associe ` la matrice M . e a e a
14
Norme, produit scalaire et distance dnis ` partir dune matrice e a Soit M une matrice carre de taille n et dnie sur E, ayant les proprits e e ee suivantes Symtrique : M = t(M ) (autre notation M ), Mij = Mji i, j e Dnie positive : pour tout x dans Rn , x .M.x 0 avec lgalit qui e e e entraine x = 0. La matrice M dnie sur lespace E un produit scalaire, par e < x, y >M = x .M.y . Remarques : Les proprits de <, >M rsultent de celles de M . ee e Par symtrie du produit scalaire, on a e < x, y >M = x M y = y M x. On notera ||.||M la norme associe ` la matrice M : e a ||.||M = x .M.x et dM la distance correspondante. Exercice 9 Montrez que ||.||In = ||.||2 avec ||.||2 dnie ` lExercice 1. e a
20
1.1.2
Projection
Dnitions e Soit A un sous-espace vectoriel (sev) de E. Soit M une matrice symtrique et e DP. On peut trouver plusieurs dnitions de la projection M -orthogonale sur un e sous-espace vectoriel. Dnition 1 (Argmin) On appelle projecteur M -orthogonal de E sur A lape plication note PA de E dans A qui a tout lment x de E associe le vecteur y e ` ee de A tel que 2 y = argminzA ||x z||M . Le vecteur y est appel projection. e Dnition 2 (Matricielle) On dit quune matrice P est une matrice de proe jection M -orthogonale sur A si et seulement si P est carre de taille gale a la dimension du sev A, e e `
1.1. ESPACES EUCLIDIENS ET GEOMETRIE x E, le produit P.x A, x E, < P.x, x P x >M = 0. Exercice 10 1. Lapplication PA est idempotent, ie PA oPA = PA .
15
2. Toute matrice de projection P est idempotente, ie P.P = P . 3. Soit P une matrice. Montrer lquivalence suivante e (P est une matrice de projection M -orthogonale) (P est idempotente : P 2 = P et M -symtrique : P M = M P ) e Projection sur une droite On se place ici dans un espace ane (espace vectoriel point). Soit un axe e dirig par un vecteur u. Les coordonnes dun point x M -projet sur cet axe e e e sont donnes par la formule suivante : e Pu (x) =< x, do` u Pu (x) = (x M u) u u >M ||u||M ||u||M u ||u||M
2
21
1.1.3
Esprance conditionnelle e
Soit Y variable alatoire relle et X non ncessairement relle (ventuellement e e e e e qualitative). Dnition 3 (Esprance conditionnelle) On appelle esprance conditione e e nelle de Y sachant que X = x et on note E[Y |X = x] la quantit dnie par e e E[Y |X = x] =
y
y P [Y = y|X = x].
E[Y |X = x] est une fonction de x que lon notera (x). On dnit alors la e variable alatoire esprance conditionnelle note e e e E[Y |X] = (X) qui prend pour valeur E[Y |X = x] avec la probabilit P [X = x]. e Proprit 1 (Thor`me de lesprance totale) e e e e e E[E(Y |X)] = E(Y ).
16
Dnition 4 (Variance conditionnelle) e V ar[Y |X = x] = E (Y E[Y |X = x]) | X = x = (x). V ar(Y |X) = (X). Proprit 2 (Thor`me de la variance totale) e e e e V ar(Y ) = E[V ar(Y |X)] + V ar[E(Y |X)].
2
1.2
Soit A une matrice CARREE dordre p. Les vecteurs propres (nots Vp) de A sont dnis comme tant les vecteurs v e e e dirents du vecteur nul, tels quil existe une valeur de K vriant e e A.v = .v est appele la valeur propre associe ` v. Les valeurs propres dune matrice e e a A sont les racines, avec leur multiplicit, du polynme caractristique : e o e |A .I| = 0 o` |M | correspond au dterminant de la matrice M . u e Les applications statistiques auxquelles nous allons nous intresser dans la suite e du cours sintressent ` des matrices de type particulier : relles et symtriques e a e e ou bien M -symtriques qui admettent des proprits importantes. e ee Proprit 3 Toute matrice symtrique relle est diagonalisable. e e e e Exercice 11 Montrer que la matrice
22
1 M = 1 2
2 2 4
1 2 1
admet 0 pour valeur propre. Dterminer le vecteur propre associ. e e Proprit 4 (Dcomposition de cholevski) e e e Soit A une matrice symtrique, il existe alors une matrice U triangulaire e suprieure telle que : e A=U U .
17
1.3
Variables multidimensionnelles
Soit X =t (X 1 , ..., X p ) une variable multidimensionnelle, cest-`-dire ` valeurs a a dans Rp . On a E[X] =t (E[X 1 ], ..., E[X p ]) de taille p 1, V ar(X) = (Cov(X i , X j ))1i,jp . On distinguera alors X la variable alatoire p-dimensionnelle, et X la matrice de e taille n p, o` le premier vecteur colonne correspond ` lchantillon des donnes u a e e relatives ` X 1 , etc... Attention ` la dimension des dirents objets. Il faudra a a e tre prudent dans les chapitres suivants pour bien dterminer si lon parle de e e variables ou des valeurs observes ce qui dtermine les dimensions et donc le e e sens des produits matriciels et vectoriels. Les variables X j ne sont accessibles que par les donnes de lchantillon, aussi e e allons nous travailler sur les estimations empiriques, comme les moyennes em1 piriques X j = n i=1,...n xj , et V la matrice de variance-covariance empirique i de V ar(X). Les moyenne et variance empiriques peuvent scrire matriciellement de la faon e c suivante. E[X] = (1/n, ..., 1/n) X = 1/n t 1n X de taille 1 p, et V = V ar(X) = t (X E[X]) D (X E[X]) D=
1 n
23
V ar(X) = (Cov(Xi , Xj ))1i,jp est une matrice de taille p p avec pour diagonale les variances des Xj . Ces estimations peuvent galement scrire de la faon suivante : e e c j =< X j , 1n >D , X var[X j ] = ||X j X j ||2 , D V = Y .D.Y avec Y les donnes centres. e e Lquivalent de la proprit e ee V ar(a X) = a2 V ar(X) , avec X unidimensionnelle et a une constante est V ar(t a X) = t a V ar(X) a , avec a un vecteur colonne, V ar(X) la matrice de variance-covariance de X.
18
1.4
1.4.1
Soit A = (aij )1i,jn une matrice carre de taille n t(A) correspond ` la transe a pose de la matrice A. Elle peut galement scrire A . e e e Soit galement B une matrice carre de taille n n. On a e e
t
(A B) =t A t B.
1.4.2
Trace
T r(A) =
j=1
ajj .
T r(A) =
i=1
i .
24
La trace vrie les proprits suivantes : e ee T r( A) = T r(A) T r(A) = T r(A ) T r(A + B) = T r(A) + T r(B) T r(A.B) = T r(B.A) .
Cette derni`re galit reste vraie pour des matrices A et B de taille respective e e e n p et p n. Pour C une matrice de taille n p, on a aussi
n p
T r(CC ) = T r(C C) =
i=1 j=1
c2 . ij
1.4.3
Dterminant e
Soient A et B des matrices carres de taille n. On a alors e det(A B) = det(B A) = det(A) det(B). Supposons A et (i )i=1,...,n sesdiagonalisable valeurs propres. On a alors det(A) = n i i=1
1.4. AUTRES RAPPELS DIVERS ET UTILES det(A) = n det(A) det(A) = n aii pour A triangulaire ou diagonale. i=1 Pour M matrice 2 2 telle que M= alors det(M ) = ad bc. Attention det(A + B) = det(A) + det(B) . a c b d ,
19
1.4.4
Inverse
det(A1 ) =
25
.
=B
1 ad bc
d b c a
1.4.5
Rang
Soit A la matrice associe ` une application de Rp dans Rn . e a rang(A) = dim(Im(A)) 0 rang(A) min(n, p) rang(A) = rang(A ) rang(A + B) rang(A) + rang(B) rang(AB) min(rang(A), rang(B)) rang(BAC) = rang(A) si det(A) et det(B) = 0 rang(A) = rang(AA ) = rang(A A)
20
26
Chapter 2
Lanalyse en composantes principales permet de dcrire les grands tableaux de e donnes de variables quantitatives. e On demande ` ce que le nombre dindividus soit plus important que celui des a variables, n > p. En gnral, le nombre dindividus n varie de plusieurs dizaines e e a ` quelques milliers, et le nombre de variables p de quelques units ` quelques e a dizaines.
2.1.1
Premi`res notations e
Notons n le nombre dindividus tudis et p celui des variables statistiques e e relles qui nous intressent et qui seront notes Y j (j = 1, ..., p). On suppose e e e les n individus aects des poids wi : e (i = 1, ..., n) (wi > 0) et
i=1,...,n
wi = 1 .
Les direntes valeurs observes sont regroupes dans une matrice de taille np e e e que nous noterons X = (xj )1in ; 1jp . Chaque ligne de la matrice corresi pond aux direntes valeurs observes pour chaque variable pour un individu ; e e de mme, chaque colonne correspond aux valeurs prises pour tous les individus e pour une variable. 1 x1 . . . x p 1 . . . . X= . . . x1 n ... xp n On notera (X j )j=1,...,p les p variables et (Xi )i=1,...,n les n individus. On distinguera la matrice X, matrice des observations de taille n p, de la variable 21
22 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES p-dimensionnelle X =t (X 1 , ..., X p ) ` valeurs dans Rp . Les variables centres a e seront notes Y j avec e Y j = X j E[X j ]. n j e En notant xj = x /n la moyenne empirique de la variable X j sur lchani=1 i
tillon des n individus on aura pour matrice des donnes centres e e 1 1 . . . xj xj . . . xp xp x1 x 1 1 j . . . . . . . Y= = xi xj . . . 1in;1jp 1 1 . . . xj xj . . . xp xp x x
n n n
Autre remarque portant sur le type des variables Lanalyse en composantes principales (ACP) portent sur des donnes dont les e p variables tudies sont quantitatives. Si pour chaque individu on tudie deux e e e variables toutes deux qualitatives, loutil utilis sera lAnalyse Factorielle des e Correspondances (AFC). Et si les variables sont plus de deux et toute qualitatives, se sera lAnalyse Factorielle des Correspondances Multiples (AFCM).
2.1.2
Applications
Durant tout ce chapitre, la technique danalyse en composantes principales sera illustre par deux exemples. Le premier, Les notes de partiels, est un exeme ple dcole qui nous permettra deectuer les dirents calculs ` chaque tape e e a e sans passer un temps trop important aux calculs : X est de taille n p = 5 3. Lautre exemple correspond aux moyennes sur 10 ans des tempratures e moyennes mensuelles de 32 villes franaises, o` la matrice des donnes X est de c u e taille 3212. Nous neectuerons pas ` la main les calculs portant sur lexemple a des Tempratures tant donnes les dimensions de la matrice X mais nous e e e nous reporterons sur les sorties logiciels de SPSS et de Splus. Notes de partiels Voici cinq tudiants : Anne, Bill, Chlo, Dave et Eva dont leurs notes aux trois e e partiels sont respectivement (notation sur 5 !) Anne : 0, 1 et 0, Bill : 2, 0 et 2, Chlo : 0, 2 et 5, e Dave : 4, 2 et 4, Eva : 4, 5 et 4. Exercice 12 (Notes de partiels) Ecrire X puis centrer les donnes. En de e duire que 2 1 3 0 2 1 2 . Y = 2 0 2 0 1 2 3 1
28
23
2.1.3
Objectif
On souhaite ici ` partir dun ensemble de valeurs trop nombreuses pour tre a e considres une ` une et/ou visualiser dans leur ensemble, prciser linformation ee a e principale contenue dans ces donnes, en dgager la signication statistique. e e
2.2
2.2.1
Principe de lACP
Approche image de lACP : vache ou cheval ? e
Prenons un nuage de points dans lespace. On se ram`ne donc ` ltude dun e a e certain nombre dindividus et de trois variables. Si le nuage est tr`s compacte, e alors sa variance est petite, et il est alors dicile de distinguer des groupes, des individus qui se dtachent, ou une forme du nuage qui nous am`nerait ` mettre e e ae des hypoth`ses sur les relations entre les variables. A linverse, un nuage clat e e e nous permettra dy voir plus clair. Prenons par exemple un cheval que nous souhaitons photographier. On sintrese se au contour qui forme la bte. Chaque point de son contour est dsign par e e e ses coordonnes dans lespace ` trois dimensions (x, y, z). Sur la photo, les e a contours de lanimal devront tre rduit ` deux dimensions. La question est e e a : quelle prise de vue rendra le mieux compte de lanimal ? Choisir une prise de vue correspondra ` choisir un nouveau rep`re ` deux dimensions, suivant a e a que lon se placera devant, derri`re ou au-dessus de lanimal et dans quelle e direction lon va regarder, droit devant, un peu vers le haut (choix des axes du rep`re). Clairement, les choix ne sont pas quivalents. Photographier le cheval e e de derri`re (en ne connaissant que les contours) ne me permettra pas de savoir e sil sagit dun cheval ou bien dune vache ! Une photo de ct le permettra oe beaucoup mieux. Cest ce quillustre lannexe intitule A1 : Vache ou cheval. e
29
2.2.2
Maximiser la dispersion
Le principe de lanalyse en composantes principales va consister ` dterminer de a e nouvelles variables correspondant aux axes de notre nouveau rep`re, (C k )1kp . e Nous ne retiendrons quun nombre plus restreint car on souhaite se limiter ` a linformation susante et ` pouvoir la visualiser sur des graphiques. Construites a a ` partir des variables initiales, ces nouvelles variables devront scrire comme e combinaison linaire des variables tudies, les (X j )j=1,...,p , (comme dans tout e e e changement de rep`re) cest pour cette raison que lACP fait partie des outils e dit linaires. Les nouvelles variables devront galement porter le maximum e e dinformation contenue dans les donnes tudies, cest-`-dire avoir une variance e e e a la plus grande possible (les points doivent tre le plus disperss pour distinguer e e les formes !). Premi`re composante principale et thor`me fondammental e e e Commenons par chercher une premi`re combinaison des X j que lon notera c e C 1 . Soit le vecteur colonne a1 = t ((a1 )1 , ..., (a1 )p ) lment de Rp . On notera C ee
aj X j =t a X =t X a
avec X =t (X 1 , ..., X p ) la variable p-dimensionnelle. C est une variable unidimensionnelle. En fait, on travaille sur les variables centres cest-`-dire les e a Y j = X j E[X j ] , et on note Y = X E[X] , avec E[X] =t (E[X 1 ], ..., E[X p ]). On a donc C =t Y a =t (X E[X]) a , et on souhaite trouver le vecteur a qui maximise la variance de C. a = argmaxRp V ar(t Y ) .
30
Remarque Centrer les variables ne change pas le probl`me car e V ar(Z + cste) = V ar(Z) . On sait que maximiser cette quantit admet une innit de solution aussi e e impose-t-on que les aj soient lis : on pose a vecteur norm, ||a||2 = 1, cest-`e e a dire j (aj )2 = 1. Notons C =t Y =t Y . Par dnition de la variance e V ar[C ] = V ar(t Y ) = V ar[t (X E[X]) ] . Or C =t (X E[X]) =t X t E[X], le premier terme tant une variable e unidimensionelle et le deuxi`me un rel. e e En utilisant la linarit de lesprance on obtient e e e E[C ] =t E[X] t E[X] = 0 .
2 On en dduit que V ar[C ] = E[(C E[C ])2 ] = E[C ] qui est bien un lment e ee de R. Dveloppons le carr, e e
25
[t (X E[X]) ]2
La variable t (X E[X]) tant unidimensionnelle, elle est gale ` sa transpose. e e a e On en dduit e E (t (X E[X]) )2 =t V ar(X) . La solution au probl`me de maximisation nous est donne par le thor`me suive e e e ant Thor`me 1 Soit V une matrice p p symtrique. Les vecteurs propres nore e e ms ak Rp qui maximisent ak V ak , sont les vecteurs propres associs ` la e e a plus grande valeur propre de V. Dmonstration : Remarque sur les dimensions, on a bien a V a qui est un e rel (matrice de taille 1 1). e a V a=
k=1,...,p
ak
l=1,...,p
Vkl al .
31
Vi0 l .al + (
k=i0
ak .Vkl .al
Vi0 l .al +
k=i0
Vki0 .ak
Vi0 l .al = 2.
l=1,...,p
Vi0 l .al
26 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES Il sagit donc doptimiser sous contrainte. Un moyen pour cela consiste ` utiliser a la mthode des multiplicateurs de Lagrange qui conduit ` direntier f (a) = e a e a .V.a .(a .a 1) et qui nous donne 2.V.a 2..a. On cherche donc a tel que 2.V.a 2..a = 0 a .a 1 = 0 ce qui implique a .V.a = et V.a = a. Do` le rsultat. u e En pratique, on travaillera avec une estimation de V ar(X), la matrice de variance covariance empirique que nous notons V . Dnition 5 Soit C 1 =t Y.a1 avec a1 un vecteur propre norm associ ` la plus e e ea grande valeur propre 1 de la matrice V ar(X) et Y la variable p-dimensionnelle. La variable C 1 est appele la premi`re composante principale. e e Le vecteur a1 de Rp est appel premier vecteur principal. e Proprit 5 On a E[C 1 ] = 0 et V ar(C 1 ) = 1 . e e Exercice 13 (Notes de partiels) 1. Dnir lespace des individus et celui des variables. (Quelles sont leur e dimension respective.) 2. Dnir les mtriques de chacun des espaces, que lon notera M pour e e lespace des individus et D pour celui des variables. 3. Donner X1 et dire ce quil reprsente. De mme pour X 3 . e e 4. Etablir la matrice V puis chercher ses valeurs propres et vecteurs propres associs que lon prendra soin de normer. e 5. En dduire la premi`re composante principale C 1 et calculer les valeurs e e prises par les individus pour cette nouvelle variable. 6. Vrier que E[C 1 ] = 0 et que V e ar[C 1 ] = 1 . Composantes et vecteurs principaux De la mme faon nous dnissons les autres C j qui vont dnir les autres axes e c e e dun nouveau rep`re. e C j = Y .aj , avec les aj vecteurs propres norms associs aux valeurs propres j de V ar(X). e e Les C j sont appels les deuxi`me, troisi`me, etc ... composantes principales et e e e de mme les aj les vecteurs principaux. e Dnition 6 Les C j en tant que vecteurs de lespace Rn sont galement appels e e e les vecteurs directeurs des facteurs principaux et les aj en tant que vecteurs de Rp sont aussi appels vecteurs directeurs des axes principaux. e Le sev de Rn engendr par (C 1 , ..., C k ) est appel espace factoriel. e e Le sev de Rp engendr par (a1 , ..., ak ) est appel espace principal. e e
32
27
Remarques Les j , aj , et C j ntant pas accessibles directement, ils seront estims par les e e valeurs propres j , les vecteurs propres aj associs ` j de V la matrice de e a variance-covariance empirique, et par C j =t Y aj . Matriciellement C j est j = Y aj avec Y la matrice des observations centres. calcule par C e e Quen est-il des proprits de ces estimateurs ? Retrouve-t-on les proprits des ee ee Cj ? An de simplier la notation et lcriture, nous nutiliserons plus lcriture des e e j j estimations (le chapeau) mais directement C , a , etc... ` la place de C j , aj , a etc... Questions 1. La dnition des C j rpond-elle ` notre besoin ? e e a 2. Quelle est la dimension de ces sev ? 3. Montrez que Cov(C j , C l ) = 0 pour j = . 4. Que se passe-t-il lorsque les valeurs propres sont multiples ? 5. Combien il y a-t-il de composantes principales en tout ? Notons que V = V ar(X) tant une matrice symtrique relle, elle est donc e e e diagonalisable. Exercice 14 (Notes de partiels) Dterminer les C j restant (j = 2 et 3), et e montrez les galits suivantes e e Eemp [C j ] = 0 V aremp [C j ] = j Covemp [C j , C l ] = 0 pour j = .
33
2.3
Choix de la dimension
Lobjectif tant de visualiser les donnes dans un rep`re qui le permette (deux e e e a ` trois dimensions, plus rarement quatre ou plus) nous nallons pas continuer ` a travailler avec les p nouvelles variables (C j )j=1,...,p mais seulement une partie dentre elles qui totalisent une partie susante de linformation. Evidemment, de part la dnition mme des C j les composantes choisies seront C 1 , C 2 , ..., C K e e et le choix revient en fait ` dterminer K, le nombre de composantes retenues. a e Nous devons obtenir le maximum dinertie (le maximum dinformation) avec le minimum de facteurs (rang minimum). La qualit des estimations de lACP e dpend du choix de K. e Pour rpondre ` cette question, il nexiste pas de mthode systmatique, mais e a e e de nombreux crit`res de choix sont proposs. Nous nous contenterons de trois e e dentre eux que lon appelle Pourcentage de la variance ou Part dinertie, R`gle du coude et R`gle de Kaiser. e e
2.3.1
R`gle du coude e
Elle consiste ` reprsenter les valeurs propres en fonction de leur rang : cest-`a e a dire de mani`re dcroissante, 1 , 2 , . . . Ce diagramme est appel lboulis des e e e e valeurs propres ou encore le Scree-graph. La ligne brise reliant chacune e des valeurs est bien sr dcroissante. Il arrive que lon observe une cassure u e ou une rupture dans la pente qui devient nettement moins importante (plus horizontale). En gnral, dans un objectif de description des donnes (et de visualisation) on e e e dpasse rarement quatres facteurs slectionns, ceci pour un probl`me dintere e e e prtation. Dans un but de recodage ou de simple compression des donnes, on e e peut sautoriser un choix de dimension plus grand.
2.3.2
Linertie globale I du nuage de points (des individus) nous est donne par e I=
i=1,...,n
wi ||Xi X||2 =
i=1,...,n
M ||Xi X||2 ,
avec
M =
w1 .. 0 .
0 wn
34
I = T r(V ) =
j=1
V ar(X j ) ,
avec V la matrice de variance-covariance des (xj ). i La qualit de la reprsentation retenue peut-tre mesure par le pourcentage de e e e e linertie explique : e K K k k = k=1 . pK = k=1 p I k=1 k On demande ` ce que pK soit suprieur ` une valeur seuil souvent xe ` 80%. a e a e a Exercice 15 (Notes de partiel) Calculer les pourcentages dinertie des troix axes. Commenter.
2.3.3
R`gle de Kaiser e
La r`gle de Kaiser consiste ` ne retenir que les axes dont le pourcentage de e a variance est suprieur ` p . En eet, il existe en tout p axes. Si tous avaient e a 1 la mme importance, linformation serait rpartie de mani`re uniforme. Ne e e e
29
retenir que les axes de pourcentage dinertie suprieure ` p , cest conserver les e a 1 axes ayant plus dinformation quil nest attendu. On pourra se reporter ` lannexe A2 :Powerpoint de lACP pour les aventages a et inconvnients des trois mthodes proposes. e e e Cest souvent lensemble des crit`res qui sont utiliss plutt que lun dentre e e o eux, et il faut bien retenir le fait que ces crit`res ne sont en rien systmatiques. e e Prenons par exemple un axe portant 5% de variance et qui considr avec ee lensemble des axes prcdents totalisent 80%. Cet axe ne sera pris en compte e e que si on est capable de lui donner un sens et dinterprter les rsultats. e e
2.3.4
Exemples
Crimes aux Etats-Unis Cf. annexes A3 : Sorties SPSS Crimes aux USA. Cet exemple est tir du livre e de Jambu [3]. Budget de la France Cf. annexes A4 : Sorties SPSS Budget de la France. Les donnes sont extraites e du livre de Bouroche et Saporta [5]. Forsythia (cf. Travaux pratiques) La r`gle du coude nous indique de ne conserver que les deux premiers axes. Ils e totalisent ` eux deux 78% de la variabilit. Vouloir atteindre ici 80% na pas a e de sens ici, les 3 axes suivants tant tous de mme variance ` peu pr`s, lordre e e a e nest plus dailleurs vraiment assur, car il sagit destimations. e Voir les annexes A8 : TP ACP Forsythia pour visualiser les graphiques.
35
2.4
2.4.1
Nous allons dterminer les coordonnes des Y j dans cette nouvelle base. Nous e e avons matriciellement C j = Y.aj avec Y la matrice des observations centres, ou encore e Cj =
k=1,...,p
aj .Y k . k
30 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES Nous souhaitons crire les Y j en fonction des C j et plus prcisment des C j qui e e e j correspondent aux C norms. e 1 Les C k tant centrs, nous avons avec dans le cas gnral D = n In e e e e ||C k ||2 = ||C k E[C k ]||2 = V ar[C k ] = k , D D aussi Ck . Ck = k
j j e La coordonne du vecteur Y j =t (y1 , ..., yn ) sur laxe dirig par C k nous est e donne (voir Chapitre 1) par e
< Y j , C k >D
= = =
Or, Y D Y = V aremp [Y ] = V aremp [X] = V . De plus ak est un vecteur propre de V associ ` k . On a donc ea Y .D.Y.ak = V.ak = k .ak . Le vecteur Y j .D.Y tant la j`me colonne de Y .D.Y, on en dduit que e e e < Y j , C k >D = (k ak )j eme Proprit 7 Nous avons lgalit suivante e e e e Yj =
k=1,...,p elment e
36
= k .ak . j
< Y j , C k >D C k k ak .C k . j
k=1,...,p
Les variables Y j peuvent donc tre reprsentes dans le nouveau rep`re ore e e e thonorm (C 1 , ..., C p ) du sev de Rn . e En fait, plutt que de reprsenter les Y j , on va travailler sur les variables rduites o e e e correspondantes Y j = Y j /||Y j ||Rn et ceci pour une raison bien prcise. En eet, nous avons dj` vu que ea ||Y j ||2 n R = ||Y j ||2 D = ||X j X j 1n ||2 D n j (Xi X j )2 i=1 = n = V aremp (X j ) .
31
Yj
=
k=1 p
< Y j , C k >D k .C ||Y j ||D .||C k ||D < X j X j .1n , C k 0 >D k .C ||Y j ||D .||C k ||D Cov(X j , C k ) k .C X j .C k r(X j , C k ).C k ,
=
k=1 p
=
k=1 p
=
k=1
avec r(X j , C k ) le coecient corrlation des variables X j et C k . e Remarquons que de la Proprit 7 on tire, ee p k .ak j j Ck , Y = V ar(X j ) k=1 et que nous avons donc r(X , C ) =
j k
k ak j V ar(X j )
37
.
Proprit 8 La dcomposition des variables rduites dans la base des come e e e posantes rduites est e
p
Yj =
k=1
r(X j , C k ).C k .
Le graphique correspondant est appel la reprsentation des variables sur le cere e cle des corrlations et les coordonnes des variables sont toutes comprises entre e e 1 et 1. On a de plus,
p
r(X j , C k )2 = 1 .
k=1
(2.1)
Dmonstration : e On a dune part ||Y j ||2 = 1 et dautre part ||Y j ||2 = D D la derni`re galit de la proprit. e e e ee
p k=1
r(X j , C k )2 , do` u
Le cercle des corrlations va donc nous permettre de visualiser la corrlation des e e variables initiales avec les composantes principales ; on pourra donc, ` laide de a ce graphique, dterminer comment sont construites les composantes C k ` partir e a des X j et valuer la qualit de reprsentation de chaque X j dans le nouveau e e e rep`re choisi (espace de dimension plus petite). Cela fait lobjet des paragraphes e suivants.
2.4.2
Une variable X j aura une forte coordonne en valeur absolue sur le k-`me axe e e factoriel, si la corrlation de X j et C k est importante (cest-`-dire proche de 1 e a en valeur absolue). Gomtriquement, nous avons e e r(X j , C k ) = cosD (X j , C k ) . X j sera fortement reprsente sur le k-`me axe factoriel si le cosinus de langle e e e form par le vecteur X j et celui de C k est proche de 0. e Ainsi, une coordonne importante (proche de + ou 1) correspond ` une bonne e a qualit de reprsentation. e e Voir Annexe A5 : Projection sur le cercle de corrlation. e Le cercle des corrlations nous permet de visualiser comment a t construit e ee notre nouveau rep`re et quelles sont les variables dont une bonne partie de e linformation quelles contiennent a t retenue et celles qui au contraire ont t ee ee prises en compte que partiellement, voires ngliges. e e Etant donn le choix de reprsentation des variables, seules les variables dont e e lextrmit est proche du cercle unit seront bien reprsentes sur le plan 1-2 e e e e e (cf. 2.1). On devra donc se limiter ` linterprtation de ces variables. a e Exercice 16 (Notes de partiels) Caculer les coordonnes des variables dans e le cercle des corrlations. Faites le graphique correspondant. e Exercice 17 (Les tempratures) Retrouver en annexes A6 les rsultats nue e mriques correspondant aux cercles des corrlations. e e
38
2.4.3
On a vu prcdemment que le cercle des corrlations permet donc de visualiser e e e les variables qui contribuent le plus aux facteurs. Il permet aussi dtudier les e corrlations entre les variables. e Deux vecteurs orthogonaux sur le cercle des corrlations correspondent ` e a deux variables non-corrles ; deux vecteurs dextrmits proches, ` des variables ee e e a fortement corrles entre elles et de faon positive ; deux vecteurs dont les ee c extrmits sont places symtriquement par rapport ` lorigine, ` des variables e e e e a a fortement corrles ngativement. Ces observations pourront tre retrouves sur ee e e e la matrice des corrlations empiriques. e Lorsque lon observe un groupe dextrmits, cest quil existe un ensemble e e de variables fortement corrles entre elles. Il existent donc une redondance ee dinformation dans les variables choisies initialement. On pourra ventuellement e se limiter ` utiliser une variable reprsentative pour chaque groupe. a e On appelle facteur taille, un facteur (ou composante) o` les corrlations u e de toutes les variables sont de mme signe. On appelle facteur forme, un e facteur o` les variables ayant des corrlations positives avec ce dernier sont u e
33
opposes ` des variables ayant des corrlations ngatives avec ce facteur. (Voir e a e e lExercice 22) Voir annexe A7 . Exercice 18 (Reconstitution des X j : Notes de partiels) Calculer
3
aj C j ,
j=1
2.5
2.5.1
Les composantes principales forment de nouvelles variables qui donnent ` chaque a individu de nouvelles valeurs dans un espace de faible dimension (rarement plus de 4). On reprsente les individus dans les plans factoriels : 1-2, 1-3, etc... De e mme que pour la reprsentation des variables, il faut sassurer de la qualit de e e e reprsentation des individus avant de tirer des conclusions. e k Les coordonnes du i-`me individu sont donnes par les (Ci )k=1,...,K . e e e Dnition 7 On appelle contribution de lindividu i ` la composante C k , la e a quantit e k Ci . n.k Les individus ayant une forte contribution avec un axe sont donc ceux qui ont une forte coordonne sur cette axe : ce sont les points extrmes. Supprimer un e e individu isol et contribuant de mani`re importante ` un axe revient ` supprimer e e a a cet axe. Le nuage des points dans les plans factoriels peut ventuellement mettre en e vidence des groupes dindividus que lon peut tiqueter ` laide des interprtae e a e tions des dirents facteurs. e
39
2.5.2
LACP peut mettre en vidence des individus atypiques qui se dtachent du e e reste des individus. Dans ce cas lexistence de tels points parasite lanalyse en contribuant ` la cration daxes non reprsentatifs de lensemble des donnes a e e e : on saperoit que les autres individus sont alors placs proche de lorigine c e du rep`re. Il est ncessaire alors de recommencer lanalyse sans ces individus e e extrmes et de les projeter par la suite sur les plans factoriels de cette deuxi`me e e analyse. Exercice 19 (Notes de partiels) Considrons un 6-i`me l`ve dont les notes e e ee aux partiels sont X6 = (1, 1, 0). Dterminer les coordonnes de cet l`ve supe e ee plmentaire dans le nouveau rep`re des composantes principales. e e
2.6
Nous avons travaill jusque l` ` laide des mtriques M et D des espaces rese aa e pectifs des individus et des variables, inclus dans Rp et Rn , avec M = Ip et D = 1/n.In . Ce sont les mtriques les plus classiques. Cependant ce choix doit e tre adapt ` certaines situations. e ea
2.6.1
ACP centre-rduite e e
Il est frquent que les variables X j tudies soit de variance tr`s direntes. e e e e e Dans ce cas, la recherche de composantes de variance la plus leve correspondra e e souvent ` la variable dont la variance est la plus grande. a Pour palier ` ce probl`me, on va travailler sur les variables non plus centres, a e e mais centres-rduites qui sont alors toutes de variance gale ` 1. Cel` revient e e e a a en fait, ` travailler avec les variables centres et la mtrique M , diagonale avec a e e mjj = 1/V ar(X j ). Exercice 20 Montrez que rechercher les valeurs propres de V des variables centres-rduites, revient ` rechercher les vp de la matrice R de corrlation des e e a e variables centres mais non rduites. e e Exercice 21 Montrez que dans le cas dACP centre-rduite, la somme des vp e e est gales ` p. e a Au del` des probl`mes de variances tr`s htrog`nes, le probl`me des units de a e e ee e e e mesures peut galement tre rsolu avec lutilisation dune ACP rduite. e e e e
40
2.6.2
Dans le cas gnral de lACP du triplet (X, D, M ), on diagonalise la matrice e e Y DY M et pour ak les vecteurs propres M -orthonorms, les composantes prine cipales sont dtermines par C k = Y M ak . e e Pour la reprsentation des variables, reprenons les calculs eectus dans le cas e e j j de lACP classique. La coordonne du vecteur Y j =t (y1 , ..., yn ) sur laxe dirig e e par C k nous est donne (voir Chapitre 1) par e < Y j , C k >D = = = < Y j , C k >D ||C k ||D Y j D Ck ||C k ||D Y j D YM ak . ||C k ||D
2.7. EXERCICES et < Y j , C k >D = Or on a toujours ||C k ||2 = k . En eet, D ||C k ||2 D = C k DC k =t (ak )M Y DY M ak =t (ak )M (Y DY M )ak = t (ak )M k ak = k (t (ak )M ak ) = k (ak M ak ) = k ||ak ||M = k
35
Les coordonnes des variables dans le rep`re des composantes principales C k e e sont donnes par les lignes de SA avec S = diag( 1 , ..., p ) et A la matrice e dont les colonnes sont constitues des vecteurs ak . e Rsum e e ACP (X, D, M ) : on diagonalise Y DY M A et S ; les individus sont reprsents ` laide de Y M A, e e a les variables ` laide de AS. a
41
2.7
Exercices
Exercice 22 (ACP rduite et matrice de corrlation) On consid`re une e e e population quipondre de n individus sur lesquels on a relev p mensurations e e e e X 1 , ..., X p formant le tableau X ` n lignes et p colonnes. On supposera ce a tableau centr. Soit j lcart type de la variable X j ; D la matrice diagonale e e 1 diag(1 , ..., p ). Soit Z = XD le tableau des donnes centres rduites. On e e e note VX (resp. VZ ) la matrice de variance covariance relative aux donnes X e (resp. Z). 1. Montrez que VZ = D1/ VX D1/ = R avec R la matrice de corrlation de e X. 2. Montrez lquivalence suivante : v vecteur propre associ ` la valeur propre e ea pour la matrice VZ si et seulement si D1/ v est vecteur propre associ e ` pour la matrice D1/2 VX . a 3. On choisit comme mtrique de Rp la matrice D1/2 . En utilisant ce qui e prc`de, montrer que les deux ACP e e ACP (X, sont quivalentes. e 1 In , D1/2 ) n et ACP (Z, 1 In , Ip ) n
36 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES 4. On suppose de plus que tous les lments non diagonaux de R sont gaux ee e ` . Montrez que VZ admet un vecteur propre colinaire ` le vecteur a e a de Rp dont tous les lments sont gaux ` 1. En dduire que la premi`re ee e a e e composante principale dans lACP du tableau des donnes X est donne e e par 1 C 1 = (Z 1 + ... + Z p ). p 5. Que peut-on dire sur la deuxi`me valeur propre et sur lespace propre ase soci ? e 6. On suppose maintenant que = 1. Que peut-on dire des n individus ? Exercice 23 (Rezzouk, MIM2 juin 98) On consid`re une population de n e individus quipondrs sur lesquels on a mesur p variables numriques, formant e e e e e le tableau X ` n lignes et p colonnes. Soit V = (vij )1in,1jp la matrice de a covariance des donnes. e On suppose que, a tant un rel donn, V est tel que e e e
p
i
j=1
vij = a.
1. (a) Montrer que le vecteur de Rp dont toutes les coordonnes sont gales e e ` 1 est vecteur propre de V associ a la valeur propre a. a e` (b) On fait une ACP sur X, la mtrique sur Rp tant la mtrique Ip . e e e Exprimer la composante principale associe ` la valeur propre a en e a fonction des vecteurs colonnes de X que lon notera (xj )j=1,...,p . 2. On suppose maintenant que V scrive sous la forme suivante e axy x y x axy y y y a 2y avec a > 0, 0 < y < x et a x y x. (a) Dans le cadre de lACP cite prcdemment, dterminer les deux e e e e premi`res valeurs propres. e (b) Dterminer le facteur associ ` la deuxi`me plus grande valeur proe ea e pre. Quelle est la part dinertie explique par laxe 2 ? e (c) A quoi est gale linertie du nuage des individus par rapport au plan e engendr par les deux premiers axes factoriels ? e Exercice 24 (Petits calculs - partiel septembre 2006) Soit 3 individus prenant pour les variables X 1 , X 2 et X 3 les valeurs respectives suivantes Individu 1: (3, 5, 0) Individu 2: Individu 3: (5, 4, 6) (1, 3, 3).
42
2.7. EXERCICES 1. Dterminer les donnes centres que lon notera Y . (0,5 point) e e e
37
2. Calculer V la matrice de variance covariance (non corrige). (1 point) e 3. Montrer que 21 est valeur propre de la matrice V = 3V avec pour vecteur propre associ u = (4, 1, 9) . (1,5 points) e 4. En dduire les inerties et les vecteurs principaux de lACP non rduite des e e donnes. (2 points) e 5. Donner les coordonnes du premier individu sur les deux premi`res come e posantes. (2 points) Exercice 25 (Partiel juin 2000) (Source Louis Ferr) e On consid`re le tableau de donnes suivant e e X1 X = X2 X3 X4 X1 5 1 5 1 X2 X3 2 2 1 1 2 2 1 1
1. Calculer le tableau Y des donnes centres. e e 2. Calculer la matrice de variance-covariance V . 3. Eectuer lACP centre du tableau X. e 4. Reprsenter le scree-graph. e 5. Calculer les pourcentages dinertie cumuls. e 6. Dterminer les composantes principales. e 7. Dterminer le nombre daxes ` retenir. e a 8. Reprsenter les individus dans le premier plan principal. e 9. Calculer la contribution des individus aux axes. 10. Reprsenter les variables sur le cercle des corrlations. e e 11. Interprter le graphique des variables. e 12. Interprter la reprsentation des individus. e e 13. Calculer la matrice des corrlations de X. e 14. Eectuer lACP centre rduite de X. e e 15. Reprsenter le scree-graph. e 16. Prciser le nombre daxes ` retenir. e a
43
38 CHAPTER 2. LA.C.P., ANALYSE EN COMPOSANTES PRINCIPALES 17. Dterminer les composantes principales. e 18. Reprsenter les variables et les individus. e 19. Interprter les rsultats et comparer les avec ceux de lACP simplement e e centre. e 20. Donner la reconstitution de lindividu X2 , ` partir de lACP centr rduite. a e e
44
Chapter 3
45
3.1
3.1.1
Prliminaires e
Quelques dnitions e
Table de contingence - marges Les donnes obtenues lors de ltude dune population ` laide de deux varie e a ables qualitatives sont reprsentes sous la forme dun tableau ` n1 lignes et n2 e e a colonnes (ou inversement), chaque ligne correspondant ` une modalit dune des a e deux variables et chaque colonne ` une modalit de lautre variable. Chaque a e case (i, j) de ce tableau comporte le nombre dindividus possdant la modalit e e i pour la premi`re variable et j pour la seconde : e T = (nij )1in1 ;1jn2 . La table de contingence de notre exemple des catgories socioprofessionnelles e est fournie en annexe A16 :CSP table de contingence. Les nij sont appels les e eectifs dits conjoints.
Remarque Les tables de contingence sont le rsultat de ce quappellent les praticiens des e enqutes, les tris croiss. e e La somme des eectifs des lignes et des colonnes, notes respectivement n.j et e ni. sont appeles les marges en colonnes et les marges en lignes. Elles sont e reprsentes dans le tableau ci-dessus dans Total. Nous avons e e ni. =
i j
46
n.j = n,
avec n la taille de la population tudie. e e On note galement e fij = nij n f.j = n.j n et fi. = ni. , n
les frquences conjointes et frquences marginales. e e Prols lignes et colonnes Les marges associes aux lignes tant ramenes ` 100, on appelle tableau des e e e a prols-lignes, P L, le tableau correspondant aux frquences conditionnelles e (P L)ij = nij /ni. = fij /fi. , et de mme pour le tableau des prols colonnes, P C, e (P C)ij = nij /n.j = fij /f.j .
3.1. PRELIMINAIRES On notera P Li le i-`me prol ligne (la i-`me ligne de P L) e e P Li = (ni1 /ni. , . . . , nin2 /ni. ) = (fi1 /fi. , . . . , fin2 /fi. ), et P Cj le j-`me prol colonne (la j-`me colonne de P C) e e P Cj = (n1j /n.j , . . . , nn1 j /n.j ) = (f1j /f.j , . . . , fn1 j /f.j ).
41
Exercice 26 (Ecriture maricielle 1) En notant F = T /n, la matrice des frquences conjointes et D1 et D2 les matrices diagonales suivantes de taille e respective n1 n1 et n2 n2 f1. f.1 .. .. D1 = et D2 = . . fn1 . montrer que lon a
1 1 P L = D1 F et P C = D2 F
f.n2
o` rappelons-le, F correspond ` la transpose de F . u a e Lanalyse du tableau des prols lignes permet de rpondre ` la question : quelles e a tudes poursuivent les enfants dont le p`re ` telle ou telle catgorie de profession. e e a e Alors que le tableau des prols colonnes permet de rpondre ` la question : e a quelles sont les origines sociales des tudiants de telle ou telle li`re. e e Exercice 27 (Partis Politiques) Calculer les eectifs marginaux des variables PARTIS et NATION dont la table de contingence est la suivante avec en colonne les trois partis politiques et en ligne les cinq pays. 5 11 8 23 29 7 23 13 15 . 4 2 0 13 11 2 Dterminer les prols lignes et colonnes. e Les rsultats des calculs sont disponibles dans lannexe A17 Sorties SPSS AFC e Partipolitiques.
47
3.1.2
AFC et indpendance e
Lorsque que la connaissance dune variable ne change pas les distributions conditionnelles de lautre variable, on parle dindpendance entre ces deux variables. e Notons x1 la i-`me modalit de la premi`re variable et x2 la j-`me modalit de e e e e e i j la seconde variable. P [X 1 = x1 i et X 2 = x2 j ] = P [X 1 = x1 i ] P [X 2 = x2 j ]
42 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES que lon peut aussi crire e pij = pi qj , avec pij la loi conjointe du couple que lon peut estimer par p = nij /n ij et pi = P [X 1 = x1 ] et qj = P [X 2 = x2 ] que lon peut estimer par i j pi = ni. /n et qj = n.j /n. Sous lhypoth`se dindpendance on sattend donc ` avoir e e a nij ni. n.j = n n n soit nij = ni. n.j . n
Dans le cas de lindpendance tous les prols lignes et colonnes sont identiques. e On a (dmonstration laisser en exercice) tous les prols lignes gaux au prol e e ligne suivant n.n2 n.1 , ..., ) = (f.1 , ..., f.n2 ) ( n n et tous les prols colonnes gaux ` e a ( n1. nn . , ..., 1 ) = (f1. , ..., fn1 . ) n n
48
que lon appellera respectivement le prol ligne et le prol colonne dindpende ance. Prol dcart ` lindpendance e a e On dnit la distance du Khi-deux entre deux prols lignes e P Li = (fi1 /fi. , . . . , fin2 /fi. ) et P Li = (fi 1 /fi . , . . . , fi n2 /fi . ) de la faon suivante c
n2
d2 2 (i, i ) =
j=1
1 f.j
fij fi j fi. fi .
avec la matrice D2 dnie dans lExercice 26. e De mani`re similaire pour les prols colonnes e
n1
d2 2 (P Cj , P Cj )
=
i=1
1 fi.
43
Le prol ligne dindpendance correspond aux prols lignes, tous identiques, de e la matrice des eectifs non pas observs (les nij galement nots nth ), mais dits e e e thoriques ou attendus sous lindpendance et que lon notera n ou ntheo . On e e ij ij a ni. n.j . n = ij n Exercice 28 (Prol ligne dindpendance) e Montrer que le prol ligne dindpendance est le vecteur P L = (f.1 , . . . , f.n2 ). e De mme, le prol colonne dindpendance correspond aux prols colonnes, e e tous identiques, de la matrice des eectifs attendus sous lindpendance. On a e P C = (f1. , . . . , fn1 . ). Reprsenter les distances du Khi-deux des dirents prols au prol dinde e e pendance respectif permet une premi`re analyse des correspondances entre les e deux variables. Exercice 29 (Partis politiques) Cacluler le prol ligne dindpendance pour e les donnes Partis politiques. Calculer la distance du Khi-deux entre le pree mier prol ligne et celui dindpendance. Faite de mme pour chaque prol ligne e e puis pour les colonnes. Test du Khi-deux dindpendance e Dnition 8 On appelle mesure du Khi-deux la valeur suivante : e 2 =
i j
49
avec nobs et nth les eectifs observs et thoriques pour chaque couple de modae e lits (i, j). e Leectif thorique, sous lhypoth`se dindpendance, tant ici gale ` e e e e e a obtient n n (nij i.n .j )2 2 = . ni. n.j
i j n ni. n.j n ,
on
Dans le cas de lindpendance, on a 2 = 0 et lon peut montrer que e 2 n. min{n1 1, n2 1}. Exercice 30 (2 et distance entre prols) Des dnitions prcdentes du e e e 2 et des distances du 2 entre prols-lignes et de mme pour les prols colonnes, e dduire que e
n1 n2
2 =
i=1
d2 1 (P Li , P L ) = D
n2
d2 1 (P Cj , P C ). D
j=1
n1
44 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES Il existe bien dautres mesures de dpendance comme le taux de Goodman ou e de Kruskal que nous naborderons pas ici. On montre que la mesure d2 est une ralisation dune variable alatoire D2 qui e e suit de faon approximative une loi du Khi-deux ` (n1 1).(n2 1) degrs de c a e libert. Cette loi est tr`s connue et tabule (cf. annexe A10 Table du Khie e e deux). Sous lhypoth`se dindpendance, le d2 est une ralisation dune loi du Khi-deux. e e e Si la valeur observe (ou calcule ` partir des observations) dpasse une valeur e e a e seuil, on rejettera lhypoth`se dindpendance. Noter que le test dindpendance e e e du Khi-deux ncessite que tous les eectifs thoriques soient suprieurs ou gaux e e e e a ` 5. Dans le cas contraire, on est parfois obliger de regrouper des modalits e quand cela a un sens, ou sinon de limiter ltude aux individus des modalits e e susamment reprsentes. e e Exemple 2 (Catgories Socioprofessionnelles CSP) Dans cet exemple, le e degr de libert est gal ` (9 1).(8 1) cest-`-dire 56. Le calcul de lcart ` e e e a a e a lindpendance donne d2 = 474, 7. Pour un seuil de 1% on obtient une valeur e critique de 83,5 pour une loi de 2 . On observe donc une valeur du Khi-deux 56 exceptionellement grande par rapport ` ce qui est attendu ; on remet donc en a cause notre hypoth`se de dpart. e e Ainsi, ltude nous permet de mettre en vidence une dpendance entre les deux e e e variables : il existe donc une liaison entre les tudes et lorigine socioprofese sionnelle des tudiants. Il va sagir maintenant de dterminer quelles sont ces e e liaisons : cest le rle de lAFC. o Exercice 31 (Partis Politiques) Calculer les eectifs conjoints des variables PARTIS et NATION dans le cas de lindpendance. En dduire la valeur e e du Khi-deux correspondant puis tester au seuil de 1% lindpendance des deux e variables. Comparer aux sorties logicielles et commenter. Les donnes sont e galement disponibles dans le chier Partipolitiques.sav. Les sorties logicielles e sont fournies en annexe A1 5.
50
3.2
3.2.1
LAFC
Principe
On a vu que lide consiste ` tudier la dirence entre lobservation du coue a e e ple (X 1 , X 2 ) et donc de la loi conjointe et ce qui devait tre dans le cas de e lindpendance, cest-`-dire e a pij = pi qj . Dans le cas o` lindpendance nest pas vrie il existe donc des interactions u e e e entre les direntes modalits des variables. Posons le mod`le suivant, o` les e e e u interactions sont supposes multiplicatives, et o` on les supposera ordonnes e u e
45
pij = pi qj +
k=1
sk uik vjk .
pij =
k=0
sk uik vjk ,
(3.1)
avec s0 = 1 s1 s2 ... sK . On note dautre part P , la matrice des probabilits conjointes e P = (pij )1in1 ,
1jn2
et D1 et D2 les matrices diagonales respectives D1 = diag(p1 , ..., pn1 ) et D2 = diag(q1 , ..., qn2 ). Proprit 9 Pour tout k = 1, ..., K, uk = (u1k , ..., un1 k ) est le vecteur propre e e 1 1 D1 1 -norm associ ` la valeur propre s2 de la matrice P D2 P D1 . e ea k Dmonstration : e Posons les contraintes suivantes
n1
i=1
1 k uik uik = k pi
n2
51
1 k vjk vjk = k , qj
et
j=1
qui correspondent ` supposer les vecteurs propres norms et orthogonaux suivant a e 1 la mtrique D1 . Soit vk = (v1k , ..., vn1 k ) et soit S = diag(s1 , ..., sK ). Notons e U la matrice dont les colonnes correspondent aux vecteurs uk et de mme V e pour les vk . Le mod`le donn en (3.1) correspond ` crire e e ae P = U SV . On en dduit e
1 1 1 1 P D2 P D1 = (U SV )D2 (V SU )D1 . 1 En utilisant les contraintes ci-dessus V D2 V = I, de l` a 1 1 1 P D2 P D1 = U S 2 U D1 .
On en dduit e
K 1 1 (P D2 P D1 )uk = j=1
jk s2 uj = s2 uk j k
CQFD.
46 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES LAFC une double ACP LAFC est donc une double ACP gnralise non centre qui ont en commun le e e e e nombre daxes et les valeurs propres :
1 1 ACP(X = P , D = D2 , M = D1 ), 1 1 ACP(X = P, D = D1 , M = D2 ).
qui ont galement leur valeurs propres en commun. e Estimation En pratique la matrice P des probabilits conjointes est estime par e e F = P = T /n la matrice des frquences conjointes avec T la table de contingence. Les parae m`tres du mod`le sk , uk et vk sont estims en eectuant les ACP non centres e e e e 1 1 1 1 de (F , D = D2 , M = D1 ) et de (F, D = D1 , M = D2 ). Exercice 32 Montrer que la double ACP des prols permet bien de retrouver le mod`le F = U S V . e
52
3.2.2
Reprsentations graphiques e
1 1 Dans lACP (F, D = D1 , M = D2 ) les modalits de la variable X 1 correspone 1 dent aux individus et elles sont donc reprsentes ` laide de F D2 V (cf. les e e a composantes principales C = Y M A en ACP) alors que les modalits de la varie able X 2 (les variables de lACP) sont reprsentes par V S (cf. dcomposition e e e des variables dans le rep`re des C k dans lACP). e En fait, on prf`re travailler avec les prols plutt que les lignes ou les colonnes. ee o 1 1 Cela revient donc ` reprsenter les prols lignes par les lignes de D1 F D2 V a e 1 et les prols colonnes par D2 V S.
On remarquera lors de ltude dexemples en travaux pratiques quen plus de e partager les valeurs propres, les reprsentations graphiques des deux ACP sont e identiques. (Vous pouvez par exemple eectuer un petit programme sous le logiciel gratuit R pour vous en convaincre.) Les prols lignes sont reprsents par les lignes de e e
1 1 = D1 F D2 V
(3.2)
3.3. INTERPRETATION DES RESULTATS DUNE AFC et les prols colonnes par les lignes de
1 = D2 V S.
47
(3.3)
Notons i la coordonne du i-`me prol ligne sur le -`me axe et j celle du e e e j-`me prol colonne sur le -`me axe. Les formules prcdentes nous donnent e e e e
n2
i =
t=1
1 i n1
et
n1
j =
t=1
1 j n2 .
Des galits (3.2) et (3.3), on dduit les formules suivantes dites formules de e e e transition ou encore formules quasi-barycentriques. Proprit 10 (Formules de transition) e e
1 = D1 F S 1 1 = D2 F S 1 .
53
Ce qui correspond ` a ik =
2 fit 1 tk sk t=1 fi.
et
jk =
Ces formules nous indiquent que sur un axe, les projections des points repre sentatifs dun nuage sont ` une dilatation pr`s les centres de gravit des proa e e jections des points de lautre nuage. Cest ce qui justie la reprsentation e simultane des deux nuages de points sur le mme graphique utilise par la e e e plupart des logiciels. Dautre part, on dduit la reprsentation barycentrique ` laide de et S ou e e a S et .
3.3
Comme le dit Jambu dans son livre [3], il nexiste pas une interprtation unique e des rsultats en analyse des donnes. Il parle mme de parall`le entre analyse e e e e des donnes et mdecine. e e Interprter cest donner un sens aux axes et dterminer les singue e larits de lanalyse. e
3.3.1
Choix de la dimension
Choisir la valeur K revient ` choisir la dimension retenue de la double ACP. a Remarquons bien que les deux ACP ont mmes valeurs propres et donc un e scree graph commun. Notons quici le pourcentage dexplication na pas de sens puisquil ny a pas de variables mais des prols lignes et des prols colonnes. Rappellons que les valeurs propres s2 correspondent ` des param`tres du a e k mod`le et que ces derniers sont ordonns et tous infrieurs ` 1. Si la premi`re e e e a e valeur propre est tr`s proche de 0 alors toutes les autres le seront galement. e e Ainsi lcriture du mod`le nous montre que lon est alors proche de lindpene e e dance ; eectuer une AFC na que peu dintrt dans ce cas. ee La r`gle du coude, conjugue ` lanalyse des valeurs propres, nous permettra de e e a retenir la dimension du mod`le. e
3.3.2
Qualit et contribution e
La qualit de reprsentation svalue ` laide des cosinus carrs appels galee e e a e e e ment contributions relatives. On a cos2 (i) = k 2 ki 2 l li cos2 (j) = k
2 kj 2 . l lj
54
Les modalits qui contribuent le plus : e Ctrk (i) = fi. 2 ik k Ctrk (j) =
2 f.j jk . k
3.3.3
Le diagramme simultan utilise la distance du Khi-deux. En eet on e montre que < P Li ; P Li >D1 = d2 (P Li , P Li ).
1
Deux prols lignes (resp. colonnes) similaires auront donc une reprsentae tion proche lun de lautre. Mais attention, linverse nest vrai que si les modalits sont bien reprsentes dans le plan factoriel retenu. Il est e e e donc important de vrier la qualit de reprsentation ` laide des cosinus e e e a carrs. e Plus les prols scartent de lindpendance et plus leur reprsentation e e e sera loin de lorigine. Les modalits qui contribuent le plus aux axes sont celles qui ont de fortes e coordonnes sur ces axes. e Proximit angulaire cas de deux modalits, une pour chaque variable: les e e modalits auront une liaison forte si leur reprsentation est proche ; elles e e seront proche de lindpendance si leurs reprsentations forment un angle e e droit (sous la condition dune bonne qualit de reprsentation). e e
49
On priviligiera les modalits susamment loignes du centre du graphie e e que (attention aux modalits ` faible eectif, cf. ci-dessous). e a Une association entre modalits de deux variables direntes est mise en e e vidence par la proximit de leur reprsentation. e e e Une association entre deux modalits dune mme variable met en vidence e e e le fait que les individus ayant choisi lune ou lautre de ces modalits ont e rpondu de mani`re homog`ne aux autres variables. e e e
3.4
3.4.1
Etudes de cas
Exemple Dpots de Brevets e
Vous trouverez dans le rpertoire Tpstat le chier Brevets.sav correspone dant au tableau de contingence simple qui comptabilise le nombre de brevets dposs, suivant le pays (9 pays dirents) et lanne (de 1980 ` 1986) (Source e e e e a : Exploration informatique et statistique des donnes de M. Jambu). Voir e annexe A11 Brevets les donnes. e On sinterroge sur lhomognit de lvolution du nombre de brevets et lexistene e e e ce dannes charni`res permettant de distinguer les dpots de brevets suivant e e e les pays. On va donc eectuer une AFC du tableau des eectifs croiss. Mais avant cela, e prenons connaissance des donnes en eectuant dirents graphiques reprsene e e tant les eectifs suivant les pays ou bien les annes et/ou les prols correspone dants. (Eectuez ces graphiques ` laide SPSS, ainsi que lAFC.) a Les graphiques attendus sont en annexe A12 Brevets les graphiques. Les rsultats de lAFC sont en annexe A13 Brevets lAFC. e Diagramme des valeurs propres Clairement, lboulis des valeurs propres nous indique quun seul axe rsume la e e plus grande part de linformation. Nous retiendrons donc deux axes (il serait dommage de nous limiter ` un seul axe) et interprterons des graphiques ` deux a e a dimensions. Diagramme des lignes et des colonnes En se rfrant ` la fois aux tableaux des contributions et de la qualit de ee a e reprsentation ainsi quau graphique de reprsentation des colonnes, on sapere e oit que les annes 80, 81 et 85 et 86 (les annes extrmes) contribuent fortement c e e e a ` laxe 1 et y sont tr`s bien reprsentes. Le premier axe reprsente (cf. les e e e e coordonnes des annes sur cet axe) lvolution moyenne du nombre de brevets e e e dposs de 80 ` 86. e e a
55
50 CHAPTER 3. ANALYSE FACTORIELLE DES CORRESPONDANCES Pour le second axe : ce sont les annes 84 ainsi que 82 et 83 qui contribuent e le plus (les annes centrales). Rappelons le fait que le deuxi`me axe naura pas e e la mme importance que le premier tant associ ` une valeur propre nettement e e ea plus faible que le premier. Cependant, il sera intressant de comprendre en quoi e lanne 84 se distingue des autres annes. e e Le deuxi`me axe est plus dicile ` expliciter, il conviendra de se reporter e a sur les graphiques des eectifs par anne. e Les USA, les Pays-Bas et la Su`de y sont mal reprsents. Le Japon e e e (coordonnes ngatives) est le pays qui a augment le plus de 81 ` 86, alors que e e e a la Suisse non (reportez-vous au graphique des eectifs par pays). On peut noter aussi que la RFA a peu progress malgr son nombre important de brevets. e e Le deuxi`me axe : Attention ` la Su`de qui est tr`s mal reprsente sur le e a e e e e plan 1-2, ainsi que les Pays-Bas. Ceux sont les USA qui contribuent le plus ` a cet axe de faon positive et la RFA de faon ngative. c c e An de mieux comprendre le rle de lanne 1984, reportez-vous aux graphiques o e du dbut danalyse. Si laxe 1 permet de distinguer les pays ayant le plus volu e e e de 81 ` 86, laxe 2 semble opposer les annes 84 et 82. Comparez le graphique a e dvolution de 82 ` 84 des nombres de brevets dposs de la RFA et des USA. e a e e USA : on remarque un ralentissement de laccroisement. RFA : on observe une brusque augmentation. Laxe 2 permet de mettre en vidence lanne 84 en tant quanne de rupture e e e permettant de sparer les pays ayant un lan supplmentaire dans lvolution e e e e du nombre des brevets des pays ralisant un ralentissement. e Rsum e e On distingue donc les pays ayant une forte augmentation globale de 81 ` 86 par a rapport ` lvolution moyenne : Japon, Italie, puis USA, Pays-Bas et Su`de, des a e e pays ne variant peu, comme la suisse puis la France, Grande-Bretagne et RFA. Et dautre part, on distingue les pays subissant un ralentissement de croissance en 84, Su`de, Pays-Bas, USA, ... de ceux ralisant une acclration comme la e e ee RFA ou le Japon.
56
3.4.2
Vous trouverez en annexes A14 CSP cart ` lindpendance et A15 CSP e a e reprsentation simultanne les sorties logicielles relatives ` lAFC des Catgoe e a e ries Socioprofessionnelles. Les donnes ainsi que les graphiques ont t tirs des e ee e documents de formation de lINRA. Le lien entre la reprsentation des prols lignes et colonnes avec les prols des e carts ` lindpendance respectifs est mis en vidence et permet de bien come a e e prendre linterprtation eectue. e e
3.5. EXERCICES
51
3.5
Exercices
Exercice 33 LAFC peut tre vu comme lACP du tableau des indices de lie aisons Y avec fij Yij = fi. f.j avec les mtriques D = diag(fi. ) = D1 et M = diag(f.j ) = D2 . e 1. Montrez que 1 est valeur propre associ au vecteur propre t (1, ..., 1). e 2. Retrouvez ces lments dans lcriture du mod`le de lAFC. ee e e Exercice 34 (Prols moyens et prols dindpendance) Soit e T = (nij )1iI,
1jJ
une table de contingence. On note n leectif total, ni. et n.j les eectifs marginaux. 1. Ecrire le i-`me prol ligne ` laide des nij et des eectifs marginaux. e a 2. Quel est le poids associ au i-`me prol ? e e 3. Dterminer le prol ligne moyen en prenant bien en compte quil sagit e dune moyenne pondre. e e 4. Rappeler quels sont les eectifs thoriques dindpendance et en dduire e e e les marges. 5. Quel est le i-`me prol relatif ` la table de contingence des eectifs thorie a e ques ? 6. Conclure. 7. Eectuer de mme pour les colonnes. e
1 Exercice 35 On consid`re lACP des prols lignes avec M = DJ et D = DI . e Montrez que lACP des prols lignes est quivalente ` lACP des prols colonnes e a (on dit quil y a dualit entre les deux analyses), les facteurs principaux dune e e analyse sont ` pr`s les composantes principales de lautres et les valeurs a propres tant les mmes. e e
57
Exercice 36 Montrez que lanalyse factorielle des correspondances pour X 1 et X 2 revient a chercher les valeurs propres et les vecteurs propres du produit des ` deux tableaux de prols associs au tableau disjonctif X = (X 1 |X 2 ) dni dans e e la Section 4.1.1.
58
Chapter 4
AFC Multiple
LAFCM est une gnralisation de lAFC simple o` les individus sont care e u actriss par plus de deux caract`res qualitatifs. On souhaite ici tudier les e e e e liaisons existantes entre direntes variables qualitatives. Lanalyse factorielle e des correspondances multiples est donc particuli`rement adapte ` ltude des e e a e rsultats denqutes possdant des questions ` rponses multiples. e e e a e Notez que les variables quantitatives peuvent tre regroupes en classes et tre e e e prises en compte dans une AFCM. Cette mthode permet deectuer une ACP e que lon qualie de non linaire. e Comme pour le cas de lAFC, lAFCM peut tre vue de mani`res direntes : en e e e tant quAFC du tableau de Burt, o` bien lAFC du tableau disjonctif complet, u ce que nous verrons plus loin. Bien sr, les rsultats dune AFCM eectue sur des donnes ne comportant que u e e e deux variables qualitatives seront quivalents ` ceux de lAFC simple. Notez e a cependant que lAFCM permet de conserver la notion dindividus, comme dans lACP, ce que ne permet pas lAFC simple.
59
4.1
Codages, dnitions e
Les variables qualitatives peuvent tre codes de direntes faons. Soit e e e c X k Ek = {x1k , ..., xmk k } une variable qualitative et (xik )i=1,...,mk ses mk modalits. Le codage linaire e e consiste ` aecter une valeur prise dans lensemble {1, ..., mk } ` chaque modalit. a a e Exemple 3 Pour chaque individu on rel`ve, un crit`re de soin dans lhabile e lement (peu de soin, normal, beaucoup de soin), le sexe, la zone dindice de 53
4.1.1
Le codage disjonctif complet ou binaire consiste ` associer mk indicatrices ` a a chacune des variables X k = (1(x1k ) , ..., 1(xmk k ) ) , avec 1(xik ) (x) = 1 si x prend pour modalit xik et 0 sinon. On obtient ainsi e un tableau que lon notera X ayant n lignes correspondant aux n individus et p m = k=1 mk colonnes avec p le nombre de variables qualitatives. Exemple 4 Dans notre exemple ci-dessus, le tableau disjonctif complet aura une taille de 3 + 2 + 3 = 8 colonnes pour 5 lignes individus. 1 0 0 0 ... 0 1 0 1 ... X = (X1 |X2 |X3 ) = 0 1 0 0 . . . . 0 0 1 0 ... 0 0 1 1 ... Proprit 11 e e La somme des lments de chaque ligne de X est gale ` ee e a p, le nombre de variables. La somme des lments dune colonne de X donne leectif marginal de ee la modalit correspondante. e La somme des colonnes de X relative ` une mme variable est gale au a e e vecteur colonne 1. Le rang de X est donc gale ` e a
p
60
mi p + 1 = m p + 1 .
k=1
Soit njk le nombre dindividus ayant pris la j-`me modalit de la k-`me variable. e e e Tous les individus ayant rpondu on a alors e
mk
k = 1, ..., p
j=1 n
njk = n .
jk Soit pjk = n le poids correspondant. Soit Dk la matrice diagonale des poids pjk et D la matrice dnie par blocs ` laide des Dk . e a
55
0 3
2 1 D3 = 0 5 0
0 2 0
0 0 1
1 0 0 0 2 0 0 0 2 2 0 0 3 2 0 0 0 2 0
D=
, 0 0 1
avec 0 pour les cases vides. Dnition 9 La matrice B dnie par B = X .X est une super table de e e contingence contenant toutes les tables de contingence que lon peut obtenir en croisant les variables deux par deux. La matrice B est appele tableau de Burt. e Elle est symtrique. e Exemple 6 Dans notre exemple prcdent, e e 1 0 0 0 1 0 2 0 1 1 0 0 2 1 1 2 0 B= 0 3 Les cases vides se dduisant par symtrie. e e Proprit 12 Les lments diagonaux de D sont ceux de B diviss par n. On e e ee e en dduit donc que e T r(D1 B) = m n , ce qui nous sera utile par la suite. nous avons 0 0 1 1 1 0 1 1 0 1 1 0 . 1 1 1 2 0 0 0 2 0 0 0 1
61
4.1.2
Rapport de corrlation e
On a vu dans le chapitre prcdent comment tudier la relation entre deux e e e variables qualitatives ` laide du test du Khi-deux et de lAFC. a Lorsque nous avons tudi les variables quantitatives, le coecient de corre e e lation linaire nous permettait de mesurer le degr de liaison linaire entre deux e e e variables numriques. e
56
On dnit le rapport de corrlation qui permet de mesurer le degr de liaison e e e entre variables qualitatives ou bien mixtes, ainsi que le degr de liaison non e linaire entre variables quantitatives. e Dnition 10 (Rapport de corrlation) Soit X et Y deux variables. On e e dnit le rapport de corrlation de Y en X par e e
2 Y /X =
Il correspond au cosinus carr de langle form par Y E[Y ] et L2 (voir chapitre e e X des rappels pour la dnition). e On se rapportera au chapitre sur les rappels pour lesprance et la variance e conditionnelle. Un exemple dapplication numrique est dvelopp dans le livre e e e de Saporta (Chapitre 3). Proprit 13 e e
2 1. 0 Y /X 1.
Y = (X) .
2 e 3. Si Y /X = 0, alors il y a absence de dpendance en moyenne
62
ps
4.2
Principe de lAFCM
Lobjectif de lAFCM va consituer ` trouver une variable quantitative rduite, a e note C 1 , qui soit une combinaison linaire des X k (codes et donc quantitatives) e e e la plus proche des X k . La proximit de cette variable sera value ` laide du rapport de corrlation. e e e a e On cherche donc a1 dans Rn , tel que C 1 = X.a1 et
p
2 (C 1 , X j )
k=1
soit maximal .
Thor`me 2 Le vecteur a1 est le vecteur propre V -orthonorm associ a la e e e e ` plus grande valeur propre de la matrice
p
V 1
k=1
V ar(E[X/X j ])
o` u
V = V ar(X).
Les autres composantes se trouveront de faon identique avec de plus lorthoc gonalit entre les direntes composantes : Cov(C j , C k ) = jk pour tout j et e e k.
4.2. PRINCIPE DE LAFCM Proprit 14 Toutes les valeurs propres sont comprises entre 0 et p. e e
57
1 On peut alors diagonaliser la matrice p .V 1 . k=1 V ar(E[X/X j ]), pour se ramener ` des valeurs propres entre 0 et 1 , ce qui ne change rien au reste. a p La matrice k=1 V ar(E[X/X j ]) est estime par e
1 X X D1 X X n2 et V par
1 n
pour obtenir les aj V -orthonorms et C j = Xaj . e LAFCM poss`de des proprits qui lui procurent un statut particulier et en e ee font lquivalent de lACP des variables qualitatives. e Remarque Lanalyse factorielle du tableau X revient ` chercher les valeurs propres et les a vecteurs propres du produit des deux tableaux de prols associs ` X. En eet, e a la somme de chaque ligne de X est gale au nombre de variables (une rponse e e par variable pour chaque individu). Les prols lignes sont donc donns par e P L = X/p. La somme de chaque colonne correspond au nombre de personne, njk , ayant choisi la modalit correspondante. Comme e D= 1 diag(njk ), n
63
Exercice 37 (ACP du tableau disjonctif ) Montrer que la recherche des composantes par la maximisation du rapport de corrlation revient ` eectuer lACP du tableau disjonctif avec comme poids e a D = In /n et comme mtrique M = D1 . e ACP (X, In 1 , D ). n
Exercice 38 (AFC et AFCM pour 2 variables) Soit X 1 et X 2 deux variables qualitatives. Montrez que lanalyse factorielle du tableau disjonctif X = (X1 |X2 ) revient ` crer des composantes similaires ` ceux crer par la double ACP des a e a e prols lignes et colonnes vue dans le Chapitre 3.
58
4.3
Reprsentation graphique e
Les r`gles dinterprtation sont globalement les mmes que pour une analyse face e e torielle des correspondances simple. Cependant, les valeurs propres ne peuvent pas tre interprtes comme une inertie. e ee Noter que la distance des reprsentations est celle du Khi-deux. e
4.3.1
Le rang de X tant gal ` m p + 1, alors les valeurs propres direntes de 0 e e a e et de 1 seront au nombre de q = m p. Dautre part, la somme des valeurs propres non triviales correspond ` la trace a (moins 1) de la matrice ` diagonaliser. a T r( nm m 1 D1 B) = = . np np p
64
On en dduit galement que la moyenne des valeurs propres est gale ` 1/p et e e e a lon peut montrer (cf. [4]) que le cas de lindpendance correspond ` des valeurs e a propres gales ` 1/p. e a Cette valeur peut dans une certaine mesure tre prise comme un seuil pour le e choix des axes. Attention cependant, car les valeurs propres ne dpendent pas des liaisons entre e les variables et na pas dans lAFCM de signication statistique.
4.3.2
Comme en ACP, il est possible de reprsenter les modalits des variables par e e leurs coordonnes dans la base des composantes principales rduites : on utilise e e 1 e e donc les vecteurs ak (vecteurs propres de n D1 B). La i-`me modalit de la j-`me variable aura pour coordonnes dans le plan 1-2 : (a1 , a2 ) avec l = e e l l j1 k=1 mk + i. Mais de mme quen AFC, on reprsente plutt les prols en divisant chaque e e o modalit par son poids ce qui revient ` utiliser les lignes de D1 .[a1 , ...amp ]. e a Linterprtation de la reprsentation des variables-modalits se fait de mani`re e e e e identique ` lAFC simple. Nous les rappelons ici. a Une association entre modalits de deux variables direntes est mise en e e vidence par la proximit de leur reprsentation. e e e
59
Une association entre deux modalits dune mme variable met en vidence e e e le fait que les individus ayant choisi lune ou lautre de ces modalits ont e rpondu de mani`re homog`ne aux autres variables (prol identique). e e e On priviligiera les modalits susamment loignes du centre du graphe e e ique (attention aux modalits ` faible eectif, cf. ci-dessous). e a Notez que la contribution de la variable X j ` laxe k, note Ctr(X j , C k ), est a e gale ` 2 (C k |X j ) e a Ctr(X j , C k ) = 2 (C k |X j ). La contribution dune modalit j de la question k ` linertie est donne par e a e njk 1 (1 ) p n avec njk le nombre dindividus ayant rpondu j ` la question k. e a La contribution de la question k ` linertie gale ` a e a 1 (mk 1), p avec mk le nombre de modalits de la question k. e On retiendra donc par consquent que la prsence de modalits rares risquent e e e de gner lanalyse (cf. contribution des modalits rares importantes) et que des e e questions ayant un grand nombre de rponses possibles par rapport aux autres e questions risquent de leur procurer une grande importance. On choisira donc si possible des variables ayant un nombre de modalits mk assez semblable et lon e gardera des modalits ` faible eectif que si loccurence de cette modalit est e a e un vnement important. e e
65
4.3.3
Les coordonnes des individus sur le k-`me axe sont fournies par e e C k = Xak . Les proprits de X (tableau dindicatrices), nous permettent de dire que la ee coordonne du i-`me individu sur le k-`me axe revient ` faire la moyenne simple e e e a des composantes du vecteur ak qui correspondent aux modalits choisies par e lindividu i. Deux individus ayant choisi globalement les mmes modalits seront proches sur e e la reprsentation graphique. e
60
4.4
4.4.1
On a dnit lAFCM de p variables qualitatives comme la recherche de variables e quantitatives C k qui maximisent le rapport de corrlation, ce qui revient ` e a chercher les vecteurs propres ak et les valeurs propres k de la matrice 1 D1 X X (p)n e les catgories tant alors reprsentes par les ak , XnX -orthonorms e e e e k k et les individus par les composantes C = Xa .
n On a galement vu que cela revient ` eectuer lACP de (X, In , D1 ), cest-`e a a dire diagonaliser la matrice 1 X XD1 n
dont les vecteurs propres z k = Dak sont D1 -orthonorms e correspondent aux coordonnes des catgories e e et les composantes C k = XD1 z k ` celles des individus. a Comme on reprsente plutt les prols en divisant chaque catgorie par son e o e poids on utilise plutt les vecteurs D1 z k = Xak qui sont les vecteurs ak . o
66
4.4.2
Lapproche de Saporta dans son livre [4] est dirente de la ntre. En eet, il e o dnit lAFC simple de deux variables qualitatives X 1 et X 2 par la recherche e des vecteurs et valeurs propres des produits des prols lignes et prols colonnes, P L P C et P C P L , de la table de contingence N . Il montre ensuite que cela est similaire ` lAFC du tableau disjonctif X = (X 1 |X 2 ), cest-`-dire ` a a a rechercher les vecteurs et valeurs propres du produit des tableaux des prols lignes et des prols colonnes de X. Cela revient ` diagonaliser respectivement a 1 1 D XX pn et 1 XD1 X pn
pour la reprsentation des catgories et des individus respectivement. e e LAFC multiple correspond ` une gnralisation de lAFC simple, cest ` dire ` a e e a a lAFC du tableau disjonctif pour p variables.
4.5. EXEMPLES
61
4.4.3
On a dnit le tableau de Burt comme tant une super table de contingence e e B = X X. Eectuer lanalyse des correspondances de B au sens de Saporta revient ` diagonaliser le produit des P L et P C. Or le tableau des prols lignes a et celui des prols colonnes associs ` B sont respectivement e a 1 1 D B np et lAFC de B revient ` diagonaliser a 1 1 D B np
2
et
1 BD1 , np
1 ce qui conduit aux mmes vecteurs propres que np D1 B avec des valeurs propres e au carr. e Remarquons que lanalyse factorielle du tableau de Burt ne permet pas deffectuer la reprsentation des individus comme dans lAFC simple. e
4.4.4
Conclusion
Les approches voire les dnitions de lAFCM sont diverses mais fournissent e des rsultats similaires. On gardera ` lesprit que la mise en uvre pratique est e a dlicate et ncessite une certaine exprience. e e e Voici ci-dessous quelques exemples pour vous permettre de gagner en exprience. e
67
4.5
4.5.1
Exemples
Les chiens
Vous trouverez les sorties logicielles SPSS dans les annexes A19 Sorties SPSS AFCM Chiens ainsi que les donnes A18 . Les commentaires dtaills sont e e e disponibles dans le livre de Saporta [4] que vous trouverez dans toutes les biblioth`ques universitaires. e Dterminer les valeurs de n, p, m, q et I. e
4.5.2
Les pommes
Vous trouverez les sorties logicielles SPSS dans les annexes A21 Sorties SPSS AFCM Pommes. Les donnes, voir annexe A20 , sont tires des exemples fournis e e lors des formations INRA.
4.5.3
Cancers du seins
En cours.
62
4.5.4
Les lms
Le dernier exemple est tir du livre de Bouroche et Saporta [5]. Lannexe A22 e Commentaires AFCM Films correspond aux commentaires eectus dans le e livre.
4.6
Exercices
Exercice 39 Montrez que les coordonnes des individus sur un axe sont de e moyenne nulle. Commencez par montrer que 1 est valeur propre triviale associe au vecteur e 1m (on pourra se limiter au cas de 2 variables p = 2 pour la dmonstration). e Utilisez le fait que les vecteurs propres de lACP sont D1 -orthonorms, sans e oublier le fait que lon prf`re reprsenter les prols plutt que les catgories. ee e o e Exercice 40 Calculer linertie de lAFCM.
68
Part II
69
63
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
70
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Chapter 5
P 0 2 5 4 4
Les points variables sont des lments de Rn , ici R5 (chaque variable fournit ee une valeur pour les n individus). On a par exemple X 1 =t (0, 2, 0, 4, 4). On a bien 5 valeurs qui dnissent la variable premier partiel, P 1 , une valeur e pour chaque l`ve. ee Les points individus sont des lments de Rp , ici R3 (chaque individu ee poss`de une valeur variable pour les 3 variables), et lon a par exemple e X2 =t (2, 0, 2), avec trois valeurs, une pour chaque variable prise en compte. Les moyennes empiriques des trois variables sont les suivantes x1 = 2 x2 = 2 x3 = 3, 65
66
5.2
Les individus sont supposs tirs de mani`re quiprobable. On a donc pour e e e e lespace des variables Rn , la mtrique D = In /n. Dautre part, les tirages sont e non corrls et lon a, comme dans tous les cas usuels, lespace des individus, ee Rp muni de la mtrique M = Ip . e
5.3
Calcul de V
On a V = V ar(X) la matrice de variance covariance de X. Avec X variable p dimensionnelle (` valeurs dans Rp ) on a V qui est une matrice symtrique de a e taille p p. La symtrie de V provenant de la symtrie de la covariance. e e V ar(X 1 ) Cov(X 1 , X 2 ) ... Cov(X 1 , X p ) . . Cov(X 2 , X 1 ) V ar(X 2 ) . . V = . . p1 p . Cov(X ,X ) Cov(X p , X 1 ) ... Cov(X p , X p1 ) V ar(X p ) On a donc dans notre exemple une matrice de taille 3 3 telle que V ar(X 1 ) Cov(X 1 , X 2 ) Cov(X 1 , X 3 ) V ar(X 2 ) Cov(X 2 , X 3 ) . V = Cov(X 2 , X 1 ) 3 1 3 2 Cov(X , X ) Cov(X , X ) V ar(X 3 ) Calculons les variances et covariance empiriques en utilisant les formules corriges. Pour (z1 , ..., zn ) (respectivement (t1 , ..., tn )) un chantillon de taille n e e pour la variable X 1 (resp. X 2 ). Nous avons V ar(z1 , ...zn ) = et Cov(z1 , ...zn ; t1 , ..., tn ) =
n i=1 (zi
72
n i=1 (zi
5.4. DIAGONALISATION DE V
67
5.4
Diagonalisation de V
Commenons par une remarque. Soit U un vecteur propre (not Vp) de V c e associ ` la valeur propre (vp) . Montrons que U est Vp de V associ ` la e a e a vp 2 . En eet, on a V U = U par dnition de Vp et vp associs et e e V U = (1/2) V U = U . On en dduit bien que V U = 2U . Trouvons les e Vp et vp de V au lieu de V ceci pour faciliter les calculs.
5.4.1
Premi`re mthode e e
C() = = det(V I3 ) 8 4 3 4 7 4 3 4 8 5 0 5 5 0 0 4 7 4 3 4 8 (C 1 C 1 C 3 )
4 3 7 4 8 11
(L3 L1 + L3 )
73
Les racines du polynme du second degr nous sont donnes par o e e = b2 4ac = 182 4 45 = 324 180 = 144 = 122 b = . 2a Les solutions sont donc 5, 3 et 15. Les valeurs propres de V sont donc 1 = 15 5 3 , 2 = et 3 = . 2 2 2 et
5.4.2
Seconde mthode e
(1)n C() = n 1 n1 + 2 n2 ... + (1)n n
68
= =
5 [7 11 4 8] = 225.
Do` u C() = 3 + 23 2 + 225. On obtient la valeur de en eectuant un calcul pour donn. Par exemple, e pour = 1 on a C(1) = 247 + et par le calcul du dterminant C(1) = 112. e Do` = 135 et u C() = 3 + 23 2 135 + 225.
5.4.3
74
Soit U1 le Vp de V associ ` 1 = 15/2. On a donc ea 2 V U1 = 15 U1 . Posons U1 =t (x, y, z), on a donc le syst`me dquations suivant e e 7x + 4y + 3z 2 (8x + 4y + 3z) = 15x 4x 8y + 4z 2 (4x + 7y + 4z) = 15y 3x + 4y 7z 2 (3x + 4y + 8z) = 15z = 0 (E1 ) = 0 (E2 ) = 0 (E3 )
En eectuant (E1 ) (E1 ) + (E3 ) puis (E2 ) + 2 (E3 ) on obtient x = y et x = z. on en dduit U1 =t (111) de norme e do` u 3 (cf. ||U1 ||2 =t U1 M U1 et M = I3 ) M
1 1 1 a1 = . 3 1 De mme e 1 1 1 1 0 et a3 = 2 . a2 = 2 6 1 1
69
5.5
Cj =
k=1
aj Y k , k premi`re e .
75
.
6 3 0 3 6
1 C2 = 2
1 1 4 1 1
1 et C 3 = 6
3 3 0 3 3
An de pouvoir comparer nos rsultats avec les sorties logiciel de SPSS, donnons e les valeurs approches des composantes. e 3, 46 0, 71 1, 22 1, 73 0, 71 1, 22 C 2 2, 83 et C 3 . 0 0 C1 1, 73 0, 71 1, 22 3, 46 0, 71 1, 22 Ces valeurs correspondent aux coordonnes des individus dans la nouvelle base e orthonorme (X, a1 , a2 , a3 ) de lespace appel espace principal. e e
5.5.1
Les nouvelles composantes doivent tre centres. e e 1 1 [(6) + (3) + 0 + 3 + 6] = 0. E[C 1 ] = C1 = n i=1 i 5 3
70
La variance est gale a la valeur propre correspondante. e ` V ar[C 1 ] = = = 1 1 (C 1 C 1 )2 = (C 1 )2 n 1 i=1 i n 1 i=1 i 1 [(6)2 + (3)2 + 02 + 32 + 62 ] 43 90 15 = = 7, 5 = 1 . 43 2
n n
Les composantes doivent tre deux ` deux non corrles. e a ee Cov[C 1 , C 2 ] = = = 1 1 1 2 2 (Ci C 1 )(Ci C 2 ) = C 1 Ci n 1 i=1 n 1 i=1 i [(6) 1 + (3) 1 + 0 (4) + 3 1 + 6 1] 4 3 2 6 3 + 3 + 6 = 0. 4 6
n n
5.6
5.6.1
76
Nous allons ici crire les variables initiales Y j dans la base des composantes prine cipales C k . Cest-`-dire que nous cherchons les coecients que nous noterons a j k tels que
3 j j j Y j = 1 C 1 + 2 C 2 + 3 C 3 = k=1 j k C k pour j = 1, ..., 3.
Grce aux rappels dalg`bre du Chapitre 1, on sait que la coordonne de Y j sur a e e laxe dirig par le vecteur (norm) C k = C k /||C k || est donn par e e e < Y j ; C k >D . Do` u Yj =
k=1 3 3
< Y j ; C k >D C k =
k=1
cest-`-dire a
p=3
(aj )k C k .
k=1
71
1 15/2
0 2
I5 1 4 3
6 3 0 3 6
77
Dans la base des C k
3
5.6.2
On a
Yj =
k=1
aj k
k C k .
On obtient
Y1 =
5 2 5 2 5 2
C1 C1 C1
5 2
C2 C2
1 C3 2 +1 C 3 1 C3 2 0, 5 C 3 +1 C 3 0, 5 C 3
Y2 = 3 Y = Y1 Y2 3 Y
+0 C 2
5 2
5.6.3
Il sagit de repsenter les Y j dans la base des C k . On sait que les coordonnes e e correspondent aux corrlations : coordonne de Y j sur le k`me axe est r(X j , C k ) e e e et que cela nous est galement donne par e e k ak j . V arX j
72
CHAPTER 5. CORRECTION DE LACP NOTES DE PARTIELS On a dune part r(X 1 , C 1 ) = r(Y 1 , C 1 ) n 1 1 1 i=1 yi Ci n1 = V ar(X 1 ) V ar(C 1 )) 6 (2) + 0 + 0 + 3 2 + 6 2 1 = 4 3 4 15/2 = 0, 79
78
2 a2 1 V ar(X 1 )
= 0, 66
do` les coordonnes de la premi`re variable sur le cercle des corrlations : u e e e (0, 79; 0, 66). Et pour les deux autres variables, on a r(X 2 , C 1 ) = r(X 2 , C 2 ) = et r(X 3 , C 1 ) = r(X 3 , C 2 ) = (1 ) a1 2 V ar(X 2 ) = 0, 84
(2 ) a2 2 V ar(X 2 ) (1 ) a1 3 V ar(X 3 ) (2 ) a2 3
=0
= 0, 79
= 0, 66. V ar(X 3 ) Do` la reprsentation du cercle des corrlations. u e e Calculons la corrlation r(C k , Y j ) et montrons que lon retrouve bien les e valeurs prcdentes. e e
73
5.7
On sintresse ` reprsenter les individus, lments de R3 . Les axes 1, 2 et 3 e a e ee sont les axes dits factoriels, dirigs pas a1 , a2 et a3 . Comme on a choisi de se e restreindre ` deux dimensions, on utilise seulement C 1 et C 2 qui correspondent a aux coordonnes des 5 l`ves dans la premi`re et la seconde dimensions. e ee e La j-`me coordonne, pour j = 1 ou 2 du i-`me individu nous est donn par e e e e < Yi , aj >M . On a 0, 71 3, 46 0, 71 1, 73 1 C 2 2, 83 , 0 C 0, 71 1, 73 0, 71 3, 46 do` le Graphique 5.7. u On distingue trois groupes dindividus. Les l`ves 1 et 2, en haut ` gauche : faible par rapport ` la moyenne (C 1 ee a a est une moyenne des trois notes), et la coordonne sur le deuxi`me axe tant e e e proche de 0, ces l`ves ont des notes homog`nes pour les partiels 1 et 3 (C 2 ee e correspond ` lcart entre les notes de ces deux partiels). a e Les l`ves 4 et 5, en haut ` droite : groupe fort en moyenne (cf. C 1 ) et ee a homog`ne pour les partiels 1 et 3. e Lindividu 3 est quand ` lui un l`ve moyen (cf. C 1 0) et il existe un gros a ee cart entre les notes des partiels 1 et 3, ce que lon vrie bien sur le tableau e e des donnes initiales. e Reconstitution des donnes et individus supplmentaires... e e
79
74
1.0
0.5
P1
0.0
C2
P2
80
0.5
P3
1.0
1.0
0.5
0.0 C1
0.5
1.0
75
0.5
0.0
0.5
C2
2.5
2.0
1.5
1.0
81
C 3 2 1 0 C1 1 2 3
76
82
Chapter 6
On sintresse au parti politique (3 partis rpertoris) ainsi quau pays dorigine e e e (5 pays dirents : Belgique, Allemagne, Italie, Luxembourg, Pays-Bas) de 166 e individus. P1 P2 P3 Belgique 5 11 8 Allemagne 23 29 7 . 23 13 15 Italie Luxembourg 4 2 0 Pays-Bas 13 11 2 Il y a donc, par exemple, 29 personnes du second parti politique et qui proviennent dAllemagne.
6.2
Commenons par calculer les marges (sommes des lignes et des colonnes) correc spondant aux eectifs des modalits pour chacune des variables prises spare e e ment. 5 11 8 24 23 29 7 59 23 13 15 51 4 2 0 6 13 11 2 26 68 66 32 166 77 .
78
Il y a donc, par exemple, un total de 51 personnes provenant de LItalie et un total de 32 appartenant au parti politique 3. Calculer les prols lignes sest pour chaque modalit-ligne (cest-`-dire pour e a la variable dont les modalits sont notes suiv liant les lignes, ici les cinq pays de e e la variable NATION) calculer la rpartition suivant les modalits de lautre e e variable (cest-`-dire ici suivant les colonnes, ie les partis politiques). a Il y a en tout 24 Belges, dont 5 au parti 1, cest-`-dire 5/24 = 21% ; 11 au a parti 2, soit 11/24 = 46% ; et 8 au parti 3, soit 8/24 = 33%. Le premier ligne est donc P LBelgique (0.21 0.46 0.33). Symtriquement pour les prols colonnes. On a en tout, 68 membres du parti 1, e dont 5 en Belgique, soit 5/68 = 7% ; dont 23 en Allemagne, soit 23/68 = 34% ; ... ; et 13 au Pays-Bas, soit 13/68 = 19%. Le premier prol-colonne est donc P CP 1 = (0.07 0.34 0.34 0.06 0.19). Si on garde la prsentation sous forme de matrice (modalits de la variable e e NATION en ligne et modalits de la variable PARTI en colonne) la somme e des lignes de la matrice des prols lignes doit donc tre gale ` 1 (ou 100%) ; e e a pour le cas de la matrice des prols colonnes, cest la somme des colonnes qui doit tre gale ` 1 (ou 100%). e e a
84
6.2.1
6.2.2
Ces deux rsultats se retrouvent dans les sorties logicielles SPSS de lAnnexe e 17.
79
6.2.3
Programmation R
Voici ci-dessous un exemple de programmation sous R permettant de calculer les eectifs marginaux ` partir de la table de contingence. a # Partis Politiques - AFC exemple du cours #-----------------------------------------# Commenons par rentrer les donnes c e ---------------------------------X=matrix(ncol=3,nrow=5) X[1,]=c(5,11,8) X[2,]=c(23,29,7) X[3,]=c(23,13,15) X[4,]=c(4,2,0) X[5,]=c(13,11,2) X # Affichage # Nombre dindividus total N=sum(X) N # Effectifs marginaux Ni.=matrix(ncol=1, nrow=5) Uncol=matrix(rep(1,3),ncol=1) Uncol # Pour visionner Ni.=X%*%Uncol Ni. # De m^me pour la deuxi`me variable e e N.j=matrix(ncol=3, nrow=1) Unlig=matrix(rep(1,5),nrow=1) N.j=Unlig%*%X N.j
85
6.3
Prols dindpendance e
Il y a deux prols dindpendance suivant que lon consid`re lune ou lautre e e variable. On dit alors prol ligne et prol colonne dindpendance. e Il existe plusieurs mthodes pour calculer ces prols suivant que lon utilise e la dnition : cest-`-dire ce sont les prols ligne et colonne obtenus ` partie e a a des eectifs sous lhypoth`se dindpendance (mthode 1 ci-dessous) ; ou bien e e e que lon utilise la proprit suivant laquelle le prol dindpendance est aussi le ee e prol moyen (mthode 2 ci-dessous). e
80
6.3.1
Calculons les eectifs sous lindpendance. Nous avons la formule suivante e nind (ij) =
Pour la modalit Belgique et P1 cela nous donne e nind (Bel, P 1) = De mme, e 24 68 = 9, 8. 166
24 66 = 9, 5 166 24 32 = 4, 6 nind (Bel, P 3) = 166 59 68 nind (All, P 1) = = 24, 2. 166 Voici ci-dessous la suite du programme R permettant dobtenir les eectifs thoriques. e nind (Bel, P 2) = # Effectifs sous lindpendance e Ntheo=Ni.%*%N.j/N Ntheo Le rsultat tant e e [1,] [2,] [3,] [4,] [5,] [,1] 9.831325 24.168675 20.891566 2.457831 10.650602 [,2] 9.542169 23.457831 20.277108 2.385542 10.337349 [,3] 4.626506 11.373494 9.831325 1.156627 5.012048
86
Notez que les eectifs marginaux des eectifs sous lindpendance sont bien e les mmes que ceux de la table de contingence initiale. e Calculons les prols lignes relativement aux eectifs thoriques prcdents. e e e Nous avons pour la premi`re ligne un total de 23.9 (prcision des calculs !), soit e e un premier prol ligne gale ` e a (9, 8/23, 9 ; 9, 5/23, 9 ; 4, 62/23, 9) = (0, 41 0, 40 0, 19). De mme pour la deuxi`me ligne. e e (24, 2/59, 1 ; 23, 5/59, 1 ; 11, 4/59, 1) = (0, 41 0, 40 0, 19). En fait, tous les prols lignes des eectifs sous lindpendance sont identiques : e cest le prol ligne dindpendance. e
81
P Lind = (0, 41 0, 40 0, 19). On proc`de de mme pour le prol colonne dindpendance et lon obtient e e e P Cind = (0, 14 0, 35 0, 31 0, 04 0, 16).
6.3.2
Calculons le prol ligne moyen qui est galement le prol ligne dindpendance. e e Les poids attibus ` chaque prol ligne correspondent aux frquences marginales e a e : pour le premier prol (modalit Belgique), nous avons nBelg. = 24 pour 166 e individus, do` u fBelg. = 24/166 = 0.14. Lensemble des poids peut sobtenir ` laide des commandes suivantes a # Calcul des poids pour les PL Fi.=Ni./N Fi. avec pour rsultat e [,1] 0.14457831 0.35542169 . 0.30722892 0.03614458 0.15662651
87
[1,] [2,] [3,] [4,] [5,] Rappelons les prols lignes P LBelgique P LAllemagne P LItalie P LLuxembourg P LP aysBas
1 1 1 1 1
P Lmoy =
i=1
fi. P Li
On a donc pour sa premi`re valeur e P Lmoy (P 1) 0.15 0.21 + 0.36 0.39 + 0.31 0.45 +0.04 0.67 + 0.16 0.50 = 0.41 =
82
Cela correspond bien ` la premi`re valeur du prol ligne dindpendance. a e e On proc`de de mme pour les autres valeurs. Ci dessous la suite du proe e gramme R permettant dobtenir les calculs. # Calcul des PL PL=diag(1/Ni.[,1])%*%X PL # Calcul du PL moyen PLmoy=t(Fi.)%*%PL PLmoy Avec comme rsultat e [1,] [,1] 0.4096386 [,2] 0.3975904 [,3] 0.1927711
6.4
Test du Khi-deux
88
Nous allons tester lindpendance des deux variables NATION et PARTI. e Les eectifs sous lindpendance ont dj` t calculs prcdemment. Pour e ea ee e e e chaque couple (i, j) de modalits nous devons calculer e (nij ntheo (ij))2 . ntheo (ij) Pour Belgique et P1 cela nous donne (5 9, 8)2 = 2, 35. 9, 8 Puis lensemble des valeurs sur tous les couples sont additionns. Le programme e suivant vous permet davoir le dtail des calculs e # Test du Khi-deux dindpendance e Y=(X-Ntheo)2/Ntheo Y Chi=sum(Y) Chi ddl=(5-1)*(3-1) ddl qchisq(0.95,df=ddl) Avec pour rsultat e > Y
83
> Chi=sum(Y) > Chi [1] 18.20364 > ddl=(5-1)*(3-1) > ddl [1] 8 > qchisq(0.95,df=8) [1] 15.50731 On rejette donc lhypoth`se dindpendance au seuil de 5% le calcul du e e Chi-deux, gale ` 18,20, tant suprieur ` la valeur seuil, gale ` 15,5. Notez e a e e a e a toutefois que les conditions de Cochran ne sont pas vries (ils existent des e e eectifs thoriques infrieurs ` 5) la conclusion de ce test doit donc tre prise e e a e avec toute prudence.
89
84
90
Chapter 7
Exercice 22 : ACP rduite et matrice R e 1. Montrons que VZ = D1/ VX D1/ = R. 2. Montrons que (v; ) VZ (D1/ v; ) D1/2 VX . Supposons tout dabord que VZ v = v et montrons que (D1/2 VX ) D1/ v = D1 v. Utilisons pour cela le fait que VZ = D1/ VX D1/ . On a (D1/2 VX ) D1/ v = = = = D1/2 (D1/ VX D1/ v D1/ VZ v D1/ v D1/ v.
86
CHAPTER 7. QUELQUES CORRECTIONS ET DEMONSTRATIONS et montrons que VZ v = v. On a VZ v = = = = = (D1/VX D1/ ) v D (D1/2 VX ) D1/ v D [ D1/ v] D D1/ v v.
Do` le rsultat. u e 3. Montrons lquivalence des deux ACP. e ACP (X; M = D1/2 ; D = 1 1 In ) ACP (Z; M = Ip ; D = In ). n n
Il sagit l` dACP gnralises. a e e e Pour la premi`re ACP, celle de X, nous devons diagonaliser la matrice e X D X M soit donc la matrice VX D1/2 . Pour la deuxi`me ACP, la matrice ` diagonaliser est la matrice e a Z soit donc la matrice VZ . En utilisant le fait que (v, ) soit un couple (vecteur propre, valeur propre associe) pour la matrice VZ , et lquivalence de la deuxi`me question, e e e nous avons donc VZ v = v ou encore VX D1/2 (D v) = (D v) ce qui est donc quivalent ` D v vecteur propre associ ` la valeur propre e a ea pour la matrice VX D1/2 . Or, v est Ip -norm, (M-norm pour la deuxi`me ACP). Quen est-il de e e e D v pour la premi`re ACP ? Est-il galement M -norm ? On a, en e e e utilisant la diagonalit des matrices D e (D v) D1/2 (D v) = v D D1/2 D v = v Ip v = 1 D1/2 VX D1/2 v = D1/ v VX D1/ v = D v 1 In Z Ip n
92
87
La diagonalisation est donc quivalente. Quen est-il des comopsantes e principales ? Pour la premi`re ACP nous avons e C = X M a = X D1/2 (D v) = X D1/ v = Z v. Et pour la seconde ACP C = Z M a = Z Ip v = Z v. Les deux ACP sont donc bien quivalentes. e 4. On a 1 ... . . R = VZ = . . . . . . . ... 1 Soit v = (v1 , . . . , vp ) un vecteur propre de R associ ` la valeur propre . ea De Rv = v on dduit e v1 + (v2 + . . . + vp ) = v1 v2 + (v1 + v3 + . . . + vp ) = v2 ... vi + j=i vj = vj ... (v1 + v3 + . . . + vp1 ) + vp = vp En posant comme contrainte v = c = c (1, . . . , 1 ), on obtient p fois la mme quation, ` savoir : = 1 + (p 1). Le vecteur est donc e e a bien un vecteur propre de R associ ` la valeur propre = 1 + (p 1). ea Normons ce vecteur propre par rapport ` la norme M = D1/2 . a ||||2 = (1, . . . , 1) M Or
1 2 1
93
0 .. .
1 2 p
1 . . = . 1
j=1
1 2. j
j=1
1 2 = T r(VX ) = (Inertie) = p j 1 et C 1 = (Z 1 + . . . + Z p ). p
88
CHAPTER 7. QUELQUES CORRECTIONS ET DEMONSTRATIONS 5. Le deuxi`me espace propre est par dniion orthogonal au premier. Soit e e v = (v1 , . . . , vp ) un vecteur directeur pour le deuxi`me espace propre. On e a donc a fortiori p 1 vj < v; a1 >M = 2 = 0. p j=1 j Cela ncessite davoir ` la fois des vj positifs et des vj ngatifs (non nuls). e a e Cest leet forme. Dautre part, linertie I = T r(V ) = j j = p avec 1 = 1 + (p 1). Limportance du second axe sera dautant plus faible que sera proche de 1. 6. On suppose ici que = 1. On en dduit que 1 = p et toutes les autres e valeurs propres sont nulles. Si pour tout i, j = 1, . . . , p on a (X i , X j ) = 1 les variables peuvent toutes scrire sous la forme X j = a+bX. Le rang de e la matrice X est gale ` 1 : les colonnes comme les lignes sont identiques e a a ` un coecient multiplicateur pr`s. e
94
2. La matrice de variance covariance est 8 0 0 1 0 3 1 V = 2 0 1 3 3. Les valeurs propres de V sont 1 = 4 2 = 2 3 = 1 associs aux vecteurs propres e a1 = (1 0 0) 4. 5. I1 = 4/7, I2 = 5/7 et I3 = 1. 1 a2 = (0 1 1) 2 1 et a3 = (0 1 1) 2
7.2. EXERCICES SUR LAFC 6. Les coordonnes des individus sur les nouveaux axes sont e 2 2 0 2 0 2 . C= 2 2 0 2 0 2 7. On retient deux axes. 8. 9. 10. Les corrlations sont les suivantes e 1 0 0 3/2 3/2 . r(X j , C k ) = 0 . 0 3/2
89
7.2
On a
(7.1) (7.2)
et
1 1 C = D1 F D2 V.
De (7.1) on tire V = D2 LS C=
1 1 D1 F D2
1 1 puis le fait que V est la matrice des vecteurs propres de F D1 F D2 associe e aux valeurs propres k = s2 . k 1 D2 F CS 1 1 = D2 (V S 2 ) S 1 1 = D2 V S = L
90
7.3
Exercice 37 : ACP du tableau disjonctif Soient (X j )j=1...p p variables qualitatives et X = (X 1 | . . . |X p ) le tableau disjonctif associ aux X j . e On a vu dans le cours queefectuer lAFCM des X j , cest rechercher les variables quantitatives C k combinaisons linaires des variables qualitatives X k e codes sous la forme disjonctive (et donc quantitative), cest-`-dire les C k = e a Xak , qui maximisent le rapport de corrlation. Dapr`s le cours cela revient ` e e a p chercher les vecteurs propres ak de la matrice V ar(X)1 j=1 V ar[E(X|X j )]. Cette matrice est estime par e 1 1 D X X. n et lon a dautre part les ak V -orthonorms. Do` e u (ak ) XX a = k . n
e a Posons z = k D a avec k la valeur propre associe ` a dans la 1 diagonalisation de n D1 X X. On a donc par notation ak = 1 D1 z k . k 1 Montrons que z k est vecteur propre de n X XD1 et que les vecteurs z k sont D1 -orhonorms. e z k vecteur propre de On a D1 z k = k ak = 1 1 1 D X Xak = D1 X X D1 z k . n nk
1 n
96
k k
X XD1 .
Montrons que les z k sont D1 -orthonorms. e (zk ) D1 z = = = k (ak ) D a XX k (ak ) DD1 a n XX k (ak ) a n
91
Conclusion : Lanalyse factorielle des correspondances multiple peut tre vue comme lanalyse en composantes principales du tableau disjonctif e quipondr (les poids des individus tant gaux ` n ) en utilisant une e ee e e a 1 1 mtrique adapte, D . e e Exercice 38 : AFC et AFCM pour 2 variables Soient X 1 et X 2 deux variables qualitatives et soit X = (X 1 |X 2 ) le tableau disjonctif associ. Calculons la matrice X XD1 . On a e XX= X1 X2 X
1
X1 X1 N
97
N 2 X X2
0 1 D2
In1 1 P D1
1 P D2 In2
u 1 un vecteur propre de n X XD1 associ ` la valeur propre ea v avec u de taille n1 et v de taille n2 . On a donc 1 X XD1 n u v = In1 1 P D1
1 P D2 In2
u v
u v
( 1)2 v ( 1)2 u
Dautre part, z tant D1 -orthogonaux, u et v sont respectivement D1 et e 1 D2 -orthogonal. 1 1 Le vecteur u est donc vecteur principal de lACP (P, D1 , D2 ) et v de lACP 1 1 (P , D2 , D1 ) pour la valeur propre (1)2 . Or, il correspondent aux param`e tres de lAFC de X 1 et X 2 .
92
Notons toutefois la dirence des valeurs propres : pour lAFCM correspone dant ` ( 1)2 pour lAFC. Bien que conduisant ` la cration daxes identique, a a e lACP de X produit des axes dont linertie et la part dinertie sont tr`s direntes e e de celles de lAFC de N . Il faut donc interprter avec beaucoup de prcaution. e e
98
Chapter 8
Annales
Vous trouverez dans les pages qui suivent : Examen de juin 2007. Examen de juin 2006 : les sorties logicielles correspondantes sont en Annexe A25 .
99
93
94
CHAPTER 8. ANNALES
Questions ` Choix Multiple a Total : (20 points). Cochez la lettre (a), (b) ou (c) correspondant ` la rponse qui vous a e para correcte. Une rponse correcte 1 point, une rponse fausse -0,5 t e e point. 1. On tudie des varits de moutons dont on rel`ve pour chacune deux e ee e mesures morphologiques. Quelle analyse pouvez-vous eectuer ` laide de a ces donnes ? (On supposera les donnes telles quelles, sans transformation e e quelconque avant lanalyse.) (a) Une analyse en composantes principales. (b) Une analyse factorielle des correspondances simple. (c) Une analyse factorielle des correspondances multiple. 2. A quoi correspond lorigine du rep`re dans la reprsentation des individus e e dune ACP ? (a) Le barycentre des individus. (b) Le prol dindpendance. e (c) La moyenne des variables initiales. 3. Sur le premier plan factoriel dune ACP, lindividu 1 admet pour coordonne (0, 05; 0, 95) et lindividu 2 a pour coordonnes (0, 05; 0, 95). On e e peut dire des individus 1 et 2 ... (a) Quils sont fortement corrls ngativement. ee e (b) Quils ont des prols opposs. e (c) Quils contribuent fortement ` laxe 2. a 4. Dans le cercle des corrlations la variable X 1 admet pour coordonnes e e (0, 1; 0, 89) et la variable X 2 a pour coordonnes (0, 89; 0, 1). On peut e dire que
100
95 (a) X 1 est X 2 sont fortement corrles entre elles. ee (b) X 1 es fortement corrle avec la 1`re composante principale. ee e (c) X 1 est bien reprsente sur la 2`me composante principale. e e e 5. Dans les sorties logicielles dACP, on parle de valeurs propres. Soit nb le nombre de valeurs propres proposes dans les sorties. e (a) Il existe nb variables initiales. (b) Chacune des valeurs propres correspond ` une variable initiale. a (c) Cest le nombre dindividus de lanalyse. 6. Soient X et Y deux variables ayant respectivement 2 et 3 modalits. Quelle e est la grande dirence entre lAFC et lAFCM de ces deux variables. e (a) Lune est quantitative, lautre qualitative. (b) LAFCM permet la reprsentation des individus, lAFC non. e (c) LAFC permet la reprsentation des individus, lAFCM non. e 7. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. La taille du tableau de Burt est e e (a) 5 5. (b) 3 2. (c) 4 5. 8. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. La taille de la table de contingence est e e (a) 5 5. (b) 3 2. (c) 4 5. 9. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. La taille du tableau disjonctif complet est e e (a) 5 5. (b) 3 2. (c) 4 5. 10. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. On eectue une analyse factorielle adapte aux donnes e e e e (ACP, AFC ou AFCM). Quel sera le nombre daxes crs ? ee (a) 2. (b) 3. (c) 4.
101
96
CHAPTER 8. ANNALES
11. Dans la reprsentation simultanne dune AFC, ` quoi correspond lorigine e e a du repr`re ? e (a) Au prol dindpendance. e (b) Au barycentre des individus. (c) La modalit moyenne. e 12. En analyse factorielle des correspondances simples, les valeurs propres correspondent (a) A la variance des variables cres. ee (b) A des param`tres du mod`le sous-jacent ` lanalyse. e e a (c) A la variance des variables initiales. 13. En analyse en composantes principales, les valeurs propres correspondent (a) A la variance des variables cres. ee (b) A linertie des axes crs. ee (c) Linertie des variables initiales. 14. Soit T la table de contingence relative aux variables X et Y ayant respectivement I et J modalits. Soit n le nombre total dindividus tudis. e e e Soit DI , respectivement DJ , la matrice diagonale des poids des modalits e des variables X, respectivement Y . Les prols lignes sont obtenus par le calcul suivant. (a) (b) (c)
1 n 1 n 1 n 1 DI T . 1 T DJ . 1 T DI .
102
15. On eectue une AFC dont la valeur singuli`re associe au premier axe est e e gale ` 0,87. Quelle est la valeur possible pour le second axe. e a (a) 1,2. (b) 0,9. (c) 0,8. 16. Vous eectuez une ACP sur un tableau de taille n p. La r`gle de Kaiser e vous dit de ne concerver que les axes qui vrient e (a) Que le pourcentage dinertie cumul est suprieur ` 80%. e e a (b) Que la valeur propre associe est suprieure ` p . e e a 1 (c) Que le pourcentage dinertie associ est suprieur ` p . e e a 1 17. Vous eectuez une ACP et observer une cassure en dimension 3 dans lboulis des valeurs propres. La r`gle du coude vous indique de retenir e e
97 (a) Deux dimensions. (b) Trois dimensions. (c) Quatre dimensions. 18. Voici une table correspondant aux frquences conjointes ainsi que les e frquences marginales. e y1 X/Y x1 0, 1 x2 0, 05 x3 0, 2 M arge 0, 35 y2 0, 2 0, 1 0, 05 0, 35 y3 M arge 0, 05 0, 35 0, 15 0, 30 0, 05 0, 35 0, 25 1
Le vecteur (0, 35; 0, 30; 0, 35) correspond au (a) Prol ligne dindpendance. e (b) Prol colonne dindpendance e (c) Prol moyen. 19. Avec les donnes de la question prcdente, le premier prol ligne est e e e (a) (0, 1; 0, 2; 0, 05). (b) (0, 35; 0, 05; 0, 25). (c) (0, 29; 0, 57; 0, 14). 20. Dans la reprsentation simultanne dune AFCM, on observe deux points e e correspondant aux modalits dune mme variable sont diamtralement e e e opposs par rapport ` lorigine. Cela signie que e a (a) Les modalits sont indpendantes. e e (b) Les prols associs ont des carts ` lindpendance opposs. e e a e e (c) Les personnes ayant choisi ces modalits comme rponse, sont ope e poss. e
103
98
CHAPTER 8. ANNALES
104
les rponses de 4 individus (correspondant aux 4 lignes) aux variables X 1 e a ` 3 modalits (1`re colonne) et X 2 ` 3 modalits (2nde colonne). Etablir e e a e X et T correspondant ` ces donnes. Rappeler ` quoi correspond les lignes a e a et les colonnes de X et de T . (2 points) 2. En utilisant les proprits du tableau disjonctif, crire le tableau des prols ee e lignes de X, not P LX , en fonction de X. Gnraliser pour le cas de p e e e variables qualitatives. (1,5 point)
99 3. De mme, crire le tableau des prols colonnes, not P CX , en fonction de e e e X et de D (ne pas utiliser lexemple numrique). (1,5 points) e 4. Par dnition de lAFC de X, les coordonnes des prols colonnes de X e e sont donnes par les vecteurs propres de la matrice M = (P CX ) P LX . e Montrer que 1 D1 P Im1 , M= 1 D2 P Im2 avec P = T /n. (3 points) 5. Soit u = (a|b) un vecteur propre de M associ ` la valeur propre avec ea a ses m1 premi`res composantes et b les m2 suivantes. Etablir un syst`me e e de 2 quations que vrient a et b. (2 points) e e 6. Rappeler les formules que vrient les coordonnes des lignes et des colone e nes de T dans la reprsentation simultanne de lAFC de T . On notera e e une valeur propre commune aux deux ACP relatives ` lAFC de T . (2 a points) 7. En dduire la relation liant les coordonnes des m1 + m2 points colonnes e e de X aux coordonnes des lignes et colonnes de T . (1 point) e Exercice 2: Bac et situation professionnelle (9 points) On contacte (donnes non relles) 68 anciens lycens ayant pass leur bac 5 e e e e annes plus tt (Littraire, Scientique, Eco & Social, Prof & Technologique) e o e pour leur demander leur situation professionnelle actuelle que lon regroupe en quatre catgories : Stage conventionn, Recherche demploi, Poursuites dtue e e des, Travail. Il est demand de bien prendre soin de spcier quelle(s) sortie(s) e e logicielle(s) vous utilisez pour rpondre. e 1. Existe-t-il un lien entre le bac et la situation professionnelle ? (1 point) 2. Combien y a-t-il daxes possibles dans lAFC de ces deux variables ? Justier. (1 point) 3. Dterminer limportance relative des deux premiers axes. (2 points) e 4. Rappelez ` quoi correspond lorigine du rep`re de la reprsentation simula e e tanne. Correspond-il ` autre chose encore ? (1 point) e a 5. Quelle est la distance utilise dans la reprsentation de lAFC ? (1 point) e e 6. Commenter la reprsentation simultanne. (3 points) e e Annexe: Sorties SPSS (1 page).
105
100
CHAPTER 8. ANNALES
106
Chapter 9
107
102
A19 : Sorties SPSS AFCM Chiens (4 pages) A20 : Donnes Pommes (2 pages) e A21 : Sorties SPSS AFCM Pommes (3 pages) A22 : Commentaires AFCM Films (1 page) Encore des annexes ... A23 : Budget France ACP Interprtation (2 pages) e A24 : Rsum : interprtation ACP (2 pages) e e e
108
Bibliography
[1] Escofier, B. (2003). Analyse des Correspondances, Recherches au coeur de lanalyse des donnes. PUR, Rennes. e [2] Georgin J.-P. (2002). Analyse interactive des donnes (ACP,AFC) avec e Excel 2000, Thorie et pratique. PUR, Rennes. e [3] Jambu, M. (1999). Mthodes de base de lanalyse des donnes. Collection e e Technique et Scientique des Tlcommunications, Eyrolles. ee [4] Saporta, G. (1990). Probabilits Analyse des Donnes et Statistique. Edie e tions Technip, Paris. [5] Bouroche, J.-M. et Saporta, G. (19?). Analyse des Donnes. Que saise je, Paris.
109
103
110
PLAN
A- Quest-ce quune ACP ? B- Les rsultats dune ACP C- Quelques exemples D- Variable qualitative, individu supplmentaire
112
114
Un nouveau point de vue, cest un nouveau repre : cest--dire un nouveau centre (origine) et de nouvelles variables
115
Effectuer une
116
2- Comment
Objectifs
Construire de nouvelles variables, appeles FACTEURS, moins nombreuses mais les plus proches possibles des variables initiales, et qui contiennent le plus dinformation.
Quantifier linformation
variance
117
2- Comment
Objectifs
Construire de nouvelles variables, appeles FACTEURS, moins nombreuses mais les plus proches possibles des variables initiales, et qui contiennent le plus dinformation.
Quantifier linformation
variance
Axe de variance maximale
118
On cherche un nouvel axe (nouvelle variable) qui maximise la variance. On la note C1 cette nouvelle variable.
Contrainte
C1 = i=1,,p ai . Xi
Les vecteur norms maximisant t(a) .V . a correspondent aux vecteurs propres de la matrice V, avec de plus t(a) .V . a = avec valeur propre associe au vecteur a.
120
10
- On ritre la procdure pour un vecteur a2 sous contrainte d orthogonalit i.e. C1 et C2 non corrles.
k ak
Ck
11
Terminologie
aj
j
me
cj
j
me
122
12
3- Rsultats - Sorties
Linformation majeure dune ACP est contenue dans trois graphiques que fournissent la plus part des logiciels danalyse multidimmentionnelle.
a- Eboulis des valeurs propres ou scree-graph b- Cercles des corrlations c- Reprsentations des individus
Diagramme de composantes
1,0
2 3
2
1 0 -1 -2
Valeur propre
0 7
Composante 2
-1,0
-,5
0,0
,5
1,0
-3 -2 -1 0 1 2 3
123
Numro de composant
Composante 1
13
b- Cercles corrlations Qualit de reprsentation des var. ? Corrlations entre variables groupes de var. Dfinition des axes sens des nouvelles var. ?
14
vantages :
) on est assur d avoir une grande part de linformation contenue dans les donnes ) simplicit de la mthode
convnients :
15
Principe : retenir les dimensions pour lesquelles les % d inertie sont suprieurs 1/p
126
16
Principe de la mthode :
1
Valeur propre
0 1 2 3
Numro de composant
17
% inertie (ou j)
* *
*
Choix de la dimension 2
*
4
*
5
128
*
6 dimension
18
% inertie (ou j)
* *
3
Choix de la dimension 2
* *
4 2
*
5
129
*
6 dimension
19
% inertie (ou j)
* * *
3 2
? *
4
130
*
5
*
6 dimensio 20
convnients :
21
Diagramme de composantes
1,0
,5
k a kj Var ( X j )
0,0
(Xj,ck) =
-,5
Composante 2
-1,0 ,5 1,0
-1,0
-,5
0,0
Composante 1
22
Diagramme de composantes
1,0
Composante 2
-1,0 -1,0 -,5
0,0
133
,5
1,0
23
~ C2 (Xj,c2) Xj
Xl (Xj,c1) ~ C1
(Xl,c1) 1
(Xl,c2) 0
134
24
Une variable est bien reprsente sur un plan factoriel si la flche la reprsentant est de longueur proche de 1, donc d extrmit proche du cercle (et mal reprsente si celle-ci est proche de l origine).
135
25
CP : Aide l interprtation Xj
as des variables :
F2
26
Variables :
) un axe sera expliqu par les variables bien corrles avec celui-ci ( ~ 1)
137
27
N Moyenne Ecart-type
Corrlations meurtre 1 ,601 ,480 ,662 ,357 ,152 ,064 viol ,601 1 ,589 ,757 ,620 ,478 ,332 volarm ,480 ,589 1 ,569 ,472 ,408 ,545 agressio ,662 ,757 ,569 1 ,552 ,363 ,305 cambriol ,357 ,620 ,472 ,552 1 ,523 ,480 volsimpl ,152 ,478 ,408 ,363 ,523 1 ,360 larcin ,064 ,332 ,545 ,305 ,480 ,360 1
Qualit de reprsentation pour 2Dim Initial Extraction meurtre 1,000 ,838 viol 1,000 ,793 volarm 1,000 ,631 agressio 1,000 ,805 cambriol 1,000 ,656 volsimpl 1,000 ,561 larcin 1,000 ,711 Mthode d'extraction : Analyse en composantes principales.
138
Qualit de reprsentation 3Dim Initial Extraction meurtre 1,000 ,847 viol 1,000 ,811 volarm 1,000 ,772 agressio 1,000 ,805 cambriol 1,000 ,700 volsimpl 1,000 ,860 larcin 1,000 ,913 Mthode d'extraction : Analyse en composantes principales.
Page 1
Variance totale explique Extraction Sommes des carrs des facteurs retenus % de la Total % cumuls variance 3,832 54,738 54,738 1,164 16,626 71,365
Valeurs propres initiales % de la Composante Total % cumuls variance 1 3,832 54,738 54,738 2 1,164 16,626 71,365 3 ,712 10,169 81,533 4 ,479 6,843 88,377 5 ,318 4,542 92,918 6 ,272 3,887 96,805 7 ,224 3,195 100,000 Mthode d'extraction : Analyse en composantes principales.
Matrice des composantesa Composante 1 2 meurtre ,659 -,636 viol ,870 -,191 volarm ,790 ,086 agressio ,838 -,322 cambriol ,779 ,221 volsimpl ,619 ,421 larcin ,570 ,622 Mthode d'extraction : Analyse en composantes principales. a. 2 composantes extraites.
139
Matrice des coefficients des coordonnes des composantes Composante 1 2 meurtre ,172 -,546 viol ,227 -,164 volarm ,206 ,074 agressio ,219 -,276 cambriol ,203 ,189 volsimpl ,162 ,361 larcin ,149 ,534 Mthode d'extraction : Analyse en composantes principales. Scores composante.
Page 2
Valeur propre
0 1 2 3 4 5 6 7
Numro de composant
Diagramme de composantes
1,0
140
larcin
0,5
Composante 2
0,0
viol agressio
-0,5
meurtre
Composante 1
Page 3
3,00000
Massachusetts
Rhode-Island
2,00000
1,00000
North-Dakota Indiana
0,00000
Florida
Nevada
-1,00000
-2,00000
Mississipi
New-Mexico
141
Page 4
Qualit de reprsentation Initial Extraction pvp 1,000 ,582 agr 1,000 ,669 cmi 1,000 ,811 tra 1,000 ,420 log 1,000 ,676 edu 1,000 ,634 acs 1,000 ,880 aco 1,000 ,734 def 1,000 ,418 det 1,000 ,880 div 1,000 ,316 Mthode d'extraction : Analyse en composantes principales.
Variance totale explique Extraction Sommes des carrs des facteurs retenus % de la Total % cumuls variance 4,979 45,260 45,260 2,040 18,545 63,805
Valeurs propres initiales % de la Composante Total % cumuls variance 1 4,979 45,260 45,260 2 2,040 18,545 63,805 3 1,299 11,812 75,617 4 ,991 9,005 84,622 5 ,709 6,442 91,063 6 ,555 5,047 96,110 7 ,204 1,859 97,969 8 ,128 1,165 99,135 9 ,060 ,546 99,681 10 ,035 ,319 100,000 11 4,060E-05 ,000 100,000 Mthode d'extraction : Analyse en composantes principales.
142
Page 1
Valeur propre
0 1 2 3 4 5 6 7 8 9 10 11
Numro de composant
Matrice des composantesa Composante 1 2 pvp -,175 ,742 agr ,818 ,009 cmi ,833 ,341 tra -,138 ,633 log ,722 ,393 edu ,786 -,129 acs ,933 -,097 aco ,300 -,802 def -,612 ,208 det -,888 -,301 div -,549 ,119 Mthode d'extraction : Analyse en composantes principales. a. 2 composantes extraites.
143
Page 2
Diagramme de composantes
1,0
pvp tra
0,5
log
Composante 2
cmi
def div
0,0
-0,5
aco
-1,0 -1,0 -0,5 0,0 0,5 1,0
Composante 1
144
Page 3
Xl (Xj,c1) ~ C1
(Xl,c1) 1
(Xl,c2) 0
1
145
F2
ANNEXES 8 (6 pages) Analyse des donnes Licence 3me anne Analyse en Composantes Principales (ACP) Fleurs de Forsythia (08-03-06)
20
15
Frquence
10
del
L'histogramme s'obtient par le menu suivant "Graphes/Histogramme...". Slectionner ensuite la variable d'intrt et faite la basculer dans "Variable" l'aide du bouton "petite flche noire" puis cliquer sur "OK". Une simple analyse des variables nous permet de mettre en vidence la prsence de deux groupes de fleurs suivant le signe de la variable DEL. Aussi, nous sparerons par la suite le fichier de donnes et pousserons l'analyse sur chacun des deux groupes. Nous allons voir que l'utilisation de l'ACP du fichier complet permet galement de retrouver ce phnomne. On se gardera toutefois de conclure qu'il est suffisant d'avoir de suite recours des outils complexes sans effectuer d'analyse descriptive simple auparavant : il n'est pas utile d'aller chercher un bulldoser pour planter des paquerettes dans son jardin !
8
147
Frquence
lcal
Exemple de dispersion pour une autre variable.
Corrlations
Page 1
Corrlations lp lp lcal lsep ltc pgl ltp lte lf del Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) Corr. de Pearson Sig. (bilatrale) 1 ,815 ,000 ,341 ,012 ,649 ,000 ,672 ,000 -,083 ,551 ,578 ,000 ,445 ,001 -,335 ,013 lcal ,815 ,000 1 ,455 ,001 ,560 ,000 ,657 ,000 -,098 ,479 ,569 ,000 ,416 ,002 -,344 ,011 lsep ,341 ,012 ,455 ,001 1 ,495 ,000 ,686 ,000 ,041 ,769 ,280 ,041 ,136 ,328 -,115 ,408 ltc ,649 ,000 ,560 ,000 ,495 ,000 1 ,794 ,000 -,167 ,227 ,539 ,000 ,414 ,002 -,358 ,008 pgl ,672 ,000 ,657 ,000 ,686 ,000 ,794 ,000 1 -,221 ,109 ,649 ,000 ,517 ,000 -,445 ,001 ltp -,083 ,551 -,098 ,479 ,041 ,769 -,167 ,227 -,221 ,109 1 -,687 ,000 -,781 ,000 ,936 ,000 lte ,578 ,000 ,569 ,000 ,280 ,041 ,539 ,000 ,649 ,000 -,687 ,000 1 ,960 ,000 -,881 ,000 lf ,445 ,001 ,416 ,002 ,136 ,328 ,414 ,002 ,517 ,000 -,781 ,000 ,960 ,000 1 -,915 ,000 del -,335 ,013 -,344 ,011 -,115 ,408 -,358 ,008 -,445 ,001 ,936 ,000 -,881 ,000 -,915 ,000 1
Pour obtenir la matrice de corrlation slectionner "Analyse\Corrlation\Bivarie". Slectionner les variables d'intrt et faite les basculer dans la fentre "Variables" l'aide du bouton reprsentant une petite flche noire. LF et LTE sont les variables les plus corrles positivement. Il existe en fait beaucoup de couples de variables corrles positievment. DEL et LF sont les plus corrles ngativement. LTP et LSEP sont les variables les moins corrles. En fait LTP semble corrle avec aucune des autres variables. Nous prendrons soin de retrouver ces rsultats dans le cercle des corrlations, et de mettre envidence ce qu'il nous apporte de plus.
148
Page 2
Qualit de reprsentation Initial Extraction lp 1,000 ,714 lcal 1,000 ,712 lsep 1,000 ,548 ltc 1,000 ,702 pgl 1,000 ,850 ltp 1,000 ,904 lte 1,000 ,937 lf 1,000 ,933 del 1,000 ,974 Mthode d'extraction : Analyse en composantes principales.
La qualit d'extraction, ou COS, correspond ici la qualit de reprsentation des variables sur le plan factoriel relatif aux dimensions 1 et 2 ce qui correspond bien au nombre de facteurs que nous avons demand en lanant l'analyse. Les valeurs fournies correspondent aux cosinus de l'angle de chaque point avec le plan factoriel 1-2. Seule la variable LSEP est mal vraiment reprsente sur le plan factoriel 1-2. Les variables LTP, LTE, LF et DES sont particulirement bien reprsentes.
Variance totale explique Extraction Sommes des carrs des facteurs retenus % de la Total % cumuls variance 5,127 56,967 56,967 2,148 23,867 80,834
Valeurs propres initiales % de la Composante Total % cumuls variance 1 5,127 56,967 56,967 2 2,148 23,867 80,834 3 ,763 8,481 89,315 4 ,443 4,927 94,242 5 ,216 2,401 96,643 6 ,145 1,611 98,254 7 ,126 1,398 99,652 8 ,023 ,254 99,906 9 ,008 ,094 100,000 Mthode d'extraction : Analyse en composantes principales.
149
La premire colonne correspond aux valeurs propres. La deuxime colonne nous permet de voir l'importance du premier axe par rapport aux 8 autres : lui seul il totalise plus de la moiti de l'information, et le deuxime un peu moins d'un quart. La troisime colonne nous indique que deux axes suffisent pour atteindre 80% de l'inertie. Rgle de Kaiser : 9 variables nous donnent en moyenne 1/9 = 11% par composante. Seules les deux premires variables sont choisies.
Page 3
Valeur propre
4 3 2 1 0 1 2 3 4 5 6 7 8 9
Numro de composant
On observe une cassure en 3. La rgle du coude nous indique que deux axes suffisent. CONCLUSION : les trois mthodes donnent ici le mme rsultat. On choisit donc de se limiter deux dimensions.
Matrice des composantesa Composante 1 2 lp ,733 ,421 lcal ,724 ,432 lsep ,474 ,569 ltc ,732 ,408 pgl ,827 ,407 ltp -,602 ,736 lte ,932 -,261 lf ,855 -,449 del -,811 ,563 Mthode d'extraction : Analyse en composantes principales. a. 2 composantes extraites.
150
Diagramme de composantes
1,0
ltp
Composante 2
0,5
del
lsep
0,0
lte
-0,5
lf
Composante 1
Page 4
1- QUALITE : On peut retrouvez sur le cercle des corrlations les commentaires effectus sur le tableau "Qualit de reprsentation". En effet, le point LSEP est celui qui est le plus prs de l'origine. On peut le constater visuellement ou bien l'aide des coordonnes : d(LSEP,O)= 0,474 + 0,569 = 0,55 << 1. De mme, les points DEL, LTE, LTP et LF sont les plus proche du cercle des corrlations. On a par exemple : d(DEL,O)= (-0,811)+(0,563) = 0,97 ~ 1. On retrouve bien ces diffrentes valeurs dans le tableau "Qualit". 2- CORRELATIONS : Retrouvons les rsultats de la matrice de corrlation. Attention, nous ne pouvons nous intresser qu'aux variables bien reprsentes. DEL et LF sont opposes par rapport l'origine d'o la forte corrlation ngative. LF et LTE sont les points les plus proches l'un de l'autre (tout en tant galement proche du cercle), ce sont donc des variables corrles positivement. LTP et LSEP sont perpendiculaires (non corrles) mais LSEP n'tant pas bien reprsente, le cercle des corrlations seul ne nous permet pas ici de dduire la non corrlation.
Matrice des coefficients des coordonnes des composantes Composante 1 2 lp ,143 ,196 lcal ,141 ,201 lsep ,092 ,265 ltc ,143 ,190 pgl ,161 ,189 ltp -,117 ,342 lte ,182 -,121 lf ,167 -,209 del -,158 ,262 Mthode d'extraction : Analyse en composantes principales. Scores composante.
151
On a C^1 = 0,143*LP + 0,141*LCAL + ... - 0,158* DEL. Pour le premier individu on a C^1 = - 0,205. En gros on a : C^1 ~ (LTE - DEL) ou (LTE+LF+PGL-DEL) et C^2 ~ LTP-LF.
Diagramme
Page 5
2,00000
15
1,00000
23 30
0,00000
11 16
-1,00000
12
Diagramme
5,00 2,50 0,00
23 15
del
16
30
6,00
7,00
8,00
lte
La variable DEL dfinit en fait deux types de forsythia : les brvi-styls et les longi-styls. Aussi, va-t-on scinder en deux les individus et effectuer l'analyse de chaque groupe afin de dgager ventuellement d'autres structures.
Page 6
' $
{ Les valeurs du tableau sont des e ectifs d'etudiants dans la population francaise. En ligne, la categorie socio-professionnelle des parents, en colonne la discipline suivie par les etudiants. Categories socio-professionnelles (CSP)
age oua ind art gco lib ing adm mes mso tec cam ins emb con ous min mar man ser arm
&
age oua ind art gco pco lib ing adm mes mso tec cam ins emb con ous min mar man ser arm
: Agriculteur exploitant : Ouvrier agricole : Industriel : Artisan : Moyen et gros commercant : Profession liberale : Ingenieur : Cadre de l'Administration : Profession medicale et salariee : Profession medicale et sociale : Technicien : Cadre administratif moyen : Instituteur : Employe de bureau : Contrema^tre : Ouvrier specialise : Mineur : P^cheur e : Man uvre : Personnel de service : Armee, Police
dro 4814 463 3610 2870 2777 4444 9813 4444 14071 833 555 2129 7776 1666 5184 1481 2314 278 185 741 741 2592
sci 8941 1118 2608 5091 2608 6209 7823 8195 13535 993 621 3974 10058 5464 8071 2856 4098 869 373 1863 993 3104
let 8719 1224 3365 5966 3212 7954 9637 7648 18050 1071 765 4436 13308 6425 10861 3059 4436 918 306 1989 1377 3671
med 1583 153 1634 1583 1736 2655 8985 3880 7147 817 357 1021 3931 1481 2399 613 766 153 51 255 204 817
pha 959 33 728 562 794 1125 3143 1307 2134 182 66 298 1125 579 529 132 182 17 0 33 33 198
iut 558 83 110 261 136 313 120 151 235 21 16 235 407 141 0 177 516 37 21 83 63 136
%
153
{ On cherche a repondre aux questions suivantes : { la discipline suivie par l'etudiant renseigne-t-elle sur son origine sociale? { les etudiants d'une CSP donnee font-ils preferentiellement certains types d'etudes? 5
154
Brevets donnes
ANNEXE 11 (1 page) USA SUISSE 1980 699 1981 947 1982 912 1983 1047 1984 1059 1985 1220 1986 1193 3574 5820 6243 7486 8969 9726 11126 JAPON 853 2026 2980 3728 4192 5384 6259 RFA 4087 5747 6002 6360 6604 7892 8710 FRANCE 1634 2371 2252 2735 2797 2891 3304 GB 1853 2146 2366 2652 2944 3076 3396 ITALIE 206 490 616 748 863 969 1180 PB 268 542 545 677 732 779 905 SUEDE 302 478 551 659 764 737 843
155
Page 1
156
157
'
0.4 0.2
$
ing ins min art tec man oua age con ous mar cam emb arm ser
0.0 -0.5
Axe 2 0.0
lib
pco
-0.2
0.5
1.0
Isomtrique lignes
-0.4
dro
sci
let
med
pha
iut
-0.4
-0.2
0.0 Axe 1
0.2
0.4
158
pha med
ing ins min mes artman lib gcopcocon oua tec mar emb mso age camous adm ser ind arm
Axe 2 0
iut
let
-1
-0.8
dro
-2
-2 -1 0 Axe 1 1 2
-0.6
-0.4
-0.2
0.0
sci
0.2
dro
sci
let
med
pha
iut
&
'
isomtrique lignes
Ecart a lindependance du profil ins
0.4 0.2
ing ins min art tec man oua age con ous mar cam emb arm ser
$
lib mes gco mso adm ind pco
Axe 2 0.0
-0.2
-0.4
-0.4
dro
-0.4 -0.2 0.0 Axe 1 0.2 0.4
-0.2
0.0
0.2
sci
let
med
pha
iut
pha sci
ing ins min mes artman lib gcopcocon oua tec mar emb mso age camous adm ser ind arm
Axe 2 0
iut
0.0
let
-1
-2
-0.2
dro
-2 -1 0 Axe 1 1 2
0.2
med
0.4
159
dro
sci
let
med
pha
iut
&
'
Isometrique colonnes
Ecart a lindependance du profil pha
0.4 0.2 Axe 2 0.0
$
pha med dro
-0.5
-0.4 -0.2
-1.0
-0.4 -0.2 0.0 Axe 1 0.2 0.4
0.0 3 age oua ind art gco pco lib ing adm mes mso tec cam ins emb con ous min mar man ser arm
sci let
iut
0.5
1.0
160
2
man oua
cam emb
adm
age oua ind art gco pco lib ing adm mes mso tec cam ins emb con ous min mar man ser arm
1 2
ind
-2
arm
-2
-1
0 Axe 1
&
-1
ser
ous mar
'
Isometrique colonnes
1.0
$
Ecart a lindependance du profil pha
0.4 0.2
Axe 2 0.0
sci let
-0.2
-0.4
-1.0
-0.4 -0.2 0.0 Axe 1 0.2 0.4
-0.5 age oua ind art gco pco lib ing adm mes mso tec cam ins emb con ous min mar man ser arm
0.0
iut
0.5
161
Axe 2
man oua
cam emb
ous mar
-0.4
0 1 2
-0.2 age oua ind art gco pco lib ing adm mes mso tec cam ins emb con ous min mar man ser arm
-2
-2
-1
&
0.0
lib
0.2
0.4
Axe 1
' $
162
Reprsentation simultane (1-3)
iut min mso adm man ing cam ser sci art pco arm dro tec con oua ind mar gco age ous emb ins let 0.5 1.0 mes 0.5 0.0 Axe 1
{ Representation simultanee ici en u pour les lignes et v pour les colonnes (axes 1-2 et 1-3). Les points ne sont plus des barycentres. C'est la representation la plus utilisee dans les logiciels. { L'avantage de cette representation simpli ee est de permettre une interpretation plus facile des e ets lignes et colonnes en terme de direction centrifuge. Par exemple,
s i
j s
lib est associe a med et pha ind, adm avec dro ins, min avec sci age, ous avec iut
ser 0.5 1.0 1.0
2.0
med
pha
0.5
lib
man oua
min
iut
sci
tec age
ins
con
arm let
art
pco
ing
mso
adm
gco
ind dro
pha
med
mes
lib
Axe 2
&
1.0
0.4 0.2 0.0 0.2 0.4
0.5
0.0
Axe 1
1.5
1.0 Axe 3
0.0
0.5 0.6
25
Licence MASS 3me anne Analyse Factorielle des Correspondances ANNEXE 16 : test du Khi-deux (1 page) "PARTIS POLITIQUES"
Tableaux croiss
Tableau crois nation * party Effectif 1,00 nation Belgique Germany Italy Luxembourg Netherland 5 23 23 4 13 68 party 2,00 11 29 13 2 11 66 3,00 8 7 15 0 2 32 Total 24 59 51 6 26 166
Total
Tableau crois nation * party Effectif thorique 1,00 nation Belgique Germany Italy Luxembourg Netherland 9,8 24,2 20,9 2,5 10,7 68,0 party 2,00 9,5 23,5 20,3 2,4 10,3 66,0 3,00 4,6 11,4 9,8 1,2 5,0 32,0 Total 24,0 59,0 51,0 6,0 26,0 166,0
163
Total
Valeur ddl Khi-deux de Pearson 18,204a 8 Rapport de 19,960 8 ,010 vraisemblance Association linaire par 5,065 1 ,024 linaire Nombre d'observations 166 valides a. 4 cellules (26,7%) ont un effectif thorique infrieur 5. L'effectif thorique minimum est de 1,16.
L'ensemble de ces trois tableaux peuvent tre obtenus par le menu "Analyse/Statistiques descriptives/Tableaux croiss". Slectionner les variables pour le choix des lignes et des colonnes. Cliquer ensuite sur le bouton "Cellules" et selectionner dans les effectifs "Thorique" et "Observ" pour obtenir les deux premiers tableaux. Utiliser le bouton "Statistiques" et cocher "Khi-deux" pour obtenir le test du Khi-deux d'indpendance.
Page 1
Licence MASS 3me anne -ANALYSE des DONNEES Analyse Factorielle des Correspondances ANNEXE 17 : AFC "Partis Politiques" (4 pages)
100 90 80 70 60 50 40 30
nation
Netherland Luxembourg Italy Germany Belgique 1,00 2,00 3,00
Pour-cent
20 10 0
PARTY
164
100 90 80 70 60 50 40
PARTY
30
Pour-cent
nation
Page 1
Tableau des correspondances party nation Belgique Germany Italy Luxembourg Netherland Marge active 1 5 23 23 4 13 68 Profils lignes PARTY nation Belgique Germany Italy Luxembourg Netherland Masse 1 ,208 ,390 ,451 ,667 ,500 ,410 2 ,458 ,492 ,255 ,333 ,423 ,398 3 ,333 ,119 ,294 ,000 ,077 ,193 Marge active 1 1 1 1 1 2 11 29 13 2 11 66 3 8 7 15 0 2 32 Marge active 24 59 51 6 26 166
Profils colonnes PARTY nation Belgique Germany Italy Luxembourg Netherland Marge active 1 ,074 ,338 ,338 ,059 ,191 1 2 ,167 ,439 ,197 ,030 ,167 1 3 ,250 ,219 ,469 ,000 ,063 1 Masse ,145 ,355 ,307 ,036 ,157
165
Rsum
Proportion d'inertie Dimension 1 2 Total Valeur singulire ,271 ,191 Inertie ,073 ,036 ,110 Khi-deux Sig. Expliqu ,669 ,331 1,000 Cumul ,669 1,000 1,000
18,204
,020a
Page 2
Contribution De point inertie de dimension 1 2 ,245 ,343 ,174 ,154 ,282 ,350 ,116 ,129 ,183 ,023 1,000 1,000
Contribution De dimension inertie de point nation 1 2 Total Belgique ,591 ,409 1,000 Germany ,695 ,305 1,000 Italy ,619 ,381 1,000 Luxembourg ,644 ,356 1,000 Netherland ,940 ,060 1,000 Total actif a. Normalisation principale symtrique Caractristiques des points colonnesa Score dans la dimension
166
Contribution De point inertie de dimension 1 2 ,093 ,498 ,100 ,502 ,807 ,000 1,000 1,000
Contribution De dimension inertie de point party 1 2 Total 1 ,273 ,727 1,000 2 ,287 ,713 1,000 3 1,000 ,000 1,000 Total actif a. Normalisation principale symtrique
Page 3
Symtrique Normalisation
1,0 nation party
Luxembourg
0,5
1,00
Italy
Dimension 2
Netherland
0,0
3,00
Germany
-0,5
2,00 Belgique
-1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1
167
Page 4
168
Mesures de discrimination
0,8
vitn
0,6
poidsn
Dimension 2
taillen
0,4
intn
0,2
169
affectn agrn
Dimension 1
1 2 3 Manquant
Effectif marginal 7 5 15 0
Page 1
poidsn Valeurs affectes aux modalits Dimension 1 2 -1,175 -,786 ,330 ,813 ,957 -1,017
1 2 3 Manquant
1 2 3 Manquant
Valeurs affectes aux modalits Dimension 1 2 -,354 -1,042 -,600 ,894 ,927 ,363
1 2 3 Manquant
Valeurs affectes aux modalits Dimension 1 2 ,330 -,817 -,467 ,242 ,423 ,518
170
1 2 Manquant
1 2 Manquant
Effectif marginal 14 13 0
Page 2
Quantifications
1,5 taillen
2
1,0
2 3 3
affectn agrn
0,5
Dimension 2
2
0,0
2 1 3 2 1
-0,5
1
-1,0
1 1
Dimension 1
171
Coordones principales
2
Dimension 2
-1
Dimension 1
Observations pondres par le nombre d'objets.
Page 3
Valeurs propres Dimension 1 2 3 4 5 6 7 8 9 10 Valeur propre ,488 ,386 ,221 ,164 ,149 ,102 ,081 ,045 ,024 ,008
On a (4*3+2*2)=16 colonnes dans le tableau disjonctif X, pour p=6 variables. D'o le rang de X est gal 16-6+1=11. La onzime correspond la valeur propre 1. Il y a donc 10 facteurs.
fonction
Compagnie
epb lab box
2,00
Chasse Utilit
1,00
col epf
ber
beau set
poi
dob
Dimension 2
can
gbg coc
lev foh
0,00
fot
172
bum
$dog
-1,00
Dimension 1
Page 4
'
Un exemple de donnees
57 varietes de pommes sont caracterisees par 9 variables qualitatives codees : { arb = forme de l'arbre, caracterisee par 4 modalites (1 = colonnaire 2 = spur 3 = etale 4 = tres etale) { rec = date de recolte, caracterisee par 3 modalites (1 = precoce 2 = intermediaire 3 = tardif ou tres tardif) { cal = calibre du fruit, caracterise par 3 modalites (1 = petit ou moyen 2 = gros 3 = tres gros) { coul = couleur dominante du fruit ou intensite de la couleur rouge additionnelle, caracterisee par 4 modalites (1 = jaune ou vert 2 = rouge-orange 3 = rouge 4 = rouge-violace) { pour = proportion de coloration rouge additionnelle, caracterisee par 4 modalites (1 = absente (0-25 %) 2 = faible (25-50 %) 3 = moyenne (50-75 %) 4 = forte (75-100 %)) { type = type de coloration du fruit, caracterise par 3 modalites (1 = lave 2 = lave-strie 3 = strie) { form = forme du fruit, caracterisee par 3 modalites (1 = allonge 2 = intermediaire 3 = aplati) { ferm = fermete du fruit, caracterisee par 3 modalites (1 = peu ferme 2 = moyen 3 = tres ferme) { gout = rapport sucre / acidite, caracterise par 3 modalites (1 = doux 2 = equilibre 3 = acidule)
173
&
'
Extrait du tableau individus variables
Granny-spur Granny-stand. Boskoop-mut. Boskoop-stand. Gala-red Gala Elstar Elista Jonagold Jonagored New-Jonagold Gloster Gloster-Spur Averdal StarKrimson Erovan Goldenspur Quemoni Golden-972 Sinta Fiesta Arlet Hilrome Rome-Beauty Melrose-mut. Melrose arb rec cal coul pour type form ferm gout 1 3 2 1 1 1 2 3 3 4 3 2 1 1 1 2 3 3 3 3 3 4 4 1 1 2 2 2 3 3 4 3 1 1 2 2 2 2 1 3 3 3 2 2 1 3 2 1 3 2 3 2 2 1 3 1 1 2 2 3 2 2 3 3 1 1 3 3 1 2 2 3 3 2 3 3 2 2 2 2 3 3 2 3 4 3 3 2 2 3 3 2 3 2 3 1 2 2 3 2 3 2 3 4 1 1 3 2 1 3 2 3 4 1 1 3 2 3 2 2 4 4 2 1 2 1 1 2 2 4 4 3 1 2 1 2 2 2 4 4 1 1 2 1 1 2 1 1 1 1 1 2 2 3 2 1 1 2 1 1 2 2 3 2 1 1 1 1 1 2 2 2 2 1 3 2 1 3 2 2 3 1 1 2 3 3 2 3 2 3 1 1 3 3 2 2 2 2 4 3 3 3 4 1 2 3 2 4 3 3 3 3 3 2 3 2 3 3 2 2 4 1 3 3 2 3 3 3 2 3 3 3 3 2
174
&
Quantifications
2,0 arbre couleur pourc
1
1,5
1 1
175
1,0
1 2
gout
Dimension 2
0,5
2 1
0,0
2 3
22 1 2 3 3 3 3 1 2 3 2
-0,5
3 3 4 4 4 1 3
Dimension 1
Page 1
Coordones principales
3
Dimension 2
-1
-2 -2 -1 0 1
Dimension 1
Observations pondres par le nombre d'objets.
176
Page 2
Annexe 22 : " Films commentaires " (Tir du livre BOUROCHE et SAPORTA 1990)
177
Annexe 23 : " BUDGET France Interprtation " (2 pages) Extrait de L'analyse de donnes BOUROCHE et SAPORTA 1990 QUE SAIS-JE
178
179
Annexe 24 : " Rsum ; interprtation ACP " (2 pages) Tir du livre GEORGIN 2002
180
181
3me anne Licence MASS - Analyse des donnes ANNEXE 25 - Examen de juin 2006 (1 page)
Tableau des correspondances situation Recherche emploi 1 3 2 0 6
bac Litteraire Eco & Social Scientifique Techno & Prof. Marge active
Emploi 15 3 1 0 19
Etudes 16 10 4 0 30
Stage conventionn 2 0 5 6 13
Marge active 34 16 12 6 68
Rsum
Khi-deux
Sig.
45,635
7.10-7a
182
Symtrique Normalisation
bac 1,0 situation
0,5
Dimension 2
0,0
-0,5
-1,0
Recherche emploi
-1,5 -1 0 1 2
Dimension 1
Page 1
Universit Toulouse le Mirail Dpartement Mathmatique et Informatique Licence MASS 3me anne Master ISMAG 1re anne
1. Installation
Linstallation du logiciel est explique notamment dans le manuel de Jrme Huillet. 183
2. Commandes de bases
Taper dans la fentre de commande que ce soit celle de R ou de S-plus, les commandes suivantes. En cas de doute sur leffet produit, utiliser laide en ligne. Remarques : Attention, lattribution par lunderscore _ nest valable que pour S-plus. Notez bien le fait que R, comme S-plus, distingue les majuscules des minuscules. Il est possible de faire des commentaires laide du # .
7+2*3 x_2 (uniquement sous S-plus) x y=3 (S-plus et R) y z<-4 (S-plus et R) z rm(z) z z=5:15 (et pas 5/15 !) z t=z^2 z/10 z[4] z[3 :5] z[-4] t+z t*z 3<4 1==2 1 !=2 z<5 z[z<5]
Les diffrents types ou classes dobjets sont Les vecteurs : vector Les listes : list Les matrices : matrix Les structures de donnes : data.frame Les tableaux : array Les sries chronologiques : ts Les facteurs : factor Les fonctions : function
a. Vecteurs
La cration de vecteur a dj t aborde dans les commandes de bases. Elle seffectue principalement par les fonctions c pour la concatnation, rep pour la rptition, loprateur : pour des suites de nombres ordonns, ou encore seq qui permet de donner un pas la squence cre. On a galement vu quelques manipulations de vecteurs, comme u+z . On peut galement faire oprer des fonctions usuelles telles que log , cos ou exp . Les vecteurs peuvent tre composs de caractres. Ils peuvent aussi faire lobjet de manipulation boolenne.
x=c(1.5,-2,5,5.2) x y<-c(This, is, an, example) y t<-seq(0,1,0.2) t rep(1,5) rep(c(0,1),3) u<-rep(1 :4,length=10) u exp(u) x=seq(3,6,2) z[x] z[-x] ? seq
Voici quelques statistiques sur les vecteurs qui sont trs utiles.
u<-c(5,3,6,1,-4) u u>3 u[u>3] sum(u) mean(u) var(u) sum((u-mean(u))^2)/length(u) sum((u-mean(u))^2)/(length(u)-1) range(u) sort(u) summary(u)
184
Exercice 1 : Dterminer la commande permettant de calculer la variance non corrige dune variable o dun vecteur. Exercice 2 : Construire une variable z contenant 10000 nombres rgulirement rpartis entre 0 et 10. Stocker dans z2 les carres de ces nombres mais ne retenez que les carrs strictement infrieur 50.
b. Matrices
Taper les commandes suivantes et analyser leur effet. Certains rsultats mritent un commentaire : vous de jouer ! (Attention le tableau se poursuit page suivante la lecture se faisant colonne par colonne)
matrix(1:6,nrow=2) matrix(1:6,ncol=2) matrix(1:6,ncol=2,byrow=T) mat1=matrix(nrow=3,ncol=2) mat1 mat1[,1]<-c(2,-1,4.3) Cbis Cbis[,1:2] Cbis=Cbis[,-1] Cbis length(A) mode(A) E E*D E%*%D eigen(D) det(D) eigen(D)$values[1]*eigen(D)$values [2]
dim(A) diag(A) diag(1:3) t(A) A+B A*B A/B D<-A%*%t(B) solve(A) E<-solve(D)
Exercice 3 : Crer une matrice orthogonale M, de taille 3*3, et vrifier la proprit M=M-1.
185
La fonction read.table La fonction read.table permet de lire des tableaux de donnes sous format texte (ASCII). Les principaux arguments sont file : nom du fichier, avec si besoin le chemin header : TRUE ou FALSE suivant quil existe une premire ligne pour le nom des variables sep : indique entre guillemets le sparateur de champs dec : indique entre guillemets le caractre des dcimales Noter que lobjet import est sous forme data.frame .
read.table(file="C:/Documents and Settings/Administrateur/Mes documents/SABINE/COURS/DONNEES/CRIMES.txt")
Les fonctions write() et write.table() Les objets R peuvent sexporter en fichier texte. La fonction write est utilise pour les vecteurs et les matrices et la fonction write.table permet dexporter les data frames avec les noms de lignes et de colonnes. 3
write(Y[,3], file="C:/Documents and Settings/Administrateur/Mes documents/SABINE/COURS/extraitcrimes.txt",ncolumns=1) write.table(Y[,3:6], file="C:/Documents and Settings/Administrateur/Mes documents/SABINE/COURS/extraitcrimes2.txt", sep="\t")
Exercice 4 : Pour cet exercice il vous faut importer le module (ou package) foreign et utiliser la fonction dimportation read.spss. Utiliser le fichier de donnes incendies.sav dans le rpertoire tpstat . Conservez uniquement la variable fire dont vous prendrez le logarithme et la variable revenus. Stocker les valeurs dans un tableau appel logfire. Exporter les valeurs dans un de vos rpertoires sous le nom de logfire.txt .
4. Les fonctions
Les fonctions forment lunit de base de la programmation sous R. Lappel dune fonction seffectue de la faon suivante : nom-de-la-fonction(arguments). Nous avons dj vu plusieurs fonctions dans les exemples prcdents, telles que rep , matrix , dim , etc Il existe deux mthodes pour crire ses propres fonctions. Lune seffectue directement partir de la fentre de commande. Par exemple, pour x une matrice :
centrer.donnees<-function(x){ n<-dim(x)[1]; # nombre d'individu en lignes p<-dim(x)[2]; # nombre de variables en colonnes unite<-matrix(rep(1,n),ncol=n);# Cration dun vecteur (1,,1) de taille n moyenne<-t(unite)%*%unite%*%x/n; # Calcul des moyennes pour chaque variable y<-x-moyenne; # Centrage res<-y; res<-round(res,2); # rsultat arrondi return(res); } A<-matrix(seq(1,12,by=2),ncol=3) centrer.donnees(A)
186
Lautre seffectue par lintermdiaire dun diteur de texte grce la fonction fix() . Cette commande lance un diteur de texte qui permet de dfinir des fonctions.
Exercice 5 : Ecrire une fonction qui prenant comme argument une matrice, calcule les valeurs propres et les vecteurs propres de la matrice de variance covariance de la matrice initiale.
5. Les graphiques
Pour commencer et noubliez pas dadapter votre chemin !
Y<-scan(file="C:/Documents and Settings/Administrateur/Mes documents/SABINE/COURS/DONNEES/CRIMES.txt",what=list("",0,0,0,0,0,0,0))
par(mfrow=c(1,2)) # puis essayer c(2,1) plot(Y[,2],Y[,3],type="p",pch="A") plot(Y[,2],Y[,4],type="p", pch="B") par(mfrow=c(1,1)) plot(Y[,2]) plot(sin, -pi, 2*pi)
De nombreuses options existent pour amliorer et prciser les graphiques : titre, noms des axes, couleurs, etc Elles sont incorpores au graphique par le biais darguments de la fonction plot . Paramtres type axes main sub xlab ylab xlim ylim pch lwd lty col box Option par dfaut p T Descriptif Type de graphique : p , l , b , h , o , n T/F : avec ou sans axe apparent Titre Sous-titre Nom de laxe des abscisses Nom de laxe des ordonnes Bornes de laxe des abscisses Bornes de laxe des ordonnes Type de points (voir exemple) Epaisseur de la ligne : croissante avec le chiffre Type de ligne : continu, pointill Pour les couleurs T ou F : avec ou sans bote autour
l l l T
187
Il existe galement des commandes permettant dincorporer des objets aux graphiques. Commandes abline arrows(x,y,z,t) axes axis(n=,at=,labels=,pos=,las=) box lines points(x,y) segments(x1,y1, x2,y2) text(x,y,texte) title( title , subtitle ) legend(x,y,legend=,col=,lty=) Par exemple, effectuer le graphe suivant.
plot(sin,-pi,2*pi,type="l",col=2,lwd=3,ylab="y=f(x)") x<-seq(-pi,2*pi,length=21) y<-cos(x) lines(x,y,pch="*", col=3,lwd=3)
Description Trace une droite, voir laide pour des prcisions. Ajoute une flche. Ajoute les axes. Ajoute un axe. (voir laide en ligne pour les paramtres). Trace une bote. Rajoute des courbes au graphique. Place des points. Trace un segments. Permet dinsrer un texte. Titre et sous-titre. Pour la lgende.
La fentre peut aussi tre modifie. Paramtres fin=c(m,n) pin=c(m,n) mar=c(x,y,z,t) mai=c(x,y,z,t) mfrow=c(m,n) mfcol=c(m,n) fig=c(xmin,xmax,ymin,ymax) cex=x Descriptif Taille de la figure : m=largeur, n=hauteur Taille de limage ! Pour les marges : x=bas, y=gauche, z=haut, t=droite. Pareil mais en pouces. Place plusieurs graphiques sur une page. Similaire mfrow mais en colonnes. Position de la figure. Taille des caractres
Exercice 6 : Tracer la courbe (x-3)2 en rouge ainsi que la droite dquation x=y en pointill. Noter D la droite prcdente ainsi que les points dintersection des deux courbes P1 et P2 sur le graphique. Ajouter le titre Intersection et nommer les axes Valeurs de x et Valeurs de y . Insrer une lgende que vous placerez au mieux indiquant le nom des courbes.
6. Les statistiques
a. Analyse descriptive unidimensionnelle
summary() est une fonction qui permet de dcrire de manire lmentaire les
188
variables ; elle est valable pour les variables quantitatives et qualitatives. Taper les commandes suivantes et observer les diffrences de rsultats de la fonction summary . Variable quantitative
Y_read.table(file="C:/Documents and Settings/Administrateur/Mes documents/SABINE/COURS/DONNEES/CRIMES.txt") Y summary(Y) # description lmentaire Y[,1] boxplot(Y) # bote moustaches var(Y) var(Y[,2]) hist(Y[,2]) # histogramme stem(Y[,2]) # Pour mieux comprendre cette fonction faire lExercice 7
Une fonction bien utile est la fonction sort() qui permet dordonner les valeurs. Variable qualitative
zoo_factor(c(rep('lion',5), rep('girafe',11),rep('singe',7))) zoo summary(zoo) plot(zoo) pie(summary(zoo))
b. Bidimensionnelle
Variables quantitatives Taper les lignes de commande suivantes.
trees_read.table(file="C:/Documents and Settings/Administrateur/Mes documents/SABINE/COURS/DONNEES/trees.txt") trees help(trees) # uniquement sous R ! attach(trees) plot(Girth, Volume)
cor(Girth,Volume)
189
Exercice 8 : Importer les donnes Asthmes.sav dans le rpertoire tpstat . Partager votre fentre graphique en 2 2. Dans la premire, effectuer lhistogramme de la variable quantitative, dans la seconde effectuer une bote moustaches et dans la troisime effectuer un diagramme en secteurs de la variable lves . La quatrime place sera utilise pour faire un graphique des mesures en fonction des lves.
il suffit de faire prcder la racine du nom de la loi qui vous intresse (voir tableau ci-dessous) de la lettre d pour calculer les valeurs de la densit p pour calculer les valeurs de la fonction de rpartition q pour calculer des quantiles, puis de prciser entre parenthses les paramtres de la loi. Dans le cas de la gnration des nombres alatoires il suffit de faire prcder la racine du nom par r , puis de prciser entre parenthses la taille de lchantillon ainsi que les paramtres de la loi en question. Voici par exemple les usages pour la loi normale :
dnorm(x, mean=0, sd=1) pour obtenir la densit f(x) pour la loi N(0,1), pnorm(q, mean=0, sd=1) pour obtenir la probabilit P[N(0,1)<q], qnorm(p, mean=0, sd=1) pour obtenir le quantile q tel que P[N(0,1)<q]=p, rnorm(n, mean=0, sd=1) pour obtenir n quantiles de la loi.
Les arguments requis tant les suivants x : vecteur de quantiles. q : vecteur de quantiles. p : vecteur de probabilitis. n : taille dchantillon. Exemple : Taper les lignes de commande suivantes.
dnorm(0,mean=0,sd=1) # f(0) avec la densit de N(0,1) pnorm(0,mean=0,sd=1) # P[N(0,1)<x] q<-qnorm(0.95,mean=0,sd=1) # q teq P[N(0,1)<q]=0.95 q x<-rnorm(100, mean=0,sd=1) x mean(x) sqrt(var(x)) x[x>q]
190
Augmenter la taille dchantillon des nombres gnrs et comparer les estimations des paramtres effectus sur lchantillon ceux utiliss pour gnrer les nombres. Faites une remarque concernant le nombre de valeurs obtenues par la dernire commande. Exercice 8 : Gnrer 100 nombres alatoires suivant la loi du Khi deux 4 degrs de libert. Dterminer les 5 nombres les plus grands : max1 > > max5. Dterminer la probabilit dobtenir une valeur suprieure max5 suivant cette loi. Quelle est le quantile correspondant 95% ? Comparer les probabilits entre elles, de mme pour les diffrents quantiles... Recommencer mais avec 1000 nombres gnrs. Loi Bta Binomiale Racine S-plus beta binom Paramtres (valeurs par dfaut) shape1, shape2 size=n, prob=p 8
Cauchy Chi-deux Exponentielle Fisher Gamma Gomtrique Logistique Normale Poisson Student Uniforme Weibull
cauchy chisq exp f gamma geom logis norm pois t unif weibull
location= 0, scale= 1 df rate=1 df1, df2 shape prob location=0 mean=0, sd=1 lambda df min=0, max=1 shape
d. Tests statistiques
Voici par exemple le test de Student de comparaison de deux chantillons.
x <- rnorm(10, mean = 2, sd = 0.5) > y <- rnorm(15, mean = 2.1, sd = 0.5) > t.test(x, y) Standard Two-Sample t-Test data: x and y t = -0.1054, df = 23, p-value = 0.917 alternative hypothesis: difference in means is not equal to 0 95 percent confidence interval: -0.4900215 0.4425060 sample estimates: mean of x mean of y 2.064131 2.087888
191
Recommencer avec des tailles dchantillons beaucoup plus grandes et comparer les p-valeurs des deux tests. Utiliser laide en ligne pour avoir des informations sur les commandes de test suivantes. Dterminer la diffrence entre chisq.gof et chisq.test .
chisq.test ks.gof t.test chisq.gof fisher.test binom.test prop.test wilcox.test
Exercice 9 : Gnrer un vecteur de 20 nombres alatoires selon une loi binomiale de paramtre n=10 et p=0.2. Tester ladquation de cet chantillon la loi normale par le test du Chi-deux ainsi que par le test de Kolmogoroff-Smirnoff. Faites voluer les paramtres et la taille dchantillon et regarder lvolution des tests. Tester ladquation de lchantillon la loi de Poisson de paramtre gale la moyenne du vecteur.
Il est aussi possible deffectuer des boucles telles que for , while , repeat . Effectuer les exemples ci-dessous.
# Exemple 1 transports_c("voiture","bus","train","velo") for (vehicule in transports) {print(vehicule)} # ou encore x_c("chat","chien","canari") for (i in x) {print(i)} # Exemple 2 n_0 som_0 while(som<=1000) {n_n+1; som n sombis_n*(n+1)/2 sombis
som_som+n;}
# Exemple 3 i_1 total_0 repeat {total_total+i; if (total>1000) {break} else {i<-i+1}} total i
Noter toutefois quun des gros avantages de R et S-plus est le travail vectoriel qui est beaucoup plus rapide quun travail similaire crit sous forme de boucles. Exercice 10 : Comparer le temps de calcul entre les deux programmations suivantes.
t_50000 x<-1:t y<-vector(length=t) for (i in 1:t) {y[i]<-x[i]^2} y
192
et
y<-x^2 y
10
c) Ordonner les valeurs prcdentes et calculer les probabilits empiriques observes, PzObs = (nombre de valeurs z)/50. Stocker ces probabilits dans un vecteur not PzObs. d) Pour chacune des valeurs de x, calculer la probabilit P[X z] pour X suivant une loi normale de paramtre et calculer en b). Stocker ces valeurs dans un vecteur not PzTheo. e) Effectuer un graphique reprsentant en abscisse pour chaque valeurs de z gnres, les couples ( x= PzObs ; y= PzTheo). f) Ajouter au graphique la premire bissectrice, un titre et nommer les axes.. Vous venez de raliser un diagramme PP qui vous permet de tester visuellement ladquation de lchantillon la loi normale pour les paramtres et . Droite de Henry ?
9. Bibliographie
Huillet, J., Initiation lenvironnement R , Universit de Paul Sabatier, 2002. Wenables, W. N., Ripley, B.D., S programming , Springer, Statistics and Computing, 2001. Wenables, W. N., Ripley, B.D., Modern Applied Statistics with S-plus , Springer, Statistics and Computing, 2001. Diffrents manuels sont disponibles sur le site http://www.R-project.org/. 193
11
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
194
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
195
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
196
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Contents
I Analyse en composantes principales
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . les donnes e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
9 9 10 10 10 11 11 11 13 13 13 14 15
1 Notes de partiels : pas ` pas a 1.1 Rentre des donnes . . . . . . . . . . . e e 1.2 Premi`re analyse . . . . . . . . . . . . . e 1.3 Analyse en composantes principales . . . 1.3.1 Eboulis des valeurs propres . . . 1.3.2 Cercle des corrlations . . . . . . e 1.3.3 Reprsentation des individus . . e 1.4 Pour les plus rapides : centrer et rduire e 2 Fleurs de forsythia 2.1 Les donnes . . . . . . . . . . . . e 2.2 Premi`res analyses . . . . . . . . e 2.3 ACP avec la librairie Multidim . 2.4 Rcapitulatif des fonctions utiles e
197
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
II
17
19 19 20 20 20 23 25
3 Partis Politiques 3.1 Test du Khi-deux dindpendance . . . . . . . . e 3.2 Prols dcart ` lindpendance . . . . . . . . . e a e 3.3 LAFC sans import extrieur de package . . . . e 3.4 Utilisation dun package extrieur : Mutltidim e 4 Etude des Brevets 5 Catgories socioprofessionnelles e
III
27
29
4 7 AFCM : Les Pommes de 7.1 Les donnes . . . . . . e 7.2 Premi`res commandes e 7.3 LAFCM . . . . . . . .
CONTENTS lINRA 31 . . . . . . . . . . . . . . . . . . . . . . . . 31 . . . . . . . . . . . . . . . . . . . . . . . . 31 . . . . . . . . . . . . . . . . . . . . . . . . 32
IV
35
8 Notes de Partiels 37 8.1 Programme R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 8.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 9 Fleurs de forsythia 41 9.1 Programme R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 9.2 Commentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 10 Partis politiques 43 10.1 Programme R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 11 Brevets 45 11.1 Programme R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 11.2 Les rsultats et quelques commentaires . . . . . . . . . . . . . . . 46 e 12 Les Pommes 55 12.1 Le programme R . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
198
CONTENTS
Avertissement
Il est essentiel avant de commencer cette srie de travaux pratiques sous R ou e S-plus, soit davoir suivi la formation du DAAPS sur les logiciels statistiques en dbut danne, soit davoir eectu soi mme cette formation en ce basant e e e e sur le document relatif ` cette formation : Introduction au logiciel R et ` la a a programmation sous S-plus. Nous proposons ` la n de ce document une petite bibliographie et des a rfrences permettant dacqurir les bases de programmation de ces logiciels. ee e Dautre part vous trouverez sur le site http://www.R-project.org tout ce qui est ncessaire ` linstallation du logiciel R. Ce logiciel permet defe a fectuer la plupart des analyses, cependant et surtout pour les AFC AFCM, les fonctions proproses ne sont pas tr`s compl`tes. Aussi, nous conseillons e e e vivement lutilisation de la librairie Multidim, disponible dans le rpertoire e Tpstat du serveur du dpartement. e Les tudiants du SED peuvent me contacter par messagerie lctronique sils e ee narrivent pas ` trouver cette librairie. a
199
CONTENTS
200
Part I
201
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
202
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Chapter 1
203
1.1
1. Garder les notations du cours et attribuer les valeurs pour le nombre dindividus n et de variables p. Lattribution sectue avec ou <- sous e S-plus, avec <- ou = sous R. 2. Crer une matrice X de taille n p. e X=matrix(...) 9
10
` CHAPTER 1. NOTES DE PARTIELS : PAS A PAS 3. Rentrer les valeurs par colonne ou bien par ligne. Par exemple X[,1]=c(0,2,0,4,4) 4. Visualiser ensuite la matrice et vrier les valeurs avec celles obtenues en e TD.
1.2
Premi`re analyse e
Eectuer une petite analyse avant de foncer vers les gros outils tels que lACP. 1. Etudier les variances et les corrlations des trois variables. Utiliser pour e cela les fonctions var() et cor(). 2. Analyser les rsultats prcdents : les variables ont-elles des variances e e e htrog`nes ? Sont-elles tr`s corrles ? ee e e ee 3. Reprendre le cours et dterminer en quoi ces remarques peuvent avoir une e inuence sur lACP.
1.3
204
La commande principale permettant deectuer une ACP est prcomp(). 1. Utiliser laide en ligne an de dterminer ` quoi correspondent les die a e rentes sorties. Cette tape est essentielle pour la suite. e 2. A la lecture du document, dterminer si lACP est rduite ou non. e e 3. O` peut-on trouver les valeurs propres de lACP ? u 4. Lancer lACP. monACP=... 5. Acher les rsultats. e
1.3.1
1. Commencer par crer un vecteurce vp qui contiendra les valeurs propres e des sorties de prcomp. 2. Calculer les pourcentages dintertie ` laide de la fonction sum(). a 3. En dduire un vecteur des pourcentages dinertie cumuls ` laide de la e e a fonction cumsum(). 4. Eectuer un graphique ` laide de la commande barplot(). a 5. Tacher dtoer le graphique en lui rajoutant titre, nom des axes, ... e
1.3.2
1. Crer une matrice A contenant les vecteurs principaux en colonne (les aj e du cours). 2. Calculer les corrlations r(X j , C k ) ` laide de la formule du cours e a k ak j j k r(X , C ) = . V ar(X j ) 3. Faites un graphique reprsentant les variables. e plot 4. Rajouter axis(...) pour avoir les axes. Et le cercle ?
1.3.3
1. O` se trouvent les nouvelles coordonnes de nos individus ? u e 2. Faites le graphique sur le premier plan factoriel. 3. A la vue du graphique, lACP est-elle centre ? e
205
1.4
1. Commencer par centrer les donnes. Utiliser le document de la formation e DAAPS pour cela. 2. Rduire les donnes. e e 3. Recommencer lanalyse avec les donnes centres et rduites et comparer e e e les valeurs ` celles obtenues en TD. a
12
206
Chapter 2
Fleurs de forsythia
2.1 Les donnes e
On souhaite tudier la structuration de la diversit des varits de forsythia. On e e ee tudie (tude ralise par lINRA) 54 varits de eurs de forsythia en mesurant e e e e ee 9 caract`res morphologiques oraux dirents. e e LP = longueur du pdoncule oral e Lcal = longueur du calice Lsep = largueur des spales e LTC = longueur totale de la corolle Pgl = plus grande largueur du limbe LTP = longueur du pistil LTE = longueur totale de ltamine e LF = longueur du let Del = dirence de hauteur entre le stigmate et les anth`res e e Lensemble des valeurs se trouve dans le chier ForsyDonnees.txt dans le rpertoire Tpstat. Vous trouverez galement un descriptif des donnes ainsi e e e quun schma reprsentant les variables dans le chier Fleurs de forsythia.pdf. e e
207
2.2
Premi`res analyses e
Avant de nous lancer dans lutilisation doutils complexes eectuons quelques analyses simples an de mieux conna les donnes. tre e 13
14
CHAPTER 2. FLEURS DE FORSYTHIA 1. Utiliser les fonctions et les graphiques usuelles pour tudier les variables e une ` une : summary(), boxplot(), hist(), var(). a 2. Que pouvez-vous dire sur les variances des direntes variables ? Quen e concluez-vous pour la future ACP ? 3. A laide de ces premi`res sorties, pouvez-vous dj` dnir deux types de e ea e eurs de forsythia ? 4. Etudier les corrlations des variables deux ` deux. e a
2.3
La librairie Multidim permet deectuer de lanalyse multidimentionnelle et notamment de lACP, avec tout un ensemble de fonction adaptes et plus fournies e en sorties. An de pouvoir tre utilise, cette librairie doit tre charge ` laide e e e e a des commandes suivantes. (Merci dadaper le chemin !!) source("F:/LeBonChemin/multidim.R") Ou encore slectionner ` laide de la souris Fichier/Sourcer du code R e a et slectionner le chier multidim.R. Le chier se trouve dans le rpertoire e e tpstat. 1. Lancer lacp ` laide de la commande acp(ForsyDonnees) ou encore, an a de faciliter la suite, taper monacp=acp(Forsy). 2. Choix de la dimension (a) Dterminer combien daxes retenir ` laide des sorties rsultant de e a e lACP prcdente. e e (b) Utiliser la mthode du coude pour dterminer la dimension ` retenir e e a a ` laide de la fonction eboulis(monacp). (c) Conclure sur la dimension ` retenir. a (d) Pour ceux qui ont le temps, utilisez la commande monacp$values qui fournit les valeurs propres de lACP et vrier les pourcentages e dinertie prcdants. e e 3. Cercle des corrlations e (a) Des informations sur la construction des facteurs sont donnes par la e commande summary(monacp). Expliciter les nouvelles composantes C k ` partir de ces rsultats. a e (b) Vous obtientrez une reprsentation double (variables et individus) ` e a laide de la commande biplot(prcomp(Forsy)), mais le graphique nest pas tr`s lisible et dform. e e e
208
15
(c) Utilisez la commande monacp$vectors pour visualiser les vecteurs propres de lACP, qui correspondent aux vecteurs ak du cours. Pour ceux qui sont en avance, vrier quils sont bien orthonorms et ase e socis aux valeurs propres de lACP. e (d) Calculer les corrlations en utilisant la formule du cours e r(C k , Z j ) = (k ) ak j (V ar(Z j ))
et en prenant en compte que lon travaille avec les donnes rduites e e Z j do` ici u V ar(Z j ) = V ar(X j ) = 1. On crera pour cela une matrice r qui contiendra les corrlations. e e (e) Utiliser la commande plot() pour reprsenter les corrlations. e e (f) Commenter les rsultats. e (g) Mettez en relation les rsultats du cercle des corrlations et ceux de e e la matrice des corrlations des variables initiales X j . e 4. Reprsentation des individus e (a) Utiliser la commande monacp$cmpr pour visualiser les coordonnes e des individus dans le nouveau rep`re. e (b) En dduire la reprsentation des individus. Commentez le graphique. e e 5. Quelques vrications e (a) Calculer r2 (X j , C k ) et mettez en relation ces rsultats avec le tableau e correspondant fourni par la fonction contri(monacp). (b) Calculer les nouvelles composantes principales et vrier les valeurs e obtenues avec celles fournies par monacp$cmpr. On prendra bien en compte le fait que lon travaille avec les donnes rduites. e e
209
2.4
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
210
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Part II
211
17
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
212
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
18
Chapter 3
Partis Politiques
Les donnes sont disponibles dans le chier partipolitique.sav dans le rpere e toire tpstat. Il vous faut importer les donnes. e X=scan(file=LE:/BonChemin/partipol.sav) Ces donnes sont sous la forme individus en lignes et variables en colonnes. e Vous pouvez galement rentrer directement la table de contingence e Tc=matrix(ncol=3,nrow=5) Tc[1,]=c(5,11,8) ... ou bien la crer ` partir du chier import ` laide de la commande table(). e a ea Tc=table(X[,1],X[,2])
213
3.1
Eectuer un petit programme vous permettant de calculer la statistique du test du Khi-deux dindpendance que lon notera par exemple khi. On appelera Nth e la matrice des eectifs thoriques sous lindpendance. Dterminer le degr de e e e e libert, not df, puis dterminer si lhypoth`se est accepte ou non en utilisant e e e e e la commande qchisq(0.95, df=ddl) Vous pouvez eectuer le test directement sur la table de contingence par chisq.test(. . .) 1. Comparer et commenter les rsultats des deux mthodes. e e 2. Rappelez lhypoth`se teste. e e 3. Quelle est la conclusion du test ? 19
20
CHAPTER 3. PARTIS POLITIQUES 4. Y-a-t-il des remarques ` faire quant ` lutilisation de ce test ? a a 5. Eectuer une AFC dans ce cas est-il pertinent ?
3.2
Les prols dcart ` lindpendance vont nous permettre de distinguer dans la e a e statistique du Khi-deux les modalits dont les eectifs scartent de ce qui est e e attendu et dans quel sens : cette modalit est-elle sous ou sur-reprsente ? e e e 1. Crer ` partir de la matrice Nth une matrice Dij telle que pour tout i et e a j on ait Dij =
Nij N thij N th
2. La somme de tous les termes de la matrice D au carr correspond ` la e a statistique du Chi-deux. On souhaite ici sintresser modalit par modalit e e e et on conserve dautre part au signe. Commenons par la premi`re varic e able. par(mfrow=c(2,3)) for (i in 1:5) barplot(D[i,]) 3. Faites de mme pour la seconde variable. e 4. Commentez les rsultats. Mettez en relation les prols dcart ` linde e a e pendance tr`s opposs avec leur position sur le graphique simultann de e e e lAFC.
214
3.3
Prenez soin dactiver le package MASS sous R (voir le menu). Utiliser la fonction corresp() puis biplot() pour les graphiques. monafc=corresp(Tc) biplot(monafc,nf=2) 1. Quelles sont les direntes informations fournies ? e 2. De quel graphique sagit-il ?
3.4
Nous allons utiliser ici la librairie Multidim. Pour cela, soit vous tapez dans la fentre de commande e source("F:/LeBonChemin/multidim.R")
21
Ou encore slectionner ` laide de la souris Fichier/Sourcer du code R et e a slectionner le chier multidim.R. e 1. Puis raliser lAFC ` laide de la commande e a monafc=afc(MaTableDeContingence) 2. Commenter les premiers rsultats. e 3. Pousuivez lanalyse : monafc$cmpr monafc$vectors par(mfrow=c(1,1)) biplot2(monafc,selec=3) Mais aussi eboulis(monafc) # Pour visualiser lboulis des vp e sum(monafc$values) # Valeur exacte de linertie monafc$values # Pour obtenir les vp de lAFC round(monafc$values,4) # Avec 4 chiffres apr`s la virgule e round(sqrt(monafc$values),4)# Idem -> valeurs singuli`res e contri(monafc) # Fonction tr`s compl`te : e e COS2, ...
215
(a) Comparer les rsultats des fonctions afc() et corresp(). e (b) Etudier les dirents tableaux de contribution. Vous avez les COS2 e qui correspondent ` la qualit de reprsentation des points-prols a e e suivant les axes, ainsi que la contribution des points-prols aux axes. 4. Revenez aux prols dcart ` lindpendance pour mettre en relation la e a e position des points les uns par rapport aux autres. 5. Pour les plus rapides : (a) Eectuer un petit programme qui calcule toutes les valeurs singuli`res e de lAFC. (b) Commenter limportance relative des axes grce ` ces valeurs sina a guli`res et mettez en relation avec les inerties obtenues ` laide des e a commandes prcdentes. e e
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
216
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Chapter 4
217
23
24
218
Chapter 5
Catgories e socioprofessionnelles
Vous trouverez le chier de donnes CSP.tx dans le rpertoire tpstat. Il y a e e ici un avantage certain du logiciel R par rapport au logiciel SPSS. En eet, Le nombre dindividus est ici tr`s important, do` le choix du format des donnes e u e sous la forme table de contingence, n1 n2 , avec n1 et n2 le nombre de modalits e des deux variables respectivement. SPSS, qui ncessite que les donnes soient e e sous la forme n p (individus variables), nest pas en mesure de traiter le chier CSP tel quel. Utiliser la trame de lanalyse prrcdente pour les partis politiques pour e e tudier les catgories socio-professionnelles et rpondez aux questions suivantes. e e e 1. Eectuer une AFC a-t-il un sens ici ? Pourquoi ? 2. Combien daxes retenez-vous, et quelle est leur importance relative ? 3. Caractrisez les axes retenus. e 4. Y a-t-il des modalits mal reprsentes ? e e e 5. Quels sont les prols proches de lindpendance, les prols opposs ? e e 6. Etablissez les correspondances qui se dgagent clairement de cette analyse. e
219
25
26
220
Part III
221
27
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
222
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Chapter 6
223
30
CHAPTER 6. LES CHIENS DE SAPORTA (a) Crer la matrice diagonale des poids D. On utilisera pour cela le fait e que D nest autre que la diagonale du tableau de Burt divise par le e nombre total dindividus n. (b) Diagonaliser la matrice D1 B/(np) o` p est le nombre de variables. u (c) Vrier que 1 est bien valeur propre. Puis crer un vecteur de die e mension adquate des valeurs propres autres que 1 et 0. e (d) Retrouver dans le cours quelles sont les valeurs correspondant aux coordonnes des variables-modalits et aux individus puis acheze e les. (e) Eectuer les graphiques correspondants. On pourra utiliser labels=chiens[,1] la premi`re colonne du chier de donnes initiales pour avoir le noms e e des individus ` la place des points. De mme, pour les modalits, a e e utiliser les noms de lignes du tableau de Burt par exemple mod=row.names(B). 6. Commenter le graphique des modalits en dgageant les lments mare e ee quants. 7. Commenter les groupes dindividus.
224
Chapter 7
Les donnes sont dans le chier Pommes.txt prsent dans le rpertoire tpe e e stat. Chaque ligne reprsente une varit de Pommes, 57 varits au total, e ee ee pour laquelle est spcie 7 donnes qualitatives correspondant au type darbre e e e (4 modalits), au type de rcolte (3 type de rcolte: prcose, tardif, ...), le calie e e e bre du fruit (3 modalits), la fermet (3 modalits), la couleur (3 modalits), la e e e e forme (3 modalits), le type (3 modalits), le got (3 modalits) et le pourcente e u e age de coloration rouge (4 modalits). e 1. Importer et visionner les donnes ` laide des commandes usuelles. e a pom=read.table(file=Le:/BonChemin/Pommes.txt,header=T) pom 2. Utiliser la commande attach(pom) an davoir acc`s au nom des colonnes. e 3. Tlcharger la librairie Multidim comme dans les TP prcdents. ee e e
7.2
Premi`res commandes e
1. Vous pouvez commencer ltude en eectuant des tests du khi-deux dine dpendance pour des variables deux ` deux. e a 2. Tableau de Burt : le tableau de Burt sobtient ` laide de la commande a burtR(MesDonnees). Visualiser ce tableau vrier que sa taille correspond e bien au nombre total de toutes les modalits. e 31
32
CHAPTER 7. AFCM : LES POMMES DE LINRA 3. Tableau disjonctif complet : la fonction permettant dobtenir le tableau disjonctif complet est matind(). Cependant, elle ncessite que les e donnes soient sous un format prcis, qui est un data.frame avec les e e variables bien dnies en temps que facteur. e (a) Tester tout dabord la fonction matind() avec les donnes de dpart. e e Puis transformer toutes les variables en facteur. Par exemple, pour la variable arbre, utiliser arbQ=as.factor(arb). (b) Concatner ensuite les facteurs dclars ci-dessus pour ainsi crer le e e e e data.frame pomQ=data.frame(arbQ,recQ,calQ,coulQ,pourQ,typeQ,formQ, fermQ,goutQ) (c) Visualiser les donnes sous leur nouveau format puis crer la matrice e e des indicatrices.
7.3
LAFCM
226
LAFCM peut seectuer en utilisant la coomande afc() applique au tableau e disjonctif complet. Personnellement, je trouve les rsultats de cette AFCM pas e aussi clairs que lon peut le souhaiter. Nous allons donc suivre le cours et crer e notre propre AFCM. Le programme devra tre eectu de mani`re ` avoir le e e e a moins de chose ` changer lors de lutilisation de nouvelles donnes. a e 1. Notons X la matrice des indicatrices, B le tableau de Burt. A laide de la fonction dim() obtenez le nombre dindividus, n, celui du nombre de variables, p, et le nombre total de modalits, m. e 2. Crer D la matrice des poids et inverser la. (On notera linverse invD.) e 3. Crer la matrice ` diagonaliser, reportez-vous au cours pour cela. Dagoe a naliser la sans oublier de donner un nom aux rsultats de la diagonalisation e an de pouvoir y faire appel par la suite. 4. Vrier que 1 est bien valeur propre. e 5. Reprsentation des rsulats e e (a) Crer A la matrice des vecteurs propres puis la matrice Var corree spondant ` D1 A. a (b) De mme, crer Ind, correspondant aux coordonnes des individus, e e e cest-`-dire, Ind = X A. a (c) Taper nomsind=row.names(B) pour avoir le nom des indicatrices, cest-`-dire le noms des modalits, et nom.ind=row.names(pomQ) a e pour avoir le noms des individus, ici les varits de pommes. ee
33
(e) Eectuer deux graphiques reprsentant les modalits et les individus. e e 6. Interprter. e
227
34
228
Part IV
229
35
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
230
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Chapter 8
Notes de Partiels
8.1 Programme R
Un grand nombre de commentaires sont prsents dans ce programme. Ils sont e tous prcds dun di`ze : #. e e e e # 1- Cration de la matrice des donnes e e #-------------------------------------# Nombre dindividus-lignes. n=5 # Nombre de variables-colonnes. p=3 # Dclarons la matrice note X de taille n*p ` p colonnes. e e a taille=n*p X=matrix(rep(0, taille), ncol=p) # Rentrons les valeurs, par colonne par exemple. X[,1]=c(0,2,0,4,4) X[,2]=c(1,0,2,2,5); X[,3]=c(0,2,5,4,4) # 2- Premi`re analyse des donnes e e #-------------------------------V=var(X) R=cor(X) # 3- ANALYSE EN COMPOSANTES PRINCIPALES #-------------------------------------# 3.1- EBOULIS des VALEURS PROPRES #--------------------------------# Appeler la fonction "principal component" prcomp(). bidule=prcomp(X) # essayer aussi princomp() 37
231
# Reprsentation de lboulis des valeurs propres. e e # Commencer par crer un vecteur correspondant e # aux valeurs propres, ` partir des sorties de prcomp(). a vp=bidule$sdev2 vp # Calculer les pourcentages dinertie. total=sum(vp) PctI=vp/total PctI # En dduire un vecteur des pourcentages dinertie cumuls e e # ` laide de la fonction cumsum(). a ICum=cumsum(PctI) ICum # Lensemble des derni`res oprations peut e e #seffectuer par la commande cumsum(bidule$sdev2/sum(bidule$sdev2)) # Faisons un graphique en b^tons a # On param`tre la fen^tre graphique e e par(mfrow=c(2,3)) barplot(PctI) # Etoffer le graphique barplot(PctI, ylim=c(0,1), ylab=Pourcentage de variance explique, e xlab=Composante Principale, density=10, names=as.character(1:p)) title(Partiels : Eboulis des valeurs propres) # Ou encore ... axe1=c(1:p) plot(axe1,PctI, ylim=c(0,1), pch=X, ylab=Pourcentage de variance explique, e xlab=Composante Principale) title(Partiels : Eboulis) lines(axe1,PctI) # En rsum pour scree-graph e e barplot(bidule$sdev2/sum(bidule$sdev2), ylim=c(0,1), ylab=Pourcentage de variance explique, e xlab=Composante Principale, names=as.character(1:p)) title(Votre titre)
232
8.2. COMMENTAIRES
39
# 3.2- REPRESENTATION DES INDIVIDUS #---------------------------------# Reprsentation des individus dans le premier plan factoriel. e # Rajoutons un nom au axes ainsi quun titre au graphique. plot(bidule$x[,1],bidule$x[,2], xlab=C1, ylab=C2,type=n) title(Partiels : les individus) ind=c(Jean-Luc,Pierre-Henry,Eva,Rose,Ludovic) text(bidule$x[,1],bidule$x[,2],labels=abbreviate(ind)) # 3.3- CERCLE DES CORRELATIONS #----------------------------# Crer une matrice A contenant les vecteurs principaux e #(les aj du cours en colonnes). A=bidule$rotation # Calcul des corrlations e r=matrix(nrow=p,ncol=p) # Avec la formule du cours for (j in 1:p) for (k in 1:p) r[j,k]=bidule$sd[k]*A[j,k]/sqrt(V[j,j]) # ou encore directement rbis=r for (j in 1:p) for (k in 1:p) rbis[j,k]=cor(X[,j],bidule$x[,k]) plot(r[,1],r[,2], xlab=C1, ylab=C2, xlim=c(-1,1), ylim=c(-1,1), main=Partiels : les corrlations,type=n) e # Et pour avoir le cercle et les axes passant par lorigine abline(v=0);abline(h=0) # et les noms de variables partiels=c(P1,P2,P3) text(r[,1],r[,2],labels=partiels)
233
8.2
Commentaires
Les variances des trois variables sont du mme ordre (V ar(X 1 ) = 4, e V ar(X 2 ) = 3, 5 et V ar(X 3 ) = 4). Aussi, il nest pas ncessaire ici de e rduire les donnes, on peut diagonaliser V , la matrice de variance covarie e ance de X. Dans la pratique et dans les cas usuels, on eectue toujours des ACP rduites, car quand bien mme les variances seraient homog`nes, e e e on retrouverait des rsultats identiques pour les deux ACP. e On remarque que les corrlations sont moyennes (0, 3 < r < 0, 6). Dans e le cas de donnes plus consquentes, avec un nombre de variables p plus e e important, un premier aperu des corrlations entre variables deux ` deux c e a
40
CHAPTER 8. NOTES DE PARTIELS nous permet danticiper les groupes ventuels de variables que nous obe serverons dans le cercle des corrlations. Dautre part, sil existait deux e variables tr`s fortement corrles, il serait judicieux de ne pas les utiliser e ee toutes les deux : concerver une dimension de plus rajoute du bruit et brouille inutilement les donnes. e La fonction prcomp(X) procure deux sorties direntes : une liste intitule e e Standart deviations ou encore sd et une matrice appele Rotation. La e premi`re sortie correspond aux carts types des variables cres, ie les come e ee posantes C k . a donc prcomp(X)$sd[1] qui correspond ` V ar(C 1 ), On a cest-`-dire ` 1 . a a La deuxi`me sortie correspond ` la matrice A des TD, matrice constitue e a e par les vecteurs propres de la diagonalisation de V , nots ak , en colonne. e Laide en ligne sur la fonction prcomp() nous indique que lACP peut tre e centre ` laide de la commande prcomp(X,center=TRUE). On retrouve le e a fait que lacp prcomp(X) nest pas centre en visualisant la reprsentation e e des individus sur le premier plan factoriel : le barycentre des points ne correspond pas a lorigine du rep`re. ` e Les rsultats de lACP centre-rduite de X sont tr`s semblables ` ceux de e e e e a lACP non-rduite : en eet, les variances des X j tant du mme ordre, e e e la rduction des donnes na pas beaucoup dinuence. e e
234
Chapter 9
Fleurs de forsythia
9.1 9.2 Programme R Commentaires
235
1. Les variances des variables sont tr`s htrog`nes. Il faudra eectuer une e ee e ACP rduite. e 2. On remarque que parmis les dirents histogrammes, celui de la variable e DEL divise en deux groupes distincts les individus : ceux pour lesquels DEL > 0 et ceux o` lon a DEL < 0. Il serait judicieux de sparer les u e donnes suivant ces deux groupes et de les analyser sparment. Nous e e e allons cependant continuer lanalyse sur lensemble des donnes et tcher e a de retrouver ces deux groupes dans les rsultats de lACP. e 3. Corrlations des variables initiales : e 4. Choix de la dimension :
41
42
236
Chapter 10
Partis politiques
10.1 Programme R
# Partis Politiques - AFC exemple du cours #----------------------------------------# Commenons par rentrer les donnes c e X=matrix(ncol=3,nrow=5) X[1,]=c(5,11,8) X[2,]=c(23,29,7) X[3,]=c(23,13,15) X[4,]=c(4,2,0) X[5,]=c(13,11,2) X # Affichage # Nombre dindividus total N=sum(X) N # Effectifs marginaux Ni.=matrix(ncol=1, nrow=5) Uncol=matrix(rep(1,3),ncol=1) Uncol # Pour visionner Ni.=X%*%Uncol Ni. # De m^me pour la deuxi`me variable e e N.j=matrix(ncol=3, nrow=1) Unlig=matrix(rep(1,5),nrow=1) N.j=Unlig%*%X N.j # Effectifs sous lindpendance e Ntheo=Ni.%*%N.j/N 43
237
44 Ntheo
# Calcul des poids pour les PL Fi.=Ni./N Fi. # Calcul des PL PL=diag(1/Ni.[,1])%*%X PL # Calcul du PL moyen PLmoy=t(Fi.)%*%PL PLmoy # Test du Khi-deux dindpendance e Y=(X-Ntheo)2/Ntheo Y Chi=sum(Y) Chi ddl=(5-1)*(3-1) ddl qchisq(0.95,df=8) # Profils dcart ` lindpendance e a e D=(X/Ntheo)-1 D par(mfrow=c(2,3)) for (i in 1:5) barplot(D[i,],ylim=c(-1,1)) # AFC sans multidim # Charger le package MASS dans le menu corresp(X) # AFC avec multidim monafc=afc(X) monafc$cmpr monafc$vectors par(mfrow=c(1,1)) biplot2(monafc,selec=3) eboulis(monafc) # Pour visualiser lboulis des vp e sum(monafc$values) # Valeur exacte de linertie monafc$values # Pour obtenir les vp de lAFC round(monafc$values,4) # Avec 4 chiffres apr`s la virgule e round(sqrt(monafc$values),4)# Idem -> valeurs singuli`res e contri(monafc) # Fonction tr`s compl`te : COS2, ... e e
238
Chapter 11
Brevets
11.1 Programme R
Voici le programme R complet avec des commentaires. # AFC Brevets # Avec librairie MASS et Multidim # 13-06-08 #--------------------------------Y=read.table(file="C:/Documents and Settings/Administrateur/ Mes documents/SABINE/COURS/DONNEES/Brevets donnes.txt") e Y[1,] dim(Y) n1=dim(Y)[1] n2=dim(Y)[2] dimnames(Y) chisq.test(Y) # Test du Chi-deux dindpendance e # AFC avec simplement le package MASS source(library="MASS") # ne marche pas sur mon portable corresp(Y) # Visiblement lAFC ne passe pas avec Y sous le format initial # aussi je transforme la table en matrice Y=as.matrix(Y) Y titi=afc(Y) sum(titi$values) # Valeur exacte de linertie titi$values # Pour obtenir les vp de lAFC # Avec seulement 4 chiffres apr`s la virgule e round(titi$values,4) 45
239
46
CHAPTER 11. BREVETS round(sqrt(titi$values),4) # les valeurs singuli`res e # Pour les profils dcart ` lindpendance e a e #-----------------------------------------fij=Y/sum(Y) fi.=as.vector(fij%*%rep(1,ncol(fij))) f.j=as.vector(rep(1,nrow(fij))%*%fij) ecart=diag(1/fi.)%*%fij%*%diag(1/f.j)-1 ecart par(mfrow=c(3,3)) annee=matrix(dimnames(Y)[[1]],ncol=n1) for (i in 1:n1) barplot(ecart[i,],names=abbreviate(dimnames(Y)[[2]]), ylim=c(-0.5,0.5),main=annee[1,i]) par(mfrow=c(3,3)) pays=matrix(dimnames(Y)[[2]],ncol=n2) for (j in 1:n2) barplot(ecart[,j],names=abbreviate(dimnames(Y)[[1]]), ylim=c(-0.5,0.5),main=pays[1,j]) # Les graphiques de lAFC #-----------------------par(mfrow=c(1,3)) eboulis(titi) # Pour visualiser lboulis des vp e biplot2(titi,1,2) contri(titi) # COS2 (qualit), contribution e
240
11.2
> chisq.test(Y)# Test du Chi-deux dindpendance e Pearsons Chi-squared test data: Y X-squared = 2370.759, df = 48, p-value < 2.2e-16 La p-valeur tant tr`s fortement infrieure ` 1%, on rejette tr`s fortement e e e a e lhypoth`se dindpendance des deux variables. Aussi, une AFC est ici inte e e ressante ` eectuer pour mettre en relation les direntes modalits des deux a e e variables. > titi=afc(Y)
11.2. LES RESULTATS ET QUELQUES COMMENTAIRES Analyse des correspondances du tableau "Y" Valeur du Chi2 a 48 ddl : 2370.76 P-value : inferieure a 10(-5) Pourcentage dinertie expliquee : f1 f2 f3 f4 f5 92 4 2 1 0 92 96 98 99 100 tot 100 100
47
On retrouve ` nouveau le test du khi-deux. On a galement les pourcentages a e dinertie. On remarque que le premier axe totalise ` lui tout seul la quasi a totalit de linformation. On se limitera donc ` deux axes en retenant le fait e a que le premier est beaucoup plus important par rapport au second. > round(sqrt(titi$values),4)# les valeurs singuli`res e f1 0.1096 f2 0.0231 f3 0.0179 f4 0.0114 f5 0.0073 f6 0.0057
241
sk uik vjk
Ils pond`rent la correction eectue au mod`le dindpendance. On retrouve ici e e e e le fait que le premier axe est beaucoup plus important, car on a s1 = 0.1 et les sk 0.02 pour les suivants. > contri(titi) Contribution des axes principaux aux profils lignes Axe1 Axe2 Axe3 Axe4 Axe5 Axes > 5 982 1 17 0 0 0 918 1 72 9 0 0 627 253 2 41 32 46 13 138 132 664 26 27 410 550 29 5 0 5 905 60 8 5 21 1 977 10 0 3 6 4 918 41 25 10 4 2 T ot 1000 1000 1000 1000 1000 1000 1000 1000
48 Read 0 items
Axe1 Axes1a2 Axes1a3 Axes1a4 Axes1a5 982 982 1000 1000 1000 918 918 990 1000 1000 627 879 881 922 954 13 152 284 947 973 410 960 989 994 995 905 965 973 978 999 977 987 987 990 996 918 959 984 993 998
Ce tableau nous indique que toutes les annes sont bien reprsent sur le premier e e e plan factoriel. Lanne 1983 est quant ` elle tr`s mal reprsente. Il faudra donc e a e e e est tr`s prudent lors de linterprtation. e e Presser return pour continuer 1: Read 0 items Contribution des profils lignes aux axes principaux
242
Axe1 Axe2 Axe3 Axe4 Axe5 Axes > 5 512 7 335 2 0 70 180 3 529 169 4 1 16 144 1 94 184 437 0 32 50 615 59 101 21 636 55 26 5 98 91 136 29 48 483 33 181 42 2 46 265 261 1000 1000 1000 1000 1000 1000
Nous voyons ici que ce sont les annes 1980, 1981 et 1986 qui contribuent le e plus ` laxe 1 et les annes 1982, 1985 et surtout lanne 1984 pour laxe 2. a e e Presser return pour continuer 1: Read 0 items Contribution des axes principaux aux profils colonnes
49
Axe1 Axe2 Axe3 Axe4 Axe5 Axes > 5 685 213 5 97 1 0 987 10 1 2 0 0 870 120 4 3 2 0 900 31 41 16 0 11 842 6 141 11 1 0 955 4 24 3 12 2 155 161 658 19 0 7 8 620 3 202 21 146 939 1 3 3 49 4 918 41 25 10 4 2
tot 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000
La Su`de, les PB et ` un niveau moindre les USA, sont mal reprsents sur le e a e e premier axe. Presser return pour continuer 1: Read 0 items
243
Qualite de la representation des profils colonnes sur les ss-esp. principaux
Axe1 Axes1a2 Axes1a3 Axes1a4 Axes1a5 685 898 902 999 1000 987 997 998 1000 1000 870 990 994 998 1000 900 931 972 989 989 842 848 988 999 1000 955 959 983 986 998 155 316 974 993 993 8 628 631 833 854 939 940 943 947 996 918 959 984 993 998
tot 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000
En cumulant les deux premiers axes, seuls la Su`de et les PB restent mal e reprsents. Nous ne pourons pas les interprter correctement sur les graphiques. e e e Presser return pour continuer 1: Read 0 items
50
Axe1 Axe2 Axe3 Axe4 Axe5 Axes > 5 33 229 8 423 7 1 546 120 12 102 32 25 138 433 25 49 64 24 84 65 144 141 0 393 88 14 548 101 22 3 52 5 49 15 151 41 1 30 205 15 1 21 0 102 1 135 35 400 58 1 7 19 689 92 1000 1000 1000 1000 1000 1000
T ot ORI 44 1000 508 1000 146 1000 86 1000 96 1000 50 1000 8 1000 7 1000 57 1000 1000 1000
Cest princiaplement le Japon, puis la RFA qui contribuent ` la cration de a e laxe 1. La RFA, les USA pour laxe 2. La Figure 11.2 reprsente les trois sorties classiques de lAFC o` ` noue u a veau limportance du premier axe est clairement mise en vidence dans le e graphique de lboulis. On retrouve galement les direntes contributions sur e e e les graphiques, mal nomms, Individus et Variables. Les Figures 11.2 et 11.2 e correspondent aux carts ` lindpendance. On peut remarquer que la Su`de e a e e qui est loin de lorigine sur la reprsentation prcdente, ne poss`de pourtant e e e e pas un grand cart ` lindpendance. Cette contradiction doit tre due au fait e a e e que ce pays est mal reprsent. (Cf. tableau sur la qualit de reprsentation.) e e e e Par contre, on retrouve bien dans sur la Figure 11.2 le fait que le Japon, qui lui est tr`s bien reprsent sur le premier plan factoriel, se distingue de e e e lindpendance (point extrme positif sur la Figure 11.2) et va avoir plus de e e brevets dans les annes 1985, 1986 et moins en 1980 que ce qui est attendu sous e lindpendance. e
244
51
80
60
Variables
0.6
Individus
0.4
0.2
245
0.0
1981
40
0.4
0.4
0.0
0.4
0.6
0.8
0.2
0.4
0.0
0.4
20
f1 f2 f3 f4 f5 f6 f1 f2 f3 f4 f5 f6
52
1980
0.4 0.4
1981
0.4
1982
0.0
0.0
0.4
0.4
USA
FRAN
PB
USA
FRAN
PB
0.4
USA
0.0
FRAN
PB
1983
0.4 0.4
1984
0.4
1985
0.0
0.0
0.4
0.4
USA
FRAN
PB
USA
FRAN
PB
0.4
0.0
246
USA
FRAN
PB
1986
0.4 0.4
USA
0.0
FRAN
PB
53
USA
0.4 0.4
JAPON
0.4
RFA
0.0
0.0
0.4
0.4
1980
1983
1986
1980
1983
1986
0.4
1980
0.0
1983
1986
FRANCE
0.4 0.4
GB
0.4
ITALIE
0.0
0.0
0.4
0.4
1980
1983
1986
1980
1983
1986
0.4
0.0
247
1980
1983
1986
PB
0.4 0.4
SUEDE
0.4
SUISSE
0.0
0.0
0.4
0.4
1980
1983
1986
1980
1983
1986
0.4
1980
0.0
1983
1986
54
248
Chapter 12
Les Pommes
12.1 Le programme R
pom=read.table(file=Le:/BonChemin/Pommes.txt,header=T) pom attach(pom) # pour accder au nom des col e source("Le:/BonChemin/multidim.R") # Un petit test du chi-deux pour les 2 1`res variables de pom e chisq.test(table(pom[,1],pom[,2])) # Tableau de Burt #---------------pom.burt=burtR(pom) pom.burt[1:10,1:10] # Rque : visiblement, on na pas # besoin de lettres ou de declaration de facteur # Matrice des indicatrices ou tableau disjonctif #----------------------------------------------matind(pom) # Rque : matind ncessite un data.frame e # de facteurs bien dclars. Transformons donc les donnes. e e e arbQ=as.factor(arb) recQ=as.factor(rec) calQ=as.factor(cal) coulQ=as.factor(coul) typeQ=as.factor(type) pourQ=as.factor(pour) formQ=as.factor(form) fermQ=as.factor(ferm) goutQ=as.factor(gout) pomQ=data.frame(arbQ,recQ,calQ,coulQ, 55
249
# Effectuons donc notre propre AFCM # Utilisons les notations du cours X=matind(pomQ) X[1:10,1:10] n=dim(pom)[1] # nombre dindividus n p=dim(pom)[2] # nombre de variables p B=pom.burt # tableau de Burt m=dim(B)[1] # nombre total de modalits e m D=diag(diag(B),ncol=m)/n # matrice des poids D[1:10,1:10] invD=solve(D) # inverse de D # Diagonalisation matrice=invD%*%B/(n*p) diag=eigen(matrice) # Les vp # Vrifier que 1 est bien vp,et quun certain nb sont nulles ! e # Reprsentation des variables-modalits e e #--------------------------------------noms=row.names(B) # pour avoir les noms des ind A=eigen(matrice)$vectors Var=invD%*%A Var[1:10,1:10] # Reprsentation des individus e #----------------------------Ind=X%*%A Ind[1:10,1:10] nomInd=row.names(pomQ)
250
57
plot(Var[,2],Var[,3],pch=,xlab=1`re dim, ylab=2nde dim) e # Attention, on nutilise pas la 1`re vp=1 e text(Var[,2],Var[,3],labels=noms) abline(h=0) abline(v=0) plot(Ind[,2],Ind[,3],pch=,xlab=1`re dim, ylab=2nde dim) e text(Ind[,2],Ind[,3],labels=nomInd) abline(h=0) abline(v=0)
251
58
AFCM Pommes
1.0 diag$values 0.6 0.8
q
252
0.4
q q q q q q q q
0.2
q q q q q q
0.0
q q q q q
q q q q q q q q q q
10
15 c(1:m)
20
25
30
Figure 12.1: Graphiques de lAFCM des Pommes : ce graphique correspond ` lboulis des valeurs propres. Ici toutes les valeurs propres de la a e diagonalisation sont reprsentes, mme celle gale ` 1. e e e e a
12.1. LE PROGRAMME R
59
arb4
coul4 gout1 coul2 cal3 pour4 ferm3 pour3 type2 rec3 type3form3 coul3 rec1 form2arb2 cal2 ferm2 arb3 gout3 gout2 type1 cal1 form1 rec2 pour2
coul1
2nde dim
arb1
253
pour1
Figure 12.2: Graphiques de lAFCM des Pommes: nous avons ici la reprsentation des modalits des variables. e e
60
1.0
0.5
56
2nde dim
0.0
13
254
1.0 1.5
0.5
255
2 Vous trouverez dans ce document une grande partie des noncs des partiels e e et examens correspondant ` lanalyse des donnes de licence MASS. Il y a en a e tout 12 preuves dont 5 noncs de partiel rgime contrle continu, 5 noncs e e e e o e e de rgime examen et 2 noncs de partiel session septembre. La plupart des e e e sorties logicielles sont rassembles dans la derni`re partie de ce document. e e
256
Contents
I II III IV V Petits contrles sur table o Partiels rgime contrle continu e o Partiels rgime examen e Partiels session septembre Sorties logicielles 5 11 31 51 65
257
CONTENTS
258
Part I
259
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
260
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
1. Soient x1 , . . . , xn n observations. Donner la formule de la variance empirique corrige pour les n observations. e 2. Soient X et Y deux variables alatoires relles. Donner la dnition de la e e e corrlation de X et Y . e 3. On tudie 30 individus sur lesquels on prl`ve un certains nombres de e ee mesures : taille, poids, tour de poitrine, tour de taille et hauteur au bassin. On souhaite eectuer une analyse en composantes principales. (a) Combien de valeurs propres aura-t-on au total ? (b) Quelle sera la taille de la matrice de variance covariance ? (c) Les premi`res valeurs propres sont 1/2, 1/4 et 1/8. Appliquer la r`gle e e de Kaiser et donner la dimension retenue. (d) La somme des valeurs vaut 1. Appliquer la r`gle dinertie et dterminer e e la dimension retenue. 4. Dans une analyse en composantes principales, les valeurs propres correspondent (choisir la bonne rponse) e (a) aux corrlations entre variables initiales et les composantes. e (b) ` la variance des variables initiales. a (c) ` la variance des variables cres. a e 5. Dans la reprsentation des variables SWISS quelle est la variable la e moins bien reprsente sur le plan des 2 premi`res dimensions ? e e e 6. Interprter la premi`re composante principale en fonction des variables e e initiales. 7. Interprter la deuxi`me composante principale en fonction des variables e e initiales.
261
262
In.M
0.5
Cthl
263
1.0
0.5
Agrc
1.0
0.5
0.0 C1
0.5
1.0
10
264
Part II
265
11
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
266
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
13 Partiel du mercredi 11 mars 2009 Partiel du vendredi 14 mars 2008 Partiel du vendredi 2 mars 2007 Partiel davril 2006 Partiel du 17 mars 2005
267
14
268
On note Tind la table des eectifs thoriques, que lon notera nind , sous e ij lindpendance. Rappeller la formule permettant de calculer ces eectifs e puis donner la premi`re ligne de Tind . (1 point) e Exercice 2: Vacances (9 points) On sintresse aux liens ventuels entre les Catgories Socioprofessionnelles, e e e que nous avons regroupes en trois grands groupes principaux (G1, G2 et G3), e et le type dbergement choisi pour les vacances, Hotel, Camping et chez e des Proches.
15 1. On souhaite savoir sil existe rellement un lien entre les groupes dnis e e et le type dbergement. e (a) Quel outil va-t-on utiliser ?(1 point) (b) Les rsultats de loutil en question nous donne une p-valeur de e 3 103 ? Rappeler ` quoi correspond H0 et donner votre conclusion. a (1 point) (c) Eectuer une AFC a-t-il un sens ici ? Justier votre rponse. (1 e point) 2. On eectue lAFC. (a) On observe deux des trois groupes de CSP diamtralement oppos e e par rapport ` lorigine. Quest-ce que cela veut dire ? (1 point) a (b) On observe le troisi`me groupe au centre du graphique. Quest-ce e que cela veut dire ? (1 point) (c) Les modalits G1 et Hotel, sont loignes du centre du graphique e e e et forment un angle droit. Quest-ce que vous en concluez ? (1 point) (d) Rappeler le mod`le sur lequel on sappuie pour faire une AFC. (1 e point) (e) Faites le lien entre le mod`le et le type de position voques dans les e e e questions prcdentes. (1 point) e e 3. De mani`re gnrale, faites le lien entre AFC et ACP. (1 point) e e e Exercice 3: Jeux vido (5 points) e On consid`re 30 l`ves auquel on attribue, par valuation ` laide dun quese ee e a tionnaire, un score daddiction aux jeux video (variable ScoAdd). Les autres variables sont EstT (estime de soi), T ache, Emotion, Evit (Evitement), Dist (Distraction), DicSoc (Diversion sociale). Toutes ces variables tant considres e ee comme quantitatives. Interprter rapidement lanalyse en composantes principales dont les rsultats e e sont fournis en annexes. 1. Nombre daxes retenus. 2. Les axes. 3. Nuage des individus. Exercice 4: Petits programme R (6 points) Voici ci-dessous un petit programme R. La matrice Tc correspond au tableau des eectifs croiss de deux variables.. e rat=dim(Tc)[1]
269
16 chat=dim(Tc)[2] lion=sum(Tc) singe=matrix(rep(1,chat),ncol=1) coq=as.vector(Tc%*%singe) vache=diag(coq,ncol=rat) ane=solve(vache) buse=ane%*%Tc dinde=buse%*%singe 1. Que reprsentent rat et chat ? (1 point) e 2. A quoi correspond lion statistiquement ? (1 point) 3. Explicitez vache. (1 point) 4. A quelle matrice du cours buse fait-elle rfrence ? (2 points) ee 5. Que vaut dinde ? (1 point) Annexes Jeux vido : e Inertie totale : 7 Inertie expliquee (en %): f1 f2 f3 f4 f5 33 23 16 11 7 33 56 71 82 90
270
Cumul
17
271
18 (a) Commenter la reprsentation du canid dans la reprsentation des e e e individus (le canid correspondant au type 3). (1 point) e (b) Si lon avait projet le canid sur le plan principal de la premi`re e e e analyse, o` devrait-on sattendre ` le trouver ? Justier ! (2,5 points) u a Exercice 2: AFC - AFCM (5 points) Soient X 1 , X 2 deux variables qualitatives ayant respectivement 2 et 3 modalits. Soit X le tableau de donnes suivant. e e 1 1 2 2 1 2 2 3 1. Donner le tableau disjonctif complet correspondant au tableau ci-dessus, et que lon notera X. (1 point) 2. Donner la table de contingence associe ` X, que lon notera T . (1 point) e a 3. On eectue tout dabord, lACP du triplet ( (X), D, M ) avec M = Ip et 1 e D = n In . Donner les valeurs numriques de p et de n dans notre exemple an que lACP est un sens. (1 point) 4. On eectue dautre part une AFC de T . Quelle est la grande dirence e entre les deux analyses ? (2 points) Exercice 2: Petits calculs sous Splus (5 points) Voici un petit programme S-plus. La matrice T able dont il est question correspond ` une table de contingence de dimension 3 4. a jaune Table vert sum(jaune) violet jaune/vert bleu as.matrix(rep(1,4),ncol=1) rose violet% %bleu uo diag(1/rose) noir uo% %violet 1. A quoi correspond violet ? (1 point) 2. Quelle est la dimension de rose ? (1 point) 3. A quoi correspond noir ? (1 point) 4. Ecrire un petit script permettant dobtenir le prol ligne dindpendance. e (2 points)
272
19
273
20 Exercice 2: QCM ACP (6 points) Une rponse correcte 1 point, une rponse fausse -0,5 point. e e 1. A quoi correspond lorigine du rep`re dans la reprsentation des individus e e dune ACP ? (a) Le barycentre des individus. (b) Le prol dindpendance. e (c) La moyenne des variables initiales. 2. Sur le premier plan factoriel dune ACP, lindividu 1 a pour coordonne e (0, 05; 0, 95) et lindividu 2 a pour coordonnes (0, 05; 0, 95) avec e max(C 2 ) = 1 et min(C 2 ) = 0.95. On peut dire des individus 1 et 2 ... (a) Quils sont fortement corrls ngativement. ee e (b) Quils ont des prols opposs. e (c) Quils contribuent fortement ` laxe 2. a 3. Dans le cercle des corrlations la variable X 1 a pour coordonnes e e (0, 1; 0, 89) et la variable X 2 a pour coordonnes e (0, 89; 0, 1). On peut dire que (a) X 1 est X 2 sont fortement corrles entre elles. ee (b) X 1 est fortement corrle avec la 2`re composante principale. ee e (c) X 1 est bien reprsente sur la 1`me composante principale. e e e 4. Dans les sorties logicielles dACP, on parle de valeurs propres. Soit nb le nombre de valeurs propres proposes dans les sorties. e (a) Il existe nb variables initiales. (b) Chacune des valeurs propres correspond ` une variable initiale. a (c) Cest le nombre dindividus de lanalyse. 5. Vous eectuez une ACP et observer une cassure en dimension 3 dans lboulis des valeurs propres. La r`gle du coude vous indique de retenir e e (a) Deux dimensions. (b) Trois dimensions. (c) Quatre dimensions.
274
21 6. Vous eectuez une ACP non rduite. Soient ak les vecteurs propres de la e diagonalisation de la matrice de variance-covariance des donnes et soit e C k la composantes principale associe. On note X j les variables initiales. e On observe une valeur de ak tr`s grande et une valeur e j (X j , C k ) vraiment faible. Quand cela est-il possible ? Quand ... (a) La variance de C k est grande. (b) La variance de X j est grande. (c) La variance de X j est petite. Exercice 3: Petits calculs (2 points) Voici un tableau de donnes individus variables o` les deux variables e u qualitatives sont codes. La premi`re a 3 modalits direntes et la seconde 2. e e e e 1 2 1 1 2 2 . 3 1 1. Ecrire X le tableau disjonctif complet correspondant aux donnes prce e e dentes. 2. Quelle serait la grande dirence entre lAFC et lAFCM de ces donnes e e ? Exercice 4: Petits programme R (3 points) Voici ci-dessous un petit programme R. La matrice X correspond aux donnes e centres individus variables de taille n p e velo=t(X)%*%X/n bus=eigen(velo) auto=bus$values car=bus$vectors[,1] moto=car/(t(car%*%)car) scooter=X%*%moto 1. A quoi correspond auto ? et quelle est sa dimension ? 2. A quoi correspond scooter ? 3. Quel type danalyse eectue-t-on ici ? Soyez prcis. e
275
22 Exercice 5: Dmo de cours (3 points) e Montrer de mani`re gnrale que le prol-ligne moyen est gale au prol-ligne e e e e dindpendance. On notera e n11 . . . n1J n21 . . . n2J N = . . . . . . nI1 . . . nIJ les eectifs observs et e T = t11 t21 . . . ... ... t1J t2J . . .
tI1 . . . tIJ les eectifs thoriques sous lindpendance. De plus, on notera P Li le i-`me e e e prol-ligne, PL le prol-ligne moyen et P LT le prol-ligne dindpendance. e Annexes > N # Table de contingence
dpt/nb Ari`ge e Aveyron H.G. Gers Lot H.P. Tarn T.G. INF1 62 42 83 54 46 59 65 50 1--5 83 121 240 153 119 188 123 141 5--10 76 213 98 68 163 219 174 160 10--20 127 461 290 309 251 257 292 298 20--50 153 637 412 665 334 220 525 388 50--99 60 203 168 217 87 18 125 81 SUP100 12 55 45 39 19 1 23 17
276
f3 3.667459e-03 f6 9.538726e-05
Contribution des axes principaux aux profils lignes Ari`ge e Aveyron H.G. Gers Lot H.P. Tarn T.G. Tot Axe1 208 318 33 930 633 985 75 563 660 Axe2 413 493 894 17 311 0 394 235 238 Axe3 64 139 67 19 2 0 496 2 50 Axe4 311 51 4 33 16 14 4 88 47 Axe5 4 0 1 0 35 0 18 108 5 Axes>5 1 0 1 2 2 0 13 4 1 Tot 1000 1000 1000 1000 1000 1000 1000 1000 1000
23 Qualite de la representation des profils lignes sur les ss-esp. Axe 1 Ari`ge e Aveyron H.G. Gers Lot H.P. Tarn T.G. Tot principaux Axes1a3 621 810 927 947 945 985 469 798 897 Axes1a4 685 949 994 965 947 985 965 800 947 Axes1a5 995 1000 998 998 962 1000 969 887 994 tot 999 1000 999 998 998 1000 987 996 999
Contribution des profils lignes aux axes principaux Axe1 26 54 7 316 22 549 4 22 1000 Axe2 142 232 500 16 31 0 53 26 1000 Axe3 105 312 179 83 1 1 318 1 1000 Axe4 541 121 10 158 8 110 3 49 1000 Axe5 63 1 28 4 173 14 119 599 1000 Axes>5 60 5 137 260 44 83 322 90 1000 Tot 82 112 133 224 23 368 32 26 1000 ORI 157 71 110 164 25 421 26 25 1000
277
Contribution des axes principaux aux profils colonnes Axe1 243 412 829 301 791 892 618 660 Axe2 487 506 158 369 98 67 54 238 Axe3 121 9 0 252 75 9 232 50 Axe4 145 73 8 7 35 26 82 47 Axe5 2 1 4 69 0 3 4 5 Axes>5 0 0 0 1 1 3 11 1 tot 1000 1000 1000 1000 1000 1000 1000 1000
24 Axe 1 243 412 829 301 791 892 618 660 Axes1a2 731 918 987 670 889 959 671 897 Axes1a3 852 927 987 922 964 968 903 947 Axes1a4 997 999 996 930 999 994 985 994 Axes1a5 1000 1000 1000 999 999 997 989 999 tot 1000 1000 1000 1000 1000 1000 1000 1000
Contribution des profils colonnes aux axes principaux INF1 1--5 5--10 10--20 20--50 50--99 SUP100 Tot Axe1 41 119 362 16 181 228 54 1000 Axe2 226 407 192 53 62 47 13 1000 Axe3 268 34 0 172 227 31 266 1000 Axe4 342 296 52 5 112 93 100 1000 Axe5 57 22 268 497 2 104 51 1000 Axes>5 19 0 4 19 68 396 495 1000 Tot 110 191 288 34 151 169 57 1000 ORI 1000 1000 1000 1000 1000 1000 1000 1000
278
25
279
26 (b) En dduire les coordonnes de lindividu 38 sur le premier axe, les e e moyennes obtenues tant e (10, 9, 13.7, 11.5, 10, 13, 10.3, 11.4). (2 points) (c) Interprter les trois premi`res composantes. (3 points) e e (a) Que reprsente lorigine du rep`re de la reprsentation des individus e e e ? (1 point) (b) Que pouvez-vous dire des individus (80, 70), (82, 42), 40, (72, 33), (50, 79) et 77 ? (3 points) (c) On colorie les individus suivant leur anne de promotion. Quel e commentaire pouvez-vous faire ? (0,5 point) Exercice 2 : ( 6 points) Voici une table de contingence
5 T = 23 20
12 8 20 7 . 13 15
280
1. Calculer leectif thorique dindpendance correspondant aux modalits e e e 1 pour X 1 et 3 pour X 2 . Donnez la formule du Khi-deux permettant de tester lindpendance des deux variables. (1 point) e 2. Calculer les prols-lignes. (1 point) 3. En dduire le prol-ligne dindpendance. (1 point) e e 4. Dterminer les poids correspondant aux prols-lignes. (1 point) e 5. En dduire le prol-moyen. LE calcul devra tre pos. (1 point) e e e 6. Que reprsente lorigine du rep`re dans une AFC ? (1 point) e e Annexes : Sorties SPSS (4 pages en rduit). e
27
281
1. Etude prliminaire : On eectue un test du Khi-deux dindpendance. e e (a) En vous servant des sorties logiciels, calculer les eectifs thoriques e manquants du tableau Tableau crois Agesexe*musique - Eectif e thorique. (1 point) e (b) Rappeller lhypoth`se du test. (1 point) e (c) En vous reportant sur les sorties logiciels correspondantes, donner la conclusion du test. Tracer lallure de la distribution du Khi-deux et reporter les valeurs possibles pour justier votre rponse. (2 points) e (d) Eectuer une AFC est-elle intressante dans ce cas ? Justier votre e rponse. (1 point) e 2. On eectue lAFC. (a) Donner le nombre daxes possibles de lAFC. Dans quelle sortie peuton retrouver ce rsultat ? (1,5 points) e (b) Calculer le premier prol-ligne et le premier prol-colonne. (1 point) (c) Calculer leur masse (ou poids) respective pour complter les tableaux e Caractristique des points lignes (resp. colonne). (1 point) e (d) Calculer le prol dindpendance. (1,5 points) e (e) Commenter les valeurs prises par les valeurs singuli`res : importance e des deux axes lun par rapport ` lautre, par rapport au mod`le. (1,5 a e points)
28 (f) A quoi correspond lorigine du rep`re du graphique Points de lignes e pour Agessexe ? (1 point) 3. Commenter le graphique Points de ligne et de colonne (3 points) Deuxi`me partie Unicef (15 points) e Nous allons travailler dans cette deuxi`me partie sur des donnes relles qui e e e proviennent de la revue de lUnicef La situation des enfants dans le monde 1999. Les individus correspondent aux 10 pays dAfrique de louest les plus peupls. Les variables sur lesquelles nous allons travailler sont le PNB (Produit e National Brut) de 1996 en dollars. Les deux autres variables correspondent ` a lesprance de vie ` la naissance (en annes) en 1992 et en 1997. e a e 1. Analyse des 3 variables (a) Que pouvez-vous dire sur la prsence des deux variables EV97 et e EV92 dans lanalyse ? Vous prendrez bien soin de prciser sur quelles e sorties logiciel vous vous appuyer pour rpondre. (2 points) e (b) Tracer lboulis des valeurs propres. (1 point) e (c) Quelle dimension retenez-vous ici ? (1 point) (d) Ecrire la premi`re composante comme combinaison linaire des varie e ables initiales centres. (Quelles sont les valeurs de la combinaison e ?) (1,5 points) (e) Retrouver par calcul les coordonnes du Sngal dans le plan factoriel e e e 1-2. (Ne pas oublier de centrer.) (1,5 points) (f) Les individus sont ici quipondre. Que pouriez-vous proposer come ee me autre choix ? (1 point) 2. Dterminer les composantes principales de lACP centre rduite sur les e e e donnes des deux premi`res variables. On pourra utiliser en partie la e e matrice de corrlation fournie en annexe en justiant. (7 points) e P ays BurkF aso Cameroun CIvoir Ghana Guine X= M ali N iger N igeria Senegal T chad PNB 230 610 660 360 560 240 200 240 570 160 EV 97 46 56 51 58 46 . 48 48 52 51 48
282
ScAdd EstTot
0.5 0.5
11 16 2
19 5
C2
0.0
Dist
0.0
motion
C3
24 26 28 30 20 23 12 2129 3 27 9 18 22 15 14 4 10 6 1 13 8
0.5
0.5
1.0
1.0 C1
0.5
0.0
0.5
1.0
1.0
15
2
11 8 16
25 0 5 10 15 20
2 3 28 19 17 5 18 20 12 21 14
C3 0
24 26 13 101 22 27 6 9 29 3 C1 2 1 0 1 2 3 4 23 25 30 7
f1 f2 f3 f4 f5 f6 f7 f1 f2 f3 f4 f5 f6 f7
29
283
30
Symtrique Normalisation
0,8
INF1 1--5
0,6
H.G.
Arige
0,4
Dimension 2
SUP100
0,2
50--99 Gers
0,0
284
-0,2
Lot
-0,4
5--10
-0,6 -1,0 -0,5 0,0
0,5
Dimension 1
Page 4
Part III
285
31
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
286
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
33 Examen du mercredi 28 juin 2008 Examen de juin 2007 Examen du 27 juin 2006 Examen du lundi 6 juin 2005 Examen du 26 juin 2003
287
34
288
35 5. Voici une table correspondant aux frquences conjointes ainsi que les e frquences marginales. e y1 X/Y x1 0, 1 x2 0, 05 x3 0, 2 M arge 0, 35 y2 0, 2 0, 1 0, 05 0, 35 y3 M arge 0, 05 0, 35 0, 15 0, 30 0, 05 0, 35 0, 25 1
Avec les donnes prcdentes, le premier prol ligne est e e e (a) (0, 1; 0, 2; 0, 05). (b) (0, 35; 0, 05; 0, 25). (c) (0, 29; 0, 57; 0, 14).
Probl`me : Indice de fertilit en Suisse en 1888 (15 points) e e On sintresse aux 47 provinces francophones de Suisse pour lesquelles on e mesure le taux de fertilit (F ertility) ainsi que cinq dirents indices socioe e conomiques. e Ariculture : % dhommes dans un mtier li ` lagriculture ; e ea Examination : % de ayant eu la note maximale au test de larme ; e Education : % de ayant t au del` de lcole primaire; ee a e Catholic : % de catholiques ; Inf ant.mortality(IM ) : % denfants vivant ` la naissance et mourrant a dans leur premi`re anne. e e On eectue une ACP de ces donnes. Les sorties graphiques sont fournies e en annexe. 1. Expliciter trois mthodes pour dterminer le nombre daxes ` retenir en e e a ACP. Dterminer le nombre daxes ` retenir dans le cas de lACP eectue e a e ici. (2 points) 2. LACP est ici rduite comme elle lest usuellement. Pourquoi, ici cela est-il e vraiment ncessaire ? (1 point) e 3. Quelle est la matrice diagonalise dans cette ACP ? (1 point) e 4. Cercle des corrlations. e (a) Expliciter les composantes principales. (2 points) (b) Que pouvez-vous dire des variables Education et Examination ? (0,5 point)
289
36 (c) Que pouvez-vous dire des variables Education et Inf ant.M ortality ? (0,5 point) (d) De mme pour Education et Agriculture. (0,5 point) e (e) O` peut-on retrouver les trois rsultats prcdents ? (0,5 point) u e e e 5. Que pouvez-vous dire de la province de Val de Gen`ve (VDG) ? (1 point) e 6. Voici les direntes valeurs pour la province de Moudon. e (65.0; 55.1; 14; 3; 4.52; 22.4) Calculer ces coordonnes sur le premier plan factoriel et commenter ces e rsultats. (3 points) e 7. Quappelle-t-on eet taille et eet forme en ACP ? (1,5 point) 8. Ici les provinces sont equipondres. Que proposez-vous dautre ? (1,5 ee point)
290
> acp(X)$values ACP du tableau "X" sur variables reduites poids rep(1/nrow(x), nrow(x)), distance rep(1, ncol(x)) Inertie totale : 6
Cumul
f1 3.1997570
37 > round(acp(X)$vectors,2) f1 f2 f3 f4 f5 f6 F ert. 0.46 0.32 0.17 0.54 0.38 0.47 Agri. 0.42 0.41 0.04 0.64 0.37 0.31 Exam. 0.51 0.13 0.09 0.05 0.81 0.22 Educ. 0.45 0.18 0.53 0.10 0.07 0.68 Cath. 0.35 0.15 0.81 0.10 0.18 0.40 IM 0.15 0.81 0.16 0.53 0.10 0.07
291
38
Questions ` Choix Multiple a Total : (20 points). Cochez la lettre (a), (b) ou (c) correspondant ` la rponse qui vous a e para correcte. Une rponse correcte 1 point, une rponse fausse -0,5 t e e point. 1. On tudie des varits de moutons dont on rel`ve pour chacune deux e ee e mesures morphologiques. Quelle analyse pouvez-vous eectuer ` laide de a ces donnes ? (On supposera les donnes telles quelles, sans transformation e e quelconque avant lanalyse.) (a) Une analyse en composantes principales. (b) Une analyse factorielle des correspondances simple. (c) Une analyse factorielle des correspondances multiple. 2. A quoi correspond lorigine du rep`re dans la reprsentation des individus e e dune ACP ? (a) Le barycentre des individus. (b) Le prol dindpendance. e (c) La moyenne des variables initiales. 3. Sur le premier plan factoriel dune ACP, lindividu 1 a pour coordonne e (0, 05; 0, 95) et lindividu 2 a pour coordonnes (0, 05; 0, 95). On peut e dire des individus 1 et 2 ... (a) Quils sont fortement corrls ngativement. ee e (b) Quils ont des prols opposs. e (c) Quils contribuent fortement ` laxe 2. a 4. Dans le cercle des corrlations la variable X 1 a pour coordonnes e e (0, 1; 0, 89) et la variable X 2 a pour coordonnes (0, 89; 0, 1). On peut dire que e
292
1 2 3 Axes 4 5 6
39
SWISS : Eboulis
293
40
SWISS : Individus
Prrn
2
Ncht Crtl
Sarn
Glan Vvys
V.DG
C2 0
Broy Dlmn Pyrn FrM Lsnn Vevy Motr Gryr Avnc LLcl Nvvl Bdry VldT Yvrd VldR GrndModn RvGc Mnth Echl Sion Oron Mrtg Lavx RvDr Entr Mrgs Abnn Cssn Hrns StMr Pys' Sirr Nyon Aigl Roll Orbe Cnth LVll LChx 4 2 C1 0 2
294
41
In.M
0.5
Cthl
295
1.0
0.5
Agrc
1.0
0.5
0.0 C1
0.5
1.0
42 (a) X 1 est X 2 sont fortement corrles entre elles. ee (b) X 1 es fortement corrle avec la 1`re composante principale. ee e (c) X 1 est bien reprsente sur la 2`me composante principale. e e e 5. Dans les sorties logicielles dACP, on parle de valeurs propres. Soit nb le nombre de valeurs propres proposes dans les sorties. e (a) Il existe nb variables initiales. (b) Chacune des valeurs propres correspond ` une variable initiale. a (c) Cest le nombre dindividus de lanalyse. 6. Soient X et Y deux variables ayant respectivement 2 et 3 modalits. Quelle e est la grande dirence entre lAFC et lAFCM de ces deux variables. e (a) Lune est quantitative, lautre qualitative. (b) LAFCM permet la reprsentation des individus, lAFC non. e (c) LAFC permet la reprsentation des individus, lAFCM non. e 7. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. La taille du tableau de Burt est e e (a) 5 5. (b) 3 2. (c) 4 5. 8. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. La taille de la table de contingence est e e (a) 5 5. (b) 3 2. (c) 4 5. 9. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. La taille du tableau disjonctif complet est e e (a) 5 5. (b) 3 2. (c) 4 5. 10. Soient deux variables ayant respectivement 3 et 2 modalits. Et soit 4 e individus tudis. On eectue une analyse factorielle adapte aux donnes e e e e (ACP, AFC ou AFCM). Quel sera le nombre daxes crs ? ee (a) 2. (b) 3. (c) 4.
296
43 11. Dans la reprsentation simultanne dune AFC, ` quoi correspond lorigine e e a du repr`re ? e (a) Au prol dindpendance. e (b) Au barycentre des individus. (c) La modalit moyenne. e 12. En analyse factorielle des correspondances simples, les valeurs propres correspondent (a) A la variance des variables cres. ee (b) A des param`tres du mod`le sous-jacent ` lanalyse. e e a (c) A la variance des variables initiales. 13. En analyse en composantes principales, les valeurs propres correspondent (a) A la variance des variables cres. ee (b) A linertie des axes crs. ee (c) Linertie des variables initiales. 14. Soit T la table de contingence relative aux variables X et Y ayant respectivement I et J modalits. Soit n le nombre total dindividus tudis. e e e Soit DI , respectivement DJ , la matrice diagonale des poids des modalits e des variables X, respectivement Y . Les prols lignes sont obtenus par le calcul suivant. (a) (b) (c)
1 n 1 n 1 n 1 DI T . 1 T DJ . 1 T DI .
297
15. On eectue une AFC dont la valeur singuli`re associe au premier axe est e e gale ` 0,87. Quelle est la valeur possible pour le second axe. e a (a) 1,2. (b) 0,9. (c) 0,8. 16. Vous eectuez une ACP sur un tableau de taille n p. La r`gle de Kaiser e vous dit de ne concerver que les axes qui vrient e (a) Que le pourcentage dinertie cumul est suprieur ` 80%. e e a (b) Que la valeur propre associe est suprieure ` p . e e a 1 (c) Que le pourcentage dinertie associ est suprieur ` p . e e a 1 17. Vous eectuez une ACP et observer une cassure en dimension 3 dans lboulis des valeurs propres. La r`gle du coude vous indique de retenir e e
44 (a) Deux dimensions. (b) Trois dimensions. (c) Quatre dimensions. 18. Voici une table correspondant aux frquences conjointes ainsi que les e frquences marginales. e y1 X/Y x1 0, 1 x2 0, 05 x3 0, 2 M arge 0, 35 y2 y3 M arge 0, 2 0, 05 0, 35 0, 1 0, 15 0, 30 0, 05 0, 05 0, 35 0, 35 0, 25 1
Le vecteur (0, 35; 0, 30; 0, 35) correspond au (a) Prol ligne dindpendance. e (b) Prol colonne dindpendance e (c) Prol moyen. 19. Avec les donnes de la question prcdente, le premier prol ligne est e e e (a) (0, 1; 0, 2; 0, 05). (b) (0, 35; 0, 05; 0, 25). (c) (0, 29; 0, 57; 0, 14). 20. Dans la reprsentation simultanne dune AFCM, on observe deux points e e correspondant aux modalits dune mme variable sont diamtralement e e e opposs par rapport ` lorigine. Cela signie que e a (a) Les modalits sont indpendantes. e e (b) Les prols associs ont des carts ` lindpendance opposs. e e a e e (c) Les personnes ayant choisi ces modalits comme rponse, sont ope e poss. e
298
45
299
les rponses de 4 individus (correspondant aux 4 lignes) aux variables X 1 e a ` 3 modalits (1`re colonne) et X 2 ` 3 modalits (2nde colonne). Etablir e e a e X et T correspondant ` ces donnes. Rappeler ` quoi correspond les lignes a e a et les colonnes de X et de T . (2 points) 2. En utilisant les proprits du tableau disjonctif, crire le tableau des prols ee e lignes de X, not P LX , en fonction de X. Gnraliser pour le cas de p e e e variables qualitatives. (1,5 point)
46 3. De mme, crire le tableau des prols colonnes, not P CX , en fonction de e e e X et de D (ne pas utiliser lexemple numrique). (1,5 points) e 4. Par dnition de lAFC de X, les coordonnes des prols colonnes de X e e sont donnes par les vecteurs propres de la matrice M = (P CX ) P LX . e Montrer que 1 D1 P Im1 , M= 1 D2 P Im2 avec P = T /n. (3 points) 5. Soit u = (a|b) un vecteur propre de M associ ` la valeur propre avec ea a ses m1 premi`res composantes et b les m2 suivantes. Etablir un syst`me e e de 2 quations que vrient a et b. (2 points) e e 6. Rappeler les formules que vrient les coordonnes des lignes et des colone e nes de T dans la reprsentation simultanne de lAFC de T . On notera e e une valeur propre commune aux deux ACP relatives ` lAFC de T . (2 a points) 7. En dduire la relation liant les coordonnes des m1 + m2 points colonnes e e de X aux coordonnes des lignes et colonnes de T . (1 point) e Exercice 2: Bac et situation professionnelle (9 points) On contacte (donnes non relles) 68 anciens lycens ayant pass leur bac 5 e e e e annes plus tt (Littraire, Scientique, Eco & Social, Prof & Technologique) e o e pour leur demander leur situation professionnelle actuelle que lon regroupe en quatre catgories : Stage conventionn, Recherche demploi ainsi que Poursuites e e dtudes et Travail. Il est demand de bien prendre soin de spcier quelle(s) e e e sortie(s) logicielle(s) vous utilisez pour rpondre. e 1. Existe-t-il un lien entre le bac et la situation professionnelle ? (1 point) 2. Combien y a-t-il daxes possibles dans lAFC de ces deux variables ? Justier. (1 point) 3. Dterminer limportance relative des deux premiers axes. (2 points) e 4. Rappelez ` quoi correspond lorigine du rep`re de la reprsentation simula e e tanne. Correspond-il ` autre chose encore ? (1 point) e a 5. Quelle est la distance utilise dans la reprsentation de lAFC ? (1 point) e e 6. Commenter la reprsentation simultanne. (3 points) e e Annexe: Sorties SPSS (1 page).
300
47
Universit de Toulouse Le Mirail e Licence MASS - 21MAS34Analyse des donnes I e Examen du lundi 6 juin 2005 - Dure 1h30e Aucun document autoris. e
Notations et rappels On consid`re deux variables qualitatives X1 et X2 ayant respectivement I e et J modalits direntes. Ltude porte sur n individus. Soit T la table de e e e contingence T = (nij )1iI,1jJ . On notera
J I
ni. =
j=1
nij ,
J
n.j =
i=1
nij ,
I
fij =
nij , n
fi. =
j=1
fij ,
f.j =
i=1
fij ,
301
DI = diag(fi. , i = 1, . . . , I) ,
DJ = diag(f.j , j = 1, . . . , J) .
Soient A la matrice des prols-lignes, les prols-lignes correspondant aux lignes de A, et B la matrice des prols-colonnes, les prols-colonnes correspondant aux colonnes de la matrice B. On consid`re lAFC simple comme une double ACP, une ACP tant dtere e e mine par le triplet (X, D, M ), o` X est la matrice des donnes (individus e u e variables), D est la mtrique de lespace des variables, et M celle de lespace e des individus. On rappelle que les deux ACP qui dnissent une AFC simple, celle des e prols-lignes et celle des prols-colonnes, ont pour mtrique M la mtrique du e e Khi-deux, cest-`-dire que pour deux prols-lignes donns pl1 et pli la distance a e entre ces deux prols-lignes est donne par e
J
avec pli = (ai1 , ..., aiJ ) pour i = 1, . . . , I et de faon similaire pour les prolsc colonnes. On rappelle galement quune ACP dite gnralise, seectue en diagonale e e e isant la matrice X DXM . 1. Ecrire A et B en fonction de T , n, DI et DJ . 1 point 2. En dduire une relation entre A et B. 1 point e
48 3. Dterminer les matrices associes ` la mtrique du Khi-deux des prolse e a e lignes et des prols-colonnes. 2 points 4. Dterminer les matrices D de mani`re ` ce que les prols soient pondrs e e a ee par les frquences marginales correspondantes. 1 point e 5. Montrez queectuer lACP des prols-colonnes revient ` diagonaliser la a matrice B A . De mme, quen est-il pour lACP des prols-lignes.2 points e 6. Montrez que si u est vecteur propre de BA , associ ` la valeur propre ea ( = 0), alors v = A u est valeur propre de A B associ ` la mme valeur ea e propre. 1 point 7. Quen dduisez-vous sur les valeurs propres des deux ACP ? 1 point e 8. On note U la matrice des vecteurs propres de BA et V celle de A B, chaque vecteur propre correspondant ` une colonne de la matrice respeca tive. Soient galement CI et CJ les coordonnes des individus dans e e lACP des prols-lignes et dans celle des prols-colonnes respectivement. Ecrire CI et CJ en fonction de A, B, U , V , DI et DJ . 2 points 9. Etablir une relation entre U et V . On pourra ventuellement appele e e la matrice diagonale des valeurs propres = diag(1 , . . . , p ), avec p = min(I 1, J 1). (Attention on rappelle que les vecteurs principaux dune ACP doivent tre norms pour la mtrique correspondante ` lACP e e e a en question). 2 points 10. Etablir les formules, dites formule de transition, liant CI et CJ . 2 points 11. En vous reportant sur les formules de transition, justier le choix dune reprsentation simultane barycentrique pour lAFC. 3 points e e 12. Application : soit T la table de contingence suivante. 69 41 18 T = 172 84 127 . 27 11 43 Dterminer les prols-lignes et colonnes, les matrices Det M des ACP lies e e a ` lAFC. 3 points 13. Calculer les valeurs propres de lAFC. 2 points
302
49
303
Les valeurs propres de lACP : 1 = 14/2, 2 = 5/2, 3 = 3/2, avec pour vecteurs pricipaux : a1 = 1/ 3.(1 1 1) , a2 = 1/ 2.(1 0 1) , a3 = 1/ 6.(1 2 1) .
50 Exercice 2 : (10 points) Soit T la table de contingence suivante, croisant le Bac envisag et les e Options tudies par des collgiens de Toulouse. e e e Bac envisag : e 1: scientique 2: littraire e 3: conomique e 4: technologique 5: professionnel Choix des options : 1: latin 2: grec 3: occitan 13: latin et occitan
1. Donner le deuxi`me prol ligne et le premier prol colonne. e 2. A laide des sorties logiciel fournies, dterminer en prcisant quelle sortie e e vous utilisez, sil existe une dpendance entre les deux variables Bac et e Options . Quelle remarque avez-vous ` faire sur la validit de la sortie a e logiciel ? Quen concluez-vous sur lutilit dune AFC ? e 3. Rappeler le mod`le sur lequel sappuie lAFC. e 4. Quelle est la dimension totale du mod`le ? Justier. e 5. A laide des rsultats en annexe, quelle dimension retenez-vous ? e 6. Commenter le graphique superpos. e 7. En fait, les l`ves en eux mme constituent dans ltude un lment imee e e ee portant qui est cart par lutilisation de lAFC. Pourquoi, les l`ves non e e ee plus un rle premier dans lAFC ? Que proposez-vous comme mthode o e qui permette danalyser les correspondances des deux variables tout en conservant limportance porte aux individus ? e
304
Part IV
305
51
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
306
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
53 Partiel de septembre 2010 Partiel de septembre 2009 Partiel de septembre 2007 Partiel du jeudi 15 septembre 2005
307
54
Universit de Toulouse Le Mirail e ` Licence MASS 3eme MI0A20Y - Analyse des donnes I e Partiel de lundi 6 septembre 2010 - Dure 1h30 e
Prsentation/Rdaction : 1 point. e e Total : 21 points Probl`me : Fitness (13 points) e On dispose dun jeu de donnes sur 31 individus et concernant des rsultats e e de tests physiques simples comme le pouls au repos (prep), le pouls en course (pcou), le pouls maximum (pmax), le temps de course (temps) ainsi que la capacit ` consommer de loxyg`ne (oxy). Lge (age) et le (poids) pour chaque ea e a individus sont galement relevs. e e Vous trouverez en annexe les sorties du logiciel R relatives ` quelques tudes a e prliminaires ainsi quune ACP des donnes. e e Toutes les rponses devront tre justies et les sorties utilises pour rpone e e e e dre devront tre indiques ! e e 1. Donner lge moyen des 31 individus ainsi que lge du plus vieux et du a a plus jeune. (1,5 points) 2. Quelle est la variable la plus disperse autour de sa moyenne. (1 point) e 3. Quelle est la variable la plus corrle avec la variable Oxyg`ne ? (1 ee e point) 4. Quelles sont les variables les plus corrles ? (1 point) ee 5. Dites en quoi une ACP rduite est ncessaire ici. (1 point) Expliquer ce e e que lon pourrait observer si lACP ntait pas rduite. (1 point) e e 6. Dterminer le nombre daxes ` retenir ici. (2 points) e a 7. Quelle est la variable la mieux reprsente sur la premi`re composante ? e e e Et la deuxi`me ? Et sur le plan 1-2 ? (2,5 points) e 8. Quest-ce qui oppose les individus 12 et 24 ? Les individus 10 et 21 ? (2 points)
308
Exercice (7 points) 1. Expliquer ce quest un tableau disjonctif complet et quelle est sa dimension. (1 point)
55 2. Pourquoi la somme de chaque ligne dun tableau disjonctif donne toujours la mme valeur. Dites quelle est cette valeur. (1 point) e 3. Rappeler quels sont les graphiques usuels fournis par une AFC et ` quoi a servent-ils ? (2 points) 4. On a pour donnes, un tableau de n lignes correspondant aux individus et e p colonnes correspondant aux variables dont la plupart sont qualitatives et une quantitative. Que proposez-vous an deectuer une AFCM qui prendrait toutefois en compte cette derni`re variable ? (2 points) e 5. Dterminer ` quoi correspond lorigine des graphiques en AFC. (1 point) e a
Sorties logicielle R
> summary(X) age poids 38.00 59.08 44.00 73.20 48.00 77.45 47.68 77.44 51.00 82.33 57.00 91.63 oxy 37.39 44.96 46.77 47.38 50.13 60.05 tps 8.17 9.78 10.47 10.59 11.27 14.03 prep 40.00 48.00 52.00 53.45 58.50 70.00 pcou pmax 146.0 155.0 163.0 168.0 170.0 172.0 169.6 173.8 176.0 180.0 186.0 192.0
309
> diag(round(var(X),2)) age poids oxy tps prep pcou pmax 27.16 69.37 28.38 1.92 58.06 105.10 83.98 > cor(X) age poids oxy tps prep pcou pmax 1.00 0.23 0.30 0.19 0.16 0.34 0.43 0.23 1.00 0.16 0.14 0.04 0.18 0.25 0.30 0.16 1.00 0.86 0.40 0.40 0.24 0.19 0.14 0.86 1.00 0.45 0.31 0.23 0.16 0.04 0.40 0.45 1.00 0.35 0.31 0.34 0.18 0.40 0.31 0.35 1.00 0.93 0.43 0.25 0.24 0.23 0.31 0.93 1.00
> monacp$values f1 f2 f3 f4 f5 f6 f7 2.90 1.82 0.94 0.76 0.38 0.13 0.04 Voir la sortie logicielle R pour les donnes Fitness. e
56
Universit de Toulouse Le Mirail e ` Licence MASS 3eme MI0A20Y - Analyse des donnes I e Partiel des malades 2009 - Dure 1h30 e
AUCUN DOCUMENT AUTORISE. Prsentation/Rdaction : 1 point. e e Total : 24 points Rappelons quune ACP est une analyse seectuant ` partir dun triplet a (X, D, M ) o` X est le tableau des donnes de taille n p avec n le nombre u e dindividus et p le nombre de variables ; D, de taille n n, est la mtrique de e lespace des variables, ie Rn ; et M , de taille p p est la mtrique de lespace e des individus, ie Rp . Exercice 1 : ACP (8 points) 1. Quand est-il vraiment ncessaire deectuer une ACP centre rduite et e e e pas seulement centre ? (1 point) e 2. Rappeler quels sont les objectifs dune ACP. (1 point) 3. Donner les mtriques usuelles associes ` une ACP centre et justier. (2 e e a e points) 4. Quels sont les graphiques usuels fournis par une ACP et ` quoi servent-ils a ? (2 points) 5. Deux variables se trouvent tre en symtrie par rapport ` lorigine dans e e a leur graphique appropri. Quest-ce que cela veut dire ? Et si les deux e variables formaient un angle droit avec lorigine du rep`re ? Justier votre e rponse. (2 points) e Exercice 2 : AFC(8 points) 1. Une AFC peut tre vue comme une double ACP. Rappeler les lments e ee communs ` ces deux ACP. (1 point) a 2. Pourquoi 1 est-elle toujours valeur propre associe ` une AFC. (1 point) e a 3. On sintresse premi`rement ` lACP des prols lignes. e e a mtriques utilises en justiant. (2 points) e e Rappeler les
310
4. Rappeler quels sont les graphiques usuels fournis par une AFC et ` quoi a servent-ils ? (2 points)
57 5. Deux points-modalits, tous deux associs ` une variable dirente, se e e a e trouvent tre en symtrie par rapport ` lorigine. Quest-ce que cela veut e e a dire ? Et si ces deux points formaient un angle droit par rapport ` lorigine a ? On distinguera le cas o` les points sont proches ou loin de lorigine. (2 u points)
Exercice 3 : AFCM(7 points) 1. Expliquer ce quest un tableau disjonctif complet et quelle est sa dimension. (1 point) 2. Pourquoi la somme de chaque ligne dun tableau disjonctif donne la mme e valeur. (1 point) 3. On eectue lACP du tableau disjonctif complet. Quelles sont alors les mtriques utilises. (2 points) e e 4. Rappeler quels sont les graphiques usuels fournis par une AFC et ` quoi a servent-ils ? (2 points) 5. On a pour donnes, un tableau de n lignes correspondant aux individus et e p colonnes correspondant aux variables dont la plupart sont qualitatives et une quantitative. Que proposez-vous an deectuer une AFCM qui prendrait toutefois en compte cette derni`re variable ? (1 point) e
311
58
V ar(T1 ) = 20 V ar(T2 ) = 16 V ar(T3 ) =? Cov(T1 , T2 ) = 13 Cov(T1 , T3 ) = 7 Cov(T2 , T3 ) =? El`ves/Trimestres e Jean La e Pierre Eve Luc T1 12 4 8 10 16 T2 9 7 13 14 17 T3 11 11 15 16 17
312
1. Commencer par centrer les donnes. (0,5 point) e 2. Calculer les valeurs manquantes prcdentes. On justiera le choix entre e e les estimateurs corrigs ou non. (2 points) e 3. On souhaite eectuer une ACP. Donner numriquement la matrice ` diae a gonaliser en justiant le choix de cette matrice. (1 point) 4. On supposera que les valeurs propres sont les suivantes 1 = 2.52 2 = 0.48 3 = 1.92 103 . A quoi correspondent-elles pour lACP ? (0,5 point) 5. Dterminer la premi`re composante principale, et interprter-la. (2 points) e e e 6. On a a2 = (0.83 0.20 0.52). Interprter le second axe. (1 point) e 7. Quelles sont les coordonnes de Jean sur le premier axe factoriel ? (1 e point)
59 8. Voici les coordonnes des autres l`ves. Commenter la reprsentation des e ee e individus. (2 points) [, 1] [, 2] La e 8 2.5 Pierre 0.2 2.4 Eve 2.4 1.4 Luc 8 2.4 Exercice 2: AFC : vacances (7 points) On sintresse aux liens ventuels entre les Catgories Socioprofessionnelles, e e e que nous avons regroupes en trois grands groupes principaux, et le type dbere e gement choisi pour les vacances. Voici les rsultats de lenqute. e e CSP/Type G1 G2 G3 Hotel Camping Proches 24 32 53 25 32 23 42 23 23
1. On souhaite savoir sil existe rellement un lien entre les groupes dnis e e et le type dbergement. e (a) Quel outil va-t-on utiliser ?(0,5 point) (b) Les rsultats de loutil en question nous donne une p-valeur de e 3 103 ? Rappeler ` quoi correspond H0 et donner votre conclusion. a (1 point) (c) Eectuer une AFC a-t-il un sens ici ? Justier votre rponse. (1 e point) 2. (a) Calculer le premier prol-ligne. (0,5 point) (b) Calculer le prol-ligne dindpendance. (1 point) e 3. On eectue lAFC sur un tableau de donnes beaucoup plus important. e (a) On observe deux des trois groupes de CSP diamtralement oppos e e par rapport ` lorigine. Quest-ce que cela veut dire ? (1 point) a (b) On observe le troisi`me groupe au centre du graphique. Quest-ce e que cela veut dire ? (1 point) 4. De mani`re gnrale, faites le lien entre AFC et ACP. (1 point) e e e Exercice 3: AFCM : prl`vements deau (7 points) ee On eectue 10 prl`vements deau dans une rivi`re, eectus en amont ou ee e e aval dune conserverie. On distingue lendroit de prl`vement : 1 en Amont, ee 2 en Aval; le type de pollution dtecte : Chimique (C), Bactrienne (B), e e e
313
60 les deux (D), ou aucune (A); le moment o` ont t faits les prl`vements : M u ee ee Matin; S Soir. Les donnes sont les suivantes e Prl`vement ee 1 2 3 4 5 6 7 8 9 10 Endroit Pollution Moment 1 B M 1 C S 1 B S 1 B S 1 A M 2 D S 2 C M 2 C S 2 B S 2 B M
1. Quelle est la taille du tableau disjonctif complet X relatif aux donnes e prcdentes ?(0,5 point) e e 2. Donner les quatre premi`res lignes du tableau disjonctif complet. (1 point) e 3. Quelle est la taille du tableau de Burt B ?(0,5 point) 4. Donner les quatre premi`res lignes du tableau de Burt. (1 point) e 5. On souhaite eectuer une AFCM de ces donnes. De mani`re gnrale, e e e e quelle est la matrice ` diagonaliser. (On ne demande pas de calculer cette a matrice dans le cas de nos donnes !) (1,5 point) e 6. Combien daxes lanalyse prcdente cre-t-elle ? (1 point) e e e 7. Les axes crs sont rangs : premier axe factoriel, etc... Rappeler quel est ee e le crit`re de ce classement, autrement dit, en quoi le premier axe est-il le e plus important ? (1,5 point)
314
61
Universit de Toulouse Le Mirail e Licence MASS - 21MAS34Analyse des donnes I e Partiel du jeudi 15 septembre 2005 - Dure 1h30 e Aucun document autoris. e
Prsentation et rdaction : (1 point). e e Total : (27 points). Exercice 1 (20 points) Soit une population quipondre de n individus sur lesquels on a relev e ee e p mensurations x1 , ..., xp formant le tableau X ` n lignes et p colonnes. On a 2 suppose ce tableau centr. On note j = V ar(xj ) pour j allant de 1 ` p e a 1 ; D = (i,j j )1i,jp . Soit Z = XD . On a donc pour tout j = 1, ..., p zij = xij /j . On note Vx (resp. Vz ) la matrice de variance-covariance de X (resp. Z). 1. Que reprsente Z ? (1 point) e
1 1 2. Montrer que Vz = D Vx D . (2 points)
315
3. Que reprsente Vz pour X ? (1 point) e 4. Montrer que v est vecteur propre de Vz par rapport ` la valeur propre si a 1 et seulement si D v est vecteur propre de D 12 Vx associ ` . (2 points) ea
5. On choisit comme mtrique de R la mtrique dnie par D 12 et lon e e e suppose les lments non diagonaux de la matrice Vz tous gaux ` . ee e a Montrer que la matrice Vz admet un vecteur propre v colinaire ` o` e a u est le vecteur de Rp dont toutes les composantes sont gales ` 1. (2 e a points) 6. En dduire que la premi`re composante principale de lACP du tableau e e 1 X est donne par c1 = p (z 1 + ... + z p ). (2 points) e 7. Que pouvez-vous dire sur la seconde valeur propre et sur lespace associ e ? (2 points) 8. Quen dduisez-vous sur les axes principaux de lACP associs ? (2 points) e e 9. On suppose maintenant que = 1. Que pouvez-vous dire des individus ? (2 points)
62 10. Que vaut linertie du nuage des n individus par rapport ` lorthogonal de a laxe principal associ ` la deuxi`me valeur propre ? (2 points) ea e 11. Quel rsultat retrouve-t-on ? (2 points) e Exercice 2 : Questions de cours (7 points) 1. Que reprsente lorigine du rep`re dans une ACP centre-rduite ? (1 e e e e point) 2. Que reprsente lorigine du rep`re dans une AFC ? (1 point) e e 3. Dans la reprsentation simultane dune AFC, que signie deux points e e proches lun de lautre correspondant chacun ` une modalit dune variable a e dirente. Idem mais pour deux points correspondant ` une modalit e a e dune mme variable. Est-ce toujours vrai ? (3 points) e 4. Quel est le thor`me fondamental sur lequel repose lACP ? (2 points) e e
316
Part V
Sorties logicielles
317
63
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
318
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
65 Partiel de septembre 2010 : Sortie R pour les donnes Fitness (1 page) e Partiel de mars 2007 : ACP Cranes de Jussac (5 pages) Partiel davril 2006 : ACP Jury de Licence (4 pages) Examen de juin 2006 : AFC Bacs et Situations professionnelles (1 page) Partiel de mars 2005 : Unicef (2 pages) et Goux musicaux (4 pages) Examen de juin 2003 : Bacs envisag et Options choisies (1 page) e
319
66
1.0
10
oxy 4
0.5 30 2
2 3 16 29
C2
20
0.0
C2
11 27 8
0
1 7
prep
13 6 24 19 20 15 14 31 30 18 23 25 tps 17
1
12
10
0.5
age
2
f1 f1
f2 f2
f3 f3
f4 f4
f5 f5
f6 f6
f7 f7
1.0
21
320
321
Universit de Toulouse Le Mirail e ` Licence MIASHS 3eme MI0A20Y - Analyse des donnes I e Correction petit contrle janvier 2011 o
Total : 10 points
n (xi )2 x i=1 n x2 n i i=1 n
x2
n 2 n1 x
n (xi )2 x i=1 n1
x2 n i i=1 n1
3. (a) On a en tout 5 mesures, donc 5 variables initiales, on sait alors que la matrice de variance-covariance sera de taille 5 5 et quil y aura 5 valeurs propres. (b) Cf. prcdent e e (c) La r`gle de Kaiser consiste ` ne garder que les composantes prine a cipales dont la valeur propre associe est suprieure ` 1/p. Ici on e e a a p = 5 et les valeurs propres sont 1/2 1/4 qui sont bien > ` 1/5 a mais pas la troisi`me et donc ni les suivantes. On retient donc 2 e dimensions. (d) La somme des valeurs propres tant de 1, le pourcentage dinertie est e repectivement de 1/2=50% pour la premi`re dimension. e On a (1/2+1/4)=75% pour les 2 premi`res et les trois premi`res e e dpassent 80% donc on ne conserve que les 2 premi`res. e e 4. Les valeurs propres correspondent aux variances des variables nouvellement cres : k = V ar(C k ). e 5. La variable Cthl est la moins bien reprsente car elle est la plus proche e e de lorigine (la plus loigne du cercle de corrlation). e e e 6. La premi`re composante principale est approximativement e C1 7. C 2 ln.M Agrc. (F rtl + Agr) (Exmn + Edct).
322
Exercice 1:Question de cours (4 points) 1. La mtrique du Khi-deux. e 2. Le prol-ligne moyen est identique au prol-ligne dindpendnace et core respond au prol-ligne des eectifs marginaux de la seconde variables, ie (f1 , . . . , fJ ). De mani`re symtrique, le prol-colonne moyen est idene e tique au prol-colonne dindpendance et correspond au prol-colonne des e eectifs marginaux de la premi`re variable, ie (f1 , . . . , fI ). e 3. On a Tind ij = i. n .j avec ni. = j nij , n.j = i nij et n = i,j nij . Avec les donnes fournies dans lnonc, on a pour eectifs marginaux e e e 5 2 10 17 4 7 8 19 9 11 12 4 3 5 24 20 29 25 26 80
n n
323
On aura donc comme premi`re ligne pour Ti nd e ( soit (6, 16; 6, 89; 8, 7; 7, 25). Exercice 2: Vacances (9 points) 1. (a) On va eectuer un test du khi-deux dindpendance. e (b) La p-valeur tant de 3 103 , ie de 3 pour mille, elle est infrieure e e aux seuils usuels de 5% et mme 1%, on rejette lhypoth`se H0 core e respondant ` Les deux variables sont indpendantes. a e (c) Lhypoth`se dindpendance tant rejete, il existe des liaisons entre e e e e les modalits des deux variables, il est donc intressant deectuer e e une AFC an de conna quels sont ces liens. tre 2. (a) Ces deux groupes ont un prol oppos, ie que les individus ayant e rpondu appartenir ` ces groupes rpondent de faon dirente ` la e a e c e a variable type de vacances. 17 29 19 29 24 29 20 29 ; , ; ) 80 80 80 80
4 (b) Le troisi`me groupe tant au centre du graphique, son prol est e e proche de celui de lindpendance. e (c) Il y a indpendance entre G1 et Hotel. e (d) Le mod`le abord dans le cours est le suivant e e pij = pi qj +
k
sk uik vjk .
(e) Langle droit entre G1 et Hotel indique un produit scalaire nulle qui correspond justement ` k sk uG1,k vHotel,k . De l` a a pG1,Hotel = pG1 qHotel qui correspond ` lindpendance. a e 3. LAFC est une double ACP, des prols-lignes dune part et des prolscolonnes dautre part. Ces deux ACP ont en commun les valeurs propres ainsi que la reprsentation des modalits en temps quindividus dans e e la premi`re ACP qui se retrouve tre celle des modalits en temps que e e e variables dans la seconde ACP et inversement. Exercice 3: Jeux vido (5 points) e 1. Mthode de linertie : il faut aller jusqu` 4 axes pour totaliser 80% de e a linertie totale. R`gle de Kaiser : il y a en tout 7 variables, on ne retient donc que les trois e premiers axes qui ont tous une inertie suprieure ` 1/7=14%. e a R`gle du coude : en eectuant le graphique des inerties, on observe une e lg`re cassure en 4, on retient donc 3 axes. e e Conclusion : on retiendra 3 axes, en gardant ` lesprit que cela ne totalise a que 70% de linformation totale. 2. Les axes : le premier axe oppose la tche, lestime de soi ` lvitement et ` a a e a la variable Dist (voir aussi DivSoc). Le second axe re`te princiaplement le e score daddiction auquel on peut rajouter lestime de soi et ventuellement e la variable DivSoc. Le troisi`me axe re`te lmotion. e e e 3. Nuage des individus : lindividu 8 est atypique dans les trois dimensions. Il est plutt fort en Emotion et faible en Score daddiction et il a un o cart beaucoup plus important que la moyenne entre (Dist, DivSoc) et e (Estot, Tche). Lanalyse doit tre refaite sans cet individu. La troisi`me a e e dimension fait appara lindividu 15 comme atypique dun point de vue tre Emotion alors quil est le reet de la moyenne dans les deux premi`res e dimensions. Il inue fortement sur la cration de ce trois`me axe. A e e nouveau, on peut lliminer et vrier la stabiliter de ce 3`me axe. On e e e nobserve pas de groupe particulier dindividus.
324
5 Exercice 4: Petits programme R 1. rat est gal au nombre de lignes de T c et donc au nombre de modalits e e de la premi`re variable et chat au nombre de colonnes et donc au nombre e de modalits de la seconde variable. e 2. lion est la taille de lchantillon. e 3. vache est le vecteur des eectifs marginaux de la premi`re variable. e 4. buse est la matrice des prols-lignes. 5. dinde est un vecteur fait que de 1 et de taille gale au nombre de modalits e e de la premi`re variable. e
325
Universit de Toulouse Le Mirail e ` Licence MIASHS 3eme MI0A20Y - Analyse des donnes I e Correction du partiel de septembre 2009
Exercice 1 : ACP (8 points) 1. Des variables ayant des variances tr`s direntes entrainent un biais dans e e lACP qui aura tendance ` privilgier les varaibles ayant une forte varia e ance. Cela ne peut-tre de plus quun eet purement articiel : une e variable poids, exprime en kg plutt quen tonne dans votre tableau de e o donnes ne vous donnera pas la mme composante principale. Dans le pree e mier cas, la variance sera 106 fois plus importante et cette variable sera prise en compte de faon plus importante dans la cration de la premi`re c e e composante principale. 2. Un des objectifs de lACP est la cration de nouveau axes (nouvelles varie ables), combinaison linaire des variables initiales et ralisant les variances e e les plus grandes possibles (on y voit plus clair !), et non corrles les unes ee aux autres. Les nouvelles variables tant ordonnes par ordre dcroissant e e e suivant la variance, on peut se limiter aux premi`res qui sont les plus ime portantes et eectuer ainsi une rduction de donnes qui permet galement e e e dy voir plus clair. 3. La mtrique de lespace des variables, Rn , est In /n car, en gnral, tous e e e les individus sont supposs quipondrs. La mtrique des individus, Rp , e e ee e est en gnral Ip , ou bien la matrice diagonale inverse des carts-types des e e e variables dans le cas dune ACP rduite an de contrecarrer les probl`mes e e lis ` des variances htrog`nes. e a ee e 4. Les graphiques usuellement fournis lors dune ACP sont : lboulis des e valeurs propres (ou scree-graphe), le cercle des corrlations et la reprsene e tation des individus. Le premier permet de dterminer le nombre daxes ` e a retenir, le second dinterprter les nouveaux axes et le dernier de voir les e individus dans le nouveau rep`re. e 5. Deux variables en opposition avec lorigine du rep`re dans le cercle des e corrlations sont fortement corrles ngativement. Bien sr, cela sous e ee e u entend quelles sont bien reprsentes sur le cercle, ie quelles sont proches e e du cercle et non pas proches de lorigine. Si elles formaient un angle droit, elles seraient alors non corrles. ee
326
7 Exercice 2 : AFC(8 points) 1. Les lments communs sont les valeurs propres qui sont identiques dans les ee deux ACP. De plus, la reprsentation des prols-individus dans la premi`re e e ACP correspond ` celle des prols-variables dans la seconde et inversea ment. 2. Dans le mod`le pij = e a ` lindpendance e
K k=0 sk
pij = pi qj , avec s0 = 1, uki = pi , vkj = qj et les autres termes, pour k > 1, correspondent aux termes correcteurs dautant plus important que les variables sont lies. Le terme li ` linde ea e pendance tant toutjours prsent dans le mod`le, 1 est toujours valeur e e e propre. 3. Pour lACP des prols lignes, le tableau de donnes est de taille I J avec e I le nombre de modalits de la premi`re variable et J celui de la seconde e e variable. Les prols lignes ne sont pas quipondrs mais dautant plus e ee important que la modalit en question est bien reprsente (beaucoup e e e de rponses correspondent a cette modalit). La mtrique est donc la e ` e e matrice diagonale, I I des frquences marginales de la premi`re variable e e D = diag(f1. , . . . , fI. ). La distance entre prol est la distance du Khi-deux : M = D2 = diag(1/f.1 , . . . , 1/f.J ) de taille J J. 4. Les graphiques usuels sont lboulis des valeurs propres et la reprsentation e e des prols-lignes et des prols-colonnes. Le premier permet de dterminer e la dimension ` retenir et les suivants ` mettre en vidence les liaisons entre a a e modalits. e 5. Deux modalits, une pour chaque variable, tant en opposition par rape e port ` lorigine mettent en vidence que les personnes ayant rpondu ` la a e e a modalit de la premi`re variable auront plutt tendance ` ne pas rpondre e e o a e a ` lautre modalit de la seconde variable. Ceci est valable si les pointse modalits sont loin de lorigine du rep`re. Si les points sont proches de e e lorigine on ne peut rien dire, ou si ils sont vraiment proches, alors cest quils ont un prol proche de lindpendance. e Si les points-modalits forment un angle droit, cest quil ny a pas de e liaison entre eux.
327
Exercice 3 : AFCM(7 points) 1. Un tableau disjonctif complet correspond aux indicatrices (0 ou 1) associes aux variables qualitatives. Par exemple, pour 2 variables qualitae tives ayant chacune respectivement 2 et 3 modalits, le tableau disjonctif e
8 complet poss`dera 2+3=5 colonnes, une colonne par modalit pour chaque e e variable. Pour chaque individu-ligne, un 1 est mis dans les colonnes correspondant aux modalits prises par lindividu, et 0 ailleurs. Pour un e exemple numrique, voir le Chapitre 3 du cours. e 2. Chaque individu ayant une et une seule modalit par variable, il y aura e donc autant de 1 que de variable pour chaque individu, ie pour chaque ligne. Ainsi, la somme de chaque ligne est elle gale au nombre de varie ables. 3. La notion dindividu statistique de ltude eectue est conserve dans e e e lAFCM, contrairement ` lAFC simple o` lon parle deectifs croiss a u e et de prols. Les individus sont en gnral quipondrs et la mtrique e e e ee e e associe ` lespace des variables, Rn , est donc D = In /n. La mtrique e a utilise pour lespace des individus, Rm , avec m correspondant ` la somme e a de toutes les modalits, ie le nombre dindicatrices et le nombre de colonnes e du tableau disjonctif complet, est la mtrique du Khi-deux, comme dans e lAFC. 4. Les graphiques usuellement fournis par lAFCM sont lboulis des valeurs e propres, la reprsentation des points-modalits et celle des individus dans e e le nouveau rep`re. e
328
329
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
330
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Contents
1 Coecient 1.1 Quand et pourquoi . . . . . . . . . . . . 1.2 Eectifs attendus sous lindpendance et e 1.3 Calcul du . . . . . . . . . . . . . . . . 1.4 Interprtation . . . . . . . . . . . . . . . e 7 7 7 8 8 9 9 9 10 10 11 12 12 12 13 13 14 17 17 17 19 21 21
. . 2 . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
2 Test du Chi-deux dindpendance e 2.1 Quelques remarques avant de commencer 2.2 Quand . . . . . . . . . . . . . . . . . . . . 2.3 Pourquoi . . . . . . . . . . . . . . . . . . . 2.4 Statistique de test . . . . . . . . . . . . . 2.5 Les conditions de Cochran . . . . . . . . . 2.6 Degr de libert . . . . . . . . . . . . . e e 2.7 Seuil . . . . . . . . . . . . . . . . . . . . 2.8 p-valeur . . . . . . . . . . . . . . . . . . . 2.9 Conclusion . . . . . . . . . . . . . . . . . 2.10 Aller plus loin . . . . . . . . . . . . . . . . 2.11 Programmation R . . . . . . . . . . . . . 3 Coecient de corrlation linaire e e 3.1 Nuage de points . . . . . . . . . 3.2 Covariance . . . . . . . . . . . . 3.3 Coecient de corrlation linaire e e 3.4 Droite des moindres carrs, DX/Y e 3.5 Programmation R . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
331
. . . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
CONTENTS
332
Introduction
Vous touverez dans ce petit fascicule des ches abordant des notions, voir des complments, utiles ` la comprhension du cours danalyse des donnes. Ces e a e e dirents points ont t abords, soit trop rapidement au cours des annes e ee e e prcdentes, soit dans un pass un peu trop lointain pour certains. e e e Il regroupe pour lessentiel le cas dtude bivarie, cest-`-dire de deux varie e a ables ` la fois. Dirents cas se dclinent suivant le type des variables. a e e
333
Anova : analyse de la variance (comparaison de groupe). : coecient 2 : test du Chi-deux dindpendance. e Ccl : coecient de corrlation linaire. e e DX/Y : droite de rgression des moindres carrs de X par Y . e e Le premier cas ne sera abord que superciellement ` laide de graphiques e a appropris. Lanalyse de la variance tant aborde en cours de mod`le linaire e e e e e en M1 ISMAG. Pour deux variables qualitatives, on peut se poser la question de lexistence ou non dun lien ventuel entre les modalits des deux variables. Les outils statise e tiques utiliss alors sont le coecient si lon ne sintresse quaux individus e e tudis, et le test du chi-deux dindpendance si lon cherche ` rpondre ` la e e e a e a question pour lensemble de la population, au travers de ltude dun chantillon. e e Ltude de deux variables quantitatives peut tre aborde par le coecient e e e de corrlation linaire permettant dvaluer le degr de liaison linaire entre les e e e e e deux variables. Suite ` cette valuation, on peut tre amen ` modliser les a e e e a e donnes par une droite de rgression, comme la droite des moindres carrs. e e e
CONTENTS
334
Chapter 1
Coecient
Deux variables QUALItatives sur lensemble de la population.
1.1
Quand et pourquoi
335
On sintresse ` DEUX variables alatoires QUALITATIVES sur un ene a e semble dindividus N tudi dans sa totalit. La question que lon se pose est e e e de savoir sil existe des liens entre les modalits des deux variables pour ces e individus tudis. e e Exemple 1 (Sexe et Session, les variables) Soient X, le sexe, et Y , la session dobtention du diplme, pour les tudiants du Mirail, avec pour modalits, H o e e (Homme) et F (Femme) pour Sexe et J (Juin), S (septembre) et A (anne(s) e suivante(s)) pour Session. On note I le nombre de modalits de la variable e X (ici I = 2) et J celui relatif ` la variable Y (ici J = 3). a
1.2
Notons nij les eectifs observs pour les modalits i et j de respectivement e e X et Y et n les eectifs attendus sous lINdpendance (dits aussi eectifs e ij thoriques), ni. et n.j les eectifs marginaux et N la taille de la population. e Rappelons que n = ij ni. n.j . N (1.1)
On appelle Chi-deux, que lon notera K, la mesure suivante de la dirence e globale entre les deux tableaux deectifs thoriques et observs. On a e e 2 =
i,j
(nij n )2 ij n ij 7
(1.2)
CHAPTER 1. COEFFICIENT
1.3
Calcul du
Il est clair que la valeur du Chi-deux ne peut reter ` elle seule de lcart entre e a e ce qui devrait tre si lindpendance est vrie et ce qui est observ. Le nombre e e e e e de modalits des deux variables rentrent bien sr en jeu puisquil intervient dans e u le nombre de termes de la somme du Chi-deux. On appelle degr de libert, not la plupart du temps , la quantit suivante e e e e min(I, J) 1 avec I le nombre de modalits de la premi`re variable et J de la seconde. e e On dnit le coecient suivant e = 2 N
1.4
Interprtation e
336
Chapter 2
2.1
337
Notez bien que, malgr un nombre important de points communs entre e les deux tests, quil sagit ici du test du Chi-deux dindpendance (relatif e a ` deux variables qualitatives), et non du test du Chi-deux dajustement, ou dadquation (relatif ` une variable qualitative et une distribution de e a rfrence). ee Le test du Chi-deux est un test dit non paramtrique, cest-`-dire indpene a e dant de la loi de la ou des variables alatoires considres. e ee On travaille ici sur une partie de la population, un chantillon, contrairee ment au chapitre prcdent sur le coecient ou ltude est eectue sur e e e e lensemble de la population.
2.2
Quand
On sintresse ` DEUX variables alatoires QUALITATIVES. e a e Exemple 2 (Sexe et Session, les variables) Soient X, le sexe, et Y , la session dobtention du diplme, pour les tudiants du Mirail, avec pour modalits, H o e e (Homme) et F (Femme) pour Sexe et J (Juin), S (septembre) et A (anne(s) e suivante(s)) pour Session. On note I le nombre de modalits de la variable e X (ici I = 2) et J celui relatif ` la variable Y (ici J = 3). a 9
10
2.3
Pourquoi
La question que lon se pose est de savoir sil existe des liens entre les modalits e des deux variables sur lensemble de la population alors que lon observe quune partie de cette population au travers de lchantillon. Voici ci-dessous direntes e e faon de formuler cette question dans le cas de lexemple du Sexe et de la Session. c Conna le sexe de ltudiant nous renseigne-t-il sur la session dobtention tre e du diplme ? o La session dobtention du diplme dpend-t-elle du sexe de ltudiant ? o e e Dans le test du Chi-deux dINdpendance, on choisit de privilgier e e lINdpendance, cest-`-dire lABSENCE de LIAISON entre les moe a dalits des deux variables. On pose donc comme hypoth`se privilgie e e e e (dite galement hypoth`se nulle) e e H0 = {X et Y sont INdpendantes, } e tant sous-entendu sur la population tudie. e e e
2.4
Statistique de test
338
Le calcul de la statistique seectue ` la laide de la table de contingence (dite a aussi tableau des eectifs croiss). Ces eectifs doivent tre compars ` ceux ate e e a tendus si H0 est vraie, cest-`-dire sous lINdpendance. Notons nij les eectifs a e observs pour les modalits i et j de respectivement X et Y et n les eece e ij tifs sous lINdpendance (dits aussi eectifs thoriques), ni. et n.j les eectifs e e marginaux et n la taille de lchantillon. Rappelons que e n = ij ni. n.j . n (2.1)
La statistique de test, notons la K, correspond ` une mesure de la dirence a e entre les deux tableaux deectifs. On a K=
i,j
(nij n )2 ij n ij
(2.2)
Exemple 3 (Sexe et Session, les eectifs) Prenons les eectifs observs pour le Sexe et la Session dobtention du diple o me du tableau ci-dessous pour un chantillon de 1000 tudiants du Mirail. On e e a la table de contingence suivante Sexe/Session F H Total J S A 510 60 30 330 60 10 n.J = 840 n.S = 120 n.A = 40 Total nF. = 600 nH. = 400 n = 1000
2.5. LES CONDITIONS DE COCHRAN Calculons par exemple nJ . On a F nJ = F 600 840 nF. n.J = = 504. n 1000
11
On en dduit le tableau des eectifs attendus sous lINdpendance. e e Sexe/Session F H Total On a donc ici K = J S A 504 72 24 336 48 16 n.J = 840 n.S = 120 n.A = 40 + ... +
(1610)2 16
(504510)2 504
= 8, 9286.
Notez bien que les eectifs marginaux du tableau des eectifs sous linde pendance sont les mmes que ceux de la table de contingence initiale. e De plus, les eectifs sous lindpendance ne sont pas toujours des entiers. e Lerreur habituelle consite a diviser par les eectifs observs au lieu des ` e eectifs thoriques dans le calcul de K. e Savoir si nos observations correspondent ou non ` lindpendence revient ` a e a valuer si cette statistique, qui mesure la dirence entre eectifs observs et e e e attendus, est grande ou pas. Travaillant sur un chantillon et non la population e toute enti`re, mme si lindpendance est bien assure sur la population, on ne e e e e peut pas sattendre ` ce que K = 0 pour tout chantillon. (Cela correspondrait a e exactement ` nij = n .) Cependant, une valeur de K vraiment grande, ne peut a ij pas tre explique par le simple fait de lchantillonnage, et re`tera le fait que e e e e les eectifs attendus ne suivent pas lindpendance. e La question est donc, quappelle-t-on une grande valeur de K ?
339
2.5
Eectuer le test du Khi-deux dindpendance ncessite de vrier quelques hye e e poth`ses qui portent sur les eectifs thoriques (et non pas les eectifs observs). e e e 1. Aucun eectifs thoriques ne doit tre gale ` 0. e e e a 2. il ne doit pas y avoir plus de 20% deectifs thoriques infrieurs ` 5. e e a Souvent, ces conditions ne sont pas remplies lorsquil y a peu dindividus et trop de modalits. On peut rsoudre le probl`me en regroupant deux modalits e e e e susemment proches. On a aussi le cas ou une modalit correspond ` tr`s peu e a e dindividus et il est possible denvisager la suppression de ces individus, apr`s e les avoir comments bien sr, ce qui entraine la suppression de la modalit en e u e question. Si les conditions ne sont toujours pas remplies, la poursuite du test est compromise.
12
2.6
Degr de libert e e
Il est bien clair que plus il y a de termes (au nombre de I J) au signe somme dnissant la statistique K, plus la valeur de K sera grande. En fait, le degr e e de libert (Degree of freedom, df ) est = (I 1) (J 1) et correspond au e nombre de cases libres dans la table de contingence sous la contrainte des eectifs marginaux donns. e Exemple 4 (Sexe et Session, degr de libert) e e Reprendre la table de contingence ci-dessus en ne concervant que les ligne et colonne Total. Remplir au hazard 2 cases (on a bien = (2 1) (3 1) = 2). Toutes les autres cases seront dduites par le fait que la sommes des e lignes (respectivement colonnes) doivent correspondre aux eectifs ligne (resp. colonne) marginaux. = 2.
2.7
Seuil
340
En gnral, on choisit pour seuil = 5% ou bien = 1%. On peut voir le seuil e e de direntes faons. e c Cela revient ` caractriser ce qui est exceptionnel. Si vos observations ont, a e sous lhypoth`se dINdpendance H0 , moins de 5 chances sur 100 (pour e e = 5%) dtre ralises, on peut qualier ces observations dexceptione e e nelles, autrement dit en dsaccord avec ce qui est attendu. e Le seuil est aussi appel le risque de premi`re esp`ce, dit rique de rejeter e e e H0 ` tord. En eet, sur une population de 1000 tudiants compose de a e e 50% de garons et de 50% de lles, les chances de tomber sur un chantillon c de taille 10 compos uniquement de lles ne sont pas nulles. Ce genre e dchantillon non reprsentatif de la population nous am`ne ` de fausse e e e a conclusion, comme il ny a pas autant de lles que de garon dans la c population. Choisir le seuil, cest choisir le risque que lon sautorise. = P [Rejet de H0 |H0 vraie].
2.8
p-valeur
Les logiciels fournissent la p-valeur (ou signication statistique) qui correspond a ` la probabilit de vos observations, sous lhypoth`se H0 . On a e e p = P [2 > K|H0 vraie] avec 2 une variable alatoire suivante la loi du Chi-deux avec degrs de libert e e e et K la valeur de la statistique pour les observations donnes. e Cette p-valeur est ` rapprocher du seuil . a
2.9. CONCLUSION
13
Densit du Chideux
f(k)
0.00
0.01
0.02
0.03
0.04
0.05
0.06
10
20 k
30
40
50
2.9
Conclusion
341
Pensez ` conclure en deux tapes. a e 1. Rejet ou non de H0 : dans notre exemple, on a p = 0, 0115 soit 1, 15%. Avec un choix de = 5%, nos observations sont trop exceptionnelles car p < (p trop proche de 0), cest-`-dire en dsaccord avec H0 . On rejette a e donc H0 au seuil de 5%. Pour un choix de = 1%, on a des observations qui ne sont plus aussi exceptionnelles puisque p > . Dans ce cas, H0 nest pas rejete (absence e de contradiction) ; on dira que H0 est accepte. e 2. Formulation : Pour un choix de = 5%, on rej`te donc lindpendance, e e cest donc quil existe un lien entre le sexe de ltudiant et la session e dobtention du diplme. Pour = 1%, acceptez H0 revient ` dire que o a les deux variables sexe et session dobtention sont indpendantes lune de e lautre.
2.10
Si H0 est rejete, cest-`-dire que lon met en vidence lexistence de liaisons e a e entre les modalits des deux variables, on peut vouloir conna quelles sont ces e tre liaisons. Lanalyse factorielle des correspondances (AFC) permet de rpondre ` e a cette question. Lorsque le nombre de modalits est faible, lexamen de la table e
14
de contingence, et surtout des prols ligne et colonne en comparaison des prols dindpendance, peut sure. e Exemple 5 (Sexe et Session, prols lignes) Voici le tablau des prols lignes associs aux eectifs observs. e e Sexe | Session J S A F 0, 85 0, 10 0, 05 H 0, 825 0, 15 0, 025 0, 84 0, 12 0, 04 Total 1 1 1
On voit que les lles ont un plus tendance ` avoir leur diplme en juin (85%) a o quattendu sous lindpendance (84%), alors que les garons ont plus tendance e c ` lobtenir en septembre (15% par rapport ` 12% attendus) quen juin (82,5% a a contre 84%). Bien sr les carts ici ne sont pas agrants, cela vient du fait que u e nous rejettons H0 avec = 5% mais non avec = 1%. Faire de mme avec les prols colonnes. e
2.11
Programmation R
342
Voici une petit programme R permettant deectuer un test de Chi-deux dinde pendance. # Rentre des donnes de la table de contingence TC e e TC=matrix(ncol=3,nrow=2) TC[1,]=c(510,60,30) TC[2,]=c(330,60,10) n=sum(TC) # calcul de la taille chisq.test(TC) # lancement du test chisq.test(TC)$expected # pour avoir les effectifs thoriques e # Calculs des profils lignes PL=TC # on crer une matrice PL ayant les m^mes dimensions que TC e e for (i in 1:2) for (j in 1:3) PL[i,j]=TC[i,j]/sum(TC[i,]) Et voici les sorties > chisq.test(TC) Pearsons Chi-squared test data: TC X-squared = 8.9286, df = 2, p-value = 0.01151 > chisq.test(TC)$expected [,1] [,2] [,3] [1,] 504 72 24
2.11. PROGRAMMATION R [2,] 336 48 16 > PL [,1] [,2] [,3] [1,] 0.850 0.10 0.050 [2,] 0.825 0.15 0.025
15
343
16
344
Chapter 3
345
3.1
Nuage de points
Le moyen simple pour apprcier une ventuelle liaison (linaire, comme quadrae e e tique, ou autre) entre deux variables est deectuer le nuage des points (x, y) = (xi , yi )i=1,...,n . La gure 1 prsente quatre types dirents de nuages. e e Le premier correspond ` labsence de liaison (linaire ou autre). a e Pour le second, il y a certes une absence de liaison linaire en moyenne e mais pas en dispersion. On remarque la prsence dune liaison linaire dans le troisi`me cas, avec e e e la prsence dune ellipse croissante. e Il existe une liaison dans le dernier cas, mais pas de type linaire. e
3.2
Covariance
Cov(X, Y ) = E [(X E[X]) (Y E[Y ])] = E[X Y ] E[X] E[Y ]
18
1er cas
2nd cas
346
Figure 3.1: Dirents types de nuages de points : Le premier cas core respond ` labsence de liaison (linaire ou autre). On observe une absence de a e liaison linaire en moyenne mais pas en dispersion dans le second. Il existe une e liaison linaire positive dans le troisi`me cas. Le dernier cas correspond ` une e e a liaison de type non linaire. e
3.3. COEFFICIENT DE CORRELATION LINEAIRE Pour un n-chantillon, la covariance empirique est donne par e e Cov(x, y) = 1 n
n
19
xi yi
i=1
1 n
xi
i=1
1 x
yi
i=1
qui peut galement se noter comme suit e Cov(x, y) = xy x y . La covariance mesure le degr de variation commune. e Proprits de la covariance e e 1. Cov(X, X) = V ar(X). 2. Cov(a, X) = 0, avec a une constante. 3. Cov(aX, bY ) = ab Cov(X, Y ). 4. X et Y indpendantes Cov(X, Y ) = 0. e 5. Si X et Y sont gaussiennes, alors on a lquivalence e X et Y indpendantes Cov(X, Y ) = 0. e Le dfaut majeur de la covariance est quelle est sensible au choix dchelle. e e Prenons par exemple P , le poids des enfants exprim en kg et P le mme poids e e exprim en g. On a P = 103 P do` Cov(P, T ) = 103 Cov(P, T ). e u On dnit le coecient de corrlation linaire qui palie ` ce probl`me. e e e a e
347
3.3
Le coecient de corrlation linaire (ccl), usuellement not r ou , est dnit e e e e comme suit Cov(X, Y ) = [1; +1]. X Y Proprits du coecient de corrlation linaire e e e e
1. 1 +1. 2. || = 1 X = aX + b, cest-`-dire liaison linaire parfaite entre les deux a e variables. 3. 0, absence de liaison linaire. Attention, car labsence de liaison e linaire, ne veut pas dire absence de liaison. On a par exemple (X, X 2 ) = e 0.
20
A 0 0,8
X Y Y 0 y = x 0,95
348
X
Figure 3.2: Dirents exemples de coecient de corrlation linaire : e e e Le second cas correspondant au nuage A plus un point isol montre la sensibilit e e du ccl aux points extrmes. Cet outil nest donc pas robuste et ne doit pas tre e e utilis de mani`re inconsidre. e e ee En gnral, la liaison linaire est apprcie comme suit (LL pour liaison linaire). e e e e e e = 0 absence de LL. 0 < || 0, 3 faible LL. 0, 3 < 0, 8 LL moyenne positive. 0, 3 < 0, 8 LL moyenne ngative. e 0, 8 < 1 forte LL positive. 0, 8 < 1 forte LL ngative. e La gure 2 donne quelques exemples de nuages de points avec les cocients e de corrlation linaire qui leur sont associs. e e e
21
3.4
Bien que lon puisse toujours dterminer la droite des moindres carrs pour un e e ensemble dobservations, ceci na vraiment de sens que dans le cas ou il existe une forte liaison linaire entre les deux variables. e La droite des moindres carrs est la droite qui se trouve conjointement la e plus proche de tous les points (xi , yi ). Soit Y = aX + b lquation de la droite e n DX/Y . On a alors i=1 [yi (axi + b)]2 qui est minimum, avec yi lordonne e observe pour xi et axi + b lordonne estime par la droite. e e e La droite des moindres carrs (ou droite de rgression linaire simple) est e e e dtermine de la faon suivante. e e c La pente : a = Cov(x, y)/V ar(x) Ordonne ` lorigine : b vrie y = a + b. e a e x La dtermination de lordonne a lorigine (cest-`-dire pour x = 0 et donc e e ` a y = b) utilise le fait que le point moyen (, y ) appartient ` cette droite et que x a ses coordonnes en vrient lquation. e e e Cette droite modlise lensemble des points. Si lon souhaite eectuer des e estimations il faut savoir que plus lon sloigne de x et plus lestimation est e imprcise. Il est sens de vouloir estimer une valeur de y pour une valeur x e e comprise dans lintervalle [mini (xi ); maxi xi ] (cest de linterpolation), mais que pour des valeurs de x loin de cet intervalle, ie x >> maxi xi ou x << mini xi , lestimation peut savrer peu able (cest de lextrapolation). Prenons pour e illustrer ce probl`me, lexemple du record du monde au 100m (en seconde) en e fonction de lanne. On peut tablir quil existe une corrlation linaire ngative e e e e e entre le temps record et lanne. Si lon estime la droite des moindres carrs, e e elle nous donnera un temps record ngatif pour lanne 2030 ! e e
349
3.5
Programmation R
Voici ci-dessous un programme R permettant deectuer le calcul des direntes e valeurs ainsi que le nuage des points et la droite de rgression. e X=c(1,2,3,4,5,6,7,8,9,10) Y=c(1.8,1.5,1.4,1,1,0.9,0.5,0.4,0.4,0.1) plot(X,Y,main=Nuage des points) # pour le nuage de points cov(X,Y) # calcul de la covariance cor(X,Y) # calcul de la corrlation e lm(Y X) # pour obtenir la droite de rgression e # Vrification par les formules e a=cov(X,Y)/var(X) # calcul de la pente b=-a*mean(X)+mean(Y) # calcul de lordonne ` lorigine e a et dont voici ci-dessous les rsultats e
22
CHAPTER 3. COEFFICIENT DE CORRELATION LINEAIRE > cov(X,Y) [1] -1.644444 > cor(X,Y) [1] -0.9843725 > lm(Y X) Call: lm(formula = Y Coefficients: (Intercept) 1.8867 X) X -0.1794
> a=cov(X,Y)/var(X) > b=-a*mean(X)+mean(Y) > a [1] -0.1793939 > b [1] 1.886667
350
Universit Toulouse II-Le Mira - Service dEnseigne r ail e ement Dis stance Anne Un niversitaire 2011 / 2012 2
351
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
352
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
1 Madame LOUBES Tel : 05 61 50 42 23 e-mail : loubes@univ-tlse2.fr Departement Mathematiques-Informatique 5 allees Antonio Machado 31 058 TOULOUSE NOTE A LATTENTION DES ETUDIANTS DE LU.E de Sondages MI020AX de la Licence MIASHS 3`me Anne e e CONTENU DE LENVOI Cet envoi comporte lensemble du cours de la partie Sondages de lUE MI020AX . Il se compose de deux parties : lapremi`re partie, dcrit la principale mthode de Sondage non e e e alatoire : la Mthode des quotas et en expose les avantages et les inconvnients . e e e Cette mthode, non alatoire mais utilise en pratique car simple dutilisation, prsente line e e e convnient majeur de ne pas pouvoir calculer lerreur dchantillonnage. e e La seconde Partie, qui se dcompose en 7 chapitres, presente donc les principales mthodes e e e de Sondage alatoires : e Chapitre Chapitre Chapitre Chapitre Chapitre Chapitre Chapitre 1 2 3 4 5 6 7 : le Sondage Alatoire Simple e : Exercices sur le Sondage Alatoire Simple e : Corrections des exercices sur le Sondage Alatoire Simple e : Sondage ` Probabilits Ingales a e e : Exercices sur le Sondage ` Probabilits Ingales a e e : Corrections des exercices sur le Sondage ` Probabilits Ingales a e e : la Stratication
353
MODALITES DEXAMEN Premi`re Session : en Mai-Juin e Une seule preuve : un examen crit de dure 2 heures avec comme document autoris une page e e e e A4 recto manuscrite non photocopie. e La calculatrice est autorise. e Deuxi`me Session : Juin-Juillet e Mmes modalits que la Premi`re Session. e e e BIBLIOGRAPHIE Les techniques de sondage, P.Ardilly, Editions Technip Thorie des sondages, Echantillonnage et estimation en populations nies, Y. Till, Dunod 2001 e e Exercices corrigs de mthodes de sondage, Pascal Ardilly et Yves Till, Ellipses 2002 e e e ORGANISATION DU TRAVAIL Vous navez pas de devoirs imposs ` rendre, mais il est recommand de travailler avec rgularit. e a e e e De plus, vous pouvez menvoyer toute solution, dexercice ou de devoir qui vous pose probl`me. Par e exemple, si vous constatez que votre solution est fausse pour un exercice donn, sans comprendre e pourquoi, mme ` la lumi`re de la correction, nhsitez pas ` me la faire parvenir. e a e e a Noubliez pas quun travail de courte dure mais tr`s rgulier est souvent bien plus ecace quun e e e eort intensif de derni`re minute. e En vous souhaitant bon courage et en restant ` votre disposition pour toute information complmentaire a e ( nhsitez surtout pas ` menvoyer un mail si vous avez une question ou un probl`me, je vous e a e rpondrai dans la semaine ) e A bientt, o Mme LOUBES.
354
Premi`re partie e
Premi`re Partie e
355
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
356
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Principe de la mthode e
Critique de la mthode e
Point de dpart et but recherch e e Caract`re intuitif de la mthode e e A quoi ressemble une feuille de quotas La recherche des personnes ` interroger a
Biais dchantillon e Impossibilit de calculer lerreur dchantillonnage e e si cest aussi compliqu, pourqiuoi continue-t-on ? e
La ncessit de consignes prcises e e e La ncessit denquteurs professionnels e e e Quotas marginaux ou quotas croiss ? e Quels quotas choisir ?
Toutes les mthodes dchantillonnage alatoire supposent e e e lexistence dune base de sondage ` partir de laquelle on tire a alatoirement (mais avec probabilit connue) un chantillon e e e sans biais dont la taille a t dtermine ` la suite de ee e e a considrations sur le niveau de prcision souhait. e e e
Or, pour la majorit des enqutes dopinion comme des tudes e e e de march on ne dispose pas de base de sondage. e
On fait alors en sorte de construire un chantillon dont la e structure corresponde ` la structure de la population toute a enti`re, selon certains crit`res que lon a pralablement choisis. e e e
On suppose que si l chantillon reproduit d`lement certaines e e caractristiques de la population tudie (et peut donc tre e e e e considr, par abus de langage, reprsentatif alors il sera ee e ), galement ` mme de reproduire dautres caractristiques non e a e e contrles et/ou contrlables qui constituent lobjet mme de oe o e lenqute e
Par exemple, si la population se compose de 5% dhommes, on imposera ` lenquteur charg de raliser 10 interviews un a e e e quota de 5 hommes pour 10 personnes enqutes . . . si la ee mme population comporte 10% dagriculteurs, il devra y e avoir une et une seule interview dagriculteur . . .
La recherche peut tre dautant plus longue que lon approche e de la n de la feuille : la derni`re personne est dtermine de e e e mani`re unique par les modalits restantes e e
Tout le mtier de lenquteur consiste ` ne pas se faire piger e e a e et raliser correctement ses n de quotas e
Dnir ses quotas revient ` dnir une stratication multiple e a e sur la population. La dirence avec l chantillon probabiliste e e est que au lieu de tirer les units de sondage, on laisse ` e a lenquteur le soin de les trouver lui-mme au hasard des ses e e prigrinations (cela prend un sens un peu dirent en face ` e e a face et au tlphone) ee
A direntes heures de la journe, les difrentes catgories de e e e e population prsentent des probabilits direntes et inconnues e e e dtre touches par lenquteur e e e
La probabilit d tre touch varie galement avec l e e e e accessibilit des personnes ` interroger : digicodes ` lentre e a a e des immeubles en face ` face, numros sur liste rouge au a e tlphone . . . ee
La probabilit qua un individu de la population dappartenir ` e a l chantillon est inconnue : il est alors impossible d valuer la e e variance d chantillonnage et donc de mesurer le prcision des e e estimations Deux ractions sont alors possibles : e
Dautres auteurs, faute de mieux, adoptent lhypoth`se dun e tirage ` probabilits gales, hypoth`se qui nest, a e e e vraisemblablement, jamais vrie e e
pourquoi continue-t-on ?
les estimateurs employs sont biaiss e e il est impossible de mesurer la prcision des estimations e
rsultats issus dchantillons par quotas fort comparables ` e e a ceux fournis par des chantillons alatoires e e
Enqutes par quotas et sondage alatoire : e e Prcision: biais VS variance des estimateurs e
La prcision des estimateurs par quotas nest pas calculable, e puisque aucune probabilit nest connue e
Par contre, le fait de respecter des proportions xes ` e a lavance limite la marge de manoeuvre laisse ` lala. On e a e peut donc supposer que la variance dun sondage par quotas est une grandeur plutt faible d`s lors que la variable dintrt o e ee est bien explique par les crit`res sur lesquels on a bas les e e e quotas
Si on tient absolument ` fournir un rsultat numrique de a e e prcision, on peut toujoues utiliser la formule de variance dun e sondage strati ` allocation proportionnelle, qui ets le type ea de sondage probabiliste qui se rapproche le plus du sondage par quotas, assimilant ` une strate chaque sous-population sur a laquelle on doit respecter un quota
Enqutes par quotas et sondage alatoire : e e Prcision: biais VS variance des estimateurs e
Dans le cas de petits chantillons, le sondage probabiliste peut e tre de biais nul mais de variance assez forte( dun ordre de e 1 grandeur en n )
A loppos, si la taille de lchantillon augmente, la varaince du e e sondage probabililiste diminue, le biais restant nul.
Le principe ` retenir est donc assez simple : les quotas pour les a petits chantillons et les sondages probabilistes pour les gros e
Donner un seuil de taille d chantillon en dea duquel e c lutilisation des quotas est ` conseiller est videmment a e impossible, mais en pratique on tire volontiers par quotas les chantillons dont la taille est infrieure ` 1000. e e a
Pour amliorer le tirage par quotas tout en limitant les cots e u denqute grce ` un chantillonnage ` plusieurs degrs, on e a a e a e ralise souvent une stratication pralable dunits primaires e e e que lon chantillonne de mani`re probabiliste. Puis, dans e e chaque unit primaire tire, on choisit de tirer lchantillon e e e dindividus par quotas
Le plan de sondage do tre accompagn dune srie de t e e e consignes donnes ` lenquteur visant ` la fois ` rduire le e a e a a e biais dobservation et se rapprocher le plus possible des conditions de tirage ` probabilits gales a e e
il sagit autant que possible de rapprocher les direntes e probabilits que les individus ont dtre interrogs : par e e e exemple sur les actifs, il est important de travailler en semaine apr`s 18h, les samedis et dimanches . . . e
Etre disponible
savoir viter e
Ne pas hsiter e
Respecter
Brasser large
Describers et Modelers
Lart du sondeur
Erreur dchantillonnage e
de la population
Non-rponse e
Erreur de mesure
interroges e
Dfauts de linstrument de mesure (questionnaire ou autre) e Eets du mode de recueil (face ` face, tlphone, a ee auto-administr papier ou Internet) e
Ces erreurs peuvent tre lies les unes aux autres autres e e Exemple: Faire du forcing pour rduire la non-rponse peut e e amener ` amplier les erreurs de mesure a
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
374
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
DeuximePartie
DeuximePartie
375
Vous y trouverez : les cours auxquels vous tes inscrits des ressources en lignes des activits complmentaires des forums de travail et dchanges
376
Il est important de vous connecter rgulirement sur le site du SED pour vous tenir inform des actualits http://sed.univ-tlse2.fr/ sed
Chapitre 1
Dnitions et Utilisations e
Dnition e
On eectue le tirage dun chantillon s de n units sans remise et ` probabilits gales e e a e e dans une population U de taille N .
1.1.2
Utilisations
Mise en oeuvre gnralement aise. e e e Rfrence, talon auquel comparere les autres plans de sondage plus sophistiqus. ee e e Mise en oeuvre gnralement aise. e e e Brique de base lmentaire pour les autres plans plus complexes. ee
377
1.1.3
Supposons N = 5, n = 2, et les vraies valeurs connues : y1 = 10, y2 = 30, y3 = 40, y4 = 60, y5 = 110. 2 On a Y = 50 ha et Sy = 1450 ha2 . 2 e e Il y a C5 = 10 chantillons possibles, tous quiprobables : S = {{1, 2}; {1, 3}; {1, 4}; {1, 5}; {2, 3}; {2, 4}; {2, 5}; {3, 4}; {3, 5}; {4, 5}} p(s) = 1 n CN 2 4 = 10 5 n =f N
Plus gnralement, e e
1.2
1.2.1
Soit une population nie compose de N objets identiables (ou individus, units e e statistiques) ; chacune des units peut tre identie par une tiquette dont lene e e e semble est not U = 1 . . . N . e e On sinteresse ` une variable y qui prend la valeur Yk sur lunit k. Ces valeurs ne a sont pas alatoires. Lobjectif est destimer la valeur dune fonction dintrt : e e e = f (Y1 , . . . , Yk , . . . YN ). Les fonctions les plus courantes sont : le total : TY = la Moyenne : Y = la Variance :
2 y =
kU
Yk ,
1 TY = Yk N N
kU
1 (Yk Y )2 N
kU
378
1 N 2 (Yk Y )2 = N 1 N 1 y
kU
1.2.2
Echantillon s : sous-ensemble de U de taille n. Ensemble des chantillons possibles : S. e Plan de sondage probabiliste : loi de probabilit sur S : e p(s) 0 s S et p(s) = 1
sS
p(s) = Moyenne :
1 n CN
Total :
= 1 y Yk n
ks
N ty = N = y Yk , n
ks
1.3. CONSTRUCTIONS DES ESTIMATEURS DUNE MOYENNE, DUN TOTAL, DUNE PROPORTION 5 Dispersion empirique : s2 = y 1 (Yk 2 y) n1
ks
1.2.3
On montre que :
Dnition 2 La Probabilit dinclusion dordre deux ou double de k et l (k = l) , e e note k,l est e p(s) = E(Ik .Il ) k,l = P (k s, l s) =
k,ls
k,l =
n n1 N N 1
379
1.3
1.3.1
2, 3 35
2, 4 45
2, 5 70
3, 4 50
3, 5 75
4, 5 85
E( = Y y) 1 y(s) = 50 = Y 10 s
1.3.2
Echantillon s ty
1, 2 100
1, 3 125
1, 4 175
1, 5 300
2, 3 175
2, 4 225
2, 5 350
3, 4 250
3, 5 375
4, 5 425
1.3.3
Cest un cas particulier dune moyenne : exemple : on veut estimer la proportion p de fermes de plus de 50 ha (qui est ici de 40 %) : p = N0 . N Echantillon s Proportion p 1, 2 0 1, 3 0 1, 4 0,5 1, 5 0,5
1 n
380
2, 3 0
ks
2, 4 0,5
n0 N
2, 5 0,5
3, 4 0,5
3, 5 0,5
4, 5 1
Yk =
1.4
Il y a forcment des uctuations des ` lchantillonnage. e u a e Prcision de lestimateur dune moyenne : e Echantillon s Moyenne y 1, 2 20 1, 3 25 1, 4 35 1, 5 60 2, 3 35 2, 4 45 2, 5 70 3, 4 50 3, 5 75 4, 5 85
2 n Sy ) N n
1.5
1.6
La taille de lchantillon : plus lchantillon est grand, plus la prcision est impore e e tante. La dispersion de la variable dintrt dans la population : plus la population est ee htrog`ne, plus les uctuations dchantillonnage sont leves. ee e e e e Le taux de sondage : plus il est lev, plus on sapproche du recensement et on e e limite lala dchantillonnage. e e
381
1.7
y n s2 y V ar() = (1 ) N n
1, 2 20 200 60
1, 3 25 450 135
1, 4 35 1250 375
1, 5 60 5000 1500
2, 3 35 50 15
2, 4 45 450 135
2, 5 70 3200 960
3, 4 50 200 60
3, 5 75 2450 735
4, 5 85 1250 375
1.8
Thor`me 9 La vraie variance dchantillonnage de lestimateur dun total est ine e e connue mais on lestime sans biais par y n s2 V ar(ty ) = N 2 (1 ) N n
Thor`me 10 La vraie variance dchantillonnage de lestimateur dune proportion,inconnue,est e e e estime sans biais par e n p(1 p) p V ar() = (1 ) N n1 .
1.9
Do` lintervalle d econance au niveau 95% pour la moyenne : u y y y y IC9 5%(Y ) = 1, 96 V ar(); + 1, 96 V ar() 35; 41, 7 ha
382
1.10
La taille dun budget est dtermine par : e e le Budget disponible la prcision souhaite e e Thor`me 12 Pour une erreur absolue b accepte, e e e 1, 962 ( 1 1 2 ) SY b2 n N 1
1 (N + b2 2 1.962 SY 2 1.962 SY 2 b
nmin Si nmin N
est ngligeable e
nmin
Chapitre 2
1. Donner la valeur de lestimateur sans biais classique de la moyenne Y = 2. Donner un intervalle de conance ` 95% pour Y . a
1 N
kU
Yk .
383
2.0.2
On sintresse ` lestimation de la proportion P dindividus atteints par une maladie e a professionnelle dnas une entreprise de 1500 travailleurs. On sait par ailleurs que trois travailleurs sur dix sont ordinairement touchs par cette maladie dans des entreprises e de mme type. On se propose de slectionner un chantillon au moyen dun sondage e e e alatoire simple. e 1. Quelle taille dchantillon faut-il slectionner pour que la longueur totale dun e e intervalle de conance avec un niveau de conance 0,95 soit infrieur ` 0,02 pour e a un plan simple sans remise ? 2. Que faire si on ne conna pas la proportion dhommes habituellement touchs t e par cette maladie ?
2.0.3
Quelle taille dchantillon faut-il retenir si on choisit un sondage alatoire simple, pour e e conna ` deux points de pourcentage pr`s (au plus) et avec 95 chances sur 100, la tre a e proportion de Toulousains qui portent des lunettes ?
2.0.4
Dans une population de 4000 personnes, on sinteresse ` 2 proportions : a e P1 =proportion des individus possdant un lave-vaiselle. e P2 =proportion des individus possdant un ordinateur portable. Dapr`s des renseignements srs, on sait qua priori : e u 45% P1 65% et 5% P2 10%
. Quelle doit tre la taille de lchantillon n dans le cadre dun sondage alatoire simple e e e a e a e si on veut conna tre ` la fois P1 ` 2% pr`s et P2 ` 1% pr`s, avec un niveau de a conance de 95% ?
2.0.5
Dans une lection, deux candidats sarontent. La veille de llection, un sondage e e alatoire simple est ralis aupr`s de n lecteurs, avec n au moins gal ` 100 (la poe e e e e e a pulation des lecteurs est tr`s grande devant la taille de lchantillon). La question e e e est de savoir quelle doit tre la dirence de points de pourcentage entre les deux e e candidats pour que le sondage fournisse le nom du vainqueur (connu par recensement le lendemain) avec 95 chances sur 100. Faites lapplication numrique pour quelques e valeurs de n. Indication : Considrer que le perdant sappelle A, et que le pourcentage des voix qui e lui reviennent le jour de llection est PA ; le jour du sondage, on note PA le pourcene tage de voix otenu par ce candidat A.
384
Dun point de vue statistique, ce probl`me snonce comme suit : trouver la rgion e e e critique pour que la probabilit de dclarer A vainqueur le jour du sondage (alors que e e e e e a e a PA est en ralit infrieur ` 50%) soit infrieure ` 5%.
2.0.6
Un chantillon de 100 tudiants est constitu au moyen dun plan alatoire simple sans e e e e remise dans une population dans une population de 1000 tudiants. On sinteresse e alors aux rsultats obtenus par ces tudiants ` un examen. Il y a deux cas possibles : e e a russite ou chec. Le bilan est prsent dans le tableau suivant : e e e e Hommes Femmes Total Russite n11 = 35 n12 = 25 n1. = 60 e Echec n21 = 35 n22 = 25 n2. = 40 Total n.1 = 55 n.2 = 45 n = 100 1. Estimez le taux de russite des hommes et celui des femmes. e 2. Calculez le biais approch des taux de russite estims. e e e 3. Estimez lerreur quadratique moyenne de ces taux de russite. e 4. Proposez les intervalles de conance ` 95% pour les taux de russite des hommes a e RH et des femmes RF . Que peut-on dire de leurs positions respectives ? 5. Quels intervalles de conance faut-il considrer pour que les vraies valeurs RH e et RF soient encadres par des intervalles de conance disjoints ? Commentez. e
Chapitre 3
385
La taille n tant susamment grande, lintervalle de conance IC ` 95% est estim e a e ainsi en hectares : y N n s2 IC = 1, 96 y N n 2010 100 707, 45 IC = 29, 07 1, 96 2010 100 IC = [23, 99; 34, 15].
s2 = y
Exercice 1.0.2 : Maladie Professionnelle Si le plan est de taille n, la longueur de lintervalle de conance (estim) ` 1 e a pour une moyenne est donne par : e en notant p lestimateur de la proportion, IC(95%) = p 1, 96 N n p(1 p) ; p + 1, 96 N n1 11 N n p(1 p) . N n1
12CHAPITRE 3. CORRECTIONS DES EXERCICES SUR LE SONDAGE ALEATOIRE SIMPLE Pour que la longueur totale de lintervalle ne dpasse pas 0,02, il faut et il sut e que : 2 1, 96 Do` u (1 Puis, on arrive ` : a (1 ( N n p(1 p) 0, 02 N n1
n p(1 p) ) (5.103 )2 N n1
0, 3 0, 7 n ) 25.106 1500 n1
En conclusion, Si la proportion de travailleurs touchs nest pas estime a priori, on se place dans la e e situation la plus dfavorable, cad celle o` la variance est la plus forte : cela conduit e u ` une taille probablement excessive mais qui a le mrite de garantir que la longueur a e de lIC nest pas suprieure au seuil x de 0,02 ; e e Cela revient ` prendre une proportion de 50%, donc p(1 P ) 0, 25. a Dans ce cas, en adaptant les calculs, on trouve n 1305. En conlusion, on remarque quune variation importante de la proportion ( 30% ` a 50% nentraine quune varaiation minime de la taille de lchantillon. e n 1272
386
a Exercice 1.0.3 : Taille dchantillon Il y a deux positions raisonnables ` adopter e demble : e La taille de la ville de Paris est tr`s grande : le taux d esondage est donc ngligeable. e e Nayant manifestement aucune information a priori sur la proportion recherche, e on se place dans la situation qui conduit ` une taille dchantillon maximale corresa e pondant ` p = 0, 5. Si la rlit est dirente (ce qui presque certain), on a in ne a e e e un eincertitude infrieure ` 2 points. e a
p(1p) n
= 0, 02
13 Exercice 1.0.4 : Taille pour des proportions On estime sans biais Pi par la e e proportion pi calcule dans lchantillon : V ar(pi ) = (1 On veut que 1, 96 1, 96 n 1 N ) Pi (1 Pi ) N nN 1
et que Or,
var(p1 ) 0, 02 var(p2 ) 0, 01
Il faut conjointement
(1 et (1 ce qui implique
387
Exercice 1.0.5 : Candidat aux lections En adoptant le vocabulaire de la thories e e tests, on veut une rgion critique de la forme ]C, +[ le probl`me tant de trouver C e e e tel que : P r[PA > C|PA < 50%] 5%
e e (lvnement PA < 50% tant certain, il apparait juste pour mmoire. e e suit une N (PA , A 2 ), avec A 2 = PA (1PA ) . On suppose que PA n Cette approximation se justie car n est assez grand (n 100). On cherche donc C tel que : P r[ C PA PA PA > |PA < 50%] 5% A A
e e e Mais PA reste inconuue . En ralit, cest le maximum de ces probabilits quil faut considrer, sur tous les PA possibles , cad tous les PA < 0, 5. e
14CHAPITRE 3. CORRECTIONS DES EXERCICES SUR LE SONDAGE ALEATOIRE SIMPLE On est donc ramen ` C tel que : ea maxPA P r[N (0, 1) > Or la quantit, e
CPA A
Donc le maximum de probabilit est atteint pour CPA minimum, cad PA maximum, e A toujours sous la contrainte PA < 0, 5. On prend donc PA = 0, 5. On cherche C vriant : e (C 0, 5) n ] 0, 05 P r[N (0, 1) > 0, 5 La table de la loi normale donne : (C 0, 5) 0, 5 n = 1, 65
388
15 Conclusion : la rgion critique est e 1, 65 PA > 0, 5 + 2 n La dirence de poids doit donc tre au moins la suivante : e e 1, 65 PA PB = 2PA 1 > n Si la dirence de points est au moins gale ` 1,65 , alors on amoins de 5% de cahnces e e a n de dclarer A vainqueur le jour du sondage alors quen ralit, il va perdre le jour e e e des lections, cad 95% de chances de donner le bon pronostic . Le tableau suivant e contient quelques applications numriques, tant donn que cest le cas n = 900 qui e e e est traditionnellement retenu lors des lections. e n
1,65 n
100 16,5
400 8,3
900 5,5
2000 3,7
5000 2,3
10000 1,7
389
390
Chapitre 4
Pour retenir de prfrence les units les plus porteuses de linformation : Do` Gain ee e u d eprcision par rapport ` un SAS `u toutes les units ont la mme importance . e a a` e e Lorsque les units de la population tudie contribuent ingalement au total dine e e e tert : e Par exemple, pour estimer la production dun secteur que lon sait assu par deux e gants du secteur et des centaines de PME, il est lgitime de slectionner doce e e e les 2 gants et dchantillonner de mani`re alatoire quelques PME. e e e e Principe des plans ` probabilits ingales : il faut aller chercher linformation o` elle a e e u se trouve. Ceci suppose de disposer avant lchantillonnage dinformation auxiliaire e connue sur toute la population et lie au caract`re tudi. e e e e
391
4.1.2
Exemple dtaill e e
Population de 4 entreprises A, B, C, D de 500,100, 30 et 20 salaris. e On veut estimer le nombre total de salaris (certes connu : 650) ` partir dun e a chantillon de taille 2 e Comparons les deux tirages suivants : un SAS et un chantillonnage ` probabilits e a e ingales. e
4.1.3
2 Il y a C4 = 6 chantillons possibles. e
17
18
En moyenne, on estime parfaitement bien le vrai eectif total de 650 salaris. e Mais, en contrepartie, lestimateur est tr`s dispers : sa variance vaut 207 567 e e
4.1.4
Avec les probabilits dinclusion suivantes : e Entreprise k Eectif salari Xk Probabilit dinclusion k e e A 500 1 B 100 0,5 C 30 0,25 D 20 0,25 3 chantillons sont alors possibles : e Echantillon s {A, B} {A, C} {A, D} Probabilit de tirage p(s) e 0,5 0,25 0,25 estimation du total 700 620 580
En moyenne, lestimateur est aussi sans biais. Sa variance est beaucoup est beaucoup plus faible : elle vaut 2700.
392
4.1.5
Avec les probabilits dinclusion suivantes : e Entreprise k A B C D Eectif salari Xk e 500 100 30 20 Probabilit dinclusion k e 0,25 0,25 0,5 1
3 chantillons sont alors possibles : e Echantillon s {A, D} {B, D} {C, D} Probabilit de tirage p(s) e 0,25 0,25 0,5 estimation du total 2020 420 80
En moyenne, lestimateur est aussi sans biais. Mais il sav`re extremement dispers : sa variance vaut 644 900. e e
19
4.1.6
Il peut donc savrer tr`s interessant de slectionner les units avec des probabilits e e e e e dinclusion proportionnelles aux valeurs prises par le caract`re x, li positivement avec e e le caract`re dintert et connu sur tous les individus de la base de sondage. e e
4.1.7
Cas des plans proportionnels a la taille (ppt) ` Exemple dune enqute qui sinteresse au chire daaires dentreprises dun secteur e donn : si on dispose du nombre de salaris de toutes les entreprises du secteur, et si e e on pressent que le chire daaires est plus ou moins proportionnel au nombre de salaris, il est lgitime de calculer le sprobabilits dinclusion de toutes les entreprises e e e de mani`re proportionnelle ` leur eectif salari. e a e
4.1.8
Pour un chantillon de taille xe n, on calcule la probabilit de slectionner la k-i`me e e e e entreprise : k U On vrie que e , k = P (k s) = n
kU
Xk Xk
kU
393
k = n
4.1.9
Cependant, certaines probabilits dinclusion k peuvent dpasser 1. Que faire dans e e ce cas ? Tout dabord, on slectionne doce les units en question : k = 1 (strate dite e e exhaustive). On recalcule les probabilits dinclusion des autres individus, proportionnellement ` e a la taille de lchantillon restant ` slectionner et ` leur contribution dans le nouveau e a e a total. On rit`re la dmarche jusqu` ce que k U k 1. e e e a
4.2
kU
20 la Moyenne :
Y = la Variance :
2 y =
1 TY = Yk N N
kU
1 (Yk Y )2 N
kU
1 N 2 (Yk Y )2 = N 1 N 1 y
kU
4.3
Echantillon s : sous-ensemble de U de taille n. Ensemble des chantillons possibles : S. e Plan de sondage probabiliste : loi de probabilit sur S : e p(s) = 1 p(s) 0 s S et
sS
avec Ik valant 1 si k s et 0 sinon. (Variable indicatrice de Corneld.) La Probabilit dinclusion dordre deux ou double de k et l (k = l) , note k,l est e e p(s) = E(Ik .Il ) k,l = P (k s, l s) =
k,ls
394
4.4
4.4.1
En 1952, Horvitz et Thomson ont propos lestimateur suivant du total Ty de la e variable Y : ty, = Yk
ks
21
4.4.2
Cest un estimateur linaire. e Les poids de sondage ne dpendent pas de lchantillon. e e Il permet destimer la taille N de lchantillon, quelle soit connue ou pas : e N = 1 k
ks n N
Il est valable quelque soit le plan de sondage. Il gnralise les rsultats du SAS de taille xe n o` k = e e e u
kU
4.4.3
Esprance du pi-estimateur de Ty e
Si k > 0 pour tout individu k de la population U , alors cet estimateur est sans biais. Si certaines probabilits dinclusion sont nulles, alors lestimateur est biais. Ce biais e e ne dpend que des units qui nont aucune chance dtre slectionnes : on parle de e e e e e probl`me de couverture. e
4.4.4
Variance du pi-estimateur
Dans le cas gnral, si k > 0 pour tout individu k de la population U , alors la e e variance vaut : Yk Yl V ar(ty, ) = kl k l
kU lU
395
Dans le cas dun plan de taille xe, si k > 0 pour tout k de U , et si le plan est de taille xe, alors Sen, Yates, et Grundy ont montr que celle-ci vaut : e 1 V ar(ty, ) = 2 Yk Yl ( )2 kl k l
kU lU
4.4.5
Cas gnral : Si kl > 0 pour tous kk et l de U , alors la variance peut tre estime e e e e sans biais par : V ar1 (ty, ) = Yk Yl kl k l k l
ks ls
Cas dun plan de taille xe : si kl > 0 pour tous k et l de U , et si le plan est de taille xe, alors la variance peut tre estime sans biais par : e e 1 V ar2 (ty, ) = 2 Yk Yl ( )2 kl k l
ks ls
22
4.4.6
Le 1er estimateur est valable dans le cas gnral. e e Le second nest valable que si le plan est de taille xe. Dans le cas o` le plan est de taille xe, on dispose gnralement de 2 estimateurs u e e concurrents et dirents. e Il sont tous deux sans biais d`s que les k l sont strictement positifs. e Les deux estimateurs peuvent prendre des valeurs ngatives, mais il existe une e condition susante pour que le second soit positif : cette condition, dite de SenYates-Grundy, est : k = U kl 0 soit k l k l 0
4.5
4.5.1
Lorsque la taille de la population est connue, on estime la moyenne par lestimateur d Horvitz-Thompson : : Dans le cas particulier o` Y est dichotomique et vaut 1 dans p% des cas, on estime u la moyenne par lestimateur d Horvitz-Thompson de la proportion : p : = ty, 1 Yk = N k N
ks
396
4.5.2
les proprits de ty, sadaptent en adaptant le sformules en tenant compte de N : ee Estimateur sans biais : E( ) = Sa variance vaut : V ar( ) = ou V ar( ) = Estime par : e 1 Yk Yl kl N2 k l
kU lU
Proprits de lEstimateur : e e
p =
1 Yk N k
ks
1 Yk Yl 2 ( ) kl 2N 2 k l
kU lU
ou
1 Yk Yl V ar2 ( ) = ( )2 kl 2N 2 k l
ks ls
1 Yk Yl kl V ar1 ( ) = 2 N k l k l
ks ls
23
4.6
Thor`me 14 e e
Thor`me 13 Par le Thor`me de la Limite Centrale, on construit de mme quau e e e e e chapitre 1 des IC. Do` lintervalle de conance au niveau 95% pour le total : u IC95% (Ty ) = ty, 1, 96 V ar(ty, ); ty, + 1, 96 V ar(ty, ) IC95% ( ) = 1, 96 y V ar(); + 1, 96 V ar()
397
24
398
Chapitre 5
Donnez les probabilits dinclusion dordre un. Donnez la matrice de variance-covariance e des variables indicatrices dappartenance ` lchantillon. Donnez lcriture matria e e cielle de la variance de lestimateur sans biais du total.
399
5.0.2
Soit la matrice de variance-covariance units dobservation dans lchantillon e e 1 1 1 1 1 = 1 1 1 1 1 1. Ce plan est-il de taille xe ?
2. Ce plan satisfait-il aux conditions de Sen-Yates-Grundy ? 3. Calculez les probabilits dinclusion de ce plan sachant que e 1 = 2 = 3 > 4 = 5 . 4. Donnez la matrice des probabilits dinclusion dordre deux. e 5. Donnez les probabilits associes ` tous les chantillons posssibles. e e a e
25
5.0.3
Soit une population de 5 individus. On sinteresse ` un caract`re dintert y qui prend a e e les valeurs : y1 = y2 = 1, . On dnit le plan suivant : e p({1, 2}) = . et y3 = y4 = y5 = 8 3
1. Calculez les probabilits dinclusion aux ordres un et deux. e 2. Donnez la distribution de probabilit du -estimateur du total. e 3. Calculez lestimateur de variance avec lespression de Sen-Yates-Grundy (on vrie que le plan est bien d etaille xe). Cet estimateur est-il biais ? Etait-il e e prvisible ? e e 4. On se propose destimer la racine carre du total (note Y ), par la racine carre e e du -estimateur Y . Donnez la distribution de probabilit de cet estimateur. e Montrez quil sous-estime Y . Etait-ce prvisible ? e 5. Calculez la variance de Y .
400
5.0.4
On a rpertori dans une petite municipalit 6 entreprises dont les chires daaires e e e (variables xk ) sont respectivement de 40, 10, 8, 0,5 et 0,5 millions deuros. Dans le but destimer lemploi salari total, slectionnez 3 entreprises au hasard et sans remise, ` e e a probabilits ingales selon le chire daaires, par la mthode du tirage systmatique e e e e (en justiant votre dmarche). Pour ce faire, on utilise la ralisation suivante dune e e variable alatoire uniforme sur [0, 1] : 0,83021. Que se passe-t-il si on modie lordre e du chier ?
5.0.5
Soit une population U compose de 6 units. On conna les valeurs prises par un e e t caract`re auxiliaire x sur toutes les units de la population : e e x1 = 200, x2 = 80, X3 = 50, x4 = 50, x5 = 10, x6 = 10. 1. Calculez les probabilits dinclusion dordre un proportionnelles aux xk pour une e taille dchantillon n = 4. Soit 0,48444 une ralisation dune variable alatoire e e e unifome sur [0,1]. Slectionnez un chantillon ` probabilits ingales sans remise e e a e e de taille 4 au moyen dun tirage systmatique, en gardant lordre initial du e chier. 2. Donnez la matrice des probabilits dinclusion dordre deux (ordre initial du e chier x). e
27 3. On suppose quune variable dintert y prende les valeurs suivantes : e y1 = 80, y2 = 50, y3 = 30, y4 = 25, y5 = 10, y6 = 5. Constituez un tableau avec, en ligne chaque chantillon s possible, et en colonne e les probabilits de tirage p(s), les estimateurs respectifs du total Ys et de la e variance var(Y (s) (forme de Sen-Yates-Grundy). Calculer, sur la base de ce tableau, les esprances E(Y ) et E(var(Y ). Commentez. e
401
402
Chapitre 6
Remarquons que 1 + 2 + 3 = 2. En eet, le paln est de taille xe n = 2. Enn, on obtient directement les k,l : k,l = Cov(Ik , Il ) = kl k l si k = l
403
1 1 3 1 )= 4 4 2 8 1 1 3 1 )= 4 4 2 8 1 1 3 3 )= 2 4 4 16 3 3 3 (1 ) = 4 4 16 1 1 1 (1 ) = 2 2 4
2,2 = 1,1 =
3 16 1 16 1 8
1 16 3 16 1 8
1 8 1 8 1 4
y Si on note u le vecteur colonne des k , pourk = 1 . . . N , et 1 le vecteur colonne des k Ik , on a yk ) = var(u 1) = u var(1)u = u u var( k ks
Exercice 5.0.2 : Variance des indicatrices et plan de sondage 1. Si le plan est de taille xe, Ik = n
ki nU
Dans un plan de taille xe, la somme de toutes les lignes et de toutes les colonnes e e de la matrice des k,l sont nulles. On vrie immdiatement que ce nest pas le cas ici, donc le plan nest pas de taille xe. 2. Non, car on a des k,l > 0 pour k = l 6 3. Comme V ar(Ik ) = k (1 k ) = 25 pour tout k, on a : (k )2 k + k = 1 = 2 = 3 = 6 =0 25
k,l =
ki nU
Cov(Ik , Il ) = Cov(
ki nU
Ik , Il ) = Cov(n, Il ) = 0
404
1 + 1 5 2
3 2 > 4 = 5 = 5 5 4. Comme k l = k l + k l , pour tout k, l U , si on note le vecteur colonne des k , la matrice des probabilits dordre deux vaut : e = + 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 9 9 9 6 6 9 9 9 6 6 9 9 9 6 6 6 6 6 4 4 6 6 6 4 4 1 1 1 1 1
6 25
1 25
31
3 3 3 0 0
3 3 3 0 0
3 3 3 0 0
0 0 0 2 2
0 0 0 2 2
1 5
5. dune part, les probabilits dinclusion dordre deux nulles montrent que certains e couples dunits ne peuvent tre slectionns (comme lunit 1 avec la 4). Dautre e e e e e part, certaine sunits sont toujours slectionnes ensemble. En eet, e e e 1 2 1 1 3 P r(3 S|1 S) = 1 = 1 P r(2 S|1 S) = 1 = Donc si lunit 1 est slectionne, les units 2 et 3 aussi. De mme si la 4 est e e e e e slectionne, la 5 lest aussi ..Les deux seuls chantillons possibles sont donc e e e {1, 2, 3} et {4, 5} avec : p({1, 2, 3} = 1 = p({4, 5} = 4 = et valent 0 pour tous les autres chantillons. e 3 5
2 5
405
Exercice 5.0.3 : Estimation dune racine Exercice 5.0.4 : Tirage systmatique dentreprises Le tirage ` probabilits e a e ingales, proportionnellement au chire daaires (variable auxiliaire) se justie a e priori par lhypoth`se (raisonnable) quil y a une relation ` peu pr`s proportionnelle e a e entre chire daaires et eectif salari. Le choix dun tirage systmatique se justie e e par la grande simplicit de la mthode. Comme e e xk = 60,
kU
et que
Comme 1 > 1, lunit 1 est slectionn doce et limine de la population. Comme e e e e e xk = 20, et que
kU \{1}
nx1 1 =
lU xl
=3
40 = 2, 60
(n 1)x2 10 2 = =2 , 20 lU \{1} xl
` 32CHAPITRE 6. CORRECTIONS DES EXERCICES SUR LE SONDAGE A PROBABILITES INEGALES e e e e e Comme 2 = 1, lunit 2 est slectionn doce et limine de la population. Il reste a e ` slectionner une unit parmi les identiants 3, 4, 5, 6. e xk = 10,
kU \{1,2}
(n 2)x5 5 = (n 2)x6 6 = V4 = 0, 9
(n 2)x4 4 =
lU \{1,2}
(n 2)x3 3 =
lU \{1,2} xl
= =
8 = 0, 8, 10 1 = 0, 1, 10
xl
lU \{1,2} xl lU \{1,2} xl
= =
0, 5 = 0, 05, 10 0, 5 = 0, 05. 10
k
k ) :
V6 = 1
e e e e e Comme V3 083021 V4 , on slectionne lunit 4. Lchantillon nalement slectionn est {1, 2, 4}. Si on modie lordre du chier, les deux plus grosses units :(x = 40) et (x = 10) sont e toujours retenues doce, quel que soit lordre initial. Avec le nombre tir au hasard e entre 0 et 1, tout dpend de la position de lunit pour laquelle x = 8 lorsuqon e e consid`re les 4 units restantes (x = 0, 5; 0, 5; 1; 8). Si cette unit est en position e e e 2,3,ou 4, alors elle est toujours retenue (facile ` vrier). Si elle est en position 1, a e alors tout est possible : on eput tre amen ` retenir nimporte lequel des 3 autres e ea individus, en fonction de leurs positions propres ( plus exactement, on retient toujors lindividu qui se trouve en seconde position ). Lordre du chier inue donc sur lchantillon slectionn. e e e
406
EPREUVE DE SONDAGE DU 8 NOVEMBRE 2006 Dure 2H. e Page A4 manuscrite non photocopie recto et calculatrice autorises e e
a Exercice 1 La distribution des notes obtenues ` un concours admet approximativement la loi normale de moyenne 32,5 et dcart-type 8,5 (les notes allant de 0 ` 60). e a Sachant que 30% des l`ves ne sont pas admissibles et que 10% sont admis sans oral, ee quelles sont les barres dadmissibilit et dadmission ? e
e a Exercice 2 On sintresse ` lestimation de la proportion P dindividus atteints par une maladie professionnelle dans une entreprise de 1635 travailleurs. On sait par ailleurs que quatre travailleurs sur dix sont ordinairement touchs par cette maladie e dans des entreprises de mme type. On se propose de slectionner un chantillon au e e e moyen dun sondage alatoire simple. e Quelle taille dchantillon faut-il slectionner pour que la longueur totale dun intere e valle de conance avec un niveau de conance 0,99 soit infrieur ` 0,03 ? e a e e Exercice 3 Quelle taille dchantillon faut-il retenir si on choisit un sondage alatoire simple, pour conna ` trois points de pourcentage pr`s (au plus) et avec 90 chances tre a e sur 100, la proportion de Toulousains qui portent des lunettes ? e e Exercice 4 On a rpertori dans une ville 5 entreprises dont les chires daaires annuels en Millions deuros sont de X1 = 10, X2 = 30, X3 = 40, X4 = 60, X5 = 110. Dans le but destimer le Chire dAaires total, on slectionne 3 entreprises parmi e elles au hasard et sans remise. 1. Donner la valeur de lestimateur sans biais classique du total . 2. Donner un intervalle de conance ` 99% pour celui-ci. a
407
Exercice 5 On veut estimer la surface moyenne cultive dans les fermes dun canton e rural. Sur 2010 fermes que comprend ce canton, on en tire 100 par sondage alatoire e e simple. On mesure Xk la surface cultive par la ferme k en hectares et on trouve :
ks
Xk = 2907 ha
et
1. Donner la valeur de lestimateur sans biais classique du total . 2. Donner un intervalle de conance ` 99% pour celui-ci. a
ks
2 Xk = 154593
ha2
` 34CHAPITRE 6. CORRECTIONS DES EXERCICES SUR LE SONDAGE A PROBABILITES INEGALES a e Exercice 6 Soit une population de 5 individus. On sinteresse ` un caract`re dintert y qui prend les valeurs : e y1 = y2 = 1, . On dnit le plan suivant : e p({1, 2}) = . et y3 = y4 = y5 = 8 3
1. Calculez les probabilits dinclusion aux ordres un et deux. e 2. Donnez la distribution de probabilit du -estimateur du total. e 3. Calculez lestimateur de la variance. Exercice 7 Soit une population U compose de 6 units. On conna les valeurs e e t prises par un caract`re auxiliaire x sur toutes les units de la population : e e x1 = 200, x2 = 80, X3 = 50, x4 = 50, x5 = 10, x6 = 10. 1. Calculez les probabilits dinclusion dordre un proportionnelles aux xk pour une e taille dchantillon n = 4. Soit 0,48444 une ralisation dune variable alatoire e e e unifome sur [0,1]. Slectionnez un chantillon ` probabilits ingales sans remise e e a e e de taille 4 au moyen dun tirage systmatique, en gardant lordre initial du e chier. 2. Donnez la matrice des probabilits dinclusion dordre deux (ordre initial du e chier x). e 3. On suppose quune variable dintert y prende les valeurs suivantes : e y1 = 80, y2 = 50, y3 = 30, y4 = 25, y5 = 10, y6 = 5. Constituez un tableau avec, en ligne chaque chantillon s possible, et en colonne e les probabilits de tirage p(s), les estimateurs respectifs du total Ys et de la e variance v ar(Y (s). Calculer, sur la base de ce tableau, les esprances E(Y ) et E( Y ). e v ar( Commentez.
408
Chapitre 7 : Stratication
5.3 D`nition e
H
h=1
pour tout (h, i) avec h = i. (Autrement dit, les Uh forment une partition de U .) Un plan est dit strati` si, dans chaque strate Uh , on s`lectionne un `chantillon al`atoire Sh de e e e e taille xe, et que la s`lection dun `chantillon dans chacune des strates est eectu`e ind`pendamment e e e e de la s`lection eectu`e dans toutes les autres strates. e e
5.4
Estimation et Variance
409
On suppose en outre dans tout ce chapitre que les plans sont simples sans remise au sein de chacune des strates. La taille de la population Uh est not`e Nh et la taille de l`chantillon Sh est not`e nh , o` e e e u h = 1, . . . H. n Comme la probabilit` dinclusion vaut k = Nh , pour tout k Uh , lestimateur de Horvitze h Thompson du total devient : Y =
h=H h=H Nh yk = yk = Nh Y h k nh h=1 kSh h=1
kS
La variance de Y vaut :
o` u
V ar(Y ) = Syh 2 =
h=H h=1
Nh 2
Nh nh Syh 2 Nh nh
1 (yk Yh )2 , Nh 1
kUh
et Yh = 1 yk . Nh
kUh
19
20
Nh 2
Nh nh syh 2 Nh nh
o` u
Le choix des nh d`nit di`rents plans strati`s : e e e plans strati`s avec allocation proportionnelle, e nh = n
1 (yk Yh )2 . nh 1
kSh
Nh (4.1) N plans strati`s avec allocation optimale pour estimer un total (cas du cot unitaire denqute e u e identique dans toutes les strates), Nh Syh nh = n h=H h=1 Ni Syi (4.2)
Les expressions (4.2) et (4.2) ne donnant pas g`n`ralement des nh entiers, il faut donc recourir e e a ` une proc`dure darrondi. De plus, lexpression (4.2) conduit parfois ` des nh > Nh . Dans e a ce cas, on r`alise un recensement dans les strates o` le probl`me se pose, et on recommence e u e le calcul des nh sur les strates restantes.
410
5.5. EXERCICES
21
5.5
Exercices
Exercice 1 Sur les 7500 employ`s dun entreprise, on souhaite conna la proportion P dentre e tre eux qui poss`dent au moins un v`hicule. Pour chaque individu de la base de sondage, on dispose e e de la valeur de son revenu. On d`cide alors de constituer trois strates dans la population : indie vidus de revenu faible (strate 1), de revenu moyen (strate 2), et de revenu `lev` (strate 3). On note : e e Nh =taille de la strate h e e nh =taille de l`chantillon dans la strate h ( tirage al`atoire simple) ph = lestimateur de la proportion dindividus poss`dant au moins un v`hicule dans la strate e e h. Les r`sultats sont donn`s dans le tableau suivant : e e ... Nh nh ph h=1 3500 500 0,13 h=2 2000 300 0,45 h=3 2000 200 0,5
1. Quel estimateur P de P proposez-vous ? Que peut-on dire de son biais ? 2. Calculez la pr`cison de P , et donnez un intervalle de conance ` 95% pour P . e a
e e Exercice 2 Dans une population de tr`s grande taille compos`e dindividus physiques, on cherche a ` estimer lge moyen Y . Disposant dune information sur la tranche dge, on stratie la population a a en trois parties, et on tire un `chantillon par sondage al`atoire simple dans chaque partie. On note : e e : le vrai poids de la strate h, : lge moyen calcul` sur l`chantillon en strate h, Yh a e e Syh 2 : lallocation choisie en strate h, Syh 2 : la dispersion vraie des ges en strate h, a u e Ch : le cot unitaire denqute en strate h,
Nh N
411
Les r`sultats sont donn`s dans le tableau suivant : e e Strate Moins de 40 ans De 40 ` 50 ans a Plus de 50 ans
Nh N
Yh 25 45 58
Syh 2 16 10 20
nh 40 20 40
Ch 1 1 4
2. Cet estimateur est-il di`rent de la moyenne simple calcul`e sur lensemble de l`chantillon ? e e e 3. En n`gligeant tous les taux de sondage, calculez la pr`cision de Y . e e
1. Quel est lestimateur strati` sans biais de Y (on notera Y cet estimateur) ? e
4. Calculez lallocation proportionnelle et rappelez lexpression de lestimateur qui en d`coule e (la taille totale de l`chantillon est n = 100.) e 5. Quelle est la pr`cision obtenue avec lallocation proportionnelle ? e 6. Quel est le gain de pr`cision apport` par lallocation de Neyman par rapport ` lallocation e e a proportionnelle ? (comparer des situations comparables).
22
CHAPITRE 5.
a Exercice 3 On veut estimer un chire daaires moyen relatif ` une population dentreprises. Les entreprises sont a priori r`pertori`es en trois classes de chires daaires. Les donn`es sont e e e pr`sent`es dans le tableau suivant, et on veut s`lectionner un `chantillon de 111 entreprises. e e e e Chire daaires en millions deuros de 0 a 1 ` de 1 ` 10 a de 10 ` 100 a Nombre dentreprises 1000 100 10
Faisant conance aux appr`ciations de lexpert, et en labsence de toute autre information, on e suppose que la distribution des chires daaires est uniforme au sein de chaque classe : donnez les variances de lestimateur de la moyenne du chire daaire pour un plan strati` avec allocation e proportionnelle et pour un plan strati` avec allocation optimale. e Exercice 4 Dans une grande ville, on consid`re le nombre moyen de clients que peut avoir un e m`decin pendant une journ`e de travail. e e On part de lid`e a priori que plus le m`decin a dexp`rience, plus il a de clients. Ceci nous am`ne e e e e a ` classer la population de m`decins en trois groupes : les d`butants (Classe 1), les conrm`s e e e (Classe 2), et les tr`s exp`riment`s (Classe 3). Par ailleurs, on suppose que lon conna dan sla e e e t, base de sondages de m`decins, la classe de chacun dentre eux. Ainsi, on d`nombre 500 m`decins e e e en Classe 1, 1 000 en Classe 2, 2 500 en Classe 3. Par sondage al`atoire simple, on tire 200 m`decins dans chaque classe. On calcule alors, dans e e chaque classe, le nombre moyen de m`decins par jour et par m`decin `chantillonn` : 10 en classe e e e e 1, 15 en classe 2 et 20 en classe 3. On calcule enn les dispersions des nombres de clients par m`decin dans chacun des 3 `chantillons e e et on trouve respectivement 4 (classe 1), 7 (classe 2), et 10 (classe 3). 1. Comment sappelle ce plan de sondage ? Justiez a priori sa mise en oeuvre. 2. Comment estimez-vous le nombre moyen de clients soign`s par jour et par m`decin ? e e 3. Donnez un intervalle de conance ` 95% pour le vrai nombre moyen de clients soign`s par a e m`decin et par jour. e 4. Si vous naviez comme contrainte que le nombre total de m`decins ` enquter ( soit 600), e a e proc`deriez-vous comme ci-dessus ? e 5. Quel est la gain de variance estim`e obtenu avec une allocation proportionnelle par rapport e au sondage al`atoire simple (de taille 600) ? e 6. Ce gain aurait-il `t` num`riquement di`rent si on avait nivement estim` la dispersion vraie ee e e a e Sy 2 par la dsipersion simple sy 2 calcul`e sur lensemble de l`chantillon ? e e
412
5.6. CORRECTIONS
23
5.6
Corrections
lintervalle de conance ` 95% pour P est donn` par : a e IC(95%) = [0, 314 0, 026 ;
0, 314 + 0, 026]
(en eet, la loi normale peut tre utilis`e sans h`sitation car n est grand). e e e 3. Le crit`re de stratication est ad`quat, car le revenu est fortement li` ` la possession dun e e ea v`hicule. e Exercice 2 Exercice 3 Exercice 4
413