Cours ADD

ANALYSE DES DONNEES
Professeur : Rachid JAHIDI
Syllabus
MATIERE : Analyse des donnes NIVEAU : 3me anne PRE-REQUIS : Statistique descriptive Notions destimation Notions dalgbre linaire PROFESSEUR : M. Rachid JAHIDI
OBJECTIF Le traitement des tableaux de donnes multidimensionnelles exige des mthodes de description statistique labores. Lobjectif de ce cours est de prsenter les principales mthodes dAnalyse Des Donnes (ADD) utiles dans les tudes marketing base denqutes et sondages. Ce cours propose la fois ; Une prsentation gnrale et pratique des principales mthodes dADD disponibles dans les logiciels Une aide linterprtation des sorties fournies par les logiciels statistiques Des exemples entirement traits laide de logiciels statistiques, principalement SPSS.
METHODOLOGIE Description des donnes utilises pour prsenter la mthode ; Prsentation de la mthode en minimisant les aspects mathmatiques et les dmonstrations et en valorisant les aspects pratiques et mthodologiques ; Interprtation des sorties du programme statistique correspondant la mthode prsente. PLAN DU COURS. Introduction gnrale Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Analyse Typologique (AT)
Evaluation : examen (60% de la note finale) contrle crit (40% de la note finale) Bibliographie : P. Ardilly : Les techniques de sondage. Technip. L. Lebart et N. Tabard : Techniques de la description statistique. Dunod. M. Volle : Analyse des donnes. Economica. L. Lebart et Grang : Traitement statistique des donnes. Dunod. B. Escofier et J Pags : analyse factorielles simples et multiples M. Tenenhaus : Mthodes statistiques en gestion Y. Evrard ; B. Pras ;E. Roux : Market tude et recherche en marketing.
Introduction
La multiplication des grandes bases de donnes ncessite le traitement de masses d'informations toujours plus grandes. Il est donc ncessaire de disposer de mthodes permettant d'extraire cette information partir de grands tableaux de donnes. Ces mthodes sont regroupes dans ce qu'on appelle lAnalyse Des Donnes. Lordinateur et la statistique Lordinateur est devenu un outil essentiel pour lanalyse de donnes Lindustrie des logiciels statistiques et des ordinateurs ne cessent de crotre Les logiciels et les ordinateurs sont maintenant accessibles un trs grand nombre de gens Les logiciels sont de plus en plus faciles utiliser Avantage: permet dutiliser des mthodes statistiques sophistiques et dobtenir les rsultats relativement rapidement.
Danger:
facile dappliquer une mthode statistique un ensemble de donnes mme si cette dernire nest pas valide ou approprie. Le simple fait de savoir comment utiliser un logiciel nest pas une garantie dune analyse statistique valide. Une bonne connaissance de la statistique est ncessaire pour savoir quelle mthode choisir et pourquoi, et comment interprter les rsultats. L'ensemble des mthodes de l'analyse des donnes peut tre divis en deux catgories : les mthodes pour dcrire les mthodes pour expliquer Nous allons nous intresser ici aux mthodes descriptives
Rappels sur la statistique descriptive unidimensionnelle et bidimensionnelle

La Statistique Descriptive est l'ensemble des mthodes et techniques permettant de prsenter, de dcrire et de rsumer des donnes nombreuses et varies. Il faut prciser d'abord quel est l'ensemble tudi, appel population statistique, dont les lments sont des individus ou units statistiques. Chaque individu est dcrit par une ou plusieurs variables, ou caractres statistiques. Chaque variable peut tre, selon le cas :
Variable qualitative
Ses valeurs peuvent tre des tats, des opinions, des proprits,... des modalits qui correspondent des qualits Exemple : Population : les rsidents dAgadir Unit statistique : un rsident Variable X : la langue maternelle d'un rsident Valeurs : Arabe, Berbre, Franais, Anglais, Autres.
Variable quantitative
Ses valeurs sont des nombres rels et correspondent des quantits. On distingue deux types de variables quantitatives : la variable quantitative discrte la variable quantitative continue Variable quantitative discrte Ses valeurs a priori sont des nombres isols les uns des autres. Exemple, Population : les mnages de la ville de Settat Unit statistique : un mnage Variable tudie : X : le nombre d'individus dans le mnage Valeurs : xi = 1, 2, 3, 4, .., 11. (Valeurs observes) Variable quantitative continue Ses valeurs a priori ne peuvent tre isoles. Les valeurs se situent donc dans des intervalles de la droite relle. Exemple Population : les modles automobiles sur le march marocain Unit statistique : un modle de voiture Variable tudie : X : la consommation en litres sur 100 km (urbain) Valeurs : x appartient [5 , 6) ou [6 , 7) ou ... ou [22 , 23) Les donnes continues et discrtes sont des quantits : -On peut effectuer sur elles des oprations arithmtiques -Elles sont ordonnes Les donnes qualitatives ne sont pas des quantits -Mais sont parfois ordonnes -Donnes ordinales souvent traits comme discrtes -Les donnes nominales ne sont pas ordonnes. Discrtisation des variables 5
Pourquoi discrtiser : -Traiter simultanment des variables quantitatives et qualitatives -Apprhender des liaisons non linaires entres variables quantitatives -Neutraliser des valeurs extrmes -Grer les valeurs manquantes Comment discrtiser :
-Il faut garder en tte que

-Il faut viter davoir un grand cart entre le nombre de modalits des diffrentes variables -Un nombre convenable tourne autour de 4 6 modalits -Pour les raisons que -Le poids dune variable est proportionnel son nombre de modalits -Le poids dune modalit est inversement proportionnel son effectif -Avoir peu de modalits fait perdre de linformation -Avoir beaucoup de modalits implique de petits effectifs et une moindre lisibilit
Analyse exploratoire des donnes
Explorer la distribution des variables Vrifier la fiabilit des variables : Valeurs incohrentes ou manquantes Dtecter les valeurs extrmes : Si valeur aberrantes liminer Tester la normalit des variables Dtecter les liaisons entre variables
Entre variables explicatives et expliquer Entres variables explicatives elles mme
Variables continues
Dtecter la non linarit justifiant la discrtisation Transformer pour augmenter la normalit
Variables discrtes
Regrouper certaines modalits aux effectifs trop petits
Tendance centrale
la moyenne (arithmtique), ventuellement pondre. la mdiane : M est insensible aux valeurs aberrantes, mais se prte moins bien aux calculs que
la moyenne. le mode dans le cas particulier d'une distribution unimodale. La comparaison de ces trois paramtres donne des indications sur la symtrie de la distribution.
Forme de la distribution
Distribution symtrique : moyenne = mdiane = mode
Biais positif: mode < mdiane < moyenne 2. Position
Biais ngatif: Moyenne < mdiane < mode
Les fractiles (quartiles, dciles, centiles) : ils subdivisent la srie ordonne en un certain nombre d'intervalles (4, 10, 100) contenant environ le mme nombre de valeurs observes chacun. 3. Dispersion - tendue - variance et cart-type : calculs gnralement en complment de la moyenne, pour mesurer la plus ou moins grande dispersion autour de celle-ci. - intervalle interquartile : sa longueur, l'cart-interquartile mesure la dispersion des 50 % valeurs les plus centrales. - Coefficient de variation : Cv = cart-type/moyenne Cv < 25% concentration Cv > 25% dispersion
Exemple : boisson alphajus
Cas alphajus : Statistique descriptive

N
Valide Manquante
40 0 5,88 5,50 3(a) 2,972 8,830 12
Moyenne Mdiane Mode Ecart-type Variance Intervalle Centiles 25 50 75
3,25 5,50 8,00
a Il existe de multiples modes
Le Box plot (ou bote moustache) : Reprsentation graphique synthtique de Tukey Le Boxplot est un rsum de la srie (de la distribution) construit partir de sa mdiane, ses 1 et 3me quartiles et ses valeurs extrmes. Il permet de reprer rapidement, de faon visuelle, lallure gnrale de la distribution.
er
Construction utilise ici : Une bote, deux moustaches et des valeurs extrmes : La bote est dlimite en bas par le premier quartile, en haut par le troisime quartile. Entre les deux se trouve la mdiane. Parfois la moyenne est ajoute. Les extrmits des moustaches ou valeurs extrmes sont : Le min et le max ; Ou encore, souvent proposes dans les logiciels: la plus petite valeur suprieure q1 - 1,5*(q3 - q1) et la plus grande valeur infrieure q3 + 1,5*(q3 - q1) avec (q1 = premier quartile ; q3 = troisime quartile). Dans ce cas, les valeurs extrmes sont les valeurs de la srie qui sont hors des limites dfinies par les extrmits des moustaches (aucune si aucune des valeurs ne sort des limites).
Attention, les valeurs extrmes telles que dfinies nont de sens que lorsque la distribution est Normale.
Reprsentation :
Box plot 1,2 1,100
Maximum
1
0,8
3me quartile Intervalle interquartiles (50 % des valeurs) 1er quartile Minimum
0,631 0,620
Moyenne Mdiane
0,6
0,4
0,2 0,180 0
Le box plot permet de visualiser rapidement : La plus ou moins forte concentration des valeurs : autour de la mdiane (intervalle interquartiles, hauteur de la bote) et celle des queues de distribution (les pattes, chacune 25 % des valeurs). Remarque : la hauteur de la bote reprsente 50 % des valeurs, plus cette hauteur est grande (petite) plus les valeurs correspondantes sont tales (concentres).
La symtrie de la distribution : position de la mdiane dans la bote et globalement ; diffrence

de longueur des pattes. Plus la moyenne scarte de la mdiane plus la distribution est asymtrique (attention aux valeurs aberrantes qui influence la valeur de la moyenne) et inversement plus la mdiane et la moyenne sont proches plus la distribution est symtrique. Lorsque la mdiane est infrieure la moyenne, les valeurs infrieures sont plus fortement concentres, les valeurs suprieures plus fortement tales.
alphajus : Bote--Moustache
14
max
12
10
Q3
mdiane Q1
min
0 consommation de boisson
alphajus : Bote--moustache multiple

bote mouchtache
12,5
A A
12 ,5
consommation de boisson
10,0
n=19
oui
10 ,0
7,5
7,5
5,0
5,0
2,5
2,5
n=21
n=14
non
n=13
j e ne su is pa s s r
n=13
pa s d 'a ccord
achat pralable
d'accord
got pour le sucr
10
Skewness et Kurtosis : Deux indicateurs de la forme de la distribution des valeurs observes. Le skewness permet de mesurer le degr dasymtrie de la distribution des valeurs. Moment centr dordre 3 sur le cube de lcart type.
Estimation sur un chantillon :
skewness =
( y
i =1
y )3
3
( n 1) s
Le kurtosis permet de mesurer le degr daplatissement dune distribution. Moment centr dordre 4 sur le carr de la variance. Le kurtosis de la distribution Normale, ainsi calcul, vaut 3, cest pourquoi les logiciels proposent souvent le calcul du kurtosis en tant la valeur 3. Estimation sur un chantillon :
kurtosis =
( y
i =1
y )4 3
( n 1) s 4
Utilit du skewness et du kurtosis Une distribution symtrique autour de sa moyenne aura un skewness proche de 0. Skewness positif talement des valeurs droite Skewness ngatif talement des valeurs gauche Le kurtosis dune loi Normale est nul ; une distribution des valeurs proche de la forme en cloche de la loi normale donnera un kurtosis proche de 0. Kurtosis positif forte concentration, pic prononc Kurtosis ngatif aplatissement de la distribution, faible concentration Le Skewness et le Kurtosis sont des indicateurs numriques de la forme de la distribution observe : ils donnent un indice de lloignement ou du rapprochement de la distribution de la srie de valeurs de celle dune distribution de loi Normale.
11
Allure dune distribution selon que le skewness et le kurtosis sont positifs, ngatifs ou nuls :
Ngatif Skewness
Positif
Nul
Kurtosis
alphajus : Skewness et Kurtosis de

la variable consommation
N Valide Manquante Moyenne Mdiane Mode Ecart-type Variance Asymtrie Aplatissement 40 0 5,88 5,50 3(a) 2,97 2 8,83 0 ,504 -,375
12
alphajus :
25 %
20 %
Pourcentage
15 %
10 %
5%
11
13
Normalisation dune variable.
Si Skewness > 0
Log(V) ou Log(V+1) si V >= 0 Racine carr de V -1 / V ou -1 / V
Si Skewness < 0
V ou V3
Exemple alphajus
consommation de boisson N Valide 40 Manquante 0 Asymtrie ,504 Erreur std. ,374 d'asymtrie Aplatissement -,375 Erreur std. ,733 d'aplatissement
logconsom 40 0 -,658 ,374 ,177 ,733
racineconsom 40 0 -,021 ,374 -,625 ,733
13
Traitement bivari Croisement de variable mtrique :

KILOMETRAGE
KILOMETRAGE
407.22 257.51 DEPENSE
407.22 257.51 DEPENSE
Coefficient de corrlation : 0,997 quation de la droite de rgression : KILOMETRAGE = 1,57 * DEPENSE + 40,61 (DEPENSE explique 99% de la variance de KILOMETRAGE) Le coefficient de corrlation r de Pearson sert mesurer lintensit de la relation linaire entre deux variables quantitatives. Le coefficient de corrlation r prendra des valeurs entre -1 et 1. Sil existe une relation linaire parfaite entre X et Y alors r = 1 (r =1 si X et Y varient dans le mme sens et r = -1 si X varie dans le sens oppos Y). Si r = 0, ceci indique quil n y a pas de lien linaire entre X et Y. Plus la valeur de r sloigne de 0 pour sapprocher de 1 plus lintensit du lien linaire entre X et Y grandit.
14
Attention!! Il est important dinterprter le coefficient de corrlation avec le graphique.
Croisement de variable nominale
Quel est votre mode d'hbergement ?

15
#Htel #Camping # Location / gte #Famille / amis Quelle est la C.S.P. du chef de famille ? # Agriculteur # Patr indust commerce # Profession librale/cadre #Cadre moyen #Employ #Ouvrier #Personnel de service #Autre
Tableau de contingence
Mode d'hbergement Non Htel rponse CSP 1 3 Non rponse 0 1 Agriculteur Patr indust commerce 1 17 Profession librale/cad 1 23 Cadre moyen 7 12 Employ 1 10 Ouvrier 1 7 Personnel de service 2 0 Autre 2 31 TOTAL 16 104 Cam Locatio Famille /TOTAL ping n / gte amis 2 2 4 6 17 32 20 8 22 113 13 2 10 26 25 29 8 2 25 140 14 6 13 24 32 35 9 12 34 179 33 11 45 80 93 107 45 24 114 552
Comment les CSP choisissent leurs modes dhbergements? Profil ligne

Mode d'hbergement Non rponse CSP Non rponse 3,0% Agriculteur 0,0% Patr indust commerce 2,2% Profession librale/cadr 1,3% Cadre moyen 7,5% Employ 0,9% Ouvrier 2,2% Personnel de service 8,3% Autre 1,8% TOTAL 2,9% Htel 9,1% 9,1% 37,8% 28,7% 12,9% 9,3% 15,6% 0,0% 27,2% 18,8% Cam ping 6,1% 18,2% 8,9% 7,5% 18,3% 29,9% 44,4% 33,3% 19,3% 20,5% Locatio Famille / TOTAL n / gte amis 39,4% 18,2% 22,2% 32,5% 26,9% 27,1% 17,8% 8,3% 21,9% 25,4% 42,4% 54,5% 28,9% 30,0% 34,4% 32,7% 20,0% 50,0% 29,8% 32,4% 100% 100% 100% 100% 100% 100% 100% 100% 100% 100%
Comment se fait le choix du mode dhbergement par rapport la CSP? Profil colonne
16
Mode d'hbergement Non rponse CSP 6,3% Non rponse 0,0% Agriculteur 6,3% Patr indust commerce Profession librale/cadr 6,3% 43,8% Cadre moyen 6,3% Employ 6,3% Ouvrier Personnel de service 12,5% 12,5% Autre 100% TOTAL
Htel 2,9% 1,0% 16,3% 22,1% 11,5% 9,6% 6,7% 0,0% 29,8% 100%
Cam ping 1,8% 1,8% 3,5% 5,3% 15,0% 28,3% 17,7% 7,1% 19,5% 100%
Locatio Famille / TOTAL n / gte amis 9,3% 1,4% 7,1% 18,6% 17,9% 20,7% 5,7% 1,4% 17,9% 100% 7,8% 3,4% 7,3% 13,4% 17,9% 19,6% 5,0% 6,7% 19,0% 100% 6,0% 2,0% 8,2% 14,5% 16,8% 19,4% 8,2% 4,3% 20,7% 100%
17
ECHANTILLONNAGE Exemple de sondage douteux En 1912, le magazine Literacy Digest a commenc produire des sondages pour prdire le rsultat de llection amricaine. Entre 1912 et 1932, les prvisions taient toujours justes! Ceci a eu pour effet que le magazine a acquis une rputation solide dans la prvision des rsultats. Les diteurs taient confiants dans la prvision de llection de 1936. Le sondage prvoyait 55% pour Landon, 41% pour Roosevelt.Dans les faits, les rsultats de llection furent 61% pour Roosevelt et 37% pour Landon! Pourquoi un si grand cart dans les rsultats? Problmes possibles dans le sondage du Literacy Digest de 1936. La base de sondage reposait fortement sur les bottins tlphoniques et les listes denregistrement automobiles. On est en 1936. cette poque, possder une voiture/tlphone tait rserve une classe sociale/conomique peut-tre plus privilgie. Problme potentiel de biais dans la base de sondage. En second lieu, 10 millions de questionnaires ont t envoys, cependant seulement 2.3 millions ont t retourns. Le taux de rponse tait moins de 25%. Des analyses subsquentes ont montr quen fait il tait plus vraisemblable que les partisans de Landon retournent le sondage que les partisans de Roosevelt. Toujours sinterroger sur la nonrponse, ses raisons et son impact potentiel. Leons du sondage du Literacy Digest de 1936. Les diteurs du Digest taient confiants, car ils avaient un large chantillon (2.3 millions). Cependant lchantillon tait associ un taux de non-rponse de plus de 75%. Lchantillon, bien que grand, tait non reprsentatif de la population. Un grand chantillon non reprsentatif peut faire plus de dommages quun petit chantillon non reprsentatif! En fait, les dommages peuvent tre plus importants, dans la mesure o lon a la fausse impression de justesse, uniquement car on dispose de rsultats sur 2.3 millions dindividus. La mise en uvre du sondage est plus importante que la taille de lchantillon!
Au mme moment: Georges Gallup prlve un chantillon alatoire de 6 500 personnes et obtient comme prdictions : Landon : 35% et Roosevelt : 64%.
DEFINITIONS
Recensement = vrit Linformation que lon dsire est disponible pour tous les individus de la population tudie. chantillon = estimation de la vrit
Linformation nest disponible que pour un sous-ensemble des individus de la population tudie.
18
Avantages dun chantillon
Cot rduit Rapidit accrue Offre plus de possibilits, dans certains cas il peut tre impossible de faire un recensement (ex:
contrle de qualit)
Comment choisir lchantillon? laveuglette? NON! On veut une mthode objective. Parmi les volontaires? NON! Sur les questions sensibles, seulement ceux qui se sentent concerns sans tre compromis sont susceptibles de participer. NON aux : Sondages tl o les gens appellent; lignes ouvertes. Les gens avec des prjugs, fortes opinions (souvent ngatives) sexpriment souvent sur ces questions (avortement, racisme, etc.).
On veut une mthode scientifique telle que chaque personne dans la population possde une chance mesurable (que lon peut quantifier) de slection.
Avantages de la mthode scientifique On peut projeter les rsultats de lchantillon sur toute la population. Le but dun sondage nest pas de dcrire un individu en particulier. On veut une image, un profil, de la population. PROCESSUS DCHANTILLONNAGE
- UNIVERS IDAL: Toutes les personnes qui possdent les caractristiques recherches par l'enquteur - UNIVERS OPRATIONNEL: Ensemble des personnes qui composent l'univers idal et avec lesquelles on peut communiquer compte tenu des contraintes de temps et d'argent imposes par l'tude - BASE DCHANTILLONNAGE : Liste partir de laquelle on peut slectionner tous les individus qui composent l'univers oprationnel. Construction dune base dchantillonnage : Idalement, on tente de trouver une base de sondage existante. Sinon, lon doit en construire une. Une base dchantillonnage contient la numrotation de tous les lments de la population cible; elle contient des tiquettes. Choses tre conscient: Est que la base dchantillonnage correspond la population vise? Si on sintresse la population de la ville de Marrakech et que lon utilise les listes de tlphone, est-ce que la population cible = base dchantillonnage? - MTHODE DCHANTILLONNAGE : Cest le comment choisir les individus
Mthodes probabilistes:
Chaque personne une probabilit connue d'tre choisie
19
Mthodes non - probabilistes :

On ne connat pas la probabilit qu'un individu soit choisi.
TAILLE DE LECHANTILLON : Cest quoi le n? On va y revenir! Il faut introduire des critres. De manire gnrale, cela dpend de la qualit de linformation que lon dsire. Souvent n=1000 fait laffaire. Remarque: dans une population de 100 000 ou 1 000 000 dindividus, n=1000 fournira une prcision comparable. La taille de la population nest pas une considration si importante que a. PROBLEME : Comment choisir lchantillon pour quil fournisse des informations sapparentant celles que lon aurait obtenues par recensement ? La rponse dpend de lexistence ou pas : - Dune base de sondage - Dinformations auxiliaires Pas de base de sondage : mthode non probabiliste Base de sondage mais pas dinformation auxiliaire : sondage alatoire simple, sondage en grappe et plusieurs degrs Base de sondage plus information auxiliaire : sondage stratifi. Sondage alatoire simple (SAS)
Ce plan est tel que tout chantillon de taille n, o n est dtermine lavance, possde la mme probabilit. Ce tirage est essentiellement ce que lon a en tte quand on tire dans une urne n boules sans remise qui sont bien mlanges et indtectable au toucher. Toutes les units ont la mme probabilit dinclusion. En pratique, il faut des algorithmes pour mettre en uvre ce plan.
Les tables de nombres au hasard Elles se prsentent sous la forme de liste de nombres dont le tirage a t effectu alatoirement. Pour les utiliser la main, il est ncessaire de numroter tous les individus de la base de sondage puis on se fixe une rgle pour se dplacer dans la table et tirer les chiffres.
02 22 85 19 48 74 55 24 89 69 15 53 00 20 88 48 95 08 85 76 34 51 40 44 62 93 65 99 72 64 09 34 01 13 09 74 00 88 96 79 38 24 77 00 70 91 47 43 43 82 71 67 49 90 64 29 81 85 50 47 36 50 91 19 09 15 98 75 60 58 33 15 94 03 80 04 21 49 54 91 77 85 00 45 68 23 12 94 23 44
20
Tirage systmatique
Supposons que lon veut un chantillon de taille n. Pour simplifier, on suppose que N/n=a, avec a un entier. Dfinition formelle dun tirage systmatique: 1. On prend une unit, chances gales, parmi les a premires units dans la base de sondage. Supposons que lon a pris lunit j. 2. On prend ensuite de manire successives les units, j+a, j+2a, , j+(n-1)a Proprits : On note quil ny a seulement que a diffrents chantillons possibles. Si on a choisit lunit j, lchantillon est alors
s = { j , j + a,K, j + (n 1)a}
Plan systmatique On utilise souvent ce plan avec les tirages tlphoniques. On prend au hasard une unit, disons parmi les 20 premires, on se muni dun pas, disons valant 30, et on lit un nom sur 30 dans le bottin.
Sondage en grappes
Cette mthode dchantillonnage consiste tirer au sort un certain nombre de groupes dunits statistiques appeles grappes puis interroger toutes les units appartenant aux groupes retenues. Les plans de grappes sont surtout utiles lorsque lon ne peut pas lister toutes les units de 1 N, sil y a absence de base de sondage. Elles prsentent lavantage davoir un chantillon moins dispers gographiquement. Exemple : Combien de mnages de Settat possdent un cran LCD? Option 1: On pourrait prendre un chantillon de rsidents selon le tirage alatoire simple, disons n = 500. Option 2: On pourrait diviser Marrakech en pts de maisons denviron 20 mnages et prendre un chantillon de 25 pts de maisons parmi la liste de tous les pts de maison. Cest un exemple de tirage par grappes. Units dchantillonnage primaires et secondaires. Unit dchantillonnage primaires: ce sont les pts de maisons. Ce sont les units dchantillonnage. Units dchantillonnage secondaires : ce sont les mnages. Ici ce sont les units danalyse, que lon veut mesurer.
Sondage arolaire
Cest une mthode dchantillonnage probabiliste en grappes qui consiste dcouper en zones gographiques un territoire dtermin, tirer au sort un certain nombre de ces zones et interroger tous les individus statistique y rsidant
21
Plan un ou plusieurs degrs. Supposons que lon dispose de notre chantillon de grappes. Pour les grappes slectionnes, on peut Soit observer toutes les units. Cest un plan de grappes un degr. Soit lister les units dans chaque grappe choisie et dans cette liste tirer un chantillon dunits. Cest un exemple dchantillonnage deux degrs. Sil y a deux degrs dchantillonnage, alors les units danalyse sont galement des units dchantillonnage au second degr. Avantages du sondage en grappes. Mme si on ne dispose pas dune base de sondage, on peut tout de mme sassurer que toutes les units dans la population U possde une probabilit dinclusion strictement suprieure 0. Souvent moins dispendieux organiser. Sonder la population marocaine par un plan alatoire simple pourrait engendrer de nombreux dplacements. Un plan de grappes pourrait permettre de contrler cet aspect. Inconvnients Habituellement, pour une taille dchantillonnage similaire, le plan de grappes donne moins de prcision quun tirage alatoire simple. Par exemple, dans lexemple des mnages de Marrakech, les mnages dune mme grappe ont tendance se ressembler Une grappe nest pas toujours reprsentative de la population.
Sondages stratifis.
Sondages stratifis: quelques motivations Dans un SAS: la slection de lchantillon se fait totalement au hasard, et ne fait aucun usage de renseignements que lon pourrait possder sur les membres de la population. Dans un sondage stratifi: On utilise de telles donnes pour accrotre lefficacit (petite variance) de la dmarche. On a besoin dune partition de la population en sous-groupes relativement homognes (les strates). On procde la slection dchantillons indpendants dans chaque strate. Il faut prciser comment chaque chantillon sera pris dans chaque strate. On pourrait opter pour SAS dans chaque strate, ou sondage systmatique dans chaque strate. On pourrait combiner des plans dchantillonnages.
22
Distinctions entre strates et grappes Strates sont des sous-populations telles que: On peut lister, strate par strate, les units danalyse dans les strates. On prend un chantillon dans chaque strate, h = 1,2,,H. Grappes sont des sous-populations telles que: On ignore, avant le tirage, lidentit des units danalyse dans une grappe. On peut cependant lister les grappes. Dans les grappes slectionnes, on observe ou bien toutes les units danalyse (tirage de grappes), ou bien un sous-chantillon (tirage deux ou plusieurs degrs). La taille de la population N pourrait tre inconnue. Exemple: Enqute ayant pour objet la dtermination de la proportion de fumeurs dans la population. Lchantillon devrait reprsenter adquatement les hommes et les femmes, car il est connu que les hommes fument davantage que les femmes. La proportion de fumeurs varie beaucoup selon lge et la profession. Il serait donc bon davoir un chantillon qui reprsente bien ces groupes. Si on a ces renseignements, on peut les utiliser avec un sondage stratifi avec tirage alatoire simple. Choix des variables de stratification Elles peuvent tre qualitatives ou quantitatives. Gographiques: rgion, province, zone rurale, zone urbaine Socio-dmographiques: groupes dges, sexe, occupation. Taille: mesure de tailles quantitatives. Avantages de lchantillonnage stratifi: reprsentativit Il contribue rduire le nombre dchantillons possibles ceux qui reprsente mieux la population. Reprsentativit amliore: limination (rduction) des chantillons qui produiraient des estimations aberrantes en sassurant que lchantillon reprsente tous les lments de la population. Estimation distinctes dans les strates: On peut obtenir des estimations spares pour chaque strate. On a souvent une prcision plus leve des estimations au niveau de la population.
TAILLE DE LCHANTILLON (cas du tirage alatoire simple)
Est dtermin en fonction du thorme de la limite centrale et du niveau de confiance:

La distribution des moyennes des chantillons tend vers une distribution normale La moyenne des moyennes des chantillons = moyenne dans la population Ceci permet de dire que: La moyenne de la population est gale la moyenne de l'chantillon +/- une marge d'erreur (E)
23
Lorsqu'on dsire dterminer l'intervalle de confiance pour une proportion p de succs, la formule est donne par:
p (1 - p) p (1 - p) p p - z / 2 , p + z / 2 n n
Lorsqu'on dsire dterminer l'intervalle de confiance pour la moyenne d'une caractristique quantitative, la formule est donne par:
n si la variance 2 est connue et par s2 s2 x - t (n -1); / 2 , x + t (n -1); / 2 n n si elle est inconnue. La quantit qu'on ajoute et qu'on retire:
z
/2
x - z / 2
, x + z / 2
n
2
(1 n
est appele la prcision de l'intervalle. La formule suivante donne la taille d'chantillon minimale pour avoir une prcision minimale (ou marge derreur maximale) donne e au niveau de confiance 95%:
e 1,96 *
0,5(1 0,5 ) 1,96 2 * 0,25 0,9604 n = 2 2 n e e
La taille de l'chantillon ncessaire pour atteindre une prcision e dsire au niveau de confiance 95% sera de
1, 96 2 * 0 , 25 e
2
0,9604 e
2
dans le cas d'une proportion et de
1 . 96 e
dans le cas d'une moyenne de valeurs quantitatives. Tableau donnant au niveau de confiance 95% la marge derreur en % p et n tant connus
24
10% 15% 20% 25% 30% 35% 40% 50% Ou Ou Ou Ou Ou Ou Ou 90% 85% 80% 75% 70% 65% 60% 100 8 8,6 9,2 9,6 9,8 10 150 5,7 6,4 6,9 7,3 7,6 7,8 8 200 4,3 5,1 5,7 6,1 6,5 6,8 6,9 7,1 250 3,8 4,5 5 5,4 5,8 6 6,2 6,3 300 3,5 4,2 4,6 5 5,3 5,6 5,7 5,8 350 3,2 3,8 4,2 4,6 4,9 5,1 5,2 5,3 400 3 3,6 4 4,3 4,6 4,8 4,9 5 500 2,7 3,2 3,6 3,9 4,1 4,3 4,4 5 600 2,4 3 3,3 3,5 3,8 3,9 4 4,1 700 2,3 2,7 3 3,3 3,5 3,5 3,7 3,8 800 2,1 2,5 2,8 3 3,2 3,3 3,4 3,5 900 2 2,4 2,7 2,9 3 3,1 3,2 3,3 1000 1,8 2,3 2,5 2,7 2,9 3 3 3,1 1500 1,5 1,9 2,1 2,3 2,4 2,5 2,6 2,6 2000 1,3 1,6 1,8 2 2,1 2,2 2,2 2,3 3000 1,1 1,3 1,4 1,5 1,6 1,7 1,8 1,8 5000 0,8 1 1,1 1,2 1,3 1,4 1,4 1,4 10000 0,6 0,7 0,8 0,9 0,9 1 1 1 Que fait-on en pratique? On utilise habituellement les formules obtenues pour le tirage alatoire simple. Ainsi, on fait comme si lchantillon tait obtenu par tirage alatoire simple. Cas stratifi Notons : N taille de la population n taille de lchantillon Ni taille de la strate au niveau de la population ni taille de la strate au niveau de lchantillon i variances des strates A- chantillon effectif gal n1 = n2 = = n k B- chantillon allocation proportionnelle Ni / N = n i / n C- rpartition de Neyman ni = (Ni i/ Nj j)n
25
chantillon exhaustif et non exhaustif.
Un chantillon est non exhaustif si la taille de lchantillon est petite par rapport la population N > 7n. Dans ce cas la taille de la population ninfluence pas la taille de lchantillon qui ne dpend que de la prcision recherch et de lerreur tolr. Un chantillon est exhaustif si la taille de la population est petite par rapport celle de lchantillon N<7n. Dans ce cas la taille de lchantillon n peut puiser celle de la population N. La taille de lchantillon dfinitive est n = Nn /N+n
MTHODES D'CHANTILLONNAGE NON-PROBABILISTES
Avec ces mthodes, habituellement, Moins grande exactitude que les mthodes probabilistes. Impossible de mesurer la prcision. Gros avantage des mthodes non-probabilistes: Ces mthodes sont souvent moins coteuses. Inconvnients statistiques des mthodes non probabilistes : Avec les mthodes probabilistes, le hasard dans la slection est pris en compte. Avec les mthodes non-probabilistes, des concepts comme le biais des estimateurs, ou les marges derreurs, ne peuvent pas tre considrs ou calculs. En particulier, les carts-types des estimateurs ne peuvent pas tre calculs.
Mthode des quotas (chantillonnage dirig, chantillonnage par choix raisonn)
Utilis dans les enqutes dopinion, les tudes de march. On demande aux interviewers de faire un nombre dtermin dinterviews dans divers groupes dfinis de la population. Ces groupes sont dfinis en fonction de variables socio-conomiques (ge, sexe, gographie, dmographie, etc.). Les quotas sont souvent tablis de faon tre sensiblement proportionnels la fraction de la population reprsente par chaque groupe. Pour le mettre en uvre: - Pas besoin dune base de sondage! - Pas besoin dun plan dchantillonnage! Inconvnients de la mthode des quotas - La mthode des quotas est toujours sujette des problmes de biais de slection. - Cette mthode masque le problme de la non-rponse. Si un individu refuse de participer ou sil est absent de son domicile, linterviewer ira voir un autre individu car il a combler son quota. Ainsi, il y a un srieux risque de ne jamais rejoindre certaines catgories de la population ayant de la rticence rpondre ou difficile rejoindre. De manire gnrale, il faut retenir quavec les mthodes non probabilistes, on NE peut PAS vraiment mesurer la prcision des estimations. Exemple: population de personnes; on veut une reprsentativit de toute la population; variables ge et sexe
26
H F
<30 n 11 n 21 n .1
ge 30-50 n 12 n 22 n .2
50> n 13 n 23 n .3
n 1. n 2. n
Taille de la population N On doit dterminer les nij de sorte que:
ij
=n
N ij N
On utilise alors la rgle proportionnelle :
nij = n
o Nij = effectifs connus de la population (obtenu par recensement par exemple)

Mthode des itinraires
Principe : Cest une variante de la mthode des quotas o on impose lenquteur de ne raliser ses interviews quauprs dindividus localiss pralablement. Intrt : Permet de contrler lenquteur et de se rapprocher du cadre alatoire.
Mthode dchantillonnage sur place
On constitue lchantillon par des individus passant par des points de passage connus, lorsque la population passe quasi-obligatoirement par ces points. Exemple : stations dessence, agence bancaire, sortie de salle de cinma , En pratique, elle ncessite trois phase de mise en place : On recense tous les points de passage possibles. On slectionne les points denqute, soit par tirage au sort, soit par un choix raisonn. On complte cet chantillon spatial par un chantillon temporel, pour viter dinterroger des personnes ayant mme profil. Lchantillonnage temporel se fait, soit par tirage au sort des jours et des heures denqute, soit en rpartissant les interviews sur tous les crneaux horaires de la priode denqute.
Mthode boule de neige
Principe : La mthode consiste faire construire lchantillon par les individus eux mme. Intrt : Enqute auprs de populations rares
27
Mthode de convenance
Principe : on obtient un tel chantillon quand rien na t fait pour sassurer que les individus qui le composent possderont bien certaines caractristiques dsirs. Il est constitu dindividus qui se trouvait lendroit et au moment o linformation a t collecte Intrt : Simplicit.
Choix dune mthode de sondage.
Il est li aux dcisions prises dans diffrentes phases dlaboration de lenqute. Le choix de lchantillon est influenc par : Les objectifs de lenqute. On cherche un compromis entre les objectifs de lenqute au meilleur cot et dans les dlais impartis La nature de la population tudi. -population disperse gographiquement -population rare -existence dune base de sondage (complte ou liste dunits intermdiaire. Le budget disponible Lchantillon est calcul en fonction du cot unitaire denqute. Le mode dadministration du questionnaire La prcision souhaite Ce qui favorise les mthodes probabilistes
28
Analyse en Composantes Principales Dfinition

Ensemble de techniques multivaries qui ont pour but principal de rduire et de rsumer les donnes. Une technique dinterdpendance dans laquelle toutes les variables sont considres simultanment. L'ACP fournit une mthode de reprsentation d'une population afin : - de reprer des groupes d'individus, homognes vis vis de l'ensemble des caractres. - de rvler des diffrences entre individus ou groupes d'individus, relativement l'ensemble des caractres. - de mettre en vidence des individus au comportement atypique. - de rduire l'information qui permet de dcrire la position d'un individu dans l'ensemble de la population. L'ACP permet une analyse des diverses variables statistiques dfinies sur les caractres tudis. Elle permet de construire des variables artificielles (car non mesures mais calcules partir des donnes) qui "expliquent " l'ensemble des variables statistiques prises en compte dans l'ACP. On obtient ainsi un ensemble de nouvelles variables, en plus petit nombre que les variables initiales. Chacune de ces variables initiales est lie l'ensemble des variables artificielles retenues. Enfin, ces variables statistiques artificielles peuvent tre interprtes (subjectivement), ce qui peut amener mettre en vidence des phnomnes "latents", cachs dans les donnes initiales. Des aides l'interprtation doivent donc tre dfinies de manire valider proprement ces interprtations.
Nature des donnes :

On mesure sur les individus des variables de nature quantitatives selon le tableau : Variables quantitatives X Individus X2 X3 Xp
X1 O1 O2 Op
Evaluation de la qualit des donnes Les donnes sont-elles appropries pour une analyse en composantes principales? Quelques rgles empiriques ...
29
Matrice de corrlations Cest une matrice R dont les lments sont les corrlations des variables prises deux deux R=(rij=cor(Xi,Xj)) Examen de la matrice de corrlation Plus les variables prsentent de fortes corrlations plus elles peuvent tre regroupes en dimensions homognes. Dans le cas contraire, les variables sont htrognes. Problme = grand nombre de variables et visualisations
Matrice de corrlation Corrlation SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR SOLD 1,000 -,331 -,277 ,111 -,290 ,109 ,652 ,729 -,163 NDEC -,331 1,000 ,722 -,393 -,179 -,319 -,395 -,467 -,241 MDEC -,277 ,722 1,000 -,123 -,048 -,241 -,306 -,357 -,063 NBPR ,111 -,393 -,123 1,000 ,775 ,503 ,297 ,140 ,766 NEMP -,290 -,179 -,048 ,775 1,000 ,333 -,211 -,331 ,774 MEMP ,109 -,319 -,241 ,503 ,333 1,000 ,323 ,344 ,457 VADD ,652 -,395 -,306 ,297 -,211 ,323 1,000 ,890 -,055 DEPO ,729 -,467 -,357 ,140 -,331 ,344 ,890 1,000 -,140 RETR -,163 -,241 -,063 ,766 ,774 ,457 -,055 -,140 1,000
La Mesure de prcision de lchantillonnage de Kaiser-Meyer-Olkin (KMO) Le KMO est un rel compris entre 0 et 1. Un KMO assez lev (> 0.6) est indispensable pour obtenir une ACP intressante. Dans la ngative, il peut tre ncessaire de supprimer certaines variables.
Mesure KMO 0.90 0.80+ 0.70+ 0.60+ 0.50+ <0.50
Recommandation Trs excellent Excellent Moyen Mdiocre Misrable Inacceptable
Le test de sphricit de Barlett On test lhypothse H0 : indpendance entre les variables contre H1: association entre les variables Le test doit tre significatif (p<0.10, p<0.05, p<0.01, p<0.001) pour exprimer le fait que les variables sont corrles entre elles.
Indice KMO et test de Bartlett Mesure de prcision de l'chantillonnage de Kaiser-Meyer-Olkin. Test de sphricit de Bartlett Khi-deux approch ddl Signification ,645 185,606 36 ,000
30
Espace de reprsentation des individus

Soit le tableau de donnes suivant
individu 1 2 3 4 5 6 7 8 9 sold 2305 15259 1236 8241 6210 6871 1580 9630 4230 ndec 7 0 10 1 2 1 9 1 3 mdec 2,3 0 5,4 0,1 0,3 3 6,1 4 2,7
A chaque individu on associe lensemble des caractristiques de cet individu. Chaque individu peut tre reprsent par un point dfini par 3 coordonnes et tre considr comme un lment dun espace F appel espace des individus. Lensemble des n individus est alors un nuage de points de F not N Un premier point est de calculer la distance entre individus. La distance entre deux individus sera donc la longueur du segment joignant les deux points de l'espace qui reprsentent les deux individus.
La dispersion du nuage autour de son centre de gravit est mesure par linertie du nuage qui correspond la somme des variances des variables initiales. Afin de donner aux variables la mme importance on centre et on rduit les variables initiales. Dornavant on travaillera sur des donnes centres rduites. Notre nuage est donc de centre de gravit lorigine et dinertie p. On cherche obtenir une reprsentation approche de ce nuage dans un espace de dimension plus faible. La question est de savoir comment passer dun espace de dimension suprieure ou gale 3 un espace de dimension plus restreinte Intuitivement, il s'agit de trouver un sous espace F tel que la distance entre points - individus soit conserve dans le processus de projection sur ce sous-espace. Ainsi, la ressemblance entre individus est conserve dans cette opration de projection. Linertie du nuage projet est donc maximale.
31
Principe de lACP
Cest la rduction de lespace de reprsentation des individus par la dfinition de nouvelles variables synthtiques pour lesquelles la variance (inertie) est maximale : les composantes principales. La premire composante principale est celle pour laquelle la variance des individus est maximale. La deuxime composante est cherche sous deux conditions : Avoir une corrlation nulle avec la premire composante Exprimer son tour la plus grande variance des individus Le processus se droule jusqu lobtention des p composantes.
Recherche du premier axe principal et de la premire composante principale

Premier axe principal 1 La droite 1 passe par lorigine O et est engendre par le vecteur u1 vecteur propre norm de la matrice de corrlation R associe la plus grande valeur propre 1. La droite maximise linertie des points du nuage projets sur qui vaut Premire composante principale Y1 Y1 est une nouvelle variable dfinie pour chaque individu par la longueur algbrique de la projection de lindividu sur 1. Y1 est une variable centre de variance Qualit globale de la premire composante principale. La corrlation entre la premire composante et les variables initiales permet de donner un sens la composant. Mesure de la qualit globale de la premire composante : part dinertie explique Qualit de reprsentation des individus sur le premier axe principal Est mesure par le cosinus carr de langle form par lindividu et le premier axe principal. Plus le cosinus est proche de 1 plus le point est proche de laxe .
32
Recherche du deuxime axe principal et de la deuxime composante principale

Deuxime axe principal 2 La droite 2 passe par lorigine O et est engendre par le vecteur u2, vecteur propre norm de la matrice de corrlation R associe la deuxime plus grande valeur propre 2. La droite 2 maximise linertie des points du nuage projets sur 2 qui vaut 2 . Deuxime composante principale Y2 Y2 est une nouvelle variable dfinie pour chaque individu par la longueur algbrique de la projection de lindividu sur 2.. Y2 est une variable centre de variance 2 Qualit globale de la deuxime composante principale. Est mesure par la corrlation entre la deuxime composante et les variables initiales Mesure de la qualit globale de la deuxime composante : part dinertie explique Qualit de reprsentation des individus sur le deuxime axe principal Est mesure par le cosinus carr de langle form par lindividu et le deuxime axe principal. Plus le cosinus est proche de 1 plus le point est proche de laxe 2
Le processus se droule jusqu lobtention des p axes principaux et des p composantes principales
Proprits
Variance explique totale
Les composantes principales sont centres et non corrles entres elles charges Valeurs propres initiales Sommes des carrs Linertie explique par chaque axe principale = variance de la composante associe % de la % de la variance == variance == Composante Total % cumuls Total Les composantes3,455 classes par ordre dcroissant des variances 38,390 % cumuls sont 1 38,390 38,390 3,455 38,390
2,859 31,771 70,161 1,093 12,144 82,304 ,637 7,074 89,378 ,342 3,799 93,177 ,247 2,750 95,927 ,220 2,443 98,370 9,52E-02 1,058 99,428 5,14E-02 ,572 100,000 Mthode d'extraction : Analyse des principaux composants. 2 3 4 5 6 7 8 9 2,859 1,093 ,637 ,342 ,247 31,771 12,144 7,074 3,799 2,750 70,161 82,304 89,378 93,177 95,927
Remarque. Le premier plan principal est le plan form par les deux premiers axes principaux. La part dinertie explique par ce plan est la somme des parts dinertie explique par les deux premiers axes principaux.
33
Reprsentations graphiques. (Premier plan principal)

- Lindividu est reprsent suivant ces coordonns selon les deux premires composantes principales. Il sera bien reprsent lorsque le point est proche du plan principal - La variable est reprsente selon ces corrlations avec les deux premires composantes. Elle sera bien reprsente lorsque le point est proche du cercle de corrlation.
Matrice des composantes a Composante 2 -,541 -1,6E-02 ,116 ,659 ,909 ,322 -,438 -,555 ,830
SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR
1 ,603 -,762 -,605 ,633 ,231 ,623 ,764 ,759 ,376
3 ,213 ,527 ,722 ,235 -8,4E-03 ,197 ,314 ,214 ,102
Mthode d'extraction : Analyse en composantes principales. a. 3 composantes extraites.
Interprtation
I) Observer la part dinertie explique par le plan principal II) Expliquer la premire et la seconde composante principale : observer les fortes contributions. Quelles sont les variables retenir pour expliquer une composante? - Rgle empirique: une variable nest significative que si sa contribution est dau moins 0.50. - La contribution de la variable reprsente la corrlation entre la variable originale et son facteur. - Par consquent, plus une variable a une forte corrlation plus elle contribue la formation de cette composante, et plus elle sert sa dsignation.
Matrice des composantes a Composante 1 2 3 SOLD ,603 -,541 ,213 NDEC -,762 -1,6E-02 ,527 MDEC -,605 ,116 ,722 NBPR ,633 ,659 ,235 NEMP ,231 ,909 -8,4E-03 MEMP ,623 ,322 ,197 VADD ,764 -,438 ,314 DEPO ,759 -,555 ,214 RETR ,376 ,830 ,102 Mthode d'extraction : Analyse en composantes principales. a. 3 composantes extraites.
34
III) Observer le cercle de corrlation et mettre en vidence les fortes corrlations entre variables initiales Comment lire les corrlations? On ne peut lire la corrlation entre deux variables que si ces dernires sont proches du cercle. La corrlation est dautant plus forte que le cosinus de langle form par les deux variables est proche de 1.
Diagramme de composantes
1,0 nemp retr nbpr ,5 memp mdec 0,0 ndec
Composante 2
-,5
vadd sold depo
-1,0 -1,0 -,5 0,0 ,5 1,0
Composante 1
IV) Observer la rpartition des individus sur le plan et essayer de mettre en vidence la formation de groupes homognes. Lorigine des axes (0, 0) correspond la moyenne sur lchantillon. Il convient de mettre en valeur : les groupes dindividus (ayant donc un comportement identique) ; les individus isols ; la position relative des (groupe d) individus par rapport aux axes.
3 11
2 6 4
REGR factor score 2 for analysis
20 288 23 29 5 1 25 1524 9 13 16 17
10 0 14 3
7 1
19
-1
2 26 12 22
18 21 30 27
-2 -3 -2 -1 0 1 2
35
Combien de composantes ou facteurs retenir? Rgle des valeurs propres : toute composante qui a une valeur propre suprieure 1.
Variance explique totale Valeurs propres initiales Sommes des carrs charges % de la % de la Composante Total % cumuls Total % cumuls variance == variance == 1 3,455 38,390 38,390 3,455 38,390 38,390 2 2,859 31,771 70,161 2,859 31,771 70,161 3 1,093 12,144 82,304 1,093 12,144 82,304 4 ,637 7,074 89,378 ,637 7,074 89,378 5 ,342 3,799 93,177 ,342 3,799 93,177 6 ,247 2,750 95,927 ,247 2,750 95,927 7 ,220 2,443 98,370 8 9,52E-02 1,058 99,428 9 5,14E-02 ,572 100,000 Mthode d'extraction : Analyse des principaux composants.
Rgle du scree test Reprer dans le Scree plot, le coude des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associs) jusquau coude.
Graphique des valeurs propres
4
Valeur propre
0 1 2 3 4 5 6 7 8 9
Numro de composant
La Rotation
But = obtenir une structure plus sense. Les axes initiaux sont tourns autour de lorigine jusqu ce quune autre position soit atteinte. Rotation orthogonale = obtenir une structure factorielle dans laquelle chaque variable (ex. question) contribue essentiellement une seule et seulement une seule dimension. La variable devrait prsenter une forte corrlation avec la composante et presque une corrlation nulle avec les autres composantes. Les axes sont maintenus 90 - les facteurs sont mathmatiquement orthogonaux.
36
1,0 nemp retr nbpr ,5 memp mdec 0,0 ndec
Composante 2
-,5
vadd sold depo
-1,0 -1,0 -,5 0,0 ,5 1,0
Composante 1
Aprs rotation, les variables V1, V2, V5 ci-dessus ont de nouvelles coordonnes. Les coordonnes de V1 et V2 sont plus grandes sur laxe II (Facteur II aprs rotation) alors que V3, V4 et V5 contribuent plus la dimension I (Facteur I aprs rotation)
Facteur II aprs rotation
Facteur II avant rotation
+1
.V1
.V2
+0.5 .V3 +0.5 .V4 .V5

Facteur I aprs rotation
Facteur I avant rotation
-1
-0.5
0 - 0.5
+1
-1
37
a Matrice des composantes aprs rotation
Composante 1 2 SOLD ,793 -,167 NDEC -,652 -,395 MDEC -,582 -,202 NBPR ,219 ,888 NEMP -,255 ,903 MEMP ,379 ,591 VADD ,880 3,12E-03 DEPO ,935 -,101 RETR -8,9E-02 ,906 Mthode d'extraction : Analyse en composantes pri
Diagramme de composantes dans l'espace aprs rotation

1,0 nemp retr nbpr
memp ,5
0,0 mdec
sold
vadd depo
Composante 2
ndec -,5
-1,0 -1,0 -,5 0,0 ,5 1,0
Composante 1
38
Analyse en composantes principales sous SPSS
Instruction : Analyse > Factorisation > Analyse factorielle
Slection de variables :
39
Mise en uvre Caractristiques : Statistiques - Caractristiques univaries : Donne lesprance et lcart type de chaque variable. Statistiques - Structure initiale : Affiche les valeurs de la structure initiale (variance, valeurs propres, etc.) Matrice des corrlations - Coefficients : Affiche la matrice des corrlations Matrice des corrlations - Indice KMO et test de Bartlett : Calcule le KMO et effectue le test de Bartlett. Ils permettent de dterminer, a priori, ladquation de lACP. Matrice des corrlations - Anti-image : Permet de dterminer les variables supprimer dans le cas dun KMO trop faible.
Extraction Mthode : Mthode dextraction. Laisser Composantes principales. Analyser -Matrice de corrlation/covariance : fait une ACP norme ou non norme. Afficher - Structure factorielle sans rotation : Rsultat avant rotation [Laisser cocher supprimer ventuellement si rotation]. Affiche les coordonnes des composantes, . . . Afficher - Graphique des valeurs propres : Scree plot. Permet de reprer le coude. Extraire - Valeurs propres suprieures / Nombre de facteurs : permet de prciser les facteurs (axes) quon souhaite utiliser. Soit ceux correspondants une valeur propre suprieure 1 (donc expliquant mieux quune variable initiale) soit par leur nombre (2 ou 3).
40
Rotation Mthode - Aucune/Varimax/Quartimax/Equamax : Effectue une rotation dans le plan factoriel. Ne change pas linertie explique par le plan. Aucune : Pas de rotation. Les facteurs correspondent aux valeurs propres par ordre de grandeur dcroissante. Varimax : simplifie linterprtation des facteurs Quartimax : simplifie linterprtation des variables Equamax : combinaison de Varimax et Quartimax Afficher - Structure aprs rotation : Affiche les coordonnes des composantes aprs rotation, . . . Afficher - Carte(s) factorielle(s) : Graphique des variables dans le plan factoriel.
41
Facteurs Enregistrer dans des variables (Mthode Rgression) : Permet denregistrer (les coordonnes des individus dans) les nouvelles variables. Permet de faire une reprsentation du nuage des individus. Afficher la matrice des coefficients factoriels : Coordonnes des composantes dans les variables initiales.
Rsultats Statistiques descriptives Affiche la moyenne, lcart type et le nombre dobservations pour chaque variable. Permet donc de juger de lhtrognit des variables ; reprer les variables ayant des valeurs manquantes.
Statistiques descriptives attractivit rurale attractivit urbaine budget publicitaire chiffre d'affaire part de march productivit rendement Moyenne 13,65 5,55 7,35 48650,00 6,70 2270,00 51700,00 Ecart-type 4,738 2,946 3,897 19459,391 4,747 979,807 20573,053 n analyse 20 20 20 20 20 20 20
Matrices de corrlation Permet de dceler rapidement les variables fortement corrles et/ou de juger de lexistence de corrlations suffisantes entre les variables. confirmer par le test de Bartlett.
42
Matrice de corrlation attractivit rurale Corrlation attractivit rurale 1,000 attractivit urbain ,870 budget publicitair ,360 chiffre d'affaire ,897 part de march ,599 productivit ,638 rendement ,793 attractivit budget chiffre urbaine publicitaire d'affaire ,870 ,360 ,897 1,000 ,267 ,790 ,267 1,000 ,444 ,790 ,444 1,000 ,558 -,005 ,678 ,612 ,308 ,816 ,686 ,341 ,816 part de march productivit rendement ,599 ,638 ,793 ,558 ,612 ,686 -,005 ,308 ,341 ,678 ,816 ,816 1,000 ,803 ,605 ,803 1,000 ,613 ,605 ,613 1,000
Intrt de lACP : KMO et Test de Bartlett / Matrice de Corrlation Vrifier que le Chi-2 du test Bartlett est suffisamment grand avec une signification quasi nulle : les variables sont suffisamment corrles. La matrice des corrlations peut confirmer cela. Vrifier que le KMO est suprieur 0,6 ou 0,5 : pas de corrlations partielles trop importantes. Sinon, supprimer une ou plusieurs variables de lanalyse.
Indice KMO et test de Bartlett Mesure de prcision de l'chantillonnage de Kaiser-Meyer-Olkin. ,782
Test de sphricit de Khi-deux approxim 113,978 Bartlett ddl 21 Signification de Bartle ,000
Graphique des valeurs propres Reprer dans le Scree plot, le coude des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associs) jusquau coude.
Graphique des valeurs propres
5
Valeur propre
0 1 2 3 4 5 6 7
Numro de composant
43
Variance totale explique Dterminer le nombre daxes retenir pour avoir plus de 70 % de variance (cumule) explique. Si le nombre daxes est suprieur 2, il faudra tudier plusieurs schmas. Limportance de chaque axe est donne par le % de variance explique (par chaque axe).
Variance totale explique xtraction Sommes des carrs de Valeurs propres initiales facteurs retenus % de la % de la Composant Total variance % cumuls Total variance % cumuls 1 4,744 67,766 67,766 4,744 67,766 67,766 2 1,032 14,741 82,507 1,032 14,741 82,507 3 ,589 8,410 90,917 4 ,320 4,573 95,490 5 ,145 2,077 97,566 6 ,126 1,802 99,369 7 ,044 ,631 100,000 Mthode d'extraction : Analyse en composantes principales.
Qualit de lACP : Variance totale explique / Graphique des valeurs propres Limportance de chaque axe est donne par le % de variance explique (par chaque axe). Reprer dans le Scree plot, le coude des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les axes associs) jusquau coude. Cela doit correspondre au nombre daxes dtermin prcdemment. Interprtation des axes / Contribution des variables : Matrice des composantes Reprer les variables ayant une forte contribution (positive ou ngative) sur chaque axe. Ces variables donneront un sens aux axes. Deux (groupes de) variables avec des contributions de signes opposs reprsenteront des oppositions. Cette tape peut tre une confirmation des observations faites sur le graphe.
a Matrice des composantes
attractivit rurale attractivit urbaine budget publicitaire chiffre d'affaire part de march productivit rendement
Composante 1 2 ,921 ,074 ,859 -,002 ,412 ,856 ,964 ,076 ,771 -,507 ,848 -,169 ,863 ,049
Mthode d'extraction : Analyse en composantes princip a. 2 composantes extraites.
44
Interprtation graphique : Diagramme des composantes
Ltude graphique ne doit porter que sur les variables se trouvant proches du cercle des corrlations, cest--dire celles qui sont suffisamment reprsentes. Reprer les groupes de variables et interprter leurs regroupements. Les variables proches des axes permettent de donner un sens aux axes, en mettant ventuellement en valeur des oppositions. Des variables proches reprsentent des variables fortement corrles. Des variables angle droit reprsentent des variables non corrles.
Qualit de reprsentation Initial Extraction 1,000 ,854 1,000 ,738 1,000 ,902 1,000 ,935 1,000 ,851 1,000 ,748 1,000 ,748 Mthode d'extraction : Analyse en composantes principales. attractivit rurale attractivit urbaine budget publicitaire chiffre d'affaire part de march productivit rendement
1,0
budg_pub
0,5
Composante 2
0,0
chif_af attr_rur rendemt attr_urb product
-0,5
part_mar
-1,0 -1,0 -0,5 0,0 0,5 1,0
Composante 1
45
Nuage des individus Coordonnes des individus Pour obtenir le nuage des individus (dans le plan factoriel), il faut faire une ACP en ayant coch loption Facteurs > Enregistrer dans des variables. Deux (ou plus) nouvelles variables sont gnres. Elles portent le nom facx_y o x reprsente le numro du facteur, et y le numro de lanalyse Diagramme des individus Faire alors un diagramme de dispersion simple Graphe > Diagramme de dispersion > Simple. Mettre le premier facteur sur laxe X et le second sur laxe Y. tiqueter les observations par la variable contenant le nom des individus, et ne pas oublier de cocher dans Options... loption Afficher le diagramme avec les tiquettes dobservations.
46
2,00000
REGR factor score 2 for analysis 1
CORA
AUCHAN
1,00000
MAMMOUTH DYNAMIQ SCOTIA METRO PLAZZA STOC ATAC MATCH SYSTEME U CARREFOUR CASINO CONTINENT
0,00000
PANORAMA
CARRES D'AS
-1,00000
GEANT
CHANPION
INTERMARCHE LECLERC
-2,00000 -1,00000 0,00000 1,00000 2,00000
REGR factor score 1 for analysis 1
Interprtation du nuage des individus Lorigine des axes (0, 0) correspond la moyenne sur lchantillon. Il convient de mettre en valeur : les groupes dindividus (ayant donc un comportement identique) ; les individus isols ; la position relative des (groupe d) individus par rapport aux axes. Attention, ce graphique ne permet pas de connatre la qualit de reprsentation des individus. Contribution La contribution dun individu Xi la dtermination de laxe est donne par
CTR (i ) =
mi F2 (i )
Les points les plus loigns de lorigine ont les plus fortes contributions.
Qualit de reprsentation des individus Il nest pas possible de lobtenir automatiquement. Les formules thoriques sont :
2 2 QLT (i ) = cos (i ) cos (i ) =
F2 (i ) Xi G
2
o reprsente les valeurs propres des axes retenus, Xi lindividu i, G le barycentre des individus, F (i ) la coordonne de Xi sur laxe associ , QLT(i) le taux de reprsentation de Xi par laxe associ , la qualit de reprsentation de Xi dans les axes associs aux . Pour appliquer ces formules dans SPSS, il faut tenir compte que les calculs sont faits sur des donnes centres rduites
47
les coordonnes donnes par SPSS (facx_y) sont donnes dans un systme daxes ortho normaux. Pour appliquer les formules prcdentes, il faut donc centrer et rduire les variables originales et multiplier les coordonnes sur les axes principaux par
Normalisation des variables Utiliser Analyse > Statistiques descriptives > Caractristiques en cochant enregistrer des valeurs standardises dans des variables sur les variables originales.
Slection des variables standardiser :
48
Donnes standardiser :
Norme de chaque point Dfinir une nouvelle variable norm2 via Transformer > Calculer en utilisant la formule : norm2 = z_variable_1**2+z_variable_2**2+
49
Calcul des cos Dfinir les nouvelles variables cos_1, cos_2 pour chacun des axes via Transformer > Calculer en utilisant la formule : N Cos_i= (faci_1**2) * /norm2
Calcul de QLT Dfinir une nouvelle variable QLT, via Transformer > Calculer en utilisant la formule : QLT = cos_1 + cos_2 + . . .
Gnralement on ne prend en compte que les individus dont le QLT est suprieur 0,5.
50
Amlioration de lACP Rotation Si linterprtation des axes nest pas convaincante, utilisez une rotation pour obtenir une nouvelle analyse: Varimax : simplifie linterprtation des facteurs en minimisant le nombre de variables ayant de fortes contributions sur un mme facteur Quartimax : simplifie linterprtation des variables en minimisant le nombre de facteurs ncessaires lexplication de chaque variable Equamax : compromis entre Varimax et Quartimax. Matrice des composantes (aprs rotation) Coordonnes des variables dans les nouveaux axes. Matrice de transformation Rotation des axes par rapport aux axes principaux thoriques. Matrice des coefficients des coordonnes des composantes Coordonnes des composantes dans les variables initiales. Matrice des covariances des composantes Identit car orthogonales (non corrles).
51
Variance totale explique Valeurs propres initiales % de la Total variance % cumuls 4,744 67,766 67,766 1,032 14,741 82,507 ,589 8,410 90,917 ,320 4,573 95,490 ,145 2,077 97,566 ,126 1,802 99,369 ,044 ,631 100,000 Extraction Sommes des carrs des facteurs retenus % de la Total variance % cumuls 4,744 67,766 67,766 1,032 14,741 82,507 Somme des carrs des facteurs retenus pour la rotation % de la Total variance % cumuls 4,422 63,165 63,165 1,354 19,342 82,507
Composante 1 2 3 4 5 6 7
Mthode d'extraction : Analyse en composantes principales.
Matrice de tranformation des composantes Composante 1 2 1 ,956 -,295 2 ,295 ,956
Mthode d'extraction : Analyse en composantes principales. Mthode de rotation : Varimax avec normalisation de Kaiser.
Diagramme de composantes dans l'espace aprs rotation
1,0
budg_pub
0,5
Composante 2
chif_af attr_rur rendemt attr_urb product
0,0
part_mar
-0,5
-1,0 -1,0 -0,5 0,0 0,5 1,0
Composante 1
Qualit de reprsentation des individus Cas de la rotation En dimension 2, on peut facilement dduire les cos aprs rotation de ceux avant rotation via les formules cos_1_R = acos_1 + bcos_2 et cos_2_R = bcos_1 + acos_2 o a et b sont les coefficients de la matrice de rotation R. . a b R= b a
52
Suppression de variables Test de Bartlett Si le test de Bartlett choue (variables insuffisamment corrles), il y a peu despoir damliorer lACP. Amlioration du KMO Si lindice KMO est trop faible (< 0.5), cela signifie quil y a trop de corrlations partielles. Il convient donc de supprimer la (ou les) variables ayant le plus dinfluence sur les corrlations partielles. Pour cela, demander le calcul de la matrice des corrlations anti-image .
La diagonale de cette matrice correspond au KMO pour chaque variable (quotient de la somme des corrlations au carr de cette variable avec les autres variables, par la mme chose plus la somme des corrlations partielles au carr de cette variable.) Il convient donc de supprimer la variable ayant le KMO le plus faible.
Contributions excessives Si une variable (ou un individu) a une contribution trop importante sur (la dtermination d) un axe principal, il peut tre intressant de supprimer cette variable (ou cet individu) de ltude pour tenter de mieux expliquer les autres variables.
53
ANALYSE FACTORIELLE DES CORRESPONDANCES : A.F.C.
Objectifs de lA.F.C. : valuer - Les ressemblances entre modalits dune mme variable. - Les proximits entre les modalits des deux variables. Intrt de lA.F.C.: - Expliquer graphiquement une variable partir dune autre variable. - Aspect non infrentiel de la mthode.
Croisement de variables nominales : Mise en relation des thmes dun questionnaire
Opinions Qui pense quoi Qui fait quoi Comportement Quelles significations
Identit
Qui veut quoi Motifs
Pour quelles raisons
Donnes : Tableau des frquences

b1 a1 bj bp
a a
i n
f ij =
kij k
k. j k
ki . fi. = k
f. j =
54
Exemple : Croisement de variables nominales : - Quelle est la C.S.P. du chef de famille ? # Agriculteur # Patr indust commerce# Profession librale/cadre #Cadre moyen #Employ #Ouvrier #Personnel de service #Autre - Quel est votre mode d'hbergement ? #Htel #Camping # Location / gte #Famille / amis
Tableau des correspondances Quel est votre mode d'hbergement ? Quelle est la C.S. F M du chef de famille Htel CampingLocation / gte amille / amis arge active Agriculteur 1 2 2 6 11 Patr indust comme 17 4 10 13 44 Profession librale 23 6 26 24 79 Cadre moyen 12 17 25 32 86 Employ 10 32 29 35 106 Ouvrier 7 20 8 9 44 Personnel de serv 0 8 2 12 22 Autre 31 22 25 34 112 Marge active 101 111 127 165 504
Comment les CSP choisissent leurs modes dhbergements? La rponse cette question est donne par :
Tableau des profils lignes

b1 a1 bj bp
ai
an
fj =
i
f ij fi.
masse
f. j
55
Exemple (suite)
Profils lignes Quel est votre mode d'hbergement ? Quelle est la C.S.P du chef de famille Htel CampingLocation / gte Famille / amis Marge active Agriculteur ,091 ,182 ,182 ,545 1,000 Patr indust comme ,386 ,091 ,227 ,295 1,000 Profession librale ,291 ,076 ,329 ,304 1,000 Cadre moyen ,140 ,198 ,291 ,372 1,000 Employ ,094 ,302 ,274 ,330 1,000 Ouvrier ,159 ,455 ,182 ,205 1,000 Personnel de serv ,000 ,364 ,091 ,545 1,000 Autre ,277 ,196 ,223 ,304 1,000 Masse ,200 ,220 ,252 ,327
Comment se fait le choix du mode dhbergement par rapport la CSP? La rponse cette question est donne par :
Tableau des profils colonnes

b1 a1 bj bp
masse
ai
an
fi =
j
f ij f. j
f i.
Profils colonnes Quel est votre mode d'hbergement ? Quelle est la C.S du chef de famill Htel Campingocation / gte Famille / amisMasse Agriculteur ,010 ,018 ,016 ,036 ,022 Patr indust comm ,168 ,036 ,079 ,079 ,087 Profession libra ,228 ,054 ,205 ,145 ,157 Cadre moyen ,119 ,153 ,197 ,194 ,171 Employ ,099 ,288 ,228 ,212 ,210 Ouvrier ,069 ,180 ,063 ,055 ,087 Personnel de se ,000 ,072 ,016 ,073 ,044 Autre ,307 ,198 ,197 ,206 ,222 Marge active 1,000 1,000 1,000 1,000
56
LA.F.C. sapplique aux tableaux de contingence. Elle se propose - dvaluer les ressemblances entre modalits dune mme variable en ralisant une ACP sur la matrice des profils lignes ou des profils colonnes. -dvaluer les proximits entre les modalits des deux variables en tudiant le lien entre les deux ACP ( ACP des profils lignes et des profils colonnes).
ACP des profils lignes
On ralise une ACP en considrant les profils lignes comme des individus et les modalits de la deuxime variable comme des variables.
Tableau des profils lignes

b1 a1 bj bp
masse
ai
an
fj =
i
f ij fi.

)= f J
fi.
G=(
i
f. j
f J = ( f1i ,..., f pi ) = point modalit a i
Nuage des profils lignes. i A chaque modalit on associe le point f J = ( f 1i ,..., f pi ) = point modalit a i
et une masse gale sa frquence marginale f i . Le nuage de points N(I) de Rp est de centre de gravit f J
Distance entre profils lignes : distance du khi-2.
d (f , f )=
2 i J l J j =1
1 f. j
( f j f j )2
i l
Le fait de diviser par f.j gomme leffet taille et permet de mieux mesurer la forme des liaisons entres profils.
Inertie du nuage des profils lignes.
I ( N ( I ), f J ) = f i .d 2 ( f Ji , f J ) =
i =1 n
2
k
2 = k
i =1
j =1
1 f i . f. j
( f ij f i . f. j )2
qui est une mesure de la liaison entre les deux variables qualitatives.
57
Recherche du premier axe principal et de la premire composante principale. Premier axe principal 1. La droite 1 passe par le centre de gravit fJ du nuage N(I) et est engendre par le vecteur u1 vecteur propre norm associe la plus grande valeur propre . La droite maximise linertie des points du nuage projets sur qui vaut .. Premire composante principale F1. F1 est une nouvelle variable dfinie pour chaque individu par la longueur algbrique de la projection de lindividu sur 1. F1 est une variable centre de variance .. Qualit globale de la premire composante principale. - Part dinertie explique : Inertie explique par 1 sur lInertie totale - Contribution de la modalit ai la composante f F 2 (i ) CTR1 (i ) = i . 1
Un profil ligne est dautant plus important dans la construction de laxe que sa contribution est leve. Linterprtation de laxe sappuie en priorit sur les modalits fortes contributions.
Qualit de reprsentation des individus sur le premier axe principal. Elle est mesure par le cosinus carr de langle form par lindividu et le premier axe principal qui vaut : F 2 (i ) 2 cos1 = 2 1 i d ( fJ , fJ ) tude des autres dimensions. On cherche le deuxime axe principal 2 orthogonal 1 passant au milieu du nuage N(I), puis 3 orthogonal 1 et 2 vrifiant le mme critre, etc. Le nombre daxes que lon peut construire est au plus gal r=inf (n-1, p-1). Axes principaux. Les axes principaux 1,..., r passent par le centre de gravit fJ et sont ports par les vecteurs propres u1,,ur associ aux valeurs propres 1,..., r ranges par ordre dcroissant. Les composantes principales. i Les composantes F1,,Fr sont les coordonnes des projections des profils lignes f J sur les axes 1,..., r. Proprits. - Linertie explique par chaque axe principale = variance de la composante associe - Les composantes sont classes par ordre dcroissant des variances - Les composantes principales sont centres et non corrles entres elles
58
Distance, entre profils lignes, exprime en fonction des composantes :
d 2 ( f Ji , f Jl ) = ( Fh (i ) Fh (l )) 2
h =1
r = nombre de composantes
La distance du khi2 entre profils correspond la distance euclidienne de ces mmes profils exprime en fonction des composantes. Exemple (suite)
Rsum Valeur singulire de Proportion d'inertie confiance Corrlatio n Pris en compte Cumul Ecart-type Sig. 2 ,707 ,707 ,039 ,005 ,201 ,908 ,044 ,092 1,000 ,000a 1,000 1,000
Valeur Dimensio singulire Inertie Khi-deux 1 ,311 ,097 2 ,166 ,027 3 ,112 ,013 Total ,137 68,884 a.21 degrs de libert
a Caractristiques des points lignes
Score dans la dimension Quelle est la du chef de faMasse 1 2 Inertie Agriculteur ,022 -,323 ,915 ,005 Patr indust co ,087 ,854 -,257 ,022 Profession lib ,157 ,689 ,190 ,025 Cadre moyen ,171 -,101 ,398 ,006 Employ ,210 -,498 ,092 ,019 Ouvrier ,087 -,733 -,968 ,028 Personnel de ,044 -1,112 ,539 ,024 Autre ,222 ,266 -,240 ,008 Total actif 1,000 ,137 a. Normalisation principale symtrique
Contribution point inertie dimension mension inertie de 1 2 1 2 Total ,007 ,110 ,140 ,601 ,741 ,205 ,035 ,892 ,043 ,935 ,239 ,034 ,917 ,037 ,954 ,006 ,163 ,097 ,798 ,896 ,168 ,011 ,872 ,016 ,888 ,151 ,494 ,516 ,481 ,997 ,174 ,077 ,709 ,089 ,798 ,050 ,077 ,598 ,260 ,858 1,000 1,000
ACP des profils colonnes
On ralise une ACP en considrant les profils colonnes comme des individus et les modalits de la premire variable comme des variables.
59
Tableau des profils colonnes

b1 a1 bj bp
ai
an
fi =
j
f ij f. j
fi.
masse
j
f. j
f I = ( f1 j ,..., f n j ) = point modalit b j
Nuage des profils colonnes. A chaque modalit on associe le point f I j = ( f1 j ,..., f n j ) = point modalit b j et une masse gale sa frquence marginale f. j . Le nuage de points N(I) de Rn est de centre de gravit f I . Distance entre profils colonnes : distance du khi-2.
n
d ( f I , f ) = f1i . ( f i f i )2
2 j k I j k i =1
Inertie du nuage des profils colonnes.

I ( N ( I ), f I ) = f. j d 2 ( f I j , f I ) =
j =1 p
2
k
Axes principaux. Les axes principaux 1,..., r passent par le centre de gravit fI et sont ports par les vecteurs propres v1,,vr associ aux valeurs propres 1,..., r ranges par ordre dcroissant. Les composantes principales Les composantes G1,,Gr sont les coordonnes des projections des profils colonnes sur les axes 1,..., r. Proprits - Linertie explique par chaque axe principale = variance de la composante associe - Les composantes sont classes par ordre dcroissant des variances - Les composantes principales sont centres et non corrles entres elles Distance, entre profils colonnes, exprim en fonction des composantes
d 2 ( f I j , f Ik ) = (Gh ( j ) Gh ( k )) 2
h =1 r
60
La distance du khi2 entre profils correspond la distance euclidienne de ces mmes profils exprime en fonction des composantes
Lien entre les deux analyses : Relations de transition Les composantes des deux analyses sont lies par les relations suivantes
Fh (i ) = Gh ( j ) =
j =1 n i =1
f ij fi .
Gh ( j ) Fh (i )
f ij f. j
Indice dattraction rpulsion
d ij =
d ij > 1 attractionentre a iet b j f i . f. j d ij < 1 rpulsion entre a iet b j = 1 i et j independence des variables f ij
Indice dattraction rpulsion exprim en fonction des composantes
d ij = 1 +
h =1
Fh (i )Gh ( j )
Par consquent :
Si
h =1
Fh (i )Gh ( j ) > 0 attraction entre les modalits ai et b j
Si
h =1
Fh (i )Gh ( j ) < 0 rpulsion entre les modalits ai et b j
Reprsentations graphiques. Reprsentation graphique : profil ligne.

Axe 2 (20.1%) Agriculteur Personnel de service Cadre moyen Profession librale/cadre Employ Axe 1 (70.7%) Patr indust commerceAutre
Ouvrier
61
La proximit entre deux modalits traduit ici des profils proches.

Reprsentation graphique : profil colonne.
Axe 2 (20.1%) Famille / amis Location / gte Axe 1 (70.7%) Htel Camping
La proximit entre deux modalits traduit ici des profils proches.

Reprsentation simultane On superpose ici les deux ACP (ACP des profils lignes et ACP des profils colonnes)
Si des modalits des 2 variables sont dans le mme cadran cela traduit ici des modalits qui sattirent.
62
Si des modalits des 2 variables sont dans des cadrans opposs cela traduit ici des modalits qui se repousses.
Si des modalits des 2 variables sont dans des cadrans adjacents on ne peut conclure que si ces modalits sont proches de lun des axes.
63
Analyse factorielle des correspondances sous SPSS

Mise en uvre de lAFC Analyse > Factorisation > Analyse des correspondances
Dans la fentre Analyse des correspondances, mettre la variable (recode) ayant le moins de
modalits dans colonne et lautre dans ligne. Pour chacune des 2 variables, cliquer sur Dfinir intervalle, indiquer les valeurs minimale et maximale de la variable recode puis cliquer sur mettre jour.
64
Pour mettre certaines modalits en points ajouts (apparaissant sur le graphique mais ntant pas pris en compte dans le calcul de linertie et la dtermination des axes), slectionner (le numro de) la modalit, puis cocher la modalit est un supplment.
Modle Dimensions de la solution : Nombre daxes factoriels retenus. Commencer avec 2 puis modifier selon la qualit de reprsentation (inertie explique). Mesure de distance : distance utilise pour mesurer lcart entre deux points. Choisir Khi-deux Mthode de normalisation : Le choix de la mthode de standardisation na dinfluence que sur les calculs des coordonnes des points (profils), en modifiant les chelles des axes. Les inerties et contributions restent inchanges. Elles ont donc pour effet dtirer (sparment) les deux nuages selon un axe ou lautre. Lorsquon ne souhaite tudier quune des deux variables, choisir principale en ligne ou principale en colonne. Pour tudier les deux, choisir principale ou symtrique. Principale en ligne : une normalisation est opre sur les profils-lignes. Les coordonnes du nuage des profils-colonnes tant dduites des coordonnes du nuage des profils-lignes. Cette normalisation permet dtudier les profils-lignes. Sur le graphique, la distance entre 2 profilslignes correspond la distance du Khi-deux entre ces deux profils. Principale en colonne : idem que principale en ligne mais pour les profils-colonnes ! Principale : Compromis entre principale en ligne et principale en colonne. Une normalisation principale en ligne est opre sur le nuage des profils-lignes et une normalisation principale en colonne sur les profils-colonnes. On retrouve donc un tableau de chacune des mthodes prcdentes. Toutefois, les chelles tant diffrentes, il est impossible (dans SPSS) de reprsenter ces deux nuages sur un mme graphique. Symtrique : correspond une analyse canonique des correspondances. Elle permet la reprsentation sur un mme graphique des deux nuages. Les axes du graphique correspondent alors aux variables canoniques et les valeurs singulires aux coefficients de corrlation
65
canonique. Il est possible de retrouver les coordonnes des points de la mthode symtrique partir de ceux de la mthode principale via la formule score_symtrique = 1 score_principale
4
Statistiques Tableau des correspondances : imprime le tableau de contingence. Caractristiques des profils-lignes/colonnes : imprime le tableau des contributions, CO2 et QLT. Profils-lignes/colonnes : imprime le tableau des profils-lignes ou colonnes. Permutation du tableau des correspondances : rordonne les lignes et colonnes du tableau des correspondances suivant les valeurs dcroissantes des scores (coordonnes) des modalits sur chaque axe (successivement). A limiter la premire ou au deux premires dimensions. Permet de dceler rapidement les modalits ayant un score important sur chaque dimension. Comme cela est aussi visible sur les graphes, cette option est peu utile dans la pratique.
66
Graphiques Diagrammes de dispersion : profils-lignes seuls, profils-colonnes seuls, les deux superposs (diagramme double). Lors de lutilisation de la mthode de standardisation principale en ligne (resp. en colonne), demander uniquement le diagramme des profils-lignes (resp. des profils-colonnes). Lors de la mthode de standardisation principale, demander les deux diagrammes (ils correspondent ceux obtenus sparment avec les deux mthodes prcdentes). Les distances entre les profils-lignes ou entre les profils-colonnes reprsentent la distance du khideux entre ces profils. Pour la mthode symtrique, choisir le diagramme double ventuellement complt par les deux diagrammes simples (pour plus de clart). Mais les distances entre les points ne sont plus des distances du khi-deux. Courbes : Trace les courbes des coordonnes des modalits des profils-lignes et/ou colonnes sur chacun des axes. Lorsquune variable est ordinale (ge, CSP, etc), cela permet de dceler plus facilement des croissances/dcroissances des modalits suivants les axes.
67
Rsultats Tableau des correspondances Il sagit du tableau de contingence. Une lecture rapide permet de dceler des classes sous ou surreprsentes. On retiendra surtout leffectif global (k) lintersection des deux marges actives.
Tableau des correspondances Quelle est votre catgorie socio-professionnelle ? Quelle est la marqu Commerant, artisan de votre voiture ? Agriculteur Renault 1 1 Peugeot 2 1 Citron 1 1 Volkswagen 0 1 Fiat 1 3 Ford 1 0 Toyota 0 0 BMW 0 1 Mercedes 0 2 Opel 0 1 Volvo 0 0 Autre 1 1 Marge active 7 12 Cadre Employ 7 8 3 5 3 2 3 3 0 1 0 3 1 0 6 0 4 1 0 2 0 0 5 1 32 26 Ouvrier Chomeur Etudiant 1 1 6 2 0 3 3 1 4 0 1 3 1 4 1 2 2 2 0 0 1 0 0 0 0 0 0 1 1 1 2 1 0 3 1 2 15 12 23 Inactif 5 3 3 3 0 2 0 0 0 1 0 0 17 Autre 1 0 1 2 1 1 0 1 0 0 0 1 8 Marge active 31 19 19 16 12 13 2 8 7 7 3 15 152
Rsum Prsente le rsultat de la diagonalisation de la matrice dinertie. Le programme prsente lensemble des axes (il y en a inf(n - 1, p - 1)). Les axes retenus pour lanalyse sont ceux ayant un cart-type (calcul). 2 La dernire ligne (total) permet de connatre lcart lindpendance des deux variables et le 2 = k 2 o k est le nombre observation : ( f f f )2 2 = ij i . . j inf( n 1, p 1) f i. f. j i, j
68
Une signification (Sig.) infrieure 0.05 assure de lexistence dun lien entre les deux variables. Le rapport (non calcul)
2 / inf( n 1, p 1)
permet de connatre limportance du lien entre les 2 variables. Pour chaque axe, la valeur singulire (coefficient de corrlation canonique) correspond la racine carre de linertie.
Rsum Proportion d'inertie Valeur Dimension singulire 1 ,518 2 ,437 3 ,321 4 ,224 5 ,158 6 ,141 7 ,101 8 ,046 Total a. 88 degrs de libert Inertie ,268 ,191 ,103 ,050 ,025 ,020 ,010 ,002 ,669 Khi-deux Sig. Expliqu ,400 ,286 ,154 ,075 ,037 ,030 ,015 ,003 1,000 Valeur singulire de confiance Corrlation Cumul Ecart-type 2 ,400 ,054 ,217 ,686 ,065 ,840 ,915 ,952 ,981 ,997 1,000 1,000
101,698
,151a
Intrt de lAFC Il est dabord ncessaire de dterminer sil existe une liaison significative entre les deux variables. On utilise pour cela le test du khi-deux affich en bas du Rsum. Nombre daxes retenir - Inertie explique On dtermine ensuite le nombre daxes retenir en tenant compte de la proportion dinertie explique par les premiers axes. Une proportion cumule suprieure 70 % ou 80 % est en gnral suffisante. Il est de toutes faons trs difficile de travailler avec plus de 3 axes. Rappelons que le nombre maximum daxes est infrieur ou gal au plus petit nombre de modalits des variables moins 1. Il faut aussi tenir compte dans linterprtation que lAFC ntudie que la liaison entre les deux variables (et non les variables elles-mmes). Caractristiques des points lignes/colonnes La masse correspond la frquence marginale de la modalit. Les scores dans la dimension sont les coordonnes dans les axes factoriels des projections des points modalits. Linertie reprsente linertie apporte au nuage par le point.
Les contributions des points linertie de la dimension sont les contributions classiques alors que les contributions des dimensions linertie du point correspondent aux CO2. Le total de ces dernires contributions reprsente donc les QLT.
Interprtation des axes laide des tableaux Caractristiques des points lignes/colonnes, on essaye dinterprter les axes. Les points lignes (puis colonnes) ayant les plus fortes contributions (contribution du point
69
linertie de la dimension) permettent de donner un sens aux axes. Il est ncessaire de tenir compte du signe des scores dans la dimension pour connatre le sens de la contribution et pour mettre en valeur des oppositions. Si ncessaire, et lorsque cela a un sens, il est possible dadditionner les contributions de 2 modalits proches (par leur sens et leur profils cest--dire, ayant des scores sur les axes assez proches) pour faciliter linterprtation de laxe.
Interprtation des points / axes On interprte alors les (groupes) de points-profils dune variable en tenant compte de leur position relative par rapport aux axes, chaque axe ayant la signification donne ltape prcdente par lautre variable. Interprtation des proximits Deux points-profils dune mme variable suffisamment proches reprsenteront deux modalits ayant des distributions similaires suivant les modalits de lautre variable. Dans le cas des normalisations principales, la distance (euclidienne) entre deux points-profils dune mme variable reprsente la distance du khi-deux entre les deux profils. Elle mesure donc la similitude des distributions des deux modalits suivant les modalits de lautre variable.
a Caractristiques des points lignes
Score dans la dimension Quelle est la marque de votre voiture ? Masse 1 Renault ,204 -,216 Peugeot ,125 ,052 Citron ,125 ,186 Volkswagen ,105 -,189 Fiat ,079 ,957 Ford ,086 ,835 Toyota ,013 -1,039 BMW ,053 -1,759 Mercedes ,046 -1,356 Opel ,046 ,691 Volvo ,020 2,031 Autre ,099 -,163 Total actif 1,000 a. Normalisation principale symtrique
2 -,575 -,579 -,186 -,369 1,291 -,300 -,219 1,000 ,951 -,065 1,483 ,564
Inertie ,039 ,037 ,017 ,033 ,129 ,039 ,024 ,114 ,078 ,024 ,097 ,037 ,669
Contribution De point inertie de De dimension inertie de point dimension 1 2 1 2 Total ,018 ,154 ,126 ,758 ,884 ,001 ,096 ,005 ,490 ,495 ,008 ,010 ,133 ,112 ,246 ,007 ,033 ,059 ,189 ,247 ,140 ,301 ,289 ,444 ,734 ,115 ,018 ,785 ,085 ,870 ,027 ,001 ,304 ,011 ,315 ,315 ,120 ,739 ,202 ,941 ,164 ,095 ,558 ,232 ,790 ,042 ,000 ,476 ,004 ,480 ,157 ,099 ,434 ,196 ,630 ,005 ,072 ,037 ,375 ,413 1,000 1,000
70
a Caractristiques des points colonnes
Score dans la dimension Quelle est votre catgo socio-professionnelle ? Masse 1 Agriculteur ,046 ,470 Commerant, artisan ,079 -,199 Cadre ,211 -1,159 Employ ,171 ,124 Ouvrier ,099 ,945 Chomeur ,079 1,262 Etudiant ,151 ,083 Inactif ,112 ,163 Autre ,053 -,130 Total actif 1,000 a. Normalisation principale symtrique
2 -,119 1,061 ,356 -,633 ,457 1,032 -,547 -,934 ,302
Inertie ,029 ,076 ,166 ,049 ,114 ,115 ,037 ,051 ,033 ,669
Contribution De point inertie de dimension De dimension inertie de point 1 2 1 2 Total ,020 ,001 ,185 ,010 ,195 ,006 ,203 ,021 ,513 ,534 ,546 ,061 ,882 ,070 ,953 ,005 ,157 ,028 ,618 ,645 ,170 ,047 ,402 ,079 ,481 ,243 ,192 ,564 ,319 ,883 ,002 ,104 ,015 ,530 ,545 ,006 ,223 ,030 ,838 ,868 ,002 ,011 ,014 ,063 ,077 1,000 1,000
Points de lignes ou de colonnes. Dans le cas dune normalisation principale en ligne, en colonne ou double, les graphiques points de lignes, points de colonnes ou les deux, correspondent aux projections dans le plan factoriel des points modalits. Les distances entre les points modalits sont gales aux distances du khi-deux entre les profils associs.
Points de lignes pour Quelle est la marque de votre voiture ? Symtrique Normalisation
1,5
Fiat Volvo
1,0
BMW Mercedes Autre
Dimension 2
0,5
0,0
Toyota Citron Volkswagen Peugeot
Opel Ford
-0,5
Renault
-1,0 -2 -1 0 1 2
Dimension 1
71
Points de colonnes pour Quelle est votre catgorie socio-professionnelle ? Symtrique Normalisation
1,5
Chomeur
1,0
Commerant, artisan
Dimension 2
0,5
Cadre Autre
Ouvrier
0,0
Agriculteur Etudiant Employ Inactif
-0,5
-1,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1
Qualit de reprsentation des points-profils Pour les deux interprtations prcdentes, il est indispensable de tenir compte de la qualit de reprsentation des points (contribution de la dimension linertie du point). Lors de lutilisation de la mthode de normalisation symtrique, les distances ne sont plus des distances du khi-deux, mme si leurs interprtations restent similaires. Dans tous les cas, lorigine correspond au profil moyen pour la variable considre. Points de lignes et de colonnes Cette reprsentation na dintrt que lors dune mthode de normalisation symtrique (biplot). Les distances entre deux modalits dune mme variable ne sont plus des distances du khi-deux, mme si leurs interprtations restent similaires. Il est possible dinterprter la proximit dune modalit avec une modalit de lautre variable, si ces deux dernires se trouvent la priphrie du nuage. Il est alors prudent de vrifier linterprtation laide du tableau de contingence.
72
Points de ligne et de colonne
Symtrique Normalisation
2
Volvo Commerant, artisan Mercedes Fiat
Dimension 2
BMW
Chomeur Autre Ouvrier Cadre Autre Opel Citron Agriculteur Toyota Volkswagen Renault Inactif
Quelle est la marque de votre voiture ? Quelle est votre catgorie socioprofessionnelle ?
-1
-2 -2 -1 0 1 2 3
Dimension 1
Utilisation des graphiques Pour viter des erreurs dinterprtation, il est prfrable dutiliser des graphiques spars pour chacune des variables. Avec la normalisation principale, on est de plus assur que les distances euclidiennes entre les points reprsentent les distances du khi-deux entre les profils. Lors de lutilisation des deux graphiques superposs (biplot), linterprtation des proximits entre des points profils entre les variables doit tre faites avec prudence. Il est prfrable de ninterprter de telles proximits que lorsquelles ont lieu la priphrie du nuage. Amlioration de lAFC Lorsquun (ou plusieurs) point-profil a une contribution excessive la dtermination dun axe ou lorsquil apparat dans le graphique comme un point isol (ou aberrant) du nuage principal, il peut tre intressant (aprs lavoir interprt) de le mettre en point supplmentaire dans lanalyse : son influence sur le calcul de linertie et sur la dtermination des axes sera supprim, mais il restera reprsent dans le graphique factoriel. Cela permet dobtenir une analyse plus fine des profils restants. Cas des variables choix multiples Les donnes en entre dans SPSS ont donc la forme standard : Y X1 ... Xm 2 2 ... 3 4 1 ... 4 3 3 ... 1
73
Utiliser la commande : Donnes > Restructurer avec les options : Restructurer les variables slectionnes en observations Un seul groupe de variables Identification de groupes dobservations : Utiliser une variable slectionne en faisant passer la variable contenant le nom des individus (si individus anonymes, laisser utiliser un numro dobservation) Variables transposer : faire passer toutes les variables qualitatives. (Conserver trans1 comme nom de variable cible.) Crer Une variable dindex Utiliser les noms de variable comme valeurs dindex. Faire une AFC sur les variables Y et trans1
74
75
76
77
ANALYSE TYPOLOGIQUE
Objectifs Construire partir des variables choisies a priori des groupes dindividus. Constituer des groupes de faon ce que : a) les individus appartenant un mme groupe se rassemblent le plus possible b) les groupes soient les plus diffrents possible les uns des autres. Etapes de lanalyse
A) Choix des variables de classifications. Dpend de lobjectif de ltude la forte htrognit entre individus Ne retenir que les variables importantes par rapport ce que lon cherche montrer. B) Nature des Donnes et choix de la mtrique. Tableau individus x variables (qualitative ou quantitative) do lon tire la matrice des proximits entre individus
Donnes : On doit transformer les donnes brutes en une matrice de proximit des objets ou individus
Variables X1
Objets ou individus
... Xp
O1
2 Objets ou O3 Individus . . .
X2
X3
O1 O1
Objets ou O3 Individus . . .
O2
O3
...
On
O2
O2
On
On
Variable mtrique : distance euclidienne

2 d ij = ( X im X jm ) 2 m =1 p
78
Xim & Xjm = valeurs standardises du mime attribut des individus i et j Variable nominale : indice de similarit ( indice de Jacard par exemple)
Exemple
Revenu (en milliers) Individus
ducation (annes) 5 6 14 15 20 19
O1 O2 O3 O4 O5 O6
5 6 15 16 25 30
Matrice des proximits (distance euclidienne au carr)
O1 O2 O3 O4 O5 O6
O1
0 2 181 221 625 821
O2
2 0 145 181 557 745
O3
181 145 0 2 136 250
O4
221 181 2 0 106 212
O5 O6
625 821 557 745 136 250 106 212 0 26 26 0
C) Choix de lalgorithme Mthodes hirarchiques : - Ascendantes : procdent par agglomration - Descendantes : procdent par dcomposition
Mthodes non hirarchiques

- Mthode des K-means - Nues dynamiques
LAnalyse Hirarchique Les mthodes hirarchiques ralisent des fusions ou divisions successives des donnes.
79
Lallocation dun individu une classe donne est irrvocable ; une fois quun individu a t associ une classe, il ne peut plus tre dissoci pour tre fusionn avec dautres individus appartenant une autre classe.
Analyse Hirarchique - Les mthodes ascendantes Chaque individu constitue une classe en soi. Dans la premire tape, les deux individus les plus proches sont fusionns pour former une classe et ainsi de suite, la fusion pouvant se faire entre les classes, entre une classe et un individu. Puisque la premire classe sera compose de deux individus, il faudra dterminer la mthode de slection des individus.
le saut minimum _ lindividu le plus proche
la distance moyenne entre classes
lindividu le plus loign
Mthode des centres de classe
Mthode de Ward
Minimiser la variance intra classe
Application : agrgation selon le saut minimum 1re tape: Fusion de O1 & O2 (ou O3 & O4) - d(O1, O2) = 2 2me tape: Fusion de O3 & O4 Calcul de la distance entre ces classes et les autres individus ou classes - O5 & O6: d(O1O2 ) O5 = min {dO1O5, dO2O5} = dO2O5 =557 d(O1O2 ) O6 = min {dO1O6, dO2O6} = dO2O6 =745 d(O3O4 ) O5 = min {dO3O5, dO4O5} = dO4O5 =106 d(O3O4 ) O6 = min {dO3O6, dO4O6} = dO4O6 =212 d(O1O2 ) O3O4= min {dO1O3, dO2O3,dO1O4, dO2O4}= dO2O3,=145
80
La nouvelle matrice
O1&O2 O1&O2
0 145 557 745
O3&O4
O5
O6
D(2)
O3&O4 O5 O6
0 106 212 0 26 0
Dcision = fusionner 5 et 6 car distance = 26
d(O1O2) O5O6 = min {dO1O2&dO5, dO1O2&dO6}=557 d(O3O4) O5O6 = min {dO3O4&dO5, dO3O4&dO6}=106
Nouvelle matrice
O1&O2 O1&O2
0
O3&O4
O5&O6
D(3)
O3&O4 O5&O6
145 557
0 106 0
Dcision = fusionner les classes
O3&O4 + O5&O6
Dendrogramme : permet de visualiser lhistorique des agrgations entre individus :

Distance 145
106
~
26
~
5 0 1 2 3 4 5 Individus 6
81
Classification hirarchique sur donnes Lc banq (mthode Word)

Chane des agrgations Regroupement de classes Classe 1 Classe 2 13 15 13 24 12 22 3 7 28 29 8 23 16 17 9 25 2 26 1 19 8 20 9 16 4 6 5 28 18 21 3 14 27 30 9 13 2 12 5 8 3 10 1 3 2 18 4 5 4 11 2 27 1 9 2 4 1 2 Etape d'apparition de la classe Classe 1 Classe 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 8 7 0 0 0 5 0 0 4 0 0 0 12 2 9 3 14 11 16 0 10 21 19 15 13 20 24 0 23 17 22 18 26 25 27 28
Etape 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Coefficients 4,135E-02 ,397 ,780 1,241 1,727 2,267 2,810 3,636 4,670 5,755 6,843 8,020 9,232 10,522 12,019 13,715 15,572 17,880 20,713 24,588 28,756 34,429 40,300 46,810 60,857 75,860 103,634 180,025 261,000
Etape suivante 2 18 19 16 14 11 12 12 19 22 20 18 24 20 23 21 26 27 23 24 22 27 26 25 28 28 29 29 0
Dendrogramme
Rescaled Distance Cluster Combine C A S E Label Num Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case Case 13 15 24 16 17 9 25 1 19 3 7 14 10 4 6 8 23 20 28 29 5 11 27 30 18 21 12 22 2 26 13 15 24 16 17 9 25 1 19 3 7 14 10 4 6 8 23 20 28 29 5 11 27 30 18 21 12 22 2 26 0 5 10 15 20 25 +---------+---------+---------+---------+---------+
82
Pour la mthode du saut maximum, la mthode est exactement loppos du saut minimum dans ce sens que la distance est maintenant dfinie entre les deux pairs dindividus les plus distants Pour la mthode de la distance moyenne - mme approche sauf que la distance reprsente la distance moyenne entre toutes les pairs de points venant de chaque classe. Pour la mthode de Ward, le classement se fait en regroupant les individus qui minimisent le mieux la perte dinformation.
LAnalyse Non Hirarchique Lallocation dun individu une classe donne est rvocable; une fois quun individu a t associ une classe, il peut tre dissoci pour tre fusionn avec dautres individus appartenant une autre classe. Le nombre de classe doit tre connu davance. Procdure
Choisir k centres de classes, o k est le nombre de classes dsir. Assigner chaque individu la classe qui lui est la plus proche Rassigner chaque individu lune des k classes selon une rgle prdtermine Sarrter sil ny a plus dobservations assigner ou si la rassignation satisfait toujours la rgle
retenue.
Algorithme
Cette algorithme choisit les k premires observations comme centres de classes. Pour cet exemple, les trois premires observations sont retenues comme centres de classe. classes 2 6 6
variables Revenu ducation
1 5 5
3 15 14
Ensuite, il sagit de calculer la distance euclidienne (au carr) de chaque observation par rapport au centre de chaque classe. Puis, assigner chaque observation chacune des classes. Le processus se poursuit jusqua ce que les nouveaux centres ne changent plus ou trs peu (critre darrt). Distances par rapport aux centres de classes
83
Distance par rapport la classe Observation O1 O2 O3 O4 O5 O6 1 0 2 181 221 625 821 2 2 0 145 181 557 745 3 181 145 0 2 136 250
Assign la classe 1 2 3 3 3 3
Calculer les centres des classes prcdentes ( partir de leurs donnes brutes)
Nouveaux centres de classes Classes Variables Revenu ducation 1 5 5 2 6 6 3 21.5 17.0
Changement au niveau des classes 1 2 3 Revenu ducation 0 0 0 0 +6.5 +3.0
Changement > 0.02, donc il faut rassigner les observations
Nouvelles Distances par rapport aux centres de classes
Distance par rapport la classe Obs. 1 2 3 O1 O2 O3 O4 O5 O6 0 2 181 221 625 821 2 0 145 181 557 990 416.25 361.25 51.25 34.25 21.25 76.25
Ancienne classe
Nouvelle classe
1 2 3 3 3 3
1 2 3 3 3 3
84
Nouveaux centres de classes aprs cette tape Classes Variables Revenu ducation 1 5 5 2 6 6 3 21.5 17.0
Changement au niveau des classes 1 2 3 Revenu ducation 0 0 0 0 0 0
Changement < 0.02, donc FIN Solution = 3 classes dont une de 4 individus
Classification non hirarchique sur donnes Lc banq (mthode Nues dynamiques)

Centres de classes initiaux Classe 2 3,66279 -,68681 -,76785 ,07273 -,92677 -,68222 1,00575 1,41741 -,62999
Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore:
1 -,10714 -,68681 -,76785 1,70914 1,65956 2,85851 ,22205 ,06710 3,74042
3 -,61145 2,94923 2,46584 -1,01821 -,92677 -,68222 -,95350 -,82318 -,64556
Historique des itrations a Changements dans les centres de classes 1 2 3 3,534 2,886 3,070 ,000 ,389 ,158 ,000 ,000 ,000
Itration 1 2 3
a. Convergence atteinte - la distance parcourue est nulle ou trs faible. La distance maximum parcourue par un centre est ,000. L'itration actuelle est 3. La distance minimum entre les centres initiaux est 7,211.
85
ANOVA Classe Moyenne des carrs ddl 7,003 4,531 1,892 12,916 12,534 4,105 12,771 12,984 9,947 Erreur Moyenne des carrs ,555 ,738 ,934 ,117 ,146 ,770 ,128 ,112 ,337
ddl 27 27 27 27 27 27 27 27 27
Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore: Zscore:
2 2 2 2 2 2 2 2 2
F 12,610 6,136 2,026 110,116 86,070 5,331 99,687 115,598 29,496
Signification ,000 ,006 ,151 ,000 ,000 ,011 ,000 ,000 ,000
Les tests F ne doivent tre utiliss que dans un but descriptif car les classes ont t choisies de manire maximiser les diffrences entre les observations des diverses classes. Les niveaux de signification observs ne sont pas corrigs et ne peuvent par consquent pas tre interprts comme des tests de l'hypothse que les moyennes des classes sont gales.
Nombre d'observations dans chaque classe Classe 1 2 3 9,000 8,000 13,000 30,000 ,000
Valides Manquentes
Interprtation des groupes Choix du nombre de groupes (mthode hirarchique) Dtecter un saut important au niveau des indices dagrgation Description des groupes base sur les variables de classification
Cas LC Banq (suite) La carte ACP suggre des solutions en trois ou quatre classes
86
3 11
2 6 4
20 288 23 29 5 1 25 15 24 9 13 16 17
10 0 14 3
7 1
19
-1
2 26 12 22
18 21 30 27
-2 -3 -2 -1 0 1 2

Chane des agrgations Regroupement de classes Classe 1 Classe 2 13 15 13 24 12 22 3 7 28 29 8 23 16 17 9 25 2 26 1 19 8 20 9 16 4 6 5 28 18 21 3 14 27 30 9 13 2 12 5 8 3 10 1 3 2 18 4 5 4 11 2 27 1 9 2 4 1 2
Etape 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Coefficients 4,135E-02 ,397 ,780 1,241 1,727 2,267 2,810 3,636 4,670 5,755 6,843 8,020 9,232 10,522 12,019 13,715 15,572 17,880 20,713 24,588 28,756 34,429 40,300 46,810 60,857 75,860 103,634 180,025 261,000
Etape d'apparition de la classe Classe 1 Classe 2 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 6 0 8 7 0 0 0 5 0 0 4 0 0 0 12 2 9 3 14 11 16 0 10 21 19 15 13 20 24 0 23 17 22 18 26 25 27 28
Etape suivante 2 18 19 16 14 11 12 12 19 22 20 18 24 20 23 21 26 27 23 24 22 27 26 25 28 28 29 29 0
On dtecte un saut ltape 26 : solution en quatre classes
87
Validation des groupes Des mthodes diffrentes doivent aboutir des rsultats semblables. Aprs sparation alatoire de lchantillon en deux moitis, on doit aboutir aux mmes rsultats. Les distributions des groupes sur les variables de classification ne se chevauchent pas. Utiliser une analyse discriminante. Problmes pratiques et consquences Problme pos
Choix des critres de classification
Construction des groupes

-calcul des distances -agglomration ou sparation Choix de la mtrique Choix de lalgorithme de classification Choix du nombre de groupes Description des groupes
Interprtation et validation des groupes
88
Analyse typologique sous SPSS
SPSS : Classifications (fichier enseigne) Mise en uvre : Analyse > Classification > Classifications hirarchiques... Analyse > Classification > Nues dynamiques...
Classifications hirarchiques
Il sagit dune classification ascendante, partant des classes composes dune unique observation et regroupant chaque tape les classes les plus proches selon la mthode et la distance dfinies.
Mise en uvre. Faire passer les variables quantitatives dans la liste des variables. Lorsque les observations ne sont pas anonymes (conseill), faire passer la variable contenant le nom des observations dans la case Etiqueter les observations par.
89
Agrger les observations en demandant laffichage des statistiques et des graphiques. Dans le dialogue statistiques, cocher Chane des agrgations (affiche lhistorique des regroupements). La matrice des distances affichera les distances entre les observations. Dans le dialogue Graphiques, cocher arbre hirarchique pour obtenir le dendrogramme.
90
Dans le dialogue Mthode, slectionner la mthode dagrgation, cest dire la mthode de mesure de la distance entre 2 groupes : saut minimal (complaisante), diamtre (restrictive), distance moyenne (compromis), Ward (variation de linertie intra classe) puis la distance utilise (intervalle/euclidienne pour des variables quantitatives). Si les donnes sont htrognes, il est prfrable de centrer et rduire les variables, via standardiser/centrer - rduire/par variable.
91
Rsultats Matrice de dissimilarit

Matrice de proximit Carr de la distance Euclidienne 5: 13: CARREF 9: 12: NTERMA 15: Observation 1:METRO2:ATAC3:AUCHAN:SCOTIA OUR 6:CASINO 4 :DYNAMIQ :CHANPION CONTINENT0:CORA 1 11:GEANT PANORAMA RCHE 4:LECLERC MAMMOUTH 6:MATCH7:PLAZZA 18:STOC 1:METRO ,000 4,720 43,433 ,439 31,271 6,181 ,887 14,355 17,792 11,107 11,245 2,774 16,063 24,199 14,047 2,966 1,400 4,221 2:ATAC 4,720 ,000 24,083 6,178 12,308 3,374 6,573 3,519 5,954 5,456 6,190 10,710 5,084 10,758 6,108 2,740 8,129 3,232 3:AUCHAN 43,433 24,083 ,000 48,073 8,496 22,574 47,356 23,942 8,527 12,666 27,282 63,329 25,408 20,050 13,256 34,567 56,458 31,623 4:SCOTIA ,439 6,178 48,073 ,000 35,511 7,467 ,516 16,545 21,162 13,008 14,526 1,849 18,445 28,921 17,122 3,753 ,773 5,055 5:CARREFOU 31,271 12,308 8,496 35,511 ,000 16,862 35,854 7,562 4,582 13,576 14,232 45,240 7,226 7,388 11,771 22,089 40,100 22,112 6:CASINO 6,181 3,374 22,574 7,467 16,862 ,000 6,858 8,724 6,956 3,804 11,924 15,678 8,825 16,695 6,966 7,147 11,809 7,267 7:DYNAMIQ ,887 6,573 47,356 ,516 35,854 6,858 ,000 16,201 20,148 13,194 17,572 2,963 19,026 30,115 16,107 5,908 1,275 6,764 8:CHANPION 14,355 3,519 23,942 16,545 7,562 8,724 16,201 ,000 5,487 12,153 11,984 21,434 2,331 8,204 8,433 10,971 17,917 11,196 9:CONTINENT17,792 5,954 8,527 21,162 4,582 6,956 20,148 5,487 ,000 4,443 12,734 30,922 8,259 10,152 3,123 14,577 25,551 13,699 10:CORA 11,107 5,456 12,666 13,008 13,576 3,804 13,194 12,153 4,443 ,000 10,972 22,588 14,219 16,869 4,102 8,556 18,401 7,567 11:GEANT 11,245 6,190 27,282 14,526 14,232 11,924 17,572 11,984 12,734 10,972 ,000 18,562 9,530 8,881 13,603 4,757 17,080 6,935 12:PANORAM 2,774 10,710 63,329 1,849 45,240 15,678 2,963 21,434 30,922 22,588 18,562 ,000 24,265 34,397 25,092 6,055 ,451 7,640 13:INTERMAR 16,063 5,084 25,408 18,445 7,226 8,825 19,026 2,331 8,259 14,219 9,530 24,265 ,000 8,473 14,051 11,546 20,828 13,730 14:LECLERC 24,199 10,758 20,050 28,921 7,388 16,695 30,115 8,204 10,152 16,869 8,881 34,397 8,473 ,000 9,995 15,769 31,781 14,230 15:MAMMOUT14,047 6,108 13,256 17,122 11,771 6,966 16,107 8,433 3,123 4,102 13,603 25,092 14,051 9,995 ,000 11,897 20,949 8,639 16:MATCH 2,966 2,740 34,567 3,753 22,089 7,147 5,908 10,971 14,577 8,556 4,757 6,055 11,546 15,769 11,897 ,000 5,301 ,953 17:PLAZZA 1,400 8,129 56,458 ,773 40,100 11,809 1,275 17,917 25,551 18,401 17,080 ,451 20,828 31,781 20,949 5,301 ,000 6,873 18:STOC 4,221 3,232 31,623 5,055 22,112 7,267 6,764 11,196 13,699 7,567 6,935 7,640 13,730 14,230 8,639 ,953 6,873 ,000 19:SYSTEME 5,831 2,619 29,935 6,602 17,522 6,218 9,074 9,014 12,661 7,580 4,457 10,284 8,301 13,274 11,698 ,946 9,124 1,936 20:CARRES D 2,669 9,298 60,877 2,060 41,398 14,500 3,471 19,145 29,327 22,060 15,554 ,378 20,496 30,519 24,676 4,888 ,850 6,950 Ceci est une matrice de dissimilarits
Chane des agrgations : historique des regroupements. chaque tape, les deux classes les plus proches sont regroupes. La distance entre les deux classes regroupes est affiche dans la colonne coefficients.
Chane des agrgations Regroupement de classes Classe 1 Classe 2 12 20 1 4 12 17 1 7 16 19 16 18 8 13 9 15 2 6 9 10 1 12 5 14 11 16 2 9 5 8 2 3 2 5 1 11 1 2 Etape d'apparition de la classe Classe 1 Classe 2 0 0 0 0 1 0 2 0 0 0 5 0 0 0 0 0 0 0 8 0 4 3 0 0 0 6 9 10 12 7 14 0 16 15 11 13 18 17 Etape 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Coefficients ,189 ,408 ,779 1,173 1,646 2,451 3,617 5,179 6,866 9,193 11,812 15,506 19,224 23,705 29,141 40,983 55,067 71,579 133,000 Etape suivante 3 4 11 11 6 13 15 10 14 14 18 15 18 16 17 17 19 19 0
Stalactite
Stalactite vertical Observation 13:INTERMARCHE 20:CARRES D'AS 15:MAMMOUTH 19:SYSTEME U 5:CARREFOUR 12:PANORAMA 9:CONTINENT 8:CHANPION 14:LECLERC
7:DYNAMIQ
17:PLAZZA
3:AUCHAN
16:MATCH
11:GEANT
6:CASINO
4:SCOTIA
Nombre de class 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 X 12 X 13 X 14 X 15 X 16 X 17 X 18 X 19 X
X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
X X X X X
X X X X X X X X
X X X
X X X X
X X X X X X X X X X
X X X X X X X X X X X X
X X X X X X
X X X X X X X X X X X
X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X
X X X X X X X
X X
X X X X X X X X X X X X X X X X X
X X X X X X X X X
X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X
1:METRO
10:CORA
18:STOC
2:ATAC
92
Dendrogramme
Les regroupements les plus intressants sont ceux obtenus aprs un saut du coefficient important, cest--dire, le dcoupage rsultant du regroupement de deux classes nettement plus loignes que les prcdentes. Une coupure entre les noueux 15 et 16 nous suggre une solution en 5 classes mais avec une classe un seul individu. On va refaire notre analyse et demander les solutions en 4 et 5 classes.
93
94
Tableau rcapitulatif des observations
Rcapitulatif des observations Ward Method 1 attractivit rurale 6 7 11 8,33 1,506 5 12 19 15,80 3,114 1 23 23 23,00 . 4 13 20 15,75 3,403 4 12 20 14,50 3,697 20 7 23 13,65 4,738 attractivit urbaine 6 1 3 2,00 ,894 5 5 8 6,20 1,304 1 12 12 12,00 . 4 4 9 7,00 2,160 4 6 8 7,00 1,155 20 1 12 5,55 2,946 budget publicitaire 6 3 10 6,50 2,665 5 7 13 11,40 2,510 1 15 15 15,00 . 4 3 7 5,25 1,708 4 2 5 3,75 1,258 20 2 15 7,35 3,897 chiffre d'affaire 6 25900 32700 29233,33 2502,532 5 40000 70100 55240,00 10911,60 1 98500 98500 98500,00 . 4 53100 84500 63450,00 14297,44 4 38400 49300 42275,00 4863,041 20 25900 98500 48650,00 19459,39 part de march 6 1 4 2,50 1,049 5 3 10 7,00 2,550 1 9 9 9,00 . 4 12 16 14,25 1,708 4 2 9 4,50 3,109 20 1 16 6,70 4,747 productivit 6 1090 1430 1270,00 136,675 5 2380 3350 2618,00 416,617 1 3400 3400 3400,00 . 4 2460 4100 3550,00 741,440 4 1550 2300 1772,50 354,718 20 1090 4100 2270,00 979,807 rendement 6 26900 33500 29683,33 2345,563 5 45500 88400 61520,00 17063,909 1 86000 86000 86000,00 . 4 43200 91500 66175,00 19994,562 4 44100 62300 49400,00 8638,673 20 26900 91500 51700,00 20573,053
Total
N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type
95
Rcapitulatif des observations Ward Method 1 attractivit rurale 6 7 11 8,33 1,506 6 12 23 17,00 4,050 4 13 20 15,75 3,403 4 12 20 14,50 3,697 20 7 23 13,65 4,738 attractivit urbaine 6 1 3 2,00 ,894 6 5 12 7,17 2,639 4 4 9 7,00 2,160 4 6 8 7,00 1,155 20 1 12 5,55 2,946 budget publicitaire 6 3 10 6,50 2,665 6 7 15 12,00 2,683 4 3 7 5,25 1,708 4 2 5 3,75 1,258 20 2 15 7,35 3,897 chiffre d'affaire 6 25900 32700 29233,33 2502,532 6 40000 98500 62450,00 20178,08 4 53100 84500 63450,00 14297,44 4 38400 49300 42275,00 4863,041 20 25900 98500 48650,00 19459,39 part de march 6 1 4 2,50 1,049 6 3 10 7,33 2,422 4 12 16 14,25 1,708 4 2 9 4,50 3,109 20 1 16 6,70 4,747 productivit 6 1090 1430 1270,00 136,675 6 2380 3400 2748,33 490,690 4 2460 4100 3550,00 741,440 4 1550 2300 1772,50 354,718 20 1090 4100 2270,00 979,807 rendement 6 26900 33500 29683,33 2345,563 6 45500 88400 65600,00 18243,355 4 43200 91500 66175,00 19994,562 4 44100 62300 49400,00 8638,673 20 26900 91500 51700,00 20573,053
Total
N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type N Minimum Maximum Moyenne Ecart-type
Validation des rsultats On va opter pour une solution en quatre classes, vu que la classe 3, dans la solution 5 classes, est rduite une seule observation. Tableau anova
96
ANOVA Somme des carrs 257,467 169,083 426,550 108,117 56,833 164,950 203,550 85,000 288,550 4,44E+09 2,75E+09 7,19E+09 355,617 72,583 428,200 14916442 3323958,3 18240400 4,93E+09 3,11E+09 8,04E+09 ddl 3 16 19 3 16 19 3 16 19 3 16 19 3 16 19 3 16 19 3 16 19 Moyenne des carrs 85,822 10,568 36,039 3,552 67,850 5,313 1,48E+09 1,72E+08 118,539 4,536 4972147,2 207747,40 1,64E+09 1,95E+08 F 8,121 Signification ,002
attractivit rurale
attractivit urbaine
budget publicitaire
chiffre d'affaire
part de march
productivit
rendement
Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total Inter-groupes Intra-groupes Total
10,146
,001
12,772
,000
8,613
,001
26,130
,000
23,934
,000
8,436
,001
97
Nues dynamiques
Lalgorithme utilis pour les nues dynamiques utilise la distance euclidienne. Pour cette raison, il est souvent prfrable de travailler avec des donnes centres rduites. Pour dfinir les n centres initiaux, SPSS slectionne n observations trs diffrentes, cre les n groupes associs, puis calcule les centres de ces groupes. Mais il est aussi possible de dfinir les centres des groupes initiaux dans un fichier.
Mise en uvre Faire passer les variables quantitatives dans la liste des variables et fixer le nombre de classes souhaites. Utiliser la mthode itrer et classer.
Dans le dialogue Itrer, augmenter le nombre ditration en fonction du nombre dobservations. On peut monter jusqu 999, mais un nombre entre 10 et 50 semble raisonnable. On peut aussi fixer un critre de convergence (darrt) correspondant au pourcentage de dplacement maximal. Une valeur entre 1 et 5 % (0.01 0.05) semble raisonnable.
98
Dans le dialogue enregistrer cochez classe daffectation et distance au centre de classe
Dans le dialogue Options, cocher Centres de classes initiaux (coordonnes des centres de dpart), tableau ANOVA (contributions des variables la classification), Affections et distances au centre (sparation des centres finaux).
99
Rsultats Centres des classes initiaux : Coordonnes des centres initiaux. Permet de connatre le point de dpart de lalgorithme. Voir Centres des classes finaux pour linterprtation.
Centres de classes initiaux Classe 3 4 1,97335 -1,40350 2,18907 -1,54423 1,96303 2,56175 ,48449 1,15329 1,66723 -,85963 -1,16910 -1,20068 -1,20432 -1,10825
1 2 Zscore: attractivit rura ,70703 1,34019 Zscore: attractivit -,18667 ,83151 urbaine Zscore: budget 1,19322 -1,37284 publicitaire Zscore: chiffre d'affaire ,52160 ,03340 Zscore: part de march ,06319 ,48449 Zscore: productivit ,12247 -,73484 Zscore: rendement 1,78389 -,32081
5 -,13718 ,49212 -,60302 ,22868 1,74836 1,50030 -,41316
Historique des itrations : affiche pour chaque itration, la distance de dplacement de chaque centre. La dernire itration doit rvler une distance de dplacement minimale. Dans le cas contraire, on peut augmenter le nombre ditrations ou modifier le nombre de groupes souhaits.
100
Historique des itrations a Changements dans les centres de classes 1 2 3 4 1,308 1,670 ,000 ,878 ,000 ,313 ,000 ,000 ,000 ,000 ,000 ,000
Itration 1 2 3
5 1,307 ,462 ,000
a. La convergence obtenue est due l'absence ou la quasi-absence de modifications dans les centres de classes. La modification absolue maximale des coordonnes d'un centre est ,000. L'itration en cours est 3. La distance minimale entre les centres initiaux est 3,087.
Appartenance la classe : affiche la classe dappartenance et la distance par rapport au centre de classe pour chaque individu
Appartenance la classe Nombre d'observations 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 enseigne METRO ATAC AUCHAN SCOTIA CARREFOUR CASINO DYNAMIQ CHANPION CONTINENT CORA GEANT PANORAMA INTERMARCHE LECLERC MAMMOUTH MATCH PLAZZA STOC SYSTEME U CARRES D'AS Classe 4 2 3 4 5 1 4 5 1 1 2 4 5 5 1 2 4 2 2 4 Distance ,854 1,251 ,000 ,554 1,723 1,611 ,942 1,397 1,339 1,118 1,754 ,878 1,391 1,855 1,308 ,699 ,400 1,105 ,775 ,969
Centres de classes finaux : coordonnes des centres de chaque classe finale. Ces centres (et donc les classes associes) sont interprts par leurs coordonnes sur les diffrentes variables.
Centres de classes finaux Classe 3 1,97335 2,18907 1,96303 2,56175 ,48449 1,15329 1,66723
1 Zscore: attractivit rurale ,60150 Zscore: attractivit ,32242 urbaine Zscore: budget 1,32152 publicitaire Zscore: chiffre d'affaire ,38028 Zscore: part de march ,06319 Zscore: productivit ,36742 Zscore: rendement ,62460
2 ,11608 ,35636 -,75699 -,22765 -,35810 -,34497 -,11180
4 -1,12210 -1,20484 -,21811 -,99780 -,88471 -1,02061 -1,07017
5 ,44321 ,49212 -,53887 ,76056 1,59038 1,30638 ,70359
Une coordonne importante (positive) sur une variable signifiera que le groupe correspondant est caractris par des valeurs fortes (au dessus de la moyenne) pour cette variable.
101
Distance entre les centres de classes finaux : distances entre les centres 2--2. Permet de juger de la sparation des (centres des) groupes. Une mauvaise sparation peut rsulter dun nombre de groupes inappropri.
Distances entre les centres de classes finaux Classe 1 2 3 4 5 1 2,481 3,524 3,908 2,623 2 2,481 5,302 2,551 2,888 3 3,524 5,302 7,254 4,111 4 3,908 2,551 7,254 4,818 5 2,623 2,888 4,111 4,818
ANOVA : permet de dterminer les variables ayant le plus contribues au regroupement. Elles correspondent aux variables ayant les plus grandes valeurs de F. Les significations ne sont pas ici interprtables.
ANOVA Classe Erreur Moyenne Moyenne ddl ddl des carrs des carrs Zscore: attractivit rura 3,437 4 ,350 15 Zscore: attractivit 3,880 4 ,232 15 urbaine Zscore: budget 3,788 4 ,257 15 publicitaire Zscore: chiffre d'affaire 3,922 4 ,221 15 Zscore: part de march 3,926 4 ,220 15 Zscore: productivit 3,885 4 ,231 15 Zscore: rendement 3,314 4 ,383 15
F Signification 9,819 ,000 16,732 14,763 17,760 17,876 16,851 8,651 ,000 ,000 ,000 ,000 ,000 ,001
Les tests F ne doivent tre utiliss que dans un but descriptif car les classes ont t choisies de maximiser les diffrences entre les observations des diverses classes. Les niveaux de significa ne sont pas corrigs et ne peuvent par consquent pas tre interprts comme des tests de l'hy les moyennes des classes sont gales.
Nombre dobservations dans chaque classe : Une classe sous ou sur reprsente ( tord) peut amener faire une nouvelle analyse avec un nombre diffrent de classes.
Nombre d'observations dans chaque classe Classe 1 2 3 4 5 4,000 5,000 1,000 6,000 4,000 20,000 ,000
Valides Manquentes
102
Procdure pour rduire le nombre de classe.

- Refaire lanalyse en enregistrant les nouveaux centres de classes dans un fichier (centre enseigne)
- liminer la classe sur ou sous reprsente.

Nombre d'observations dans chaque classe Classe 1 2 3 4 5 4,000 5,000 1,000 6,000 4,000 20,000 ,000
Valides Manquentes
La classe 3 est liminer.
103
Numroter les nouvelles classes et enregistrer le fichier. - Refaire lanalyse (classer seulement) en lisant les centres initiaux dans le fichier (centre enseigne) Ouvrir le fichier enseigne et refaire lanalyse (choisir 4 classes, classer seulement, lire les centres initiaux dans centre enseigne)
104
Nombre d'observations dans chaque classe Classe 1 2 3 4 5,000 5,000 6,000 4,000 20,000 ,000
Valides Manquentes
105

Cours ADD

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cours ADD

Загружено:

Авторское право:

Доступные форматы

ANALYSE DES DONNEES

Professeur : Rachid JAHIDI

Rappels sur la statistique descriptive unidimensionnelle et bidimensionnelle

-Il faut garder en tte que

Analyse exploratoire des donnes

Distribution symtrique : moyenne = mdiane = mode

Biais positif: mode < mdiane < moyenne 2. Position

Biais ngatif: Moyenne < mdiane < mode

Exemple : boisson alphajus

Cas alphajus : Statistique descriptive

40 0 5,88 5,50 3(a) 2,972 8,830 12

Moyenne Mdiane Mode Ecart-type Variance Intervalle Centiles 25 50 75

3,25 5,50 8,00

a Il existe de multiples modes

Box plot 1,2 1,100

La symtrie de la distribution : position de la mdiane dans la bote et globalement ; diffrence

alphajus : Bote--moustache multiple

got pour le sucr

Estimation sur un chantillon :

alphajus : Skewness et Kurtosis de

Normalisation dune variable.

logconsom 40 0 -,658 ,374 ,177 ,733

racineconsom 40 0 -,021 ,374 -,625 ,733

Traitement bivari Croisement de variable mtrique :

407.22 257.51 DEPENSE

407.22 257.51 DEPENSE

Attention!! Il est important dinterprter le coefficient de corrlation avec le graphique.

Croisement de variable nominale

Quel est votre mode d'hbergement ?

Comment les CSP choisissent leurs modes dhbergements? Profil ligne

Avantages dun chantillon

Mthodes non - probabilistes :

Est dtermin en fonction du thorme de la limite centrale et du niveau de confiance:

0,5(1 0,5 ) 1,96 2 * 0,25 0,9604 n = 2 2 n e e

dans le cas d'une proportion et de

chantillon exhaustif et non exhaustif.

Taille de la population N On doit dterminer les nij de sorte que:

On utilise alors la rgle proportionnelle :

o Nij = effectifs connus de la population (obtenu par recensement par exemple)

Mthode dchantillonnage sur place

Analyse en Composantes Principales Dfinition

Nature des donnes :

Mesure KMO 0.90 0.80+ 0.70+ 0.60+ 0.50+ <0.50

Recommandation Trs excellent Excellent Moyen Mdiocre Misrable Inacceptable

Espace de reprsentation des individus

Recherche du premier axe principal et de la premire composante principale

Recherche du deuxime axe principal et de la deuxime composante principale

Reprsentations graphiques. (Premier plan principal)

SOLD NDEC MDEC NBPR NEMP MEMP VADD DEPO RETR

1 ,603 -,762 -,605 ,633 ,231 ,623 ,764 ,759 ,376

3 ,213 ,527 ,722 ,235 -8,4E-03 ,197 ,314 ,214 ,102

Mthode d'extraction : Analyse en composantes principales. a. 3 composantes extraites.

vadd sold depo

-1,0 -1,0 -,5 0,0 ,5 1,0

REGR factor score 2 for analysis

REGR factor score 1 for analysis

vadd sold depo

-1,0 -1,0 -,5 0,0 ,5 1,0

+0.5 .V3 +0.5 .V4 .V5

a Matrice des composantes aprs rotation

Diagramme de composantes dans l'espace aprs rotation

-1,0 -1,0 -,5 0,0 ,5 1,0

Analyse en composantes principales sous SPSS