Академический Документы
Профессиональный Документы
Культура Документы
des données
Jean-Marc Meunier
Version 18/12/07
Les documents de cours sont diffusés à nos étudiants pour un usage strictement personnel. La
reproduction et la diffusion, partielle ou totale de ces documents, sous quelques formes que ce
soit, même gratuitement, est strictement interdite. Les contrevenants s’exposent à des sanctions
sévères.
INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER
Sommaire
INTRODUCTION ............................................................................................................................................. 2
FORMULAIRE................................................................................................................................................ 76
TABLES STATISTIQUES............................................................................................................................. 77
INTRODUCTION
Pour étudier un échantillon, on relève un certain nombre d’informations sur les individus
qui le composent. Ces informations concernent des dimensions caractérisant les
individus comme l’âge, le sexe, la performance à une tâche. Ces dimensions appelées
1
L’approche idéo-visuelle, encore appelée méthode globale, consiste à aborder la lecture par la reconnaissance de la
forme visuelle des mots.
2
L’approche phonique correspond à ce que d’autres auteurs appellent la méthode analytique. L’apprentissage de la
lecture y est abordé par l’identification des sons composant le mot.
3
Dans ce contexte, didactique signifie « méthode d’enseignement ».
4
Le code grapho-phonologique est la correspondance entre l’écriture et la prononciation des syllabes ou des mots.
5
R. Goigoux (2000) Apprendre à lire à l'école : les limites d'une approche idéovisuelle. Psychologie française, N°45-
3, 2000,233-243.
« variables ». Les différentes valeurs que peuvent prendre ces variables sont appelées
modalités. Une variable a forcément plus d’une modalité (sinon, la dimension étudiée
ne varie pas et constitue une constante). Par ailleurs, une variable est constituée de
modalités exclusives (aucun individu ne peut être associé à plus d’une modalité) et
exhaustives (tout individu doit être associé à au moins une modalité). Une variable est
caractérisée par son échelle de mesure. On distingue trois échelles de mesure :
nominale, ordinale ou numérique selon les relations que les modalités entretiennent
entre elles. Une variable peut également être caractérisée par son statut. On fera alors
la distinction entre des variables dépendantes et des variables indépendantes. Les
variables indépendantes sont également appelées « facteur ». Nous reviendrons dans
le point suivant sur la notion de facteur.
Voyons d’abord la notion d’échelle de mesure. Elle est déterminée par les relations
entre les modalités. Celles-ci peuvent être ou non ordonnées et séparées ou non par
un intervalle constant. Il faut souligner ici que la relation d’intervalle implique la relation
d’ordre. Trois cas de figure sont alors possibles :
Une variable nominale est caractérisée par le fait que ses modalités n’entretiennent pas
de relation d’ordre. Le sexe, la profession, le sport pratiqué sont des variables
nominales puisqu’il n’est pas possible d’ordonner les différentes valeurs.
Une variable ordinale est caractérisée par des modalités ordonnées entre elles. Cet
ordre doit être total, c’est-à-dire que toutes les modalités doivent être ordonnées. Une
échelle comme « d’accord, assez d’accord, pas d’accord » est une échelle ordinale.
Mais si on ajoute la modalité « non réponse », alors l’échelle n’est plus ordinale puisque
cette dernière modalité n’entretient pas de relation d’ordre avec les autres.
Une variable numérique a des modalités ordonnées et un intervalle constant entre
modalités, c’est-à-dire que la différence entre deux modalités consécutives est toujours
la même. Le temps de réponses, le nombre de réponses correctes à un questionnaire
sont des exemples de variables numériques. On remarquera que le premier exemple,
celui des temps de réponse admet dans les intervalles des sous-unités et que les
décimales ont un sens, on parlera alors de variables continues. Dans le second
exemple, les modalités ne peuvent être que des entiers, on parlera alors de variables
discrètes. Cette distinction n’a pas d’impact sur le choix des procédures, mais elle en a
un du point de vue de l’interprétation des résultats. Nous y reviendrons ultérieurement.
Reprenons notre exemple, et voyons d’un peu plus près les variables étudiées dans la
recherche de Roland Goigoux Dans cette étude, les enfants sont caractérisés par la
méthodologie didactique suivie (idéo-visuelle ou partiellement phonique), par leur
performance initiale, leur score à l’évaluation de CE2 et leur vitesse d’identification des
mots écrits. Nous avons donc quatre variables :
La méthodologie didactique. Cette variable a deux modalités non ordonnées. Il s’agit
donc d’une variable nominale.
La performance initiale. Le résumé ne contient aucune précision sur l’échelle de
mesure utilisée. Nous ne l’avons volontairement pas ajoutée pour profiter de l’occasion
pour pointer le fait que l’échelle de mesure est souvent un choix du chercheur. Si
classiquement, l’évaluation scolaire se fait à l’aide d’une note (et donc d’une variable
numérique), la performance peut également être caractérisée avec des modalités
ordonnées comme « très bien », « bien», « moyen », « passable » et « insuffisant ».
On a alors une échelle ordinale puisqu’on ne peut pas parler d’intervalle constant entre
les modalités. On peut également caractériser cette performance par une échelle
nominale, en regardant seulement si l’enfant a ou non réussi le test.
L’évaluation de CE2. Cette évaluation donne lieu au calcul d’un taux de réussite pour
chacun des domaines d’acquisition scolaire. Il s’agit donc d’une variable numérique.
La vitesse d’identification des mots écrits. C’est le temps moyen mis par l’enfant pour
identifier un mot écrit. Il s’agit donc d’une variable numérique.
Les facteurs constituent une sorte de variable. Les facteurs sont les variables dont les
modalités vont servir à déterminer les groupes d’observations qu’on veut comparer. Les
facteurs sont également appelés « variables indépendantes ». Ainsi, dans l’exemple de
Goigoux, la méthode didactique constitue un facteur. Elle sert à comparer des groupes
d’individus. Les facteurs peuvent également servir à comparer des individus à eux-
mêmes en faisant varier le moment ou les conditions de la mesure. Ainsi, si on fait
passer le même test aux mêmes individus à six mois d’intervalle, la variable « moment
de passation » constitue un facteur, puisqu’elle permet de comparer deux groupes
d’observations.
Qui dit variable indépendante, dit variable dépendante. Le premier type de variable
implique forcément le second, sinon cette qualification ne sert à rien. Les variables
dépendantes sont les indicateurs, c’est-à-dire les dimensions dont on suppose qu’elles
reflètent les processus étudiés. Ces indicateurs peuvent être comportementaux (ce que
fait ou dit le sujet), chronométriques (temps de réaction, temps de réponse etc.) ou
électrophysiologiques (EEG, RED etc. ). Dans tous les cas, on cherche de quoi
dépendent les variations de ces indicateurs. Pour cela, on contrôle un certain nombre
de facteurs pour comparer les fluctuations de la variable dépendante en fonction des
valeurs de la variable indépendante.
Dans l’exemple précédent, l’auteur cherche à comprendre comment se fait l’acquisition
de la lecture. Il définit donc un certain nombre d’indicateurs de cette acquisition (la
performance initiale, l’évaluation de CE2, la vitesse d’identification des mots écrits) qui
vont constituer les variables dépendantes. Il fait l’hypothèse que l’acquisition de la
lecture dépend de la méthode d’enseignement (variable indépendante). Pour le vérifier,
il compare les valeurs observées sur les variables dépendantes pour chacune des
modalités de la variable indépendante.
Il arrive parfois qu’on n’ait pas de facteur dans un recueil de données. C’est le cas
lorsqu’on cherche simplement à caractériser une population ou à situer un individu
dans une population de référence, dans l’étalonnage d’un test d’intelligence par
exemple. Dans ce cas, la notion de variable dépendante n’a plus de sens. On parle
alors simplement de variable observée.
3. Notion de protocole
3.1 L’emboîtement
Une première façon de structurer un protocole est d’associer chacun des sujets à une
et une seule modalité du facteur. On parle alors d’emboîtement ou de groupes
indépendants. Concrètement, cela revient à constituer des groupes de sujets, en
fonction soit de leurs caractéristiques, soit des tâches qu’on leur donne à réaliser.
Formellement, un emboîtement s’écrit S<G> où S désigne les sujets et G, les groupes.
Les chevrons expriment l’emboîtement. Cette écriture formelle se lit « S emboîté dans
G » Dans l’exemple de la recherche de Goigoux, les méthodes didactiques constituent
un facteur emboîtant, dans la mesure où les sujets n’ont suivi qu’une et une seule
méthode didactique.
3.2 Le croisement
Une seconde façon de structurer un protocole consiste à associer chacun des sujets à
toutes les modalités du facteur. On parle alors de croisement ou de groupes appariés.
Concrètement, cela revient à répéter la mesure dans différentes conditions ou à
différents moments. Formellement, un croisement s’écrit S*T où S désigne les sujets et
T le facteur croisant. L’étoile entre les deux exprime la relation de croisement. Cette
écriture formelle se lit « S croix T ». L’exemple typique de croisement est la passation
d’un test avant et après une séquence d’apprentissage, pour mesurer l’impact de
l’apprentissage. Dans l’exemple de Goigoux, on ne peut pas parler de croisement dans
la mesure où la variable dépendante n’est à priori pas la même en maternelle et en
CE2.
Les seules procédures applicables aux variables consistent à recoder les modalités.
Cette procédure est utile lorsque sous leur forme originale, les données ne sont pas
utilisables ou lorsque le nombre d’observations n’est pas au moins égal à 5 fois le
nombre de modalités de la variable. Cette limite de 5 fois plus d’observations que de
modalités est purement conventionnelle. Elle n’a donc pas de caractère impératif et
peut être modifiée à loisir en fonction des objectifs de l’analyse. On distingue deux
types de recodage. Le premier consiste à regrouper les modalités. Dans ce cas, le
recodage n’est pas réversible. La façon de regrouper les modalités dépend de l’échelle
de mesure. Le second type de recodage consiste à appliquer une transformation
mathématique à la variable numérique, ce qui n’est possible que pour les variables
numériques. Dans ce cas, la transformation est réversible puisqu’il suffit d’appliquer la
transformation inverse pour retrouver la variable originale.
On peut recoder une variable par regroupement de modalités. Pour cela, Il faut veiller à
constituer des groupements exhaustifs, c’est-à-dire prenant en compte toutes les
modalités de la variable d‘origine. Les groupements constitués doivent également être
exclusifs, c’est-à-dire permettant de classer un individu sans ambiguïté.
Dans le cas des variables nominales, c’est la signification des modalités qui guidera les
regroupements de modalités. Typiquement, en psychologie, nous devons faire ce type
de recodage lorsque dans un questionnaire des questions ouvertes ont été posées.
Imaginez par exemple qu’on ait demandé à des étudiants souhaitant s’inscrire en
psychologie leur motivation. Intuitivement, vous vous doutez bien que les réponses vont
être extrêmement diverses. Un dénombrement strict des réponses peut même conduire
à observer des réponses différentes pour chacun des étudiants. Il sera donc difficile à
partir d’un tel protocole d’identifier les motivations principales des étudiants.
Cependant, même si elles ne sont pas strictement identiques, certaines réponses
expriment des motivations proches. On va donc les regrouper pour faire ressortir les
tendances générales.
Voici à titre d’exemple, une adaptation très simplifiée, inspiré d’une recherche menée
par Gosling (1992) sur la perception des causes de réussite ou d’échec des élèves par
les enseignants. Nous donnons dans le Tableau 2.1 des exemples de réponses comme
ceux qu’a pu observer Gosling. On peut y distinguer deux catégories de réponses
celles qui correspondent à l’environnement scolaire et celles qui concernent les qualités
de l’élève. En regroupant les réponses dans ces deux catégories, on observe tout de
suite que les causes liées à l’environnement scolaire sont citées plus fréquemment que
les causes liées aux qualités de l’élève.
A la question sur les causes de l’échec, voici le type de réponses qu’on peut observer.
En effectuant le même recodage de la variable, on peut aisément observer que les
causes de l’échec scolaire sont davantage attribuées à l’élève.
Cette petite analyse très simplifiée nous permet de voir que les enseignants s’attribuent
plus fréquemment les causes de la réussite et attribuent plus facilement les causes de
l’échec à l’élève et à son environnement. Ce phénomène est connu en psychologie
sociale sous le nom de biais de complaisance. Pour plus de détails, vous pouvez
consulter l’excellente synthèse qu’en fait S. Cicotti dans son ouvrage6.
On remarquera dans le regroupement des modalités que nous avons opéré qu’aucune
modalité de réponses n’est laissée de côté. Notre regroupement est donc bien
exhaustif. On remarquera également que les modalités de réponses originales ne
peuvent être associées qu’à une seule modalité après regroupement. Nous avons donc
bien respecté la contrainte d’exclusivité.
6
Cicotti S. (2004) 150 petites expériences de psychologie pour mieux comprendre nos semblables, Donod, Paris.
pas. L’échelle de mesure d’origine est bien une échelle ordinale, malgré les modalités
numériques, dans la mesure où la dimension mesurée n’est pas quantifiable. L’échelle
dichotomique, c’est-à-dire à deux modalités, qu’on obtient avec le recodage est bien
une échelle de mesure nominale puisque sur deux modalités, on ne peut pas vérifier un
ordre total.
Pour conserver le caractère ordinal de la variable, il faut tenir compte de l’ordre des
modalités et de leur proximité dans l’échelle originale. Le regroupement se fera donc
par proximité. Il s’agit en fait d’un cas particulier de regroupement sémantique, puisque
les modalités proches dans l’échelle de mesure sont proches du point de vue du sens.
Comme précédemment, on veillera à constituer des regroupements permettant une
répartition exhaustive et exclusive des modalités de la variable d’origine. Pour
reprendre notre exemple d’échelle en 7 points, le regroupement des modalités pourrait
être le suivant :
Sur une variable numérique, on peut effectuer un simple regroupement sémantique des
modalités. Cela revient à ne pas tenir compte de l’ordre et de l’intervalle entre les
modalités. Le résultat d’un tel recodage est une variable nominale. Imaginons pour
l’exemple qu’on ait fait passé à un ensemble de sujets un test de raisonnement
constitué de 20 déductions dont il faut trouver la conclusion logique. On relève pour
chacun des sujets le nombre de conclusions conformes à la logique formelle. C’est
notre variable de départ. Son échelle de mesure est numérique. Une première façon de
recoder la variable est de considérer que les sujets répondent logiquement si le nombre
de réponses conformes est supérieur ou égal à 10 et de considérer qu’ils ne répondent
pas logiquement si ce même nombre est inférieur à 10. Dans ce cas, le résultat du
regroupement est une variable nominale. On peut également considérer des catégories
de réponses ordonnées comme dans le tableau ci-dessous :
On calcule ensuite les valeurs centrales de chacune des classes en faisant la moyenne
des valeurs de chaque classe et les limites de classes en faisant la somme des valeurs
centrales divisée par deux. Ainsi la limite entre la classe 21-25 et la classe 26-30 est de
(23+28)/2= 25,5. Le résultat de ce recodage est synthétisé dans le tableau suivant.
Les limites de classes sont utiles surtout pour les variables continues (qui ne sont pas
constituées seulement de valeurs entières) pour pouvoir décider à quelle classe
appartient une observation. Chaque observation est ensuite remplacée par la valeur
centrale de la classe à laquelle elle appartient. On remarquera que ce regroupement
conserve l’ordre et un intervalle constant entre les modalités. L’échelle de cette
nouvelle variable est donc bien numérique.
Une autre façon de symétriser la distribution sur une variable consiste à la normaliser.
Cette procédure correspond à un type particulier de transformation de variable. Elle
consiste à transformer une variable en calculant pour chaque modalité l’écart à la
moyenne de l’échantillon pondérée par l’écart-type de l’échantillon. Cette procédure est
particulièrement utile lorsqu’on veut situer un individu dans une distribution ou lorsqu’il
est nécessaire de modifier la forme de la distribution. Cette transformation faisant appel
à des procédures qui seront traitées plus loin dans les procédures applicables à des
distributions, elle ne sera pas développée dans ce chapitre.
Les résumés numériques sont des indices calculés à partir du protocole. Ces indices
sont de deux types. Les premiers visent à estimer la tendance générale dans le
protocole, ce sont les indices de position. Les seconds servent à estimer la variabilité
des données dans le protocole. Ce sont les indices de dispersion. Certains de ces
indices peuvent être calculés directement sur le protocole ou sur une distribution,
d’autres nécessitent de passer obligatoirement par une distribution. C’est le cas
notamment du mode et du mode secondaire. Pour des raisons de cohérence de la
structure de ce cours, nous ne présenterons dans ce chapitre que les procédures
applicables aux protocoles. Nous reverrons plus loin les procédures applicables aux
distributions pour le calcul de ces indices.
On ne peut pas calculer d’indice de position pour les variables nominales sans faire une
distribution. Nous le verrons en effet un peu plus loin, les indices de position
applicables à cette échelle de mesure supposent un dénombrement des observations
pour chaque modalité de la variable. Sur les protocoles, il nous reste donc les indices
de position applicables aux échelles ordinales et numériques.
Si les modalités de la variable peuvent être ordonnées, ce qui est le cas des variables
ordinales et numériques, la répartition générale sera donnée par la médiane, c’est-à-
dire la modalité pour laquelle 50% des observations sont inférieures et 50% des
observations sont supérieures à cet échelon. Concrètement, une fois les observations
ordonnées, cela revient à se demander où se trouve le milieu du protocole.
Dans notre exemple, nous avons 9 individus. La moitié des individus est donc de 9/2=
4,5. Pour ne couper personne en deux, nous considérerons le 5ème sujet dans notre
protocole. C’est lui qui partage notre groupe d’observations en deux moitiés. On
l’appelle l’individu médian. La médiane est alors la modalité de ce 5ème individu, soit 5.
Cet indice nous indique que la moitié des sujets a une observation inférieure ou égale à
5 et par conséquent la moitié a une observation supérieure ou égale à 5. Imaginons
que ces observations correspondent aux résultats d’une expérience où on demande
aux sujets d’apprendre une liste de 12 mots. Cette médiane nous indiquerait que la
moitié des sujets ont rappelé moins de la moitié des mots.
Une autre façon de voir la médiane consiste à considérer un protocole ordonné et à
supprimer les observations extrêmes (la plus petite et la plus grande). En répétant
l’opération autant de fois que possible, il ne restera, à la fin, plus qu’une observation. La
modalité correspondant à cette observation est la médiane. Autrement dit, la médiane
peut être vue comme la modalité observée sur le protocole en faisant abstraction des
modalités extrêmes. La médiane constitue donc la tendance centrale de notre
protocole.
Le cas d’un nombre impair d’individus est le plus simple, puisqu’il y a toujours un
individu qui sépare le protocole en deux partie égales. Dans le cas d’un nombre pair
d’individus, ce sont deux sujets qui partagent le protocole en deux moitiés. Si les
observations correspondent à la même modalité de la variable, cela n’a pas
d’importance, Ainsi, dans le Tableau 3.1, si on ne considère que les 8 premiers sujets
du protocole ordonné, ces sont les individus S2 et S9 qui se trouvent au milieu. Ils ont
tous les deux 5. La médiane est donc de 5. Mais si dans le même protocole ordonné on
considère les 8 derniers individus, les individus médians sont les sujets S9 et S6 qui ont
respectivement 5 et 7 pour observation. Dans ce cas, plusieurs options sont possibles :
Certains auteurs préconisent de retenir par convention la modalité du sujet
correspondant à (n/2)+1. Dans notre exemple des 8 dernières observations du
protocole du Tableau 3.1, la médiane serait de 7. Dans ce cas, on est assuré d’avoir
50% des observations inférieures ou égales à la médiane, mais ce n’est pas le cas pour
les modalités supérieures.
On peut opter, comme le font bons nombres de logiciels de statistiques, pour la
moyenne des observations des individus médians. Dans ce cas, on aura (5+7)/2=6.
L’avantage de cette méthode est de fournir un résultat numérique quel que soit le cas
de figure, mais elle n’est applicable qu’aux variables numériques (alors que la médiane
doit pouvoir être aussi calculée pour des variables ordinales) et pose le problème des
cas ou la moyenne aboutit à une valeur décimale qui n’a peut-être pas de sens pour
certaine variable (par exemple le nombre d’enfants dans une famille) et ne correspond
plus à aucune modalité observée (comme dans notre exemple).
La dernière option, à laquelle va notre préférence, consiste à assumer l’imprécision de
la médiane et à parler de coupure médiane entre 5 et 7 dans ce cas.
moyennes que nous calculons portent sur des ensembles d’observations concernant
souvent sur plusieurs sujets, mais la procédure est la même : Additionner toutes les
observations et diviser par le nombre d’observations. Prenons un exemple simple pour
illustrer la méthode et surtout poser le formalisme nécessaire à l’approfondissement de
cette procédure d’analyse. Il s’agit, ici, des temps, en minutes, mis par un échantillon
de 20 sujets pour résoudre un problème.
Nous avons vu que le protocole se présente souvent sous la forme d’un tableau qui fait
correspondre à un ensemble d’individus (notés i) un ensemble d’observations (notées
x). Chaque observation relative à un sujet est notée xi (le i renvoyant à l’individu
statistique). La somme des observations se notera donc Σxi. La moyenne sera m=Σxi/n.
Concrètement cela veut dire qu’on fait la somme de la colonne des observations et
qu’on la divise par le nombre des observations. Dans notre exemple, on aura :
m=
"x i
=
(3 + 5 + 5 + ...+ 6 + 6 + 4 + 3)
n 20
101
m= = 5,5
20
auraient mis s’il avait tous mis autant de temps à résoudre le problème. On voit que le
sens à donner à la moyenne est très différent de celui de la médiane.
Une autre différence entre ces deux indices est leur sensibilité aux valeurs extrêmes.
La médiane n’y est pas sensible, la moyenne en revanche y est très sensible. Quelques
notes extrêmes, élevées ou basses peuvent tirer la moyenne d’un côté ou de l’autre de
l’échelle de mesure. Nous en reparlerons en examinant le calcul de ces indices sur les
distributions (voir chapitre 4, paragraphe 1.3).
Les indices que nous venons de voir nous informent sur la tendance centrale du
protocole. Cependant les données peuvent être plus ou moins diverses. Imaginons
deux cas extrêmes pour illustrer cette idée. Dans un premier échantillon, les individus
ont tous obtenu la note de 5 sur 10 à un test. Dans un second échantillon, la moitié des
sujets a eu 0 et l’autre moitié a eu 10. Si ces deux protocoles comportent un nombre
pair d’individus, nous sommes en présence de deux échantillons de même moyenne,
en l’occurrence, m=5. Les résumer par ce seul et même indice n’est pas très
satisfaisant du point de vue de la description des données. Il faut dans notre résumer
indiquer également la variabilité des données. C’est ce qu’on appelle la dispersion.
Sur un protocole, on peut calculer directement deux indices de dispersions : les
quartiles qui nous indiquerons la dispersion autour de la médiane et l’écart-type qui
nous donnera la dispersion autour de la moyenne.
Comme pour la médiane, ces indices se calculent aussi bien sur une variable ordinale
que sur une variable numérique. La seule contrainte à l’emploi de ce résumé est d’avoir
une variable dont les modalités sont ordonnées. Avec la médiane, nous avons partagé
le protocole ordonné en deux parties égales. Pour évaluer la dispersion autour de cette
médiane, nous allons à nouveau partager les deux moitiés autour de la médiane en
deux parties égales. Nous allons donc obtenir quatre partitions comportant chacune
25% des observations. La procédure est en tout point similaire à celle qui permet la
détermination de la médiane.
Dans un premier temps, le protocole est ordonné sur les observations. Puis on
cherchera l’individu correspondant à ¼ des observations. Dans notre exemple, nous
avons 20 individus. C’est donc le 20/4=5ème individu. Sa modalité correspond au
premier quartile (Q1). Dans l’exemple, Q1=3. On cherchera ensuite le deuxième
quartile, c’est-à-dire la médiane comme précédemment. Il correspond au 20/2=10ème
individu. Sa modalité est donc la médiane ou Q2. Le nombre d’individus étant pair, il
faudrait, en toute rigueur, situer la médiane entre le 10ème et le 11ème individu, mais
puisqu’ils ont la même observation, on peut retenir sans problème la modalité 5 comme
médiane. Le troisième quartile (Q3) se détermine de la même manière en cherchant
l’individu qui correspond aux ¾ de l’échantillon, soit le 20*3/4=15ème individu. La
modalité correspondant à Q3 est donc 7.
Nous avons donc Q1=3 ; Q2=5 et Q3=7. Puisque les quartiles coupent le protocole en
quatre parties égales de 25%, nous avons entre Q1 et Q3, 50% des observations. La
moitié des individus a entre 3 et 7 , avec une médiane à 5. Imaginons que ces données
correspondent à la durée entre deux hospitalisations pour un groupe de patients
schizophréniques. Ces données vous permettraient de savoir qu’au bout de 5 ans, la
moitié des patients n’a pas été de nouveau hospitalisés et que pour 50% des patients,
la réhospitalisation intervient entre 3 et 7 ans.
par le nombre d’observations. On calcule alors ce qu’on appelle l’écart moyen. Cet
écart moyen n’est cependant pas toujours intéressant du point de vue de l’analyse car il
est très difficile à décomposer. C’est la raison pour laquelle on préfère en général
élever les écarts au carré avant d’en faire la moyenne. On obtient ainsi ce qu’on appelle
la variance. La variabilité sur le protocole sera estimée à partir de la racine carrée de la
variance (pour annuler l’élévation au carré des écarts). On obtient alors l’écart-type.
Avant de présenter les formules et les procédures de calcul, nous allons poser les
définitions de ces notions, définitions à connaître par cœur afin d’être en mesure de
retrouver la formule de calcul.
La variance est la moyenne des carrés des écarts à la moyenne des observations.
L’écart-type est la racine carrée de la variance.
L’écart-type est noté s. La variance qui est le carré de l’écart-type sera donc noté s2.
Posons maintenant les formules de définition.
s2 =
# (x i " m) 2
n
2
s= s
La lecture d’une formule se fait, comme dans toutes les formules, en commençant par
l’intérieur des parenthèses. On y trouve x i-m. L’indice i correspond aux individus et
nous indique que l’opération doit être répétée pour tous les individus. Nous devons
donc calculer la différence entre l’observation et la moyenne de l’échantillon pour tous
les individus. C’est ce que nous avons fait dans la troisième colonne du Tableau 3.4.
On voit dans la dernière ligne du tableau que la somme de ces écarts est nulle. Dans la
formule, juste après la parenthèse, on trouve une élévation au carré. Il nous faut donc
élever chacun des écarts au carré. C’est ce que nous avons fait dans la quatrième
colonne. Le symbole Σ, qu’on lit sigma, signifie qu’il faut faire la somme des termes qui
suivent, autrement dit la somme des carrés des écarts à la moyenne. On trouvera cette
somme sur la dernière ligne de la dernière colonne. Elle est dans notre exemple de
56,95. Il ne nous reste plus qu’à diviser cette somme par le nombre d’observations soit
20. On a donc s2=56,95/20= 2,85. L’écart-type est alors de s = 2,85 = 1,69 . Ce qui
signifie sur cet exemple que le temps de résolution du problème varie d’un peu plus
d’une minute et demi autour de la moyenne.
Il existe une façon un peu plus rapide de calculer la variance
! et l’écart-type qui peut
s’avérer utile lors de l’examen. On peut en effet, à l’aide d’une suite de transformations
algébriques, passer de la formule de définition à une formule simplifiée, dite « formule
de calcul ».
(" x)2
2
s2 =
" (xi ! m)2 = " x ! n
n n
Concrètement, cette nouvelle formule nous évite une étape, celle du calcul des écarts.
Il nous faut en revanche calculer la Σx et la Σx2. Pour le premier terme, nous l’avons
déjà puisque cette somme doit être calculée pour le calcul de la moyenne. Il ne reste
alors que les carrés des observations et la somme de ces carrés à calculer. On notera
que cette formule de calcul ne fait pas intervenir la moyenne, ce qui permet de retarder
le moment où l’on manipulera des arrondis. La précision du résultat est donc plus
grande, mais cela offre à l’étudiant novice un moins bon contrôle conceptuel sur ce qu’il
fait. Ces deux procédures étant équivalentes, vous aurez, à l’examen le choix de la
procédure qui vous convient le mieux.
Dans notre exemple, nous n’avons avec cette nouvelle formule qu’une colonne à
calculer. Elle consiste à élever chaque observation au carré. On peut alors instancier
(affecter les valeurs à ) la formule et calculer notre variance.
(# x) 2 (101) 2
#x 2
"
n
567 "
20 = 2,85
s2 = =
n 20
Nous avons vu dans les exemples qui précèdent essentiellement des protocoles
univariés non structurés. Ces résumés numériques ont cependant tout leur intérêt dans
la comparaison de protocoles structurés soit par un emboîtement soit par un
croisement. Formellement, la procédure de comparaison, au niveau descriptif, est la
même pour ces deux types de protocoles. Elle consiste à considérer séparément les
données correspondant à chacune des modalités du facteur et à comparer les résumés
numériques sur chacune des partitions ainsi définies. Nous ne présenterons donc qu’un
exemple. Nous ne considérerons dans ce cours que les protocoles structurés à un
facteur.
Pour illustrer la procédure de comparaison, nous allons nous inspirer d’une recherche
de Fogg et Nass (1997) sur l’impact de la flatterie sur l’humeur. Les données du
Tableau 3.6 sont fictives, mais reflètent les résultats observés par les auteurs.
Dans cette expérience, il s’agissait de mesurer l’impact des messages positifs délivrer
par un ordinateur sur l’humeur de l’utilisateur. La tâche était présentée au sujet comme
un jeu où ils devaient faire deviner à un ordinateur un mot auquel ils pensaient.
L’ordinateur posait des questions auxquelles les sujets répondaient par oui ou par non.
En réalité, les sujets gagnaient à chaque fois et le jeu n’était qu’un prétexte à la tâche
réelle, mais implicite du sujet. On demandait au sujet, à l’issue du jeu, de proposer une
question pour les prochaines parties. L’ordinateur affichait alors une évaluation de la
proposition qui pouvait être neutre (votre proposition est enregistrée) ou positive (Votre
proposition est très intéressante). Un tiers des sujets recevait l’évaluation neutre
(condition « neutre ») . Un autre tiers des sujets recevait l’évaluation positive sans autre
information (condition « éloge ») et un dernier tiers recevait une évaluation positive tout
en étant prévenu que l’évaluation était indépendante de leur contribution (condition
« flatterie »). Après l’expérience, on demande au sujet d’évaluer leur humeur sur une
échelle en 9 points (0=humeur positive faible, 8=humeur positive forte). Nous avons
bien un protocole univarié (une seule variable observée ; l’évaluation de l’humeur)
7
Nous ne détaillerons pas les calculs ici et laissons le soin aux étudiants de les retrouver ces valeurs à partir du
protocole en guise d’exercice.
2) Une fois cette liste établie, on compte, pour chaque modalité, le nombre de fois
où elle apparaît dans le protocole. Ce nombre est appelé « effectif ». Il est notés nu, où
u renvoie à une modalité particulière. Ainsi n8 correspond à l’effectif de la modalité 8.
N’ayant observé cette modalité qu’une fois, n8=1. En procédant de même pour chaque
modalité de la variable, on obtient la distribution du précédent protocole.
Dans ce protocole, nous avons des observations entre 8 et 50, les modalités entre ces
deux valeurs ont donc été listées, y compris celles qui n’ont pas été observées. Pour
chacune de ces modalités, nous avons compté le nombre de fois où elle a été
observée.
Pour pouvoir comparer des distributions obtenues sur des échantillons de tailles
différentes, il est souvent intéressant de pondérer chaque effectif par l’effectif total. On
calcule alors la fréquence. Formellement, la fréquence se note fu et se calcule en
faisant fu=nu/n où n sans indice renvoie à l’effectif total. Le total des fréquences est bien
sûr égal à 1. En multipliant ces fréquences par 100, on les exprime en pourcentage. Le
total des pourcentages est égal à 100.
Concrètement, les fréquences du Tableau 3.9 ont été obtenues en divisant chaque
effectif du Tableau 3.8 par 113. Les valeurs sont bien sûr arrondies à 3 décimales
près. Pour calculer les pourcentages, les fréquences ont été multipliées par 100.
Dans ce protocole, les individus sont les enfants. Nous avons deux variables. La
première est la variable « classe ». Son échelle est ordinale et elle comporte 3
modalités. La seconde variable est la performance au test, variable nominale
dichotomique.
Lister les modalités des variables. La distribution sur ces deux variables commencera
par la construction d’un tableau à double entrée avec en ligne la performance et en
colonne la classe. Le sens du tableau est choisi pour des raisons de commodité. Il
aurait tout aussi bien pu être posé dans l’autre sens. Par convention, on note les
modalités de la variable en ligne par la lettre j et les modalités de la variable en colonne
k.
Dénombrer les observations pour chacun des couples de modalités. La seconde étape
consiste à dénombrer les observations, c’est-à-dire à calculer les effectifs, pour chacun
des couples de modalités. On dit également qu’on fait un tri croisé des observations.
Le résultat est une distribution croisée sur nos deux variables ( Tableau 3.11). Comme
précédemment, les effectifs sont notés n. Puisque les effectifs renvoient aux modalités
de deux variables J et K, l’effectif d’une case particulière du tableau sera noté njk.
On peut également calculer les fréquences en divisant l’effectif de chaque case du
tableau par l’effectif total, soit dans cet exemple 15. On obtient ainsi le Tableau 3.12.
Ce tableau permet ainsi de voir que la répartition des échecs et des réussites n’est pas
la même dans les trois niveaux et que la réussite croit avec le niveau scolaire.
Nous savons maintenant faire une distribution. Elle constitue un nouvel objet statistique
sur lequel nous allons pouvoir faire un certain nombre d’analyse. D’abord, nous allons
pouvoir résumer la distribution de façon à mettre en évidence les résultats importants
des données. Il existe plusieurs façons de résumer une distribution. On peut le faire
graphiquement. On peut également cumuler les effectifs. Nous allons pouvoir
également situer un individu dans cette distribution, notamment par rapport aux indices
que nous aurons calculés dans le résumé numérique. Ensuite, nous pourrons comparer
des groupes d’observations sur ces distributions, en nous appuyant à la fois sur les
résumés numériques et graphiques. Enfin, nous verrons, dans dernier chapitre,
comment analyser une distribution bivariée, c’est-à-dire un tableau de tri croisé.
On peut représenter graphiquement une distribution sur les effectifs ou sur les
fréquences. Pour cela, on construit un graphique où l’axe des abscisses représente les
modalités de la variable et l’axe des ordonnées représente l’échelle des effectifs ou des
fréquences. La distribution est représentée par des traits verticaux (bâtonnets) dont la
hauteur est proportionnelle à l’effectif ou la fréquence de chaque modalité. Pour des
raisons d’esthétique, certains auteurs élargissent ces bâtonnets. Dans ce cas, il faut
que tous les bâtonnets aient la même largeur, puisque l’intervalle des classes est le
même pour toutes les modalités, c’est-à-dire 1. Un tel graphique s’appelle un
histogramme. La largeur des barres représente la densité d’effectifs de la classe. Dans
le cas où l’histogramme serait construit avant regroupement de modalités, la densité
d’effectifs est égale à l’effectif, puisque le nombre de modalités dans la classe
constituée par la modalité est de 1. Dans le cas des variables continues, cela peut avoir
du sens de relier les sommets des bâtonnets et de construire ainsi une courbe, mais
pas dans le cas des variables discontinues, comme les variables nominales ou
ordinales puisqu’il n’y a rien entre les modalités.
6
Effectifs n(u)
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Notes (modalités u)
La distribution plate. Une distribution plate ou distribution amodale est une distribution
où tous les effectifs sont égaux. En pratique, on a peu de chance de rencontrer des
distributions telles que celle de la Figure 4.3. Cependant, il arrive parfois que ne se
détache aucun mode de façon franche. La distribution est alors quasiment plate.
Les distributions symétriques. Ce sont des distributions où la répartition des effectifs est
équilibrée autour de l’indice de tendance centrale (médiane ou moyenne). Comme pour
la dissymétrie, cela ne peut concerner que les variables ordinales ou numériques,
puisque les modalités des variables nominales ne sont pas ordonnées.
A titre d’illustration, voici la courbe qu’on obtiendrait sur une distribution normale ayant
les paramètres que nous avons calculés sur les données de la note au test, soit
m=32,95 et s=9,85. Bien sûr, nous avons vu plus haut que nos données ne suivent pas
une distribution normale. Le graphique ici est donc purement théorique.
La distribution normale tient une place particulièrement importante dans les méthodes
statistiques en psychologie. Nous aurons l’occasion de le voir en seconde année avec
les méthodes inférentielles. Ce type de distribution tient également une place
importante dans l’interprétation des données, même si on n’en a pas toujours
conscience. Avec le calcul de la moyenne sur un protocole, nous avons vu que cet
indice pouvait être regardé comme une équirépartition des points sur l’ensemble des
individus. Nous avons également abordé, avec le calcul de l’écart-type une autre
interprétation qui consiste à voir la moyenne comme la mesure vraie. L’écart-type est
alors vue comme une estimation de l’erreur de mesure. La distribution normale se prête
particulièrement à ce type d’interprétation, même si cela dépend bien sûr beaucoup des
données qu’on est en train de manipuler. En effet, le mode, la médiane et la moyenne
étant confondus, la moyenne est également la valeur la plus fréquemment observée.
Par ailleurs, la symétrie de la distribution et la décroissance des valeurs de par et
d’autres de la moyenne renforce l’idée que l’écart à la moyenne est une erreur de
mesure dont la fréquence décroît avec l’écart à la moyenne. Cette interprétation n’est
pas toujours explicitement formulée dans la littérature en psychologie, mais il faut l’avoir
à l’esprit et s’interroger sur sa pertinence.
Dans ce paragraphe, nous allons présenter la procédure de cumul des effectifs. Cette
procédure est applicable aux variables ordinales et numériques, mais ne peut pas être
appliquée aux variables nominales puisque les modalités de ces variables ne sont pas
ordonnées. On utilise le cumul de la distribution pour résumer une distribution, par
exemple savoir combien de sujets ont plus ou moins qu’une valeur seuil. On l’utilise
également pour repérer les quartiles, comme nous le verrons un peu plus loin.
Il existe deux façon de cumuler une distribution. Le cumul à gauche et le cumul à droite.
Dans le cumul à gauche, on commence par les valeurs basses et on additionne les
effectifs au fur et à mesure en allant vers les valeurs hautes. Dans le cumul à droite, on
fait l’inverse, on commence par les valeurs hautes pour finir par les valeurs basses.
Dans ce cas, pourquoi ne pas avoir appelé cela cumul vers le haut et cumul vers le
bas ? Cela aurait été en effet correct, mais l’usage veut que l’orientation du cumul
prenne pour référence l’organisation des valeurs sur le graphique de distribution (voir la
Figure 4.1) où les valeurs basses sont à gauche et les valeurs hautes à droite, et non
l’organisation du tableau de distribution.
Pour illustrer cette procédure, nous allons reprendre les notes au test et faire un
recodage de la variable en 9 classes. La distribution est alors calculée sur cette
nouvelle variable. Elle correspond aux quatre premières colonnes du Tableau 4.1.
Commençons par le cumul à gauche. Pour la première classe, l’effectif cumulé est
l’effectif de la classe. Pour la deuxième, c’est l’effectif de la classe 2 plus l’effectif
cumulé précédent soit 3+3=6. Pour les autres classes, on opère de manière similaire
en prenant l’effectif de la classe et l’effectif cumulé précédent. Le dernier effectif cumulé
est égal au nombre total d’observation, dans cet exemple, 113. Les effectifs cumulés à
gauche nous indiquent combien de sujets ont une note inférieure ou égale à la valeur
maximale de la classe.
Pour les effectifs cumulés à droite, on procédera en sens inverse. Ainsi pour la
première classe, l’effectif cumulé est égal à l’effectif total. Pour la seconde classe, il est
égal à l’effectif cumulé précédent moins l’effectif de la classe précédente. On procède
ainsi jusqu’à la dernière classe dont l’effectif cumulé est égal à l’effectif de la dernière
classe, dans cet exemple, 7. Les effectifs cumulés à droite nous indiquent combien de
sujets ont une note supérieure à la valeur minimale de la classe.
Dans notre exemple, la note maximale au test est de 50. On peut se demander, par
exemple, combien de sujets ont une note supérieure ou égale à 25, autrement dit
combien ont répondu correctement à au moins la moitié des items. La réponse à cette
question peut être lue directement dans le tableau. C’est l’effectif cumulé à droite de la
classe 26-30 soit 85 sujets.
Le cumul des distributions se fait de la même façon sur les fréquences et sur les
pourcentages. Nous verrons avec le calcul de la médiane et des quantiles, d’autres
applications de cette distribution cumulée.
Comme pour les protocoles, nous allons sur les distributions, pouvoir calculer des
indices de positions et des indices de dispersions. A l’exception du mode et du mode
secondaire qui ne peuvent être repéré que sur des distributions, ces indices sont les
mêmes que précédemment (médiane et quartile, moyenne et écart-type). Les
procédures de calcul sur une distribution sont cependant différentes.
6
Effectifs n(u) 5
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Notes (modalités u)
Ainsi, dans notre exemple des notes au test, les modalités les plus souvent observées
sont 36, 42 et 44 pour lesquelles on a un effectif de 7 sujets. Nous sommes dans le cas
d’une distribution ayant plusieurs modes. Cet indice est surtout utile lorsqu’on souhaite
avoir des informations sur la concentration des observations sur une ou plusieurs
modalités. On peut repérer le mode sur n’importe quelle distribution, que la variable soit
nominale, ordinale ou numérique. Cependant, en pratique, cet indice est surtout utilisé
pour résumer une distribution nominale.
Bien que très similaire, la procédure de calcul de la médiane sur une distribution doit
être distinguée de la procédure de calcul de la médiane sur un protocole. Dans le cas
du protocole, on commence par ordonner le protocole, puis on calcule le rang de
l’individu médian. On repère ensuite celui-ci dans le protocole ordonné et on lit la
modalité qui lui est associée. Dans le cas de la distribution, la détermination de la
médiane se fait en deux temps :
1) dans la première étape, on calcule l’effectif cumulé correspondant à la moitié
des observations soit n/2. Dans notre exemple n vaut 113 et n/2=113/2=66,5
2) Dans la deuxième étape, On cherche dans les effectifs cumulés n/2. Dans notre
cas, on cherchera 66,5. Si une modalité correspond à cet effectif cumulé, on la prend
comme médiane. Mais, dans notre exemple, et c’est souvent le cas, cet effectif cumulé
ne correspond pas à une modalité. On prendra donc l’effectif cumulé le plus proche. Il
s’agit de la classe 31-35. Dans le cas où l’effectif cumulé correspondant à la médiane
est à égale distance entre deux modalités, on s’abstiendra de choisir et on parlera de
coupure quasi-médiane entre les deux modalités en question. Si plusieurs modalités
correspondent à l’effectif cumulé (cas où l’on a des effectifs nuls dans des classes
successives), on prend la première modalité.
Détermination graphique de la médiane. On peut déterminer graphiquement la médiane
en faisant sur un même graphique la courbe des effectifs cumulés à gauche (série 1) et
à droite (série 2). Pour trouver la médiane, on abaisse la perpendiculaire à l’axe des
abscisses qui passe par l’intersection des deux courbes.
lignes correspondent aux individus statistiques. Dans une distribution, les lignes
correspondent aux modalités de la variable. Nous allons reprendre notre exemple des
notes au test avant regroupement pour illustrer cela. Le tableau de protocole
correspondant à notre exemple de la note au test aurait l’allure suivante :
somme des observations est alors Σnkuk , ce qui se lit somme des produits de nk par uk,
et la moyenne est alors égale à Σnkuk/n. Concrètement sur l’exemple des notes au test,
on construira le tableau suivant :
Sur les variables nominales, la variabilité des observations est évaluée en repérant le
ou les modes secondaires. Il s’agit de la modalité ou des modalités ayant l’effectif le
plus important après le mode. Pour illustrer cela, nous reprendrons notre exemple des
notes au test. On peut voir sur le graphique que le mode secondaire correspond à 37.
Effectifs n(u) 5
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Notes (modalités u)
élevées, mais aussi que la répartition des notes autour de la médiane n’est pas
symétrique.
Sur les variables numériques, l’écart interquartile constitue un autre indicateur de la
répartition des données sur l’échelle de mesure. L’écart interquartile est la différence
entre Q3 et Q1. Dans notre exemple, cet écart est de 38-23=15, ce qui veut dire que la
moitié des observations s’étend sur 15 points autour de la médiane.
Rappelons que l’écart-type ne peut pas être calculé directement et qu’il faut extraire la
racine carrée de la variance pour l’obtenir. Comme pour la moyenne, la variance peut
être calculée à partir du protocole ou de la distribution. Nous allons voir dans ce qui suit
le calcul de la variance à partir de la distribution en distinguant l’utilisation de la formule
de définition de l’utilisation de la formule de calcul.
Utilisation de la formule de définition à partir de la distribution. La difficulté, ici, est
similaire à celle que nous avons rencontrée lors du calcul de la moyenne à partir de la
distribution. On peut bien calculer l’écart à la moyenne de chaque modalité, mais il ne
faut pas oublier de multiplier cet écart par le nombre de fois où il a été observé, c’est-à-
dire par l’effectif. Concrètement, on commence par préparer le tableau de distribution
en lui ajoutant trois colonnes:
Une pour le calcul de l’écart à la moyenne.
Une autre pour l’élévation de cet écart au carré
Et une troisième pour le produit de ce carré par l’effectif de la modalité.
On calcule l’écart de chaque modalité avec la moyenne du protocole soit uk – m.
Pour u1, on a : 32,95-6 = -26,95
Pour u2, on a : 32,95-7 = -25,95
Pour u3, on a : 32,95-8 = -24,95 etc.
Pour chaque modalité, on calcule le carré de cet écart, soit (uk - m)2.
Pour u1, on a : -26,952 = 726,14
Pour u2, on a : -25,952 = 673,24
Pour u3, on a : -24,952 = 622,35 etc.
Pour chaque modalité, on calcule le produit de cet écart et de son effectif soit: (uk -
m)2*nk
Pour u1, on a :726,14 * 0 = 0
Pour u2, on a : 673,24* 0 = 0
Pour u3, on a : 622,35 * 1 = 622,35 etc.
On fait ensuite la somme de ces produits et on la divise par n soit s2=Σ((uk-m)2*nk)/n.
Dans notre exemple, nous avons donc :
s2=(0+0+622,35+...+515,40+290,81)/113
s2=10967,68/113= 97,06
Nous venons de voir qu’une distribution pouvait être résumée numériquement par des
indices de position ou de tendance centrale et des indices de dispersion. Le choix des
indices dépend de ce qu’on souhaite résumer dans la distribution et de l’échelle de
mesure de la variable (se reporter au tableau suivant). Les questions qu’on peut se
poser sont :
Sur les échelles nominales, seul le mode et le mode secondaire peuvent être calculés.
Si les modalités de la variable sont ordonnées, c’est-à-dire si l’échelle est ordinale ou
numérique, on peut également calculer la médiane et les quartiles. Enfin, si la variable
observée est numérique, on peut calculer la moyenne et l’écart-type. On voit donc que
pour les variables nominales, nous n’avons pas le choix, mais pour les deux autres
types de variable, il faut se poser la question de la pertinence des indices de position et
de dispersion retenus.
Ce choix est guidé par le type de question qu’on se pose à propos du protocole. Ces
indices permettent en effet de mettre en avant des propriétés différentes du protocole
ou de la distribution.
Le choix des indices numériques doit également être guidé par des considérations relatives aux
caractéristiques de la distribution. Nous avons vu plus haut que la moyenne est sensible aux
valeurs extrêmes, c’est la raison pour laquelle elle peut s’avérer un résumé trompeur dans un
certain nombre de cas, notamment lorsque la distribution est dissymétrique et/ou lorsqu elle
comprend des valeurs extrêmes, vers le haut ou vers le bas. Ainsi, classiquement, on cite
l’exemple des salaires pour lesquels l’écart entre les plus faibles et les plus fortes valeurs est très
important. Ainsi dans une entreprise, si on observe que trois salariés perçoivent 1000 € et qu’un
cadre touche 3000 €, le salaire moyenne sera de 1500€, alors qu’un seul salarié perçoit un
salaire supérieur ou égal à ce salaire moyen. On retrouve parfois le même type de problèmes
dans la mesure des temps de réaction où un ou deux sujets ayant une hésitation peuvent tirer
fortement la moyenne vers le haut. Dans ce cas, soit les individus sont éliminés de l’analyse, soit
on opte pour un résumé à l’aide de la médiane.
Avec les procédures applicables aux protocoles, nous avons eu un petit aperçu de la
comparaison de groupes d’observations (Chapitre 3 - 2). Nous avons vu que ce type
d’analyse consiste à comparer les résumés numériques du protocole pour chacune des
modalités du facteur. En pratique, ce type de comparaison se fait surtout à partir de la
comparaison des distributions des observations sur chacune des modalités du facteur.
On pourra de la même manière comparer les indices numériques, puisque nous venons
de voir qu’ils étaient calculables à partir de la distribution, mais on pourra également
comparer les distributions, notamment à l’aide d’un graphique. Nous allons donc
approfondir dans ce paragraphe ces procédures de comparaison.
Lorsqu’on a une variable nominale, le seul indice numérique résumant la distribution est
le mode, accompagné éventuellement du mode secondaire. De fait la comparaison de
groupes d’observations avec ce type de variable se limite à une comparaison des
fréquences. Voici un exemple de ce type d’analyse.
Lors d’une enquête sur les conditions de travail dans un centre hospitalier spécialisé,
on a posé au personnel la question suivante : « Pensez-vous que l’emploi soit menacé
dans le milieu hospitalier ? ». Deux catégories de personnel ont été interrogées, ceux
qui travaillent à l’hôpital (Intra) et ceux travaillant dans des structure extra-hospitalière
(extra). Voici la distribution des réponses.
Dans cet exemple, nous avons deux variables. La première est le facteur « lieu de
travail ». C’est la variable indépendante. L’échelle de mesure est nominale. Elle
comprend deux modalités qui vont constituer les deux groupes d’observations. Chaque
sujet n’appartenant qu’à une des catégories de personnel, la structure du protocole est
donc l’emboîtement (groupes indépendants). Notez qu’au niveau descriptif, la
procédure de comparaison est la même pour les plans croisés (groupes appariés).
Nous n’en ferons donc pas une présentation spécifique. La seconde variable est la
réponse. C’est la variable dépendante. L’échelle de mesure est une échelle nominale à
trois modalités. Il faut donc réaliser une comparaison de deux groupes indépendants
sur une variable nominale. La base de comparaison sera donc la fréquence.
Première étape : calcul des fréquences. Partant du tableau de distribution, il faut
calculer les fréquences de chacune des réponses pour chacune des catégories de
personnel. Attention, ce qu’on cherche à comparer ce sont les fréquences des
réponses dans chacun des groupes d’observations. On doit donc calculer ces
Tableau 4.11 Fréquences des réponses dans chacun des deux groupes
0,600
0,500
0,400
intra
0,300
extra
0,200
0,100
0,000
oui non NR
Figure 4.9 Graphique des réponses dans chacun des deux groupes
Troisième étape : formulation des commentaires. Elle consiste à pointer les principales
différences entre les deux groupes et à en tirer une conclusion. On voit, dans notre
exemple, que la réponse «oui » est plus fréquente pour le personnel « intra », tandis
que le personnel de l’extra-hospitalier répond plus fréquemment « non ». Il n’y a pas de
différence entre les groupes pour les non-réponses. On peut donc dire que le personnel
de l’intra-hospitalier ressent plus une menace sur les emplois que le personnel de
l’extra-hopitalier.
Avec les variables ordinales, il est également possible de comparer les fréquences,
mais on peut aussi comparer les quartiles. Nous allons en développer un exemple pour
illustrer ce type d’analyse.
Dans une enquête sur la perception des causes d’accidents de la route, on a posé la
question suivante : Pensez-vous que les défaillances mécaniques sont une source
d’accidents ? Les sujets avaient à répondre sur une échelle allant de 0 à 10 dans
laquelle la note 0 correspond à « jamais », la note 5 à « parfois » et la note 10 à
« toujours ». Sur les 160 sujets interrogés, voici la distribution des réponses pour les
hommes et les femmes.
Dans cet exemple, nous avons deux variables. La première est la variable
indépendante (facteur) « sexe ». C’est une variable nominale à deux modalités.
Comme dans l’exemple précédent, c’est le facteur qui sert de base à la constitution des
groupes d’observations. Ces deux groupes sont, bien entendu, indépendants (relation
d’emboîtement) puisque les sujets ne peuvent appartenir qu’à un seul groupe.
La seconde variable est la variable dépendante « jugement ». Pour cette variable, les
11 modalités sont ordonnées, mais la notion d’intervalle n’a pas de sens, bien que les
modalités soient exprimées par des chiffres. Cependant, sur ce type d’échelle de
jugement de fréquences, certains auteurs franchissent le pas et considèrent qu’il existe
une continuité et un intervalle entre les modalités. Ce point de vue n’est pas dénué de
sens, mais demande à être justifié. Dans le doute, on peut toujours considérer une
échelle numérique comme une échelle ordinale puisque la relation d’ordre est
commune aux deux échelles. L’inverse n’est, bien entendu, pas vrai. Nous
considèrerons donc que l’échelle de mesure est une échelle ordinale.
Notre tâche consiste ici à comparer deux groupes indépendants sur une variable
ordinale. La base de la comparaison peut donc être soit les fréquences, soit la médiane
et les quartiles. Dans la mesure où les effectifs des groupes sont équilibrés (même
nombre de sujets dans chaque groupe), il est équivalent de comparer les effectifs ou
les fréquences. On peut donc directement construire le graphique des distributions pour
les deux groupes. Le graphique est le suivant :
14
12
10
8
Femmes
Hommes
6
0
2
Toujours
Jamais
0
10
Figure 4.10 Graphique de distribution des réponses en fonction du sexe
Commentaires : On peut voir que ces deux distributions sont bi-modales (deux modes)
qui correspondent dans les deux distributions aux notes 5 et 6. Les réponses se
concentrent, pour les hommes et les femmes, sur un jugement moyen qui correspond à
« parfois ». Cependant, on peut également noter que la distribution des réponses chez
les hommes est plutôt décalée vers la droite, c’est-à-dire les notes hautes. Ce qui
suggère que les hommes attribuent plus fréquemment la cause d’un accident à une
défaillance mécanique.
On peut voir dans cette première analyse que ce qui différencie les deux groupes, c’est
surtout la répartition des réponses sur l’échelle de mesure. Il est donc tout à fait
intéressant de résumer cette répartition. Les indices pertinents sont alors la médiane et
les quartiles. Rappelons que pour les situer, il faut d’abord construire une distribution
pour chacun des deux groupes. Il faut ensuite repérer ensuite les modalités
correspondant à n/4 pour Q1, n/2 pour Q2 et n*3/4 pour Q3. Attention, ici n est le
nombre total d’observations de chacun des groupes d’observations soit 80. Les
distributions cumulées sont donc les suivantes :
On peut voir sur ces résumés que les distributions sont également étendues. L’écart
interquartile est en effet de 4 pour les deux distributions. En revanche, la distribution
pour les hommes est décalée vers les notes hautes. Ils considèrent donc que les
accidents sont plus fréquemment dus à une défaillance mécanique que les femmes. La
comparaison des quartiles dans un tableau est une façon synthétique de présenter les
données, mais on peut également comparer graphiquement ces indices en utilisant les
boites de Tuckey ou boites à moustaches.
Dans ce type de graphique, les quartiles sont symbolisés par un rectangle. Le bord de
gauche correspond à Q1, celui de droite à Q3. Le trait plus épais au milieu de la boîte
correspond à la médiane ou Q2. De chaque côté de la boîte, les moustaches
permettent d’indiquer les valeurs minimales et maximales observées. On voit tout de
suite sur ce graphique le décalage vers la gauche de la médiane du groupe des
hommes. On remarque également que la dispersion dans les deux groupes est la
même.
Lors d’une enquête, on relève, sur les registres d’état civil, l’âge de l’époux et l’âge de
l’épouse au moment du mariage pour 39 couples. On se demande si les hommes et les
femmes se marient en général au même âge. Dans cet exemple, il faut faire abstraction
de la notion de couples pour répondre à la question. Il s’agit en fait de comparer le
groupe des femmes et des hommes sur la variable « âge au moment du mariage ». Les
individus statistiques sont donc les personnes. Nous avons deux variables : le sexe
(variable nominale indépendante) et l’âge au moment du mariage (variable dépendante
numérique). Le protocole est structuré par une relation d’emboîtement (chaque sujet
est caractérisé par un seul des deux sexes). Nous avons donc à comparer deux
groupes indépendants sur une variable numérique. Une autre façon de voir ce
protocole est de considérer que les individus statistiques sont les couples. Dans ce cas,
chaque couple est caractérisé par l’âge de l’époux et l’âge de l’épouse au moment du
mariage. Ce sont deux variables observées et il n’y a pas de facteur. Nous avons donc
un protocole bivarié non structuré. Un tel point de vue sur le protocole ne permet pas
de répondre à la question posée pour laquelle il faut disposer d’un protocole structuré. Il
permet en revanche de répondre à une autre question : « Dans un couple, existe-il un
lien entre l’âge de l’époux et l’âge de l’épouse ? ».Cette question relève de l’étude de la
relation entre variables qui sera traitée au prochain chapitre. Nous rapportons ici les
données.
Ces données seront résumées dans une distribution des âges, en considérant
séparément les hommmes et les femmes. Nous rapportons le résultat de cette analyse
dans le tableau ci-dessous.
Revenons à la question posée : « Peut-on dire que les hommes se marient plus tard
que les femmes ? ». Nous pouvons utiliser comme base de comparaison la fréquence,
mais l’échelle de mesure est très étendue (les observations vont de 18 à 45) ce qui va
rendre difficile la comparaison à cause de la dispersion des observations sur les
différentes modalités, comme on peut le voir sur le graphique ci-dessous.
Figure 4.12 Graphique de distribution des âges au moment du mariage en fonction du sexe.
Cette analyse nous montre cependant que les observations sont concentrées du côté
des valeurs basses avec un mode à 22 ans chez les femmes (mode secondaire 25 et
31). Chez les hommes, la distribution est plus étalée. Le mode est à 25, mais ne diffère
presque pas des modes secondaires.
Les quartiles sont également utilisables comme base de comparaison avec les
variables numériques. Ainsi dans cet exemple, on observe pour les hommes : Q1=22,
Q2=25 et Q3=31. Pour les femmes, on a Q1=21, Q2=24 et Q3=30. L’écart interquartile
est le même dans les deux groupes, ce qui montre que l’étalement des observations ne
diffère pas en fonction du sexe.
Figure 4.13 Représentation graphique des quartiles. Dans les boîtes, le trait en gras
représente la médiane et la croix, la moyenne.
On voit également sur ce graphique que l’étalement des observations est plus
important du coté des valeurs hautes que du côté des valeurs basses.
Voyons maintenant ce que peut éventuellement nous apprendre la comparaison des
moyennes. Nous ne reprendrons pas ici la procédure de calcul de la moyenne et les
écarts-types (voir plus haut). Le résultat de ces calculs est le suivant :
On peut voir que les hommes se marient en moyenne un an plus tard que les femmes.
La dispersion dans les deux groupes est sensiblement la même. Il n’y a pas de plus
grande disparité de l’âge au moment du mariage dans l’un ou l’autre groupe.
Un autre objectif des méthodes statistiques est de pouvoir situer un sujet dans un
groupe de sujets. C’est ce qu’on fait intuitivement lorsqu’on compare la moyenne
scolaire d’un élève à celle de sa classe. En psychologie, on a également besoin de ce
type de méthode, notamment dans la méthode des tests. Pour cela, il existe plusieurs
méthodes. Nous allons en examiner successivement trois. La première consiste à se
donner des repères sur la distribution. Ce sont les décilages et les centilages. La
seconde consiste à comparer la performance du sujet à la tendance centrale et à la
dispersion de l’échantillon. C’est l’écart réduit. La troisième méthode constitue une
combinaison des deux précédentes. C’est l’utilisation d’une échelle normalisée.
Nous avons vu, avec la médiane et les quartiles qu’on pouvait découper un protocole
en un certain nombre de parts égales. Outre l’information sur la répartition des
observations sur l’échelle de mesure, ce découpage peut également servir à situer un
individu. Ainsi, savoir qu’un individu fait partie du premier quart de la distribution nous
informe immédiatement sur sa piètre performance. Afin d’affiner le découpage, on peut
éventuellement découper la distribution non plus en quatre, mais en 10 parties égales.
C’est ce qu’on appelle le décilage. Pour illustrer cette démarche, nous allons reprendre
notre exemple des notes au test, mais avant regroupement et chercher à situer un sujet
qui aurait obtenu 25 au test. Pour plus de commodités, nous rappelons ci-dessous cette
distribution.
Pour faire un décilage, il est nécessaire d’avoir suffisamment de modalités (au moins
20 ou 30) sinon les déciles vont se chevaucher et le résultat ne sera pas très informatif.
L’échelle de mesure de la variable doit être ordinale ou numérique et on doit disposer
d’une distribution cumulée (à gauche ou à droite). Il est plus commode de partir d’une
distribution cumulée des fréquences plutôt que des effectifs (pour ne pas avoir à
calculer à chaque fois l’effectif cumulé correspondant). Les fréquences cumulées à
rechercher dans la distribution cumulée des fréquences pour le protocole sont les
suivantes :
À partir des déciles, on définit des classes (comprise entre deux déciles) appelées
interdéciles. Dans notre exemple, les interdéciles sont les suivants :
Voyons maintenant comment situer dans la distribution un sujet qui aurait eu une note
de 25. Cette note est plutôt faible, puisque le sujet appartient au 3ème interdécile. Ce qui
veut dire que 70 % des sujets ont une note supérieure. Notre sujet a pourtant la moitié
des points, mais sur ce test, ce n’est pas beaucoup. La construction des interdéciles
correspond à ce qu’on appelle un étalonnage en déciles. Elle est très utilisée dans la
construction des tests. Elle permet ainsi de situer la performance d’un sujet par rapport
aux résultats obtenus dans un échantillon de référence.
u"m
z=
s
xi " m
zi =
s
0. Un autre sujet qui aurait pour observation la moyenne moins un écart-type aurait une
note z de -1.
Reprenons l’exemple précédent d’un sujet qui aurait eu 25 au test. Le calcul ne pose
pas de problème particulier, Il s’agit d’une simple soustraction et d’une division.
Rappelons que, sur cet échantillon, la moyenne à ce test est de 32,95 et l’écart-type de
9,85.
Nous avons donc z= xi-m/s= 25-32,95/9,85= -0,81
On voit que la note z est négative. La distance à la moyenne est donnée par la valeur
absolue de la note z. Elle signifie, dans cet exemple, que notre sujet est situé à 0,81
écart-type de la moyenne. Le signe de la note z indique le sens de cet écart. Si la note
est négative, le sujet est situé en dessous de la moyenne. Si le signe est positif, le sujet
est situé au-dessus de la moyenne. Dans notre exemple, il est en dessous.
Concrètement qu’est-ce que cela veut dire ?
La note z exprime l’écart à la moyenne en nombre d’écart-type. Cette note z de -0,81 veut dire
que notre sujet est à moins d’un écart-type de la moyenne. Autrement dit, il ne diffère pas
beaucoup de la tendance générale de l’échantillon, même s’il est du côté des valeurs faibles.
Nous avons utilisé deux moyens de situer notre sujet dans la distribution et ils nous
apportent des réponses un peu contradictoires. Notre sujet serait moyen et pourtant 70
% des sujets ont une note supérieure. Pourquoi ? C’est que la moyenne et l’écart-type
ne reflètent pas la répartition des observations dans la distribution, mais seulement son
centre de gravité et la dispersion autour de ce centre, sauf dans le cas d’une
distribution normale. La contradiction entre nos deux méthodes résulte du fait que dans
cet exemple, la distribution n’est pas une distribution normale. C’est pourquoi nous
allons la normaliser.
Le point de départ est une distribution cumulée. Il vaut mieux le faire avec une
distribution cumulée des fréquences pour ne pas avoir à calculer l’effectif cumulé
correspondant à chaque coupure. Mais à titre d’exemple, nous montrerons comment
faire à partir des effectifs cumulés. Concrètement, ce que nous allons faire est un
recodage de la variable par regroupement de modalités. Comme précédemment, il est
plus judicieux de choisir un nombre impair de classes. En pratique on choisit une
dizaine de classes. Les nombres les plus proches de 10 sont 9 et 11, ce sont donc
ceux qu’on utilise le plus, mais rien n’interdit, en fonction de la finesse de l’échelle
souhaitée d’en choisir d’autres. Dans une distribution normale, 95,5 % des observations
sont à moins de deux écarts-types de la moyenne. C’est donc entre ces deux bornes
(m-2s et m+2s) qu’on situera notre distribution. L’intervalle de variation qu’on souhaite
obtenir est donc de 4. Voici la démarche qu’il faut suivre :
Calculer l’intervalle de classe en note z. Comme précédemment avec les quartiles et
les déciles, le nombre de coupures nécessaires est égal au nombre d’intervalles à
obtenir moins un.
Pour obtenir 11 classes, il nous faut 10 coupures. L’intervalle de classe est donc de
4/10=0,4.
Pour obtenir 9 classes, il nous faut 8 coupures. L’intervalle de classe est donc de
4/8=0,5.
Pour obtenir 7 classes, il nous faut 6 coupures. L’intervalle de classe est donc de
4/6=0,67 (valeur arrondie).
Pour notre exemple des notes au test, nous avons choisi de regrouper les modalités en
11 classes.
Calculer les limites de la classe centrale en note z. Puisque la distribution z est centrée
sur 0, la classe centrale doit également être centrée sur 0. Les limites de cette classe
sont égales à un demi-intervalle en plus ou en moins autour de 0. Pour 11 classes, ces
limites seront 0,4/2=0,2 donc +0,2 et -0,2.
Calculer les limites des autres classes. L’intervalle entre deux limites de classes est
égal à l’intervalle de classe. Pour trouver les autres limites de classe, il suffit en partant
des classes centrales de retrancher ou d’additionner cet intervalle (dans notre
exemple, l’intervalle de classe est de 0,40).
Du côté des valeurs négatives, on retranche un intervalle de classe à la limite de la
classe supérieure. Nous aurons donc -0,20 ; -0,60 ; -1 ; -1,4 ; -1,8
Du côté des valeurs positives, on retranche un intervalle de classe à la limite de la
classe inférieure. Nous aurons 0,20 ; 0,60 ; 1 ; 1,4 ; 1,8.
Ces limites de classes sont bien sûr symétriques puisque nous cherchons une
distribution centrée sur 0.
Consultation de la table de la loi normale. On consulte ensuite la table de distribution
cumulée à gauche de la loi normale réduite (appelée aussi « table de z » ; voir la table
en annexe). Cette table nous donne, pour chaque valeur de z (appelée u dans la table;
rappelons que la lettre u désigne les modalités de la variable), la fréquence cumulée à
gauche de ces notes (p(z<u) , ce qui se lit proportion de notes z inférieures à u) dans
une distribution normale. On lira dans la table la proportion associée à chacune des
limites de classe. Par exemple :
Pour la limite de classe -1,8 on peut lire dans la table 0,036.
Pour la limite de classe -1,4 on peut lire dans la table 0,081 etc.
Calcul des effectifs cumulés correspondants à ces fréquences. Pour chacune des
classes, on calcule l’effectif cumulé correspondant en multipliant la fréquence ( p(z<u) )
par l’effectif total n. Comme les effectifs sont des nombres entiers, on arrondi à l’entier
supérieur ou inférieur le plus proche. Dans notre exemple n=113 on a donc :
Pour la coupure 1 : 0,036*113 = 4,068 soit environ 4.
Pour la coupure 2 : 0,081*113 = 9,153 soit environ 9.
Pour la coupure 3 : 0,159*113 = 17,97 soit environ 18.
Détermination des coupures (limites de classes) en notes au test. La procédure de
détermination des coupures est similaire à celles des déciles. Pour chacune des
coupures, on cherche, dans la distribution cumulée des notes au test, la modalité dont
l’effectif cumulé est le plus proche de l’effectif cumulé qu’on vient de calculer (qn). La
procédure consiste à relever les modalités correspondant à chacun de ces effectifs
cumulées dans le tableau des effectifs cumulés du protocole. Si une modalité
correspond à cet effectif cumulé, on la prend pour coupure (nous l’appellerons n’ et la
modalité suivante sera n »). Sinon on cherche la modalité la plus proche avant (n’) ou
après (n »). Si l’effectif cumulé est à mi chemin entre deux modalités, on s’abstient de
choisir et on prend comme coupure n’+n »/2. Dans le cas où plusieurs modalités
correspondraient à l’effectif cumulé (effectif nul dans plusieurs classes successives), on
prend la première modalité correspondant à l’effectif cherché.
Revenons à notre sujet dont la note est de 25 et cherchons à le situer dans cette
nouvelle distribution. Rappelons que la note z de notre sujet est de : z= xi-m / s = 25 -
32,95 / 9,85 = -0,81. Il appartient à la 4ème classe, celle qui comprend les notes de 23 à
26. On peut voir que seulement 27 % des sujets ont une note inférieure à notre sujet (il
faut lire la colonne p(z<u) dans le tableau). Bien qu’il ne soit qu’à moins d’un écart-type
de la moyenne, nous pouvons donc dire que sa performance n’a pas été très bonne.
On remarquera la proximité des conclusions tirées à partir de la normalisation et du
décilage, puisque précédemment nous avions conclu que 70 % des sujets avaient une
note supérieure à 25. Cependant il n’en va pas ainsi de tous les sujets. Si nous prenons
par exemple un sujet qui a eu 27, dans le décilage, il appartiendrait à la même classe
qu’un sujet qui a eu 25, alors que dans la distribution normalisée, un tel sujet appartient
à la classe 5, pour laquelle nous avons 42 % d’observations inférieures. Cela tient à la
fois au nombre de classe (ici nous en avons 11, alors qu’il n’y en a que 10 dans le
décilage) et au fait que la répartition des observations dans les classes dépend de
l’écart à la moyenne après normalisation.
On peut avoir besoin dans un certain nombre de cas de comparer une distribution
observée à une distribution théorique. C’est le cas par exemple lorsqu’on veut
comparer la répartition des données à celle qu’on obtiendrait dans une distribution
aléatoire. Nous en donnerons un exemple très bref avec la comparaison à une
distribution uniforme ou plate. Ce type de comparaison sera surtout étudié en deuxième
année avec l’inférence statistique dont elle est le prototype. La démarche présentée ici
est cependant un peu différente, dans la mesure où l’on ne cherche pas à situer
l’échantillon dans un ensemble d’échantillons possibles. Nous verrons également en
deuxième année que certains tests inférentiels nécessitent que les données observées
se distribuent à peu près normalement pour être utilisée. Ce sera l’objet de la seconde
partie de ce paragraphe.
Nous avons vu un peu plus haut ce qui caractérise une distribution amodale ou plate. C’est
l’absence de variation des effectifs sur les différentes modalités. C’est typiquement les
distributions qu’on obtiendrait si les sujets répondaient au hasard. Avec la procédure qui suit,
nous allons voir comment évaluer l’écart entre la distribution observée et une distribution au
hasard. Cette procédure peut être appliquée sur des variables nominales ou ordinales. Prenons un
exemple simple pour illustrer cela. Dans une expérience sur le raisonnement, on demande à un
ensemble de 40 sujets de choisir parmi différentes conclusions de l’argument suivant celle qui
convient :
La distribution des sujets sur ces trois réponses possibles est donnée dans le tableau
suivant :
Nous allons maintenant examiner la procédure à mettre en œuvre pour comparer une
distribution à une distribution normale. Nous allons encore une fois recourir à notre
exemple des notes au test pour illustrer cette procédure. Pour des raisons de
commodités, c’est de la distribution en 9 classes, utilisée dans les paragraphes
précédents, que nous allons partir. Cependant la procédure peut être transposée à la
distribution avant regroupement.
La question qu’on se pose est la suivante : Peut-on dire que cette distribution observée
est très différente d’une distribution normale ? Nous vous rappelons cette distribution ci-
dessous.
Le calcul des notes z pour chaque classe est obtenu en faisant la différence entre limite
de classe et la moyenne qu’on divise par l’écart-type. On a ainsi pour la première
classe : z=(10,5-32,91)/10=-2,24 ; pour la deuxième classe : z=(15,5-32,91)/10=-1,74
etc.
Deuxième étape : détermination des fréquences cumulées théoriques. Pour chacune
des classes, on relève, dans la table de la fonction z cumulées à gauche, les
fréquences théoriques correspondant à la note z de la classe. Dans la première classe,
z=-2,24 soit environ -2,2. Dans la table, au regard de cette note z, on lit 0,014. De la
même manière, pour la classe 2, on lit pour z=-1,74 la valeur 0,041. On procède ainsi
pour toutes les classes.
Troisième étape : calcul des effectifs cumulés théoriques. Ils s’obtiennent en multipliant
la note z de la classe par l’effectif total. On a ainsi pour la première classe :
0,014*113=1,582 ; Pour la deuxième classe, on a 0,041*113=4,633 etc.
Quatrième et dernière étape : calcul des effectifs théoriques non cumulés. Pour cela, on
fait la différence entre l’effectif cumulé de la classe et l’effectif cumulé de la classe
précédente.
Pour la classe 6-10, on a donc 1,582-0=1,582 (ici l’effectif cumulé précédent est
égal à 0 puisqu’il n’y a pas de classe précédente).
Pour la classe 11-15, on a 4,633-1,582=3,501.
Pour la classe 16-20, on a 12,091-4,633=7,458 etc.
Pour une présentation plus synthétique, on peut faire une comparaison graphique entre
les deux distributions. On représente pour cela sur un même graphique la distribution
(cumulée ou non) observée et théorique. Nous donnons ici les représentations
graphiques sur les distributions cumulées (graphique de droite) et non cumulées
(graphique de gauche).
Jusqu à maintenant, nous avons vu comment analyser une distribution univariée, pour
la résumer, en comparer des groupes d’observations ou pour la comparer à une
distribution de référence. Nous allons maintenant aborder les procédures d’analyse sur
les distributions comportant deux variables observées. L’objectif d’analyse est assez
différent de ce que nous avons vu jusqu’à maintenant. Sur ce type de protocole, il s’agit
en effet de savoir si les variations observées sur une des variables s’accompagnent ou
non d’une variation régulière sur l’autre variable. Autrement dit, on cherche à savoir si
les variables sont liées. Nous allons examiner dans ce paragraphe l’étude de la liaison
pour les trois types d’échelles de mesure.
Pour Illustrer cette procédure, nous prendrons les données d’une enquête sur la
représentation de la psychologie. Cette enquête a été menée sous la forme d’un
questionnaire. Nous nous intéresserons, ici, à la relation entre la profession des sujets
et la réponse à la question I : « Pourquoi, à votre avis les gens vont-ils voir les
psychologues ? ». Nous donnons ci-dessous la distribution des effectifs observés.
Tableau 5.1 Distribution des réponses en fonction des catégories professionnelles des sujets
On remarquera dans ce tableau que les fréquences marginales en colonne sont toutes
égales. Ce qui est normal, puisque les effectifs marginaux en colonne sont égaux. Le
total général des fréquences est bien sûr égal à 1.
Deuxième étape : calcul des fréquences-produits. À partir du tableau des fréquences,
on va calculer, pour chaque case le produit de ses fréquences marginales (total des
fréquences en ligne et en colonnes). Nous les noterons f’. On aura ainsi f’jk =fj*fk.
Concrètement : f’11=0,250*0,213=0,053 ; f’12=0,250*0,300=0,053. On procède de la
même manière pour les autres cases
On remarquera que les fréquences-produits marginales sont les mêmes que dans le
tableau précédent. On notera aussi que, pour une modalité de réponse particulière, les
fréquences-produits sont les mêmes pour chacune des catégories professionnelles.
Cela tient au fait que les effectifs marginaux en colonne sont les mêmes. En fait le
calcul des fréquences-produits revient à calculer les fréquences qu’on obtiendrait si les
réponses des sujets se répartissaient de la même façon pour chacune des catégories
professionnelles, c’est-à-dire s’il n’y avait aucune liaison entre les variables. Vous
pouvez voir ici que nous sommes en train de généraliser à des distributions croisées la
procédure que nous avons présentée pour la comparaison à une distribution plate. Dit
autrement, s’il n’y a pas de relation entre les variables, la distribution des fréquences
des réponses se ferait au hasard pour les quatre catégories professionnelles. C’est
cette distribution, que nous appellerons distribution théorique, que nous venons de
calculer. Pour la comparer à la distribution observée, il nous faut connaître les effectifs
correspondant à cette distribution des fréquences.
Troisième étape : calcul des effectifs théoriques. Ils s’obtiennent en multipliant les
fréquences-produits par l’effectif total. L’effectif théorique se note n’. On aura donc
n’jk=f’jk*n. Concrètement n’11=f’11*n=0,053*80= 4 ; n’12=f’12*n=0,053*80 etc.
On notera que les effectifs théoriques sont les mêmes pour chacune des catégories
professionnelles, ce qui est normal puisque les effectifs totaux sont les mêmes pour
chacune des colonnes. On notera également que les effectifs marginaux théoriques
sont les mêmes que les effectifs marginaux observés. C’est toujours le cas. En effet,
les effectifs théoriques correspondent à une répartition des observations
proportionnelles aux effectifs marginaux, il est donc normal de retrouver les mêmes
marges.
Quatrième étape : calcul des taux de liaison. Si nos deux variables sont liées, alors les
effectifs observés s’écartent de manière importante des effectifs théoriques. On évalue
ces écarts en faisant simplement la différence entre les effectifs observés et les effectifs
théoriques. Bien sûr ces écarts n’ont de sens que relativement aux effectifs attendus en
cas d’absence de liaison. C’est la raison pour laquelle on pondère ces écarts par les
effectifs théoriques. Concrètement, le taux de liaison s’obtient de la manière suivante :
taux de liaison = njk-n’jk /n’jk.
besoin d’aide, de conseil » et répondent moins souvent « Parce qu’ils se sentent dans
un état anormal », contrairement aux cadres moyens. Chez les ouvriers en revanche,
c’est l’absence de réponses qui prédomine, contrairement aux professions libérales qui
s’abstiennent rarement de répondre et pour qui la consultation d’un psychologue relève
essentiellement de problèmes d’orientation.
Cinquième étape : calcul du carré moyen de contingence Φ2. Nous avons vu à l’étape
précédente que les modalités de réponse sont liées à la catégorie professionnelle des
sujets. La dernière étape consiste à évaluer globalement l’importance de cette liaison.
Cette évaluation se fait à l’aide de la statistique Φ2. Pour chaque case, on calcule le
carré du taux de liaison qu’on multiplie ensuite par la fréquence-produit
correspondante. Concrètement pour la première case (cadres sup./réponse 1), on
aura : -0,7652*0,053= 0,031 ; Pour la seconde case, on aura : 0,6472*0,053= 0,022.
Φ2 est égal au total du tableau. Dans cet exemple, Φ2=0,281. La méthode que nous
venons de présenter a été détaillée afin de vous faire comprendre le lien qui existe
entre la procédure de comparaison à une distribution plate et l’étude de la liaison. En
pratique on ne procède pas tout à fait de cette façon, notamment pour économiser le
travail de calcul. Φ2 étant égal à X2/n, on passe par le calcul de X2 en utilisant la
formule suivante :
2
% (n j * n k ) (
' n jk # *
(obs # théo) 2 (n jk # n' jk ) 2 & n )
" =$
2
=$ =$
théo n' jk (n j * n k )
n
Pour cela, on ne construit qu’un seul tableau, en organisant les cellules de la façon
suivante :
On peut ainsi gagner tout le temps nécessaire à la recopie des tableaux, et avoir sous
les yeux de manière synthétique tous les résultats de l’analyse. L’autre intérêt, c’est
que, pour chacune des cellules du tableau, on enchaîne les calculs. Il est donc inutile
de saisir à nouveau le résultat intermédiaire notamment si on sait se servir de la
mémoire de sa calculette. On peut donc calculer parallèlement le X2 qu’il ne reste plus
qu’à diviser par l’effectif total pour avoir Φ2.
Concrètement, voici comment on s’y prend :
Dans les marges du tableau, on note les effectifs totaux observés et dans le coin en
haut à gauche de chaque cellule, on note les effectifs observés. On calcule ensuite les
contributions au X2 de chaque cellule de la manière suivante :
Exemple : Pour les cadres supérieurs ayant donné la première modalité de réponse :
On calcule l’effectif théorique en multipliant les marges et en la divisant par n soit
17*20/80=4,25. On note ce résultat en haut à droite de la cellule.
On calcule ensuite l’écart brut. Pour ne pas avoir à saisir à nouveau l’effectif
théorique sur la calculette, on soustrait à l’effectif théorique l’effectif observé et on
inverse le signe. Dans notre exemple : 4,25-1=3,25. l’écart brut est donc de –3,25.
On le note en bas à gauche dans la cellule.
Puis on élève au carré l’écart brut . Le résultat est ensuite divisé par l’effectif
théorique. On note le résultat de cette dernière opération dans le coin en bas à
droite.
Si votre calculette dispose d’une touche mémoire (notée généralement « M+ »), on
additionne ce dernier résultat au contenu de la mémoire.
Puis on recommence pour chacune des cellules du tableau. Lorsque vous aurez fini, la
mémoire de votre calculette devrait contenir la somme des contributions au X2, c’est-à-
dire X2. On divise alors ce résultat par n pour obtenir Φ2. Dans notre exemple,
X2=22,468 et donc Φ2=22,468/80=0,281
Avec les variables ordinales, la question de la liaison se pose un peu différemment. Puisque les
modalités des variables sont ordonnées, il s’agit ici de savoir si elle s’ordonnent de la même
manière pour les deux séries. Pour cela, on calcule un indice qu’on appelle le Rho de Spearman
et qu’on note avec la lettre ρ. La formule de calcul est la suivante :
% 6$ d 2 (
" = 1# '' 2
*
*
& n(n #1) )
Dans cette formule, d est la différence de rang entre les deux variables et n, le nombre
d’individus statistiques ou si vous préférez le nombre de couple d’observations puisque
nous travaillons sur deux!variables. Voyons concrètement comment calculer cet indice
à l’aide un petit exemple.
Un professeur travaillant dans une classe préparatoire désire évaluer la fiabilité des
résultats aux concours que passent ses étudiants. Pour cela, il relève le classement de
12 de ses élèves à deux concours. Les données sont rapportées ci-dessous. Il s’agit du
protocole et non d’une distribution.
Nous avons dans ce protocole douze individus statistiques, les étudiants. A chacun
d’eux est associé un classement dans chacun des concours. Nous avons donc deux
variables. Ces variables sont bien ordinales, puisqu’il s’agit d’un classement et non
d’une note. Il ne faut, ici pas se laissez abuser par les étiquettes numériques. A
première vue, les classements aux deux concours ont l’air très différents. Certains
étudiants font mieux au premier concours, tandis que d’autres réussissent mieux le
second. Ces rangs sont cependant ceux des concours et tiennent compte de la place
d’autres étudiants venant d’horizons divers. Nous allons donc procéder au classement
à l’intérieur du groupe d’observations et pour cela calculer le rang de chaque étudiant
au sein du groupe.
Première étape : Calculer les rangs des individus pour chacune des variables. Ce
calcul est assez simple. Il consiste à ordonner les individus sur chacun des variables,
puis à affecter un rang à chacun d’eux (rangs bruts) en les numérotant dans l’ordre.
Pour les ex-aequo, on attribuera la moyenne des rangs bruts. On obtient ainsi le rang
de chacun des individus pour la variable.
% 6$ d 2 ( % (
" = 1# '' * = 1# ' 6 * 78 * = 0,73
n(n 2
#1) * & 12(12 2
#1) )
& )
Le r de Spearman varie entre -1 et 1. La valeur -1 veut dire que les rangs sont liés
négativement, c’est-à-dire que lorsque le rang 1 augmente, le rang 2 diminue. La valeur
1 signifie que!les rangs sont liés positivement. Autrement dit, si le rang 1 augmente, le
rang 2 augmente dans les mêmes proportions. Entre les deux, un r nul signifie que les
rangs ne sont pas liés. Dans notre exemple, on voit que la valeur observée est proche
de 1. On peut donc dire que les deux variables sont liées positivement. Du point de vue
de notre professeur, cela veut dire que le classement des concours est fiable.
Avec le r de Spearman, ce qui est évalué, c’est la covariance des rangs sur les deux
variables. Comme le r de Bravais-Pearson dont il dérive, le ρ de Spearman indique la
part de la variance expliquée par une fonction linéaire. Le signe de cet indice indique le
sens de la liaison. Il s’interprète donc de la même façon. Nous allons approfondir cette
notion avec l’étude de la liaison sur les variables numériques.
Pour illustrer l’analyse de la liaison entre deux variables numériques, nous reprendrons
les données de l’enquête sur les registres d’état civil (paragraphe 2.3 ). La question
qu’on se pose maintenant est : « existe-il une relation entre l’âge de l’époux et l’âge de
l’épouse au moment du mariage ? ».
La question que l’on se pose ici est très différente de celle que nous avons examinée
dans le chapitre précédent. La question de la relation entre les variables demande de
voir le protocole différemment. Ici, les unités statistiques sont les couples et nous avons
deux variables numériques : l’âge de l’époux et l’âge de l’épouse. On considère donc
un protocole bivarié non structuré. L’évaluation de la liaison se fera à l’aide du r de
Bravais-Pearson. Celui-ci est en effet un bon indice pour évaluer la liaison entre les
deux variables numériques. Il permet d’évaluer la proximité des données avec une
liaison linéaire, c’est-à-dire une liaison entre deux variables qui se traduirait
graphiquement par une droite. On peut voir que nous sommes à peu près dans ce cas
de figure puisqu’on peut voir sur le graphique ci-dessous que les données suivent à
peu près une droite.
50
45
40
35
25
20
15
10
0
0 5 10 15 20 25 30 35 40 45 50
Figure 5.1 Graphique de corrélation entre l’âge des époux et l’âge des épouses
# x# y
# (x i " mx )(y i " my ) # xy " n
cov xy = =
n n
" (x i ! m x )( yi ! m y )
cov xy n
r= =
s x *s y (x i ! m x ) 2
2
" " (y ! m )
i y
8
Attention, n représente le nombre d’individus statistiques et non le nombre d’observations. Nous avons 39 couples et
39*2=78 observations puisque nous avons deux variables.
La valeur de cet indice varie de -1 à 1. Il est égal à 1 lorsque les deux séries de
données sont proportionnelles l’une à l’autre, autrement dit lorsque les données
s’alignent sur une droite dont la pente augmente de gauche à droite. Cet indice est
égale à -1 lorsque les deux séries de données sont inversement proportionnelles,
autrement dit lorsqu’elle s’alignent sur une droite qui décroît de gauche à droite. Enfin,
cet indice est égal à 0 en cas d’absence de liaison entre les deux variables. La
ressemblance entre la formule du r et celle de la variance ne vous a sans doute pas
échappé. Aussi ne serez-vous pas étonné d’apprendre qu’on peut simplifier cette
formule de définition pour réduire la complexité des calculs. On a ainsi :
r=
" (x i ! m x )( yi ! my )
=
i i
" (x ! mx ) 2 "( y ! m ) 2 2 2
i i y #%
$ " x ! (" x )
2
i i / n&( #%
'$ " y ! (" y )
i
2
i / n&(
'
L’application de la formule de définition est présentée ci-dessous. C’est celle qui s’applique au
protocole, mais on pourra par analogie avec ce que nous avons fait pour la moyenne et
l’écart-type, transposer ce calcul à partir d’une distribution. L’application de la formule
de définition nécessite le calcul des quantités :
• " (x i ! m x )( yi ! m y )
" (x i ! mx )2
•
" (y i ! my )2
•
La première s’obtient en calculant pour chaque couple et chaque variable l’écart entre
l’observation et la moyenne et en faisant ensuite le produit de ces écarts.
r=
" (x ! m )( y ! m )
i x i y
=
1501
= 0, 978
2 2 1622 * 1452
" (x ! m ) " ( y ! m )
i x i y
Interprétation. La valeur de r est très proche de 1. On peut donc affirmer qu’il existe une
relation linéaire positive entre l’âge de l’époux et l’âge de l’épouse dans un couple. Dit
autrement, les âges des conjoints dans un couple sont proportionnels.
Une autre façon de calculer le r de Bravais-Pearson est de calculer la covariance et de
la diviser par le produit des deux écarts-types. La covariance est la moyenne des
produits des écarts à la moyenne. Formellement, la covariance se définit ainsi9 :
cov xy =
" (x i ! m x )( yi ! m y )
n
" (x i ! m x )( yi ! m y )
cov xy n
r= =
s x *s y (x i ! m x ) 2
2
" " (y ! m )
i y
9
Attention, n représente le nombre d’individus statistiques et non le nombre d’observations. Nous avons 39 couples et
39*2=78 observations puisque nous avons deux variables.
cov xy 38,487
r= = = 0, 978
s x *s y 6,149 *6,102
# x# y 1053*1014
# xy " n
28879 "
39
cov xy n 39 38,487
r= = = = = 0,978
sx sy sx sy 6,449 * 6,102 39,352
FORMULAIRE
Statistiques Formules
Densité Densité = effectif / étendue
Fréquence n(u)
f (u) =
n
Moyenne ! xi T ! nk uk !xn i i
m= = = =
n n n n
Variance 2
2
(" xi )
" (x i ! m)2 "x i !
n
Var = =
n n
Ecart-type Ecart ! type = var
2
Variance corrigée (" xi )
" (x i ! m)
2
" x i2 ! n
Varcorr = = = Var * n / n ! 1
n !1 n !1
Ecart-type corrigé
Ecart ! typecorr = varcorr
Note z xi ! m
zi =
écart ! type
Effectifs théoriques n *n
n' jk = j k
n
Taux de liaison n jk ! n' jk
Taux.de.liaison =
n' jk
Khi-deux 2
% (n j * n k ) (
' n jk # *
(obs # théo) 2 (n jk # n' jk ) 2 & n )
" =$
2
=$ =$
théo n' jk (n j * n k )
n
Carré moyen de (njk " n' jk )2 n' jk $ 2
contingence !2 = # * =
(n' jk )2 n n
!
" x y ! " n"
Coefficient de x y
corrélation r de Bravais-
r=
" (x ! m )( y ! m )
i x i y
=
i i
Pearson 2 2 2 2
" (x ! m ) " ( y ! m )
i x i y #
%
$ " x ! (" x )
2
i i
&#
/ n( %
'$ " y ! (" y )
i
2
i
&
/ n(
'
Coefficient de 6# d 2
corrélation par rang de ! =1 " 3
Spearman n "n
TABLES STATISTIQUES