Вы находитесь на странице: 1из 81

Initiation à l’analyse statistique

des données

Jean-Marc Meunier

Licence de Psychologie 1ère année

Version 18/12/07

Les documents de cours sont diffusés à nos étudiants pour un usage strictement personnel. La
reproduction et la diffusion, partielle ou totale de ces documents, sous quelques formes que ce
soit, même gratuitement, est strictement interdite. Les contrevenants s’exposent à des sanctions
sévères.
INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Sommaire
INTRODUCTION ............................................................................................................................................. 2

CHAPITRE 1 - NOTIONS DE BASE ................................................................................................................. 3

1. Individu, échantillon, population ...................................................................................................... 3

2. Notion de variable et de facteur ........................................................................................................ 3

3. Notion de protocole ............................................................................................................................ 5

4. Objectifs des méthodes statistiques ................................................................................................... 6

CHAPITRE 2 - PROCEDURES APPLICABLES AUX VARIABLES ...................................................................... 8

1. Recodage par regroupement de modalités ....................................................................................... 8

2. Recodage par transformation .......................................................................................................... 12

CHAPITRE 3 - LES PROCEDURES APPLICABLES AUX PROTOCOLES........................................................... 14

1. Résumer numériquement un protocole............................................................................................ 14

2. Comparer des groupes d’observations ........................................................................................... 22

3. Faire une distribution ...................................................................................................................... 23

CHAPITRE 4 - LES PROCEDURES APPLICABLES AUX DISTRIBUTIONS ....................................................... 28

1. Résumer une distribution ................................................................................................................. 28

2. Comparer les distributions de groupes d’observations ................................................................. 43

3. Situer un individu dans une distribution ......................................................................................... 50

4. Comparer une distribution à une distribution de référence .......................................................... 57

CHAPITRE 5 - L’ANALYSE DES PROTOCOLES BIVARIES ............................................................................ 63

1. Etudier la liaison entre variables nominales.................................................................................. 63

2. Etudier la liaison entre variables ordinales ................................................................................... 68

3. Etudier la liaison entre variables numériques ............................................................................... 70

FORMULAIRE................................................................................................................................................ 76

TABLES STATISTIQUES............................................................................................................................. 77

1 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

INTRODUCTION

Les méthodes statistiques constituent un outil important dans l’arsenal méthodologique


du chercheur en psychologie, quel que soit son domaine de spécialisation.
L’identification de régularité ou de différences sur des groupes d’individus nécessite en
effet le recours à des méthodes quantitatives.
Ce cours de première année constitue une initiation à ces méthodes. Il vous permettra
d’acquérir les bases nécessaires pour suivre sans trop de difficulté les cours de
statistiques en deuxième et troisième années.Dans ce premier cours de statistiques,
notre objectif est de vous enseigner les concepts de base et les méthodes de
description des données. Comme nous le verrons au fil de ce cours, les procédures
d’analyse qu’on doit employer dépendent principalement de l’objectif de l’analyse et du
type d’objets qu’on manipule. C’est la raison pour laquelle ce cours a été structuré à
partir des trois grandes classes d’objets qu’on manipule dans les méthodes
statistiques : les variables, les protocoles et les distributions.
Les notions de base seront définies et illustrées dans le premier chapitre. Dans le
chapitre 2, nous aborderons les procédures applicables aux variables, ce sont
notamment les procédures de recodage et de transformations de variables. Dans le
chapitre 3, nous verrons comment résumer un protocole et comparer des groupes
d’observations. Dans le chapitre 4, nous aborderons les procédures applicables aux
distributions. Enfin dans le chapitre 5, nous étudierons les procédures d’analyse des
protocoles bivariés.
Vous trouverez également sur le site du cours des diaporamas qui présentent de
manière plus dynamique les concepts et les procédures. Vous trouverez également des
exercices que nous vous conseillons vivement de réaliser afin de progresser plus
efficacement dans l’étude de ce cours. Enfin, si vous rencontrez des difficultés dans la
compréhension ou l’étude de ce cours, n’hésitez pas à utiliser le forum de l’EC et/ou à
poser vos questions lors des permanences.

IED – Université Paris 8 Version 18/12/07 2


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

CHAPITRE 1 - NOTIONS DE BASE

1. Individu, échantillon, population

Les méthodes statistiques sont applicables à des ensembles d’individus statistiques.


Ces individus sont les objets, au sens large du terme, sur lesquels on prélève de
l’information. Ces individus sont la plupart du temps, en psychologie, des personnes,
mais pas toujours. L’ensemble d’individus étudiés est appelé « échantillon ». Cet
échantillon est un sous-ensemble d’un ensemble plus large appelé « population ».
Pour bien comprendre ces notions, prenons un exemple. L’encart ci-dessous présente
le résumé d’un article de R. Goigoux.
« Les performances en lecture de soixante-seize enfants bénéficiant de deux
méthodologies didactiques contrastées (une approche idéo-visuelle1 pure et une
approche partiellement phonique2) sont comparées au terme d’une étude longitudinale
de vingt-huit mois (de la fin de grande section de maternelle au début du cours
élémentaire 2ème année. Les élèves bénéficiant d’une didactique3 idéo-visuelle
obtiennent des scores nettement inférieurs à ceux des autres élèves lors des
évaluations nationales de CE2 malgré des performances initiales équivalentes en fin de
scolarité maternelle. Leurs vitesses d’identification des mots écrits sont plus lentes que
celles des élèves bénéficiant d’une didactique phonique rénovée. L’absence
d’enseignement du code grapho-phonologique4 apparaît comme un obstacle à
l’apprentissage de la lecture au cycle 2 et elle pénalise les élèves quelque que soit leur
appartenance sociale. »5
Dans cette recherche, les individus statistiques sont les 73 enfants. Ils constituent
ensemble l’échantillon étudié. Bien sûr, l’auteur cherche à tirer des conclusions
généralisables à l’ensemble des enfants, c’est-à-dire à la population, et pas seulement
aux 73 enfants de l’échantillon. Mais avant de pouvoir le faire, il doit mettre en évidence
ce qu’il est possible d’observer sur son échantillon.
Les statistiques descriptives visent à caractériser l’échantillon. L’an prochain vous
verrez avec les statistiques inférentielles comment tirer des conclusions sur la
population à partir de ce qui a été observé sur un échantillon.

2. Notion de variable et de facteur

Pour étudier un échantillon, on relève un certain nombre d’informations sur les individus
qui le composent. Ces informations concernent des dimensions caractérisant les
individus comme l’âge, le sexe, la performance à une tâche. Ces dimensions appelées

1
L’approche idéo-visuelle, encore appelée méthode globale, consiste à aborder la lecture par la reconnaissance de la
forme visuelle des mots.
2
L’approche phonique correspond à ce que d’autres auteurs appellent la méthode analytique. L’apprentissage de la
lecture y est abordé par l’identification des sons composant le mot.
3
Dans ce contexte, didactique signifie « méthode d’enseignement ».
4
Le code grapho-phonologique est la correspondance entre l’écriture et la prononciation des syllabes ou des mots.
5
R. Goigoux (2000) Apprendre à lire à l'école : les limites d'une approche idéovisuelle. Psychologie française, N°45-
3, 2000,233-243.

3 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

« variables ». Les différentes valeurs que peuvent prendre ces variables sont appelées
modalités. Une variable a forcément plus d’une modalité (sinon, la dimension étudiée
ne varie pas et constitue une constante). Par ailleurs, une variable est constituée de
modalités exclusives (aucun individu ne peut être associé à plus d’une modalité) et
exhaustives (tout individu doit être associé à au moins une modalité). Une variable est
caractérisée par son échelle de mesure. On distingue trois échelles de mesure :
nominale, ordinale ou numérique selon les relations que les modalités entretiennent
entre elles. Une variable peut également être caractérisée par son statut. On fera alors
la distinction entre des variables dépendantes et des variables indépendantes. Les
variables indépendantes sont également appelées « facteur ». Nous reviendrons dans
le point suivant sur la notion de facteur.
Voyons d’abord la notion d’échelle de mesure. Elle est déterminée par les relations
entre les modalités. Celles-ci peuvent être ou non ordonnées et séparées ou non par
un intervalle constant. Il faut souligner ici que la relation d’intervalle implique la relation
d’ordre. Trois cas de figure sont alors possibles :
Une variable nominale est caractérisée par le fait que ses modalités n’entretiennent pas
de relation d’ordre. Le sexe, la profession, le sport pratiqué sont des variables
nominales puisqu’il n’est pas possible d’ordonner les différentes valeurs.
Une variable ordinale est caractérisée par des modalités ordonnées entre elles. Cet
ordre doit être total, c’est-à-dire que toutes les modalités doivent être ordonnées. Une
échelle comme « d’accord, assez d’accord, pas d’accord » est une échelle ordinale.
Mais si on ajoute la modalité « non réponse », alors l’échelle n’est plus ordinale puisque
cette dernière modalité n’entretient pas de relation d’ordre avec les autres.
Une variable numérique a des modalités ordonnées et un intervalle constant entre
modalités, c’est-à-dire que la différence entre deux modalités consécutives est toujours
la même. Le temps de réponses, le nombre de réponses correctes à un questionnaire
sont des exemples de variables numériques. On remarquera que le premier exemple,
celui des temps de réponse admet dans les intervalles des sous-unités et que les
décimales ont un sens, on parlera alors de variables continues. Dans le second
exemple, les modalités ne peuvent être que des entiers, on parlera alors de variables
discrètes. Cette distinction n’a pas d’impact sur le choix des procédures, mais elle en a
un du point de vue de l’interprétation des résultats. Nous y reviendrons ultérieurement.
Reprenons notre exemple, et voyons d’un peu plus près les variables étudiées dans la
recherche de Roland Goigoux Dans cette étude, les enfants sont caractérisés par la
méthodologie didactique suivie (idéo-visuelle ou partiellement phonique), par leur
performance initiale, leur score à l’évaluation de CE2 et leur vitesse d’identification des
mots écrits. Nous avons donc quatre variables :
La méthodologie didactique. Cette variable a deux modalités non ordonnées. Il s’agit
donc d’une variable nominale.
La performance initiale. Le résumé ne contient aucune précision sur l’échelle de
mesure utilisée. Nous ne l’avons volontairement pas ajoutée pour profiter de l’occasion
pour pointer le fait que l’échelle de mesure est souvent un choix du chercheur. Si
classiquement, l’évaluation scolaire se fait à l’aide d’une note (et donc d’une variable
numérique), la performance peut également être caractérisée avec des modalités
ordonnées comme « très bien », « bien», « moyen », « passable » et « insuffisant ».
On a alors une échelle ordinale puisqu’on ne peut pas parler d’intervalle constant entre
les modalités. On peut également caractériser cette performance par une échelle
nominale, en regardant seulement si l’enfant a ou non réussi le test.

IED – Université Paris 8 Version 18/12/07 4


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

L’évaluation de CE2. Cette évaluation donne lieu au calcul d’un taux de réussite pour
chacun des domaines d’acquisition scolaire. Il s’agit donc d’une variable numérique.
La vitesse d’identification des mots écrits. C’est le temps moyen mis par l’enfant pour
identifier un mot écrit. Il s’agit donc d’une variable numérique.
Les facteurs constituent une sorte de variable. Les facteurs sont les variables dont les
modalités vont servir à déterminer les groupes d’observations qu’on veut comparer. Les
facteurs sont également appelés « variables indépendantes ». Ainsi, dans l’exemple de
Goigoux, la méthode didactique constitue un facteur. Elle sert à comparer des groupes
d’individus. Les facteurs peuvent également servir à comparer des individus à eux-
mêmes en faisant varier le moment ou les conditions de la mesure. Ainsi, si on fait
passer le même test aux mêmes individus à six mois d’intervalle, la variable « moment
de passation » constitue un facteur, puisqu’elle permet de comparer deux groupes
d’observations.
Qui dit variable indépendante, dit variable dépendante. Le premier type de variable
implique forcément le second, sinon cette qualification ne sert à rien. Les variables
dépendantes sont les indicateurs, c’est-à-dire les dimensions dont on suppose qu’elles
reflètent les processus étudiés. Ces indicateurs peuvent être comportementaux (ce que
fait ou dit le sujet), chronométriques (temps de réaction, temps de réponse etc.) ou
électrophysiologiques (EEG, RED etc. ). Dans tous les cas, on cherche de quoi
dépendent les variations de ces indicateurs. Pour cela, on contrôle un certain nombre
de facteurs pour comparer les fluctuations de la variable dépendante en fonction des
valeurs de la variable indépendante.
Dans l’exemple précédent, l’auteur cherche à comprendre comment se fait l’acquisition
de la lecture. Il définit donc un certain nombre d’indicateurs de cette acquisition (la
performance initiale, l’évaluation de CE2, la vitesse d’identification des mots écrits) qui
vont constituer les variables dépendantes. Il fait l’hypothèse que l’acquisition de la
lecture dépend de la méthode d’enseignement (variable indépendante). Pour le vérifier,
il compare les valeurs observées sur les variables dépendantes pour chacune des
modalités de la variable indépendante.
Il arrive parfois qu’on n’ait pas de facteur dans un recueil de données. C’est le cas
lorsqu’on cherche simplement à caractériser une population ou à situer un individu
dans une population de référence, dans l’étalonnage d’un test d’intelligence par
exemple. Dans ce cas, la notion de variable dépendante n’a plus de sens. On parle
alors simplement de variable observée.

3. Notion de protocole

Nous avons vu jusqu’à maintenant qu’on s’intéressait à un certain nombre de


dimensions (les variables) concernant des individus. Le recueil de données consiste à
associer à chaque individu une modalité de chacune des variables. Cette mise en
relation entre un individu et une modalité d’une variable constitue ce qu’on appelle une
mesure. Le résultat de la mesure est une observation. L’ensemble des observations est
appelé « protocole ». Concrètement un protocole est un tableau à double entrée
comprenant une ligne par individu et une colonne par variable. A l’intersection des
lignes et des colonnes, on trouve les modalités des variables associées aux individus.
Pour illustrer cela, reprenons notre exemple. Nous avons dans cette recherche 73
individus et quatre variables. Le protocole, pour cette recherche, peut donc être
représenté par le tableau suivant :

5 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Tableau 1.1 Exemple de protocole. On trouve en ligne, les


individus et en colonne, les variables.

Un protocole peut éventuellement être structuré. Pour pouvoir parler de structure de


protocole, il est nécessaire que le protocole comprenne au moins un facteur. Nous
nous limiterons dans ce cours aux structures de protocole à un facteur. Le type de
structure du protocole dépend de la relation entre l’ensemble de sujets et les modalités
du facteur.

3.1 L’emboîtement

Une première façon de structurer un protocole est d’associer chacun des sujets à une
et une seule modalité du facteur. On parle alors d’emboîtement ou de groupes
indépendants. Concrètement, cela revient à constituer des groupes de sujets, en
fonction soit de leurs caractéristiques, soit des tâches qu’on leur donne à réaliser.
Formellement, un emboîtement s’écrit S<G> où S désigne les sujets et G, les groupes.
Les chevrons expriment l’emboîtement. Cette écriture formelle se lit « S emboîté dans
G » Dans l’exemple de la recherche de Goigoux, les méthodes didactiques constituent
un facteur emboîtant, dans la mesure où les sujets n’ont suivi qu’une et une seule
méthode didactique.

3.2 Le croisement

Une seconde façon de structurer un protocole consiste à associer chacun des sujets à
toutes les modalités du facteur. On parle alors de croisement ou de groupes appariés.
Concrètement, cela revient à répéter la mesure dans différentes conditions ou à
différents moments. Formellement, un croisement s’écrit S*T où S désigne les sujets et
T le facteur croisant. L’étoile entre les deux exprime la relation de croisement. Cette
écriture formelle se lit « S croix T ». L’exemple typique de croisement est la passation
d’un test avant et après une séquence d’apprentissage, pour mesurer l’impact de
l’apprentissage. Dans l’exemple de Goigoux, on ne peut pas parler de croisement dans
la mesure où la variable dépendante n’est à priori pas la même en maternelle et en
CE2.

4. Objectifs des méthodes statistiques

Le choix des procédures statistiques dépend de l’objectif de l’analyse et du type


d’objets sur lesquels portent l’analyse. Ce cours est structuré autour de ces objets de

IED – Université Paris 8 Version 18/12/07 6


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

façon à permettre à l’étudiant de se repérer dans le choix des procédures à mettre en


œuvre.
Sur les variables, les seules procédures applicables consistent à recoder la variable
soit en regroupant les modalités, soient en appliquant une transformation
mathématique à la variable. Le choix de la procédure dépend alors seulement de
l’échelle de mesure de la variable. Ce sera l’objet du Chapitre 2 - du cours
Sur les protocoles, les procédures applicables ont pour objectif principal de résumer le
protocole en construisant une distribution, en faisant des résumés graphiques ou
numériques. Le choix de la procédure à appliquer dépend alors du type de protocole et
de l’échelle de mesure de la variable. Nous ne traiterons dans ce cours que des
protocoles univariés (une seule variable observée) et des protocoles bivariés (deux
variables observées). Ces procédures seront abordées au Chapitre 3 -
Sur les distributions, les objectifs d’analyse sont un peu plus nombreux. On peut ainsi
résumer une distribution, transformer une distribution en la cumulant et comparer des
groupes d’observations. On peut également situer un individu dans une distribution et
comparer une distribution à une distribution de référence. Ces méthodes seront traitées
au Chapitre 4 -
Sur les protocoles bivariés, on peut étudier la liaison entre deux variables. Il existe
plusieurs méthodes, dont le choix dépend essentiellement de l’échelle de mesure des
variables. Ces méthodes seront étudiées dans le Chapitre 5 - .

7 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

CHAPITRE 2 - PROCEDURES APPLICABLES AUX


VARIABLES

Les seules procédures applicables aux variables consistent à recoder les modalités.
Cette procédure est utile lorsque sous leur forme originale, les données ne sont pas
utilisables ou lorsque le nombre d’observations n’est pas au moins égal à 5 fois le
nombre de modalités de la variable. Cette limite de 5 fois plus d’observations que de
modalités est purement conventionnelle. Elle n’a donc pas de caractère impératif et
peut être modifiée à loisir en fonction des objectifs de l’analyse. On distingue deux
types de recodage. Le premier consiste à regrouper les modalités. Dans ce cas, le
recodage n’est pas réversible. La façon de regrouper les modalités dépend de l’échelle
de mesure. Le second type de recodage consiste à appliquer une transformation
mathématique à la variable numérique, ce qui n’est possible que pour les variables
numériques. Dans ce cas, la transformation est réversible puisqu’il suffit d’appliquer la
transformation inverse pour retrouver la variable originale.

1. Recodage par regroupement de modalités

On peut recoder une variable par regroupement de modalités. Pour cela, Il faut veiller à
constituer des groupements exhaustifs, c’est-à-dire prenant en compte toutes les
modalités de la variable d‘origine. Les groupements constitués doivent également être
exclusifs, c’est-à-dire permettant de classer un individu sans ambiguïté.

1.1 Recoder une variable nominale

Dans le cas des variables nominales, c’est la signification des modalités qui guidera les
regroupements de modalités. Typiquement, en psychologie, nous devons faire ce type
de recodage lorsque dans un questionnaire des questions ouvertes ont été posées.
Imaginez par exemple qu’on ait demandé à des étudiants souhaitant s’inscrire en
psychologie leur motivation. Intuitivement, vous vous doutez bien que les réponses vont
être extrêmement diverses. Un dénombrement strict des réponses peut même conduire
à observer des réponses différentes pour chacun des étudiants. Il sera donc difficile à
partir d’un tel protocole d’identifier les motivations principales des étudiants.
Cependant, même si elles ne sont pas strictement identiques, certaines réponses
expriment des motivations proches. On va donc les regrouper pour faire ressortir les
tendances générales.
Voici à titre d’exemple, une adaptation très simplifiée, inspiré d’une recherche menée
par Gosling (1992) sur la perception des causes de réussite ou d’échec des élèves par
les enseignants. Nous donnons dans le Tableau 2.1 des exemples de réponses comme
ceux qu’a pu observer Gosling. On peut y distinguer deux catégories de réponses
celles qui correspondent à l’environnement scolaire et celles qui concernent les qualités
de l’élève. En regroupant les réponses dans ces deux catégories, on observe tout de
suite que les causes liées à l’environnement scolaire sont citées plus fréquemment que
les causes liées aux qualités de l’élève.

IED – Université Paris 8 Version 18/12/07 8


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 2.1 Exemple de réponses à la question sur les causes de la réussite

A la question sur les causes de l’échec, voici le type de réponses qu’on peut observer.
En effectuant le même recodage de la variable, on peut aisément observer que les
causes de l’échec scolaire sont davantage attribuées à l’élève.

Tableau 2.2 Exemples de réponses à la question sur les causes de l’échec

Cette petite analyse très simplifiée nous permet de voir que les enseignants s’attribuent
plus fréquemment les causes de la réussite et attribuent plus facilement les causes de
l’échec à l’élève et à son environnement. Ce phénomène est connu en psychologie
sociale sous le nom de biais de complaisance. Pour plus de détails, vous pouvez
consulter l’excellente synthèse qu’en fait S. Cicotti dans son ouvrage6.
On remarquera dans le regroupement des modalités que nous avons opéré qu’aucune
modalité de réponses n’est laissée de côté. Notre regroupement est donc bien
exhaustif. On remarquera également que les modalités de réponses originales ne
peuvent être associées qu’à une seule modalité après regroupement. Nous avons donc
bien respecté la contrainte d’exclusivité.

1.2 Recoder une variable ordinale

Le recodage sémantique est applicable à n’importe quel type de variable. On comprend


en effet assez aisément que des modalités peuvent toujours être regroupé du point de
vue du sens. Si on ne tient compte que de ce seul critère, le résultat du recodage est
une variable nominale. Ainsi, si on demande à des sujets de faire un jugement sur une
échelle en sept points concernant leur accord avec une proposition, on peut recoder les
modalités de réponses en distinguant ceux qui sont d’accord et ceux qui ne le sont

6
Cicotti S. (2004) 150 petites expériences de psychologie pour mieux comprendre nos semblables, Donod, Paris.

9 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

pas. L’échelle de mesure d’origine est bien une échelle ordinale, malgré les modalités
numériques, dans la mesure où la dimension mesurée n’est pas quantifiable. L’échelle
dichotomique, c’est-à-dire à deux modalités, qu’on obtient avec le recodage est bien
une échelle de mesure nominale puisque sur deux modalités, on ne peut pas vérifier un
ordre total.
Pour conserver le caractère ordinal de la variable, il faut tenir compte de l’ordre des
modalités et de leur proximité dans l’échelle originale. Le regroupement se fera donc
par proximité. Il s’agit en fait d’un cas particulier de regroupement sémantique, puisque
les modalités proches dans l’échelle de mesure sont proches du point de vue du sens.
Comme précédemment, on veillera à constituer des regroupements permettant une
répartition exhaustive et exclusive des modalités de la variable d’origine. Pour
reprendre notre exemple d’échelle en 7 points, le regroupement des modalités pourrait
être le suivant :

Tableau 2.3 Recodage par regroupement d’une variable ordinale

Les modalités après regroupement sont bien exhaustives et exclusives, et la relation


d’ordre entre les modalités est bien respectée. Le résultat d’un tel recodage est donc
bien une nouvelle échelle de mesure ordinale. On notera que le nombre de modalités
de la variable d’origine associé à la nouvelle variable n’a pas besoin d’être le même
(comme précédemment avec le regroupement sémantique). Il suffit que l’ordre des
modalités soit respecté pour obtenir une variable ordinale.

1.3 Recoder une variable numérique

Sur une variable numérique, on peut effectuer un simple regroupement sémantique des
modalités. Cela revient à ne pas tenir compte de l’ordre et de l’intervalle entre les
modalités. Le résultat d’un tel recodage est une variable nominale. Imaginons pour
l’exemple qu’on ait fait passé à un ensemble de sujets un test de raisonnement
constitué de 20 déductions dont il faut trouver la conclusion logique. On relève pour
chacun des sujets le nombre de conclusions conformes à la logique formelle. C’est
notre variable de départ. Son échelle de mesure est numérique. Une première façon de
recoder la variable est de considérer que les sujets répondent logiquement si le nombre
de réponses conformes est supérieur ou égal à 10 et de considérer qu’ils ne répondent
pas logiquement si ce même nombre est inférieur à 10. Dans ce cas, le résultat du
regroupement est une variable nominale. On peut également considérer des catégories
de réponses ordonnées comme dans le tableau ci-dessous :

IED – Université Paris 8 Version 18/12/07 10


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 2.4 Recodage par regroupement ordinal d’une variable numérique

On notera que le nombre de modalités de la variable d’origine associées aux modalités


de la variable après recodage n’est pas constant. Dans ce cas, la variable obtenue
après regroupement est une variable ordinale.
Dans le cas d’une variable d’intervalle ou numérique, on regroupe également les
modalités voisines. Nous sommes donc dans un cas particulier de regroupement par
proximité. Cependant, à la différence des variables ordinales, pour conserver le
caractère numérique de la variable après recodage, il faut que le nombre de modalités
associées à chaque nouvelle modalité de la variable après recodage soit le même.
Dans ce cas, les nouvelles modalités ainsi constituées sont appelées des classes. On
prendra pour nouvelle valeur de la classe la valeur centrale de la classe, c’est-à-dire la
moyenne des valeurs appartenant à la classe. Voici à partir d’un exemple, la façon dont
il faut procéder.
Dans une expérience, on observe, pour 40 sujets, des temps de réponse à une tâche
de détection qui vont de 21 à 55 centièmes de seconde. Avec un intervalle de variation
[21 ;55] nous avons 55-21+1 = 35 modalités, on voit que les données risquent d’être
trop dispersée pour observer une tendance générale. Il est donc nécessaire de
procéder à un regroupement des modalités. La variable étant numérique, il est
nécessaire de conserver l’ordre entre les modalités et un intervalle constant entre les
classes que nous allons constituer.

Détermination du nombre de classes souhaité et de l’intervalle de chaque classe: Nous


avons 40 observations, il nous faut donc au maximum 40/5=8 classes. On préférera un
nombre impair de classes de façon à avoir une classe centrale. L’intervalle de variation
étant de 35 modalités, on optera pour 7 classes parce qu’on a ainsi un nombre entier
de modalités dans chaque classe (35/7=5 modalités dans chaque classe) et l’on évite
d’étendre l’intervalle de variation.
Détermination de la valeur centrale de la classe centrale. Cette valeur va nous servir de
point de départ pour répartir les modalités de la variable dans les nouvelles classes.
Cette valeur centrale est égale à la moitié de l’intervalle de variation plus la valeur
minimale. On a donc ((55-21)/2)+21=38.

Détermination des valeurs appartenant à chaque classe. Nos classes contiennent 5


modalités, soit deux en dessous de la valeur centrale de chaque classe et deux au-
dessus. Pour la classe centrale, on a donc 38-2=36 et 38+2=40. La classe centrale va
donc de 36 à 40. Pour la classe précédant la classe centrale, celle-ci s’étend de 36-
5=31 à 40-5=35. Cette classe va donc de 31 à 35. Pour la classe suivant la classe
centrale, le raisonnement est le même, mais on additionne au lieu de soustraire. Elle
s’étend donc de 36+5=41 à 40+5=45. Cette classe va donc de 41 à 45. On procède
ainsi pour toutes les autres classes.

11 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

On calcule ensuite les valeurs centrales de chacune des classes en faisant la moyenne
des valeurs de chaque classe et les limites de classes en faisant la somme des valeurs
centrales divisée par deux. Ainsi la limite entre la classe 21-25 et la classe 26-30 est de
(23+28)/2= 25,5. Le résultat de ce recodage est synthétisé dans le tableau suivant.

Tableau 2.5 Regroupement d’une variable numérique en classes

Les limites de classes sont utiles surtout pour les variables continues (qui ne sont pas
constituées seulement de valeurs entières) pour pouvoir décider à quelle classe
appartient une observation. Chaque observation est ensuite remplacée par la valeur
centrale de la classe à laquelle elle appartient. On remarquera que ce regroupement
conserve l’ordre et un intervalle constant entre les modalités. L’échelle de cette
nouvelle variable est donc bien numérique.

2. Recodage par transformation

On peut également recoder une variable numérique par transformation. Cette


transformation n’est rien d’autre que l’application d’une fonction mathématique aux
données. Dans ce dernier cas, le recodage est réversible puisqu’on peut toujours
appliquer la transformation inverse pour retrouver la variable d’origine.
Ce type de recodage est surtout utilisé pour opérer un changement d’unités de mesure.
Ce peut-être par exemple pour exprimer en dixièmes de seconde des temps de
réponses mesureés en seconde, de façon à rendre les données comparables à un
autre ensemble de données ou pour les rendre plus simplement compréhensibles. Pour
reprendre l’exemple précédent sur le relevé des temps de réponses, une transformation
simple pourrait consister à les transformer en millisecondes, unité de temps plus
couramment utilisée dans les publications en psychologie, en multipliant les temps de
réponses par 10.
On peut également recoder par transformation une variable numérique pour rendre plus
symétrique une distribution. C’est le cas notamment des temps de réponses pour
lesquels on observe fréquemment un effet plancher, c’est-à-dire une concentration des
observations sur les valeurs basses et un étalement des observations sur les valeurs
hautes. La dissymétrie de la répartition des observations sur l’échelle de mesure rend
difficile l’application de certaines procédures d’analyse statistique comme le calcul du
coefficient de corrélation de Bravais-Pearson que nous verrons plus loin. Plusieurs
méthodes existent pour rendre les distributions plus symétriques comme calculer la
racine carré des modalités ou leur logarithme à base 10. Nous ne nous étendrons pas
sur ces transformations mathématiques facilement réalisables à l’aide d’un tableur et
qui ne pose pas de difficulté particulière d’un point de vue conceptuel.

IED – Université Paris 8 Version 18/12/07 12


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Une autre façon de symétriser la distribution sur une variable consiste à la normaliser.
Cette procédure correspond à un type particulier de transformation de variable. Elle
consiste à transformer une variable en calculant pour chaque modalité l’écart à la
moyenne de l’échantillon pondérée par l’écart-type de l’échantillon. Cette procédure est
particulièrement utile lorsqu’on veut situer un individu dans une distribution ou lorsqu’il
est nécessaire de modifier la forme de la distribution. Cette transformation faisant appel
à des procédures qui seront traitées plus loin dans les procédures applicables à des
distributions, elle ne sera pas développée dans ce chapitre.

13 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

CHAPITRE 3 - LES PROCEDURES APPLICABLES


AUX PROTOCOLES

1. Résumer numériquement un protocole

Les résumés numériques sont des indices calculés à partir du protocole. Ces indices
sont de deux types. Les premiers visent à estimer la tendance générale dans le
protocole, ce sont les indices de position. Les seconds servent à estimer la variabilité
des données dans le protocole. Ce sont les indices de dispersion. Certains de ces
indices peuvent être calculés directement sur le protocole ou sur une distribution,
d’autres nécessitent de passer obligatoirement par une distribution. C’est le cas
notamment du mode et du mode secondaire. Pour des raisons de cohérence de la
structure de ce cours, nous ne présenterons dans ce chapitre que les procédures
applicables aux protocoles. Nous reverrons plus loin les procédures applicables aux
distributions pour le calcul de ces indices.

1.1 Indices de position

On ne peut pas calculer d’indice de position pour les variables nominales sans faire une
distribution. Nous le verrons en effet un peu plus loin, les indices de position
applicables à cette échelle de mesure supposent un dénombrement des observations
pour chaque modalité de la variable. Sur les protocoles, il nous reste donc les indices
de position applicables aux échelles ordinales et numériques.

1.1.1 Calculer la médiane

Si les modalités de la variable peuvent être ordonnées, ce qui est le cas des variables
ordinales et numériques, la répartition générale sera donnée par la médiane, c’est-à-
dire la modalité pour laquelle 50% des observations sont inférieures et 50% des
observations sont supérieures à cet échelon. Concrètement, une fois les observations
ordonnées, cela revient à se demander où se trouve le milieu du protocole.

Tableau 3.1 Illustration du calcul de la médiane

IED – Université Paris 8 Version 18/12/07 14


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Dans notre exemple, nous avons 9 individus. La moitié des individus est donc de 9/2=
4,5. Pour ne couper personne en deux, nous considérerons le 5ème sujet dans notre
protocole. C’est lui qui partage notre groupe d’observations en deux moitiés. On
l’appelle l’individu médian. La médiane est alors la modalité de ce 5ème individu, soit 5.
Cet indice nous indique que la moitié des sujets a une observation inférieure ou égale à
5 et par conséquent la moitié a une observation supérieure ou égale à 5. Imaginons
que ces observations correspondent aux résultats d’une expérience où on demande
aux sujets d’apprendre une liste de 12 mots. Cette médiane nous indiquerait que la
moitié des sujets ont rappelé moins de la moitié des mots.
Une autre façon de voir la médiane consiste à considérer un protocole ordonné et à
supprimer les observations extrêmes (la plus petite et la plus grande). En répétant
l’opération autant de fois que possible, il ne restera, à la fin, plus qu’une observation. La
modalité correspondant à cette observation est la médiane. Autrement dit, la médiane
peut être vue comme la modalité observée sur le protocole en faisant abstraction des
modalités extrêmes. La médiane constitue donc la tendance centrale de notre
protocole.
Le cas d’un nombre impair d’individus est le plus simple, puisqu’il y a toujours un
individu qui sépare le protocole en deux partie égales. Dans le cas d’un nombre pair
d’individus, ce sont deux sujets qui partagent le protocole en deux moitiés. Si les
observations correspondent à la même modalité de la variable, cela n’a pas
d’importance, Ainsi, dans le Tableau 3.1, si on ne considère que les 8 premiers sujets
du protocole ordonné, ces sont les individus S2 et S9 qui se trouvent au milieu. Ils ont
tous les deux 5. La médiane est donc de 5. Mais si dans le même protocole ordonné on
considère les 8 derniers individus, les individus médians sont les sujets S9 et S6 qui ont
respectivement 5 et 7 pour observation. Dans ce cas, plusieurs options sont possibles :
Certains auteurs préconisent de retenir par convention la modalité du sujet
correspondant à (n/2)+1. Dans notre exemple des 8 dernières observations du
protocole du Tableau 3.1, la médiane serait de 7. Dans ce cas, on est assuré d’avoir
50% des observations inférieures ou égales à la médiane, mais ce n’est pas le cas pour
les modalités supérieures.
On peut opter, comme le font bons nombres de logiciels de statistiques, pour la
moyenne des observations des individus médians. Dans ce cas, on aura (5+7)/2=6.
L’avantage de cette méthode est de fournir un résultat numérique quel que soit le cas
de figure, mais elle n’est applicable qu’aux variables numériques (alors que la médiane
doit pouvoir être aussi calculée pour des variables ordinales) et pose le problème des
cas ou la moyenne aboutit à une valeur décimale qui n’a peut-être pas de sens pour
certaine variable (par exemple le nombre d’enfants dans une famille) et ne correspond
plus à aucune modalité observée (comme dans notre exemple).
La dernière option, à laquelle va notre préférence, consiste à assumer l’imprécision de
la médiane et à parler de coupure médiane entre 5 et 7 dans ce cas.

1.1.2 Calculer une moyenne sur un protocole

Le calcul de la moyenne est applicable uniquement sur les protocoles numériques. Il


faut, en effet que les modalités respectent la condition d’intervalle pour que cet indice
ait un sens. La moyenne dont il est question ici est la même que celle que vous
calculez sur vos notes scolaires, c’est-à-dire la moyenne arithmétique. Ainsi lorsque
vous obtenez les notes 12, 13 et 8, pour faire la moyenne, vous additionnez ces trois
notes et vous divisez par le nombre de notes. Dans cet exemple, la moyenne est donc
de (12+13+8)/3=11. Il s’agit là d’une moyenne individuelle. En psychologie, les

15 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

moyennes que nous calculons portent sur des ensembles d’observations concernant
souvent sur plusieurs sujets, mais la procédure est la même : Additionner toutes les
observations et diviser par le nombre d’observations. Prenons un exemple simple pour
illustrer la méthode et surtout poser le formalisme nécessaire à l’approfondissement de
cette procédure d’analyse. Il s’agit, ici, des temps, en minutes, mis par un échantillon
de 20 sujets pour résoudre un problème.

Tableau 3.2 Protocole des notes au test

Nous avons vu que le protocole se présente souvent sous la forme d’un tableau qui fait
correspondre à un ensemble d’individus (notés i) un ensemble d’observations (notées
x). Chaque observation relative à un sujet est notée xi (le i renvoyant à l’individu
statistique). La somme des observations se notera donc Σxi. La moyenne sera m=Σxi/n.
Concrètement cela veut dire qu’on fait la somme de la colonne des observations et
qu’on la divise par le nombre des observations. Dans notre exemple, on aura :

m=
"x i
=
(3 + 5 + 5 + ...+ 6 + 6 + 4 + 3)
n 20
101
m= = 5,5
20

Si dans le contexte scolaire, l’interprétation de la moyenne semble assez triviale


(encore qu’il faudrait y réfléchir dans certains cas), dans le contexte de l’analyse des
données en ! psychologie, quel sens lui donner ? Il faut tout d’abord dire que la
moyenne, contrairement à la médiane, n’est pas forcément une modalité observée sur
l’échantillon ; En additionnant les observations, pour ensuite les diviser par le nombre
d’observations, on procède en fait à une équirépartition des points obtenus par les
sujets. On calcule en fait une observation théorique qui serait celle que les sujets
auraient obtenue, à total constant, si tous les sujets avaient eu la même observation.
Autrement dit, la moyenne représente dans notre exemple le temps que les sujets

IED – Université Paris 8 Version 18/12/07 16


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

auraient mis s’il avait tous mis autant de temps à résoudre le problème. On voit que le
sens à donner à la moyenne est très différent de celui de la médiane.
Une autre différence entre ces deux indices est leur sensibilité aux valeurs extrêmes.
La médiane n’y est pas sensible, la moyenne en revanche y est très sensible. Quelques
notes extrêmes, élevées ou basses peuvent tirer la moyenne d’un côté ou de l’autre de
l’échelle de mesure. Nous en reparlerons en examinant le calcul de ces indices sur les
distributions (voir chapitre 4, paragraphe 1.3).

1.2 Indices de dispersion

Les indices que nous venons de voir nous informent sur la tendance centrale du
protocole. Cependant les données peuvent être plus ou moins diverses. Imaginons
deux cas extrêmes pour illustrer cette idée. Dans un premier échantillon, les individus
ont tous obtenu la note de 5 sur 10 à un test. Dans un second échantillon, la moitié des
sujets a eu 0 et l’autre moitié a eu 10. Si ces deux protocoles comportent un nombre
pair d’individus, nous sommes en présence de deux échantillons de même moyenne,
en l’occurrence, m=5. Les résumer par ce seul et même indice n’est pas très
satisfaisant du point de vue de la description des données. Il faut dans notre résumer
indiquer également la variabilité des données. C’est ce qu’on appelle la dispersion.
Sur un protocole, on peut calculer directement deux indices de dispersions : les
quartiles qui nous indiquerons la dispersion autour de la médiane et l’écart-type qui
nous donnera la dispersion autour de la moyenne.

1.2.1 Calculer les quartiles

Comme pour la médiane, ces indices se calculent aussi bien sur une variable ordinale
que sur une variable numérique. La seule contrainte à l’emploi de ce résumé est d’avoir
une variable dont les modalités sont ordonnées. Avec la médiane, nous avons partagé
le protocole ordonné en deux parties égales. Pour évaluer la dispersion autour de cette
médiane, nous allons à nouveau partager les deux moitiés autour de la médiane en
deux parties égales. Nous allons donc obtenir quatre partitions comportant chacune
25% des observations. La procédure est en tout point similaire à celle qui permet la
détermination de la médiane.

17 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Tableau 3.3 Détermination des quartiles à partir du protocole.

Dans un premier temps, le protocole est ordonné sur les observations. Puis on
cherchera l’individu correspondant à ¼ des observations. Dans notre exemple, nous
avons 20 individus. C’est donc le 20/4=5ème individu. Sa modalité correspond au
premier quartile (Q1). Dans l’exemple, Q1=3. On cherchera ensuite le deuxième
quartile, c’est-à-dire la médiane comme précédemment. Il correspond au 20/2=10ème
individu. Sa modalité est donc la médiane ou Q2. Le nombre d’individus étant pair, il
faudrait, en toute rigueur, situer la médiane entre le 10ème et le 11ème individu, mais
puisqu’ils ont la même observation, on peut retenir sans problème la modalité 5 comme
médiane. Le troisième quartile (Q3) se détermine de la même manière en cherchant
l’individu qui correspond aux ¾ de l’échantillon, soit le 20*3/4=15ème individu. La
modalité correspondant à Q3 est donc 7.
Nous avons donc Q1=3 ; Q2=5 et Q3=7. Puisque les quartiles coupent le protocole en
quatre parties égales de 25%, nous avons entre Q1 et Q3, 50% des observations. La
moitié des individus a entre 3 et 7 , avec une médiane à 5. Imaginons que ces données
correspondent à la durée entre deux hospitalisations pour un groupe de patients
schizophréniques. Ces données vous permettraient de savoir qu’au bout de 5 ans, la
moitié des patients n’a pas été de nouveau hospitalisés et que pour 50% des patients,
la réhospitalisation intervient entre 3 et 7 ans.

1.2.2 Calculer un écart type sur un protocole

Il est assez facile de comprendre, intuitivement, que l’estimation de la variabilité autour


de la moyenne passe par une estimation des écarts à la moyenne. Ce faisant, on peut
calculer, pour chaque individu, l’écart entre son observation et la moyenne de
l’échantillon. Ces écarts peuvent à leur tour être résumés en faisant la moyenne. Cette
procédure n’est cependant pas très satisfaisante car la somme des écarts à la
moyenne est nécessairement égale à 0 (voir le Tableau 3.4), puisque la moyenne est le
résultat d’une équirépartition des points sur l’ensemble des sujets. Ainsi les écarts
positifs seront compensés par les écarts négatifs.
Une autre façon de résumer ces écarts consiste à ne considérer que les valeurs
absolues des écarts et à faire la moyenne de ces écarts absolus en divisant la somme

IED – Université Paris 8 Version 18/12/07 18


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

par le nombre d’observations. On calcule alors ce qu’on appelle l’écart moyen. Cet
écart moyen n’est cependant pas toujours intéressant du point de vue de l’analyse car il
est très difficile à décomposer. C’est la raison pour laquelle on préfère en général
élever les écarts au carré avant d’en faire la moyenne. On obtient ainsi ce qu’on appelle
la variance. La variabilité sur le protocole sera estimée à partir de la racine carrée de la
variance (pour annuler l’élévation au carré des écarts). On obtient alors l’écart-type.
Avant de présenter les formules et les procédures de calcul, nous allons poser les
définitions de ces notions, définitions à connaître par cœur afin d’être en mesure de
retrouver la formule de calcul.
La variance est la moyenne des carrés des écarts à la moyenne des observations.
L’écart-type est la racine carrée de la variance.
L’écart-type est noté s. La variance qui est le carré de l’écart-type sera donc noté s2.
Posons maintenant les formules de définition.

s2 =
# (x i " m) 2
n
2
s= s

Appliquons cette formule à l’exemple qui nous a servi à présenter le calcul de la


moyenne.
!

Tableau 3.4 Calcul de l’écart-type sur un protocole avec la formule de définition.

La lecture d’une formule se fait, comme dans toutes les formules, en commençant par
l’intérieur des parenthèses. On y trouve x i-m. L’indice i correspond aux individus et
nous indique que l’opération doit être répétée pour tous les individus. Nous devons
donc calculer la différence entre l’observation et la moyenne de l’échantillon pour tous

19 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

les individus. C’est ce que nous avons fait dans la troisième colonne du Tableau 3.4.
On voit dans la dernière ligne du tableau que la somme de ces écarts est nulle. Dans la
formule, juste après la parenthèse, on trouve une élévation au carré. Il nous faut donc
élever chacun des écarts au carré. C’est ce que nous avons fait dans la quatrième
colonne. Le symbole Σ, qu’on lit sigma, signifie qu’il faut faire la somme des termes qui
suivent, autrement dit la somme des carrés des écarts à la moyenne. On trouvera cette
somme sur la dernière ligne de la dernière colonne. Elle est dans notre exemple de
56,95. Il ne nous reste plus qu’à diviser cette somme par le nombre d’observations soit
20. On a donc s2=56,95/20= 2,85. L’écart-type est alors de s = 2,85 = 1,69 . Ce qui
signifie sur cet exemple que le temps de résolution du problème varie d’un peu plus
d’une minute et demi autour de la moyenne.
Il existe une façon un peu plus rapide de calculer la variance
! et l’écart-type qui peut
s’avérer utile lors de l’examen. On peut en effet, à l’aide d’une suite de transformations
algébriques, passer de la formule de définition à une formule simplifiée, dite « formule
de calcul ».

(" x)2
2

s2 =
" (xi ! m)2 = " x ! n
n n

Concrètement, cette nouvelle formule nous évite une étape, celle du calcul des écarts.
Il nous faut en revanche calculer la Σx et la Σx2. Pour le premier terme, nous l’avons
déjà puisque cette somme doit être calculée pour le calcul de la moyenne. Il ne reste
alors que les carrés des observations et la somme de ces carrés à calculer. On notera
que cette formule de calcul ne fait pas intervenir la moyenne, ce qui permet de retarder
le moment où l’on manipulera des arrondis. La précision du résultat est donc plus
grande, mais cela offre à l’étudiant novice un moins bon contrôle conceptuel sur ce qu’il
fait. Ces deux procédures étant équivalentes, vous aurez, à l’examen le choix de la
procédure qui vous convient le mieux.

IED – Université Paris 8 Version 18/12/07 20


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 3.5 Calcul de l’écart-type sur un protocole avec la formule de calcul.

Dans notre exemple, nous n’avons avec cette nouvelle formule qu’une colonne à
calculer. Elle consiste à élever chaque observation au carré. On peut alors instancier
(affecter les valeurs à ) la formule et calculer notre variance.

(# x) 2 (101) 2
#x 2
"
n
567 "
20 = 2,85
s2 = =
n 20

La variance est la même que précédemment et l’écart-type se calculera de la même


façon. L’écart-type est alors de s = 2,85 = 1,69 .
!
Quel sens donner à l’écart-type ? Plus haut, nous avons vu que la moyenne pouvait
être vu comme une équirépartition des points. Elle correspond donc à la note théorique
que les sujets auraient eu s’ils avaient tous la même note. Dans ce cas, l’écart-type doit
!
être vu comme la fluctuation des observations autour de cette note théorique. Cela
nous conduit à une autre façon de voir la moyenne qui consiste à la considérer comme
la mesure vraie. Imaginons pour bien comprendre cela que 5 ouvriers mesurent une
pièce mécanique avec un micromètre. Chacun d’eux trouve une mesure différente. On
recommence les mesures sans arriver à tomber sur des résultats strictement
identiques. Pourtant la longueur de la pièce ne saurait avoir plusieurs mesures puisque
les conditions physiques de mesure sont constantes. Dans ce cas, la moyenne peut
être considérée comme la mesure vraie de la pièce et l’écart-type peut être interprété
comme l’erreur moyenne de mesure. Nous verrons avec les distributions que cette
interprétation peut sous certaines conditions être étendue au domaine de la
psychologie où il est très difficile de contrôler tous les facteurs individuels et où la

21 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

moyenne peut être regardée comme la mesure vraie de la performance du groupe et


l’écart-type, une estimation de l’erreur de mesure du fait de la diversité individuelle.

2. Comparer des groupes d’observations

Nous avons vu dans les exemples qui précèdent essentiellement des protocoles
univariés non structurés. Ces résumés numériques ont cependant tout leur intérêt dans
la comparaison de protocoles structurés soit par un emboîtement soit par un
croisement. Formellement, la procédure de comparaison, au niveau descriptif, est la
même pour ces deux types de protocoles. Elle consiste à considérer séparément les
données correspondant à chacune des modalités du facteur et à comparer les résumés
numériques sur chacune des partitions ainsi définies. Nous ne présenterons donc qu’un
exemple. Nous ne considérerons dans ce cours que les protocoles structurés à un
facteur.
Pour illustrer la procédure de comparaison, nous allons nous inspirer d’une recherche
de Fogg et Nass (1997) sur l’impact de la flatterie sur l’humeur. Les données du
Tableau 3.6 sont fictives, mais reflètent les résultats observés par les auteurs.

Tableau 3.6 Protocole sur l’impact de la flatterie sur l’humeur.

Dans cette expérience, il s’agissait de mesurer l’impact des messages positifs délivrer
par un ordinateur sur l’humeur de l’utilisateur. La tâche était présentée au sujet comme
un jeu où ils devaient faire deviner à un ordinateur un mot auquel ils pensaient.
L’ordinateur posait des questions auxquelles les sujets répondaient par oui ou par non.
En réalité, les sujets gagnaient à chaque fois et le jeu n’était qu’un prétexte à la tâche
réelle, mais implicite du sujet. On demandait au sujet, à l’issue du jeu, de proposer une
question pour les prochaines parties. L’ordinateur affichait alors une évaluation de la
proposition qui pouvait être neutre (votre proposition est enregistrée) ou positive (Votre
proposition est très intéressante). Un tiers des sujets recevait l’évaluation neutre
(condition « neutre ») . Un autre tiers des sujets recevait l’évaluation positive sans autre
information (condition « éloge ») et un dernier tiers recevait une évaluation positive tout
en étant prévenu que l’évaluation était indépendante de leur contribution (condition
« flatterie »). Après l’expérience, on demande au sujet d’évaluer leur humeur sur une
échelle en 9 points (0=humeur positive faible, 8=humeur positive forte). Nous avons
bien un protocole univarié (une seule variable observée ; l’évaluation de l’humeur)

IED – Université Paris 8 Version 18/12/07 22


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

structuré par un facteur emboîtant, chaque sujet ne passe qu’une condition. la


comparaison consiste alors à résumer le protocole pour chacune des modalités du
facteur (ici les conditions). Dans cet exemple, le calcul de la médiane et des quartiles
est peu pertinent (quoique possible) du fait du faible nombre de sujets dans chaque
condition. L’échelle de la variable dépendante pouvant être considérée comme
numérique, nous avons calculé la moyenne et l’écart-type pour chacune des
conditions 7.
Les résultats de cette analyse, fournis dans le Tableau 3.6, montrent que l’évaluation
de l’humeur positive est très élevée dans les deux groupes ayant reçu une évaluation
positive, bien plus que dans le groupe ayant eu une évaluation neutre. Cependant, on
remarque également un écart-type plus important dans le groupe « flatterie » que dans
le groupe « éloge ». Cela permet de conclure que les évaluations sont plus partagées
lorsque les sujets sont prévenus que les évaluations de l’ordinateur sont sans
fondement, mais aussi de s’interroger sur la faible variation dans le groupe « éloge » ce
qui soulève la question de la crédibilité attribuée à l’ordinateur dans ce groupe.

3. Faire une distribution

Un protocole est souvent difficile à manipuler, surtout si le nombre d’individus est


important. C’est la raison pour laquelle il est nécessaire de résumer le protocole. La
première forme de résumé de protocole consiste à dénombrer, pour chaque modalité
de la variable, le nombre d’observations. Le résultat de ce dénombrement constitue ce
qu’on appelle la distribution. La procédure dépend du nombre de variables observées.
Dans ce cours, nous distinguerons le cas d’un protocole univarié (une seule variable
observée) et le cas d’un protocole bivarié (deux variables observées).

3.1 Faire une distribution sur un protocole univarié

Pour illustrer cette procédure, nous utiliserons un protocole correspondant à la


passation, par un ensemble de 113 sujets d’un test (Faverge, 1966). Les individus
statistiques sont les sujets. La variable correspond au nombre de réponses correctes
sur un ensemble de 50 items. Nous avons une seule variable, l’échelle de mesure est
une échelle d’intervalle. Nous avons donc ici un protocole univarié non structuré.

7
Nous ne détaillerons pas les calculs ici et laissons le soin aux étudiants de les retrouver ces valeurs à partir du
protocole en guise d’exercice.

23 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Tableau 3.7 Protocole des notes au test

Concrètement, faire une distribution se fait en deux temps :


1) Lister l’ensemble des modalités observables. Si l’ensemble des modalités
observables n’est pas un ensemble fini, on se contentera de lister toutes les modalités
entre la plus petite et la plus grande modalité observée. Les modalités de la note au
test sont listées dans le Tableau 3.8 dans les colonnes u.

Tableau 3.8 Distribution des notes au test.

2) Une fois cette liste établie, on compte, pour chaque modalité, le nombre de fois
où elle apparaît dans le protocole. Ce nombre est appelé « effectif ». Il est notés nu, où
u renvoie à une modalité particulière. Ainsi n8 correspond à l’effectif de la modalité 8.
N’ayant observé cette modalité qu’une fois, n8=1. En procédant de même pour chaque
modalité de la variable, on obtient la distribution du précédent protocole.
Dans ce protocole, nous avons des observations entre 8 et 50, les modalités entre ces
deux valeurs ont donc été listées, y compris celles qui n’ont pas été observées. Pour
chacune de ces modalités, nous avons compté le nombre de fois où elle a été
observée.

IED – Université Paris 8 Version 18/12/07 24


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Pour pouvoir comparer des distributions obtenues sur des échantillons de tailles
différentes, il est souvent intéressant de pondérer chaque effectif par l’effectif total. On
calcule alors la fréquence. Formellement, la fréquence se note fu et se calcule en
faisant fu=nu/n où n sans indice renvoie à l’effectif total. Le total des fréquences est bien
sûr égal à 1. En multipliant ces fréquences par 100, on les exprime en pourcentage. Le
total des pourcentages est égal à 100.
Concrètement, les fréquences du Tableau 3.9 ont été obtenues en divisant chaque
effectif du Tableau 3.8 par 113. Les valeurs sont bien sûr arrondies à 3 décimales
près. Pour calculer les pourcentages, les fréquences ont été multipliées par 100.

Tableau 3.9 Fréquences et pourcentages pour la note au test.

3.2 Faire une distribution sur un protocole bivarié

La procédure de construction d’une distribution sur un protocole bivarié est analogue à


celle utiliser pour un protocole univarié. Il s’agit, dans un premier temps, de lister
l’ensemble des modalités des deux variables, puis de dénombrer les observations pour
chacun des couples de modalités possibles. Concrètement, on construit un tableau à
double entrée avec en ligne les modalités de la première variable et en colonne les
modalités de la seconde variable. Les effectifs seront indiqués à l’intersection des
lignes et des colonnes de ce tableau.
Prenons un exemple pour illustrer cela. Dans une étude sur l’acquisition de la lecture,
on soumet un ensemble d’enfants à un test de lecture. Ces enfants sont répartis dans
trois niveau de classes différents. Pour chacun des enfants, on note sa performance
(réussite ou échec au test de lecture). Le protocole est présenté dans le tableau ci-
dessous.

25 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Tableau 3.10 Protocole des notes au test de lecture.

Dans ce protocole, les individus sont les enfants. Nous avons deux variables. La
première est la variable « classe ». Son échelle est ordinale et elle comporte 3
modalités. La seconde variable est la performance au test, variable nominale
dichotomique.
Lister les modalités des variables. La distribution sur ces deux variables commencera
par la construction d’un tableau à double entrée avec en ligne la performance et en
colonne la classe. Le sens du tableau est choisi pour des raisons de commodité. Il
aurait tout aussi bien pu être posé dans l’autre sens. Par convention, on note les
modalités de la variable en ligne par la lettre j et les modalités de la variable en colonne
k.

Tableau 3.11 Distribution croisée des variables « Performance» et « Classe »

Dénombrer les observations pour chacun des couples de modalités. La seconde étape
consiste à dénombrer les observations, c’est-à-dire à calculer les effectifs, pour chacun
des couples de modalités. On dit également qu’on fait un tri croisé des observations.
Le résultat est une distribution croisée sur nos deux variables ( Tableau 3.11). Comme
précédemment, les effectifs sont notés n. Puisque les effectifs renvoient aux modalités
de deux variables J et K, l’effectif d’une case particulière du tableau sera noté njk.
On peut également calculer les fréquences en divisant l’effectif de chaque case du
tableau par l’effectif total, soit dans cet exemple 15. On obtient ainsi le Tableau 3.12.

IED – Université Paris 8 Version 18/12/07 26


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 3.12 Fréquences des réussites et des échecs au


test de lecture en fonction de la classe.

De la même manière, on pourra calculer les pourcentages en multipliant les fréquences


par 100. Les résultats de ce calcul sont donnés dans le tableau suivant. Il s’agit bien
sûr d’arrondis.

Tableau 3.13 Pourcentages des réussites et des échecs


au test de lecture en fonction de la classe.

Ce tableau permet ainsi de voir que la répartition des échecs et des réussites n’est pas
la même dans les trois niveaux et que la réussite croit avec le niveau scolaire.

27 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

CHAPITRE 4 - LES PROCEDURES APPLICABLES


AUX DISTRIBUTIONS

1. Résumer une distribution

Nous savons maintenant faire une distribution. Elle constitue un nouvel objet statistique
sur lequel nous allons pouvoir faire un certain nombre d’analyse. D’abord, nous allons
pouvoir résumer la distribution de façon à mettre en évidence les résultats importants
des données. Il existe plusieurs façons de résumer une distribution. On peut le faire
graphiquement. On peut également cumuler les effectifs. Nous allons pouvoir
également situer un individu dans cette distribution, notamment par rapport aux indices
que nous aurons calculés dans le résumé numérique. Ensuite, nous pourrons comparer
des groupes d’observations sur ces distributions, en nous appuyant à la fois sur les
résumés numériques et graphiques. Enfin, nous verrons, dans dernier chapitre,
comment analyser une distribution bivariée, c’est-à-dire un tableau de tri croisé.

1.1 Résumer graphiquement une distribution

On peut représenter graphiquement une distribution sur les effectifs ou sur les
fréquences. Pour cela, on construit un graphique où l’axe des abscisses représente les
modalités de la variable et l’axe des ordonnées représente l’échelle des effectifs ou des
fréquences. La distribution est représentée par des traits verticaux (bâtonnets) dont la
hauteur est proportionnelle à l’effectif ou la fréquence de chaque modalité. Pour des
raisons d’esthétique, certains auteurs élargissent ces bâtonnets. Dans ce cas, il faut
que tous les bâtonnets aient la même largeur, puisque l’intervalle des classes est le
même pour toutes les modalités, c’est-à-dire 1. Un tel graphique s’appelle un
histogramme. La largeur des barres représente la densité d’effectifs de la classe. Dans
le cas où l’histogramme serait construit avant regroupement de modalités, la densité
d’effectifs est égale à l’effectif, puisque le nombre de modalités dans la classe
constituée par la modalité est de 1. Dans le cas des variables continues, cela peut avoir
du sens de relier les sommets des bâtonnets et de construire ainsi une courbe, mais
pas dans le cas des variables discontinues, comme les variables nominales ou
ordinales puisqu’il n’y a rien entre les modalités.

Distribution des notes au test

6
Effectifs n(u)

0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Notes (modalités u)

Figure 4.1 : Histogramme de la distribution des notes au test

IED – Université Paris 8 Version 18/12/07 28


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Ce graphique est l’histogramme représentant la distribution des notes au test. On


notera que les modalités non observées sont également représentées, et que chacune
des barres à une largeur de 1, puisque nous représentons la distribution des notes
avant regroupement. On peut voir que la distribution est asymétrique. Les observations
sont en effet plutôt concentrées vers les notes hautes puisqu’une majorité des
observations se situe au-delà du milieu de l’intervalle de variation. Par ailleurs certaines
valeurs sont mieux représentées que d’autres (37, 41, 44). Nous avons donc ici une
distribution multimodale (plusieurs modes).
On peut aussi représenter les distributions à l’aide de représentations par secteur
(aussi appelées camembert) où chaque secteur est proportionnel aux effectifs ou aux
fréquences. C’est surtout intéressant si on a peu de modalités, sinon on a un nombre
de secteur trop important et cela nuit à la lisibilité du graphique. Dans notre exemple
des notes au test, c’est le cas. On préférera donc l’histogramme.

Figure 4.2 Exemple de diagramme en camembert

1.1.1 Commenter un graphique de distribution

D’un point de vue descriptif, le commentaire d’un graphique de distribution consiste à


pointer ses principales caractéristiques. Cela dépend bien sûr de l’échelle de mesure,
mais aussi des objectifs de recherche qui ont conduit au recueil de données.
Sur les échelles nominales, le commentaire consiste simplement à souligner les
modalités les plus remarquables, c’est-à-dire la plus observée (voir plus loin le mode)
ou celles qui auraient dû être observées et qui ne l’ont pas été. Sur ce type d’échelle,
on peut également commenter les différences remarquables.
Sur les échelles ordinales, et numériques, on pourrait également commenter la
symétrie de la distribution, c’est-à-dire la répartition des observations autour des indices
de tendances centrales et la forme générale de la distribution .

1.1.2 Quelques formes remarquables de distribution.

Voici quelques exemples de graphiques de distribution montrant des formes


remarquables de distribution. Ces exemples sont loin d’être exhaustifs des distributions
particulières qu’on peut rencontrer mais constituent les principales formes
remarquables.

29 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

La distribution plate. Une distribution plate ou distribution amodale est une distribution
où tous les effectifs sont égaux. En pratique, on a peu de chance de rencontrer des
distributions telles que celle de la Figure 4.3. Cependant, il arrive parfois que ne se
détache aucun mode de façon franche. La distribution est alors quasiment plate.

Figure 4.3 Exemple de distribution plate

Les distributions dissymétriques. Ce type de distribution est marqué par un déséquilibre


entre les effectifs pour les valeurs hautes et pour les valeurs basses. Attention, la
notion de symétrie de la distribution n’a de sens que si les modalités peuvent être
ordonnées (donc pour des variables ordinales ou numériques).

Figure 4.4 Deux exemples de distributions dissymétriques

Les distributions symétriques. Ce sont des distributions où la répartition des effectifs est
équilibrée autour de l’indice de tendance centrale (médiane ou moyenne). Comme pour
la dissymétrie, cela ne peut concerner que les variables ordinales ou numériques,
puisque les modalités des variables nominales ne sont pas ordonnées.

IED – Université Paris 8 Version 18/12/07 30


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Figure 4.5 Deux exemples de distributions symétriques

La distribution normale ou distribution de Gauss. Ce type de distribution concerne


uniquement les variables numériques. Une distribution normale est caractérisée par
une forme en cloche. Par ailleurs, les trois indices de position (mode, médiane et
moyenne) sont confondus. Ce type de distribution est symétrique et entièrement
paramétré par sa moyenne et son écart-type. Autrement dit, connaissant la moyenne et
l’écart-type de la distribution, on peut en déterminer les effectifs pour chaque valeur.
Ainsi dans toutes distributions normales, 95,5 % des observations sont à moins de
deux écarts-types de la moyenne et la quasi-totalité des observations est comprise
entre moins trois et plus trois écart-types de la moyenne.

Figure 4.6 Exemple de distribution normale

A titre d’illustration, voici la courbe qu’on obtiendrait sur une distribution normale ayant
les paramètres que nous avons calculés sur les données de la note au test, soit
m=32,95 et s=9,85. Bien sûr, nous avons vu plus haut que nos données ne suivent pas
une distribution normale. Le graphique ici est donc purement théorique.
La distribution normale tient une place particulièrement importante dans les méthodes
statistiques en psychologie. Nous aurons l’occasion de le voir en seconde année avec
les méthodes inférentielles. Ce type de distribution tient également une place
importante dans l’interprétation des données, même si on n’en a pas toujours

31 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

conscience. Avec le calcul de la moyenne sur un protocole, nous avons vu que cet
indice pouvait être regardé comme une équirépartition des points sur l’ensemble des
individus. Nous avons également abordé, avec le calcul de l’écart-type une autre
interprétation qui consiste à voir la moyenne comme la mesure vraie. L’écart-type est
alors vue comme une estimation de l’erreur de mesure. La distribution normale se prête
particulièrement à ce type d’interprétation, même si cela dépend bien sûr beaucoup des
données qu’on est en train de manipuler. En effet, le mode, la médiane et la moyenne
étant confondus, la moyenne est également la valeur la plus fréquemment observée.
Par ailleurs, la symétrie de la distribution et la décroissance des valeurs de par et
d’autres de la moyenne renforce l’idée que l’écart à la moyenne est une erreur de
mesure dont la fréquence décroît avec l’écart à la moyenne. Cette interprétation n’est
pas toujours explicitement formulée dans la littérature en psychologie, mais il faut l’avoir
à l’esprit et s’interroger sur sa pertinence.

1.2 Cumuler une distribution

Dans ce paragraphe, nous allons présenter la procédure de cumul des effectifs. Cette
procédure est applicable aux variables ordinales et numériques, mais ne peut pas être
appliquée aux variables nominales puisque les modalités de ces variables ne sont pas
ordonnées. On utilise le cumul de la distribution pour résumer une distribution, par
exemple savoir combien de sujets ont plus ou moins qu’une valeur seuil. On l’utilise
également pour repérer les quartiles, comme nous le verrons un peu plus loin.
Il existe deux façon de cumuler une distribution. Le cumul à gauche et le cumul à droite.
Dans le cumul à gauche, on commence par les valeurs basses et on additionne les
effectifs au fur et à mesure en allant vers les valeurs hautes. Dans le cumul à droite, on
fait l’inverse, on commence par les valeurs hautes pour finir par les valeurs basses.
Dans ce cas, pourquoi ne pas avoir appelé cela cumul vers le haut et cumul vers le
bas ? Cela aurait été en effet correct, mais l’usage veut que l’orientation du cumul
prenne pour référence l’organisation des valeurs sur le graphique de distribution (voir la
Figure 4.1) où les valeurs basses sont à gauche et les valeurs hautes à droite, et non
l’organisation du tableau de distribution.

Tableau 4.1 Distributions cumulées à droite et à gauche de la


note au test regroupée en classes

Pour illustrer cette procédure, nous allons reprendre les notes au test et faire un
recodage de la variable en 9 classes. La distribution est alors calculée sur cette
nouvelle variable. Elle correspond aux quatre premières colonnes du Tableau 4.1.

IED – Université Paris 8 Version 18/12/07 32


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Commençons par le cumul à gauche. Pour la première classe, l’effectif cumulé est
l’effectif de la classe. Pour la deuxième, c’est l’effectif de la classe 2 plus l’effectif
cumulé précédent soit 3+3=6. Pour les autres classes, on opère de manière similaire
en prenant l’effectif de la classe et l’effectif cumulé précédent. Le dernier effectif cumulé
est égal au nombre total d’observation, dans cet exemple, 113. Les effectifs cumulés à
gauche nous indiquent combien de sujets ont une note inférieure ou égale à la valeur
maximale de la classe.
Pour les effectifs cumulés à droite, on procédera en sens inverse. Ainsi pour la
première classe, l’effectif cumulé est égal à l’effectif total. Pour la seconde classe, il est
égal à l’effectif cumulé précédent moins l’effectif de la classe précédente. On procède
ainsi jusqu’à la dernière classe dont l’effectif cumulé est égal à l’effectif de la dernière
classe, dans cet exemple, 7. Les effectifs cumulés à droite nous indiquent combien de
sujets ont une note supérieure à la valeur minimale de la classe.
Dans notre exemple, la note maximale au test est de 50. On peut se demander, par
exemple, combien de sujets ont une note supérieure ou égale à 25, autrement dit
combien ont répondu correctement à au moins la moitié des items. La réponse à cette
question peut être lue directement dans le tableau. C’est l’effectif cumulé à droite de la
classe 26-30 soit 85 sujets.
Le cumul des distributions se fait de la même façon sur les fréquences et sur les
pourcentages. Nous verrons avec le calcul de la médiane et des quantiles, d’autres
applications de cette distribution cumulée.

1.3 Résumer numériquement une distribution

Comme pour les protocoles, nous allons sur les distributions, pouvoir calculer des
indices de positions et des indices de dispersions. A l’exception du mode et du mode
secondaire qui ne peuvent être repéré que sur des distributions, ces indices sont les
mêmes que précédemment (médiane et quartile, moyenne et écart-type). Les
procédures de calcul sur une distribution sont cependant différentes.

1.3.1 Indices de position

1.3.1.1 Repérer le mode sur une distribution

Le mode est la modalité pour laquelle on observe l’effectif le plus important.


Concrètement, pour le déterminer, il suffit de repérer dans le tableau de distribution
l’effectif le plus important ou dans l’histogramme de distribution la barre la plus haute et
de lire la modalité correspondante.

33 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Distribution des notes au test

6
Effectifs n(u) 5

0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Notes (modalités u)

Figure 4.7 Histogramme de la distribution des notes au test.

Ainsi, dans notre exemple des notes au test, les modalités les plus souvent observées
sont 36, 42 et 44 pour lesquelles on a un effectif de 7 sujets. Nous sommes dans le cas
d’une distribution ayant plusieurs modes. Cet indice est surtout utile lorsqu’on souhaite
avoir des informations sur la concentration des observations sur une ou plusieurs
modalités. On peut repérer le mode sur n’importe quelle distribution, que la variable soit
nominale, ordinale ou numérique. Cependant, en pratique, cet indice est surtout utilisé
pour résumer une distribution nominale.

1.3.1.2 Calculer la médiane sur une distribution

Nous avons vu précédemment que la médiane était la modalité de l’individu médian,


c’est-à-dire l’individu qui partage le protocole ordonné en deux moitiés. Cette médiane
peut également être calculée à partir de la distribution. Dans ce cas, nous cherchons la
modalité telle que 50% des observations soient inférieures ou égale et 50% des
observations soient supérieures ou égales. Dans ce cas, la procédure consiste à partir
d’une distribution cumulée à gauche ou à droite ce qui implique, rappelons-le, que la
variable soit ordinale ou numérique. Nous reprendrons la distribution en classes
précédemment présentée pour illustrer la détermination de la médiane.

Tableau 4.2 Distributions cumulées à droite et à gauche de la note au


test regroupée en classes

IED – Université Paris 8 Version 18/12/07 34


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Bien que très similaire, la procédure de calcul de la médiane sur une distribution doit
être distinguée de la procédure de calcul de la médiane sur un protocole. Dans le cas
du protocole, on commence par ordonner le protocole, puis on calcule le rang de
l’individu médian. On repère ensuite celui-ci dans le protocole ordonné et on lit la
modalité qui lui est associée. Dans le cas de la distribution, la détermination de la
médiane se fait en deux temps :
1) dans la première étape, on calcule l’effectif cumulé correspondant à la moitié
des observations soit n/2. Dans notre exemple n vaut 113 et n/2=113/2=66,5
2) Dans la deuxième étape, On cherche dans les effectifs cumulés n/2. Dans notre
cas, on cherchera 66,5. Si une modalité correspond à cet effectif cumulé, on la prend
comme médiane. Mais, dans notre exemple, et c’est souvent le cas, cet effectif cumulé
ne correspond pas à une modalité. On prendra donc l’effectif cumulé le plus proche. Il
s’agit de la classe 31-35. Dans le cas où l’effectif cumulé correspondant à la médiane
est à égale distance entre deux modalités, on s’abstiendra de choisir et on parlera de
coupure quasi-médiane entre les deux modalités en question. Si plusieurs modalités
correspondent à l’effectif cumulé (cas où l’on a des effectifs nuls dans des classes
successives), on prend la première modalité.
Détermination graphique de la médiane. On peut déterminer graphiquement la médiane
en faisant sur un même graphique la courbe des effectifs cumulés à gauche (série 1) et
à droite (série 2). Pour trouver la médiane, on abaisse la perpendiculaire à l’axe des
abscisses qui passe par l’intersection des deux courbes.

Figure 4.8 Détermination graphique de la médiane

L’interprétation de la médiane se fera de la même façon que précédemment. Nous la


reprendrons succinctement avec le calcul des quartiles.

1.3.1.3 Calculer une moyenne sur une distribution

Nous avons vu précédemment comment calculer la moyenne à partir du protocole.


Cette même moyenne peut également être calculée à partir de la distribution. Il est tout
à fait important de bien différencier les deux cas de figure, car la procédure n’est pas la
même. Il est rare que le protocole se présente sous la forme d’une série de données en
vrac. On le présente en général sous la forme d’un tableau et c’est ce qui induit en
erreur bon nombre d’étudiants parce qu’ils ne savent pas différencier le tableau d’un
protocole de celui d’une distribution. Pour bien les différencier, il convient de se
demander à quoi correspondent chacune des lignes. Dans un tableau de protocole, les

35 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

lignes correspondent aux individus statistiques. Dans une distribution, les lignes
correspondent aux modalités de la variable. Nous allons reprendre notre exemple des
notes au test avant regroupement pour illustrer cela. Le tableau de protocole
correspondant à notre exemple de la note au test aurait l’allure suivante :

Tableau 4.3 Protocole des notes au test

Il fait correspondre à un ensemble d’individus (notés i) un ensemble d’observations


(notées x). Chaque observation relative à un sujet est notée xi (le i renvoyant à
l’individu statistique). La somme des observations se notera donc Σxi. Comme nous
l’avons vu précédemment, la moyenne sera m=Σxi/n. Concrètement cela veut dire
qu’on fait la somme de la colonne des observations et qu’on la divise par le nombre des
observations. Dans notre exemple, on aura : (43+31+38+...+37+48+29+35)/113=32,95
Si on part de la distribution, la procédure est un peu différente. Le tableau de
distribution nous donne le nombre de fois où chaque modalité a été observée (effectif).
Il convient alors, pour faire le total des observations, de multiplier les modalités par leur
effectif. Pour bien comprendre cela, imaginez que dans votre bulletin scolaire vous
ayez obtenu 3 fois la note 9 et 2 fois la note 11, vous comprenez aisément qu’il est
équivalent pour calculer la moyenne de faire : (9+9+9+11+11)/5=9,8 (ce qu’on ferait en
partant du protocole) ou (9*3+11*2)/5=9,8 (ce qu’on fait en partant de la distribution).
Concrètement, nous venons de résumer le protocole (votre bulletin scolaire) sous la
forme d’une distribution qu’on pourrait représenter sous la forme du petit tableau
suivant :

Tableau 4.4 Un exemple de distribution : le bulletin de notes

Si vous partez de la distribution, il vous faudra

1) Multiplier chaque modalité par son effectif,


2) Faire la somme de ces produits,
3) Diviser par le total des effectifs (nombre d’observations).

Un peu de formalisme. Appelons maintenant uk les modalités de la variable et nk les


effectifs (pour faire simple, nous interpréterons k comme un renvoi à une ligne du
tableau de distribution sans tenir compte de sa position en indice ou en exposant). La

IED – Université Paris 8 Version 18/12/07 36


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

somme des observations est alors Σnkuk , ce qui se lit somme des produits de nk par uk,
et la moyenne est alors égale à Σnkuk/n. Concrètement sur l’exemple des notes au test,
on construira le tableau suivant :

Tableau 4.5 Calcul de la moyenne à partir d’une distribution

La moyenne est donc de 3723/113=32,95. Le résultat est fort heureusement le même.


On peut donc choisir indifféremment de partir du protocole ou de la distribution pour
calculer la moyenne. L’important étant de bien comprendre sur quoi on travaille pour
choisir la procédure appropriée.
Avec la distribution, nous pouvons aborder une troisième interprétation de la moyenne
(la première étant celle de l’équirépartition et la deuxième celle de la mesure vraie), en
la regardant comme le centre de gravité de la distribution. Imaginons qu’on découpe la
forme du graphique d’une distribution sur une planche de bois et qu’on veuille le
suspendre pour en faire un mobile. C’est sur le point correspondant à la moyenne sur
l’axe des abscisses qu’il faudrait fixer le fil pour suspendre notre distribution avec l’axe
des abscisses à l’horizontal. Ce point de vue sur la moyenne est à relier avec le fait que
la somme des écarts à la moyenne est nulle, autrement dit que les écarts positifs
compensent les écarts négatifs. Ce point de vue sur la moyenne sera repris dans le
cours de troisième année avec l’analyse de la variance.

1.3.2 Indices de dispersion

1.3.2.1 Repérer le mode secondaire sur une distribution

Sur les variables nominales, la variabilité des observations est évaluée en repérant le
ou les modes secondaires. Il s’agit de la modalité ou des modalités ayant l’effectif le
plus important après le mode. Pour illustrer cela, nous reprendrons notre exemple des
notes au test. On peut voir sur le graphique que le mode secondaire correspond à 37.

37 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Distribution des notes au test

Effectifs n(u) 5

0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Notes (modalités u)

Tableau 4.6 Histogramme de la distribution des notes au test.

1.3.2.2 Calculer les quartiles sur une distribution

Détermination des quartiles. La procédure est similaire à celle de la détermination de la


médiane, mais, dans ce cas, on cherche pour le premier quartile la modalité dont
l’effectif cumulé correspond à un quart des observations soit n/4. Pour le troisième
quartile, on cherche la modalité dont l’effectif cumulé est égal aux trois quarts des
observations soit n*¾ (le deuxième quartile correspond à la médiane). Dans notre
exemple on cherche donc les modalités dont l’effectif cumulé correspond à :
 Pour le premier quartile 113/4 soit 28,25,
 Pour le troisième quartile 113*¾ =84,75.
On peut voir que la modalité dont l’effectif cumulé est le plus proche de 28,25 est la
classe 21-25, elle constituera donc notre premier quartile (Q1). La modalité dont
l’effectif cumulé est le plus proche de 84,75 est la classe 36-40. Ce sera notre troisième
quartile (Q3).
Interprétation des quartiles et de la médiane. La médiane nous indique quelle modalité
coupe en deux la distribution. Elle montre donc que la moitié des sujets est située en
dessous de cet échelon et la moitié au-dessus. Dans notre exemple, nous pouvons
donc dire qu’un sujet sur deux appartient aux classes inférieures (ou supérieures ce qui
est équivalent) à la classe 31-35. Un commentaire similaire peut-être fait pour Q1 et
Q3, mais, dans ce cas les classes supérieures et inférieures ne sont plus symétriques.
On aura ainsi
 Avec Q1 : Un quart des sujets appartient à une classe inférieure à la classe 21-25
et par complémentarité, les trois quarts des sujets, appartiennent à une classe
supérieure à la classe 21-25.
 Avec Q3 : Les trois quarts des sujets appartiennent à une classe inférieure à la
classe 36-40 et par complémentarité, un quart des sujets appartient à une classe
supérieure à la classe 36-40.
Mais, plutôt que de commenter chacun de ces indices séparément, il est plus informatif
et plus synthétique de fonder son commentaire sur la combinaison des trois indices. On
pourra ainsi dire que la moitié des sujets a obtenu une note comprise entre 23 (valeur
centrale de Q1) et 38 (valeur centrale de Q3) avec une médiane à 33 (valeur centrale
de la classe médiane). Puisqu’on sait, avec la distribution, que les notes observées
vont de 8 à 50, on situe tout de suite la répartition des observations du côté des valeurs

IED – Université Paris 8 Version 18/12/07 38


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

élevées, mais aussi que la répartition des notes autour de la médiane n’est pas
symétrique.
Sur les variables numériques, l’écart interquartile constitue un autre indicateur de la
répartition des données sur l’échelle de mesure. L’écart interquartile est la différence
entre Q3 et Q1. Dans notre exemple, cet écart est de 38-23=15, ce qui veut dire que la
moitié des observations s’étend sur 15 points autour de la médiane.

1.3.3 Calculer un écart type sur une distribution

Rappelons que l’écart-type ne peut pas être calculé directement et qu’il faut extraire la
racine carrée de la variance pour l’obtenir. Comme pour la moyenne, la variance peut
être calculée à partir du protocole ou de la distribution. Nous allons voir dans ce qui suit
le calcul de la variance à partir de la distribution en distinguant l’utilisation de la formule
de définition de l’utilisation de la formule de calcul.
Utilisation de la formule de définition à partir de la distribution. La difficulté, ici, est
similaire à celle que nous avons rencontrée lors du calcul de la moyenne à partir de la
distribution. On peut bien calculer l’écart à la moyenne de chaque modalité, mais il ne
faut pas oublier de multiplier cet écart par le nombre de fois où il a été observé, c’est-à-
dire par l’effectif. Concrètement, on commence par préparer le tableau de distribution
en lui ajoutant trois colonnes:
 Une pour le calcul de l’écart à la moyenne.
 Une autre pour l’élévation de cet écart au carré
 Et une troisième pour le produit de ce carré par l’effectif de la modalité.
On calcule l’écart de chaque modalité avec la moyenne du protocole soit uk – m.
 Pour u1, on a : 32,95-6 = -26,95
 Pour u2, on a : 32,95-7 = -25,95
 Pour u3, on a : 32,95-8 = -24,95 etc.
Pour chaque modalité, on calcule le carré de cet écart, soit (uk - m)2.
 Pour u1, on a : -26,952 = 726,14
 Pour u2, on a : -25,952 = 673,24
 Pour u3, on a : -24,952 = 622,35 etc.
Pour chaque modalité, on calcule le produit de cet écart et de son effectif soit: (uk -
m)2*nk
 Pour u1, on a :726,14 * 0 = 0
 Pour u2, on a : 673,24* 0 = 0
 Pour u3, on a : 622,35 * 1 = 622,35 etc.
On fait ensuite la somme de ces produits et on la divise par n soit s2=Σ((uk-m)2*nk)/n.
Dans notre exemple, nous avons donc :
s2=(0+0+622,35+...+515,40+290,81)/113
s2=10967,68/113= 97,06

39 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Tableau 4.7 Application de la formule de définition de la variance à


partir d’une distribution

L’écart-type se calcule de la même façon que précédemment variance soit


s = var = 97,06 = 9, 85
Utilisation de la formule de calcul à partir de la distribution. Le problème est toujours le
même dans le passage du protocole à la distribution pour le calcul de la variance, il ne
faut pas oublier de multiplier par l’effectif. Concrètement on prépare un tableau de
distribution en lui ajoutant deux colonnes. La première servira à calculer le carré des
modalités soit uk2, la seconde servira à multiplier ce carré par l’effectif de la modalité
soit nk(uk2). Si la somme des observations n’a pas été calculée pour la moyenne, on
aura besoin d’une troisième colonne pour calculer le produit de chaque modalité par
son effectif soit nkuk.
On calcule alors la somme des carrés des observations (Σx2) Pour chaque modalité, on
commence par calculer son carré. Par exemple,
 Pour u1, on a 62=36
 Pour u2, on a 72=49
 Pour u3, on a 82=64 etc.
Ensuite, pour chaque modalité, on multiplie le carré par l’effectif de la modalité.
 Pour u1, on a 36*0=0
 Pour u2, on a 49*0=0
 Pour u3, on a 64*1=64 etc.
Attention, il s’agit bien ici de multiplier le carré de la modalité par son effectif et non de
faire le carré du produit de l’effectif par la modalité. Ainsi, pour la note 48, on a
482*2=2401*2=4802 et à ne pas confondre avec le carré du produit de l’effectif par la
modalité : (48*2)2=9216
On fait ensuite la somme de ces produits. Dans notre exemple, Σx2=133629
Si ce n’est déjà fait lors du calcul de la moyenne, on calcule la somme des observations
(Σx).On multiplie chaque modalité par son effectif. On a ainsi,
 Pour u1, on a 6*0=0
 Pour u2, on a 7*0=0
 Pour u3, on a 8*1=8 etc.
On fait la somme de ces produits. Dans notre exemple, Σx=3723

IED – Université Paris 8 Version 18/12/07 40


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 4.8 Application de la formule de calcul de la variance


à partir d’une distribution

On applique ensuite la formule en calculant dans l’ordre


 Le carré de la somme des observations (Σx)2 = 37232=13860729
 On divise ensuite ce carré par n, soit (Σx)2/n =13860729/113=122661,319
 On fait ensuite la différence avec la somme des carrés, soit :
 Σx2-((Σx)2/n=133629-122661,319=10967,68
 Enfin on divise le tout par n soit : s2=(Σx2-((Σx)2/n)/n = 10967,68/113=97,06
L’écart-type se calcule de la même façon que précédemment. Il est égal à la racine
carrée de la variance, soit s=9,85. Le résultat est bien sûr identique à celui que nous
avions trouvé précédemment. En pratique, ce n’est pas toujours le cas, notamment si
on doit effectuer le calcul à la main. Cela tient au fait que, dans l’utilisation de la formule
de définition, on est conduit à faire beaucoup plus d’arrondis (dans les différences avec
la moyenne) ce qui entraîne une perte de précision. Il est donc préférable d’utiliser la
formule de calcul lorsque c’est possible.

1.4 Le choix des résumés numériques.

Nous venons de voir qu’une distribution pouvait être résumée numériquement par des
indices de position ou de tendance centrale et des indices de dispersion. Le choix des
indices dépend de ce qu’on souhaite résumer dans la distribution et de l’échelle de
mesure de la variable (se reporter au tableau suivant). Les questions qu’on peut se
poser sont :
Sur les échelles nominales, seul le mode et le mode secondaire peuvent être calculés.
Si les modalités de la variable sont ordonnées, c’est-à-dire si l’échelle est ordinale ou
numérique, on peut également calculer la médiane et les quartiles. Enfin, si la variable
observée est numérique, on peut calculer la moyenne et l’écart-type. On voit donc que
pour les variables nominales, nous n’avons pas le choix, mais pour les deux autres
types de variable, il faut se poser la question de la pertinence des indices de position et
de dispersion retenus.
Ce choix est guidé par le type de question qu’on se pose à propos du protocole. Ces
indices permettent en effet de mettre en avant des propriétés différentes du protocole
ou de la distribution.

41 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

On peut en premier lieu se demander sur quelle(s) modalité(s) se concentre(nt) les


observations (concentration) ? Dans ce cas, l’indice pertinent est le mode puisqu’il
correspond à la modalité la plus observée. L’indice de dispersion associé est le mode
secondaire. Ces résumés numériques peuvent être repérés uniquement sur une
distribution, quelle que soit l’échelle de mesure.
On peut également se demander comment les observations se répartissent-elles dans
la distribution (répartition) ? Dans ce cas, c’est la médiane qu’il faut prendre comme
indice de tendance centrale et les quartiles qui seront les indices de dispersion. Ces
indices numériques ne sont pas possibles pour les échelles nominales et ne peuvent
être calculés que pour les variables ordinales ou numériques.
On peut enfin se demander quel est le centre de gravité de la distribution et la variation
moyenne autour de ce centre (centre et variation) ? Dans ce cas, il faut calculer la
moyenne (indice de tendance centrale) et l’écart-type (indice de dispersion). Ces
indices ne peuvent être calculés que sur les variables pour lesquelles les modalités
sont des quantités, donc uniquement pour les variables numériques.

Tableau 4.9 Résumés numériques possibles en fonction de la question posée et de


l’échelle de mesure de la variable

Le choix des indices numériques doit également être guidé par des considérations relatives aux
caractéristiques de la distribution. Nous avons vu plus haut que la moyenne est sensible aux
valeurs extrêmes, c’est la raison pour laquelle elle peut s’avérer un résumé trompeur dans un
certain nombre de cas, notamment lorsque la distribution est dissymétrique et/ou lorsqu elle
comprend des valeurs extrêmes, vers le haut ou vers le bas. Ainsi, classiquement, on cite
l’exemple des salaires pour lesquels l’écart entre les plus faibles et les plus fortes valeurs est très
important. Ainsi dans une entreprise, si on observe que trois salariés perçoivent 1000 € et qu’un
cadre touche 3000 €, le salaire moyenne sera de 1500€, alors qu’un seul salarié perçoit un
salaire supérieur ou égal à ce salaire moyen. On retrouve parfois le même type de problèmes
dans la mesure des temps de réaction où un ou deux sujets ayant une hésitation peuvent tirer
fortement la moyenne vers le haut. Dans ce cas, soit les individus sont éliminés de l’analyse, soit
on opte pour un résumé à l’aide de la médiane.

La moyenne peut également poser des problèmes d’interprétation, notamment dans le


cas de variable numérique discrète, c’est-à-dire correspondant à des entiers. Dans ce
cas, le calcul d’un moyenne ne sera pas adapté, parce que les décimales ne sont pas
interprétables. On peut illustrer cette difficulté avec l’exemple du nombre d’enfants dans
une famille où une moyenne de 2,5 fait sourire du fait de l’incongruité de la décimale.

IED – Université Paris 8 Version 18/12/07 42


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

2. Comparer les distributions de groupes


d’observations

Avec les procédures applicables aux protocoles, nous avons eu un petit aperçu de la
comparaison de groupes d’observations (Chapitre 3 - 2). Nous avons vu que ce type
d’analyse consiste à comparer les résumés numériques du protocole pour chacune des
modalités du facteur. En pratique, ce type de comparaison se fait surtout à partir de la
comparaison des distributions des observations sur chacune des modalités du facteur.
On pourra de la même manière comparer les indices numériques, puisque nous venons
de voir qu’ils étaient calculables à partir de la distribution, mais on pourra également
comparer les distributions, notamment à l’aide d’un graphique. Nous allons donc
approfondir dans ce paragraphe ces procédures de comparaison.

2.1 Cas d’une variable nominale

Lorsqu’on a une variable nominale, le seul indice numérique résumant la distribution est
le mode, accompagné éventuellement du mode secondaire. De fait la comparaison de
groupes d’observations avec ce type de variable se limite à une comparaison des
fréquences. Voici un exemple de ce type d’analyse.
Lors d’une enquête sur les conditions de travail dans un centre hospitalier spécialisé,
on a posé au personnel la question suivante : « Pensez-vous que l’emploi soit menacé
dans le milieu hospitalier ? ». Deux catégories de personnel ont été interrogées, ceux
qui travaillent à l’hôpital (Intra) et ceux travaillant dans des structure extra-hospitalière
(extra). Voici la distribution des réponses.

Tableau 4.10 Effectifs observés

Dans cet exemple, nous avons deux variables. La première est le facteur « lieu de
travail ». C’est la variable indépendante. L’échelle de mesure est nominale. Elle
comprend deux modalités qui vont constituer les deux groupes d’observations. Chaque
sujet n’appartenant qu’à une des catégories de personnel, la structure du protocole est
donc l’emboîtement (groupes indépendants). Notez qu’au niveau descriptif, la
procédure de comparaison est la même pour les plans croisés (groupes appariés).
Nous n’en ferons donc pas une présentation spécifique. La seconde variable est la
réponse. C’est la variable dépendante. L’échelle de mesure est une échelle nominale à
trois modalités. Il faut donc réaliser une comparaison de deux groupes indépendants
sur une variable nominale. La base de comparaison sera donc la fréquence.
Première étape : calcul des fréquences. Partant du tableau de distribution, il faut
calculer les fréquences de chacune des réponses pour chacune des catégories de
personnel. Attention, ce qu’on cherche à comparer ce sont les fréquences des
réponses dans chacun des groupes d’observations. On doit donc calculer ces

43 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

fréquences sur l’effectif total de chacun des groupes. La fréquence se calcule


simplement en divisant l’effectif de la case par l’effectif total. Ainsi pour le personnel de
l’intra-hospitalier ayant répondu « oui », on aura 150/289=0,519. De la même façon,
pour ceux qui ont répondu « non », on aura 116/289=0,401 etc. Le total bien sûr est
égal à 1 dans chacun des groupes. On peut également exprimer ces fréquences en
pourcentages.

Tableau 4.11 Fréquences des réponses dans chacun des deux groupes

Deuxième étape : représentation graphique. Elle n’apporte pas d’information


supplémentaire, mais facilite la comparaison des groupes d’observations.

0,600

0,500

0,400

intra
0,300
extra

0,200

0,100

0,000
oui non NR

Figure 4.9 Graphique des réponses dans chacun des deux groupes

Troisième étape : formulation des commentaires. Elle consiste à pointer les principales
différences entre les deux groupes et à en tirer une conclusion. On voit, dans notre
exemple, que la réponse «oui » est plus fréquente pour le personnel « intra », tandis
que le personnel de l’extra-hospitalier répond plus fréquemment « non ». Il n’y a pas de
différence entre les groupes pour les non-réponses. On peut donc dire que le personnel
de l’intra-hospitalier ressent plus une menace sur les emplois que le personnel de
l’extra-hopitalier.

2.2 Cas d’une variable ordinale

Avec les variables ordinales, il est également possible de comparer les fréquences,
mais on peut aussi comparer les quartiles. Nous allons en développer un exemple pour
illustrer ce type d’analyse.
Dans une enquête sur la perception des causes d’accidents de la route, on a posé la
question suivante : Pensez-vous que les défaillances mécaniques sont une source

IED – Université Paris 8 Version 18/12/07 44


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

d’accidents ? Les sujets avaient à répondre sur une échelle allant de 0 à 10 dans
laquelle la note 0 correspond à « jamais », la note 5 à « parfois » et la note 10 à
« toujours ». Sur les 160 sujets interrogés, voici la distribution des réponses pour les
hommes et les femmes.

Tableau 4.12 Distribution des réponses en fonction du sexe

Dans cet exemple, nous avons deux variables. La première est la variable
indépendante (facteur) « sexe ». C’est une variable nominale à deux modalités.
Comme dans l’exemple précédent, c’est le facteur qui sert de base à la constitution des
groupes d’observations. Ces deux groupes sont, bien entendu, indépendants (relation
d’emboîtement) puisque les sujets ne peuvent appartenir qu’à un seul groupe.
La seconde variable est la variable dépendante « jugement ». Pour cette variable, les
11 modalités sont ordonnées, mais la notion d’intervalle n’a pas de sens, bien que les
modalités soient exprimées par des chiffres. Cependant, sur ce type d’échelle de
jugement de fréquences, certains auteurs franchissent le pas et considèrent qu’il existe
une continuité et un intervalle entre les modalités. Ce point de vue n’est pas dénué de
sens, mais demande à être justifié. Dans le doute, on peut toujours considérer une
échelle numérique comme une échelle ordinale puisque la relation d’ordre est
commune aux deux échelles. L’inverse n’est, bien entendu, pas vrai. Nous
considèrerons donc que l’échelle de mesure est une échelle ordinale.
Notre tâche consiste ici à comparer deux groupes indépendants sur une variable
ordinale. La base de la comparaison peut donc être soit les fréquences, soit la médiane
et les quartiles. Dans la mesure où les effectifs des groupes sont équilibrés (même
nombre de sujets dans chaque groupe), il est équivalent de comparer les effectifs ou
les fréquences. On peut donc directement construire le graphique des distributions pour
les deux groupes. Le graphique est le suivant :

45 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

14

12

10

8
Femmes
Hommes
6

0
2

Toujours
Jamais
0

10
Figure 4.10 Graphique de distribution des réponses en fonction du sexe

Commentaires : On peut voir que ces deux distributions sont bi-modales (deux modes)
qui correspondent dans les deux distributions aux notes 5 et 6. Les réponses se
concentrent, pour les hommes et les femmes, sur un jugement moyen qui correspond à
« parfois ». Cependant, on peut également noter que la distribution des réponses chez
les hommes est plutôt décalée vers la droite, c’est-à-dire les notes hautes. Ce qui
suggère que les hommes attribuent plus fréquemment la cause d’un accident à une
défaillance mécanique.
On peut voir dans cette première analyse que ce qui différencie les deux groupes, c’est
surtout la répartition des réponses sur l’échelle de mesure. Il est donc tout à fait
intéressant de résumer cette répartition. Les indices pertinents sont alors la médiane et
les quartiles. Rappelons que pour les situer, il faut d’abord construire une distribution
pour chacun des deux groupes. Il faut ensuite repérer ensuite les modalités
correspondant à n/4 pour Q1, n/2 pour Q2 et n*3/4 pour Q3. Attention, ici n est le
nombre total d’observations de chacun des groupes d’observations soit 80. Les
distributions cumulées sont donc les suivantes :

Tableau 4.13 Distribution cumulée à gauche des réponses en fonction du sexe

IED – Université Paris 8 Version 18/12/07 46


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Ce qui nous conduit à situer les quartiles de la manière suivante :

On peut voir sur ces résumés que les distributions sont également étendues. L’écart
interquartile est en effet de 4 pour les deux distributions. En revanche, la distribution
pour les hommes est décalée vers les notes hautes. Ils considèrent donc que les
accidents sont plus fréquemment dus à une défaillance mécanique que les femmes. La
comparaison des quartiles dans un tableau est une façon synthétique de présenter les
données, mais on peut également comparer graphiquement ces indices en utilisant les
boites de Tuckey ou boites à moustaches.

Figure 4.11 Représentation graphique des quartiles

Dans ce type de graphique, les quartiles sont symbolisés par un rectangle. Le bord de
gauche correspond à Q1, celui de droite à Q3. Le trait plus épais au milieu de la boîte
correspond à la médiane ou Q2. De chaque côté de la boîte, les moustaches
permettent d’indiquer les valeurs minimales et maximales observées. On voit tout de
suite sur ce graphique le décalage vers la gauche de la médiane du groupe des
hommes. On remarque également que la dispersion dans les deux groupes est la
même.

2.3 Cas d’une variable numérique

Lors d’une enquête, on relève, sur les registres d’état civil, l’âge de l’époux et l’âge de
l’épouse au moment du mariage pour 39 couples. On se demande si les hommes et les
femmes se marient en général au même âge. Dans cet exemple, il faut faire abstraction
de la notion de couples pour répondre à la question. Il s’agit en fait de comparer le
groupe des femmes et des hommes sur la variable « âge au moment du mariage ». Les
individus statistiques sont donc les personnes. Nous avons deux variables : le sexe
(variable nominale indépendante) et l’âge au moment du mariage (variable dépendante
numérique). Le protocole est structuré par une relation d’emboîtement (chaque sujet
est caractérisé par un seul des deux sexes). Nous avons donc à comparer deux
groupes indépendants sur une variable numérique. Une autre façon de voir ce

47 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

protocole est de considérer que les individus statistiques sont les couples. Dans ce cas,
chaque couple est caractérisé par l’âge de l’époux et l’âge de l’épouse au moment du
mariage. Ce sont deux variables observées et il n’y a pas de facteur. Nous avons donc
un protocole bivarié non structuré. Un tel point de vue sur le protocole ne permet pas
de répondre à la question posée pour laquelle il faut disposer d’un protocole structuré. Il
permet en revanche de répondre à une autre question : « Dans un couple, existe-il un
lien entre l’âge de l’époux et l’âge de l’épouse ? ».Cette question relève de l’étude de la
relation entre variables qui sera traitée au prochain chapitre. Nous rapportons ici les
données.

Tableau 4.14 Protocole des âges des époux et des épouses

Ces données seront résumées dans une distribution des âges, en considérant
séparément les hommmes et les femmes. Nous rapportons le résultat de cette analyse
dans le tableau ci-dessous.

IED – Université Paris 8 Version 18/12/07 48


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 4.15 Distribution de l’âge au moment du mariage en fonction du sexe.

Revenons à la question posée : « Peut-on dire que les hommes se marient plus tard
que les femmes ? ». Nous pouvons utiliser comme base de comparaison la fréquence,
mais l’échelle de mesure est très étendue (les observations vont de 18 à 45) ce qui va
rendre difficile la comparaison à cause de la dispersion des observations sur les
différentes modalités, comme on peut le voir sur le graphique ci-dessous.

Figure 4.12 Graphique de distribution des âges au moment du mariage en fonction du sexe.

Cette analyse nous montre cependant que les observations sont concentrées du côté
des valeurs basses avec un mode à 22 ans chez les femmes (mode secondaire 25 et
31). Chez les hommes, la distribution est plus étalée. Le mode est à 25, mais ne diffère
presque pas des modes secondaires.
Les quartiles sont également utilisables comme base de comparaison avec les
variables numériques. Ainsi dans cet exemple, on observe pour les hommes : Q1=22,
Q2=25 et Q3=31. Pour les femmes, on a Q1=21, Q2=24 et Q3=30. L’écart interquartile
est le même dans les deux groupes, ce qui montre que l’étalement des observations ne
diffère pas en fonction du sexe.

49 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Figure 4.13 Représentation graphique des quartiles. Dans les boîtes, le trait en gras
représente la médiane et la croix, la moyenne.

On voit également sur ce graphique que l’étalement des observations est plus
important du coté des valeurs hautes que du côté des valeurs basses.
Voyons maintenant ce que peut éventuellement nous apprendre la comparaison des
moyennes. Nous ne reprendrons pas ici la procédure de calcul de la moyenne et les
écarts-types (voir plus haut). Le résultat de ces calculs est le suivant :

On peut voir que les hommes se marient en moyenne un an plus tard que les femmes.
La dispersion dans les deux groupes est sensiblement la même. Il n’y a pas de plus
grande disparité de l’âge au moment du mariage dans l’un ou l’autre groupe.

3. Situer un individu dans une distribution

Un autre objectif des méthodes statistiques est de pouvoir situer un sujet dans un
groupe de sujets. C’est ce qu’on fait intuitivement lorsqu’on compare la moyenne
scolaire d’un élève à celle de sa classe. En psychologie, on a également besoin de ce
type de méthode, notamment dans la méthode des tests. Pour cela, il existe plusieurs
méthodes. Nous allons en examiner successivement trois. La première consiste à se
donner des repères sur la distribution. Ce sont les décilages et les centilages. La
seconde consiste à comparer la performance du sujet à la tendance centrale et à la
dispersion de l’échantillon. C’est l’écart réduit. La troisième méthode constitue une
combinaison des deux précédentes. C’est l’utilisation d’une échelle normalisée.

IED – Université Paris 8 Version 18/12/07 50


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

3.1 Situer dans un décilage

Nous avons vu, avec la médiane et les quartiles qu’on pouvait découper un protocole
en un certain nombre de parts égales. Outre l’information sur la répartition des
observations sur l’échelle de mesure, ce découpage peut également servir à situer un
individu. Ainsi, savoir qu’un individu fait partie du premier quart de la distribution nous
informe immédiatement sur sa piètre performance. Afin d’affiner le découpage, on peut
éventuellement découper la distribution non plus en quatre, mais en 10 parties égales.
C’est ce qu’on appelle le décilage. Pour illustrer cette démarche, nous allons reprendre
notre exemple des notes au test, mais avant regroupement et chercher à situer un sujet
qui aurait obtenu 25 au test. Pour plus de commodités, nous rappelons ci-dessous cette
distribution.

Tableau 4.16 Distribution des notes au test

Pour faire un décilage, il est nécessaire d’avoir suffisamment de modalités (au moins
20 ou 30) sinon les déciles vont se chevaucher et le résultat ne sera pas très informatif.
L’échelle de mesure de la variable doit être ordinale ou numérique et on doit disposer
d’une distribution cumulée (à gauche ou à droite). Il est plus commode de partir d’une
distribution cumulée des fréquences plutôt que des effectifs (pour ne pas avoir à
calculer à chaque fois l’effectif cumulé correspondant). Les fréquences cumulées à
rechercher dans la distribution cumulée des fréquences pour le protocole sont les
suivantes :

51 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

La procédure consiste à relever la modalité correspondant à chacune de ces


fréquences cumulées dans le tableau des fréquences cumulées du protocole. Si une
modalité correspond à cette fréquence cumulée, on la prend pour coupure, sinon on
cherche la modalité la plus proche avant ou après. Si la fréquence du décile est à mi-
chemin entre deux modalités, on s’abstient de choisir et on prend l’intervalle comme
coupure interdécile. Dans le cas où plusieurs modalités correspondent à la fréquence
du décile (effectif nul dans plusieurs classes successives), on prend la première
modalité correspondant à la fréquence cherchée.

À partir des déciles, on définit des classes (comprise entre deux déciles) appelées
interdéciles. Dans notre exemple, les interdéciles sont les suivants :

IED – Université Paris 8 Version 18/12/07 52


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Voyons maintenant comment situer dans la distribution un sujet qui aurait eu une note
de 25. Cette note est plutôt faible, puisque le sujet appartient au 3ème interdécile. Ce qui
veut dire que 70 % des sujets ont une note supérieure. Notre sujet a pourtant la moitié
des points, mais sur ce test, ce n’est pas beaucoup. La construction des interdéciles
correspond à ce qu’on appelle un étalonnage en déciles. Elle est très utilisée dans la
construction des tests. Elle permet ainsi de situer la performance d’un sujet par rapport
aux résultats obtenus dans un échantillon de référence.

3.2 Situer un individu avec un écart réduit

Dans le paragraphe consacré au transformation de variables, nous avons évoqué une


transformation particulière : la transformation z. Le résultat de cette transformation est
le calcul d’une note z appelée écart réduit. Elle consiste à calculer pour chaque
modalité de la variable l’écart à la moyenne de l’échantillon et à pondérer cet écart par
l’écart-type.

u"m
z=
s

Cette nouvelle variable donne à la distribution des propriétés particulièrement


intéressantes. En effet, quelle que soit la distribution, la moyenne de la nouvelle
!
distribution est de 0 et son écart-type est de 1. Cette transformation est surtout utilisée
dans le cadre des statistiques descriptives pour situer un individu dans une distribution
ou comme nous allons le voir avec la normalisation, pour modifier la forme d’une
distribution. Pour situer un individu, un individu, le calcul se fait de la même manière en
remplaçant u par l’observation de l’individu. On a donc la formule suivante :

xi " m
zi =
s

Cela revient à exprimer l’observation de l’individu en nombre d’écart-type de la


moyenne. Un sujet qui aurait pour observation la moyenne aurait en effet une note z de
!

53 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

0. Un autre sujet qui aurait pour observation la moyenne moins un écart-type aurait une
note z de -1.
Reprenons l’exemple précédent d’un sujet qui aurait eu 25 au test. Le calcul ne pose
pas de problème particulier, Il s’agit d’une simple soustraction et d’une division.
Rappelons que, sur cet échantillon, la moyenne à ce test est de 32,95 et l’écart-type de
9,85.
Nous avons donc z= xi-m/s= 25-32,95/9,85= -0,81
On voit que la note z est négative. La distance à la moyenne est donnée par la valeur
absolue de la note z. Elle signifie, dans cet exemple, que notre sujet est situé à 0,81
écart-type de la moyenne. Le signe de la note z indique le sens de cet écart. Si la note
est négative, le sujet est situé en dessous de la moyenne. Si le signe est positif, le sujet
est situé au-dessus de la moyenne. Dans notre exemple, il est en dessous.
Concrètement qu’est-ce que cela veut dire ?

La note z exprime l’écart à la moyenne en nombre d’écart-type. Cette note z de -0,81 veut dire
que notre sujet est à moins d’un écart-type de la moyenne. Autrement dit, il ne diffère pas
beaucoup de la tendance générale de l’échantillon, même s’il est du côté des valeurs faibles.

3.3 Situer dans une échelle normalisée

Nous avons utilisé deux moyens de situer notre sujet dans la distribution et ils nous
apportent des réponses un peu contradictoires. Notre sujet serait moyen et pourtant 70
% des sujets ont une note supérieure. Pourquoi ? C’est que la moyenne et l’écart-type
ne reflètent pas la répartition des observations dans la distribution, mais seulement son
centre de gravité et la dispersion autour de ce centre, sauf dans le cas d’une
distribution normale. La contradiction entre nos deux méthodes résulte du fait que dans
cet exemple, la distribution n’est pas une distribution normale. C’est pourquoi nous
allons la normaliser.
Le point de départ est une distribution cumulée. Il vaut mieux le faire avec une
distribution cumulée des fréquences pour ne pas avoir à calculer l’effectif cumulé
correspondant à chaque coupure. Mais à titre d’exemple, nous montrerons comment
faire à partir des effectifs cumulés. Concrètement, ce que nous allons faire est un
recodage de la variable par regroupement de modalités. Comme précédemment, il est
plus judicieux de choisir un nombre impair de classes. En pratique on choisit une
dizaine de classes. Les nombres les plus proches de 10 sont 9 et 11, ce sont donc
ceux qu’on utilise le plus, mais rien n’interdit, en fonction de la finesse de l’échelle
souhaitée d’en choisir d’autres. Dans une distribution normale, 95,5 % des observations
sont à moins de deux écarts-types de la moyenne. C’est donc entre ces deux bornes
(m-2s et m+2s) qu’on situera notre distribution. L’intervalle de variation qu’on souhaite
obtenir est donc de 4. Voici la démarche qu’il faut suivre :
Calculer l’intervalle de classe en note z. Comme précédemment avec les quartiles et
les déciles, le nombre de coupures nécessaires est égal au nombre d’intervalles à
obtenir moins un.
 Pour obtenir 11 classes, il nous faut 10 coupures. L’intervalle de classe est donc de
4/10=0,4.
 Pour obtenir 9 classes, il nous faut 8 coupures. L’intervalle de classe est donc de
4/8=0,5.

IED – Université Paris 8 Version 18/12/07 54


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

 Pour obtenir 7 classes, il nous faut 6 coupures. L’intervalle de classe est donc de
4/6=0,67 (valeur arrondie).
Pour notre exemple des notes au test, nous avons choisi de regrouper les modalités en
11 classes.
Calculer les limites de la classe centrale en note z. Puisque la distribution z est centrée
sur 0, la classe centrale doit également être centrée sur 0. Les limites de cette classe
sont égales à un demi-intervalle en plus ou en moins autour de 0. Pour 11 classes, ces
limites seront 0,4/2=0,2 donc +0,2 et -0,2.
Calculer les limites des autres classes. L’intervalle entre deux limites de classes est
égal à l’intervalle de classe. Pour trouver les autres limites de classe, il suffit en partant
des classes centrales de retrancher ou d’additionner cet intervalle (dans notre
exemple, l’intervalle de classe est de 0,40).
 Du côté des valeurs négatives, on retranche un intervalle de classe à la limite de la
classe supérieure. Nous aurons donc -0,20 ; -0,60 ; -1 ; -1,4 ; -1,8
 Du côté des valeurs positives, on retranche un intervalle de classe à la limite de la
classe inférieure. Nous aurons 0,20 ; 0,60 ; 1 ; 1,4 ; 1,8.
Ces limites de classes sont bien sûr symétriques puisque nous cherchons une
distribution centrée sur 0.
Consultation de la table de la loi normale. On consulte ensuite la table de distribution
cumulée à gauche de la loi normale réduite (appelée aussi « table de z » ; voir la table
en annexe). Cette table nous donne, pour chaque valeur de z (appelée u dans la table;
rappelons que la lettre u désigne les modalités de la variable), la fréquence cumulée à
gauche de ces notes (p(z<u) , ce qui se lit proportion de notes z inférieures à u) dans
une distribution normale. On lira dans la table la proportion associée à chacune des
limites de classe. Par exemple :
 Pour la limite de classe -1,8 on peut lire dans la table 0,036.
 Pour la limite de classe -1,4 on peut lire dans la table 0,081 etc.
Calcul des effectifs cumulés correspondants à ces fréquences. Pour chacune des
classes, on calcule l’effectif cumulé correspondant en multipliant la fréquence ( p(z<u) )
par l’effectif total n. Comme les effectifs sont des nombres entiers, on arrondi à l’entier
supérieur ou inférieur le plus proche. Dans notre exemple n=113 on a donc :
 Pour la coupure 1 : 0,036*113 = 4,068 soit environ 4.
 Pour la coupure 2 : 0,081*113 = 9,153 soit environ 9.
 Pour la coupure 3 : 0,159*113 = 17,97 soit environ 18.
Détermination des coupures (limites de classes) en notes au test. La procédure de
détermination des coupures est similaire à celles des déciles. Pour chacune des
coupures, on cherche, dans la distribution cumulée des notes au test, la modalité dont
l’effectif cumulé est le plus proche de l’effectif cumulé qu’on vient de calculer (qn). La
procédure consiste à relever les modalités correspondant à chacun de ces effectifs
cumulées dans le tableau des effectifs cumulés du protocole. Si une modalité
correspond à cet effectif cumulé, on la prend pour coupure (nous l’appellerons n’ et la
modalité suivante sera n »). Sinon on cherche la modalité la plus proche avant (n’) ou
après (n »). Si l’effectif cumulé est à mi chemin entre deux modalités, on s’abstient de
choisir et on prend comme coupure n’+n »/2. Dans le cas où plusieurs modalités
correspondraient à l’effectif cumulé (effectif nul dans plusieurs classes successives), on
prend la première modalité correspondant à l’effectif cherché.

55 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Tableau 4.17 Détermination des coupures (limites de classes) en notes au test

Dans notre exemple, on a :


 Pour la classe 1 : qn=4 ; cet effectif correspond à celui de la modalité 11, donc
n’=11 et n »=12
 Pour la classe 2 : qn=9; cet effectif correspond à celui de la modalité 18, donc
n’=18 et n »=19 etc.
Détermination des classes. Une petite lapalissade nous donnera la procédure. Chaque
classe commence là où se termine la précédente et se termine là où commence la
suivante. L’effectif n’ est la coupure, il signale la fin de la classe. L’effectif n » est la
coupure suivante, il indique le début de la classe suivante.
 La première classe va donc de 0 à 11 (n’)
 La seconde classe va de 12 (n » de la classe précédente) à 18 (n’)
 La troisième classe va de 19 (n » de la classe précédente) 22 (n’) etc.
Une autre procédure consiste à calculer les limites de classe. Elles se calculent de la
manière suivante : Limite de classe = (n’+n »)/2. Dans notre exemple, la limite de
classe 1/2 est de (11+12)/2=11,5, ce qui revient à dire que tout ce qui est avant 11,5
appartient à la classe 1 (elle va donc de 0 à 11) et tout ce qui est après appartient à la
classe 2 (elle commence donc à 12). Cette procédure est plus facile si on travaille sur
des échelles de mesure continue avec plusieurs observations entre deux valeurs
entières. Les deux procédures sont équivalentes.
On calcule enfin les effectifs correspondant à chacune des classes. Cette distribution
est appelée distribution normalisée. Nous la résumons dans le tableau ci-dessous.

IED – Université Paris 8 Version 18/12/07 56


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 4.18 Calcul les effectifs correspondant à chacune des classes

Revenons à notre sujet dont la note est de 25 et cherchons à le situer dans cette
nouvelle distribution. Rappelons que la note z de notre sujet est de : z= xi-m / s = 25 -
32,95 / 9,85 = -0,81. Il appartient à la 4ème classe, celle qui comprend les notes de 23 à
26. On peut voir que seulement 27 % des sujets ont une note inférieure à notre sujet (il
faut lire la colonne p(z<u) dans le tableau). Bien qu’il ne soit qu’à moins d’un écart-type
de la moyenne, nous pouvons donc dire que sa performance n’a pas été très bonne.
On remarquera la proximité des conclusions tirées à partir de la normalisation et du
décilage, puisque précédemment nous avions conclu que 70 % des sujets avaient une
note supérieure à 25. Cependant il n’en va pas ainsi de tous les sujets. Si nous prenons
par exemple un sujet qui a eu 27, dans le décilage, il appartiendrait à la même classe
qu’un sujet qui a eu 25, alors que dans la distribution normalisée, un tel sujet appartient
à la classe 5, pour laquelle nous avons 42 % d’observations inférieures. Cela tient à la
fois au nombre de classe (ici nous en avons 11, alors qu’il n’y en a que 10 dans le
décilage) et au fait que la répartition des observations dans les classes dépend de
l’écart à la moyenne après normalisation.

4. Comparer une distribution à une distribution de


référence

On peut avoir besoin dans un certain nombre de cas de comparer une distribution
observée à une distribution théorique. C’est le cas par exemple lorsqu’on veut
comparer la répartition des données à celle qu’on obtiendrait dans une distribution
aléatoire. Nous en donnerons un exemple très bref avec la comparaison à une
distribution uniforme ou plate. Ce type de comparaison sera surtout étudié en deuxième
année avec l’inférence statistique dont elle est le prototype. La démarche présentée ici
est cependant un peu différente, dans la mesure où l’on ne cherche pas à situer
l’échantillon dans un ensemble d’échantillons possibles. Nous verrons également en
deuxième année que certains tests inférentiels nécessitent que les données observées
se distribuent à peu près normalement pour être utilisée. Ce sera l’objet de la seconde
partie de ce paragraphe.

57 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

4.1 Comparaison à une distribution plate

Nous avons vu un peu plus haut ce qui caractérise une distribution amodale ou plate. C’est
l’absence de variation des effectifs sur les différentes modalités. C’est typiquement les
distributions qu’on obtiendrait si les sujets répondaient au hasard. Avec la procédure qui suit,
nous allons voir comment évaluer l’écart entre la distribution observée et une distribution au
hasard. Cette procédure peut être appliquée sur des variables nominales ou ordinales. Prenons un
exemple simple pour illustrer cela. Dans une expérience sur le raisonnement, on demande à un
ensemble de 40 sujets de choisir parmi différentes conclusions de l’argument suivant celle qui
convient :

• Si j’étais riche alors je m’achèterais une nouvelle voiture.


• Je me suis acheté une nouvelle voiture.
• Donc…
A) Je suis riche.
B) Je ne suis pas riche.
C) On ne peut pas savoir.

La distribution des sujets sur ces trois réponses possibles est donnée dans le tableau
suivant :

Tableau 4.19 Distribution des réponses au test de raisonnement

Peut-on dire que les sujets répondent au hasard ?


Dans cette petite expérience, nous avons une variable nominale, les individus
statistiques sont les sujets. Des réponses au hasard présupposent que chaque réponse
ait autant de chance que les autres d’être choisie par les sujets. Ce qui revient à faire
l’hypothèse d’une distribution uniforme sur les trois réponses possibles. Nous allons
évaluer l’écart entre la distribution observée et une distribution uniforme en calculant la
statistique Χ2 (lire khi-deux ou khi carré).
 La première étape consiste à calculer les effectifs théoriques, c’est-à-dire les
effectifs qu’on obtiendrait si les sujets répondaient au hasard. Dans le cas d’une
distribution uniforme, ils correspondent au nombre d’observations divisé par le
nombre de modalités. Dans notre exemple, on aura donc 60/3=20
 On calcule ensuite la différence entre les effectifs observés et les effectifs
théoriques. Pour la première modalité, on aura donc : 25-20=5
 Chacune de ces différences est élevée au carré. Pour la première modalité, on
aura donc 52=25
 On fait ensuite la somme de ces carrés qu’on divise par l’effectif théorique. Ce qui
nous fait : Χ2=(25+0+25)/20=2,5

IED – Université Paris 8 Version 18/12/07 58


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 4.20 Comparaison de la distribution observée à une distribution uniforme

Cette utilisation de X2 pose parfois quelques problèmes. D’abord parce que la


statistique Χ2 est dépendante de l’effectif total. Vous pourrez vérifier à titre d’exercice
que lorsqu’on double l’effectif total, Χ2 double. Pour décider si l’écart entre la distribution
observée et la distribution théorique est important, il faut donc le rapporter à l’effectif
total. Le second problème, spécifique à ce cas un peu particulier de la comparaison
d’une distribution à une distribution uniforme, c’est que X2 varie également en fonction
du nombre de modalités (pour ceux que cela amuse, regarder ce qui se passe
lorsqu’on double le nombre de modalités). En fait, la valeur maximale de X2 sera égale
au nombre de modalités moins un, multiplié par l’effectif total.
Il est donc nécessaire de pondérer Χ2 par l’effectif total. Ce dernier indice est le carré
moyen de contingence Φ2 (lire Phi deux ou phi carré). Dans notre exemple, on aura
donc : Φ2= 2,5/60= 0,042. Dans cet exemple, Φ2 varie de 0 à 2, c’est-à-dire le nombre
de modalités moins un. On peut observer que le carré moyen de contingence que nous
avons calculé est très proche de 0. On pourra donc considérer que la distribution
observée est proche d’une distribution uniforme et donc que les réponses des sujets ne
diffèrent pas du hasard (ce qui ne veut pas dire que les sujets répondent au hasard).

4.2 Comparaison à une distribution normale

Nous allons maintenant examiner la procédure à mettre en œuvre pour comparer une
distribution à une distribution normale. Nous allons encore une fois recourir à notre
exemple des notes au test pour illustrer cette procédure. Pour des raisons de
commodités, c’est de la distribution en 9 classes, utilisée dans les paragraphes
précédents, que nous allons partir. Cependant la procédure peut être transposée à la
distribution avant regroupement.
La question qu’on se pose est la suivante : Peut-on dire que cette distribution observée
est très différente d’une distribution normale ? Nous vous rappelons cette distribution ci-
dessous.

59 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Tableau 4.21 Distribution des notes au test en 9 classes

Le point de départ est une distribution cumulée. Nous choisirons de la cumuler à


gauche, parce qu’elle est, de notre point de vue plus facile à manipuler. Mais il aurait
tout à fait été possible de partir d’une distribution cumulée à droite, en adaptant la
procédure.
Première étape : calcul des notes z correspondant aux limites de classes. Pour cela
nous avons besoin de la moyenne et de l’écart-type. Nous pourrions reprendre les
résultats de nos précédents calculs sur la distribution avant regroupement, mais à titre
d’exercice, nous les calculeront sur la distribution après regroupement.
Puisqu’on part d’une distribution, il nous faudra calculer pour chaque ligne du tableau le
produit de la valeur centrale de la classe (uk) et de son effectif (nk) On aura ainsi
u1n1=3*8=24 ; u2n2=3*13=39 etc. On calculera ensuite le produit du carré de la valeur
centrale par son effectif (uk2nk). Pour u1, on aura ainsi 82*3=192 ; pour u2, 132*3=507
etc.

Tableau 4.22 Calcul de la moyenne et de la variance à partir de la


distribution en classes

On a donc comme moyenne : m= 3719/113= 32,91.


k 2
u k 2 nk !
( "u n ) k (3719) 2
La variance est de : s 2 =
" n =
133697!
113 = 99, 99
n 113
Et l’écart-type est de : s = 99,99 ! 10

IED – Université Paris 8 Version 18/12/07 60


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Le calcul des notes z pour chaque classe est obtenu en faisant la différence entre limite
de classe et la moyenne qu’on divise par l’écart-type. On a ainsi pour la première
classe : z=(10,5-32,91)/10=-2,24 ; pour la deuxième classe : z=(15,5-32,91)/10=-1,74
etc.
Deuxième étape : détermination des fréquences cumulées théoriques. Pour chacune
des classes, on relève, dans la table de la fonction z cumulées à gauche, les
fréquences théoriques correspondant à la note z de la classe. Dans la première classe,
z=-2,24 soit environ -2,2. Dans la table, au regard de cette note z, on lit 0,014. De la
même manière, pour la classe 2, on lit pour z=-1,74 la valeur 0,041. On procède ainsi
pour toutes les classes.
Troisième étape : calcul des effectifs cumulés théoriques. Ils s’obtiennent en multipliant
la note z de la classe par l’effectif total. On a ainsi pour la première classe :
0,014*113=1,582 ; Pour la deuxième classe, on a 0,041*113=4,633 etc.
Quatrième et dernière étape : calcul des effectifs théoriques non cumulés. Pour cela, on
fait la différence entre l’effectif cumulé de la classe et l’effectif cumulé de la classe
précédente.
 Pour la classe 6-10, on a donc 1,582-0=1,582 (ici l’effectif cumulé précédent est
égal à 0 puisqu’il n’y a pas de classe précédente).
 Pour la classe 11-15, on a 4,633-1,582=3,501.
 Pour la classe 16-20, on a 12,091-4,633=7,458 etc.

Tableau 4.23 Normalisation de la distribution

Pour une présentation plus synthétique, on peut faire une comparaison graphique entre
les deux distributions. On représente pour cela sur un même graphique la distribution
(cumulée ou non) observée et théorique. Nous donnons ici les représentations
graphiques sur les distributions cumulées (graphique de droite) et non cumulées
(graphique de gauche).

61 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Figure 4.14 Comparaison graphique de la distribution observée et de la distribution


normalisée (à gauche les distributions cumulées, à droite les distributions non cumulées).

Formulation du commentaire : Le commentaire de ce type de graphique se fonde sur le


pointage des différences et/ou ressemblances entre les deux courbes. Sur le graphique
des effectifs non-cumulés, on retrouve le caractère bi-modal de la distribution observée
(la distribution théorique étant nécessairement unimodale) avec des observations
concentrées sur les dernières modalités (effet plafond). On observe également des
écarts importants entre les deux distributions au-delà de la classe 4. On retrouve ces
différences sur le graphique des effectifs cumulés puisque, sur ce graphique, les
effectifs cumulés théoriques augmentent plus rapidement que les effectifs cumulés
observés à partir de la 4ème classe. On peut donc dire que la distribution observée est
éloignée d’une distribution normale, ce que confirme le calcul des écarts entre les deux
distributions, avec un écart de 9,139 pour la classe 31-35.

IED – Université Paris 8 Version 18/12/07 62


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

CHAPITRE 5 - L’ANALYSE DES PROTOCOLES


BIVARIES

Jusqu à maintenant, nous avons vu comment analyser une distribution univariée, pour
la résumer, en comparer des groupes d’observations ou pour la comparer à une
distribution de référence. Nous allons maintenant aborder les procédures d’analyse sur
les distributions comportant deux variables observées. L’objectif d’analyse est assez
différent de ce que nous avons vu jusqu’à maintenant. Sur ce type de protocole, il s’agit
en effet de savoir si les variations observées sur une des variables s’accompagnent ou
non d’une variation régulière sur l’autre variable. Autrement dit, on cherche à savoir si
les variables sont liées. Nous allons examiner dans ce paragraphe l’étude de la liaison
pour les trois types d’échelles de mesure.

1. Etudier la liaison entre variables nominales

Pour Illustrer cette procédure, nous prendrons les données d’une enquête sur la
représentation de la psychologie. Cette enquête a été menée sous la forme d’un
questionnaire. Nous nous intéresserons, ici, à la relation entre la profession des sujets
et la réponse à la question I : « Pourquoi, à votre avis les gens vont-ils voir les
psychologues ? ». Nous donnons ci-dessous la distribution des effectifs observés.

Tableau 5.1 Distribution des réponses en fonction des catégories professionnelles des sujets

Dans ce protocole, nous avons deux variables. La première est la catégorie


professionnelle. Bien que les effectifs aient été égalisés pour faciliter les comparaisons,
c’est bien une variable observée. L’échelle de mesure est nominale (considérer que les
catégories sont ordonnées fait implicitement appel à d’autres variables tel que le niveau
d’études ou le salaire qui ne sont pas forcément en concordance avec la catégorie
professionnelle). La seconde variable est la réponse à la question I. C’est également
une variable nominale observée. Nous avons donc un protocole bivarié. Les variables
étant nominales, c’est le calcul de Φ2 (phi-carré) qui nous permettra d’analyser la liaison
entre les variables.
Première étape : calcul des fréquences. Le point de départ de l’analyse est le tableau
des effectifs conjoints. À partir de ce tableau, on calcule les fréquences en divisant
l’effectif de la case par l’effectif total. Attention, contrairement à la comparaison de
groupes, on calcule ces fréquences sur l’effectif total et non sur l’effectif du groupe.
Formalisons un peu les choses avant d’aller plus loin. Nous allons appeler j les
modalités de la variable disposée en ligne et k les modalités de la variable disposée en

63 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

colonne. La lettre f désigne toujours une fréquence et la lettre n un effectif. La


fréquence d’une case est donc : fjk=njk/n.
Concrètement : f11 (lire f-1-1) désigne la fréquence de la première modalité en ligne et
de la première modalité en colonne c’est-à-dire les cadres supérieurs ayant répondu
« parce qu’ils se sentent dans un état anormal », on a donc : f11=n11/n=1/80=0,013 ;
f12=n12/n=7/80=0,088. On procède de la même manière pour les autres cases.

Tableau 5.2 Distribution croisée des fréquences

On remarquera dans ce tableau que les fréquences marginales en colonne sont toutes
égales. Ce qui est normal, puisque les effectifs marginaux en colonne sont égaux. Le
total général des fréquences est bien sûr égal à 1.
Deuxième étape : calcul des fréquences-produits. À partir du tableau des fréquences,
on va calculer, pour chaque case le produit de ses fréquences marginales (total des
fréquences en ligne et en colonnes). Nous les noterons f’. On aura ainsi f’jk =fj*fk.
Concrètement : f’11=0,250*0,213=0,053 ; f’12=0,250*0,300=0,053. On procède de la
même manière pour les autres cases

Tableau 5.3 Distribution des fréquences produits

On remarquera que les fréquences-produits marginales sont les mêmes que dans le
tableau précédent. On notera aussi que, pour une modalité de réponse particulière, les
fréquences-produits sont les mêmes pour chacune des catégories professionnelles.
Cela tient au fait que les effectifs marginaux en colonne sont les mêmes. En fait le
calcul des fréquences-produits revient à calculer les fréquences qu’on obtiendrait si les
réponses des sujets se répartissaient de la même façon pour chacune des catégories
professionnelles, c’est-à-dire s’il n’y avait aucune liaison entre les variables. Vous
pouvez voir ici que nous sommes en train de généraliser à des distributions croisées la
procédure que nous avons présentée pour la comparaison à une distribution plate. Dit
autrement, s’il n’y a pas de relation entre les variables, la distribution des fréquences
des réponses se ferait au hasard pour les quatre catégories professionnelles. C’est
cette distribution, que nous appellerons distribution théorique, que nous venons de

IED – Université Paris 8 Version 18/12/07 64


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

calculer. Pour la comparer à la distribution observée, il nous faut connaître les effectifs
correspondant à cette distribution des fréquences.
Troisième étape : calcul des effectifs théoriques. Ils s’obtiennent en multipliant les
fréquences-produits par l’effectif total. L’effectif théorique se note n’. On aura donc
n’jk=f’jk*n. Concrètement n’11=f’11*n=0,053*80= 4 ; n’12=f’12*n=0,053*80 etc.

Tableau 5.4 Distribution des effectifs théoriques

On notera que les effectifs théoriques sont les mêmes pour chacune des catégories
professionnelles, ce qui est normal puisque les effectifs totaux sont les mêmes pour
chacune des colonnes. On notera également que les effectifs marginaux théoriques
sont les mêmes que les effectifs marginaux observés. C’est toujours le cas. En effet,
les effectifs théoriques correspondent à une répartition des observations
proportionnelles aux effectifs marginaux, il est donc normal de retrouver les mêmes
marges.
Quatrième étape : calcul des taux de liaison. Si nos deux variables sont liées, alors les
effectifs observés s’écartent de manière importante des effectifs théoriques. On évalue
ces écarts en faisant simplement la différence entre les effectifs observés et les effectifs
théoriques. Bien sûr ces écarts n’ont de sens que relativement aux effectifs attendus en
cas d’absence de liaison. C’est la raison pour laquelle on pondère ces écarts par les
effectifs théoriques. Concrètement, le taux de liaison s’obtient de la manière suivante :
taux de liaison = njk-n’jk /n’jk.

- Pour la première case, on aura donc (1-4,25)/4,25= -0,765 ;


- Pour la seconde case, on aura (7-4,25)/4,25= 0,647 etc.

Tableau 5.5 Distribution des taux de liaison

Le commentaire de ce tableau s’appuiera sur le sens des écarts et l’importance de ces


écarts. Les taux de liaison positifs indiquent les sur-représentations. Les taux de liaison
négatifs indiquent les sous-représentations. La valeur absolue du taux de liaison révèle
l’importance de l’écart entre les effectifs observés et les effectifs théoriques. On
observe ici que les cadres supérieurs ont tendance à répondre plus souvent « Par

65 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

besoin d’aide, de conseil » et répondent moins souvent « Parce qu’ils se sentent dans
un état anormal », contrairement aux cadres moyens. Chez les ouvriers en revanche,
c’est l’absence de réponses qui prédomine, contrairement aux professions libérales qui
s’abstiennent rarement de répondre et pour qui la consultation d’un psychologue relève
essentiellement de problèmes d’orientation.
Cinquième étape : calcul du carré moyen de contingence Φ2. Nous avons vu à l’étape
précédente que les modalités de réponse sont liées à la catégorie professionnelle des
sujets. La dernière étape consiste à évaluer globalement l’importance de cette liaison.
Cette évaluation se fait à l’aide de la statistique Φ2. Pour chaque case, on calcule le
carré du taux de liaison qu’on multiplie ensuite par la fréquence-produit
correspondante. Concrètement pour la première case (cadres sup./réponse 1), on
aura : -0,7652*0,053= 0,031 ; Pour la seconde case, on aura : 0,6472*0,053= 0,022.

Tableau 5.6 Calcul du carré moyen de contingence

Φ2 est égal au total du tableau. Dans cet exemple, Φ2=0,281. La méthode que nous
venons de présenter a été détaillée afin de vous faire comprendre le lien qui existe
entre la procédure de comparaison à une distribution plate et l’étude de la liaison. En
pratique on ne procède pas tout à fait de cette façon, notamment pour économiser le
travail de calcul. Φ2 étant égal à X2/n, on passe par le calcul de X2 en utilisant la
formule suivante :
2
% (n j * n k ) (
' n jk # *
(obs # théo) 2 (n jk # n' jk ) 2 & n )
" =$
2
=$ =$
théo n' jk (n j * n k )
n
Pour cela, on ne construit qu’un seul tableau, en organisant les cellules de la façon
suivante :

! Effectif observé Effectif théorique

Ecart brut Contribution au X2

On peut ainsi gagner tout le temps nécessaire à la recopie des tableaux, et avoir sous
les yeux de manière synthétique tous les résultats de l’analyse. L’autre intérêt, c’est
que, pour chacune des cellules du tableau, on enchaîne les calculs. Il est donc inutile
de saisir à nouveau le résultat intermédiaire notamment si on sait se servir de la
mémoire de sa calculette. On peut donc calculer parallèlement le X2 qu’il ne reste plus
qu’à diviser par l’effectif total pour avoir Φ2.
Concrètement, voici comment on s’y prend :

IED – Université Paris 8 Version 18/12/07 66


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Dans les marges du tableau, on note les effectifs totaux observés et dans le coin en
haut à gauche de chaque cellule, on note les effectifs observés. On calcule ensuite les
contributions au X2 de chaque cellule de la manière suivante :
Exemple : Pour les cadres supérieurs ayant donné la première modalité de réponse :
 On calcule l’effectif théorique en multipliant les marges et en la divisant par n soit
17*20/80=4,25. On note ce résultat en haut à droite de la cellule.
 On calcule ensuite l’écart brut. Pour ne pas avoir à saisir à nouveau l’effectif
théorique sur la calculette, on soustrait à l’effectif théorique l’effectif observé et on
inverse le signe. Dans notre exemple : 4,25-1=3,25. l’écart brut est donc de –3,25.
On le note en bas à gauche dans la cellule.
 Puis on élève au carré l’écart brut . Le résultat est ensuite divisé par l’effectif
théorique. On note le résultat de cette dernière opération dans le coin en bas à
droite.
 Si votre calculette dispose d’une touche mémoire (notée généralement « M+ »), on
additionne ce dernier résultat au contenu de la mémoire.
Puis on recommence pour chacune des cellules du tableau. Lorsque vous aurez fini, la
mémoire de votre calculette devrait contenir la somme des contributions au X2, c’est-à-
dire X2. On divise alors ce résultat par n pour obtenir Φ2. Dans notre exemple,
X2=22,468 et donc Φ2=22,468/80=0,281

Tableau 5.7 Calcul du khi-deux

Interprétation du résultat. Cet indice Φ2 peut être vu comme la proportion de sujets


s’écartant du cas d’absence de liaison. Sa valeur varie minimale est de 0 (absence de
liaison). Dans cet exemple, nous aurons un phi-deux maximum de 4-1=3 (concordance
entre les modalités des variables). Dans notre exemple, Φ2 est plus proche de 0 que de
3, nous conclurons donc à une liaison faible entre les variables. Le cas de concordance
correspond au cas où, pour chaque catégorie professionnelle, on aurait observé qu’une
seule modalité de réponse. Dans un tel cas, on comprend bien que connaissant la
réponse d’un sujet à la question, on connaît également sa catégorie professionnelle. De
la même façon, si je connais la catégorie professionnelle d’un sujet, je sais, dans le cas
de concordance, ce qu’il va répondre à la question. Ce cas n’est bien sûr que très
rarement observé, mais s’il existe une liaison entre les variables, c’est de cela qu’on se
rapprocherait. On pourra, à titre d’exercice, calculer Φ2 pour le cas de concordance et
vérifier que sa valeur est de 3. De la même façon, si la liaison entre les variables est
nulle, le tableau des effectifs observés serait le même que celui des effectifs
théoriques. On peut alors vérifier que Φ2 est bien égal à 0.

67 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

2. Etudier la liaison entre variables ordinales

Avec les variables ordinales, la question de la liaison se pose un peu différemment. Puisque les
modalités des variables sont ordonnées, il s’agit ici de savoir si elle s’ordonnent de la même
manière pour les deux séries. Pour cela, on calcule un indice qu’on appelle le Rho de Spearman
et qu’on note avec la lettre ρ. La formule de calcul est la suivante :

% 6$ d 2 (
" = 1# '' 2
*
*
& n(n #1) )

Dans cette formule, d est la différence de rang entre les deux variables et n, le nombre
d’individus statistiques ou si vous préférez le nombre de couple d’observations puisque
nous travaillons sur deux!variables. Voyons concrètement comment calculer cet indice
à l’aide un petit exemple.
Un professeur travaillant dans une classe préparatoire désire évaluer la fiabilité des
résultats aux concours que passent ses étudiants. Pour cela, il relève le classement de
12 de ses élèves à deux concours. Les données sont rapportées ci-dessous. Il s’agit du
protocole et non d’une distribution.

Tableau 5.8 Protocole de classement des étudiants à deux concours.

Nous avons dans ce protocole douze individus statistiques, les étudiants. A chacun
d’eux est associé un classement dans chacun des concours. Nous avons donc deux
variables. Ces variables sont bien ordinales, puisqu’il s’agit d’un classement et non
d’une note. Il ne faut, ici pas se laissez abuser par les étiquettes numériques. A
première vue, les classements aux deux concours ont l’air très différents. Certains
étudiants font mieux au premier concours, tandis que d’autres réussissent mieux le
second. Ces rangs sont cependant ceux des concours et tiennent compte de la place
d’autres étudiants venant d’horizons divers. Nous allons donc procéder au classement
à l’intérieur du groupe d’observations et pour cela calculer le rang de chaque étudiant
au sein du groupe.
Première étape : Calculer les rangs des individus pour chacune des variables. Ce
calcul est assez simple. Il consiste à ordonner les individus sur chacun des variables,
puis à affecter un rang à chacun d’eux (rangs bruts) en les numérotant dans l’ordre.

IED – Université Paris 8 Version 18/12/07 68


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Pour les ex-aequo, on attribuera la moyenne des rangs bruts. On obtient ainsi le rang
de chacun des individus pour la variable.

Tableau 5.9 Classement par rang des observations pour le concours 1

On procédera de même pour la seconde variable.


Deuxième étape : Calculer le carré de la différence de rangs pour chacun des individus.
Ce calcul ne pose pas de difficulté particulière. Pour chacun des individus, on
commence par calculer la différence entre le rang sur la première variable et le rang sur
la seconde. On élève ensuite cette différence au carré. Pour la suite des calculs, nous
aurons également besoin de calculer la somme de ces carrés. Le détail de ces calculs
est présenté dans le tableau ci-dessous.

Tableau 5.10 Calcul des carrés des différences de rangs

Troisième étape : Application de la formule du ρ de Spearman. Nous avons dans cet


exemple 12 individus et la somme des carrés des différences de rangs est de 78. Nous
pouvons maintenant instancier la formule de calcul c’est-à-dire remplacer les lettres par
leur valeur. Nous avons donc :

69 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

% 6$ d 2 ( % (
" = 1# '' * = 1# ' 6 * 78 * = 0,73
n(n 2
#1) * & 12(12 2
#1) )
& )

Le r de Spearman varie entre -1 et 1. La valeur -1 veut dire que les rangs sont liés
négativement, c’est-à-dire que lorsque le rang 1 augmente, le rang 2 diminue. La valeur
1 signifie que!les rangs sont liés positivement. Autrement dit, si le rang 1 augmente, le
rang 2 augmente dans les mêmes proportions. Entre les deux, un r nul signifie que les
rangs ne sont pas liés. Dans notre exemple, on voit que la valeur observée est proche
de 1. On peut donc dire que les deux variables sont liées positivement. Du point de vue
de notre professeur, cela veut dire que le classement des concours est fiable.
Avec le r de Spearman, ce qui est évalué, c’est la covariance des rangs sur les deux
variables. Comme le r de Bravais-Pearson dont il dérive, le ρ de Spearman indique la
part de la variance expliquée par une fonction linéaire. Le signe de cet indice indique le
sens de la liaison. Il s’interprète donc de la même façon. Nous allons approfondir cette
notion avec l’étude de la liaison sur les variables numériques.

3. Etudier la liaison entre variables numériques

Pour illustrer l’analyse de la liaison entre deux variables numériques, nous reprendrons
les données de l’enquête sur les registres d’état civil (paragraphe 2.3 ). La question
qu’on se pose maintenant est : « existe-il une relation entre l’âge de l’époux et l’âge de
l’épouse au moment du mariage ? ».
La question que l’on se pose ici est très différente de celle que nous avons examinée
dans le chapitre précédent. La question de la relation entre les variables demande de
voir le protocole différemment. Ici, les unités statistiques sont les couples et nous avons
deux variables numériques : l’âge de l’époux et l’âge de l’épouse. On considère donc
un protocole bivarié non structuré. L’évaluation de la liaison se fera à l’aide du r de
Bravais-Pearson. Celui-ci est en effet un bon indice pour évaluer la liaison entre les
deux variables numériques. Il permet d’évaluer la proximité des données avec une
liaison linéaire, c’est-à-dire une liaison entre deux variables qui se traduirait
graphiquement par une droite. On peut voir que nous sommes à peu près dans ce cas
de figure puisqu’on peut voir sur le graphique ci-dessous que les données suivent à
peu près une droite.

IED – Université Paris 8 Version 18/12/07 70


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

50

45

40

35

Age des épouses


30

25

20

15

10

0
0 5 10 15 20 25 30 35 40 45 50

Age des époux

Figure 5.1 Graphique de corrélation entre l’âge des époux et l’âge des épouses

L’idée générale qui préside à la construction du r de Bravais-Pearson est le concept de


covariance. La covariance est la moyenne des produits des écarts à la moyenne.
Formellement, la covariance se définit ainsi8 :

# x# y
# (x i " mx )(y i " my ) # xy " n
cov xy = =
n n

La covariance étant une sorte de moyenne, on peut comprendre intuitivement que la


liaison entre les deux variables est d’autant plus importante que les observations
s’écartent !
des moyennes. Par ailleurs, si les deux variables varient dans le même sens,
les observations seront soit au-dessus, soit au-dessous des moyennes des deux
variables. En revanche si elles varient en sens inverse, les observations sur une des
variables seront au-dessus de la moyenne et au-dessous de la moyenne de l’autre
variable. Résumer chacun des couples d’écarts à la moyenne par le produit des deux
valeurs permet d’avoir un signe positif lorsque les écarts vont dans le même sens et un
signe négatif lorsque les valeurs varient en sens inverse. Cependant cet indice est
sensible au nombre de modalités des variables. Plus ce nombre est important plus la
covariance est importante. D’où l’idée de pondérer la covariance par les écart-types (ce
qui devrait vous rappeler l’écart-réduit). On obtient ainsi le r de Bravais Pearson.
La formule du r de Bravais-Pearson peut donc s’écrire de la façon suivante :

" (x i ! m x )( yi ! m y )
cov xy n
r= =
s x *s y (x i ! m x ) 2
2
" " (y ! m )
i y

8
Attention, n représente le nombre d’individus statistiques et non le nombre d’observations. Nous avons 39 couples et
39*2=78 observations puisque nous avons deux variables.

71 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

La valeur de cet indice varie de -1 à 1. Il est égal à 1 lorsque les deux séries de
données sont proportionnelles l’une à l’autre, autrement dit lorsque les données
s’alignent sur une droite dont la pente augmente de gauche à droite. Cet indice est
égale à -1 lorsque les deux séries de données sont inversement proportionnelles,
autrement dit lorsqu’elle s’alignent sur une droite qui décroît de gauche à droite. Enfin,
cet indice est égal à 0 en cas d’absence de liaison entre les deux variables. La
ressemblance entre la formule du r et celle de la variance ne vous a sans doute pas
échappé. Aussi ne serez-vous pas étonné d’apprendre qu’on peut simplifier cette
formule de définition pour réduire la complexité des calculs. On a ainsi :

" x y ! " n"


x y

r=
" (x i ! m x )( yi ! my )
=
i i

" (x ! mx ) 2 "( y ! m ) 2 2 2
i i y #%
$ " x ! (" x )
2
i i / n&( #%
'$ " y ! (" y )
i
2
i / n&(
'

L’application de la formule de définition est présentée ci-dessous. C’est celle qui s’applique au
protocole, mais on pourra par analogie avec ce que nous avons fait pour la moyenne et
l’écart-type, transposer ce calcul à partir d’une distribution. L’application de la formule
de définition nécessite le calcul des quantités :
• " (x i ! m x )( yi ! m y )

" (x i ! mx )2

" (y i ! my )2

La première s’obtient en calculant pour chaque couple et chaque variable l’écart entre
l’observation et la moyenne et en faisant ensuite le produit de ces écarts.

- Par exemple, pour le premier couple, on aura : (20-27)*(20-26)=-7*-6=42 ;


- Pour le second couple, on aura (25-27)*(24-26)=-2*-2=4.
Lorsque cela est réalisé pour chacun des couples, on fait la somme de ces produits. Ici
le total est égal à 1501. Pour les deux autres quantités, on reconnaît la formule du
dénominateur de la variance. La procédure de calcul est la même. En pratique, les
écarts à la moyenne ayant été calculés pour la précédente quantité, on les élève au
carré et on fait ensuite la somme de ces carrés pour chacune des variables. Dans notre
exemple, nous avons :

" (x i ! m x ) 2 = 1622 et " (y i ! my )2 = 1452

On applique ensuite la formule de définition pour obtenir le r de Bravais-Pearson :

r=
" (x ! m )( y ! m )
i x i y
=
1501
= 0, 978
2 2 1622 * 1452
" (x ! m ) " ( y ! m )
i x i y

IED – Université Paris 8 Version 18/12/07 72


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Tableau 5.11 Application de la formule de définition du r de Bravais-Pearson

Interprétation. La valeur de r est très proche de 1. On peut donc affirmer qu’il existe une
relation linéaire positive entre l’âge de l’époux et l’âge de l’épouse dans un couple. Dit
autrement, les âges des conjoints dans un couple sont proportionnels.
Une autre façon de calculer le r de Bravais-Pearson est de calculer la covariance et de
la diviser par le produit des deux écarts-types. La covariance est la moyenne des
produits des écarts à la moyenne. Formellement, la covariance se définit ainsi9 :

cov xy =
" (x i ! m x )( yi ! m y )
n

La formule du r de Bravais-Pearson peut se réécrire de la façon suivante :

" (x i ! m x )( yi ! m y )
cov xy n
r= =
s x *s y (x i ! m x ) 2
2
" " (y ! m )
i y

On identifie aisément la simplification qui permet de passer à la formule de définition du


r de Bravais-Pearson. Cette procédure de calcul est surtout intéressante si on connaît
déjà les écarts-types.
Concrètement, il faut :
 Calculer pour chaque individu statistique et chaque variable, son écart à la
moyenne. La moyenne pour l’âge des époux étant de 27 ans et la moyenne de
l’âge des épouses étant de 26 ans, on a pour le premier couple un écart à la

9
Attention, n représente le nombre d’individus statistiques et non le nombre d’observations. Nous avons 39 couples et
39*2=78 observations puisque nous avons deux variables.

73 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

moyenne de 20-27=-7 pour l’âge de l’époux et un écart de 20-26=-6 pour l’âge de


l’épouse.
 On fait ensuite le produit de ces deux écarts. Ainsi, pour le premier couple, on
aura : -7*-6=42.
 On procède ainsi pour tous les couples (voir le tableau ci-dessous).
 On calcule ensuite la moyenne des produits des écarts aux moyennes
(concrètement la moyenne de la dernière colonne). Cette moyenne est la
covariance. Dans notre exemple, elle vaut 38,487.
 On divise ensuite cette covariance par le produit des deux écarts-types. On a
donc :

cov xy 38,487
r= = = 0, 978
s x *s y 6,149 *6,102

Nous allons voir maintenant l’application de la formule de calcul. Il est conseillé


d’utiliser cette formule car elle est plus rapide et plus facile à réaliser.

IED – Université Paris 8 Version 18/12/07 74


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Dans le tableau, vous calculez :


 La somme des x (c'est-à-dire le total des âges des époux)
 La somme des y (c'est-à-dire le total des âges des épouses)
 La somme des carrés de x et la somme des carrés de y (pour calculer les écarts
types)
 puis la somme de chaque observation de x multiplié par chaque observation de y
(pour chaque couple). A noter qu’avec une calculatrice de collège qui a un mode
statistique, il est possible d’obtenir directement ∑x, ∑x², après avoir rentré chaque
observation puis de la même façon ∑y, ∑y².
Ensuite vous appliquez la formule

# x# y 1053*1014
# xy " n
28879 "
39
cov xy n 39 38,487
r= = = = = 0,978
sx sy sx sy 6,449 * 6,102 39,352

75 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

FORMULAIRE

Statistiques Formules
Densité Densité = effectif / étendue
Fréquence n(u)
f (u) =
n
Moyenne ! xi T ! nk uk !xn i i
m= = = =
n n n n
Variance 2
2
(" xi )
" (x i ! m)2 "x i !
n
Var = =
n n
Ecart-type Ecart ! type = var
2
Variance corrigée (" xi )
" (x i ! m)
2
" x i2 ! n
Varcorr = = = Var * n / n ! 1
n !1 n !1
Ecart-type corrigé
Ecart ! typecorr = varcorr
Note z xi ! m
zi =
écart ! type
Effectifs théoriques n *n
n' jk = j k
n
Taux de liaison n jk ! n' jk
Taux.de.liaison =
n' jk
Khi-deux 2
% (n j * n k ) (
' n jk # *
(obs # théo) 2 (n jk # n' jk ) 2 & n )
" =$
2
=$ =$
théo n' jk (n j * n k )
n
Carré moyen de (njk " n' jk )2 n' jk $ 2
contingence !2 = # * =
(n' jk )2 n n
!
" x y ! " n"
Coefficient de x y
corrélation r de Bravais-
r=
" (x ! m )( y ! m )
i x i y
=
i i

Pearson 2 2 2 2
" (x ! m ) " ( y ! m )
i x i y #
%
$ " x ! (" x )
2
i i
&#
/ n( %
'$ " y ! (" y )
i
2
i
&
/ n(
'
Coefficient de 6# d 2
corrélation par rang de ! =1 " 3
Spearman n "n

IED – Université Paris 8 Version 18/12/07 76


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

TABLES STATISTIQUES

77 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Table de la fonction cumulée à gauche de la


distribution normale réduite
Cette table donne la proportion d'échantillons dont la valeur de z est
inférieure à une valeur donnée u.

u p(Z<u) u p(Z<u) u p(Z<u) u p(Z<u) u p(Z<u) u p(Z<u)


-3,50 0,000 -1,18 0,119 -0,53 0,298 0,03 0,512 0,59 0,722 1,30 0,903
-3,40 0,000 -1,16 0,123 -0,52 0,302 0,04 0,516 0,60 0,726 1,32 0,907
-3,30 0,000 -1,14 0,127 -0,51 0,305 0,05 0,520 0,61 0,729 1,34 0,910
-3,20 0,001 -1,12 0,131 -0,50 0,309 0,06 0,524 0,62 0,732 1,36 0,913
-3,10 0,001 -1,10 0,136 -0,49 0,312 0,07 0,528 0,63 0,736 1,38 0,916
-3,00 0,001 -1,08 0,140 -0,48 0,316 0,08 0,532 0,64 0,739 1,40 0,919
-2,90 0,002 -1,06 0,145 -0,47 0,319 0,09 0,536 0,65 0,742 1,42 0,922
-2,80 0,003 -1,04 0,149 -0,46 0,323 0,10 0,540 0,66 0,745 1,44 0,925
-2,70 0,003 -1,02 0,154 -0,45 0,326 0,11 0,544 0,67 0,749 1,46 0,928
-2,60 0,005 -1,00 0,159 -0,44 0,330 0,12 0,548 0,68 0,752 1,48 0,931
-2,50 0,006 -0,99 0,161 -0,43 0,334 0,13 0,552 0,69 0,755 1,50 0,933
-2,40 0,008 -0,98 0,164 -0,42 0,337 0,14 0,556 0,70 0,758 1,52 0,936
-2,30 0,011 -0,97 0,166 -0,41 0,341 0,15 0,560 0,71 0,761 1,54 0,938
-2,20 0,014 -0,96 0,169 -0,40 0,345 0,16 0,564 0,72 0,764 1,56 0,941
-2,10 0,018 -0,95 0,171 -0,39 0,348 0,17 0,567 0,73 0,767 1,58 0,943
-2,00 0,023 -0,94 0,174 -0,38 0,352 0,18 0,571 0,74 0,770 1,60 0,945
-1,98 0,024 -0,93 0,176 -0,37 0,356 0,19 0,575 0,75 0,773 1,62 0,947
-1,96 0,025 -0,92 0,179 -0,36 0,359 0,20 0,579 0,76 0,776 1,64 0,949
-1,94 0,026 -0,91 0,181 -0,35 0,363 0,21 0,583 0,77 0,779 1,66 0,952
-1,92 0,027 -0,90 0,184 -0,34 0,367 0,22 0,587 0,78 0,782 1,68 0,954
-1,90 0,029 -0,89 0,187 -0,33 0,371 0,23 0,591 0,79 0,785 1,70 0,955
-1,88 0,030 -0,88 0,189 -0,32 0,374 0,24 0,595 0,80 0,788 1,72 0,957
-1,86 0,031 -0,87 0,192 -0,31 0,378 0,25 0,599 0,81 0,791 1,74 0,959
-1,84 0,033 -0,86 0,195 -0,30 0,382 0,26 0,603 0,82 0,794 1,76 0,961
-1,82 0,034 -0,85 0,198 -0,29 0,386 0,27 0,606 0,83 0,797 1,78 0,962
-1,80 0,036 -0,84 0,200 -0,28 0,390 0,28 0,610 0,84 0,800 1,80 0,964
-1,78 0,038 -0,83 0,203 -0,27 0,394 0,29 0,614 0,85 0,802 1,82 0,966
-1,76 0,039 -0,82 0,206 -0,26 0,397 0,30 0,618 0,86 0,805 1,84 0,967
-1,74 0,041 -0,81 0,209 -0,25 0,401 0,31 0,622 0,87 0,808 1,86 0,969
-1,72 0,043 -0,80 0,212 -0,24 0,405 0,32 0,626 0,88 0,811 1,88 0,970
-1,70 0,045 -0,79 0,215 -0,23 0,409 0,33 0,629 0,89 0,813 1,90 0,971
-1,68 0,046 -0,78 0,218 -0,22 0,413 0,34 0,633 0,90 0,816 1,92 0,973
-1,66 0,048 -0,77 0,221 -0,21 0,417 0,35 0,637 0,91 0,819 1,94 0,974
-1,64 0,051 -0,76 0,224 -0,20 0,421 0,36 0,641 0,92 0,821 1,96 0,975
-1,62 0,053 -0,75 0,227 -0,19 0,425 0,37 0,644 0,93 0,824 1,98 0,976
-1,60 0,055 -0,74 0,230 -0,18 0,429 0,38 0,648 0,94 0,826 2,00 0,977
-1,58 0,057 -0,73 0,233 -0,17 0,433 0,39 0,652 0,95 0,829 2,10 0,982
-1,56 0,059 -0,72 0,236 -0,16 0,436 0,40 0,655 0,96 0,831 2,20 0,986
-1,54 0,062 -0,71 0,239 -0,15 0,440 0,41 0,659 0,97 0,834 2,30 0,989
-1,52 0,064 -0,70 0,242 -0,14 0,444 0,42 0,663 0,98 0,836 2,40 0,992
-1,50 0,067 -0,69 0,245 -0,13 0,448 0,43 0,666 0,99 0,839 2,50 0,994
-1,48 0,069 -0,68 0,248 -0,12 0,452 0,44 0,670 1,00 0,841 2,60 0,995
-1,46 0,072 -0,67 0,251 -0,11 0,456 0,45 0,674 1,02 0,846 2,70 0,997
-1,44 0,075 -0,66 0,255 -0,10 0,460 0,46 0,677 1,04 0,851 2,80 0,997
-1,42 0,078 -0,65 0,258 -0,09 0,464 0,47 0,681 1,06 0,855 2,90 0,998
-1,40 0,081 -0,64 0,261 -0,08 0,468 0,48 0,684 1,08 0,860 3,00 0,999
-1,38 0,084 -0,63 0,264 -0,07 0,472 0,49 0,688 1,10 0,864 3,10 0,999
-1,36 0,087 -0,62 0,268 -0,06 0,476 0,50 0,691 1,12 0,869 3,20 0,999
-1,34 0,090 -0,61 0,271 -0,05 0,480 0,51 0,695 1,14 0,873 3,30 1,000
-1,32 0,093 -0,60 0,274 -0,04 0,484 0,52 0,698 1,16 0,877 3,40 1,000
-1,30 0,097 -0,59 0,278 -0,03 0,488 0,53 0,702 1,18 0,881
-1,28 0,100 -0,58 0,281 -0,02 0,492 0,54 0,705 1,20 0,885
-1,26 0,104 -0,57 0,284 -0,01 0,496 0,55 0,709 1,22 0,889
-1,24 0,107 -0,56 0,288 0,00 0,500 0,56 0,712 1,24 0,893
-1,22 0,111 -0,55 0,291 0,01 0,504 0,57 0,716 1,26 0,896
-1,20 0,115 -0,54 0,295 0,02 0,508 0,58 0,719 1,28 0,900

IED – Université Paris 8 Version 18/12/07 78


INITIATION A L’ANALYSE STATISTIQUE DES DONNEES JEAN-MARC MEUNIER

Table de la fonction cumulée à droite de la


distribution normale réduite
Cette table donne la proportion d'échantillons dont la valeur de z est
supérieure à une valeur donnée u.

u p(Z>u) u p(Z>u) u p(Z>u) u p(Z>u) u p(Z>u) u p(Z>u)


-3,50 1,000 -1,18 0,881 -0,53 0,702 0,03 0,488 0,59 0,278 1,30 0,097
-3,40 1,000 -1,16 0,877 -0,52 0,698 0,04 0,484 0,60 0,274 1,32 0,093
-3,30 1,000 -1,14 0,873 -0,51 0,695 0,05 0,480 0,61 0,271 1,34 0,090
-3,20 0,999 -1,12 0,869 -0,50 0,691 0,06 0,476 0,62 0,268 1,36 0,087
-3,10 0,999 -1,10 0,864 -0,49 0,688 0,07 0,472 0,63 0,264 1,38 0,084
-3,00 0,999 -1,08 0,860 -0,48 0,684 0,08 0,468 0,64 0,261 1,40 0,081
-2,90 0,998 -1,06 0,855 -0,47 0,681 0,09 0,464 0,65 0,258 1,42 0,078
-2,80 0,997 -1,04 0,851 -0,46 0,677 0,10 0,460 0,66 0,255 1,44 0,075
-2,70 0,997 -1,02 0,846 -0,45 0,674 0,11 0,456 0,67 0,251 1,46 0,072
-2,60 0,995 -1,00 0,841 -0,44 0,670 0,12 0,452 0,68 0,248 1,48 0,069
-2,50 0,994 -0,99 0,839 -0,43 0,666 0,13 0,448 0,69 0,245 1,50 0,067
-2,40 0,992 -0,98 0,836 -0,42 0,663 0,14 0,444 0,70 0,242 1,52 0,064
-2,30 0,989 -0,97 0,834 -0,41 0,659 0,15 0,440 0,71 0,239 1,54 0,062
-2,20 0,986 -0,96 0,831 -0,40 0,655 0,16 0,436 0,72 0,236 1,56 0,059
-2,10 0,982 -0,95 0,829 -0,39 0,652 0,17 0,433 0,73 0,233 1,58 0,057
-2,00 0,977 -0,94 0,826 -0,38 0,648 0,18 0,429 0,74 0,230 1,60 0,055
-1,98 0,976 -0,93 0,824 -0,37 0,644 0,19 0,425 0,75 0,227 1,62 0,053
-1,96 0,975 -0,92 0,821 -0,36 0,641 0,20 0,421 0,76 0,224 1,64 0,051
-1,94 0,974 -0,91 0,819 -0,35 0,637 0,21 0,417 0,77 0,221 1,66 0,048
-1,92 0,973 -0,90 0,816 -0,34 0,633 0,22 0,413 0,78 0,218 1,68 0,046
-1,90 0,971 -0,89 0,813 -0,33 0,629 0,23 0,409 0,79 0,215 1,70 0,045
-1,88 0,970 -0,88 0,811 -0,32 0,626 0,24 0,405 0,80 0,212 1,72 0,043
-1,86 0,969 -0,87 0,808 -0,31 0,622 0,25 0,401 0,81 0,209 1,74 0,041
-1,84 0,967 -0,86 0,805 -0,30 0,618 0,26 0,397 0,82 0,206 1,76 0,039
-1,82 0,966 -0,85 0,802 -0,29 0,614 0,27 0,394 0,83 0,203 1,78 0,038
-1,80 0,964 -0,84 0,800 -0,28 0,610 0,28 0,390 0,84 0,200 1,80 0,036
-1,78 0,962 -0,83 0,797 -0,27 0,606 0,29 0,386 0,85 0,198 1,82 0,034
-1,76 0,961 -0,82 0,794 -0,26 0,603 0,30 0,382 0,86 0,195 1,84 0,033
-1,74 0,959 -0,81 0,791 -0,25 0,599 0,31 0,378 0,87 0,192 1,86 0,031
-1,72 0,957 -0,80 0,788 -0,24 0,595 0,32 0,374 0,88 0,189 1,88 0,030
-1,70 0,955 -0,79 0,785 -0,23 0,591 0,33 0,371 0,89 0,187 1,90 0,029
-1,68 0,954 -0,78 0,782 -0,22 0,587 0,34 0,367 0,90 0,184 1,92 0,027
-1,66 0,952 -0,77 0,779 -0,21 0,583 0,35 0,363 0,91 0,181 1,94 0,026
-1,64 0,949 -0,76 0,776 -0,20 0,579 0,36 0,359 0,92 0,179 1,96 0,025
-1,62 0,947 -0,75 0,773 -0,19 0,575 0,37 0,356 0,93 0,176 1,98 0,024
-1,60 0,945 -0,74 0,770 -0,18 0,571 0,38 0,352 0,94 0,174 2,00 0,023
-1,58 0,943 -0,73 0,767 -0,17 0,567 0,39 0,348 0,95 0,171 2,10 0,018
-1,56 0,941 -0,72 0,764 -0,16 0,564 0,40 0,345 0,96 0,169 2,20 0,014
-1,54 0,938 -0,71 0,761 -0,15 0,560 0,41 0,341 0,97 0,166 2,30 0,011
-1,52 0,936 -0,70 0,758 -0,14 0,556 0,42 0,337 0,98 0,164 2,40 0,008
-1,50 0,933 -0,69 0,755 -0,13 0,552 0,43 0,334 0,99 0,161 2,50 0,006
-1,48 0,931 -0,68 0,752 -0,12 0,548 0,44 0,330 1,00 0,159 2,60 0,005
-1,46 0,928 -0,67 0,749 -0,11 0,544 0,45 0,326 1,02 0,154 2,70 0,003
-1,44 0,925 -0,66 0,745 -0,10 0,540 0,46 0,323 1,04 0,149 2,80 0,003
-1,42 0,922 -0,65 0,742 -0,09 0,536 0,47 0,319 1,06 0,145 2,90 0,002
-1,40 0,919 -0,64 0,739 -0,08 0,532 0,48 0,316 1,08 0,140 3,00 0,001
-1,38 0,916 -0,63 0,736 -0,07 0,528 0,49 0,312 1,10 0,136 3,10 0,001
-1,36 0,913 -0,62 0,732 -0,06 0,524 0,50 0,309 1,12 0,131 3,20 0,001
-1,34 0,910 -0,61 0,729 -0,05 0,520 0,51 0,305 1,14 0,127 3,30 0,000
-1,32 0,907 -0,60 0,726 -0,04 0,516 0,52 0,302 1,16 0,123 3,40 0,000
-1,30 0,903 -0,59 0,722 -0,03 0,512 0,53 0,298 1,18 0,119
-1,28 0,900 -0,58 0,719 -0,02 0,508 0,54 0,295 1,20 0,115
-1,26 0,896 -0,57 0,716 -0,01 0,504 0,55 0,291 1,22 0,111
-1,24 0,893 -0,56 0,712 0,00 0,500 0,56 0,288 1,24 0,107
-1,22 0,889 -0,55 0,709 0,01 0,496 0,57 0,284 1,26 0,104
-1,20 0,885 -0,54 0,705 0,02 0,492 0,58 0,281 1,28 0,100

79 Version 18/12/07 IED – Université Paris 8


JEAN-MARC MEUNIER INITIATION A L’ANALYSE STATISTIQUE DES DONNEES

Table de la fonction cumulée bilatérale de la distribution


normale réduite
Cette table donne la proportion d'échantillons dont la valeur de z est supérieure à
la valeur absloue de u.

u p(Z> u ) u p(Z> u ) u p(Z> u ) u p(Z> u ) u p(Z> u ) u p(Z> u )


0,00 1,000 0,56 0,575 1,12 0,263 1,68 0,093 2,24 0,025 2,80 0,005
0,01 0,992 0,57 0,569 1,13 0,258 1,69 0,091 2,25 0,024 2,81 0,005
0,02 0,984 0,58 0,562 1,14 0,254 1,70 0,089 2,26 0,024 2,82 0,005
0,03 0,976 0,59 0,555 1,15 0,250 1,71 0,087 2,27 0,023 2,83 0,005
0,04 0,968 0,60 0,549 1,16 0,246 1,72 0,085 2,28 0,023 2,84 0,005
0,05 0,960 0,61 0,542 1,17 0,242 1,73 0,084 2,29 0,022 2,85 0,004
0,06 0,952 0,62 0,535 1,18 0,238 1,74 0,082 2,30 0,021 2,86 0,004
0,07 0,944 0,63 0,529 1,19 0,234 1,75 0,080 2,31 0,021 2,87 0,004
0,08 0,936 0,64 0,522 1,20 0,230 1,76 0,078 2,32 0,020 2,88 0,004
0,09 0,928 0,65 0,516 1,21 0,226 1,77 0,077 2,33 0,020 2,89 0,004
0,10 0,920 0,66 0,509 1,22 0,222 1,78 0,075 2,34 0,019 2,90 0,004
0,11 0,912 0,67 0,503 1,23 0,219 1,79 0,073 2,35 0,019 2,91 0,004
0,12 0,904 0,68 0,497 1,24 0,215 1,80 0,072 2,36 0,018 2,92 0,004
0,13 0,897 0,69 0,490 1,25 0,211 1,81 0,070 2,37 0,018 2,93 0,003
0,14 0,889 0,70 0,484 1,26 0,208 1,82 0,069 2,38 0,017 2,94 0,003
0,15 0,881 0,71 0,478 1,27 0,204 1,83 0,067 2,39 0,017 2,95 0,003
0,16 0,873 0,72 0,472 1,28 0,201 1,84 0,066 2,40 0,016 2,96 0,003
0,17 0,865 0,73 0,465 1,29 0,197 1,85 0,064 2,41 0,016 2,97 0,003
0,18 0,857 0,74 0,459 1,30 0,194 1,86 0,063 2,42 0,016 2,98 0,003
0,19 0,849 0,75 0,453 1,31 0,190 1,87 0,061 2,43 0,015 2,99 0,003
0,20 0,841 0,76 0,447 1,32 0,187 1,88 0,060 2,44 0,015 3,00 0,003
0,21 0,834 0,77 0,441 1,33 0,184 1,89 0,059 2,45 0,014 3,02 0,003
0,22 0,826 0,78 0,435 1,34 0,180 1,90 0,057 2,46 0,014 3,04 0,002
0,23 0,818 0,79 0,430 1,35 0,177 1,91 0,056 2,47 0,014 3,06 0,002
0,24 0,810 0,80 0,424 1,36 0,174 1,92 0,055 2,48 0,013 3,08 0,002
0,25 0,803 0,81 0,418 1,37 0,171 1,93 0,054 2,49 0,013 3,10 0,002
0,26 0,795 0,82 0,412 1,38 0,168 1,94 0,052 2,50 0,012 3,12 0,002
0,27 0,787 0,83 0,407 1,39 0,165 1,95 0,051 2,51 0,012 3,14 0,002
0,28 0,779 0,84 0,401 1,40 0,162 1,96 0,050 2,52 0,012 3,16 0,002
0,29 0,772 0,85 0,395 1,41 0,159 1,97 0,049 2,53 0,011 3,18 0,001
0,30 0,764 0,86 0,390 1,42 0,156 1,98 0,048 2,54 0,011 3,20 0,001
0,31 0,757 0,87 0,384 1,43 0,153 1,99 0,047 2,55 0,011 3,22 0,001
0,32 0,749 0,88 0,379 1,44 0,150 2,00 0,046 2,56 0,010 3,24 0,001
0,33 0,741 0,89 0,373 1,45 0,147 2,01 0,044 2,57 0,010 3,26 0,001
0,34 0,734 0,90 0,368 1,46 0,144 2,02 0,043 2,58 0,010 3,28 0,001
0,35 0,726 0,91 0,363 1,47 0,142 2,03 0,042 2,59 0,010 3,30 0,001
0,36 0,719 0,92 0,358 1,48 0,139 2,04 0,041 2,60 0,009 3,32 0,001
0,37 0,711 0,93 0,352 1,49 0,136 2,05 0,040 2,61 0,009 3,34 0,001
0,38 0,704 0,94 0,347 1,50 0,134 2,06 0,039 2,62 0,009 3,36 0,001
0,39 0,697 0,95 0,342 1,51 0,131 2,07 0,038 2,63 0,009 3,38 0,001
0,40 0,689 0,96 0,337 1,52 0,129 2,08 0,038 2,64 0,008 3,40 0,001
0,41 0,682 0,97 0,332 1,53 0,126 2,09 0,037 2,65 0,008 3,42 0,001
0,42 0,674 0,98 0,327 1,54 0,124 2,10 0,036 2,66 0,008 3,44 0,001
0,43 0,667 0,99 0,322 1,55 0,121 2,11 0,035 2,67 0,008 3,46 0,001
0,44 0,660 1,00 0,317 1,56 0,119 2,12 0,034 2,68 0,007 3,48 0,001
0,45 0,653 1,01 0,312 1,57 0,116 2,13 0,033 2,69 0,007 3,50 0,000
0,46 0,646 1,02 0,308 1,58 0,114 2,14 0,032 2,70 0,007
0,47 0,638 1,03 0,303 1,59 0,112 2,15 0,032 2,71 0,007
0,48 0,631 1,04 0,298 1,60 0,110 2,16 0,031 2,72 0,007
0,49 0,624 1,05 0,294 1,61 0,107 2,17 0,030 2,73 0,006
0,50 0,617 1,06 0,289 1,62 0,105 2,18 0,029 2,74 0,006
0,51 0,610 1,07 0,285 1,63 0,103 2,19 0,029 2,75 0,006
0,52 0,603 1,08 0,280 1,64 0,101 2,20 0,028 2,76 0,006
0,53 0,596 1,09 0,276 1,65 0,099 2,21 0,027 2,77 0,006
0,54 0,589 1,10 0,271 1,66 0,097 2,22 0,026 2,78 0,005
0,55 0,582 1,11 0,267 1,67 0,095 2,23 0,026 2,79 0,005

IED – Université Paris 8 Version 18/12/07 80

Вам также может понравиться