Вы находитесь на странице: 1из 47

UE4 : Biostatistiques

Chapitre 4
Tests paramétriques de
comparaison de 2 moyennes
José LABARERE
Année universitaire 2011/2012
Université Joseph Fourier de Grenoble - Tous droits réservés.
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une
moyenne théorique
• Test Z de l’écart réduit
• Test t de Student
III. Comparaison de 2 moyennes observées sur 2
échantillons indépendants
• Test Z de l’écart réduit
• Test t de Student
IV. Comparaison de 2 moyennes observées sur 2
échantillons appariés
• Test Z de l’écart réduit
• Test t de Student
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une
moyenne théorique
• Test Z de l’écart réduit
• Test t de Student
III. Comparaison de 2 moyennes observées sur 2
échantillons indépendants
• Test Z de l’écart réduit
• Test t de Student
IV. Comparaison de 2 moyennes observées sur 2
échantillons appariés
• Test Z de l’écart réduit
• Test t de Student
I. Nature des variables

• Comparer 2 moyennes : tester l’association


entre
• 1 variable quantitative continue
• 1 variable qualitative binaire

• Exemple : µL1 santé (âge)  µL1 sciences (âge) ?


• âge : variable quantitative continue
• L1 sante versus L1 sciences : variable qualitative binaire
(dichotomique)
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une
moyenne théorique
• Test Z de l’écart réduit
• Test t de Student
III. Comparaison de 2 moyennes observées sur 2
échantillons indépendants
• Test Z de l’écart réduit
• Test t de Student
IV. Comparaison de 2 moyennes observées sur 2
échantillons appariés
• Test Z de l’écart réduit
• Test t de Student
II. Comparaison d’une moyenne observée à une
moyenne théorique

Comparer une moyenne observée (m) sur un échantillon issu d’une


population de moyenne inconnue (µ) à une valeur théorique ou moyenne
théorique connue (µH0) d’une population de référence

population population de
µ, σ² référence
échantillon µH0
m, s²

1. Formulation des hypothèses


H0 : µ = µH0
H1 : µ  µH0
II. Comparaison d’une moyenne observée à une
moyenne théorique

population population de
µ, σ référence
échantillon µH0
m, s

1. Formulation des hypothèses


H0 : µ = µH0
H1 : µ  µH0
2. Risque α = 0.05 (5%) – a priori
3. Choix du test
Test Z de l’écart réduit (n  30)
Test t de Student (hypothèse de normalité)
Test Z de l’écart réduit

population population de
µ, σ² référence
échantillon µH0
m≈µ m, s²
(fluctuations d’échantillonnage)

• Sous H0 : µ = µH0 → µ - µH0 = 0

• Si n  30 : m → N (µ, σ/√n)
• Rappel : m est une réalisation de la V.A. « moyenne empirique d’un échantillon de
taille n » de moyenne µ et d’écart type σ/√n (cf cours Pr Cinquin, chap 5, diapo 8)
Test Z de l’écart réduit

• Sous H0 : µ = µH0 → µ - µH0 = 0


• Si n  30 : m → N (µ, σ/√n)
 m - µH0 → N (0, σ/√n)

 (on a « centré » m en lui retranchant sa moyenne µ. Or µ étant inconnue, on lui


substitue µH0 qui est connue et dont on sait sous H0 que µ = µH0)

m  µ H0
Z → N (0, 1)
σ2
n
(on a « réduit » (m - µH0) en la divisant par son écart-type σ/√n)
Test Z de l’écart réduit

m  µ H0
Z → N (0, 1)
2
σ
n
La variance dans la population σ² étant le plus souvent inconnue, on lui
substitue son estimateur s² (s² = estimation de σ² à partir de l’échantillon)

m  µ H0
Z → N (0, 1)
2
s
n
Densité de probabilité de loi normale centrée réduite N(0,1)

-∞ 0 +∞
valeurs peu valeurs probables valeurs peu
probables de Z de Z probables de Z

Abscisse : valeurs possibles de Z sous H0


m  µ H0
Z
s2
n
Densité de probabilité de loi normale centrée réduite (0,1)

α = 5% (0,05)

P(Z <- 1,96) = 2,5% P(Z > 1,96) = 2,5%

-∞ -Zα = - 1,96 +Zα = 1,96 +∞


0

Abscisse : valeurs possibles de Z sous H0


m  µ H0
Z
s2
Zα = valeur de Z pour le risque α n
1–α
(non-rejet de H0)

α/2 α/2
(rejet de H0 = acceptation de H1) (rejet de H0 = acceptation de H1)

-z α zα
0
|Zo| > Zα |Zo|  Zα |Zo| > Zα

Abscisse : valeurs possibles de Z sous H0


m  µ H0
Z Zα = valeur de Z pour le risque α
2
s Zo = valeur observée de Z pour
n l’échantillon
• Z est la variable aléatoire Z  m  µ H0
s2
n
• Zα est une valeur particulière de la variable
aléatoire Z telle que P(Z > Zα) = α
• (Zα est la valeur de Z pour le risque α)
• (en santé et biologie, α = 0.05)

• Zo est une réalisation de la variable aléatoire Z


• (Zo est la valeur observée/calculée de Z sur l’échantillon dont on
dispose)
Détermination de la valeur de Zα correspondant à un
risque α = 0.05 (5%)

Table de l’écart réduit

La table donne la probabilité α pour que l'écart-réduit


dépasse en valeur absolue une valeur donnée ε, c'est-à-
dire la probabilité extérieure à l'intervalle [-ε,ε]. La
probabilité α s'obtient par addition des nombres inscrits
en marge

α 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 ∞ 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695

0,1 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311

0,2 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058

0,3 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860

0,4 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690

0,5 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539

0,6 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399

0,7 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266

0,8 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138
0,9 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013
Détermination du degré de signification associé à Zo (P-
value)
Table de l’écart réduit

La table donne la probabilité α pour que l'écart-réduit


dépasse en valeur absolue une valeur donnée ε, c'est-à-
dire la probabilité extérieure à l'intervalle [-ε,ε]. La
probabilité α s'obtient par addition des nombres inscrits
en marge

α 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,0 ∞ 2,576 2,326 2,170 2,054 1,960 1,881 1,812 1,751 1,695

0,1 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311

0,2 1,282 1,254 1,227 1,200 1,175 1,150 1,126 1,103 1,080 1,058

0,3 1,036 1,015 0,994 0,974 0,954 0,935 0,915 0,896 0,878 0,860

0,4 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,722 0,706 0,690

0,5 0,674 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539

0,6 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399

0,7 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266

0,8 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138
0,9 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013

Exemple : Zo = 1.37 → P-value = 0.17


Test t de Student

• Sous H0 : µ = µH0
• Si la distribution de la variable est normale dans la
population (et quel que soit l’effectif de l’échantillon n)
:

m  µ H0
T → t (n-1) ddl
2
s
n
Test t de Student : notion de ddl

Sous H0 : m  µ H0 → t (n-1) ddl


t
2
s
n

La fonction de densité de probabilité de t varie avec l’effectif


de l’échantillon (en fait, avec l’effectif de l’échantillon – 1 = n – 1)

→ Il existe autant de lois t de Student qu’il existe


d’échantillons d’effectif différent
Valeur de tα pour :

(n-1) ddl = 5 : 2.57

(n-1) ddl = 10 : 2.22

(n-1) ddl > 30 : 1.96


(n-1) ddl = 5

- 2,57 2,57

(n-1) ddl = 10

- 2,22 2,22

(n-1) ddl > 30

- 1,96 1,96 (cf annexe 1)


Condition de validité du test t de Student : la variable
continue suit une loi normale

• A l’examen :
• Soit c’est indiqué dans l’énoncé
– (ex : « on suppose les conditions de validité vérifiées »)

• Soit on vous pose la question


– (ex : « Quelles sont les conditions de validité de ce test ? »)

• Soit on vous demande de vérifier empiriquement


qu’on ne s’écarte pas de cette hypothèse
(visuellement le plus souvent)
– (ex : on fournit un histogramme dans l’énoncé)
Distribution symétrique en cloche
 distribution d’allure normale

Distribution asymétrique avec queue


étalée vers la droite
 distribution d’allure non normale
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une
moyenne théorique
• Test Z de l’écart réduit
• Test t de Student
III. Comparaison de 2 moyennes observées sur 2
échantillons indépendants
• Test Z de l’écart réduit
• Test t de Student
IV. Comparaison de 2 moyennes observées sur 2
échantillons appariés
• Test Z de l’écart réduit
• Test t de Student
III. Comparaison de deux moyennes observées
(échantillons indépendants)

population1 population 2
µ1, σ1 µ2 , σ2
échantillon échantillon
m1, s1 m2, s2

« Indépendant » signifie que l’échantillon 1 est constitué de manière


indépendante de l’échantillon 2 (par opposition aux échantillons
appariés) :
• Les sujets de l’échantillon 1 ne sont pas les mêmes que ceux de
l’échantillon 2
• Les 2 échantillons peuvent être d’effectifs différents.
III. Comparaison de deux moyennes observées
(échantillons indépendants)

population1 population 2
µ1, σ1 µ2, σ2
échantillon échantillon
m1, s1 m2, s2

1. Formulation des hypothèses


H0 : µ1 = µ2
H1 : µ1  µ2
2. Risque α = 0.05 (5%) – a priori
3. Choix du test
Test Z de l’écart réduit (n1  30 et n2  30 )
Test t de Student (hypothèse de normalité, variances comparables)
Sous H0 : µ1 = µ2 = µ

n1  30 m1 m 1 ≈ µ1
(fluctuations d’échantillonnage)

n2  30 µ1=µ m 2 ≈ µ2
m2 (fluctuations d’échantillonnage)

µ1 - µ2 = 0 et m1 – m2 ≈ 0
(fluctuations d’échantillonnage)
µ2=µ
Sous H0 : µ1 - µ2 = 0

Rappel : m1 est une réalisation de la V.A. « moyenne empirique d’un échantillon


de taille n1 » de moyenne µ1 et d’écart type σ1/√n1 : m1 → N(µ1, σ1/√n1)

idem : m2 → N(µ2, σ2/√n2)

 σ 2
σ 2 
 2 
(m1 – m2) → N  µ1  µ 2 ,  2
2
1 σ σ
 n1 n 2  (m1 – m2) → N  0,  2
1

  n1 n 2 

var (m1-m2) = var (m1) + var (m2) – 2 cov (m1,m2)

σ12 σ 22
varm1  m2     2  0
n1 n 2

NB : var(a-b) = var(a) + var(b) – 2 cov(a,b) cf analogie avec (a-b)² = a² + b² - 2a.b (cf annexe 2)
Sous H1 : µ1  µ2

n1  30 m1 m 1 ≈ µ1
(fluctuations d’échantillonnage)

m2
n2  30
m 2 ≈ µ2
(fluctuations d’échantillonnage)

µ1 µ2

m1 – m2 ≈ µ1 - µ2
(fluctuations d’échantillonnage)
Test Z de l’écart réduit

• Si n1  30 et n2  30
• Sous H0 : µ1 = µ2 → µ1 - µ2 = 0

m1  m 2 m1  m 2
Z 
varm1  m 2  1  2
2 2 → N (0, 1)

n1 n 2

m1  m 2
s² est un estimateur de σ² → Z
s12 s22

n1 n 2
Test t de Student

• Conditions d’application :
• - La distribution de la variable continue est normale dans les 2
populations
• - Les variances σ1² et σ2² sont comparables (rapport 1 à 3)
• Sous H0 : µ1 = µ2 → µ1 - µ2 = 0

m1  m 2
T → t (n1 + n2 - 2) ddl
1 1 
s   
2

 n1 n 2 
n
s2  1
 1 s1
2
 n 2  1 s 2
2
n1  n 2  2
Comparabilité des variances

La comparabilité des variances n’est pas qu’une « contrainte technique » pour


l’application du test t de Student.
La variance, comme la moyenne, est un paramètre caractérisant la distribution
d’une variable.

Population 1

Population 2

µ1= µ2
Distributions très différentes bien
que les moyennes soient égales
σ1² < σ2²
Plan
I. Nature des variables
II. Comparaison d’une moyenne observée à une
moyenne théorique
• Test Z de l’écart réduit
• Test t de Student
III. Comparaison de 2 moyennes observées sur 2
échantillons indépendants
• Test Z de l’écart réduit
• Test t de Student
IV. Comparaison de 2 moyennes observées sur 2
échantillons appariés
• Test Z de l’écart réduit
• Test t de Student
IV. Comparaison de deux moyennes observées (échantillons
appariés)

Obs 1 Obs1 Obs1 1 Obs2 1

Obs 2 Obs 2 Obs1 2 Obs2 2


Obs 3 Obs 3 Obs1 3 Obs2 3
… … … …

Obs n1 Obs n2 Obs1 n1 Obs2 n2

m1 m2
échantillons appariés
échantillons indépendants sujet pris comme son propre témoin
2 membres d’une fratrie

(n1 = n2 ou n1 ≠ n2) (n1 = n2 = n)


IV. Comparaison de deux moyennes observées (échantillons
appariés)

Les mesures PAS1 et PAS2 du sujet 1 ne


Avant Après
sont pas indépendantes

PAS1 1 PAS2 1 Les 2 mesures ont été effectuées sur le


même sujet : si PAS1 était très élevée, il
PAS1 2 PAS2 2
est probable que PAS2 restera élevée
PAS1 3 PAS2 3
(mais moins que PAS1 si le traitement
… …
est efficace)
PAS1 n PAS2 n
Le test doit prendre en compte cette
dépendance des observations PAS1 et
PAS2
Traitement anti-
hypertenseur (En revanche, les mesures PAS2 du
sujet 1 et PAS2 du sujet 2 sont
H0 : mPASavant = mPASaprès indépendantes)
• Z pour échantillons indépendants
m1 – m2
var (m1 – m2) = var (m1) + var (m2) – 2 cov(m1, m2) = var (m1) + var
(m2)
m1  m 2
Z
var m1   var m 2 

• Z pour échantillons appariés


m1 – m2
var (m1 – m2) = var (m1) + var (m2) – 2 cov (m1, m2)

m1  m 2
Z
var m1   var m 2   2 cov m1 , m 2 

Zapparié > Zindépendant → gain de puissance


Echantillons appariés

m1  m 2
Z
var m1   var m 2   2 cov m1 , m 2 

2 2
S1 S2 ne peut pas être estimée directement

n1 n2 car on ne dispose que d’une mesure


de m1 et une mesure de m2

→ Il faut estimer var(m1 - m2) d’une autre façon


Echantillons appariés

m1  m 2 md
Z 
var m1   var m 2   2 cov m1 , m 2  varm d 
n

d i

• (m1 - m2) = md, avec md  i 1


n
n

d  m 
2
i d
• var (md) = sd² / n, avec s 
2 i 1
d
n 1
md est une réalisation de la V.A. « moyenne empirique des différences d’un échantillon de
taille n » de moyenne µd et d’écart type σd/√n
Echantillons appariés
L’unité d’analyse devient la différence di entre l’observation 1 et
l’observation 2 pour chaque sujet

n n

 di  d  md 
2
i
md  i 1 s d2  i 1

n n  1
di = (Obs1 i – Obs2 i)

d1
Obs1 1 Obs2 1
d2
Obs1 2 Obs2 2
di
Obs1 i Obs2 i
… …
dn
Obs1 n Obs2 n

m1 m2
Test Z de l’écart réduit pour échantillons appariés

• H0 : µd = 0 (µ1 = µ2)
• H1 : µd  0 (µ1  µ2)
• Si n  30 paires
1–α
(non-rejet de H0)

α/2 α/2
(rejet de H0)
md (rejet de H0)

Zo  -z α zα
2
sd |Zo| > Zα |Zo|  Zα |Zo| > Zα

n
Test t de Student pour échantillons appariés

• H0 : µd = 0 (µ1 = µ2)
• H1 : µd  0 (µ1  µ2)
• Si la distribution des différences individuelles est normale
:

md
to 
2
sd
n
Comparaison de moyennes

m1 m2 effectif test conditions

observée théorique n  30 Z -

n t (n-1) ddl normalité

observée observée n1, n2  30 Z -

(indépendantes) n1, n2 t (n1+n2 -2) ddl normalité


σ² comparables

observée observée n  30 paires Z -

(appariées) n paires t (n-1) ddl normalité di


Annexe 1: Test t de Student
Pourquoi le nombre de ddl du test t est-il égal à
(n – 1) et pas n ?
Il s’agit en fait du nombre de ddl de la variance estimée s² :

Connaissant la moyenne (m) d’un échantillon de taille n,

Le nombre de ddl est le nombre nécessaire et suffisant


d’observations dont il faut connaître la valeur,

pour pouvoir calculer la variance (s²)


(n – 1)
individu x
1 16,4
Vérification empirique
2 0,6
m = 9,7 3 4,4
4 12,8
Calculer s² 5 ?

Pour calculer s², il n’est pas nécessaire de connaitre la valeur de


l’individu 5. On peut la déduire de :
- La moyenne m
- La valeur des (n – 1) = 4 premiers individus

16,4  0,6  4,4  12,8  ?


m  9,7  ? = 14,3
5
 s² = 46,6
Annexe 2 : var(b-a) = var(a) + var(b) - 2 cov(a,b)

Vérification empirique pour 2 échantillons indépendants (cov(a,b) = 0)


A B (B-A)
16,4 4 -12,4
0,6 7,7 7,1
4,4 13,5 9,1
12,8 18,9 6,1
14,3 18,7 4,4
5,1 19 13,9
1,2 7,6 6,4
2,6 18,4 15,8
5,4 15,2 9,8 µB-A = µB - µA
6,6 17,3 10,7
2,9 2,9 0
4,1 7,7 3,6
7,7 15,4 7,7
19,4 5,8 -13,6
10,8 6,2 -4,6
8,4 15,9 7,5
10,9 20 9,1
6,1 18,7 12,6 var(B-A) = var(B) + var(A)
3,3 13,8 10,5
15,2 15,6 0,4
moyenne 7,9 13,1 5,2
variance 27,9 31,3 59,2
Annexe 3: covariance

• Variance conjointe de 2 variables X et Y


N

 X i  µ X Yi  µ Y 
cov X, Y   i 1
N

• Cas particulier : X = Y

N N

 X  µ X X i  µ X   X  µX 
2
i i
cov X, X   i 1
 i 1
 varX 
N N
• X et Y indépendantes
cas particulier Y constant quelle que soit la valeur de X

 X i  µ X Yi  µ Y 
cov X, Y   i 1
0
N

0 car Yi = constante =µY


Mentions légales
L'ensemble de cette œuvre relève des législations française et internationale sur le droit d'auteur et
la propriété intellectuelle, littéraire et artistique ou toute autre loi applicable.
Tous les droits de reproduction, adaptation, transformation, transcription ou traduction de tout ou
partie sont réservés pour les textes ainsi que pour l'ensemble des documents iconographiques,
photographiques, vidéos et sonores.
Cette œuvre est interdite à la vente ou à la location. Sa diffusion, duplication, mise à disposition du
public (sous quelque forme ou support que ce soit), mise en réseau, partielles ou totales, sont
strictement réservées à l’université Joseph Fourier (UJF) Grenoble 1 et ses affiliés.
L’utilisation de ce document est strictement réservée à l’usage privé des étudiants inscrits à
l’Université Joseph Fourier (UJF) Grenoble 1, et non destinée à une utilisation collective, gratuite
ou payante.

Ce document a été réalisé par la Cellule TICE de la Faculté de Médecine de Grenoble (Université Joseph Fourier – Grenoble 1)
en collaboration avec l’Equipe Audiovisuel et Production Multimédia (EAEPM) de l’Université Stendhal de Grenoble.