Cours Université

P OLYTECH L ILLE
D PARTEMENT G.I.S.
Statistiques infrentielles
Julien JACQUES
http://labomath.univ-lille1.fr/jacques/
Table des matires

1
chantillonnage et statistiques descriptives

1.1 chantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Description dune variable . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1 Les diffrents types de variables . . . . . . . . . . . . . . . . .
1.3.2 Rsums numriques dune variable quantitative . . . . . . . .
1.3.2.1 Caractristiques de tendance centrale . . . . . . . . .
1.3.2.2 Caractristiques de dispersion . . . . . . . . . . . . .
1.3.2.3 Caractristiques de forme . . . . . . . . . . . . . . .
1.3.3 Reprsentation graphique dune variable quantitative . . . . . .
1.3.3.1 Bote moustaches ou box plot . . . . . . . . . . . .
1.3.3.2 Histogramme . . . . . . . . . . . . . . . . . . . . .
1.3.3.3 La fonction de rpartition empirique . . . . . . . . .
1.3.4 Rsum numrique dune variable qualitative . . . . . . . . . .
1.3.5 Reprsentation graphique dune variable qualitative . . . . . . .
1.4 Description de plusieurs variables . . . . . . . . . . . . . . . . . . . .
1.4.1 Liaison entre deux variables quantitatives . . . . . . . . . . . .
Nuage de points. . . . . . . . . . . . . . . . . . . . . .
Coefficient de corrlation linaire . . . . . . . . . . . .
Coefficient de corrlation partielle . . . . . . . . . . . .
1.4.2 Liaison entre une variable quantitative et une variable qualitative
1.4.3 Liaisons entre deux variables qualitatives . . . . . . . . . . . .
1.4.3.1 Cas des variables ordinales . . . . . . . . . . . . . .
1.4.4 Vers le cas multidimensionnel . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7
7
7
7
7
9
9
9
9
10
10
10
12
12
12
14
14
14
14
15
15
15
16
16
Estimation
et V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1 Prambule : tude des statistiques X

2.1.1 Etude de la statistique X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Etude de la statistique V 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Dfinition des lois du 2 , de Student et de Fisher-Snedecor . . . . . . . . . . . . . . . . .
2.1.4 Cas des chantillons gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Notion destimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Qualit dun estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 Estimateur exhaustif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5 Estimation sans biais de variance minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6 Mthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7 Estimation par intervalles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1 Intervalle de confiance sur lesprance . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.7.1.1 Intervalle de confiance sur lesprance dune loi normale avec variance connue .
2.7.1.2 Intervalle de confiance sur lesprance dune loi normale avec variance inconnue
2.7.1.3 Si la loi de X nest pas une loi normale . . . . . . . . . . . . . . . . . . . . . .
2.7.2 Intervalle de confiance sur la variance dune loi normale . . . . . . . . . . . . . . . . . .
2.7.2.1 Intervalle de confiance sur la variance dune loi normale lorsque est connue .
2.7.2.2 Intervalle de confiance sur la variance dune loi normale lorsque est inconnue
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
19
20
21
21
22
22
23
24
25
25
26
26
27
28
28
28
28
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TABLE DES MATIRES
2.8
2.9
2.7.3 Intervalle de confiance sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . .

2.7.4 Rcapitulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Plus destimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.1 Estimation baysienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.1.1 Application : estimation baysienne de la moyenne dune loi normale de variance
connue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.8.2 Estimation robuste : cas de la valeur centrale dune distribution symtrique . . . . . . . .
Estimation fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9.1 Estimation de la fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9.2 Estimation non paramtrique de la densit . . . . . . . . . . . . . . . . . . . . . . . . . .
Tests statistiques
3.1 Thorie des tests paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Introduction : test sur lesprance dune loi normale de variance connue .
3.1.2 Vocabulaire des tests . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3 Probabilit derreur et risque, puissance de test . . . . . . . . . . . . . .
3.1.4 Choix optimal de la statistique de test et de la rgion de rejet . . . . . . .
3.1.5 Utilisation de la puissance de test . . . . . . . . . . . . . . . . . . . . .
3.1.6 Rsum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.7 p-value . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Tests sur une population . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Test sur le caractre central dune population . . . . . . . . . . . . . . .
3.2.1.1 Cas dun chantillon grand ou gaussien . . . . . . . . . . . . .
Test H0 : = 0 contre H1 : 6= 0 lorsque 2 est connue . . .
Test H0 : = 0 contre H1 : 6= 0 lorsque 2 est inconnue . .
3.2.1.2 Cas dun petit chantillon non gaussien . . . . . . . . . . . . .
Statistique de rang . . . . . . . . . . . . . . . . . . . . . . . . .
Test des rangs signs (Wilcoxon un chantillon) . . . . . . . . .
Test du signe . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test des scores normaux . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Test sur la variance dune population gaussienne . . . . . . . . . . . . .
3.2.2.1 Test H0 : 2 = 02 contre H1 : 2 6= 02 , moyenne connue .
3.2.2.2 Test H0 : 2 = 02 contre H1 : 2 6= 02 , moyenne inconnue
3.2.2.3 Tests unilatraux sur la variance . . . . . . . . . . . . . . . . .
3.2.3 Test sur une proportion pour un grand chantillon . . . . . . . . . . . . .
3.2.3.1 Test H0 : p = p0 contre H1 : p 6= p0 . . . . . . . . . . . . . .
3.2.3.2 Tests unilatraux sur une proportion . . . . . . . . . . . . . .
3.2.4 Test de lalatoire dun chantillon . . . . . . . . . . . . . . . . . . . . .
3.2.4.1 Test de corrlation des rangs de Spearman . . . . . . . . . . .
3.2.4.2 Test des changements de signes . . . . . . . . . . . . . . . . .
3.2.5 Tests dajustement une loi de probabilit spcifie . . . . . . . . . . . .
3.2.5.1 Quelques mthodes empiriques . . . . . . . . . . . . . . . . .
La forme de lhistogramme . . . . . . . . . . . . . . . . . . . . .
La nature du phnomne . . . . . . . . . . . . . . . . . . . . . .
Utilisation des moments . . . . . . . . . . . . . . . . . . . . . .
3.2.5.2 Ajustement graphiques . . . . . . . . . . . . . . . . . . . . .
Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . .
Loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5.3 Test dajustement du 2 . . . . . . . . . . . . . . . . . . . . .
Si des estimations sont ncessaires . . . . . . . . . . . . . . . . .
Effectif minimal dune classe . . . . . . . . . . . . . . . . . . .
3.2.5.4 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . .
3.2.5.5 Test de Shapiro-Wilk (normalit) . . . . . . . . . . . . . . . .
3.2.6 Test dindpendance entre deux variables alatoires . . . . . . . . . . . .
3.2.6.1 Cas de deux variables alatoires quantitatives . . . . . . . . . .
Test de corrlation linaire . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
30
30
.
.
.
.
.
30
30
31
31
31
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
33
34
34
35
36
36
37
37
37
37
37
38
38
38
39
39
40
40
40
40
41
41
41
41
41
41
42
42
42
42
42
42
42
42
43
43
43
43
44
44
44
44
44
Test de corrlation des rangs de Spearman . . . . . . . . . . . . . . . . . . . . . . .

Cas de deux variables alatoires qualitatives : Test du 2 . . . . . . . . . . . . . .
Cas de deux variables alatoires binaires et de petits chantillons : Test exact de
Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.6.4 Cas dune variable qualitative et dune variable quantitative : ANOVA 1 facteur
Test de lhomognit des variances : test de Levene. . . . . . . . . . . . . . . . . .
Comparaison des moyennes deux deux . . . . . . . . . . . . . . . . . . . . . . .
Tests de comparaison de deux populations indpendantes . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Cas de deux chantillons gaussiens ou de grandes tailles . . . . . . . . . . . . . . . . . . .
3.3.1.1 Test de comparaison des variances de Fisher . . . . . . . . . . . . . . . . . . . .
3.3.1.2 Test de comparaison des moyennes de Student avec variances gales . . . . . . .
3.3.1.3 Test de comparaison des moyennes avec variances diffrentes . . . . . . . . . . .
3.3.1.4 chantillons non gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 chantillons de petites tailles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2.1 Test de Wilcoxon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cas des ex-quo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2.2 Test U de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2.3 Test de la mdiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2.4 Test des scores normaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2.5 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3 Cas de deux chantillons dpendants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.4 Tests de comparaison de deux proportions, pour de grands chantillons . . . . . . . . . . .
Tests de comparaison de K populations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1 Tests de comparaison de K populations indpendantes . . . . . . . . . . . . . . . . . . . .
3.4.1.1 chantillons gaussiens ou de grandes tailles : ANOVA 1 facteur . . . . . . . . . .
3.4.1.2 chantillons de petites tailles : test de Kruskal-Wallis . . . . . . . . . . . . . . .
3.4.2 Tests de comparaison de K populations dpendantes (cas des mesures rptes) . . . . . . .
3.4.2.1 chantillons gaussiens ou de grandes tailles : ANOVA 2 facteurs . . . . . . . . .
Estimation des effets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2.2 chantillons de petites tailles . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test de Friedman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test de Quade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Test de Page . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.6.2
3.2.6.3
3.3
3.4
Annexes
4.1 Rappel sur les convergences des suites de variables alatoires
4.1.0.3 Loi faible des grands nombres . . . . . . .
4.1.0.4 Loi forte des grands nombres . . . . . . .
4.1.0.5 Thorme centrale limite . . . . . . . . .
4.2 Tables statistiques pour test . . . . . . . . . . . . . . . . . .
4.2.1 Test des rangs signs . . . . . . . . . . . . . . . . .
4.2.2 Test du signe . . . . . . . . . . . . . . . . . . . . .
4.2.3 Test de Wilcoxon (2 populations) . . . . . . . . . .
4.2.4 Test de Shapiro-Wilk (normalit) . . . . . . . . . . .
4.2.5 Test de Friedman . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
45
45
45
46
47
47
47
48
48
48
49
49
49
50
50
50
50
50
51
51
51
51
52
52
52
52
52
53
54
54
54
55
57
57
57
57
57
58
58
59
60
61
63
TABLE DES MATIRES
Chapitre 1
chantillonnage et statistiques descriptives

La problmatique de linfrence statistique consiste, partir dun chantillon de donnes provenant dune
population de loi de probabilit inconnue, dduire des proprits sur cette population : quelle est sa loi (problme
destimation, chapitre 2), comment prendre une dcision en contrlant au mieux le risque de se tromper (problme
de test, chapitre 3).
1.1 chantillon
Un chantillonnage correspond des tirages indpendants et quiprobables dindividus au sein de la population.
On associe alors chaque individu i une variable alatoire Xi , dont on observe une seule ralisation xi .
Dfinition 1.1.1. Un chantillon X1 ; : : : ; Xn est un n-uplet
dantes et identiquement distribues (mme loi).
(X1 ; : : : ; Xn ) de variables alatoires Xi
indpen-
Par simplicit nous utiliserons rgulirement le terme chantillon pour signifier la fois lchantillon dobservations x1 ; : : : ; xn et le n-uplet alatoire (X1 ; : : : ; Xn ).
Il est frquent de caractriser un chantillon par des quantits telle que la moyenne, variance, etc. Ces quantits sont
elles-mmes des variables alatoires fonction de X1 ; : : : ; Xn .
Dfinition 1.1.2. Une statistique T est une variable alatoire fonction (mesurable) de X1 ; : : : ; Xn .
1.2 Exemple introductif

Le jeu de donnes GermanCredit.data, disponible en ligne 1 , comporte des renseignements sur 1000
clients dune banque allemande, chaque client tant dcrit par 20 variables. Ce jeu de donnes sera utilis pour
illustrer les notions de ce chapitre. Le tableau 1.2 contient la description des 20 variables.
1.3 Description dune variable

1.3.1 Les diffrents types de variables
Les variables que lon rencontre en statistique peuvent tre de diffrentes natures :
Dfinition 1.3.1.
une variable est quantitative si ses valeurs sont mesurables. Elle peut tre continue (R)
ou discrte (N ).
une variable est qualitative si ses valeurs ne sont pas des valeurs numriques, mais des caractristiques,
appeles modalits.
une variable qualitative est dite ordinale si ses valeurs sont naturellement ordonnes (mention au bac,
apprciation, classe dge...). Dans le cas contraire elle est dite nominale (sexe, couleur des cheveux...).
Exercice. Dfinir le type de chacune des variables dans lexemple GermanCredit.data.
1. http://labomath.univ-lille1.fr/ jacques/
CHAPITRE 1. CHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES
8
numero
1
nom de la variable
tat du compte chque (en DM)
2
3
dure en mois du crdit

historique des crdits
but du crdit
5
6
montant du crdit (en DM)

montant de lpargne (en DM)
anciennet dans le travail actuel (an)
valeur
A11 : < 0
A12 : [0; 200[
A13 : 200 ou versement des salaires pendant au moins un an
A14 : pas de compte chque
2

2N
A30 : pas de crdit / tous rembourss

A31 : tous les crdits dans la banque rembourss
A32 : crdits en cours
A33 : retard de paiement dans le pass
A34 : compte critique / crdit existant dans dautre banque
A40 : voiture neuve
A41 : voiture occasion
A42 : quipement / fourniture
A43 : radio / tlvision
A44 : appareils mnagers
A45 : rparation
A46 : ducation
A47 : vacances
A48 : recyclage
A49 : professionnel
A410 : autre
2R
A61 : < 100

A62 : [100; 500[
A63 : [500; 100[
A64 : 1000
A65 : inconnu
A71 : sans emploi
A72 : < 1
A73 : [1; 4[
A74 : [4; 7[
A75 : 7
2
2

2R
8
9
taux dapport
tat marital
10
autre demandeurs / garants
11
12
dure dhabitation
dans la rsidence actuelle (an)
biens
13
14
ge (an)
autre demande de crdits
15
situation dans la rsidence actuelle
16
17
nombre de crdits dans la banque

emploi
18
19
nombre de personnes pouvant

rembourser le crdit
tlphone
20
travailleur tranger
2
2

A91 : homme divorc / spar

A92 : femme divorc / spar / marie
A93 : homme clibataire
A94 : homme mari / veuf
A95 : femme clibataire
A101 : aucun
A102 : co-demandeur
A103 : garant
2N
A121 : immobilier
A122 : si pas A121 : placement (assurance vie ou part dans la banque)
A123 : si pas A121 et A122 : voiture ou autre, non compris dans la variable 6
A124 : inconnu
2N
A141 : banque
A142 : magasins
A143 : aucun
A151 : locataire
A152 : propritaire
A153 : occupant titre gratuit
2N
A171 : sans emploi / non qualifi - tranger

A172 : non qualifi - non tranger
A173 : emploi qualifi / fonctionnaire
A174 : gestion / indpendant / emploi hautement qualifi / haut fonctionnaire
2N
A191 : aucun
A192 : oui, enregistr au nom du client
A201 : oui
A202 : non
TABLE 1.1 Variables du jeu de donnes GermanCredit.data
1.3. DESCRIPTION DUNE VARIABLE
1.3.2 Rsums numriques dune variable quantitative

Soit X1 ; : : : ; Xn un chantillon dune variable alatoire quantitative, de fonction de rpartition F .
1.3.2.1 Caractristiques de tendance centrale
La moyenne empirique exprime la valeur moyenne de lchantillon :
n
1X
X =
X:
n i=1 i
Attention, cette quantit est trs sensible aux valeurs extrmes.
Beaucoup moins sensible aux extrmes, la mdiane M est la valeur qui partage lchantillon, rang dans lordre
croissant X1 X2 : : : Xn (ou dcroissant), en deux parties gales. Si n est impair la mdiane sera X n+1 ,
2
X n +X n +1
sinon ce sera par convention 2 2 2 . La fonction de rpartition vaut 0.5 en la mdiane : F (M ) = 0:5.
Lorsque les donnes sont entires, on utilise parfois le mode qui est la valeur la plus frquente.
1.3.2.2 Caractristiques de dispersion
Ltendue, ou intervalle de variation est la diffrence entre les deux valeurs extrmes : Xmax Xmin . Attention,
les variables Xmin et Xmax nont plus la mme distribution que les variables X1 ; : : : ; Xn de lchantillon. En effet,
on montre (exercice) que leur fonction de rpartition sont respectivement :
Fmin (x) = F n (x)
et
Fmax (x) = 1 (1 F (x))n :
Les 1er et 3me quartiles Q1 et Q3 sont dfinis par F (Q1 ) = 0:25 et F (Q3 ) = 0:75. Lintervalle inter-quartile
[Q1 ; Q3 contient donc 50% des donnes.
Bien que lintervalle inter-quartile soit moins sensible aux valeurs extrmes que ltendue, il nest pas trs souvent
utilis. On utilise plus souvent la variance empirique V 2 et sa racine carr V lcart-type :
V2 =
n
1X
(X
n i=1 i
n
1X
X )2 =
X 2 X 2:
n i=1 i
Lcart-type a lavantage de sexprimer dans la mme unit que les donnes.

.
Le coefficient de variation exprime quant lui le rapport V=X
1.3.2.3 Caractristiques de forme
Elles permettent de situer la distribution observe par rapport une distribution de rfrence quest la distribution
gaussienne.
Le coefficient dasymtrie 1 (skewness) indique la symtrie de la distribution :
1 =
1 Pn
n p i=1 (Xi
X )3
;
( n=(n 1)V )3
lintrt du facteur n=(n 1) au dnominateur sera prcis au chapitre 2. Il est nul pour une distribution symtrique. Un 1 positif indique une distribution dcale vers la gauche avec une queue de distribution tendue vers la
droite.
Le coefficient daplatissement 2 (kurtosis) renseigne sur la diffusion de la distribution :
2 =
1 Pn (
i=1
Xi X )4
:
(n=(n 1))2 V 4
Il vaut 3 pour une distribution gaussienne. Si la distribution est plus aplatie quune gaussienne, le coefficient daplatissement sera suprieur 3.
Attention : certains logiciels et/ou auteurs soustraient 3 2 pour le comparer directement 0.
10
1.3.3 Reprsentation graphique dune variable quantitative

1.3.3.1 Bote moustaches ou box plot
1:5(q3
20
30
40
50
60
70
Une bote moustaches (figure 1.1) rsume la srie de donnes laide des caractristiques suivantes :
la mdiane est le trait centr au milieu de la bote,
la bote est forme par les 1er quartile q1 et 3me quartile q3 ,
les moustaches sont dfinies par les valeurs observes les plus extrmes dans lintervalle [q1
q1 ); q3 + 1:5(q3 q1 ),
les reprsentent les valeurs extrmes non contenues dans lintervalle prcdent.
F IGURE 1.1 Bote moustaches illustrant la distribution des ges des clients.
Cette reprsentation permet galement de comparer facilement la distribution de diffrentes variables, ou encore de
la mme variable pour diffrentes modalits dune variable qualitative (figure 1.2). On remarque ainsi que parmi les
clients de la banque allemande les femmes divorces, spares ou maries ainsi que les hommes maris ou veufs
sont gnralement moins gs que les hommes clibataires, divorcs ou spars.
1.3.3.2 Histogramme
Un histogramme est un graphique en barres verticales accoles obtenu aprs dcoupage en classes de lintervalle
de variation des donnes. La surface de chaque barre est proportionnelle la frquence de la classe. Pour des classes
de mme largeur (souvent utilises dans les logiciels), cest donc la hauteur de la barre qui est proportionnelle la
frquence de la classe. La surface de lensemble des barres vaut 1.
Lhistogramme dune srie de donnes peut tre vue comme une version discontinue empirique de la courbe de
densit dune variable alatoire. Ainsi, sa visualisation permet davoir un avis sur la nature de la distribution des
donnes. Par exemple (figure 1.3), la variable ge ne semble pas suivre une loi normale.
Attention : sur un histogramme figurent en ordonnes des frquences et non pas des effectifs, comme ont tendance
le faire beaucoup de logiciels !
20
30
40
50
60
70
11
A91
A92
A93
A94
F IGURE 1.2 Bote moustaches illustrant la distribution des ges des clients suivant les diffrents statut maritaux.
0.02
0.01
0.00
Density
0.03
0.04
Histogram of data[, 13]
20
30
40
50
60
70
data[, 13]
F IGURE 1.3 Histogramme des ges des clients.
12
1.3.3.3 La fonction de rpartition empirique

La fonction de rpartition empirique dune srie de donnes est dfinie par :
N
Fn (x) = x
n
o Nx = #fXi : Xi x; 1 i ng est le nombre de donnes infrieures ou gales X . En tant que fonction

de lchantillon, la fonction de rpartition empirique est une variable alatoire. Voir un exemple de fonction de
rpartition empirique sur la figure 1.4, calcule et reprsente laide de la fonction ecdf sous le logiciel R.
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(x)
20
30
40
50
60
70
80
F IGURE 1.4 Fonction de rpartition empirique des ges des clients.
1.3.4 Rsum numrique dune variable qualitative

Soit X une variable alatoire qualitative prenant ses valeurs dans lespace des modalits fm1 ; : : : ; mp g. Plutt
que de sintresser directement lchantillon X1 ; : : : ; Xn , on sintresse gnralement aux frquences dobservation de chaque modalit dans cet chantillon. Pour chaque modalit mj de la variable qualitative (1 j p), on
note
Nj = #fXi : Xi = mj ; 1 i ng
le nombre doccurrences (effectif) de la modalit mj dans lchantillon (
pondante :
Pp
j Nj
= n), et Fi la frquence corres-
N
Fj = j :
n
1.3.5 Reprsentation graphique dune variable qualitative
Les variables qualitatives nominales sont gnralement reprsentes sous la forme de camemberts (pie-chart,
figure 1.5) ou diagramme en barres horizontales (figure 1.6). On utilisera des diagrammes en barres verticales
lorsque les variables sont qualitatives ordinales.
13
A92
A91
A94
A93
A91
A92
A93
A94
F IGURE 1.5 Diagrammes en camenbert des situations maritales des clients.
100
200
300
400
500
F IGURE 1.6 Diagrammes en barres des situations maritales des clients.
14
1.4 Description de plusieurs variables

Nous nous intressons dans cette section ltude simultane de deux variables, avec comme objectif de mettre
en vidence une volution simultane de ces deux variables.
1.4.1 Liaison entre deux variables quantitatives
10000
0
5000
data[, 5]
15000
Nuage de points. Ltude graphique du nuage de points reprsentant les deux variables X et Y dintrts permet
de mettre en vidence un certain lien entre les variables :
une liaison linaire positive ou ngative,
une liaison non linaire,
une absence de liaison,
ou encore des structures de liaison plus particulires (absence de liaison en moyenne mais pas en dispersion).
On devine sur lexemple bancaire (figure 1.7) une liaison linaire linaire positive entre la dure et le montant du
crdit.
10
20
30
40
50
60
70
data[, 2]
F IGURE 1.7 Reprsentations du montant du crdit en fonction de sa dure.
Coefficient de corrlation linaire Lindice de liaison utilis est le coefficient de corrlation linaire, dfini
par :
VXY
VX VY
o VX et VY sont les cart-types des variables X et Y , et VXY
XY =
par :
VXY =
n
1X
(X
n i=1 i
X )(Yi
est la covariance empirique entre X et
n
1X
Y ) =
XY
n i=1 i i
Le coefficient de corrlation (comme la covariance) est symtrique (XY

+1.
Y , dfinie
X Y
= Y X ) et prend ses valeurs entre 1 et
1.4. DESCRIPTION DE PLUSIEURS VARIABLES
15
Attention : si les variables X et Y sont indpendantes, leur covariance est nulle et donc leur coefficient de corrlation linaire galement. Mais la rciproque est fausse !
Coefficient de corrlation partielle Il arrive parfois que lon constate une corrlation tonnante entre deux
variables. Ce phnomne arrive lorsque la corrlation est en fait due une troisime variable. On cite souvent
lexemple du nombre de maladies mentales (X ) corrl positivement avec le nombre de postes de radio (Y ), corrlation purement fictive tant en fait due une troisime variable non alatoire, le temps (T ). Pour remdier ce
phnomne on utilise le coefficient de corrlation partielle (ou conditionnel) de X et Y conditionnellement T :
XY T =
XY XT Y T
(1 2XT )(1 2Y T )
1.4.2 Liaison entre une variable quantitative et une variable qualitative

On a dj vu sur la figure 1.2 comment il est possible dillustrer la liaison entre une variable qualitative et
une variable quantitative en reprsentant cte cte des botes moustaches pour chaque modalit de la variable
qualitative.
Soit X la variable qualitative R modalits, et Y la variable quantitative. Notons N1 ; : : : ; NR les effectifs de
chaque modalit au sein de lchantillon, Y1 ; : : : ; YR et V12 ; : : : ; VR2 les moyennes et variances de Y pour chaque
modalit de X , et Y et V 2 les moyenne et variance globales de Y .
On montre alors que la variance de Y peut se dcomposer suivant la formule danalyse de variance suivante :
V2 =
R
1X
N (Y
n j=1 j j
Y )2
{z
R
1X
N V2
n j=1 j j
VX2 :variance inter (between) ou expliquee parX
{z
variance intra (within) ou rsiduelle
Cette formule danalyse de variance est lanalogue empirique, dans le cas o X est une variable alatoire qualitative,
de la formule vue en probabilit :
V (Y ) = V (E [Y jX ) + E [V (Y jX ):
On peut alors dfinir comme indice de liaison le rapport de corrlation :
r
RY jX =
VX2
:
V2
Le carr de ce rapport est appel coefficient de dtermination, et est galement utilis par la suite pour exprimer
le degr de liaison entre deux variables quantitatives.
1.4.3 Liaisons entre deux variables qualitatives

Soient deux variables alatoires qualitatives pouvant prendre respectivement R et C modalits : m1 ; : : : ; mR et
o1 ; : : : ; oC . Les donnes de ce type sont prsentes dans un tableau dans lequel les modalits de X figurent en ligne
et celles de Y en colonne, contenant dans chaque case les effectifs conjoints Nr . Un tel tableau est appel table de
contingence :
Les Nr et N sont les marges, ou effectifs marginaux, en lignes et en colonnes.
On appelle r-me profil-ligne lensemble des frquences de la variables Y conditionnelles la modalits mr de
X:
f NNr1 ; ; NNr ; ; NNrC g:

r
r
r
De mme on dfinit le -me profil-colonne :
f NN1 ; ; NNr ; ; NNR g:

16
m1
..
.
mr
..
.
mR
sommes
o1
N11
..
.
Nr1
..
.
NR1
N1
o oC
N 1 N 1C
..
.
Nr
..
.
sommes
..
.
NrC
..
.
NR NRC
N NC
N1
..
.
Nr
..
.
NR
n
TABLE 1.2 Table de contingence
Lorsque aucune liaison nexiste entre les deux variables qualitatives, tous les profils-lignes sont gaux entre eux,
ainsi que tous les profils-colonnes. On a ainsi
N N
Nr = r
n
81 r R; 1 C:
Une mesure de la liaison entre les deux variables peut tre faite en valuant lcart cette situation de non liaison,
par lindice suivant :
=
2
R X
C
X
r=1 =1
Nr
N r N 2
n
Nr N
n
"
R X
C
X
2
Nr
=n
r=1 =1 Nr N
Le 2 est toujours positif ou nul, et il est dautant plus grand que la liaison est forte. Malheureusement cet indice
dpend des dimensions R et C ainsi que de leffectif total n. Dautres indicateurs sont alors utiliss comme :
2
le 2 = n qui dpend encore de C et de R,
le V de Cramer
s
V=
qui est compris entre 0 et 1,
le T de Tschuprow
T=
2
inf (R; C ) 1
2
(R 1)(C
1)
qui est compris entre 0 et 1 et est infrieur au V de Cramer.

1.4.3.1 Cas des variables ordinales
Lorsque les variables alatoires sont ordinales, beaucoup dutilisateurs des statistiques ont tendances considrer
les variables comme si elles taient quantitatives. Or ceci est trs abusif, et peut amener des conclusions errones,
notamment lorsque les modalits ne sont pas quirparties. Une solution plus correcte consiste travailler sur les
rangs associs (cf. section 3.2.1.2). Lchantillon X1 ; : : : ; Xn est remplac par les rangs associs R1 ; : : : ; Rn , o
Ri est le rang de la variable Xi dans le classement par ordre croissant des variables de lchantillon.
On utilise alors simplement comme indice de liaison entre deux variables ordinales le coefficient de corrlation
linaire entre leurs rangs, appel coefficient de corrlation des rangs de Spearman.
1.4.4 Vers le cas multidimensionnel

Considrons dsormais un chantillon X1 ; : : : ; Xn de variables alatoires quantitatives p-dimensionnelles (Xi =
(Xi1 ; : : : ; Xip) 2 Rp ). On note gnralement cet chantillon sous la forme dune matrice (ou dun tableau) n p :
X = (Xij )1in;1jp .
Les covariances entre les variables sont exprimes par la matrice de variance , de taille p p, composes des
variances sur la diagonale et des covariances en dehors de la diagonale :
1
= Y tY
n
1.4. DESCRIPTION DE PLUSIEURS VARIABLES
17
o Y est le tableau des donnes centres, obtenu par Y = AX avec A la matrice n n de terme gnral aij vrifiant
aij = 1Ii=j 1=n.
Proprits de la matrice de variance :

est symtrique : t = ,
Les valeurs propres de sont positives ou nulles. Lorsquil nexiste aucune relation affine presque sre
entre les composantes du vecteur alatoire, la matrice est valeurs propres strictement positives : elle est
dfinie positive.
18
Chapitre 2
Estimation
Soit un chantillon X1 ; : : : ; Xn de variables alatoires indpendantes et identiquement distribues, desprance
et de variance 2 .
Lestimation statistique consiste donner une valeur approche une caractristique dune population, partir dun
chantillon dobservations issus de cette population. Nous nous intressons dans un premier temps lestimation de
paramtres de la population (esprance, variance, proportion...). Dans un second temps, nous chercherons dcrire
de faon encore plus fine le comportement dune population statistique en estimant la fonction de rpartition et la
densit de probabilit dune variable alatoire quantitative.
X V2
2.1 Prambule : tude des statistiques et
et V 2 pour dcrire la tendance centrale et

Nous avons vu dans le chapitre prcdent lintrt des statistiques X
la variabilit dun chantillon X1 ; : : : ; Xn . Nous tudions dans cette section les proprits de ces deux statistiques.

2.1.1 Etude de la statistique X
On montre facilement (exercice) que :
E [X =
2
V (X ) = :
n
et
un estimateur sans biais de lesprance de la population.

Nous verrons plus tard que la premire proprit fait de X
sont
On peut montrer galement que les coefficients dasymtrie (skewness) et daplatissement (kurtosis) de X
respectivement
1 (X ) =
p 1n
2 (X ) = 3 +
et
o 1 et 2 sont les coefficients dasymtrie et daplatissement de la loi de lchantillon.

On remarque que :
) n!1
! 0 on a E [(X )2 ! 0 et donc X converge en moyenne quadratique vers lesp comme V (X
rance de la loi de lchantillon,
) n!1
1 ( X
! 0 et 2 (X ) n!1
! 3 ce qui tend penser la normalit asymptotique de X .
Enfin, lapplication de la loi forte des grands nombres au cas dun chantillon (i.i.d.) assure que
p:s:
1
!
Remarque : la loi faible assure la convergence en probabilit.

:
Finalement, le thorme central-limite assure la la normalit asymptotique de X
X L
p ! N (0; 1)
= n
1. le coefficient dasymtrie ou skewness est dfinit pour une variable alatoire X de moyenne et de variance 2 par 1 =
et est nul si la loi de X est symtrique
2. le coefficient daplatissement ou kurtosis est dfinit par 2 =
densit est plus aplatie quune gaussienne
E [(X )3 ,
3
E [(X )4 , vaut 3 si la loi de X est normale et est suprieur 3 si sa

4
19
CHAPITRE 2. ESTIMATION
20
Application 1 : sondage lectoral
Considrons le sondage dune population visant dterminer la proportion p dlecteurs votant pour un certain
candidat C. Nous supposons (ce qui nest gnralement pas le cas dans la ralit) que les diffrents sondeurs agissent
indpendamment, alatoirement et ne relve pas lidentit des personnes sondes.
Soit Xi la variable alatoire qui vaut 1 si le sond i dclare voter pour C et 0 sinon. Soit n le nombre de personnes
interroges.
Avec ces notations, la frquence empirique des personnes dclarant voter pour C, dfinie par F =
1 Pn

,
X
n i=1 i nest autre que X .
Les variables (X1 ; : : : ; Xn ) constituent un chantillon de loi de Bernoulli de paramtre p. Ainsi, si n est grand, le
thorme central limite nous permet de considrer que F suit une loi normale de moyenne p et de variance p(1n p) .
Exercice. On suppose que 1000 personnes sondes, 300 ont dclar voter pour C.
Sachant que la probabilit pour quune variable alatoire de loi normale centre rduite appartienne [ 1:96; 1:96
a 95% de chance dappartenir.
est de 0.95, donner un intervalle (de confiance) auquel la variable alatoire X
Rponse : IC (p)95%
= [0:2716; 0:3284
2.1.2 Etude de la statistique V 2

On peut montrer en exercice que la statistique V 2 peut scrire sous la forme suivante
n
1X
X 2 X 2 :
V2 =
n i=1 i
La loi des grands nombres nous assure que
V 2 p:s:
! 2 ;
mais
E [V 2 =
n 1 2
:
n
La preuve de cette dernire galit est un exercice intressant.

, V 2 sera un estimateur biais de la variance de la population : il la sous-estime
Contrairement la statistique X
2
lgrement. La variance de V est :
n 1
[(n 1)4 (n 3)4 :
n3
Enfin, un thorme limite nous assure que la statistique V 2 converge en loi vers une loi normale :
V 2 nn 1 2 L
p
! N (0; 1)
V (V 2 )
V (V 2 ) =
4
A noter que lorsque n ! 1, on a lquivalence V (V 2 ) 4 n , do lapproximation suivante :
V 2 2 L
! N (0; 1)
4 4
et V 2 est :
Proprit 2.1.1. La corrlation entre X
V 2) =
(X;
4
3
n
n
3 4
1
Dmonstration en exercice (indication : on supposera sans perte de gnralit que = 0).

et V 2 est nulle si et seulement si 3 = 0, ce qui est le cas des distributions symtriques.
Ainsi, la corrlation entre X
Attention, cela nimplique ncessairement pas leur indpendance.
Afin de corriger le fait que E [V 2 6= 2 on utilise la statistique
n
1 X
(X X )2
S2 =
n 1 i=1 i
pour exprimer la variance de lchantillon. Ainsi, E [S 2 = E [ nn 1 V 2 = 2
ET V 2
2.1. PRAMBULE : TUDE DES STATISTIQUES X
21
2.1.3 Dfinition des lois du 2 , de Student et de Fisher-Snedecor

Dfinition 2.1.1. Soient U1 ; : : : ; Un une suite de variables alatoires normales centres
rduites indpendantes.
Pn
On appelle loi du khi-deux n degrs de libert 2n la loi de la variable alatoire i=1 Ui2
Lesprance et la variance dune variable alatoire de loi 2n sont :
E [2n = n
V (2n ) = 2n
et
La densit dune variable alatoire de loi 2n est :
x n2 1
f (x) = n n2 e
( 2 )2
o
x
2
1Ifx>0g
R
(a) = 01 e xxa 1 dx
Dfinition 2.1.2. Soient X et Y deux variables alatoires indpendantes de lois du 2n et 2p . On appelle loi de
Fisher de paramtres n et p, note Fn;p , la loi de la variable
F = Yn :
p
Lesprance et la variance dune variable alatoire de loi Fn;p sont :
E [F =
p 2
pour tout p > 2
V (F ) =
et
2p2 (n + p 2)
pour tout p > 4:
n(p 2)2 (p 4)
Dfinition 2.1.3. Soient U une variable alatoire normale centre rduite et X une variable alatoire de loi du
2n , indpendante de U . On appelle loi de Student n degrs de libert, note tn , la loi de la variable alatoire
Tn = pUX
n
Lesprance et la variance dune variable alatoire de loi tn sont :
E [Tn = 0 si n > 1
et
V (Tn ) =
n
si n > 2:
n 2
2.1.4 Cas des chantillons gaussiens
suit alors une loi normale en

Lorsque lchantillon (X1 ; : : : ; Xn ) est issu dune loi normale, la statistique X
tant que combinaison linaire de variables normales (plus besoin de thorme asymptotique).
= Xi + X , on peut dcomposer V 2 sous la forme :
En partant de lgalit Xi X
V2 =
do, en multipliant par n2 :
n
1X
(X
n i=1 i
n
X
i=1
X
( i
)2 =
)2
(X
)2 ;
n 2 X 2
V + ( p )
2
n
En appliquant le thorme de Cochran sur les formes quadratiques cette dcomposition, on en dduit les deux
thormes suivants.
Thorme 2.1.1.
(X1 ; : : : ; Xn ) est un chantillon gaussien =) n2 V 2 2n
Thorme 2.1.2.
X et V 2 sont indpendants () (X1 ; : : : ; Xn ) est un chantillon gaussien.
1.
22
2.2 Notion destimateur

et V 2 . Les lois des grands nombres nous
Nous avons tudi au paragraphe prcdent les deux statistiques X
2
assure que les valeurs x
et v de ces statistiques pour un chantillon donn sont de bonnes estimations de la moyenne
et la variance 2 de la population :
X p:s:
!
et
V 2 p:s:
! 2
De mme la frquence empirique f dun vnement est une bonne estimation de sa probabilit p.
, V 2 et F sont des estimateurs de , 2 et p.
Les variables alatoires X
Dfinition 2.2.1. On appelle estimateur dun paramtre dune population, toute fonction
Tn = f (X1 ; : : : ; Xn )
Un estimateur est une variable alatoire (cest une fonction de variable alatoire).
Il est cependant possible dutiliser plusieurs estimateurs pour une mme quantit (pour une distribution symtrique, la mdiane est galement un estimateur de ). Nous allons donc prsenter dans le paragraphe suivant les
diffrentes qualits dun estimateur qui nous guideront dans son choix.
2.3 Qualit dun estimateur

La premire qualit que lon attend dun estimateur est quil converge vers le paramtre quil estime, lorsque la
taille de lchantillon tend vers linfini.
Dfinition 2.3.1. Un estimateur Tn est faiblement consistant sil converge en probabilit vers quand n tend vers
linfini
8 > 0
IP(jTn
j ) n!1
!0
Un estimateur Tn est fortement consistant sil converge presque-srement vers quand n tend vers linfini

IP
lim T = = 1
n!1 n
Une seconde qualit est labsence de biais dun estimateur.

Dfinition 2.3.2. On appelle biais dun estimateur la quantit E [Tn
On parle alors destimateur sans biais, biais ou asymptotiquement sans biais.
, V 2 et S 2 ?
Exemple. Que dire des estimateurs X
On mesure galement la prcision dun estimateur Tn par lerreur quadratique moyenne E [(Tn
dcompose sous la forme
)2 , qui se
E [(Tn )2 = V (Tn ) + (E [Tn )2

Ainsi, de deux estimateurs sans biais, le plus performant sera celui de variance minimale. Nous chercherons donc
gnralement utiliser des estimateurs sans biais de variance minimale.
Exemple. On peut montrer que lorsque est connue, lestimateur V2
= n1
Pn
i=1 (Xi
)2 est meilleur que S 2 .
Exercice. Proposer 2 estimateurs pour le paramtre dune loi de Poisson et dterminer le meilleur.
2.4. ESTIMATEUR EXHAUSTIF
23
2.4 Estimateur exhaustif

Un chantillon X1 ; : : : ; Xn contient une certaine information vis--vis dun paramtre inconnu de la population. Une statistique Tn rsumant linformation contenue dans lchantillon, il sera trs important de ne pas perdre
dinformation : cest cette qualit que lon nomme lexhaustivit.
Dfinition 2.4.1. On appelle vraisemblance du paramtre la fonction
L(x1 ; : : : ; xn ; ) =
Qn
Qin=1 f (xi ; )
i=1 IP(Xi
si les Xi sont continues

si les Xi sont discrtes
= xi ; )
o f (:; ) est la densit de la variable alatoire X1 et IP(Xi

paramtre par .
= xi ; ) est la probabilit de lvnement fXi = xi g
Soit Tn une statistique fonction de X1 ; : : : ; Xn de loi g (t; ) (densit dans le cas continu, P (T
discret).
= t) dans le cas
Dfinition 2.4.2. La statistique T est exhaustive pour si
L(x1 ; : : : ; xn ; ) = g(t; )h(x1 ; : : : ; xn ):

En dautre terme, elle est exhaustive si la loi de lchantillon sachant T
.
= t ne dpend pas de
Ce qui signifie que si T est connue, lchantillon napportera plus aucune autre information supplmentaire sur
Exemple. Pour la loi normale de moyenne connue , la statistique T
Pn
i=1 (Xi
)2 est exhaustive pour 2 .
Thorme 2.4.1 (de Darmois). Soit X1 ; : : : ; Xn un chantillon dont le domaine de dfinition de la loi ne dpend
pas de . Une condition ncessaire et suffisante pour que lchantillon admette une statistique exhaustive est que la
densit soit de la forme :
f (x; ) = exp[a(x)() + b(x) + ()

Une telle densit est dite de la P
famille exponentielle.
P
Si de plus lapplication x1 ! ni=1 a(xi ) est bijective et C 1 alors T = ni=1 a(Xi ) est une statistique exhaustive
particulire.
Qn
Exemple. Montrer que T = ln i=1 Xi est une statistique exhaustive pour une loi Gamma de paramtre inconnu,
dont la densit est
x 1
f (x) =
()e x
Exercice. Donner des statistiques exhaustives pour les lois de Bernoulli, exponentielle et normale (avec soit la
variance connue, soit la moyenne).
La notion dexhaustivit renseigne sur le pouvoir dune statistique vhiculer linformation contenue dans
un chantillon vis--vis dun paramtre inconnu que lon cherche estimer. La quantit dinformation sur le
paramtre apporte par lchantillon sexprime elle par linformation de Fisher.
Dfinition 2.4.3. On appelle quantit dinformation de Fisher In () apporte par un n-chantillon sur le paramtre
la quantit suivante (si elle existe) :
In () = E
"
lnL

2 #
Thorme 2.4.2. Si le domaine de dfinition de la loi de lchantillon ne dpend pas de , on a :
In () = E

2
lnL
2
24
Proprit 2.4.1.
(i) Si le domaine de dfinition de la loi de lchantillon ne dpend pas de , In () = nI1 ()
(ii) Si la loi de lchantillon est une loi normale de variance connue, (

2
= ), alors I1 () = 12
= E lng(t;)
linformation de Fisher apporte par la statistique T , avec g (t; ) la
densit de T , on a IT () In (). On a galit si T est exhaustive, et rciproquement si le domaine de
dfinition de la loi de lchantillon est indpendant de .
(iii) en notant IT ()
La proprit 1 dit que chaque observation a la mme importance, ce qui nest pas le cas lorsque le domaine de
dfinition dpend de , comme pour une loi uniforme sur [0; , o la plus grande valeur de lchantillon apporte
plus dinformation que les autres sur .
La proprit 2 nous assure linformation apporte par une observation est dautant plus grande que la dispersion est
petite.
2.5 Estimation sans biais de variance minimale

Nous avons vu prcdemment que les deux qualits les plus importantes pour un estimateur taient dtre sans
biais, et de variance minimale. Il existe un certain nombre de thormes facilitant la recherche dun tel estimateur.
Thorme 2.5.1 (Unicit). Sil existe un estimateur de
srement.
sans biais de variance minimale, il est unique presque
Thorme 2.5.2 (Rao-Blackwell). Soit T un estimateur sans biais de et U une statistique exhaustive pour .
Alors T = E [T jU est un estimateur sans biais de au moins aussi bon que T (dun point de vue variance).
Thorme 2.5.3. Sil existe une statistique exhaustive U , alors lunique estimateur T de sans biais de variance
minimale ne dpend que de U .
Dfinition 2.5.1. Une statistique U est complte si E [h(U ) = 0
8 ) h = 0p.s.
Thorme 2.5.4 (Lehmann-Scheff). Si T est un estimateur sans biais de dpendant dune statistique exhaustive
complte U alors T est lunique estimateur sans biais de variance minimale. En particulier si lon dispose dun
estimateur T sans biais de , T = E [T jU .
Exemple. Le nombre de bug informatique par semaine dun logiciel donn suit une loi de Poisson de paramtre
. On cherche valuer la probabilit de navoir aucune panne pendant une semaine P (X = 0) = e . Que
proposez-vous ?
Le rsultat suivant nous indique une borne laquelle ne peut tre infrieure la variance dun estimateur.
Thorme 2.5.5 (Ingalit de Frchet-Darmois-Cramer-Rao). Si le domaine de dfinition de la loi de lchantillon
ne dpend pas de , tout estimateur T vrifie
V (T )
et si T est un estimateur sans biais de h()
V (T )
1
In ()
[h0 ()2
In ()
Dfinition 2.5.2. Un estimateur qui atteint la borne de Cramer-Rao est dit efficace. Autrement dit, un estimateur
est efficace sil nest pas possible de trouver un estimateur sans biais de variance plus faible.
Thorme 2.5.6 (efficacit).
la borne de Cramer-Rao ne peut tre atteinte que si la loi de lchantillon
est de la famille exponentielle :
f (x; ) = exp[a(x)() + b(x) + ()
2.6. MTHODE DU MAXIMUM DE VRAISEMBLANCE
25
dans ce cas il nexiste quune seule fonction du paramtre

puisse tre estime efficacement, cest
T=
( une transformation linaire prs) qui
0 ()
0 ()
h() =
Lestimateur de h() est alors
n
1X
a(Xi )
n i=1
et la variance minimale est
V (T ) =
h0 ()
n0 ()
Exemple. Donner un estimateur de lcart-type dune loi normale de moyenne connue.

La recherche destimateur sans biais de variance minimale passe donc par la recherche destimateur exhaustif.
Or cette recherche peut ne pas aboutir, et elle est de plus assez lourde. La mthode du maximum de vraisemblance
est une mthode systmatique permettant de trouver des estimateurs.
2.6 Mthode du maximum de vraisemblance

La mthode du maximum de vraisemblance permet de trouver des estimateurs dans toutes les situations, mme
les plus compliques. Cest une des mthodes destimation les plus utilises.
Cette mthode consiste recherche le paramtre qui maximise la fonction de vraisemblance L(x1 ; : : : ; xn ; ),
cest--dire pour lequel la densit de lchantillon est la plus grande.
Lestimateur du maximum de vraisemblance (EMV) est donc une solution de lquation de vraisemblance

lnL(X1; : : : ; Xn ; ) = 0

2 lnL(X ; : : : ; X ; ^) < 0. Un certain nombre de proprit nous prouve lintrt de cette estimateur.
vrifiant
2
1
n
Proprit 2.6.1.
(i) Sil existe une statistique exhaustive U , alors lEMV en dpend.
(ii) Si ^ est lEMV, f (^) est lEMV de f ()
(iii) Il existe une suite ^n de racines de lquation de vraisemblance qui converge presque srement vers . de
plus, il existe un rang partir duquel le maximum est atteint.
(iv) ^n
L! N (;
In () ).
1
La dernire proprit nous assure que lEMV est asymptotiquement efficace. Il est donc important davoir un
chantillon important pour utiliser cet estimateur.
Lorsque le modle comporte plusieurs paramtres 1 ; : : : ; p , il sera ncessaire de rsoudre le systme dquation
simultanes

lnL = 0
i
81 i p
Remarque 2.6.1.
Lquation de vraisemblance na pas ncessairement une unique racine.
La solution de lquation de vraisemblance nest pas toujours calculable analytiquement. Dans ce cas,
des algorithmes de recherche de maximum (de type Newton) peuvent tre utiliss.
2.7 Estimation par intervalles

Il est souvent plus intressant de donner une estimation dun paramtre dintrt sous la forme dun intervalle,
associ une certaine probabilit dtre dans cet intervalle, plutt que de donner une estimation ponctuelle de ce
paramtre.
Exemple. Sondages lectoraux.
26
Considrons un estimateur T de dont on connait la loi de probabilit. On prendra bien entendu le meilleur
estimateur possible, ds lors que sa loi est connue. Connaissant la loi de T qui dpend de , pour une valeur estime
t de il est possible de dterminer un intervalle tel que :
P ( 2 [t1 (t; ); t2 (t; )) = 1 :

Ainsi, la vraie valeur (inconnue) du paramtre sera dans lintervalle [t1 (t; ); t2 (t; ) avec une probabilit 1
On dit que [t1 (t; ); t2 (t; ) est un intervalle de confiance de niveau 1 , que lon note IC1 ().
A contrario, le risque est la probabilit pour que lintervalle de confiance ne comprenne pas .
Remarque 2.7.1.
(i) lintervalle de confiance est fonction de lestimation t de ,
(ii) lintervalle de confiance est galement fonction de . Plus est petit, plus le niveau de confiance est grand,
et donc plus lintervalle slargit.
(iii) lorsque la taille de lchantillon grandit, lestimateur
lintervalle se rtrcit.
tant convergeant la variance
Soit a et b les bornes dun intervalle de confiance IC1 () de niveau de confiance 1
On a :
p(a b) = 1 et donc p( < a) + p( > b) =
V (T ) diminue, et
pour le paramtre .
En posant = 1 + 2 , il existe une infinit de choix possibles pour 1 et 2 , et donc de choix pour a et b. Nous ne
considrerons que le cas dun intervalle bilatral risques symtriques, pour lesquels le risque est partag en deux
parts gales 1 = 2 = 2 . Nanmoins, il arrive en pratique que lon sintresse des risque unilatraux, mais nous
en parlerons plus en dtail dans le chapitre 3 sur les tests statistiques.
Dans la suite de ce chapitre, nous dcrivons les intervalles de confiance les plus classiques. Mais il faut garder
lesprit que ce ne sont pas les seuls, et que ds lors que lon connait la loi de lestimateur, il est possible de donner
un intervalle de confiance.
2.7.1 Intervalle de confiance sur lesprance

2.7.1.1 Intervalle de confiance sur lesprance dune loi normale avec variance connue
Soit X
N (; 2 ) avec connu. Le meilleur estimateur de est X . Comme X est de loi normale,
X
T = p
n
N (0; 1):
En prenant des risques symtriques, on peut lire dans les tables les quantiles u 2 et u1 2 de la loi normale centre
rduite dordres respectifs 2 et 1 2 , tels que :
IP(u 2
ou encore
IP(T
T u1
)
2
=1
u ) = p(T u1
2
)
2

= :
2
La notion de quantile est dfinie de la faon suivante :

Dfinition 2.7.1. pour une variable alatoire continue X , le nombre q tel que
IP(X
q ) = ;
est le quantile dordre de la loi de X .

Ces quantiles sont nots de diffrentes faons : u pour la loi normale, tn pour la loi de Student n degrs de
libert, n pour la loi du 2n , etc.
La figure 2.1 illustre la dfinition de ces quantiles.
Comme la loi normale est symtrique, on a la proprit suivante :
u1
= u 2 :
(2.1)
2.7. ESTIMATION PAR INTERVALLES
27
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
4
u2
u21
Ces quantiles sont donns par les tables statistiques. Par exemple, pour
1:96.
Daprs (2.1),
IP(u 2 T u1 2 ) = 1 ;
do on tire
IP(u 2

IP(X
de la loi normale centre rduite

2
F IGURE 2.1 quantiles dordre 2 et 1
peut scrire
= 0:05, pour lequel on obtient u 2 =
T u ) = 1 ;
2

+ u 2 p
n
X u pn ) = 1 ;
2
do lintervalle de confiance :

IC1 () = [X + u 2 p ; X u 2 p :
n
n
Pour une ralisation numrique x1 ; :::; xn du n-chantillon X1 ; :::; Xn , on obtient lintervalle de confiance sur m au
niveau de confiance 1 :

IC1 () = [x + u 2 p ; x u 2 p :
(2.2)
n
n
qui donne pour = 0:05 :

[x 1:96 p ; x + 1:96 p
n
n
2.7.1.2 Intervalle de confiance sur lesprance dune loi normale avec variance inconnue
Si la variance 2 est inconnue, on utilise a sa place son meilleur estimateur S 2 .
Comme on sait que n2 V 2 suit une loi du 2 n 1 degrs de libert, n21 S 2 aussi.
La statistique que lon utilise est donc
Tn
En remarquant quelle scrit
Tn
X
:
pSn
X
pn
n 1 S2
2
28
on trouve quelle suit une loi de Student n 1 degrs de libert, comme rapport dune loi normale centre rduite
sur la racine dun 2 divis par son degr de libert.
Comme prcdemment, on obtient lintervalle de confiance :
S
S
IC1 () = [x + tn 1; 2 p ; x tn 1; 2 p ;
n
n
o tn
1;
2
est le quantile dordre 2 de la loi de Student n
1 degrs de libert.
2.7.1.3 Si la loi de X nest pas une loi normale

Dans ce cas, lorsque la taille de lchantillon n est suprieure ou gale 30, le thorme central limite nous
suit une loi normale, et donc les rsultats prcdents sont applicables.
permet dutiliser le fait que X
2.7.2 Intervalle de confiance sur la variance dune loi normale

2.7.2.1 Intervalle de confiance sur la variance dune loi normale lorsque est connue
Comme est connue, le meilleur estimateur de la variance est la statistique :
Pn
i=1 (Xi
V2 =
)2
2
Or, (Xi2 ) = n2 V2 suit une loi du 2 n degrs de libert en tant que somme de n carrs de loi normale centre
rduite indpendantes.
Il est possible dobtenir un intervalle de confiance sur 2 , en fixant le niveau de confiance 1 dans lingalit :
IP(2n; 2
n2 V2 2n;1
o 2n; et 2n;1 les quantiles dordre 2 et 1

2
2
Lintervalle est alors :
)
2
= 1 ;
de la loi du 2 n degrs de libert.

2
IC1 (2 ) = [
nV2
2n;1
nV2
2n; 2
On obtient une estimation numrique de cet intervalle en remplaant V2 par sa valeur sur le n-chantillon de
obtenu par exprience.
2.7.2.2 Intervalle de confiance sur la variance dune loi normale lorsque est inconnue
Si est inconnue, on utilise lestimateur de 2 :
S =
2
Pn
i=1 (Xi
n 1
La proprit qui nous assure que n21 S 2 suit un loi du 2n
IC1 (2 ) = [
X )2
nous permet de construire lintervalle de confiance :
(n 1)S 2 (n 1)S 2
;
;
2n 1;1 2 2n 1; 2
et donc, en remplaant S 2 par sa valeur s2 sur le n-chantillon obtenu par exprience :
IC1 (2 ) = [
(n 1)s2 (n 1)s2
;
:
2n 1;1 2 2n 1; 2
Remarque 2.7.2. Ces intervalles de confiance ne sont valables que pour une loi normale. Il nest pas possible
dtendre ces rsultats au cas dautre loi comme pour les intervalles de confiance sur la moyenne.
2.7. ESTIMATION PAR INTERVALLES
29
2.7.3 Intervalle de confiance sur une proportion

Nous supposons que la proportion p dindividus prsentant un certain caractre C au sein dune population est
inconnue. Le meilleur estimateur de p est la frquence empirique F , que lon peut dfinir par :
F = X =
Pn
i=1 Xi ;
o Xi est une v.a. de Bernoulli de paramtre p, dfinie par :
Xi =
1 si lindividu i possde la caractre C

0 sinon.
Pn
Comme X suit une loi de Bernoulli B (p), nF = i=1 Xi suit une loi binomiale B (n; p).
Si n est faible, on utilisera les tables de la loi binomiale (ou des abaques).
Si n est suffisamment grand, de sorte que np > 5 et n(1 p) > 5, on peut considrer (loi des grands nombres) que
Pn
p(1 p)
F p
i=1 Xi suit une loi normale N (np; np(1 p)), do F suit une loi normale N (p; n ), et donc T = p(1 p)
suit une loi N (0; 1).

On obtient alors, en fonction des quantiles p(u 2
T u ) = 1 , lintervalle de confiance sur p :

2
IC1 (p) = [F + u 2
p(1 p)
;F
n
u 2
p(1 p)
:
n
Cet intervalle recouvre p avec la probabilit 1 , mais il est toutefois inoprant puisque ses bornes dpendent de
p. En pratique, il existe trois faons dobtenir lintervalle de confiance. Nous retiendrons celle qui remplace p par
son estimateur F .
Ainsi, on obtient lintervalle de confiance sur la proportion p en fonction de la valeur f de F sur notre chantillon :
r
IC1 (p) = [f + u 2
f (1 f )
;f
n
u 2
f (1 f )
:
n
2.7.4 Rcapitulatif
Intervalle de confiance dune moyenne
IC1 ()
loi normale ou n 30
2 connue
[x + u 2 pn ; x u 2 pn
2 inconnue
[x + tn 1; 2 pSn ; x tn 1; 2 pSn
Intervalle de confiance dune variance
IC1 (2 )
loi normale
connue
2

[ 2 ; nV
2n ;
2
n;1 2
nV2
inconnue
2
; (n2 1)s
[ 2

n 1 ;1 2
n 1; 2
(n 1)s2
Intervalle de confiance dune proportion
IC1 (p)
np > 5 et n(1 p) > 5
[f + u 2
f (1 f ) ; f
n
u 2
f (1 f )
n
30
2.8 Plus destimation statistique

2.8.1 Estimation baysienne
Le point de vue baysien suppose que les paramtres de la loi des observations X1 ; : : : ; Xn sont galement
des variables alatoires.
La densit g () de est la loi a priori de .
La densit conditionnelle des observations Xi sachant estQf (xi j).
n
La vraisemblance (conditionnelle) est L(x1 ; : : : ; xn ; ) = i=1 f (xi j).
La loi conjointe des observations et du paramtre (X1 ; : : : ; Xn ; ) est
f (x1 ; : : : ; xn ; ) = L(x1 ; : : : ; xn ; )g():

On dfinit galement la loi a posteriori du paramtre connaissant les observations :
g(jX1 = x1 ; : : : ; Xn = xn ) =
L(x1 ; : : : ; xn ; )g()
:
R L(x1 ; : : : ; xn ; )g ()d
2.8.1.1 Application : estimation baysienne de la moyenne dune loi normale de variance connue
On suppose que la loi de lchantillon conditionnellement est N (; 2 ), et que la loi a priori de
galement une loi normale N (0 ; 02 ).
Le calcul de la loi a posteriori donne une loi normale desprance et de variance :
E [ j X1 ; : : : ; X n =
2 + 2 X

0
n 0
2 + 2
0
n
et
est
2 02
n
V (jX1 ; : : : ; Xn) = 2
2
n + 0
Lestimateur baysien de , qui est lesprance a posteriori est donc une moyenne pondre de lesprance a priori
et de la moyenne empirique des observations.
Introduisons le concept de prcision, comme linverse de la variance. La prcision a priori sur est 1 = 12 et sur la
0

+2 X
1
moyenne empirique elle est 2 = n2 . On voit alors que E [jX1 ; : : : ; Xn = 1 10+
2 et V (jX1 ;:::;Xn ) = 1 + 2 .
Lestimateur baysien de est donc la moyenne pondre des deux estimations (a priori et empirique) pondres
par leur prcision. Si linformation a priori est trs prcise, les observations nauront que peu dinfluence dans
lestimateur baysien. Au contraire si la prcision a priori tend vers 0 ou si n tend vers linfini, lestimateur baysien
.
est lestimateur classique X
Cette application fonctionne trs bien car la loi a posteriori se calcule facilement. Mais pour des lois quelconques, les calculs sont gnralement beaucoup plus compliqus, et la loi a posteriori doit tre estime par des
algorithmes spcifiques.
La statistique baysienne peut tre vu comme un raffinement de la statistique classique, mais le choix de la loi
a priori peut tre trs problmatique et reste toujours subjectif. Nanmoins, pour les problmes statistique dans
lesquels on dispose de peu de donnes (fiabilit de systmes trs rarement dfaillant par exemple), lincorporation
dune information a priori ( jugement dexpert ) peut savrer trs intressante.
2.8.2 Estimation robuste : cas de la valeur centrale dune distribution symtrique
de lesprance dune distribution symtrique est trs sensibles des valeurs extrmes aberLestimation x
rantes .
Lorsque des valeurs aberrantes sont prsentes (ou souponnes), un estimateur robuste de lesprance peut tre
utilis : la moyenne tronque dordre , qui est la moyenne arithmtique obtenue en liminant de lchantillon les
n plus grandes et plus petites valeurs. Une valeur gnralement recommande est = 15%.
La mdiane est le cas extrme de cet estimateur pour = 50%, et est trs robuste.
Au lieu dliminer les n plus grandes valeurs, il est galement possible de toutes les fixer la plus grande valeur
conserves : cest ce quon appelle la winzorization .
Dautres approches existent galement, comme celle des M -estimateurs, qui consistent chercher une estimation qui minimise une fonction du type

n
X
xi
i=1
2.9. ESTIMATION FONCTIONNELLE
31
o s est une estimation robuste de la dispersion. Toute une famille destimateur est ainsi dfinie en fonction du
choix de h. Pour h(x) = lnf (x), avec f la densit des donnes, on retrouve les estimateurs du maximum de
vraisemblance.
2.9 Estimation fonctionnelle

2.9.1 Estimation de la fonction de rpartition
La fonction de rpartition empirique, introduite section 1.3.3.3 et dfinie comme la proportion des n variables
X1 ; : : : ; Xn infrieures ou gales x :
#fXi : Xi x; 1 i ng
n
est un estimateur de la fonction de rpartition F (x) = p(X t).
Fn (x) =
(2.3)
Cest une variable alatoire, en tant que fonction des variables alatoires X1 ; : : : ; Xn . A un chantillon dobservations x1 ; : : : ; xn correspond une ralisation de cette fonction alatoire, qui est une fonction en escalier de sauts
1=n.
Thorme 2.9.1 (Glivenko-Cantelli). Soit Fn la fonction de rpartition empirique dun chantillon (X1 ; : : : ; Xn )
o les Xi ont pour fonction de rpartition F . Alors
8x 2 R;
Fn (x) p:s:
! F (x)
p:s:
jjFn F jj1 ! 0
Preuve. Le premier point est dmontr en cours, le second point est admis. Pour un rappel sur les diffrents modes
de convergence dune suite de variables alatoires, se reporter lannexe 4.1.
Le second point de ce thorme nous assure que pour une taille assez grande dchantillon, la fonction de
rpartition thorique peut tre approxime par la fonction de rpartition empirique.
2.9.2 Estimation non paramtrique de la densit

Pour aller plus loin se rfrer [1].
La connaissance de la densit dune variable alatoire donne une information trs importante. Nous avons vu quun
premier estimateur de la densit de probabilit pouvait tre lhistogramme (section 1.3.3.2). Lhistogramme est un
graphique en btons, dont la hauteur pour une classe j est proportionnelle la proportion de point observ dans
n
cette classe nj (o nj est le nombre de points dans la classe et n est le nombre de points total). Si la longueur de
n
lintervalle vaut h, la hauteur est alors nj h1 , de sorte ce que lair totale des btons soit gale 1. Cet estimateur
discontinue samliore lorsque lon fait tendre vers 0 la largeur h de chaque intervalle, et que lon fait tendre vers
linfini le nombre de points par classe. Mais en pratique le nombre de points est fini, et cet estimateur discontinu
nest pas le meilleur estimateur pour une fonction continue.
Nous prsentons ici une mthode destimation fonctionnelle plus volue, qui permet, en labsence de toute hypothse de modle paramtrique donn, une estimation point par point de la densit de probabilit.
On cherche une estimation f^n de la densit f minimisant lerreur quadratique moyenne intgre :
MISE = E
Z
(f^n (x) f (x))2 dx :
Soit X1 : : : Xn un chantillon, rang dans lordre croissant, de la variable alatoire dont on cherche estimer
la densit. Sachant que la fonction de densit est la drive de la fonction de rpartition, on a
F (x + h) F (x h)
;
2h
et on peut donc approcher f , pour de petite valeur de h par
f (x) = lim
h!0
fn(x) '
F (x + h) F (x h)
2h
' Fn (x + h) 2h Fn (x h)
32
o Fn est la fonction de rpartition empirique. En remplaant Fn par son expression (2.3), on obtient lestimateur
par fentre mobile de la densit
fn (x) '
n
1 X
Xi x
1
1I[ 1;1
:
nh i=1 2
h
Cet estimateur se gnralise lestimateur par la mthode du noyau de Parzen

n
1 X
x xi
f^n (x) =
K
nh i=1
h
o K est une fonction noyau, dfinie de R ! R+ et dintgrale gale 1.

Il existe diffrents types de noyau, parmi lesquels :
uniforme (ci-dessus) : K (x) = 12 1I[ 1;1 (x),
2
gaussien : K (x) = p12 exp x =2 ,
triangulaire : K (x) = (jxj + 1)1I[ 1;1 ,
Epanechnikov : K (x) = 3=4(1 x2 )1I[ 1;1 .
Le choix du noyau nest pas dune importance capitale, au contraire du choix de la taille de la fentre h : plus h
est petit, plus les fluctuations sont importantes, plus h est grand, plus le lissage est important. Tout lintrt sera
de trouver le meilleur compromis. On recommande gnralement le choix de h = sn n 1=5 o sn est lcart-type
estim des observations.
Proprits des estimateurs noyau f^n
estimateur asymptotiquement sans biais : limn!1 E [f^n (x) = f (x) pour tout x 2 R
V (f^n (x)) ! 0 si h ! 0 et hn ! 1 (h tend vers 0 moins vite que 1=n)
vitesse de convergence en n 4=5 :
E [(f^n (x) f (x))2 ste n 4=5 ;

qui est la vitesse optimale pour les estimateurs non-paramtriques, mais qui est plus faible que la vitesse
typique des mthodes paramtriques, gnralement n 1 .
Logiciel : lestimation par noyau se fait sous le logiciel R laide de la fonction density.
Chapitre 3
Tests statistiques
On distingue diffrentes catgories de tests :
les tests paramtriques ont pour objet de tester une certaine hypothse relative un ou plusieurs paramtres
dune variable alatoire de loi spcifie (gnralement suppose normale). Lorsque le test est toujours valide
pour des variables non gaussiennes, on dit que le test est robuste ( la loi).
les tests non paramtriques qui portent gnralement sur la fonction de rpartition de la variable alatoire,
sa densit...
les tests libres (distributions free) qui ne supposent rien sur la loi de probabilit de la variable alatoire
tudie (et qui sont donc robuste). Ces tests sont souvent non paramtriques, mais pas toujours.
Dans ce cours, nous classons les tests en fonction de leur fonctionnalit :
Tests sur une population :
test sur le caractre centrale dune population,
test sur la variance,
test sur une proportion,
test de lalatoire dun chantillon,
test dajustement une loi spcifie,
test de liaison entre variables (quantitatives, qualitatives, mixtes)
Tests de comparaison de deux populations
3.1 Thorie des tests paramtriques

3.1.1 Introduction : test sur lesprance dune loi normale de variance connue
Soit un chantillon (X1 ; :::; Xn ) de loi N (; 2 ), avec inconnue et 2 connue. On cherche tester si lesprance est gale ou non une valeur de rfrence 0 :
H0 : = 0
contre
H1 : 6= 0
Sous lhypothse H0 , la statistique suivante suit une loi N (0; 1)
T=
Ainsi, si
[u 2 ; u1
H0
X
0
pn :
est vraie, la valeur de cette statistique pour lchantillon observ devrait appartenir lintervalle
. Ce qui revient dire que la ralisation de X appartient lintervalle
avec la probabilit 1
2

[0 + u 2 p ; 0 + u1
n
pn
avec une probabilit de 1 .

nest pas dans cet intervalle on peut dcider de rejeter lhypothse H0 . Le risque de
Ainsi, si lobservation x de X
se tromper en rejetant H0 est .
33
CHAPITRE 3. TESTS STATISTIQUES
34
3.1.2 Vocabulaire des tests

Un test est un procd qui permet de trancher entre deux hypothses, au vu des rsultats dun chantillon : on
teste une hypothse nulle contre une hypothse alternative. Lhypothse nulle H0 est lhypothse que lon veut
contrler. Elle est toujours de forme simple
H0 : = 0
o 0 est une valeur donne du paramtre. Le choix de cette hypothse est fait de manire conservative : si on
test un mdicament, on prendra H0 lhypothse o le mdicament na pas deffet. Cest galement souvent la plus
importante des deux hypothses puisque cest celle dont on contrle le risque. Lhypothse alternative H1 est quant
elle gnralement composite :
H1 : 2 1
o 1 est une partie de R non ncessairement rduite un lment. Cette hypothse se ramne souvent un des cas
suivants : < 0 , > 0 (test unilatraux) ou 6= 0 (test bilatral).
Suivant la justesse de la dcision prise lissue du test, on est en prsence de 4 cas de figure (tableau 3.1).
XXXXX Vrit
XXXXX
Dcision
H0
H1
H0
H1
conclusion correcte
erreur de premire espce
erreur de deuxime espce

conclusion correcte
TABLE 3.1 Erreurs associs un test
Exemple (Importance du choix des hypothses). Considrons le test des hypothses suivantes :
hypothse H0 : le patient doit tre hospitalis,
hypothse alternative H1 : le patient ne doit pas tre hospitalis.
Lerreur de premire espce consiste ne pas hospitaliser un patient qui en avait besoin. Cette erreur est trs grave,
puisquelle peut conduire au dcs du patient. Le risque de deuxime espce, qui consiste hospitaliser un patient
qui nen avait pas besoin peut savrer moins grave.
Pour lexemple du mdicament, lerreur de premire espce consiste mettre sur le march un mdicament qui na
pas deffet.
3.1.3 Probabilit derreur et risque, puissance de test

On associe aux erreurs de premire et deuxime espces les probabilits (risques) associes (tableau 3.2). Le
niveau de confiance du test est la probabilit 1 de ne pas rejeter raison H0 . Le risque de premire espce
est le risque de rejeter H0 tort. Le risque de deuxime espce est le risque de conserver H0 tort.
XXXX
XXXVrit
XXX
Dcision
H0
H1
H0
niveau de confiance 1
risque
H1

risque
TABLE 3.2 Risques associs un test

En pratique il est dusage de fixer le risque : 5%, 1%, 10%. Ainsi, on contrle le risque associ lerreur de
premire espce, qui nous lavons vu est lerreur la plus grave. Choisir un risque trop petit va conduire ne rejeter
que trs rarement H0 (si on ne la rejette pas on ne risque pas de la rejeter tort !). Au contraire, choisir un risque
trop grand va conduire naccepter que trs rarement .
Le risque se dduit alors par le calcul, si la loi sous H1 est connue. Il varie en sens contraire de . Ainsi, en
diminuant le risque , on augmente le risque . On dfinit alors la puissance du test par 1 , qui correspond la
probabilit de rejeter H0 raison.
Le choix dun test sera donc le rsultat dun compromis entre risque de premier espce et puissance du test.
3.1. THORIE DES TESTS PARAMTRIQUES
35
Une fois que lon a fix raisonnablement , il faut choisir une variable de dcision, qui doit apport le maximum
dinformation sur le problme pos, et dont la loi sera diffrente selon que H0 ou H1 est vraie. La loi sous H0 doit
tre connue. On dfinit alors la rgion critique W qui est lensemble des valeurs de la variable de dcision qui
conduisent rejeter H0 au profit de H1 . Sa forme est dtermine par la nature de H1 , et sa dtermination exacte est
.
donne par p(W jH0 ) = . La rgion dacceptation est son complmentaire W
3.1.4 Choix optimal de la statistique de test et de la rgion de rejet

Le choix de la statistique de test et de la rgion de rejet est fait de sorte maximiser la puissance du test 1
pour un risque de premire espce fix.
Plaons nous dans le cadre dun test entre hypothses simples :
H0 : = 0 contre H1 : = 1
Neyman et Pearson (1933) ont montr que le test du rapport de vraisemblance est le test le plus puissant au
niveau de confiance .
Thorme 3.1.1 (Neyman et Pearson). La rgion critique optimale est dfinie par les points
vrifiant
x = (x1 ; : : : ; xn )
L(x; 1 )
> g
L(x; 0 )
La constante , qui dpend de , est dtermine par = IP0 (x 2 W ).
W = fx :
0.25
0.2
0.15
0.1
0.05
0
10
5 m0
k0
m15
10
F IGURE 3.1 illustration de la rgle de dcision

Exemple. Reprenons le test dintroduction, o (X1 ; :::; Xn ) est de loi normale de variance 2 connue et desprance
inconnue, avec cette fois une hypothse alternative simple :
H0 : = 0
On suppose 0
contre
H1 : = 1 :
< 1 . La vraisemblance de lchantillon gaussien scrit

2
1 Pn
1
L(x; ) = p n e 22 i=1 (xi )
( 2)
do le rapport de vraisemblance
n
1 X
L(x; 1 )
2( )x
= exp
L(x; 0 )
22 i=1 1 0 i
n 2
(
22 1
2
0)
(x;1 )
1 +0 = C , o la constante C est dtermine
2
Ainsi, L
L(x;0 ) > est quivalent x > log( ) n(1 0 ) + 2
x > C ) = . La rgion critique optimale du test de Neyman-Pearson est donc
IP0 (x 2 W ) = IP0 (

W = fx : x > 0 + u1 p g
n
et on retombe bien sur le test intuitif de lintroduction.
36
Dans le cas o lhypothse alternative est composite ( 2 1 ), la puissance du test est fonction de : 1 ()
est appele la fonction puissance du test.
Un test est dit uniformment le plus puissant (UPP) si quelque soit la valeur de appartenant lhypothse
alternative, sa puissance est suprieure celle de tout autre test.
Exemple. On a vu prcdemment pour le test H0 : = 0 contre H1 : = 1 > 0 que la rgion critique ne
dpend pas de 1 , et quelle est donc la mme pour tout 1 > 0 . Le test est donc UPP pour H0 : = 0 contre
H1 : > 0 .
Si cette fois 1 < 0 , on obtient encore un test UPP H0 : = 0 contre H1 : < 0 , mais diffrent du prcdent.
Il nexiste donc pas de test UPP pour H0 : = 0 contre H1 : 6= 0 .
3.1.5 Utilisation de la puissance de test

Dans le cas dun test entre deux hypothses simples avec variance 2 connue
H0 : = 0
contre
H1 : = 0 + ;
nous avons vu que la rgion critique avait la forme

W = fx : x > 0 + u1 p g:
n
On peut calculer le risque de second espce :
n
):
= p(dcider H0 jH1 ) = (u1

La puissance du test, 1 , est donc fonction de , n et . En considrant et n fixs, on peut reprsenter la courbe
de puissance du test par la Figure (3.2).
F IGURE 3.2 Courbe de puissance dun test

La courbe de puissance peut donc permettre
de choisir entre plusieurs tests en fonction de leur courbes de puissance (que lon veut la plus forte possible,
i.e. proche de la droite dordonne 1),
pour un problme donn, dans lequel et sont fixs, on pourra choisir le nombre de sujets ncessaire n
pour atteindre une puissance donne laide de lquation (3.1).
3.1.6 Rsum
La dmarche de construction dun test est la suivante :
choix de H0 et H1 ,
dtermination de la variable de dcision,
3.2. TESTS SUR UNE POPULATION
37
allure de la rgion critique en fonction de H1 ,

calcul de la rgion critique en fonction de ,
calcul de la valeur exprimentale de la variable de dcision,
conclusion : rejet ou acceptation de H0 .
3.1.7 p-value
En pratique, plutt que de calculer la rgion critique en fonction de , on prfre donner un seuil critique ,
appele p-value, qui est la plus grande valeur de conduisant ne pas rejeter H0 . Cette information permet au
lecteur de conclure lacceptation de H0 pour tout risque de premire espce , et son rejet pour tout
> .
3.2 Tests sur une population

Nous pouvons maintenant prsenter les diffrents tests statistiques classiques, obtenus par la mthode de NeymanPearson lorsque les chantillons sont gaussiens (voir de grandes tailles). Dans le cas de petits chantillons non
gaussiens, des alternatives non paramtriques seront prsentes.
3.2.1 Test sur le caractre central dune population

3.2.1.1 Cas dun chantillon grand ou gaussien
Soit un n-chantillon (X1 ; :::; Xn ) issu dune population de moyenne et de variance 2 . Nous supposons que
au moins lune des deux conditions suivantes est satisfaite :
la population est de loi normale,
lchantillon est de taille n suffisamment grande (n 30).
Test H0
: = 0 contre H1 : 6= 0 lorsque 2 est connue
U=
X
La statistique de test est
0
pn :
Sous H0 , cette statistique suit une loi normale centre rduite daprs les conditions prcdentes (via le thorme
centrale limite si seule la seconde condition est satisfaite).
0 j > u p , o u est le quantile de la loi normale
La rgion critique, dfinie par jU j > k , se traduit par jX
n
2
2

centre rduite dordre 2 .
Ainsi,

on rejette H0 si jx
0 j > u 2 pn .
ds que jx p0 j > u 2 . La p-value est la
n

2 jxp0 j avec la fonction de rpartition de
Remarque 3.2.1 (Calcul de la p-value). Pour ce test, on rejette
H0
valeur critique de telle que jx p0 j = u , do =

2
n
n
la loi normale centre rduite. Ainsi, ds que lon choisi un risque plus grand que , on a
on rejette H . Au contraire, si le risque est plus petit, on aura cette fois jx 0 j = u <
H0 .
pn
u 2 > u 2 et donc
u 2 et on conserve
Remarque 3.2.2 (Tests unilatraux). Si le test est unilatral, H0 : = 0 contre H1 : < 0 , on rejette H0 si la
< 0 + u pn .
vraie valeur de est trop loigne infrieurement de 0 , ce qui se traduit par x

Si le test est H0 : = 0 contre H1 : > 0 , on rejette H0 si x
> 0 u pn .
38
Test H0 : = 0 contre H1 : 6= 0 lorsque 2 est inconnue Ce test est gnralement connu sous le nom de
test de Student.
Dans ce cas la variance 2 est estime par son estimateur S 2 . La statistique de test est
T=
X
0
pSn
qui suit une loi de Student n 1 degr de libert.

La conclusion du test devient alors
on rejette H0 si jx

o tn
1;
2
0 j > tn 1; 2 psn ,
est le quantile dordre 2 de la loi de Student n
1 degrs de libert, et s2 =
Pni
xi x)2
=1 (
Logiciel R : les tests sur la moyenne seffectuent laide de la fonction t.test.

Logiciel SAS : proc ttest ou proc univariate.
Attention : seul des test bilatraux sont possibles sous SAS. Dans le cas dun test unilatral, il conviendra donc
dajuster la p-value (en la divisant par deux), et de sassurer avant de rejeter H0 que la statistique de test est bien
du bon cot de lhypothse nulle.
3.2.1.2 Cas dun petit chantillon non gaussien
Le caractre central de la population sera test cette fois, non plus en travaillant sur lesprance de la loi comme
prcdemment, mais en testant la symtrie de la distribution par rapport une valeur 0 dintrt. Nous supposons,
sans perte de gnralit, que 0 = 0.
Les hypothses que nous testons sont donc :
H0 : F (x) = 1 F ( x) la distribution est symtrique par rapport 0
contre H1 : F (x + ) = 1 F ( x) la distribution est symtrique par rapport
o F est la fonction de rpartition de la variable alatoire teste.
Les tests que nous allons prsenter dans cette section seront bass sur les rangs des observations et ncessitent
quelques notions introduites dans le paragraphe suivant.
Statistique de rang
Rang et anti-rang. Soit X = (X1 ; : : : ; Xn ) un chantillon. Soit Ri la variable alatoire gale au rang de la variable Xi dans le classement dans lordre croissant des variables X1 ; : : : ; Xn (on ne suppose pas dex-quo).
On appelle anti-rang, Di lindice de la la variable classe en ime position.
Exemple : pour X
= (3:2; 6:4; 2:1; 4:5) on a R = (2; 4; 1; 3) et D = (3; 1; 4; 2).
Remarque : les vecteurs des rangs R et des anti-rangs D sont tous deux des permutations des n premiers entiers.
De plus, R et D sont des permutations inverses : R = D 1 .
La suite des rangs R = (R1 ; : : : ; Rn ) est donc une suite de variable alatoire identiquement distribues mais
non indpendantes. On a pour tout 1 i n :
E [Ri =
n+1
2
V (Ri ) =
n2 1
12
Cas des ex-quo : lorsque plusieurs variables sont ex-quo, on leur associe gnralement le rang moyen des
rangs partags par ces variables. Par exemple, si on a 4 variables ex-quo avec 5 autres variables plus petites et 4
plus grandes, elles partageront les rangs 6, 7, 8 et 9 et on leur associera donc le rang moyen 7:5.
Tous les test bass sur les statistiques de rangs prsents dans ce cours supposent labsence dex-quo. Dans le cas
contraire, les tests doivent subir des modifications, qui ne seront pas abordes dans ce cours, sauf pour le test de
Wilcoxon de comparaison de deux chantillons (cf. section 3.3.2.1).
Statistique de rangs signs. On appelle rang sign Ri+ de la variable Xi le rang de jXi j dans le classement
des jX1 j; : : : ; jXn j par ordre croissant.
39
Nous serons par la suite amens travailler avec diffrentes statistiques de test associes aux rangs signs, dfinie
par
S=
o a est une fonction de f1; 2; : : : ; ng dans R.
n
X
i=1
a(Ri+ )1IXi 0
Dfinition 3.2.1. Une variable alatoire a une distribution symtrique par rapport 0 si pour tout x 2 R :
p(X 0 + x) = p(X 0
x)
Sous lhypothse dune distribution symtrique par rapport 0, on a
E [S =
n
X
i=1
a(i)=2
V (S ) =
n
X
i=1
a2 (i)=4:
Lorsque n est grand le thorme central limite nous permet de considrer que S est distribu suivant une loi normale.
Lorsque n est petit, la statistique S a t tabule pour diffrentes fonctions a.
Nous prsentons ci-aprs trois tests bass sur trois choix de la fonction a.
Test des rangs signs (Wilcoxon un chantillon) Pour le test des rangs signs, il faut supprimer de lchantillon
les valeurs nulles. On choisit ensuite a(i) = i et la statistique de test devient
W =
+
n
X
i=1
Ri+ 1IXi 0
ou n est le nombre de valeurs non nulles de lchantillon. Cette statistique admet comme esprance et variance
sous H0 :
VH0 (W + ) = n(n + 1)(2n + 1)=24:
EH0 [W + = n(n + 1)=4
A noter quen prsence dex-quo, lesprance est identique mais la variance est diffrente.
jW + E [W + j > u .
Si la taille dchantillon n est suffisamment grande, on rejetera H0 si p H0 +
1 2
VH0 (W )
Si n est petit, on utilisera les tables statistiques ddies ce test (Annexe 4.2.1). Ces tables donne, pour un risque
de 5% et 1%, les quantiles de la statistique de Wilcoxon dordre =2 et 1 =2. Ces tables sont toujours valables
en prsence dex-quo.
La mme dmarche sera applique pour les deux tests suivants.
Logiciel R : fonction wilcox.test.
Logiciel SAS : proc univariate. Attention, SAS utilise une statistique de test W + centre.
Test du signe Pour le test du signe, il faut supprimer de lchantillon les valeurs nulles. On choisit ensuite a(i) = 1
et la statistique de test devient
S =
+
n
X
i=1
1IXi >0
ou n est le nombre de valeurs non nulles de lchantillon. La statistique S + , qui est le nombre de valeurs positives
dans lchantillon, suit, sous lhypothse H0 de symtrie par rapport 0, une loi binomiale de paramtre n et 1=2.
On peut donc facilement dduire la p-value correspondant la valeur observe sur lchantillon de la statistique
S + . Ces p-values ont t tabule et figurent en Annexe 4.2.2.
En outre, lesprance et la variance de S + sous H0 sont :
EH0 [S + = n=2
VH0 (S + ) = n=4:
40
Ce test est plus puissant que le test de Wilcoxon lorsque les queues de distributions sont trs diffuses.
Remarquons enfin que la prsence dex-quo ne pose aucun problme pour ce test.
Logiciel R : fonction SIGN.test du package BSDA.
Logiciel SAS : proc univariate. Attention, SAS utilise une statistique de test S + centre.
Test des scores normaux En choisissant a(i) =
SN + =
n
X
i=1
n+1 la statistique de test devient

Ri+ =(n + 1) 1IXi 0
qui admet comme esprance et variance sous H0 :
EH0 [SN + =
n
X
i=1
VH0 (SN + ) =
1 (i=(n + 1)) =2
n
X
i=1
2
1 (i=(n + 1)) =4:
Ce test est particulirement intressant pour les distributions trs concentres.

Logiciel R : test implmenter.
3.2.2 Test sur la variance dune population gaussienne

Soit un n-chantillon (X1 ; :::; Xn ) issu dune population de loi normale, de moyenne et de variance 2 . La
normalit est indispensable pour ce test sur la variance.
3.2.2.1 Test H0
: 2 = 02 contre H1 : 2 6= 02 , moyenne connue
Lorsque la moyenne est connue, la statistique V2 est la meilleure estimation de la variance (cf. exercice en TD) :
V2 =
n
1X
(X
n i=1 i
)2 :
Sous lhypothse H0 , comme lchantillon est gaussien, n2 V2 suit une loi du 2n (en tant que somme de carrs de
0
N (0; 1)). Ainsi,
on rejette H0 si V2
= n1
Pn
i=1 (xi
2
)2 < n0 2n; 2
o si V2
2
> n0 2n;1
,
2
o 2n; et 2n;1 sont les quantiles dordre 2 et 1 2 de la loi de 2 n degrs de libert. Attention, contrairement
2
2
la loi de Student et la loi normale, la loi du 2 nest pas symtrique.
3.2.2.2 Test H0
S2
: 2 = 02 contre H1 : 2 6= 02 , moyenne inconnue
Lorsque la moyenne est inconnue, on la remplace par son estimateur

n
1 X
=
(X X )2 et la statistique du test
n 1 i=1 i
X . La
variance est alors estime par
n 1 2
S
02
suit sous H0 une loi du 2 n 1 degrs de libert.
La conclusion du test est alors la suivante :
on rejette H0 si S 2
= n1 1
Pn
i=1 (xi
2
x)2 < n01 2n 1; 2
ou si S 2
2
> n01 2n 1;1
.
2
41
3.2.2.3 Tests unilatraux sur la variance

Test H0
: 2 = 02 contre H1 : 2 > 02

2
si la moyenne est connue, on rejette H0 si 2 > n0 2n;1 .
2
si la moyenne est inconnue, on rejette H0 si S 2 > n 01 2n 1;1 .
Test H0 : 2 = 02 contre H1 : 2 < 02
2
si la moyenne est connue, on rejette H0 si 2 < n0 2n; .
2
si la moyenne est inconnue, on rejette H0 si S 2 < n 01 2n 1; .
3.2.3 Test sur une proportion pour un grand chantillon

Dans la population tudie, une proportion p des individus possdent un certain caractre C . On se propose de
comparer cette proportion p une valeur de rfrence p0 .
X gale 1 si linOn considre un chantillon dindividus de taille n de cette population. La variable alatoire
Pn i
dividu i possde le caractre C suit une loi de Bernoulli B (p), et le nombre dindividus i=1 Xi possdant ce
caractre suit une loi binomiale B (n; p).
est suffisamment grand, de sorte que np > 5 et n(1 p) > 5, on peut considrer (loi P
des grands nombres)
Si nP
n
n
que i=1 Xi suit une loi normale N (np; np(1 p)), do la frquence empirique F = n1 i=1 Xi suit une loi
normale N (p; p(1n p) ). Si n est trop petit, le test est construit sur la loi binomiale, et on peut utiliser les abaques.
3.2.3.1 Test H0
: p = p0 contre H1 : p 6= p0
La statistique du test est donc la frquence empirique F qui suit sous H0 une loi N (p0 ; p0 (1n p0 ) ).
on rejette H0 si jf
p0 j >
u1 2
p0 (1 p0 ) .
n
3.2.3.2 Tests unilatraux sur une proportion

q
: p = p0 contre H1 : p > p0 On rejette H0 si f > u p0 (1n p0 ) + p0 .

q
Test H0 : p = p0 contre H1 : p < p0 On rejette H0 si f < u p0 (1n p0 ) + p0 .
Test H0
Exemple. Sur un chantillon de 200 individus dune commune, 45% sont favorables limplantation dun centre
commercial. Ceci contredit-il lhypothse quun habitant sur deux y est favorable ?
On test H0 : p = 0:5 contre H1 : p 6= 0:5 avec un risque = 0:05, do u1 2 = 1:96. On rejette H0 si
q
jf 0:5j > 1:96 0:52 ' 0:07, or ici jf 0:5j = 0:05 donc on ne rejette pas H , un habitant sur deux est bien
0
200
favorable limplantation du centre commercial.
3.2.4 Test de lalatoire dun chantillon

tant donn une suite de variables alatoires X1 ; : : : ; Xn nous cherchons dterminer si cette suite est un
chantillon indpendant et identiquement distribu. Nous testons pour cela
H0 : X1 ; : : : ; Xn indpendant et identiquement distribu,
contre H1 : Xi = f (i) + i avec f une tendance monotone, i i.i.d centres.
3.2.4.1 Test de corrlation des rangs de Spearman
Une premire faon de tester les hypothses prcdentes est de tester sil existe une corrlation significative
entre les rangs R1 ; : : : ; Rn associs lchantillon et la suite 1; : : : ; n. La statistique de test est le coefficient de
corrlation des rangs de Spearman
RS =
qP
Pn
i=1 (Ri
n (R
i=1 i
R )(i i)
P
R)2 ni=1 (i i)2
42
= i = (n + 1)=2 et
avec R
En remarquant que
Pn
i=1 (i
i)2 = n(n2
RS = 1
1)=12.
P
6 ni=1 (Ri i)2
n(n2 1)
on voit que la statistique de test RS sera gale 1 dans le cas dune tendance dcroissante (Ri
1 pour une tendance croissante (Ri = i).
On peut montrer que cette statistique admet les moments suivant :
E [RS = 0
V (RS ) =
= n + 1 i) et
1
:
n 1
Sous lhypothse H0
p 1 qui suit une N (0; 1),
si n 30, on utilise la statistique RS n q
si 10 < n < 30, on utilise la statistique RS 1n R22 qui est approximativement distribue selon une tn
S
2.
Logiciel R : fonction cor.test avec option spearman.

3.2.4.2 Test des changements de signes
Dans le cas o lon veut tester plus quune dpendance monotone (par exemple croissance puis dcroissance),
on peut utiliser la statistique de test :
S = #fi : Ri > Ri+1 ; 1 i < ng

+1 .
qui suit une loi normale desprance n 2 1 et de variance n12
3.2.5 Tests dajustement une loi de probabilit spcifie

Les tests dajustement ont pour but de vrifier si un chantillon provient ou non dune certaine loi de probabilit
spcifie. Nous allons dans un premier temps prsenter quelques mthodes empiriques qui permettent de sorienter
vers une distribution, puis nous prsenterons deux tests : le test du 2 et le test de Kolmogorov-Smirnov.
3.2.5.1 Quelques mthodes empiriques
La forme de lhistogramme La forme de lhistogramme construit sur lchantillon de donnes peut nous aider
avoir une ide de la distribution de la variable alatoire dont il est issu. Par exemple, un histogramme symtrique
nous orientera par exemple vers une loi normale, de Cauchy, de Student...
La nature du phnomne Suivant le phnomne tudi, il sera possible dorienter son choix. Si on sintresse
une variable de comptage, on pourra penser une loi de Poisson, pour une dure de vie on pensera une loi
exponentielle ou une loi de Weibull... .
Utilisation des moments On sait que pour une loi de Poisson, la moyenne est gale la variance. Pour une loi
exponentielle la moyenne est gale lcart-type. Pour une loi normale le coefficient daplatissement (kurtosis) est
gal 3 et le coefficient dasymtrie (skewness) est nul.
3.2.5.2 Ajustement graphiques
Pour un certain nombre de lois de probabilit, une transformation fonctionnelle permet de reprsenter la courbe
de la fonction de rpartition par une droite :
Loi exponentielle Pour X E (), on a p(X > x) = exp( x) do ln(1 F (x)) = x. En rangeant
dans lordre croissant les donnes xi de lchantillon, lestimation de la fonction de rpartition quest la fonction
xi = i 1 pour xi x xi+1 . Ainsi, les points de coordonde rpartition empirique
scrit Fe (x) = effectif
n
n

nes xi ; log(1 i n1 ) sont approximativement aligns le long dune droite dont la pente fournit une estimation
graphique de .
43
Loi normale Si X est une variable gaussienne de moyenne et de variance 2 :

IP(X
x) = ( x )
o est la fonction de rpartition de la loi normale centre rduite.

Pour chaque valeur xi de la variable X, on peut approcher IP(X xi ) empiriquement par i n1 (en ayant class
lchantillon par ordre croissant), et en dduire le quantile ui dordre IP(X xi ) tel que (ui ) = IP(X xi ).
Si la variable est gaussienne, les points de coordonnes (xi ; ui ) sont aligns sur la droite dquation u = x ,
appele droite de Henry. On compare donc les valeurs des quantiles de la loi empirique xi aux quantiles de la loi
normale centre rduite ui .
Logiciel R : la fonction qqnorm permet de reprsenter la droite de Henry, et qqplot gnralise dautres lois que
la loi normale.
3.2.5.3 Test dajustement du 2
Soit une variable alatoire X discrte ou discrtise, cest dire divise en K classes de probabilits p1 ; p2 ; :::; pK
sous une certaine loi L().
Soit un chantillon de cette variable fournissant les effectifs empiriques alatoires N1 ; N2 ; :::; NK dans chacune
de ces classes. Ces effectifs empiriques Ni sont des variables alatoires desprance npi . Nous appellerons effectifs
thoriques les quantits npi .
Le test du 2 a pour but de tester :
H0 : X suit la loi de probabilit L();

et consiste comparer les effectifs thoriques et empiriques.
Pour cela on introduit la variable D2 dfinie par :
D =
2
K
X
(Ni
i=1
npi )2
;
npi
et qui est asymptotiquement distribu, lorsque n ! 1, comme une loi du 2 K 1 degrs de libert.
La variable D2 pouvant tre interprte comme une mesure de lcart alatoire entre les effectifs empirique et
thorique, le test du 2 consiste rejeter H0 si la valeur d2 de D2 sur lchantillon est trop grande :
on rejette H0 si d2
> 2K 1;1 .
Si des estimations sont ncessaires

Pour faire le test du 2 , il est ncessaire de savoir quelle est la loi tester, cest--dire quelle est sa nature (normale,
Poisson...), mais aussi quels sont ses paramtres. Il est donc souvent ncessaire destimer ces paramtres.
x; s2 ), o x et s2 sont les estimations des
Par exemple, pour tester une hypothse de normalit, on teste la loi N (
paramtres de la loi. Soit l le nombre destimations indpendantes effectues.
Le nombre de degrs de libert du 2 utilis dans le test devra alors tre K l 1.
Effectif minimal dune classe
La proprit qui assure que D2 suit une loi du 2 suppose que chaque classe a un effectif thorique npi suprieur
5. Lors de la construction du test, cette proprit sera vrifier. Souvent lorsque lexprience conduit la cration
des classes, certaines classes "extrmes" ne vrifient pas cette proprit. On regroupera alors les classes entre elles
afin de crer des classes plus importantes qui vrifient cette proprit (en regroupant la classe extrme avec celle
qui lui est contige, et ainsi de suite... ).
Il ne faudra pas oublier alors daffecter au nombre de classes K sa nouvelle valeur dans la dtermination du nombre
de degrs de libert du 2 .
Logiciel R : le test du 2 peut tre ralis laide de la fonction chisq.test.
44
3.2.5.4 Test de Kolmogorov-Smirnov
Le test du 2 convient trs bien aux variables discrtes, qui ne ncessitent aucune discrtisation. Par contre,
lorsque les variables sont continues, on prfre gnralement utiliser le test de Kolmogorov-Smirnov.
Ladquation une loi donne porte cette fois sur les fonctions de rpartition :
H0 : F (x) = F0 (x) pour tout x 2 R
contre H1 : 9x 2 R; F (x) 6= F0 (x)
La statistique de test utilise est
KS = max jF^n (x) F0 (x)j

x2R
F^n (x) = #fXi : Xi
X1 ; : : : ; X n .
o
xg=n est la fonction de rpartition empirique estime partir de lchantillon
Il existe alors des tables de cette statistique KS sur lesquelles se baser pour conduire rejeter ou non H0 .
Logiciel R : le test de Kolmogorov-Smirnov peut tre ralis laide de la fonction ks.test.
3.2.5.5 Test de Shapiro-Wilk (normalit)
Le test de Shapiro-Wilk est le test le plus recommand pour tester la normalit dune srie de donnes. Il est
particulirement puissant pour les petits effectifs.
Supposons les Xi rangs par ordre croissant.La statistique du test scrit :
W=
o
P
( n ai Xi )2
Pn i=1

i=1 (Xi
(X ))2

P[ n2
i=1 an+1 i (Xn+1 i

Pn
2
i=1 (Xi (X ))
2
Xi )
n
est la partie entire de n2 ,

ai sont des constantes fournies dans des tables spcifiques (Annexe 4.2.4),
mt V 1
(a1 ; : : : ; an ) = t 1 1 2
(m V V n)
2
o m = (m1 ; : : : ; mn )t sont les esprances des statistiques dordre dun chantillon de variables indpendantes et identiquement distribue suivant une loi normale, et V est la matrice de variance-covariance de ces
statistiques dordre.
La statistique W peut donc tre interprte comme le coefficient de dtermination entre la srie des quantiles
gnrs partir de la loi normale et les quantiles empiriques obtenus partir des donnes. Plus W est lev, plus la
compatibilit avec la loi normale est crdible. La rgion critique, rejet de la normalit, scrit :
on rejette la normalit si W
< w;n ,
la valeur critique w;n tant lue dans les tables de Shapiro-Wilk (Annexe 4.2.4) en fonction du risque de premire
espce et de la taille dchantillon n.
Logiciel R : le test de Shapiro-Wilk peut tre ralis laide de la fonction shapiro.test.
3.2.6 Test dindpendance entre deux variables alatoires

3.2.6.1 Cas de deux variables alatoires quantitatives
Test de corrlation linaire Le coefficient de corrlation linaire XY entre deux variables continues X et
introduit au chapitre 1, est dfini par :
XY =
Son estimateur est
RXY =
Pn
Cov(X; Y )
:
V ar(X )V ar(Y )
X )(Yi Y )
:
2 Pni=1 (Yi Y )2
i=1 (Xi X )
(Xi
qP i=1
n
Y,

La statistique suivante
45
p
R
T = n 2 p XY 2
1 RXY
qui suit une loi de Student tn 2 permet de tester la nullit du coefficient de corrlation linaire, en rejetant lhypothse nulle XY = 0 si la valeur t de cette statistique est trop grande ou trop petite, autrement dit si elle vrifie :
t > tn 2;1
ou
t < tn 2; 2 :
Il conviendra donc de tester la nullit de ce coefficient de corrlation linaire avant de tenter de modliser
fonction de X par une relation linaire (cours de Modlisation GIS4).
en
Logiciel R : fonction cor.test.

Test de corrlation des rangs de Spearman Un indicateur de corrlation entre deux variables quantitatives plus
robuste aux valeurs extrmes, est le coefficient de corrlation des rangs de Spearman, dfini comme le coefficient
de corrlation linaire entre les rangs associs aux variables testes. Ce test, dj prsent dans la section 3.2.4.1,
permet galement de tester la corrlation entre des variables ordinales.
3.2.6.2 Cas de deux variables alatoires qualitatives : Test du 2
Ce test dcoule du test dajustement du 2 . Soient X et Y deux variables alatoires qualitatives pouvant prendre
respectivement k et r modalits. Les donnes sont prsentes dans un tableau de contingence :
X Y
modalit 1
modalit 2
modalit k
total
n11
n:1
n12
n:2
modalit 1
modalit 2
..
.
n11
n21
n12
n22
:::
modalit r
n1r
n2r
total
n1:
n2:
n1r
n:r
n1:
n
nij estP
le nombre dindividus ayant la modalit i de X et la modalit j de Y ,
ni: = rj=1 nij est le nombre total dindividus ayant la modalit i de X ,
Pk
n:j = i=1 nij est le nombre total dindividus ayant la modalit j de Y ,
Pk Pr
n = i=1 j =1 nij est le nombre dindividus total.
Le test consiste tester H0 : les deux variables sont indpendantes .
X
Si H0 est vrai, cela a un sens de considrer les probabilits pX
1 ; : : : ; pk davoir les modalits 1; : : : ; k de la variable
Y
Y
X et les probabilits p1 ; : : : ; pr davoir les modalits 1; : : : ; r de la variable Y .
Le test consiste, comme pour le test dajustement, comparer les effectifs empiriques nij aux effectifs thoriques
Y
X
Y
pX
i pj que lon devrait observer si X et Y taient indpendantes. Les pi et pj tant inconnues, on les estime par
n
ni:
:j
Y
p^X
i = n et p^j = n .
On construit alors la mesure dcart suivante :
d2 =
k X
r
X
i=1 j =1
(nij
ni: n:j )2
n
ni: n:j
n
0
k X
r
X
= n
n2ij
i=1 j =1 ni: n:j
1A
qui est la ralisation dune statistique dont la loi peut tre approxime par une loi de 2 (k 1)(r
n n
libert, lorsque les effectifs sont de tailles suffisantes ( i:n :j > 5 pour tout i; j ).
Le test consiste donc rejeter H0 si d2 est trop grand, comme pour un test dajustement du 2 .
1) degrs de
3.2.6.3 Cas de deux variables alatoires binaires et de petits chantillons : Test exact de Fisher
Dans le cas dchantillons de petites tailles (effectifs thoriques infrieurs 5 par croisement de variables), une
alternative consiste utiliser le test exact de Fisher.
46
Lorsque les variables sont binaires, sous lhypothse
leffectif n11 est donne :
H0
dindpendance de
et
Y,
la probabilit dobserver
C n11 C n21
n1: !n2: !n:1 !n:2 !
= n1: n:1n2: :
n!n11 !n21 !n21 !n22 !
Cn
On reconnait une variable alatoire de loi Hypergomtrique (tirage de n individus parmi n dont ). Le test peut donc
IP(N11
= n11 jn1: ; n2: ; n:1; n:2 ) =
tre construit de faon exacte en utilisant cette loi.

Ce test est gnralisable plus de deux modalits par variable.
Logiciel R : fonction fisher.test.
3.2.6.4 Cas dune variable qualitative et dune variable quantitative : ANOVA 1 facteur
Soient X une variable quantitative que lon observe pour diffrentes modalits (niveaux) dune variable qualitative A (facteur). On dispose de K chantillons indpendants de X de tailles n1 nK correspondant chacun un
niveau diffrent du facteur A :
X11 ; X12 ; : : : ; X1n1 correspondant au niveau A1 du facteur A,
X21 ; X22 ; : : : ; X2n2 correspondant au niveau A2 du facteur A,
:::
1 ; X 2 ; : : : ; X nK correspondant au niveau A du facteur A.
XK
K
K
K
On suppose que le facteur A influe uniquement sur la moyenne des chantillons et non sur leur dispersion. Ainsi,
chaque chantillon est suppos suivre une loi normale N (k ; 2 ).
Le problme est donc de tester
H0 : 1 = : : : = K =
contre H1 : 91 i; j K t.q. i 6= j :
la moyenne empirique globale :
Pour cela on appelle Xk la moyenne empirique de lchantillon k et X
nk
1 X
Xi
Xk =
nk i=1 k
P
o n = K
k=1 nk .
En remarquant que Xki
X = Xki
nk
K X
1X
(X i
n k=1 i=1 k
{z
VT2
Xk + Xk
et
X , on montre facilement la formule danalyse de variance :
K
1X
X )2 =
n (X
n k=1 k k
}
nk
K X
1X
Xi ;
X =
n k=1 i=1 k
{z
VA2
nk
K X
X
1
(X i
X )2 +
n k=1 i=1 k
}
{z
VR2
Xk )2
}
qui reprsente la dcomposition de la variance totale VT2 en la variance VA2 due au facteur A (variance intergroupe) plus la variance rsiduelle VR2 (ou variance intra-groupe).
Remarque 3.2.3. Cette formule est lquivalente empirique de la formule vue en cours de probabilit :
V (X ) = E [V (X jA) + V (E [X jA):
1 Pnk
n 2 PK nk Vk2
i
2
2
2
k=1 nk Vk o Vk = nk i=1 (Xk Xk ) , on montre que 2 VR = k=1 2
n V2
suit une loi du 2 n K degrs de libert, car chaque k2 k suit une loi du 2 nk 1 degrs de libert.
nV 2
De mme, sous H0 cette fois, 2T suit une loi du 2 n 1 degrs de libert (car VT2 est la variance dun nnV 2
chantillon de loi N (; 2 )) et 2A suit une loi du 2 K 1 degrs de libert (car VA2 peut tre vue comme la
1 ; : : : ; XK )).
variance du K-chantillon (X
Lquation de lanalyse de variance revient alors 2n 1 = 2K 1 + 2n K , ce qui permet en outre de conclure via
le thorme de Cochran que VA2 et VR2 sont indpendantes.
La statistique du test est donc
VA2
K
F = V 21
R
n K
En remarquant que VR2
= n1
PK
3.3. TESTS DE COMPARAISON DE DEUX POPULATIONS INDPENDANTES

qui suit sous H0 une loi de Fisher-Snedecor FK
rieure au quantile de la loi FK 1;n K dordre 1
1;n
47
K , et on rejette lhypothse H0 si la statistique F est sup-
Logiciel R : fonction aov.

Test de lhomognit des variances : test de Levene. En plus de la normalit des chantillons, dont on peut
se passer si les chantillons sont de tailles suffisantes, nous avons suppos que les variances taient homognes
(1 = : : : = K ).
Le test de Levene permet de tester cette hypothse. La statistique de ce test est la suivante :
PK

2
n K
k=1 (Zk Z )
L=
;
PK Pnk
K 1 k=1 i=1 (Zki Zk )2
Zki = jXki
nk
1 X
Xk j; Zk =
Zi
nk i=1 k
et
nk
K X
1X
Z =
Zi :
n k=1 i=1 k
Sous lhypothse H0 : 1 = : : : = K , cette statistique suit une loi de Fisher-Snedecor FK 1;n K . Nous rejetons
donc lhypothse H0 si la statistique F est suprieure au quantile de la loi FK 1;n K dordre 1 .
Logiciel R : fonction levene.test du package lawstat.
Comparaison des moyennes deux deux
Rejeter H0 permet de dire que toutes les moyennes ne sont pas gales. Il peut cependant tre intressant de tester
lgalit des moyennes deux deux.
Pour cela, on effectue un test de comparaison multiple des moyennes (pour 1 k; k 0 K ) :
H0 : k = k0 :
Un rsultat d Scheff montre que

p jXk
Xk0
(k
k0 )j SR (K
o fK 1;n K;1 est le quantile de la loi de Fisher de paramtres K

On rejette donc lhypothse dgalit des moyennes k et k0 si
q
jXk Xk0 j > SR (K
1
1
1)fK 1;n K;1
=1
+
nk nk0
1 et n K dordre 1 .
r
1
1
1)fK 1;n K;1
+ :
nk nk0
Remarque. Attention, lgalit des moyennes nest pas transitive.
3.3 Tests de comparaison de deux populations indpendantes

Lobjectif de cette section est de dire si deux chantillons indpendants sont issus dune mme population ou
non. Voici quelques exemples dapplication :
les rendements journaliers de deux usines dun mme groupe sont-ils semblables ?
les ventes par semaine de deux actions sont-elles similaires ?
On formule le problme de la faon suivante : on observe deux chantillons (X1;1 ; :::; X1;n1 ) et (X2;1 ; :::; X2;n2 ),
indpendants et de fonctions de rpartition F1 (x) et F2 (x). Le test exact revient tester lgalit de ces fonctions
de rpartitions :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x):
Nous verrons dans un premier temps des tests paramtriques qui, sous lhypothse de normalit des chantillons
(ou de grandes tailles), consistent tester lgalit des variances et des esprances des deux populations. Dans un
second temps, lorsque les chantillons sont de petites tailles nous prsenterons des alternatives non paramtriques.
48
3.3.1 Cas de deux chantillons gaussiens ou de grandes tailles

Supposons dans un premier temps que les deux chantillons sont gaussiens.
Si les variances sont connues, ce qui narrive que rarement en pratique, la statistique de test utilise pour tester
H0 : 1 = 2 contre H1 : 1 6= 2 repose sur la diffrence entre les estimateurs des moyennes des deux
chantillons :
T=
X1
X 2 (1 2 )
;
12 22
+
n1 n2
qui suit, sous H0 , une loi normale centre rduite.

Ainsi, on rejettera H0 si
2
2
jx1 x2 j > u n1 + n2 :
2
Dans le cas le plus courant, les variances sont inconnues. On doit alors tester dans un premier temps si elles sont
gales ou non (test de Fisher) avant de pouvoir effectuer le test de comparaison des moyennes (test de Student).
3.3.1.1 Test de comparaison des variances de Fisher
Nous testons
H0 : 12 = 22 contre H1 : 12 6= 22 :
Daprs les rsultats de la thorie de lchantillonnage :
n1 V12
12
Ainsi, sous lhypothse H0 que 12
2n
n2 V22
22
et
= 22 , la statistique du test F
F=
n1 V12
n1 1
n2 V22
n2 1
2n 1 :
2
suivante suit une loi de Fisher Fn1
S12
S22
1;n2 1
:
(3.1)
Cette variable de dcision sinterprte comme le rapport des estimateurs de 12 et 22 . Elle doit donc ne pas tre trop
diffrentes de 1 si H0 est vrifie. En pratique on met toujours au numrateur la plus grande des deux quantits, ou
autrement dit on suppose que S12 > S22 (sinon on permute les indices).
La rgion de rejet sera donc de la forme F > k avec k plus grand que 1 :
n1 V12
on rejette H0 si nn21V 21
2
n2 1
o fn1
1;n2 1;1
> fn1 1;n2 1;1 ,
est le quantile de la loi de Fisher-Snedecor Fn1
1;n2 1
dordre 1
3.3.1.2 Test de comparaison des moyennes de Student avec variances gales

Nous testons
H0 : 1 = 2 contre H1 : 1 6= 2 ;
en supposant les variances gales 12 = 22 = 2 .
On a pour i = 1; 2 :
ni Vi2
2
2

):
X

N
(

;
et
i
i
ni 1
2
ni
Ainsi, la statistique
T=
suit une loi de Student n1 + n2
X1
X 2 (1
nV nV
n n
2
2
1 1 + 2 2
1+ 2 2
2 )
1
n1 + n2
1
;
2 degrs de libert. Do la conclusion :
3.3. TESTS DE COMPARAISON DE DEUX POPULATIONS INDPENDANTES

on rejette H0 si jx
1
x2 j > tn1 +n2
r
2;
2
n1 v12 +n2 v22

n1 +n2 2
49
1
n1 + n2
1
Remarque 3.3.1 (Tests unilatraux de comparaison de moyennes).

Le test unilatral H0
r

2
2
n
1 v1 +n2 v2
1 < 2 ; conduit au rejet de H0 si x1 x2 < tn1 +n2 2; n1 +n2 2 n11 + n12
: 1 = 2 contre H1 :
3.3.1.3 Test de comparaison des moyennes avec variances diffrentes

Lorsque les chantillons sont de grandes tailles (> 30), le test de Student reste encore approximativement
valable.
Pour de petits chantillons gaussiens, lapproximation dAspin-Welch consiste utiliser le test de Student avec un
degr de libert non plus gal n1 + n2 2 mais gal lentier le plus proche de :
1
n = 2
(1 )2
n1 1 + n2 1
o =
v12
n1 1
v12
n1 1
+ n2v2 1
2
3.3.1.4 chantillons non gaussiens

2
Thoriquement, le test de la variance de Fisher nest plus valable car la statistique nV
ne suit plus une loi
2

du 2 . Nanmoins, le test de comparaison de moyennes de Student tant relativement robuste un changement
dans la loi des chantillons, il est possible de lutiliser pour comparer les moyennes des deux chantillons, que les
variances soit gales ou non, si les tailles dchantillons sont suffisamment grandes (au minimum 30 observations
par chantillon).
3.3.2 chantillons de petites tailles

Lorsque les chantillons ne sont pas suffisamment grands pour permettre une utilisation du test de Student, on
utilise des alternatives non paramtriques, qui ont pour but de tester :
H0 : F1 (x) = F2 (x) contre H1 : F1 (x) 6= F2 (x)

o F1 (x) et F2 (x) sont les fonctions de rpartition de deux chantillons (X1;1 ; : : : ; X1;n1 ) et (X2;1 ; : : : ; X2;n2 ).
Dans cette section nous concatnons les deux chantillons en un seul (X1 ; : : : ; Xn1 ; Xn1 +1 ; : : : ; Xn1 +n2 ), et nous
allons travailler avec les rangs (R1 ; : : : ; Rn1 +n2 ) associs cet chantillon global.
Les statistiques de test utilises seront de la forme
S=
n1
X
i=1
a(Ri )
o a est une fonction de f1; : : : ; n1 + n2 g dans R. A noter que seuls les rangs du premier chantillon sont utiliss
dans la statistique S puisque la somme sarrte n1 .
Lorsque les tailles dchantillons n1 et n2 sont petites (< 30), il existe des tables suivant la fonction a choisie
(Wilcoxon, mdiane, scores normaux). Lorsque les tailles sont plus grandes (cas dans lequel les tests paramtriques
sont galement utilisables), la statistique S est approximativement distribue suivant une loi normale.
Les moments de S sont :
E [S =
o a
= n1 +1 n2
1 +n2
n1 nX
a(i)
n1 + n2 i=1
Pn1 +n2
i=1
a(i)
V (S ) =
n1 n2
(n1 + n2 )(n1 + n2
nX
1 +n2
1) i=1
(a(i) a)2
50
3.3.2.1 Test de Wilcoxon
On supposera ici que n1
n2 . En choisissant a(i) = i la statistique de test devient

W=
n1
X
i=1
Ri
et correspond la somme des rangs du premier chantillon (le plus petit en nombre dobservations).
n (n + n + 1)
EH0 [W = 1 1 2
2
n1 n2 (n1 + n2 + 1)
VH0 (W ) =
12
La loi de cette statistique a t tabule pour de petites tailles dchantillons (moins de 10), et la table en Annexe
4.2.3 donne les bornes critiques de W pour des risques de premire espce de 5% et 1%.
Pour de plus grandes tailles dchantillons, la loi de W peut tre approche par une loi normale.
Cas des ex-quo Nous avons vu section 3.2.1.2 quen prsence dex-quo nous remplacions les rangs des exquo par le rang moyen des rangs quils devraient occuper. Si les tailles dchantillons sont infrieures 10, les
tables sont toujours utilisable. Pour de plus grandes tailles, lapproximation gaussienne est toujours valable mais la
variance de W nest plus identique celle donne prcdemment.
Soit e le nombre de valeurs distinctes dans lchantillon (X1 ; : : : ; Xn1 +n2 ), et soit V1 ; : : : ; Ve ces valeurs distinctes.
Soit Dj le nombre dapparitions de la valeur Vj dans lchantillon (1 j e). La statistique W a alors pour
variance :
P
n1 n2 ej=1 (Dj3 Dj )

:
VH0 (W ) = V (W )
12(n1 + n2 )(n1 + n2 + 1)
Logiciel R : fonction wilcox.test.

3.3.2.2 Test U de Mann-Whitney
Le test U de Mann-Whitney est bas sur la statistique U gale au nombre de paires (Xi ; Xj ) avec Xi dans le
premier chantillon (1 i n1 ) et Xj dans le second (n1 + 1 j n2 ) telle que Xi > Xj .
Ce test est identique au test de Wilcoxon puisque U = W n1 (n21 +1) .
3.3.2.3 Test de la mdiane
En choisissant a(i) = 1I(n1 +n2 +1)=2;+1 (i), o (n1 +n2 +1)=2 est le rang moyen des observations, la statistique
de test est
n1
X
M = 1I(n1 +n2 +1)=2;+1 (Ri )
i=1
et correspond au nombre dlments du premier chantillon suprieur la mdiane de lchantillon total. La loi de
M correspond une loi hypergomtrique (on tire n1 individus parmi n1 + n2 avec sous H0 probabilit 1=2 dtre
suprieur la mdiane de lchantillon total).
Ce test est performant uniquement lorsque les distributions des deux chantillons sont trs diffuses.
Logiciel R : test implmenter
3.3.2.4 Test des scores normaux
En choisissant a(i) =
Logiciel R : test implmenter
i
n1 +n2 +1 la statistique de test devient
n1
X
SN = 1 (Ri =(n1 + n2 + 1)) :
i=1
3.4. TESTS DE COMPARAISON DE K POPULATIONS
51
3.3.2.5 Test de Kolmogorov-Smirnov

Le test est le mme que dans le cas de ladquation dune distribution empirique une distribution thorique,
en remplaant la fonction de rpartition thorique par la version empirique du second chantillon :
KS =
n1 n2
max jF^ 1 (x) F^n22 (x)j
n1 + n2 x2R n1
o F^n1 et F^n2 sont les fonctions de rpartitions empiriques des deux chantillons.
3.3.3 Cas de deux chantillons dpendants

Lorsque les deux chantillons ne sont pas indpendants, et quil sagit par exemple dune mesure sur les mme
individus statistiques dans deux conditions diffrentes (avant et aprs la prise un mdicament par exemple), la
solution est alors de travailler sur la diffrence des deux chantillons, que lon comparera la valeur centrale 0.
3.3.4 Tests de comparaison de deux proportions, pour de grands chantillons

Deux populations possdent des individus ayant un certain caractre, en proportion p1 et p2 . Lobjet du prsent
test est de tester :
H0 : p1 = p2 = p contre H1 : p1 6= p2
On relve dans deux chantillons de tailles n1 et n2 les proportions f1 et f2 dindividus ayant ce caractre. Les
tailles sont supposes suffisamment grandes (ni pi > 5 et ni (1 pi ) > 5 pour i = 1; 2).
Ainsi les lois des frquences empiriques F1 et F2 peuvent tre approximes par des lois normales, do la statistique
du test
U=
F1 F2
;
p(1 p)( n11 + n12 )
qui suit une loi normale centre rduite sous H0 .

Si p est inconnue on la remplace par son estimation
p^ =
n1 f1 + n2 f2
;
n1 + n2
o f1 et f2 sont les estimations de p1 et p2 .

La rgion critique sera alors dtermine par jU j > u1 2
on rejette H0 si jf1
3.4 Tests de comparaison de
= u 2 , do
f2 j > u1
p^(1 p^)( n11 + n12 ).
K populations
Soit X une variable alatoire quantitative, que lon a observe pour

dans K conditions diffrentes). On dispose des K chantillons suivants :
population P1 : X11 ; : : : ; Xn1 1 ,
population P2 : X12 ; : : : ; Xn2 2 ,
:::
population PK : X1K ; : : : ; XnK K .
populations (ou de faon quivalente
PK
On note n = k=1 nk est le nombre total dobservations.
Le test que lon cherche dfinir est le suivant :
H0 : les K populations Pk sont identiquement distribues,
H1 : 9i; j telle que les populations Pi et Pj soient diffrentes.
Lhypothse primordiale dfinissant le type de tests effectuer est lindpendance des populations entre elles. Nous
prsentons ci-aprs des tests paramtriques et non paramtriques dans le cas de populations indpendantes, puis
nous examinerons le cas dune dpendance particulire, celle des mesures rptes.
52
3.4.1 Tests de comparaison de K populations indpendantes

Exemple. On cherche tester leffet de K traitements mdicamenteux, et pour cela on donne ces traitements K
groupes diffrents dindividus. Les K populations correspondent aux K groupes dindividus ayant reu respectivement un des K traitements possibles. X1k ; : : : ; Xnk k sont les mesures de la rponse au traitement pour les nk
individus ayant reus le traitement k .
3.4.1.1 chantillons gaussiens ou de grandes tailles : ANOVA 1 facteur
Sous lhypothse que les populations sont de variances identiques (homoscedasticit), nous sommes en prsence
dun problme danalyse de variance (ANOVA) un facteur (ici le facteur population), qui a dj t prsent dans
la section 3.2.6.4.
3.4.1.2 chantillons de petites tailles : test de Kruskal-Wallis
La version non-paramtrique de lANOVA un facteur est le test de Kruskal-Wallis, bass sur les rangs.
Soit Rjk le rang de la variable Xjk dans le classement dans lordre croissant de toutes les observations des
chantillons (suppos
Pnk sans ex-quo).
Soit R:k = n1k j =1
Rjk le rang moyen dans lchantillon de la population Pk .
Sous lhypothse H0 dgalit des fonctions de rpartitions Fk de chaque population
H0 : F 1 = : : : = F K ;
le rang moyen R:k de chaque population doit tre proche de E [Rjk = n+1
2 .
La statistique du test de Kruskal-Wallis est

K
12 X
KW =
R
n(n + 1) k=1 :k
n+1
2
2
qui suit sous H0 , lorsque les tailles nk des chantillons tendent vers linfini, approximativement une loi du 2
K 1 degrs de libert. Cette approximation est valable lorsque K > 3 et min(n1 ; : : : ; nK ) > 5, et des tables
existent lorsque ce nest pas le cas.
Remarque. On retrouve le test de Wilcoxon lorsque K
= 2.
En prsence dex-aequo, les rangs seront remplacs par les rangs moyens et les lois de la statistique
donnes ci-dessus restent approximativement valable.
Logiciel R : fonction kruskal.test
KW
3.4.2 Tests de comparaison de K populations dpendantes (cas des mesures rptes)

Supposons maintenant que les K populations consistent en les mesures des mmes individus statistiques dans K
conditions diffrentes. On est alors dans une problmatique de mesures rptes puisque les mesures sont rptes
sur les mme individus. De fait, on perd lindpendance entre les populations puisquen particulier Xj 1 ; : : : ; XjK
sont lies en tant que mesures dun mme individu. A noter que comme on suppose que ce sont les mmes individus
qui sont mesurs, le nombre nk est constant (nk = n).
Exemple. On mesure le taux de diabte de n patients K diffrents instants aprs lingestion dun mdicament.
3.4.2.1 chantillons gaussiens ou de grandes tailles : ANOVA 2 facteurs
Dans le cas dchantillons gaussiens ou de grandes tailles, une solution classique est de raliser un analyse de variance 2 facteurs : 1 facteur pour la population/condition/traitement, comme prcdemment, et un facteur individu.
Nous prsentons ci-aprs lANOVA 2 facteurs gnriques A et B , dans le cas lgrement plus gnral dun
plan quilibr ou quirpt, cest--dire o le nombre de mesures pour chaque croisement des facteurs des deux
niveaux est constant gal r (et non plus gal 1 comme prcdemment).
53
Lobjectif de lanalyse de variance deux facteurs consiste tudier les liens ventuels entre une variable
continue X et deux facteurs A et B J et K niveaux.
On note :
Xjk la variable X observe pour les j -me et k -me valeurs respectives des facteurs A et B ,
Xijk la variable alatoire correspondant la i-me observation de Xjk ,
njk le nombre dobservations Xijk ,
PK
PJ
PJ PK
nj: = k=1 njk , n:k = j =1 njk et n = j =1 k=1 njk .
On suppose que Xjk N (jk ; 2 ) et que les njk sont constants (njk = r plan quilibr ou quirpt).
Dans le modle le plus gnral pour la moyenne jk , on suppose quelle peut scrire comme une somme dun
terme constant et de termes dpendants du facteur A, du facteur B et de linteraction entre les facteurs A et B :
P
jk = + j + k + jk ;
avec les contraintes dunicit j j =

On considre les moyennes suivantes :
jk
1 X
X ;
X:jk =
njk i=1 ijk
k k
k jk
J
1 X
X::k =
X ;
n:k j=1 :jk
j jk
(3.2)
= 0.
n
K
1 X
X:j: =
X
nj: k=1 :jk
et
jk
J X
K X
1X
X :
X ::: =
n j=1 k=1 i=1 ijk
ainsi que les sommes des carrs suivantes :
SST =
njk
J X
K X
X
(Xijk
j =1 k=1 i=1
J X
K
X
SSAB =
j =1 k=1
X:::)2 ;
njk (X:jk
SSA =
J
X
j =1
nj: (X:j: X:::)2 ;
X:j: X::k + X:::)2 ;
et
SSB =
SSR =
K
X
k=1
n
jk
J
K
XXX
j =1 k=1 i=1
n:k (X::k
(Xijk
X:::)2 ;
X :jk )2 ;
o SST est la somme des carrs totale, SSA est la somme des carrs relatifs au facteur A, SSB est la somme des
carrs relatifs au facteur B , SSAB est la somme des carrs relatifs linteraction entre les facteurs A et B et SSR
est la somme des carrs rsiduels.
njk
J X
K X
X
2
Xijk
nX:::2 , on obtient lquation danalyse de la
En remarquant que que lon peut crire SST =
j =1 k=1 i=1
variance deux facteurs :
SST = SSA + SSB + SSAB + SSR

Comme en analyse de variance un facteur, sous lhypothse H0 : j = 0, les quantits SSA et SSR suivent 2
prs des lois du 2 indpendantes J 1 et n JK degrs de libert. La statistique suivante est donc de loi de
Fisher de paramtres J 1 et n JK :
SSA=(J 1)
:
FA =
SSR=(n JK )
De mme, sous les hypothses respectives H0 : k = 0 et H0 : jk = 0, les statistiques
SSB=(K 1)
SSAB=(K 1)(J 1)
FB =
et FAB =
SSR=(n JK )
SSR=(n JK )
suivent des lois de Fisher de paramtres K 1 et n JK pour FB , (K 1)(J 1) et n JK pour FAB .
Ainsi, on peut donc tester lexistence des effets principaux des deux facteurs et de leur interaction en comparant ces
statistiques aux quantiles de la loi de Fisher : si les valeurs observes de ces statistiques sont suprieures au quantile
de la loi de Fisher dordre 1 on conclura un effet significatif.
On prsente usuellement lanalyse de variance sous la forme du tableau suivant
P
Estimation des effets Sous les hypothses de contraintes k k =

j j =
k jk =
j jk =
paramtres j , k et jk de la dcomposition (3.2) de jk peuvent tre estims par les relations suivantes :
j = x:j: x::: ;
k = x::k
x:::
et
jk = x:jk
x:j:
x::k + x:::
0,
les
54
Facteur
Somme
des carrs
SSA
SSB
SSAB
SSR
SST
B
Interaction AB
Rsidu
Total
degrs de
libert
carr
moyen
SSA=(J 1)
J 1
SSA=(J 1)
FA = SSR=
(n JK )
SSB=(K 1)
K 1
SSB=(K 1)
FB = SSR=
(n JK )
(K 1)(J
(J 1)(K 1) SSAB=(K 1)(J 1) FAB = SSAB=
SSR=(n JK )
n JK
SSR=(n JK )
n 1
1)
3.4.2.2 chantillons de petites tailles

Nous revenons au cas dans lequel on dispose des K chantillons :
X11 ; : : : ; Xn1 : mesure des n individus dans la conditions 1,
X12 ; : : : ; Xn2 : mesure des n individus dans la conditions 2,
:::
X1K ; : : : ; XnK : mesure des n individus dans la conditions K ,
Puisque les observations Xj 1 ; : : : ; XjK sont les mesures dun mme individu, elles sont dpendantes entre elles.
On ne peut donc comparer ces valeurs avec les valeurs des mesures des autres individus.
Nous nous intressons donc aux rangs intra-individu Rjk des variables Xjk dans le classement dans lordre croissant
de Xj 1 ; : : : ; XjK , qui correspond aux mesures de lindividu j pour chaque condition (suppos sans ex-quo).
Exemple. Revenons lexemple dans lequel Xjk est la mesure du diabte de lindividu j au temps k . Comme
Xj1 ; : : : ; XjK sont les mesures du diabte dune mme personne diffrents instants, ces mesures peuvent par
exemple tre toute extrmement leves en comparaison des autres valeurs, uniquement parce que la personne
est la seule diabtique de ltude. Afin de prendre en compte cet effet individu, nous nous intressons aux rangs
intra-individu des mesures Xj 1 ; : : : ; XjK .
Test de Friedman On teste lhypothse H0 dgalit des fonctions de rpartitions Fk de chaque population
H0 : F 1 = : : : = F K :
1 Pn
Soit R:k = n
(K + 1)=2.
j =1 Rjk le rang moyen de la condition/population k . Sous lhypothse H0 , on doit avoir E [R:k =
La statistique de Friedman est alors
F=
K
12n X
R
K (K + 1) k=1 :k
K+1
2
2
K
X
12
R2
nK (K + 1) k=1 :k
3n(K + 1)
qui suit asymptotiquement sous H0 une loi du 2 K 1 degrs de libert. Puisquon sintresse gnralement
des chantillons de petites tailles, la distribution asymptotique de F nest rarement utilisable et on se rfrera
gnralement la table statistique tabulant ses valeurs (Annexe 4.2.5). A noter que dans ces tables,
En prsence dex-quo, il faut corriger la statistique F en la divisant par
C =1
Ps
i=1 (ti
n(K 3
ti )
K)
o s est le nombre de sries de valeurs ex-aequo et ti le nombre dlments de la ime srie dex-aequo.
Logiciel R : fonction friedman.test
Test de Quade Le test de Friedman peut tre amlior en prenant en compte les diffrences de valeurs Xjk pour
un mme individu. Pour cela, on introduit ltendue Ej = maxk (Xjk ) mink (Xjk ) qui est la diffrence entre la
valeur maximale et la valeur minimale pour un individu.
Soit Sj le rang de ltendue Ej dans le classement des tendues intra-individu E1 ; : : : ; En (rang moyen en prsence
55
dex-quo).
On remplace chaque observation Xjk par
K +1
)
2
Qjk = Sj (Rjk
et soit Qk
Pn
jk .
j =1 QP
PK
n PK
Les statistiques T = j =1 k=1 Q2jk et B = k=1 Q2k peuvent tre interprtes comme reprsentant respectivement les variations intra-individu et inter-individus.
La statistique du test de Quade est
Q=
(n 1)B
T B
qui suit approximativement sous H0 une loi de Fisher K
1 et (n 1)(K
1) degrs de liberts.
Logiciel R : fonction quade.test

Remarque. Le test de Quade est plus puissant que le test de Friedman lorsque les distributions des donnes sont
trs htrognes et lorsque le nombre K dchantillons est pas trop grand (K < 5).
Test de Page Le test de Page est une variante du test de Friedman dans le cas o un ordre est impos dans
lhypothse alternative :
H0 : F1 = : : : = FK ;
contre
H1 : F1 > : : : > FK :
Ce type de test peut tre intressant pour tester une volution monotone de la variable X au sein des populations/conditions P1 ; : : : ; PK (volution temporelle dans le cas o les populations/conditions sont indexes par le
temps).
La statistique du test de Page est
P=
K
X
k=1
kR:k
qui suit sous H0 , lorsque n > 12, une loi normale de moments :
E [P =
Logiciel R : test implmenter.
K (K + 1)2
4
et
V (P ) =
144(K 1)n
:
(K 3 K )2
56
Chapitre 4
Annexes
4.1 Rappel sur les convergences des suites de variables alatoires
Soit (Xn ) une suite de variables alatoires relles.
Dfinition 1. La suite (Xn ) converge en probabilit vers une variables alatoire X si 8; positifs, il existe n0 tel
que
8n > n0 ; P (jXn X j > ) <
Dfinition 2. La suite (Xn ) converge presque srement vers la variable alatoire X si
P (f!j nlim
!1 Xn (!) 6= X (!)g) = 0
Dfinition 3. La suite (Xn ) converge en moyenne dordre p vers la variable alatoire X si
E [ j Xn X j p ! 0
Dfinition 4. La suite (Xn ) converge en loi vers la variable alatoire X de fonction de rpartition
point de continuit de F , la suite Fn des fonctions de rpartition de Xn converge vers F
si en tout
Proprit 1.
(Xn ) p:s:
!X
(Xn )
moyenne ordre p
&
X
(Xn ) P! X
! (Xn ) L! X
4.1.0.3 Loi faible des grands nombres

Soit (X1 ; : : : ; Xn ) un chantillon indpendant et identiquement distribu, avec E [Xi
1. On a alors
P
= et V (Xi ) = 2 <
!
4.1.0.4 Loi forte des grands nombres

Soit (X1 ; : : : ; Xn ) un chantillon indpendant et identiquement distribu, avec E [Xi = < 1 et V (Xi ) = 2
X p:s:
!
4.1.0.5 Thorme centrale limite
Soit (X1 ; : : : ; Xn ) un chantillon indpendant et identiquement distribu, avec E [Xi
1. On a alors
2
X L! N (; )
n
57
= et V (Xi ) = 2 <
58
4.2 Tables statistiques pour test

4.2.1 Test des rangs signs
CHAPITRE 4. ANNEXES
4.2. TABLES STATISTIQUES POUR TEST
4.2.2 Test du signe
59
60
4.2.3 Test de Wilcoxon (2 populations)
CHAPITRE 4. ANNEXES
61
4.2.4 Test de Shapiro-Wilk (normalit)

Ces tables sont dues Christophe Chesneau http://www.math.unicaen.fr/chesneau/.
(Table 9) Coefficients de Shapiro-Wilk

Les colonnes des tableaux ci-dessous donnent les coefficients de Shapiro-Wilk (a1 , . . . , a ) o`
u est lentier tel que n = 2
ou n = 2 + 1 selon la parite de n.
n
2
1
0,7071
2
3
4
5
i
1
2
3
4
5
6
7
8
9
10
i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
C. Chesneau
10
0,7071
0,6872
0,1677
0,6646
0,2413
0,6431
0,2806
0,0875
0,6233
0,3031
0,1401
0,6052
0,3164
0,1743
0,0561
0,5888
0,3244
0,1976
0,0947
0,5739
0,3291
0,2141
0,1224
0,0399
11
12
13
14
15
16
17
18
19
20
0,5601
0,3315
0,2260
0,1429
0,0695
0,5475
0,3325
0,2347
0,1586
0,0922
0,0303
0,5359
0,3325
0,2412
0,1707
0,1099
0,0539
0,5251
0,3318
0,2460
0,1802
0,1240
0,0727
0,0240
0,5150
0,3306
0,2495
0,1878
0,1353
0,0880
0,0433
0,5056
0,3290
0,2521
0,1939
0,1447
0,1005
0,0593
0,0196
0,4963
0,3273
0,2540
0,1988
0,1524
0,1109
0,0725
0,0359
0,4886
0,3253
0,2553
0,2027
0,1587
0,1197
0,0837
0,0496
0,0163
0,4808
0,3232
0,2561
0,2059
0,1641
0,1271
0,0932
0,0612
0,0303
0,4734
0,3211
0,2565
0,2085
0,1686
0,1334
0,1013
0,0711
0,0422
0,0140
21
22
23
24
25
26
27
28
29
30
0,4643
0,3185
0,2578
0,2119
0,1736
0,1399
0,1092
0,0804
0,0530
0,0263
0,4590
0,3156
0,2571
0,2131
0,1764
0,1443
0,1150
0,0878
0,0618
0,0368
0,0122
0,4542
0,3126
0,2563
0,2139
0,1787
0,1480
0,1201
0,0941
0,0696
0,0459
0,0228
0,4493
0,3098
0,2554
0,2145
0,1807
0,1512
0,1245
0,0997
0,0764
0,0539
0,0321
0,0107
0,4450
0,3069
0,2543
0,2148
0,1822
0,1539
0,1283
0,1046
0,0823
0,0610
0,0403
0,0200
0,4407
0,3043
0,2533
0,2151
0,1836
0,1563
0,1316
0,1089
0,0876
0,0672
0,0476
0,0284
0,0094
0,4366
0,3018
0,2522
0,2152
0,1848
0,1584
0,1346
0,1128
0,0923
0,0728
0,0540
0,0358
0,0178
0,4328
0,2992
0,2510
0,2151
0,1857
0,1601
0,1372
0,1162
0,0965
0,0778
0,0598
0,0424
0,0253
0,0084
0,4291
0,2968
0,2499
0,2150
0,1064
0,1616
0,1395
0,1192
0,1002
0,0822
0,0650
0,0483
0,0320
0,0159
0,4254
0,2944
0,2487
0,2148
0,1870
0,1630
0,1415
0,1219
0,1036
0,0862
0,0697
0,0537
0,0381
0,0227
0,0076
CHAPITRE 4. ANNEXES
62
(Table 10) Valeurs de Shapiro-Wilk

Les valeurs interieures du tableau ci-dessous donnent les coefficient w,n utilise dans le test de Shapiro-Wilk. Ici, n est la
taille de lechantillon et est la valeur du risque.
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
C. Chesneau
0, 05
0, 01
0,767
0,748
0,762
0,788
0,803
0,818
0,829
0,842
0,850
0,859
0,856
0,874
0,881
0,837
0,892
0,897
0,901
0,905
0,908
0,911
0,914
0,916
0,918
0,920
0,753
0,687
0,686
0,713
0,730
0,749
0,764
0,781
0,792
0,805
0,814
0,825
0,835
0,844
0,851
0,858
0,863
0,868
0,873
0,878
0,881
0,884
0,888
0,891
0, 05
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
10
0,923
0,924
0,926
0,927
0,929
0,930
0,931
0,933
0,934
0,935
0,936
0,938
0,939
0,940
0,941
0,942
0,943
0,944
0,945
0,945
0,946
0,947
0,947
0,947
0, 01
0,894
0,896
0,898
0,900
0,902
0,904
0,906
0,908
0,910
0,912
0,914
0,916
0,917
0,919
0,920
0,922
0,923
0,924
0,926
0,927
0,928
0,929
0,929
0,930
63
4.2.5 Test de Friedman
Critical values for the Friedman Test

M=
12
R2j 3n(k + 1)
nk (k + 1)
k=3
n
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
=5%
6.000
6.500
6.400
7.000
7.143
6.250
6.222
6.200
6.545
6.500
6.615
6.143
6.400
6.500
6.118
6.333
6.421
6.300
5.991
k=4
=1%
8.000
8.400
9.000
8.857
9.000
9.556
9.600
9.455
9.500
9.385
9.143
8.933
9.375
9.294
9.000
9.579
9.300
9.210
=5%
6.000
7.400
7.800
7.800
7.600
7.800
7.650
7.667
7.680
7.691
7.700
7.800
7.714
7.720
7.800
7.800
7.733
7.863
7.800
7.815
k=5
=1%
9.000
9.600
9.960
10.200
10.540
10.500
10.730
10.680
10.750
10.800
10.850
10.890
10.920
10.950
10.050
10.930
11.020
11.100
11.340
=5%
7.600
8.533
8.800
8.960
9.067
9.143
9.200
9.244
9.280
9.309
9.333
9.354
9.371
9.387
9.400
9.412
9.422
9.432
9.400
9.488
k=6
=1%
8.000
10.130
11.200
11.680
11.870
12.110
13.200
12.440
12.480
12.580
12.600
12.680
12.740
12.800
12.800
12.850
12.890
12.880
12.920
13.280
=5%
9.143
9.857
10.290
10.490
10.570
10.670
10.710
10.780
10.800
10.840
10.860
10.890
10.900
10.920
10.960
10.950
10.950
11.000
11.000
11.070
=1%
9.714
11.760
12.710
13.230
13.620
13.860
14.000
14.140
14.230
14.320
14.380
14.450
14.490
14.540
14.570
14.610
14.630
14.670
14.660
15.090
For values of n greater than 20 and/or values of k greater than 6, use 2 tables with k-1 degrees
of freedom
64
CHAPITRE 4. ANNEXES
Bibliographie
[1] M. Carbon, C. Franck. Estimation non paramtrique de la densit et de la rgression - Prvision non paramtrique. La revue MODULAD, numro 15, juin 1995.
[2] G. Saporta. Probabilits, analyse de donnes et statistique. 2me dition, Editions Technip, 2006.
[3] D.J. Sheskin. Handbook of parametric and nonparametric statistical procedures. Fifth edition. Chapman &
Hall/CRC, 2011.
65

Cours Université

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cours Université

Загружено:

Авторское право:

Доступные форматы

P OLYTECH L ILLE

Table des matires

chantillonnage et statistiques descriptives

TABLE DES MATIRES

2.7.3 Intervalle de confiance sur une proportion . . . . . . . . . . . . . . . . . . . . . . . . . .

Test de corrlation des rangs de Spearman . . . . . . . . . . . . . . . . . . . . . . .

TABLE DES MATIRES

chantillonnage et statistiques descriptives

(X1 ; : : : ; Xn ) de variables alatoires Xi

1.2 Exemple introductif

1.3 Description dune variable

CHAPITRE 1. CHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

dure en mois du crdit

montant du crdit (en DM)

anciennet dans le travail actuel (an)

A30 : pas de crdit / tous rembourss

A61 : < 100

autre demandeurs / garants

situation dans la rsidence actuelle

nombre de crdits dans la banque

nombre de personnes pouvant

A91 : homme divorc / spar

A171 : sans emploi / non qualifi - tranger

TABLE 1.1 Variables du jeu de donnes GermanCredit.data

1.3. DESCRIPTION DUNE VARIABLE

1.3.2 Rsums numriques dune variable quantitative

Fmin (x) = F n (x)

Fmax (x) = 1 (1 F (x))n :

Lcart-type a lavantage de sexprimer dans la mme unit que les donnes.

CHAPITRE 1. CHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

1.3.3 Reprsentation graphique dune variable quantitative

1.3. DESCRIPTION DUNE VARIABLE

Histogram of data[, 13]

F IGURE 1.3 Histogramme des ges des clients.

CHAPITRE 1. CHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

1.3.3.3 La fonction de rpartition empirique

o Nx = #fXi : Xi  x; 1  i  ng est le nombre de donnes infrieures ou gales X . En tant que fonction

F IGURE 1.4 Fonction de rpartition empirique des ges des clients.

1.3.4 Rsum numrique dune variable qualitative

= n), et Fi la frquence corres-

1.3. DESCRIPTION DUNE VARIABLE

F IGURE 1.5 Diagrammes en camenbert des situations maritales des clients.

F IGURE 1.6 Diagrammes en barres des situations maritales des clients.

CHAPITRE 1. CHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

1.4 Description de plusieurs variables

1.4.1 Liaison entre deux variables quantitatives

F IGURE 1.7 Reprsentations du montant du crdit en fonction de sa dure.

est la covariance empirique entre X et

Le coefficient de corrlation (comme la covariance) est symtrique (XY

= Y X ) et prend ses valeurs entre 1 et

1.4. DESCRIPTION DE PLUSIEURS VARIABLES

1.4.2 Liaison entre une variable quantitative et une variable qualitative

VX2 :variance inter (between) ou expliquee parX

variance intra (within) ou rsiduelle

1.4.3 Liaisons entre deux variables qualitatives

f NNr1 ; ; NNr ; ; NNrC g:

De mme on dfinit le -me profil-colonne :

f NN1 ; ; NNr ; ; NNR g:

CHAPITRE 1. CHANTILLONNAGE ET STATISTIQUES DESCRIPTIVES

TABLE 1.2 Table de contingence

qui est compris entre 0 et 1 et est infrieur au V de Cramer.

1.4.4 Vers le cas multidimensionnel

1.4. DESCRIPTION DE PLUSIEURS VARIABLES

Proprits de la matrice de variance :

o Nx = #fXi : Xi x; 1 i ng est le nombre de donnes infrieures ou gales X . En tant que fonction

Le coefficient de corrlation (comme la covariance) est symtrique (XY

= Y X ) et prend ses valeurs entre 1 et

2.1 Prambule : tude des statistiques et

et V 2 pour dcrire la tendance centrale et

un estimateur sans biais de lesprance de la population.

E [(X )4 , vaut 3 si la loi de X est normale et est suprieur 3 si sa

Dmonstration en exercice (indication : on supposera sans perte de gnralit que = 0).

2.1.3 Dfinition des lois du 2 , de Student et de Fisher-Snedecor

La densit dune variable alatoire de loi 2n est :

suit alors une loi normale en

(X1 ; : : : ; Xn ) est un chantillon gaussien =) n2 V 2 2n

X et V 2 sont indpendants () (X1 ; : : : ; Xn ) est un chantillon gaussien.

E [(Tn )2 = V (Tn ) + (E [Tn )2

)2 est meilleur que S 2 .

o f (:; ) est la densit de la variable alatoire X1 et IP(Xi

= xi ; ) est la probabilit de lvnement fXi = xi g

Dfinition 2.4.2. La statistique T est exhaustive pour si

L(x1 ; : : : ; xn ; ) = g(t; )h(x1 ; : : : ; xn ):

Exemple. Pour la loi normale de moyenne connue , la statistique T

)2 est exhaustive pour 2 .

f (x; ) = exp[a(x)() + b(x) + ()

Thorme 2.4.2. Si le domaine de dfinition de la loi de lchantillon ne dpend pas de , on a :

(ii) Si la loi de lchantillon est une loi normale de variance connue, (

= ), alors I1 () = 12

(iii) en notant IT ()

sans biais de variance minimale, il est unique presque

f (x; ) = exp[a(x)() + b(x) + ()

(ii) Si ^ est lEMV, f (^) est lEMV de f ()

P ( 2 [t1 (t; ); t2 (t; )) = 1 :

(i) lintervalle de confiance est fonction de lestimation t de ,

n2 V2 2n;1

o 2n; et 2n;1 les quantiles dordre 2 et 1

de la loi du 2 n degrs de libert.

La proprit qui nous assure que n21 S 2 suit un loi du 2n