td2012 2013

AgroParisTech, cursus IA
Mathématiques
Travaux Dirigés de Statistique

Première Année
Equipe pédagogique : L. Bel, A. Lavigne, J.-B. Léger, E. Pommiès, C. Vuillet
2012-2013
Date COURS/TD Contenu Chapitre à Devoir
lire avant le
TD
17 oct TD 1 Probabilités (rappels) Chapitre 7 Devoir 1 à rendre
au TD 3
24 et 25 oct TD 2 Probabilités (rappels) Chapitre 7
30 oct COURS 1 Présentation générale du cours + Estima-
tion ponctuelle
31 oct TD 3 Estimation de paramètres : paramètre, es- Chapitre 3 Devoir 2 à rendre
timation, estimateur, EQM, MV au TD5
6 nov COURS 2 Estimation par intervalles, tests sur un pa-
ramètre
7 et 8 nov TD 4 Intervalle de confiance Chapitre 3
14 nov TD 5 Tests d’hypothèses Quiz1 : vérification Chapitre 3 Devoir 3 à rendre
des connaissances sur le Chapitre 3. au TD 7
23 nov TD 6 Tests d’hypothèses, puissance Chapitre 4
27 nov COURS 3 Tests sur deux populations, tests du χ2
28 nov TD 7 Comparaison de 2 populations. Chapitre 5 Devoir 4 à rendre
au TD10
5 dec TD 8 Tests du χ2 Quiz2 : vérification des Chapitre 5
connaissances sur le Chapitre 5.
7 dec TD 9 Régression linéaire. Pas de cours en amphi Chapitre 6
sur ce sujet, la régression sera présentée en
TD.
14 dec TD 10 Régression linéaire Chapitre 6
19 dec TD 11 Régression linéaire Chapitre 6
janvier Examen Seul document autorisé : le livre (sans
écrit fiches ajoutées). Calculette conseillée
Certains TD et devoirs nécessitent de télécharger des fichiers de données. Ces fichiers (et d’autres
documents liés au cours) sont disponibles sur le site ”Les cours en ligne d’AgroParisTech”
http://tice.agroparistech.fr, rubriques ”Liste des cours”, ”Mathématiques”,
”Statistique Tronc commun 1ère Année”.
Retour des devoirs corrigés à J + 7 si J est la date de remise des copies par les élèves.
Le cours doit être revu et les TD préparés avant la séance.
En début de TD5 et de TD8 il y aura un quizz sur les notions déjà vues.
Un exercice test (T) surprise sera programmé. Tous sont notés sur 20 sauf le test qui est noté sur 10.
Si l’effet correcteur est statistiquement significatif, les notes de devoir et d’examen sont corrigées de
cet effet, sauf les notes d’examen inférieures à 6 qui ont droit à une double correction.
Lors des quizz et du test aucun document n’est autorisé. La calculatrice peut être autorisée ou interdite
suivant les épreuves.
Contrôle des connaissances.

La note du module est la moyenne de la note de l’examen (Y ), de celle des devoirs (X1 , X2 , X3 , X4 )
de Test (T ) et de Quizz (Q1 , Q2 ), avec un seuil éliminatoire appliqué à la note de l’examen
Z = [Y + 1/6.5(Q1 + Q2 + T + X1 + X2 + X3 + X4 )]/2 si Y >= 6
Z = Y si Y < 6
Table des matières
1 Densité de probabilité, fonction de répartition 3

1.1 Contrôle qualité en usine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Quantile de la loi N (0, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Canettes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Densité de la loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 Devoir : Loi de la variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Variance, covariance, corrélation 5

2.1 Utilisation de la calculette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Interprétation de la variance, covariance et corrélations empiriques . . . . . . . . . . . 5
2.3 Variance d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.4 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Estimation de paramètres 7
3.1 Estimateurs du maximum de vraisemblance en modèle gaussien . . . . . . . . . . . . . 7
3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3 Devoir : Evénements extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4 Intervalle de confiance pour un paramètre 9

4.1 Boeufs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.2 Albinos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.3 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
5 Tests d’hypothèses (1) 10

5.1 Les bouteilles de vin contiennent-elles 75cl ? . . . . . . . . . . . . . . . . . . . . . . . 10
5.2 Devoir : Contrôle des OGM des semences . . . . . . . . . . . . . . . . . . . . . . . . . 10

6.1 Calcul de la puissance du test de H0 = {µ = µ0 } . . . . . . . . . . . . . . . . . . . . . 12
6.2 Agressivité de jumeaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

7.1 Comparaison de deux variétés de maı̈s . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
7.2 Comparaison de deux méthodes de séchage . . . . . . . . . . . . . . . . . . . . . . . . 13
7.3 Devoir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
7.3.1 Partie préliminaire(3pts) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
7.3.2 Durée de vie d’un projecteur de cinéma(5pts) . . . . . . . . . . . . . . . . . . . 14
7.3.3 Intervalle de confiance et test (5pts) . . . . . . . . . . . . . . . . . . . . . . . . 14
8 Tests du χ2 d’indépendance et tests d’ajustement à une loi 15

8.1 Test du χ2 d’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
8.2 Test du χ2 d’ajustement à une loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
8.3 Test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1
9 Régression 17
9.1 Pollution et mortalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
10 Régression (2) 19
10.1 Tests de H0 = {b = 0} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
11 Régression (3) 20
11.1 Températures et insolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11.2 Pièges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
12 Erratum du livre 22
Chapitre 1
Densité de probabilité, fonction de

répartition
1.1 Contrôle qualité en usine

Le responsable qualité d’une usine contrôle 20 objets dans chaque lot de 1000 objets avant de le laisser
partir vers le client. Les lots ne sont acceptés que si on ne trouve aucun objet non conforme dans
l’échantillon (dans le cas contraire, le lot est trié unité par unité).
Quelle est la loi de probabilité de X, nombre d’objets non conformes dans l’échantillon ? Calculer la
probabilité qu’un lot contenant une proportion p = 0.05 d’objets non conformes soit accepté. Même
question pour p = 0.1. Le responsable qualité proclame partout qu’il fait du ”zéro défaut” parce qu’il
n’accepte aucun produit non conforme. Qu’en pensez-vous ?
1.2 Quantile de la loi N (0, 1)

Utiliser la table de la fonction de répartition de la loi Normale N (0, 1) pour obtenir :
1. P(Z > 1) où Z ∼ N (0, 1)
2. P(−1.645 < Z < 1.645) où Z ∼ N (0, 1)
3. P(−1.96 < Z < 1.96) où Z ∼ N (0, 1)
4. P(−3.09 < Z < 3.09) où Z ∼ N (0, 1)
5. les quantiles Z0.95 et Z0.05
1.3 Canettes
Une usine fabrique des canettes de diamètre intérieur moyen 50mm avec un écart- type de 0,8mm. Le
cahier des charges alloue une tolérance inférieure de 48mm et supérieure de 52mm (dans le cas où ces
tolérances ne sont pas respectées, la canette est déclaré ”non conforme”).
1. En admettant que les diamètres sont distribués selon une loi normale, quelle est la proportion
de canettes ”non conformes” ?
2. On suppose que le processus de fabrication s’est déréglé et produit avec une espérance égale à
49mm. Quelle est la proportion de canettes non conformes ?
1.4 Densité de la loi du χ2

1. Soit X une variable aléatoire de loi normale centrée et réduite. On veut obtenir la densité de
probabilité de la variable aléatoire Z = X 2 . La loi de probabilité de Z est appelée loi du χ2 à
3
un degré de liberté. Démontrer que sa densité est
1 1 1
g1 (z) = √ e− 2 z z − 2
2π
Pour l’obtenir on pourra dériver la fonction de répartition de Z, F (z) = P (Z < z) et utiliser le
fait que la loi de X est connue.
2. Soit (X1 , X2 , ...Xn ) n variables aléatoires indépendantes et deP
même loi normale centrée et
réduite. Démontrer par récurrence sur n que la densité de Zn = i=1,n Xi2 est égale à :
1 1
gn (z) = K(n)e− 2 z z 2 n−1
où K(n) est une constante dépendant de n. La loi de Z est appelée loi du χ2 à n degrés de
liberté.
Rappel : si U et V sont 2 variables aléatoires indépendantes à valeur dans R+ , de densités
respectives
R t fU et fV , la densité de T = U + V est fT obtenue par convolution de fU et fV :
fT (t) = 0 fU (t − v)fV (v)dv.
3. Déterminer E(Zn ) et V(Zn )
1.5 Devoir : Loi de la variance empirique

Soit (X1 , X2 , ...Xn ) n variables aléatoires indépendantes et de même loi normale N (m, σ 2 ). Soit X̄n =
n
1X
Xi . La variance empirique qui sert à estimer la valeur de σ 2 est
n
i=1
n
1 X
Sn2 = (Xi − X̄n )2 .
n−1
i=1
Le but du problème est de trouver la loi de probabilité de Sn2 .

On sait que si (V1 , V2 , ...Vn ) sont n variables aléatoires indépendantes et de même loi N (0, 1), Tn =
Xn
Vi2 est distribuée selon une loi du χ2 à n degrés de liberté.
i=1
Xi − µ
1. Soit Yi = . Montrer que
σ
n
X n
X
σ2 (Yi − Ȳn )2 = (Xi − X̄n )2
i=1 i=1
n
X
2. Soit Zn = (Yi − Ȳn )2 . Pourquoi ne peut-on pas affirmer que Zn suit une loi du χ2 à n degrés
i=1
de liberté ?
3. Montrer que Z2 suit une loi du χ2 à 1 degré de liberté.
4. Montrer que
1 1
Z3 = (Y1 − Y2 )2 + (Y1 + Y2 − 2Y3 )2
2 6
Calculer V(Y1 −Y2 ), V(Y1 +Y2 −2Y3 ) et Cov(Y1 −Y2 , Y1 +Y2 −2Y3 ). En déduire que Z3 suit une loi
du χ2 à 2 degrés de liberté. (On admettra que la nullité de la covariance implique l’indépendance
car on est dans le cas gaussien).
1 1
5. Montrer que Ȳn+1 = Ȳn − n+1 Ȳn + n+1 Yn+1 et en déduire par récurrence que
1 1 1
Zn = (Y1 − Y2 )2 + (Y1 + Y2 − 2Y3 )2 + ... + [Y1 + ...Yn−1 − (n − 1)Yn ]2 .
2 6 n(n − 1)
En déduire que Zn suit une loi du χ2 à n − 1 degrés de liberté.
6. Enoncer le résultat final concernant la loi de Sn2 lorsque m et σ sont quelconques.
4
Chapitre 2
Variance, covariance, corrélation
Les calculs sur tableur de l’exercice 2.2 doivent être faits avant le TD.
2.1 Utilisation de la calculette

On considère deux échantillons de deux variables X et Y observées sur la même population de taille
n=4
X = (1, 4, 2, 8) Y = (5, 10, 9, 12)
En utilisant les fonctions statistiques d’une calculette
– Calculer la moyenne, la variance et l’écart-type de chaque échantillon.
– Calculer la covariance et la corrélation des deux échantillons.
2.2 Interprétation de la variance, covariance et corrélations empi-

riques
Le fichier pluies.csv (à télécharger sur ”Les cours en ligne d’AgroParisTech”) donne pour 36 villes
françaises les valeurs de plusieurs variables climatiques. A l’aide d’un tableur (par exemple Libre
Office Calc téléchargeable gratuitement)
1. Calculer pour chaque variable la moyenne, la variance et l’écart type.
2. Représenter sur un même graphique les couples de variables :
(a) Précipitations annuelles ; nombre annuel de jours de pluie
(b) Température moyenne annuelle ; Insolation annuelle ;
(c) Précipitations annuelles ; Température moyenne annuelle ;
(d) Précipitations de mai à aout ; Précipitations sept-oct.
3. Calculer la covariance et la corrélation de chacun des couples de variables ci-dessus.
4. Commenter les différences observées.
2.3 Variance d’une moyenne

1 P
Soit X1 , X2 , ...Xn , n variables aléatoires indépendantes et de même loi. Soit X̄ = n i=1,n Xi .
1. Calculer V(X̄).
2. Un appareil de mesure a une précision telle que l’écart-type des mesures prises sur le même objet
par le même opérateur est égal à 4. Pour améliorer la précision (mesurée par l’inverse de l’écart-
type) on décide de répéter la mesure n fois et de prendre la moyenne des résultats. Justifier cette
procédure à l’aide du calcul des probabilités. Comment évolue la précision en fonction de n ?
Combien faut-il de répétitions pour que l’écart-type de l’erreur de mesure soit égal à 1 ?
5
3. Pour choisir n, on décide de minimiser la fonction de coût f (n) = an + bV(X̄) où a est le coût
d’une mesure, b est le coût de l’imprécision de la mesure finale et σ est l’écart-type de l’appareil
de mesure. Trouver la solution optimale. (A.N. : a = 1= C, b = 10=C, σ = 4).
2.4 Covariance
1. Soit X1 et X2 deux variables aléatoires. Développer Cov(aX1 + bX2 , cX1 + dX2 ) ;
2. Démontrer l’égalité V(u0 X) = u0 Σu où X est un vecteur aléatoire composé de 2 variables X1 et
X2 , u est un vecteur (2,1), u0 est le vecteur transposé de u et Σ = V(X) est la matrice (2,2) de
variance-covariance de X
3. En déduire V(X1 − X2 ) dans le cas où Cov(X1 , X2 ) = 0.
6
Chapitre 3
Estimation de paramètres
3.1 Estimateurs du maximum de vraisemblance en modèle gaussien

On considère n variables aléatoires (X1 , X2 , ...Xn ) iid :Xi ∼ N (µ, σ 2 )
1. Calculer la vraisemblance de l’échantillon
2. Trouver les estimations µ̂ et σˆ2 du maximum de vraisemblance de µ et de σ 2 . On annulera les
dérivées partielles du logarithme de la vraisemblance par rapport à µ et σ 2 .
3. Calculer le biais des estimateurs de µ et σ 2 . Trouver un estimateur sans biais de σ 2
3.2 Loi exponentielle

On considère n variables aléatoires indépendantes, X1 , ...Xn de même loi exponentielle de paramètre
θ dont la densité est :
f (x) = θe−θx pour x ≥ 0
1. Calculer E(X1 ) et V(X1 )
2. Trouver l’estimateur du maximum de vraisemblance, T, de θ
1
3. Calculer l’information de Fisher I(θ) et pour une observation, puis pour l’échantillon.
I(θ)
√
4. En utilisant les résultats du cours, donner la loi de n(T − θ) quand n tend vers l’infini.
5. A.N. : La durée de lecteurs de CD-Rom est distribuée selon une loi exponentielle. On a extrait
un échantillon de 10 lecteurs d’un lot et on a obtenu les durées de vies suivantes (en heures) :
1230, 850, 729, 990, 780, 802, 830, 1010, 812, 750. Donner l’estimateur MV de θ.
6. Trouver l’estimateur de θ par la méthode des moments.
3.3 Devoir : Evénements extrêmes

On cherche à modéliser la distribution des pluies lors des épisodes cevenols (fortes pluies dans les
cévennes). On note X la variable aléatoire mesurant le nombre de mm de pluie tombée en 24h. Soit a
un seuil (fixé en pratique à 200 mm). On dit qu’on a affaire à un épisode cevenol si X ≥ a. Dans la
suite on ne s’intéresse qu’aux épisodes cevenols, c’est à dire que X ≥ a. On sait que les événements
extrêmes peuvent être modélisés par plusieurs familles de loi de probabilité. Dans ce problème, on
considère la loi de Pareto. La densité de la loi de Pareto, pour un seuil fixé et connu a > 0, est :
f (x, θ) = θaθ x−θ−1 pour x ≥ a. θ est le paramètre. Il est obligatoirement positif.
R∞
1. Vérifier que f (x, θ) est une densité de probabilité ( a f (x, θ)dx = 1).
2. (Question qu’il n’est pas indispensable d’avoir fait pour la suite du problème). Calculer E(X) pour
θ > 1 et V (X) pour θ > 2.
3. Calculer P (X > x). Comment évolue cette probabilité en fonction de θ ?
7
∂(ln(f (x,θ))) ∂ 2 (ln(f (x,θ)))
4. Calculer ln(f (x, θ)), ∂θ et ∂2θ
.
5. On a observé n épisodes cévenols indépendants, d’ampleurs respectives X1 , ...Xn . On veut estimer
le paramètre de la loi de Pareto. Exprimer la vraisemblance V (X1 , ...XN , θ) puis son logarithme.
6. Trouver l’estimateur du maximum de vraisemblance de θ.
7. Calculer l’information de Fisher pour une observation, I(θ), et l’information de Fisher pour les
n observations, In (θ).
8. Calculer la variance asymptotique de l’estimateur de θ pour n grand.
9. En déduire un intervalle de confiance asymptotique 1 − α de θ.
10. On rappelle que a est fixé à 200mm. Le fichier cevenol.csv (à télécharger sur ”Les cours en ligne
d’AgroParisTech”) donne les valeurs de 100 épisodes cevenols. Donner l’estimation de θ, une
estimation de l’écart-type de l’estimateur et un intervalle de confiance 95%.
11. Si la pluie dépasse 500mm on s’attend à de gros dégats. Estimer la probabilité de dépasser
500mm lors du prochain évènement.
12. Estimer la probabilité de dépasser 500mm l’année prochaine, sachant qu’on s’attend à 4 épisodes
cevenols par an.
8
Chapitre 4
Intervalle de confiance pour un

paramètre
4.1 Boeufs
On a pesé sur pieds 10 boeufs de trois ans de la même race lors de leur arrivée à l’abattoir ; on a
obtenu en kg les résultats suivants :
775, 750, 755, 756, 761, 765, 770, 752, 760, 767
On admet que ces résultats sont issus d’une population infinie distribuée selon une loi normale de
moyenne µ et de variance σ 2
1. Construire un intervalle de confiance 95% pour µ.
2. Construire un intervalle de confiance 95% pour σ.
4.2 Albinos
On étudie une population animale dont certains membres sont albinos. On a extrait de cette population
un échantillon de 40 animaux et on trouve 3 albinos.
1. Construire un intervalle de confiance 95% pour la proportion d’albinos.
2. Faire les mêmes calculs pour un échantillon de 400 animaux avec 30 albinos.
3. En reprenant la démarche de l’exercice 3.2, calculer un intervalle de confiance asymptotique 95%
fondé sur l’information de Fisher.
4.3 Loi exponentielle

On reprend l’exercice 3.2.
√
1. A partir de la loi asymptotique de n(T −θ), construire un intervalle de confiance 1−α approché
pour θ quand n est grand.
2. Calculer les bornes de cet intervalle à partir de l’échantillon de 10 observations donné à l’exercice
3.2.
9
Chapitre 5
Tests d’hypothèses (1)
Exercices recommandés sur les tests d’hypothèses : 4.10.2 et 4.10.3 , pages 79 et 80
5.1 Les bouteilles de vin contiennent-elles 75cl ?

Un négociant en vin s’intéresse à la contenance des bouteilles d’un cru déterminé. Il se demande si
la contenance moyenne n’est pas inférieure à la contenance légale de 75cl. A cet effet, il mesure le
contenu de 10 bouteilles prises au hasard et obtient les valeurs suivantes en cl :
73, 2 72, 6 74, 5 75, 0 75, 5 73, 7 74, 1 75, 8 74, 8 75, 0.
1. Écrire le modèle statistique associé à cette expérience.

2. En supposant la normalité de la distribution du contenu, et l’ écart-type connu égal à 1cl, peut-il
en conclure que le contenu moyen est inférieur à 75cl avec un test de niveau 1% ?
On pose a priori que le producteur est honnête et que le négociant doit prouver la fraude qu’il
soupçonne.
3. Calculez la probabilité critique.
4. On suppose que la contenance moyenne est égale à 74,5cl et que l’écart-type est connu et égal à
1cl. Calculer l’erreur de deuxième espèce du test précédent.
5. Faire de même pour les valeurs suivantes de la contenance moyenne : 73 73,5 74. Tracer la courbe
de l’erreur de deuxième espèce en fonction de la contenance moyenne.
6. Le négociant veut pouvoir détecter avec une probabilité élevée (0.99) une contenance moyenne
de 74,5cl tout en gardant un test de niveau 1%. Que doit-il faire ?
5.2 Devoir : Contrôle des OGM des semences

Il existe des tests permettant de détecter si un produit contient certains types d’OGM. Les semences ”non-
OGM” peuvent être mélangées à des semences génétiquement modifiées. Aussi cherche-t-on à mettre au point
un contrôle des lots de semences pour garantir à l’acheteur un label ”sans OGM”. On constitue un groupe de
N graines que l’on broie. On dispose de méthodes d’analyse permettant de détecter la présence d’OGM dans ce
groupe de N graines. On cherche bien sûr à analyser des groupes de graines au lieu de faire des analyses graine
par graine pour des raisons d’économie car chaque analyse coûte cher.
Le mode de contrôle est le suivant :
On tire au hasard dans le lot à contrôler k groupes de N graines. On analyse chaque groupe et le résultat est
la présence ou absence d’OGM pour chacun d’entre eux. On rejette le lot si au moins un groupe a été trouvé
positif.
Dans ce devoir on supposera qu’il n’y a pas de problème de sensibilité de l’analyse : on suppose que si un groupe
contient au moins une graine ”OGM”, le groupe est détecté positif et si le groupe ne contient que des graines
”sans OGM” il sera trouvé négatif. Dans ce qui suit on considère un lot de semences ayant un taux d’OGM
donné, π. La législation en cours prévoit qu’un produit quelconque est déclaré ”non OGM” s’il contient au
10
plus 1% d’OGM. Un lot est donc considéré comme acceptable si π ≤ 0.01. Vu les processus de fabrication des
semences, on considère qu’il est irréaliste d’exiger un taux inférieur.
1. Donner la probabilité qu’un groupe issu d’un lot dont le taux d’OGM est π ne contienne aucune graine
OGM et soit donc déclaré négatif.
2. Quelle est la loi de la variable aléatoire Y égale au nombre de groupes positifs parmi les k groupes analysés
pour ce lot ? Quelle est la probabilité d’accepter le lot ?
3. Connaissant le nombre de groupes positifs y trouvés parmi k d’un lot contrôlé, donner l’estimateur de π
obtenu par la méthode du maximum de vraisemblance et celui obtenu par la méthode des moments. Peut-
on facilement obtenir l’espérance, la variance et l’écart quadratique moyen de l’estimateur correspondant ?
4. Formaliser la règle de décision donnée dans le préambule sous la forme d’un test d’hypothèse en précisant
(a) la loi de l’expérience
(b) l’hypothèse testée
(c) la statistique de test
(d) la région de rejet
(e) le risque de première espèce.
5. On pose à présent H0 = { π ≤ 0.01} ={Le lot est ”non OGM”}. Déterminer une condition sur N et k
pour que le risque de première espèce soit inférieur à 0.05. Dans ce cas quel est la probabilité d’accepter
un lot contenant 2% d’OGM ? Cette probabilité vous paraı̂t-elle acceptable ?
6. On pose à présent H0 = { π > 0.01} ={Le lot est ”OGM”}. Déterminer une condition sur N et k pour
que le risque de première espèce soit inférieur à 0.05. Le coût de cette procédure vous paraı̂t-il acceptable ?
7. Quelles remarques suscitent les réponses aux 2 questions précédentes concernant les tests d’hypothèse en
général et en particulier le rôle de l’hypothèse H0 .
8. Aucun des 2 modes de contrôle ci-dessus ne semble adapté au problème posé. Comment construire un
mode de contrôle raisonné (expliciter la démarche, les risques à poser, la forme de la règle de décision...) ?
11
Chapitre 6
6.1 Calcul de la puissance du test de H0 = {µ = µ0 }

1 Pn
Soit (Xi )i∈{1,...,n} un échantillon i.i.d. d’une loi N (µ, σ 2 ) avec σ connu. On note X̄ = n i=1 Xi . On
considère le test de H0 = {µ = µ0 } contre H1 = {µ 6= µ0 } de niveau α.
1. Donner la statistique de test et écrire la région de rejet.
2. Calculer β(µ) en fonction de µ, µ0 , σ et n à l’aide de la fonction de répartition de la loi normale
F (x).
|µ−µ0 |
3. On note δ = √ .
σ/ n
On considère un test de niveau 5%. Calculer β(δ) pour δ=0, 1, 2 et 3.
4. Tracer la courbe de la puissance du test en fonction de δ. Quelles conclusions peut-on en tirer ?
6.2 Agressivité de jumeaux

L’agressivité de 12 paires de jumeaux a été évaluée par des tests psychologiques notés sur 100. On a
obtenu les résultats suivants en fonction de l’ordre de naissance :
premier né 86 71 77 68 91 72 77 91 70 71 88 87
puiné 88 77 76 64 96 72 65 90 65 80 81 72
Y-a-t-il une différence d’agressivité entre premier né et puiné au seuil de 5% ?
12
Chapitre 7
Exercices recommandés sur la comparaison de 2 populations : 5.4.2 et 5.4.3 et 5.4.4, page 93
7.1 Comparaison de deux variétés de maı̈s

On veut comparer les hauteurs de deux variétés de maı̈s à un certain stade de végétation. Pour cela
on a mesuré les hauteurs de quelques pieds (en cm) des 2 variétés. Les résultats obtenus sont dans le
tableau suivant :
Variété A : 232, 228, 237, 225, 214, 213, 205, 233, 219, 236
Variété B : 222, 234, 244, 235, 229, 260, 232, 224
1. Écrire le modèle statistique associé à cette expérience.

2. Que peut-on faire pour comparer les hauteurs des pieds des deux variétés ?
7.2 Comparaison de deux méthodes de séchage

On a obtenu les données suivantes pour deux méthodes différentes de séchage du maı̈s :
Taux de séchage (en %)

Avec préchauffage Sans préchauffage
16 20
12 10
22 21
14 10
19 12
1. Comparer les résultats obtenus avec les deux méthodes en supposant qu’il s’agit d’échantillons
appariés (option I) puis qu’il s’agit d’échantillons non-appariés (option II).
2. Pour chacune des condititions expérimentales suivantes, indiquer l’option qui vous semble conve-
nir :
Analyse sur de faibles quantités :
– On dispose de 5 épis ; sur chacun d’entre eux on prélève deux échantillons de 50 grains qui
sont séchés l’un avec préchauffage et l’autre sans.
– On dispose de dix épis prélevés au hasard dans une même parcelle ; sur chacun d’entre eux on
prélève un échantillon de 50 grains ; ces dix échantillons sont répartis aléatoirement entre les
deux méthodes.
Analyse sur de grosses quantités :
– On dispose de cinq lots d’épis provenant de cinq parcelles différentes ; chaque lot est divisé en
deux demi-lots séchés l’un avec préchauffage et l’autre sans.
13
– On dispose de cinq lots provenant de cinq carrés de 1m2 situés dans une même parcelle ; chaque
lot est divisé en deux demi-lots séchés l’un avec préchauffage et l’autre sans.
– On dispose de dix lots d’épis provenant de dix carrés de 1m2 situés dans une même parcelle ;
ces dix lots sont répartis aléatoirement entre les deux méthodes.
– On dispose de dix lots d’épis de dix parcelles différentes ; ces dix lots sont répartis aléatoirement
entre les deux méthodes.
7.3 Devoir
7.3.1 Partie préliminaire(3pts)
Cette partie donne tous les résultats des intégrales utiles pour le problème. Il est possible d’utiliser ces résultats
pour la suite même si on n’a Rpas réussi à les démontrer.
+∞ n −θx
Pour n ∈ N, on note In = 0 x e dx
1. Montrer que I0 = 1/θ. (0.5pt)
2. Pour n ≥ 1 montrer la relation de récurrence In = nθ In−1 . (1.5pt)
n!
3. Montrer que In = θn+1
avec la convention 0! = 1. (1pt)
7.3.2 Durée de vie d’un projecteur de cinéma(5pts)

La durée de vie X d’un projecteur de cinéma (doté d’une ampoule de sécurité) suit une loi de Erlang
d’ordre 2 et de paramètre θ, si sa densité f vaut : f (x) = θ2 xe−θx si x ≥ 0 et 0 sinon.
1. Calculer E(X) et V (X). (1.5pt)
2. On dispose d’un échantillon x1 , x2 , ...xn des durées de vie de n projecteurs indépendants de ce
type. Donner la vraisemblance de l’échantillon et l’estimateur T du maximum de vraisemblance
pour le paramètre θ. (2pts)
2
3. Montrer que l’information de Fisher pour une observation vaut θ2
. (1pt)
4. Donner l’estimateur obtenu par la méthode des moments.(0.5pt)
7.3.3 Intervalle de confiance et test (5pts)

1. En utilisant les
√propriétés asymptotiques de l’estimateur du maximum de vraisemblance, déduire
(T −θ)
que la loi de 2n θ peut être approchée par une loi normale centrée réduite si n est suffi-
samment grand. (1pt)
2. En déduire un intervalle de confiance au niveau 1 − α pour le paramètre θ. (2pts)
3. On veut tester l’hypothèse H0 = {θ = θ0 } contre H0 = {θ 6= θ0 }. Donner une statistique de test
et sa loi sous H0 . Définir la région de rejet du test. (2pts)
14
Chapitre 8
Tests du χ2 d’indépendance et tests

d’ajustement à une loi
8.1 Test du χ2 d’indépendance

Tester l’homogénéité de la répartition du nombre de CD vendus selon le type de point de vente pour
4 villes.
point de vente classique rock variété électro jazz& blues

Paris 21 340 46 210 9
Lyon 15 150 20 110 5
Marseille 17 180 19 99 6
Bruxelles 22 175 22 187 6
8.2 Test du χ2 d’ajustement à une loi

Dans une étude sur un répulsif de moustiques, on a compté le nombre de piqures de chaque personne
à partir d’un échantillon de 150 personnes. On a obtenu les données du tableau suivant :
Nombre de piqures 0 1 2 3 4 5 6 >6

Nombre d’individus de l’échantillon 32 54 34 21 6 2 1 0
Peut-on accepter l’hypothèse que X est distribuée selon une loi de Poisson ?
8.3 Test de Kolmogorov-Smirnov

Ce test compare la distribution observée d’un échantillon statistique à une distribution théorique (de
paramètres supposés connus). On l’utilise de préférence au test d’adéquation du chi-deux lorsque la
variable aléatoire est continue. Il est basé sur la comparaison des fonctions de répartition.
– Données : n observations (x1 , ..., xn ) d’une variable aléatoire X
– Hypothèse testée : H0 =”La fonction de répartition de X est F ”
– Déroulement du test :
1. On ordonne les valeurs observées x(1) ≤ x(2) ≤ ... ≤ x(n) .
2. On pose Fn (x(1) ) = 1/n, Fn (x(2) ) = 2/n, ..., Fn (x(n) ) = 1 ce qui définit la fonction de répartition
empirique Fn en escalier :
∀t ∈ [x(i) , x(i+1) [, Fn (t) = ni ; ∀t < x(1) , Fn (t) = 0 ; ∀t > x(n) Fn (t) = 1
3. Démontrer que
15

∀t ∈ [x(i) , x(i+1) [ on a |F (t) − Fn (t)| ≤ max |Fn (x(i) ) − F (x(i) )|, |Fn (x(i) ) − F (x(i+1) )| On en
déduit qu’on peut calculer Kn = supx |Fn (x) − F0 (x)| par

Kn = max0≤i≤n max |Fn (x(i) ) − F (x(i) )|, |Fn (x(i) ) − F (x(i+1) )|

i i
= max0≤i≤n max | − F (x(i) )|, | − F (x(i+1) )|
n n
avec la convention F (x(0) ) = 0 et F (x(n+1) ) = 1.

4. La loi de Kn sous H0 n’est pas explicite, mais on dispose de valeurs critiques de sa fonction de
répartition en fonction de n et de α, dn,1−α . Si Kn < dn,1−α , on accepte l’hypothèse, sinon, on
la rejette.
Application numérique : Les durées de vie en années de 5 lave-vaisselle (1, 2, 5, 10, 20) sont-elles
distribuées selon une loi exponentielle de paramètre θ = 18 ? On donne d5,0.95 = 0.56328.
d’après http ://www.jybaudot.fr/
16
Chapitre 9
Régression
9.1 Pollution et mortalité

On cherche à connaı̂tre l’effet de la pollution sur la santé. Un jeu de données très connu sur le sujet a
été réuni par McDonald, G.C. and Schwing, R.C. en 1973 (Cf http://lib.stat.cmu.edu/datasets/
pollution). Ils ont établi un indice de pollution en SO2 et le taux de mortalité pour 100 000 habitants
pour 60 années. Les données sont représentées dans le graphe ci-dessous.
Mortalité et Pollution
●
1100
●
1050
●
● ●
● ●
1000
●
●●
●
●
● ●
●
●
● ●
Mortalite
● ● ●
● ●
● ●
950
● ● ●
●
●
● ●
● ●
●
● ●
●
● ● ● ●
900
●
● ●
● ●
●
●
● ●
●
●
● ●
●
850
●
●
●
800
0 50 100 150 200 250
SO2
Les résultats de la régression de la variable SO2 sur la mortalité sont présentés partiellement ci-dessous.
1. Ecrire le modèle associé à cette régression.
2. Les valeurs des estimations pour les deux paramètres sont
paramètre estimation écart-type
intercept 917.89 9.64
SO2 0.42 0.12
Donner des intervalles de confiance pour les deux paramètres.
3. La somme des carrés totale est égale à 228308.0, la somme des carrés modèle résiduelle est égale
à 186896.0. Donner la somme des carrés du modèle. En déduire le coefficient de détermination,
une estimation de l’écart-type de l’erreur et son intervalle de confiance.
17
4. Prédire la mortalité pour un indice de SO2 égal à 300 et donner l’intervalle de confiance associé.
5. Commenter les deux graphiques ci-dessous
18
Chapitre 10
Régression (2)
Exercices recommandés sur la régression : 6.4.1, 6.4.2 et 6.4.4, pages 119,120 et 122
10.1 Tests de H0 = {b = 0}
1. On reprend les données de mortalité et pollution de l’exercice 9.1.
(a) Compléter le tableau suivant
paramètre estimation écart-type statistique T p-valeur
intercept 917.89 9.64
SO2 0.42 0.12
Tester l’hypothèse qu’il n’y a pas de relation entre la pollution par le SO2 et le taux de
mortalité.
(b) Compléter le tableau d’analyse de la variance
Source somme des carrés degrés de liberté somme des carrés moyens F-ratio p-valeur
Modèle
Résiduelle 186896.0
Totale 228308.0
2. On considère le modèle de la régression simple avec les notations usuelles. Il existe deux tests de
l’hypothèse H0 = {b = 0}, le test de Student § 6.2.5, p 109 et le test de Fisher, § 6.2.6 p 111.
En fait ces deux tests sont strictement équivalents. Le but de cet exercice est de le démontrer.
(a) Soit T une variable aléatoire distribuée selon une loi de student à υ degrés de liberté. En
utilisant les définitions des lois de Student et de Fisher, démontrer que T 2 est distribuée
selon une loi de Fisher à 1 et υ degrés de liberté.
(b) Trouver dans les tables les quantiles t10,0.975 et f1,10,0.95 . Quelle relation y–a-t-il entre ces
deux valeurs ? Pourquoi ?
(c) Démontrer que
2
R2

B
= (n − 2)
SB 1 − R2
(d) Conclure sur l’équivalence entre les deux tests de H0 = {b = 0}.
19
Chapitre 11
Régression (3)
Les calculs sur tableur doivent être faits avant le TD.
11.1 Températures et insolation

On reprend le fichier pluies de l’exercice 2.2. A l’aide des fonctions du tableur donner les résultats de
la régression de l’insolation annuelle sur la température annuelle moyenne.
1. Donner les estimations des paramètres, de l’écart-type des estimateurs, des statistiques T et les
p-valeurs associées.
paramètre estimation écart-type statistique T p-valeur
intercept
température
Donner des intervalles de confiance pour les deux paramètres.
Tester l’hypothèse qu’il n’y a pas de relation entre l’insolation et la température.
2. Compléter le tableau d’analyse de la variance
Source somme des carrés degrés de liberté somme des carrés moyens F-ratio p-valeur
Modèle
Résiduelle
Totale
3. En déduire le coefficient de détermination, une estimation de l’écart type de l’erreur et son
intervalle de confiance.
4. Prédire l’insolation pour une température annuelle moyenne égale à 14˚, et donner l’intervalle
de confiance associé.
5. Représenter le graphique des résidus en fonction de la température et le graphique des valeurs
prédites pour la plage de température 9˚-16˚associées aux intervalle de confiance et aux inter-
valles de prédiction.
6. Donner une conclusion générale sur les résultats.
7. Reprendre l’analyse ci-dessus pour les 3 autres couples de variables étudiés dans l’exercice 2.2.
11.2 Pièges
Cet exercice a pour but de mettre en évidence les dangers d’une confiance trop grande dans un modèle
et d’une analyse baclée. On considère les graphiques (x,y) et les graphiques des résidus dans 5 cas.
Dans ces 5 cas, les statistiques standard de la regression (estimation des paramètres, intervalles de
confiance, R2 et tests d’hypothèses) sont exactement identiques. Explicitez en quelques phrases la
situation dans chaque cas. Que doit-on faire pour se protéger contre de fausses interprétations ?
20
21
Chapitre 12
Erratum du livre
– page 47, précision sur comment calculer simplement l’information de Fisher, dans le cas d’une
variable X continue et de la formule avec la dérivée seconde. Soit fθ (x) la densité. On calcule
∂2
g(x) = ∂θ 2 lnfθ (x), alors I(θ) = −E[g(X)]. On a le même type d’écriture avec la formule obtenue
avec la dérivée première de lnfθ . Dans le cas d’une variable discrète, remplacer lnfθ (x) par lnPθ (X =
x).
√
– page 48, ajouter après la septième ligne, ce qui implique que la loi de n(Tnmv − θ) peut-être ap-
prochée, pour n grand, par une loi normale N (0, I −1 (θ)).
– Page 48, paragraphe 3.2.2 après (en général ce système n’est pas linéaire) ajouter la phrase suivante :
Dans le cas particulier où les paramètres du modèle sont la moyenne et la variance, l’estimateur de
µ par la méthode des moments est X et l’estimateur de la variance σ 2 par la méthode des moments
est la variance empirique, n1 Σni=1 (Xi − X)2 .
– Page 53, à la septième ligne du paragraphe 3.3.6, remplacer intervalle de probabilité par intervalle
de confiance.
– Page 61, au § 3.5.4 : remplacer X suit une loi binomiale B(n, p) par X suit une loi binomiale
B(n, π).
√
– Page 70, sept lignes avant la fin, remplacer l = u1−α/2 par l = u1−α/2 ∗ σ/ n.
– Page 73, remplacer la formule de la ligne 4 par
X − µ0
√ < −tn−1;1−α
S/ n
remplacer la formule de la ligne 6 par

S
X < µ0 − tn−1;1−α √
n
– Page 91, en haut de la page 91, remplacer le premier alinéa par :

Par définition du protocole expérimental, le nombre de variables (Xi , i = 1, n) est égal au nombre
de variables (Yi , i = 1, n). Le modèle porte uniquement sur les différences entre les mesures de X
et de Y pour une même unité expérimentale i. Pour tout i, Di = Xi − Yi ∼ N (µ1 − µ2 , σd2 ) et les
variables Di sont iid.
– Page 96, ligne 14, remplacer ”refusée” par ”encore acceptée”.
– Page 146, dans la figure, la loi hypergéométrique est notée H(A, N, n), alors que la notation utilisée
page 138 est H(n, m, k). La correspondance entre les 2 notations est la suivante : A = k, N = m et
n = n.
22

td2012 2013

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

td2012 2013

Загружено:

Авторское право:

Доступные форматы

AgroParisTech, cursus IA

Travaux Dirigés de Statistique

Equipe pédagogique : L. Bel, A. Lavigne, J.-B. Léger, E. Pommiès, C. Vuillet

Contrôle des connaissances.

1 Densité de probabilité, fonction de répartition 3

2 Variance, covariance, corrélation 5

4 Intervalle de confiance pour un paramètre 9

5 Tests d’hypothèses (1) 10

6 Tests d’hypothèses (2) 12

7 Tests d’hypothèses (3) 13

8 Tests du χ2 d’indépendance et tests d’ajustement à une loi 15

Densité de probabilité, fonction de

1.1 Contrôle qualité en usine

1.2 Quantile de la loi N (0, 1)

1.4 Densité de la loi du χ2

1.5 Devoir : Loi de la variance empirique

Le but du problème est de trouver la loi de probabilité de Sn2 .

Variance, covariance, corrélation

2.1 Utilisation de la calculette

2.2 Interprétation de la variance, covariance et corrélations empi-

2.3 Variance d’une moyenne

3.1 Estimateurs du maximum de vraisemblance en modèle gaussien

3.2 Loi exponentielle

3.3 Devoir : Evénements extrêmes

Intervalle de confiance pour un

4.3 Loi exponentielle

Tests d’hypothèses (1)

Exercices recommandés sur les tests d’hypothèses : 4.10.2 et 4.10.3 , pages 79 et 80

5.1 Les bouteilles de vin contiennent-elles 75cl ?

1. Écrire le modèle statistique associé à cette expérience.

5.2 Devoir : Contrôle des OGM des semences

Tests d’hypothèses (2)

6.1 Calcul de la puissance du test de H0 = {µ = µ0 }

6.2 Agressivité de jumeaux

Y-a-t-il une différence d’agressivité entre premier né et puiné au seuil de 5% ?

Tests d’hypothèses (3)

Exercices recommandés sur la comparaison de 2 populations : 5.4.2 et 5.4.3 et 5.4.4, page 93

7.1 Comparaison de deux variétés de maı̈s

1. Écrire le modèle statistique associé à cette expérience.

7.2 Comparaison de deux méthodes de séchage

Taux de séchage (en %)

7.3.2 Durée de vie d’un projecteur de cinéma(5pts)

7.3.3 Intervalle de confiance et test (5pts)

Tests du χ2 d’indépendance et tests

8.1 Test du χ2 d’indépendance

point de vente classique rock variété électro jazz& blues

8.2 Test du χ2 d’ajustement à une loi

Nombre de piqures 0 1 2 3 4 5 6 >6

8.3 Test de Kolmogorov-Smirnov

avec la convention F (x(0) ) = 0 et F (x(n+1) ) = 1.

d’après http ://www.jybaudot.fr/

9.1 Pollution et mortalité

0 50 100 150 200 250

Les calculs sur tableur doivent être faits avant le TD.

11.1 Températures et insolation

remplacer la formule de la ligne 6 par

– Page 91, en haut de la page 91, remplacer le premier alinéa par :

Вам также может понравиться