Академический Документы
Профессиональный Документы
Культура Документы
Mathématiques
2012-2013
Date COURS/TD Contenu Chapitre à Devoir
lire avant le
TD
17 oct TD 1 Probabilités (rappels) Chapitre 7 Devoir 1 à rendre
au TD 3
24 et 25 oct TD 2 Probabilités (rappels) Chapitre 7
30 oct COURS 1 Présentation générale du cours + Estima-
tion ponctuelle
31 oct TD 3 Estimation de paramètres : paramètre, es- Chapitre 3 Devoir 2 à rendre
timation, estimateur, EQM, MV au TD5
6 nov COURS 2 Estimation par intervalles, tests sur un pa-
ramètre
7 et 8 nov TD 4 Intervalle de confiance Chapitre 3
14 nov TD 5 Tests d’hypothèses Quiz1 : vérification Chapitre 3 Devoir 3 à rendre
des connaissances sur le Chapitre 3. au TD 7
23 nov TD 6 Tests d’hypothèses, puissance Chapitre 4
27 nov COURS 3 Tests sur deux populations, tests du χ2
28 nov TD 7 Comparaison de 2 populations. Chapitre 5 Devoir 4 à rendre
au TD10
5 dec TD 8 Tests du χ2 Quiz2 : vérification des Chapitre 5
connaissances sur le Chapitre 5.
7 dec TD 9 Régression linéaire. Pas de cours en amphi Chapitre 6
sur ce sujet, la régression sera présentée en
TD.
14 dec TD 10 Régression linéaire Chapitre 6
19 dec TD 11 Régression linéaire Chapitre 6
janvier Examen Seul document autorisé : le livre (sans
écrit fiches ajoutées). Calculette conseillée
Certains TD et devoirs nécessitent de télécharger des fichiers de données. Ces fichiers (et d’autres
documents liés au cours) sont disponibles sur le site ”Les cours en ligne d’AgroParisTech”
http://tice.agroparistech.fr, rubriques ”Liste des cours”, ”Mathématiques”,
”Statistique Tronc commun 1ère Année”.
Retour des devoirs corrigés à J + 7 si J est la date de remise des copies par les élèves.
Le cours doit être revu et les TD préparés avant la séance.
En début de TD5 et de TD8 il y aura un quizz sur les notions déjà vues.
Un exercice test (T) surprise sera programmé. Tous sont notés sur 20 sauf le test qui est noté sur 10.
Si l’effet correcteur est statistiquement significatif, les notes de devoir et d’examen sont corrigées de
cet effet, sauf les notes d’examen inférieures à 6 qui ont droit à une double correction.
Lors des quizz et du test aucun document n’est autorisé. La calculatrice peut être autorisée ou interdite
suivant les épreuves.
3 Estimation de paramètres 7
3.1 Estimateurs du maximum de vraisemblance en modèle gaussien . . . . . . . . . . . . . 7
3.2 Loi exponentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3 Devoir : Evénements extrêmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1
9 Régression 17
9.1 Pollution et mortalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
10 Régression (2) 19
10.1 Tests de H0 = {b = 0} . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
11 Régression (3) 20
11.1 Températures et insolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
11.2 Pièges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
12 Erratum du livre 22
Chapitre 1
1.3 Canettes
Une usine fabrique des canettes de diamètre intérieur moyen 50mm avec un écart- type de 0,8mm. Le
cahier des charges alloue une tolérance inférieure de 48mm et supérieure de 52mm (dans le cas où ces
tolérances ne sont pas respectées, la canette est déclaré ”non conforme”).
1. En admettant que les diamètres sont distribués selon une loi normale, quelle est la proportion
de canettes ”non conformes” ?
2. On suppose que le processus de fabrication s’est déréglé et produit avec une espérance égale à
49mm. Quelle est la proportion de canettes non conformes ?
3
un degré de liberté. Démontrer que sa densité est
1 1 1
g1 (z) = √ e− 2 z z − 2
2π
Pour l’obtenir on pourra dériver la fonction de répartition de Z, F (z) = P (Z < z) et utiliser le
fait que la loi de X est connue.
2. Soit (X1 , X2 , ...Xn ) n variables aléatoires indépendantes et deP
même loi normale centrée et
réduite. Démontrer par récurrence sur n que la densité de Zn = i=1,n Xi2 est égale à :
1 1
gn (z) = K(n)e− 2 z z 2 n−1
où K(n) est une constante dépendant de n. La loi de Z est appelée loi du χ2 à n degrés de
liberté.
Rappel : si U et V sont 2 variables aléatoires indépendantes à valeur dans R+ , de densités
respectives
R t fU et fV , la densité de T = U + V est fT obtenue par convolution de fU et fV :
fT (t) = 0 fU (t − v)fV (v)dv.
3. Déterminer E(Zn ) et V(Zn )
4
Chapitre 2
Les calculs sur tableur de l’exercice 2.2 doivent être faits avant le TD.
5
3. Pour choisir n, on décide de minimiser la fonction de coût f (n) = an + bV(X̄) où a est le coût
d’une mesure, b est le coût de l’imprécision de la mesure finale et σ est l’écart-type de l’appareil
de mesure. Trouver la solution optimale. (A.N. : a = 1= C, b = 10=C, σ = 4).
2.4 Covariance
1. Soit X1 et X2 deux variables aléatoires. Développer Cov(aX1 + bX2 , cX1 + dX2 ) ;
2. Démontrer l’égalité V(u0 X) = u0 Σu où X est un vecteur aléatoire composé de 2 variables X1 et
X2 , u est un vecteur (2,1), u0 est le vecteur transposé de u et Σ = V(X) est la matrice (2,2) de
variance-covariance de X
3. En déduire V(X1 − X2 ) dans le cas où Cov(X1 , X2 ) = 0.
6
Chapitre 3
Estimation de paramètres
7
∂(ln(f (x,θ))) ∂ 2 (ln(f (x,θ)))
4. Calculer ln(f (x, θ)), ∂θ et ∂2θ
.
5. On a observé n épisodes cévenols indépendants, d’ampleurs respectives X1 , ...Xn . On veut estimer
le paramètre de la loi de Pareto. Exprimer la vraisemblance V (X1 , ...XN , θ) puis son logarithme.
6. Trouver l’estimateur du maximum de vraisemblance de θ.
7. Calculer l’information de Fisher pour une observation, I(θ), et l’information de Fisher pour les
n observations, In (θ).
8. Calculer la variance asymptotique de l’estimateur de θ pour n grand.
9. En déduire un intervalle de confiance asymptotique 1 − α de θ.
10. On rappelle que a est fixé à 200mm. Le fichier cevenol.csv (à télécharger sur ”Les cours en ligne
d’AgroParisTech”) donne les valeurs de 100 épisodes cevenols. Donner l’estimation de θ, une
estimation de l’écart-type de l’estimateur et un intervalle de confiance 95%.
11. Si la pluie dépasse 500mm on s’attend à de gros dégats. Estimer la probabilité de dépasser
500mm lors du prochain évènement.
12. Estimer la probabilité de dépasser 500mm l’année prochaine, sachant qu’on s’attend à 4 épisodes
cevenols par an.
8
Chapitre 4
4.1 Boeufs
On a pesé sur pieds 10 boeufs de trois ans de la même race lors de leur arrivée à l’abattoir ; on a
obtenu en kg les résultats suivants :
775, 750, 755, 756, 761, 765, 770, 752, 760, 767
On admet que ces résultats sont issus d’une population infinie distribuée selon une loi normale de
moyenne µ et de variance σ 2
1. Construire un intervalle de confiance 95% pour µ.
2. Construire un intervalle de confiance 95% pour σ.
4.2 Albinos
On étudie une population animale dont certains membres sont albinos. On a extrait de cette population
un échantillon de 40 animaux et on trouve 3 albinos.
1. Construire un intervalle de confiance 95% pour la proportion d’albinos.
2. Faire les mêmes calculs pour un échantillon de 400 animaux avec 30 albinos.
3. En reprenant la démarche de l’exercice 3.2, calculer un intervalle de confiance asymptotique 95%
fondé sur l’information de Fisher.
9
Chapitre 5
73, 2 72, 6 74, 5 75, 0 75, 5 73, 7 74, 1 75, 8 74, 8 75, 0.
10
plus 1% d’OGM. Un lot est donc considéré comme acceptable si π ≤ 0.01. Vu les processus de fabrication des
semences, on considère qu’il est irréaliste d’exiger un taux inférieur.
1. Donner la probabilité qu’un groupe issu d’un lot dont le taux d’OGM est π ne contienne aucune graine
OGM et soit donc déclaré négatif.
2. Quelle est la loi de la variable aléatoire Y égale au nombre de groupes positifs parmi les k groupes analysés
pour ce lot ? Quelle est la probabilité d’accepter le lot ?
3. Connaissant le nombre de groupes positifs y trouvés parmi k d’un lot contrôlé, donner l’estimateur de π
obtenu par la méthode du maximum de vraisemblance et celui obtenu par la méthode des moments. Peut-
on facilement obtenir l’espérance, la variance et l’écart quadratique moyen de l’estimateur correspondant ?
4. Formaliser la règle de décision donnée dans le préambule sous la forme d’un test d’hypothèse en précisant
(a) la loi de l’expérience
(b) l’hypothèse testée
(c) la statistique de test
(d) la région de rejet
(e) le risque de première espèce.
5. On pose à présent H0 = { π ≤ 0.01} ={Le lot est ”non OGM”}. Déterminer une condition sur N et k
pour que le risque de première espèce soit inférieur à 0.05. Dans ce cas quel est la probabilité d’accepter
un lot contenant 2% d’OGM ? Cette probabilité vous paraı̂t-elle acceptable ?
6. On pose à présent H0 = { π > 0.01} ={Le lot est ”OGM”}. Déterminer une condition sur N et k pour
que le risque de première espèce soit inférieur à 0.05. Le coût de cette procédure vous paraı̂t-il acceptable ?
7. Quelles remarques suscitent les réponses aux 2 questions précédentes concernant les tests d’hypothèse en
général et en particulier le rôle de l’hypothèse H0 .
8. Aucun des 2 modes de contrôle ci-dessus ne semble adapté au problème posé. Comment construire un
mode de contrôle raisonné (expliciter la démarche, les risques à poser, la forme de la règle de décision...) ?
11
Chapitre 6
premier né 86 71 77 68 91 72 77 91 70 71 88 87
puiné 88 77 76 64 96 72 65 90 65 80 81 72
12
Chapitre 7
1. Comparer les résultats obtenus avec les deux méthodes en supposant qu’il s’agit d’échantillons
appariés (option I) puis qu’il s’agit d’échantillons non-appariés (option II).
2. Pour chacune des condititions expérimentales suivantes, indiquer l’option qui vous semble conve-
nir :
Analyse sur de faibles quantités :
– On dispose de 5 épis ; sur chacun d’entre eux on prélève deux échantillons de 50 grains qui
sont séchés l’un avec préchauffage et l’autre sans.
– On dispose de dix épis prélevés au hasard dans une même parcelle ; sur chacun d’entre eux on
prélève un échantillon de 50 grains ; ces dix échantillons sont répartis aléatoirement entre les
deux méthodes.
Analyse sur de grosses quantités :
– On dispose de cinq lots d’épis provenant de cinq parcelles différentes ; chaque lot est divisé en
deux demi-lots séchés l’un avec préchauffage et l’autre sans.
13
– On dispose de cinq lots provenant de cinq carrés de 1m2 situés dans une même parcelle ; chaque
lot est divisé en deux demi-lots séchés l’un avec préchauffage et l’autre sans.
– On dispose de dix lots d’épis provenant de dix carrés de 1m2 situés dans une même parcelle ;
ces dix lots sont répartis aléatoirement entre les deux méthodes.
– On dispose de dix lots d’épis de dix parcelles différentes ; ces dix lots sont répartis aléatoirement
entre les deux méthodes.
7.3 Devoir
7.3.1 Partie préliminaire(3pts)
Cette partie donne tous les résultats des intégrales utiles pour le problème. Il est possible d’utiliser ces résultats
pour la suite même si on n’a Rpas réussi à les démontrer.
+∞ n −θx
Pour n ∈ N, on note In = 0 x e dx
1. Montrer que I0 = 1/θ. (0.5pt)
2. Pour n ≥ 1 montrer la relation de récurrence In = nθ In−1 . (1.5pt)
n!
3. Montrer que In = θn+1
avec la convention 0! = 1. (1pt)
14
Chapitre 8
Peut-on accepter l’hypothèse que X est distribuée selon une loi de Poisson ?
15
∀t ∈ [x(i) , x(i+1) [ on a |F (t) − Fn (t)| ≤ max |Fn (x(i) ) − F (x(i) )|, |Fn (x(i) ) − F (x(i+1) )| On en
déduit qu’on peut calculer Kn = supx |Fn (x) − F0 (x)| par
Kn = max0≤i≤n max |Fn (x(i) ) − F (x(i) )|, |Fn (x(i) ) − F (x(i+1) )|
i i
= max0≤i≤n max | − F (x(i) )|, | − F (x(i+1) )|
n n
16
Chapitre 9
Régression
Mortalité et Pollution
●
1100
●
1050
●
● ●
● ●
1000
●
●●
●
●
● ●
●
●
● ●
Mortalite
● ● ●
● ●
● ●
950
● ● ●
●
●
● ●
● ●
●
● ●
●
● ● ● ●
900
●
● ●
● ●
●
●
● ●
●
●
● ●
●
850
●
●
●
800
SO2
Les résultats de la régression de la variable SO2 sur la mortalité sont présentés partiellement ci-dessous.
1. Ecrire le modèle associé à cette régression.
2. Les valeurs des estimations pour les deux paramètres sont
paramètre estimation écart-type
intercept 917.89 9.64
SO2 0.42 0.12
Donner des intervalles de confiance pour les deux paramètres.
3. La somme des carrés totale est égale à 228308.0, la somme des carrés modèle résiduelle est égale
à 186896.0. Donner la somme des carrés du modèle. En déduire le coefficient de détermination,
une estimation de l’écart-type de l’erreur et son intervalle de confiance.
17
4. Prédire la mortalité pour un indice de SO2 égal à 300 et donner l’intervalle de confiance associé.
5. Commenter les deux graphiques ci-dessous
18
Chapitre 10
Régression (2)
Exercices recommandés sur la régression : 6.4.1, 6.4.2 et 6.4.4, pages 119,120 et 122
10.1 Tests de H0 = {b = 0}
1. On reprend les données de mortalité et pollution de l’exercice 9.1.
(a) Compléter le tableau suivant
paramètre estimation écart-type statistique T p-valeur
intercept 917.89 9.64
SO2 0.42 0.12
Tester l’hypothèse qu’il n’y a pas de relation entre la pollution par le SO2 et le taux de
mortalité.
(b) Compléter le tableau d’analyse de la variance
Source somme des carrés degrés de liberté somme des carrés moyens F-ratio p-valeur
Modèle
Résiduelle 186896.0
Totale 228308.0
2. On considère le modèle de la régression simple avec les notations usuelles. Il existe deux tests de
l’hypothèse H0 = {b = 0}, le test de Student § 6.2.5, p 109 et le test de Fisher, § 6.2.6 p 111.
En fait ces deux tests sont strictement équivalents. Le but de cet exercice est de le démontrer.
(a) Soit T une variable aléatoire distribuée selon une loi de student à υ degrés de liberté. En
utilisant les définitions des lois de Student et de Fisher, démontrer que T 2 est distribuée
selon une loi de Fisher à 1 et υ degrés de liberté.
(b) Trouver dans les tables les quantiles t10,0.975 et f1,10,0.95 . Quelle relation y–a-t-il entre ces
deux valeurs ? Pourquoi ?
(c) Démontrer que
2
R2
B
= (n − 2)
SB 1 − R2
(d) Conclure sur l’équivalence entre les deux tests de H0 = {b = 0}.
19
Chapitre 11
Régression (3)
11.2 Pièges
Cet exercice a pour but de mettre en évidence les dangers d’une confiance trop grande dans un modèle
et d’une analyse baclée. On considère les graphiques (x,y) et les graphiques des résidus dans 5 cas.
Dans ces 5 cas, les statistiques standard de la regression (estimation des paramètres, intervalles de
confiance, R2 et tests d’hypothèses) sont exactement identiques. Explicitez en quelques phrases la
situation dans chaque cas. Que doit-on faire pour se protéger contre de fausses interprétations ?
20
21
Chapitre 12
Erratum du livre
– page 47, précision sur comment calculer simplement l’information de Fisher, dans le cas d’une
variable X continue et de la formule avec la dérivée seconde. Soit fθ (x) la densité. On calcule
∂2
g(x) = ∂θ 2 lnfθ (x), alors I(θ) = −E[g(X)]. On a le même type d’écriture avec la formule obtenue
avec la dérivée première de lnfθ . Dans le cas d’une variable discrète, remplacer lnfθ (x) par lnPθ (X =
x).
√
– page 48, ajouter après la septième ligne, ce qui implique que la loi de n(Tnmv − θ) peut-être ap-
prochée, pour n grand, par une loi normale N (0, I −1 (θ)).
– Page 48, paragraphe 3.2.2 après (en général ce système n’est pas linéaire) ajouter la phrase suivante :
Dans le cas particulier où les paramètres du modèle sont la moyenne et la variance, l’estimateur de
µ par la méthode des moments est X et l’estimateur de la variance σ 2 par la méthode des moments
est la variance empirique, n1 Σni=1 (Xi − X)2 .
– Page 53, à la septième ligne du paragraphe 3.3.6, remplacer intervalle de probabilité par intervalle
de confiance.
– Page 61, au § 3.5.4 : remplacer X suit une loi binomiale B(n, p) par X suit une loi binomiale
B(n, π).
√
– Page 70, sept lignes avant la fin, remplacer l = u1−α/2 par l = u1−α/2 ∗ σ/ n.
– Page 73, remplacer la formule de la ligne 4 par
X − µ0
√ < −tn−1;1−α
S/ n
22