Serie3 Corrige

Université Laval STT-2902
Faculté des sciences et de génie Automne 2012

Département de mathématiques et de statistique Emmanuelle Reny-Nolin
Corrigé - Série 3
Régression linéaire simple
Exercice 1 - Densité européenne

a)
Population en fonction de la superficie
90
y = 0,0001x + 1,9583
80
Population (millions d'habitants)
70
60
50
40
30
20
10
0
0 100000 200000 300000 400000 500000 600000
Superficie (km2)
On voit qu’il y a probablement une relation linéaire croissante entre la population et

la superficie. Par contre, il est clair que la variance n’est pas constante autour de la
droite (les résidus afficheraient un entonnoir ouvert à droite). On peut donc ajuster un
modèle linéaire avec n’importe quelle méthode d’estimation (calculer l’équation d’une
droite), mais on ne peut pas associer de marge d’erreur aux estimations des moindres
carrés comme on le ferait si tous les postulats étaient respectés.
b) Estimation de la densité moyenne de la population en Europe :
i) en calculant la moyenne des 27 densités :

P27
yi /xi
i=1
= 166, 28 hab/km2
27
Ce calcul donne un poids égal à chaque pays. C’est la moyenne des densités des
pays d’Europe, donc c’est la densité moyenne par pays. Les petits pays, ayant
souvent une grande densité, ont plus de poids dans ce calcul.
ii) en calculant la population totale des 27 pays, et en la divisant par la superficie

totale des 27 pays :
X27 .X27
yi xi = 112, 95 hab/km2
i=1 i=1
Ce calcul donne un poids égal à chaque km2 de territoire. Les grands pays ont
plus de poids dans ce calcul. Cette formule ne tient pas compte des divisions
1
politiques. Si l’Europe était un pays, ce serait sa densité de population. Bien sûr,

cette densité n’est pas homogène.
iii) en estimant la pente de la droite de régression aux moindres carrés :

P27
xi yi − 27x y
i=1
27
= 100, 74 hab/km2
x2i − 27x2
P
i=1
Ce calcul donne une estimation de l’augmentation moyenne de la population
lorsque le territoire augmente d’un km2 . Cette estimation ne correspond pas exac-
tement à la valeur en a), car elle est calculée en minimisant l’erreur de prédiction
de la population à partir d’une superficie connue (les distances verticales par rap-
port à la droite).
Si la droite passait par 0 exactement, ce serait une façon d’envisager la densité

”moyenne” (et on n’en est pas loin, puisque β̂0 = 1, 96). À titre informatif, on
peut forcer la droite de régression à passer par 0 (en minimisant la somme du
carré des erreurs du modèle Yi = β1 xi + εi ), on obtient alors l’estimation suivante
pour la pente :
P27
xi y i
i=1
27
= 106, 84
2
P
xi
i=1
Exercice 2 - Drill, baby, drill ! (Comme disait Sarah Palin)
a)
n
P
SXY = (Xi − X)(Yi − Y )
i=1
Pn
= (Xi Yi − Xi Y − Yi X + XY )
i=1
Pn n
P n
P
= Xi Yi − Y Xi − X Yi + nXY
i=1 i=1 i=1
Pn
= Xi Yi − Y (nX) − X(nY ) + nXY
i=1
Pn
= Xi Yi − nX Y
i=1
2
b)
n
P
SXY = (Xi − X)(Yi − Y )
i=1
Pn n
P
= (Xi − X)Yi − (Xi − X)Y
i=1 i=1
Pn n
P
= (Xi − X)Yi − Y (Xi − X)
i=1 i=1
Pn
= (Xi − X)Yi − Y (0)
i=1
Pn
= (Xi − X)Yi
i=1
∂S n
P n
P
c) =0 si Yi = n β̂0 + β̂1 Xi
∂β0 i=1 i=1
On isole β̂0 et on obtient β̂0 = Y − β̂1 X .
∂S n n n
Xi2
P P P
=0 si Xi Yi = β̂0 Xi + β̂1
∂β1 i=1 i=1 i=1
En remplaçant β̂0 par β̂0 = Y − β̂1 X, on obtient :
n n n n
Xi2 − X
P P P P
Xi Yi − Y Xi = β̂1 ( Xi )
i=1 i=1 i=1 i=1
n n 2
Xi2 − nX )
P P
Xi Yi − nX Y = β̂1 (
i=1 i=1
SXY
On isole β̂1 et on obtient β̂1 =
SXX
n
P
(Xi − X)Yi
SXY i=1
d) En effet, β̂1 = = P n
SXX
(Xi − X)2
i=1
La principale conséquence de cet état de fait est que β̂1 suit une loi normale lorsqu’on
suppose que les Yi suivent une loi normale (autour de la droite).
3
Exercice 3 - Dans le ventre de sa maman...
Modèle 1 : Longévité en fonction de Gestation

Modèle 2 : Longévité en fonction de ln(Gestation)
Modèle 3 : ln(Longévité) en fonction de Gestation
Modèle 4 : ln(Longévité) en fonction de ln(Gestation)
a) Selon les quatre graphiques de dispersion, le modèle 4 est clairement celui qui présente
la relation la plus linéaire, avec une variance à peu près constante pour toutes les
valeurs de x.
Modèle 1: Y vs x Modèle 2: Y vs ln(x)
45
45
40
40
Y=Longévité moyenne (années)
35
35
30
30
25
25
20
Y
20
15
15
10
10
5
5
0
0 100 200 300 400 500 600 700 0
ln(x)
x = Durée de gestation (jours)
Modèle 3: ln(Y) vs x Modèle 4: ln(Y) vs ln(x)
4,00 4,00
3,50 3,50
3,00 3,00
2,50 2,50
ln(Y)
ln(Y)
2,00 2,00
1,50 1,50
1,00 1,00
0,50 0,50
0,00 0,00
0 100 200 300 400 500 600 700 2,00 2,50 3,00 3,50 4,00 4,50 5,00 5,50 6,00 6,50 7,00
x ln(x)
b)
Appellation dans Excel Symbole Formule
Coeff. de détermination multiple r coeff. de corrélation échantillonnal
Cov(X, Y ) SXY
=√
SX · SY SXX · SY Y
SSE SSR
Coeff. de détermination R^ 2 R2 1− = = r2
SST SST
2 SSE/(n − 2) M SE
Coeff. de détermination R^ 2 Rajuste 1− =1−
SST /(n − 1) Sy2
4
c)
Modèle 1 : Y en fonction de X R2 = 0.3275
Modèle 2 : Y en fonction de ln(X) R2 = 0.3925
Modèle 3 : ln(Y) en fonction de X R2 = 0.3535
Modèle 4 : ln(Y) en fonction de ln(X) R2 = 0.5883
Le modèle 4 est encore privilégié, car c’est celui pour lequel la proportion de variabilité
expliquée par le modèle est la plus grande.
d) σ 2 = M SE = 0.2000
e) moyenne des résidus =−3.47 × 10−16 ≈ 0 et écart-type des résidus = 0.4413.
On aurait pu trouver ces valeurs sans utiliser la liste des résidus, car la moyenne des
écarts est toujours 0, et la variance échantillonnale des résidus correspond à une petite
transformation du M SE, soit
n n
(ε̂i − ε)2 ([yi − ŷi ] − 0)2
P P
i=1 i=1 (n − 2)M SE
s2ε = = =
(n − 1) (n − 1) (n − 1)
Exercice 4 - Jouons avec les Y
a) i) Méthode de Mayer :
Deux points moyens : P1 = (19, 5, 3, 0) et P2 = (44, 17, 8, 3)
Équation de la droite : Ŷ1 = 0, 2162 x − 1, 2329
ii) Méthode médiane-médiane :

Trois points médians : P1 = (14, 5, 2, 1), P2 = (32, 5, 1) et P3 = (50, 5, 9, 4)
Moyenne des points médians : (32, 33, 5, 50)
Équation de la droite : Ŷ1 = 0, 2028 x − 1, 0565
b) La pente changera de signe, mais aura la même valeur absolue. Pour l’ordonnée s̀
l’origine, les calculs sont nécessaires :
i) Équation de la droite de Mayer : Ŷ2 = −0, 2162 x + 12, 5329
ii) Équation de la droite médiane-médiane : Ŷ2 = −0, 2028 x + 12, 0565
c) Non, les valeurs de Y sont liées aux valeurs de X. On ne peut pas séparer les valeurs
d’un même individu. On ordonne selon X et les Y suivent.
5
Exercice 5 - Un air de déjà vu...

a) On sait que la droite de régression passe par (x, y) = (0, 6, 4, 15). On donne un autre
point dans la question, soit (0, β̂0 ) = (0, 2, 335). On peut donc évaluer la pente de la
droite :
∆y 4, 15 − 2, 335
β̂1 = = = 3, 025
∆x 0, 6 − 0
L’équation de la droite de régression : Ŷ = β̂0 + β̂1 x = 2, 335 + 3, 025x
b) SXX = (n − 1)s2X = 9 × 0, 0889 = 0, 8001
SY Y = (n − 1)s2Y = 9 × 0, 8206 = 7, 388
M SE = SSE/(n − 2) = 0, 0645/8 = 0, 00806

s s
x2

1 1 0, 62
Erreur-type(β̂0 ) : M SE + = 0, 00806 + = 0, 0666
n SXX 10 0, 8001
r r
M SE 0, 00806
Erreur-type(β̂1 ) : = = 0, 1004
SXX 0, 8001
c) Il y a deux façons de répondre à cette question. Il s’agit d’un test unilatéral sur β1 :
H0 : β1 = 3
H1 : β1 > 3
1) Test d’hypothèse sur la pente :

σ2

On construit une statistique de Student en se basant sur le fait que β̂1 ∼ N β1 , .
SXX
β̂1 − 3 β̂1 − 3
Si H0 est vraie, alors T0 = =p ∼ tn−2 .
err. − type(β̂1 ) M SE/SXX
3.025 − 3
Puisque tobs = = 0.249 n’est pas supérieure à la valeur critique tα;n−2 =
0, 1004
t0.05;8 = 1, 86, on ne rejette pas H0 .
2) Intervalle de confiance sur la pente :

Un intervalle de confiance de niveau 1−α est équivalent à un test bilatéral de seuil α sur
un paramètre, car il a deux bornes. La zone de rejet du test unilatéral (H1 : β1 > 3)
6
exclut les 5% des valeurs les plus improbables de la distribution de β̂1 sous H0 à
l’extrémité droite du spectre. L’intervalle de confiance correspondant devra ”exclure”
5% des valeurs à chaque extrémité du spectre. Il aura donc un niveau de 90%.
β̂1 ± t8;0,05 × err. − type(β̂1 ) = 3, 025 ± 1, 86 × 0, 1004 = [2, 838, 3, 212]

On rejetterait H0 si toutes les valeurs de l’intervalle de confiance étaient supérieures
à 3. C’est donc la borne inférieure qui détermine notre décision. On ne peut donc pas
conclure que la pente de la droite est supérieure à 3 au seuil α = 5%.
SSR SSE SSE 0, 0645
d) R2 = =1− =1− =1− = 0, 9913.
SST SST SY Y 7, 388
e) Intervalle de prédiction pour une observation future :
r
−x)2
ŷ0 ± t8;0,025 M SE 1 + n1 + (xS0XX
r
2
2, 335 + 3, 025(0, 9) ± 2.306 0.00806 1 + 10 1
+ (0,9−0,6)
0,8001
5, 058 ± 0, 228
[4, 830 , 5, 286]
f) i) Si on avait choisi une quantité d’antibiotique égale à 0,7, l’intervalle aurait été
plus court car x0 aurait été plus proche de la moyenne.
ii) Si on avait choisi α = 0.01, l’intervalle aurait été plus long, car le quantile t8;0,005
aurait été plus grand.
iii) Si on avait utilisé une taille d’échantillon de 20 unités, l’intervalle aurait été plus
court, car n et SXX seraient plus grands et tn−2;0,025 serait plus petit.
iv) Si on avait construit l’intervalle pour estimer la densité optique moyenne de tous
les tubes ayant reçu une quantité d’antibiotique égale à 0,9, l’intervalle aurait
été plus court, car on aurait choisi la formule de l’intervalle de confiance pour
E(Y |x0 ), qui tient seulement compte de l’erreur d’estimation du point sur la
droite.
g) i) Ce tube a reçu x − 1, 5sX = 0, 6 − 1, 5(0, 298) = 0, 153 unité d’antibiotique.

ii) densité optique prédite = 2,797
iii) Cette valeur se situe à 1,493 écart-type de la densité optique moyenne
iv) 1, 5 × r = 1, 493 → r = 0, 995. On peut vérifier qu’il s’agit de la racine carrée
positive de R2 .
7
h)
i) La moyenne des xi et des yi restera exactement la même dans les deux cas.
ii) L’équation de la droite de régression restera inchangée.
On peut voir facilement que Sxx sera deux fois plus petit, car chaque écart est
présent une seule fois dans la somme au lieu de deux.
Sxy sera aussi deux fois plus petit. Pour s’en convaincre, prenons les deux premiers
termes de la somme avant réduction des données :
(0.2 − x)(2.9 − y) + (0.2 − x)(3.0 − y) = (0.2 − x)(2.9 + 3.0 − 2y)
Ils sont maintenant remplacés par (0.2 − x)(2.95 − y) dans la somme après
réduction des données. Idem pour les huit autres termes de Sxy .
iii) L’estimation de la variance autour de la droite sera considérablement réduite et
par conséquent la marge d’erreur sur les prédictions sera faussement diminuée.
Une bonne partie de la variabilité naturelle dans les observations est occultée par
la mise en commun des Y ayant la même valeur de X.
Exercice 6 - Ma cabane au Canada
Cov(X, Y ) = 374 225

r(X, Y ) = 0, 77
a) On décide d’exprimer le prix des maisons en milliers de dollars plutôt qu’en dollars.
Posons W = Y /1 000.

Y 1
Cov(X, W ) = Cov X, = Cov(X, Y ) = 374, 225
1 000 1 000
Cov(X, W ) Cov(X, Y /1 000) 1/1 000 Cov(X, Y )

r(X, W ) = p =p =p
V ar(X) V ar(W ) V ar(X) V ar(Y /1 000) V ar(X) (1/1 000)2 V ar(Y )
Cov(X, Y )
=p = r(X, Y ) = 0, 77
V ar(X) V ar(Y )
b) On veut maintenant exprimer le temps en nombre d’années écoulées depuis 1980.

Posons T = X − 1980.
8
Cov(T, Y ) = Cov (X − 1980, Y ) = Cov(X, Y ) = 374 225
Cov(X − 1980, Y ) Cov(X, Y )

r(T, Y ) = p =p = r(X, Y ) = 0, 77
V ar(X − 1980) V ar(Y ) V ar(X) V ar(Y )

Serie3 Corrige

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Serie3 Corrige

Загружено:

Авторское право:

Доступные форматы

Université Laval STT-2902

Faculté des sciences et de génie Automne 2012

Exercice 1 - Densité européenne

On voit qu’il y a probablement une relation linéaire croissante entre la population et

i) en calculant la moyenne des 27 densités :

ii) en calculant la population totale des 27 pays, et en la divisant par la superficie

politiques. Si l’Europe était un pays, ce serait sa densité de population. Bien sûr,

iii) en estimant la pente de la droite de régression aux moindres carrés :

Si la droite passait par 0 exactement, ce serait une façon d’envisager la densité

Exercice 2 - Drill, baby, drill ! (Comme disait Sarah Palin)

On isole β̂0 et on obtient β̂0 = Y − β̂1 X .

En remplaçant β̂0 par β̂0 = Y − β̂1 X, on obtient :

Exercice 3 - Dans le ventre de sa maman...

Modèle 1 : Longévité en fonction de Gestation

ii) Méthode médiane-médiane :

ii) Équation de la droite médiane-médiane : Ŷ2 = −0, 2028 x + 12, 0565

Exercice 5 - Un air de déjà vu...

b) SXX = (n − 1)s2X = 9 × 0, 0889 = 0, 8001

SY Y = (n − 1)s2Y = 9 × 0, 8206 = 7, 388

M SE = SSE/(n − 2) = 0, 0645/8 = 0, 00806

1) Test d’hypothèse sur la pente :

2) Intervalle de confiance sur la pente :

β̂1 ± t8;0,05 × err. − type(β̂1 ) = 3, 025 ± 1, 86 × 0, 1004 = [2, 838, 3, 212]

g) i) Ce tube a reçu x − 1, 5sX = 0, 6 − 1, 5(0, 298) = 0, 153 unité d’antibiotique.

(0.2 − x)(2.9 − y) + (0.2 − x)(3.0 − y) = (0.2 − x)(2.9 + 3.0 − 2y)

Exercice 6 - Ma cabane au Canada

Cov(X, Y ) = 374 225

Cov(X, W ) Cov(X, Y /1 000) 1/1 000 Cov(X, Y )

b) On veut maintenant exprimer le temps en nombre d’années écoulées depuis 1980.

Cov(T, Y ) = Cov (X − 1980, Y ) = Cov(X, Y ) = 374 225

Cov(X − 1980, Y ) Cov(X, Y )

Вам также может понравиться