Академический Документы
Профессиональный Документы
Культура Документы
Corrigé - Série 3
Régression linéaire simple
70
60
50
40
30
20
10
0
0 100000 200000 300000 400000 500000 600000
Superficie (km2)
1
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
a)
n
P
SXY = (Xi − X)(Yi − Y )
i=1
Pn
= (Xi Yi − Xi Y − Yi X + XY )
i=1
Pn n
P n
P
= Xi Yi − Y Xi − X Yi + nXY
i=1 i=1 i=1
Pn
= Xi Yi − Y (nX) − X(nY ) + nXY
i=1
Pn
= Xi Yi − nX Y
i=1
2
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
b)
n
P
SXY = (Xi − X)(Yi − Y )
i=1
Pn n
P
= (Xi − X)Yi − (Xi − X)Y
i=1 i=1
Pn n
P
= (Xi − X)Yi − Y (Xi − X)
i=1 i=1
Pn
= (Xi − X)Yi − Y (0)
i=1
Pn
= (Xi − X)Yi
i=1
∂S n
P n
P
c) =0 si Yi = n β̂0 + β̂1 Xi
∂β0 i=1 i=1
∂S n n n
Xi2
P P P
=0 si Xi Yi = β̂0 Xi + β̂1
∂β1 i=1 i=1 i=1
n n n n
Xi2 − X
P P P P
Xi Yi − Y Xi = β̂1 ( Xi )
i=1 i=1 i=1 i=1
n n 2
Xi2 − nX )
P P
Xi Yi − nX Y = β̂1 (
i=1 i=1
SXY
On isole β̂1 et on obtient β̂1 =
SXX
n
P
(Xi − X)Yi
SXY i=1
d) En effet, β̂1 = = P n
SXX
(Xi − X)2
i=1
La principale conséquence de cet état de fait est que β̂1 suit une loi normale lorsqu’on
suppose que les Yi suivent une loi normale (autour de la droite).
3
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
a) Selon les quatre graphiques de dispersion, le modèle 4 est clairement celui qui présente
la relation la plus linéaire, avec une variance à peu près constante pour toutes les
valeurs de x.
Modèle 1: Y vs x Modèle 2: Y vs ln(x)
45
45
40
40
Y=Longévité moyenne (années)
35
35
30
30
25
25
20
Y
20
15
15
10
10
5
5
0
0 100 200 300 400 500 600 700 0
ln(x)
x = Durée de gestation (jours)
Modèle 3: ln(Y) vs x Modèle 4: ln(Y) vs ln(x)
4,00 4,00
3,50 3,50
3,00 3,00
2,50 2,50
ln(Y)
ln(Y)
2,00 2,00
1,50 1,50
1,00 1,00
0,50 0,50
0,00 0,00
0 100 200 300 400 500 600 700 2,00 2,50 3,00 3,50 4,00 4,50 5,00 5,50 6,00 6,50 7,00
x ln(x)
b)
Appellation dans Excel Symbole Formule
Coeff. de détermination multiple r coeff. de corrélation échantillonnal
Cov(X, Y ) SXY
=√
SX · SY SXX · SY Y
SSE SSR
Coeff. de détermination R^ 2 R2 1− = = r2
SST SST
2 SSE/(n − 2) M SE
Coeff. de détermination R^ 2 Rajuste 1− =1−
SST /(n − 1) Sy2
4
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
c)
Modèle 1 : Y en fonction de X R2 = 0.3275
Modèle 2 : Y en fonction de ln(X) R2 = 0.3925
Modèle 3 : ln(Y) en fonction de X R2 = 0.3535
Modèle 4 : ln(Y) en fonction de ln(X) R2 = 0.5883
Le modèle 4 est encore privilégié, car c’est celui pour lequel la proportion de variabilité
expliquée par le modèle est la plus grande.
d) σ 2 = M SE = 0.2000
e) moyenne des résidus =−3.47 × 10−16 ≈ 0 et écart-type des résidus = 0.4413.
On aurait pu trouver ces valeurs sans utiliser la liste des résidus, car la moyenne des
écarts est toujours 0, et la variance échantillonnale des résidus correspond à une petite
transformation du M SE, soit
n n
(ε̂i − ε)2 ([yi − ŷi ] − 0)2
P P
i=1 i=1 (n − 2)M SE
s2ε = = =
(n − 1) (n − 1) (n − 1)
Exercice 4 - Jouons avec les Y
a) i) Méthode de Mayer :
Deux points moyens : P1 = (19, 5, 3, 0) et P2 = (44, 17, 8, 3)
Équation de la droite : Ŷ1 = 0, 2162 x − 1, 2329
b) La pente changera de signe, mais aura la même valeur absolue. Pour l’ordonnée s̀
l’origine, les calculs sont nécessaires :
i) Équation de la droite de Mayer : Ŷ2 = −0, 2162 x + 12, 5329
c) Non, les valeurs de Y sont liées aux valeurs de X. On ne peut pas séparer les valeurs
d’un même individu. On ordonne selon X et les Y suivent.
5
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
c) Il y a deux façons de répondre à cette question. Il s’agit d’un test unilatéral sur β1 :
H0 : β1 = 3
H1 : β1 > 3
6
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
exclut les 5% des valeurs les plus improbables de la distribution de β̂1 sous H0 à
l’extrémité droite du spectre. L’intervalle de confiance correspondant devra ”exclure”
5% des valeurs à chaque extrémité du spectre. Il aura donc un niveau de 90%.
5, 058 ± 0, 228
[4, 830 , 5, 286]
f) i) Si on avait choisi une quantité d’antibiotique égale à 0,7, l’intervalle aurait été
plus court car x0 aurait été plus proche de la moyenne.
ii) Si on avait choisi α = 0.01, l’intervalle aurait été plus long, car le quantile t8;0,005
aurait été plus grand.
iii) Si on avait utilisé une taille d’échantillon de 20 unités, l’intervalle aurait été plus
court, car n et SXX seraient plus grands et tn−2;0,025 serait plus petit.
iv) Si on avait construit l’intervalle pour estimer la densité optique moyenne de tous
les tubes ayant reçu une quantité d’antibiotique égale à 0,9, l’intervalle aurait
été plus court, car on aurait choisi la formule de l’intervalle de confiance pour
E(Y |x0 ), qui tient seulement compte de l’erreur d’estimation du point sur la
droite.
7
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin
h)
i) La moyenne des xi et des yi restera exactement la même dans les deux cas.
ii) L’équation de la droite de régression restera inchangée.
On peut voir facilement que Sxx sera deux fois plus petit, car chaque écart est
présent une seule fois dans la somme au lieu de deux.
Sxy sera aussi deux fois plus petit. Pour s’en convaincre, prenons les deux premiers
termes de la somme avant réduction des données :
Ils sont maintenant remplacés par (0.2 − x)(2.95 − y) dans la somme après
réduction des données. Idem pour les huit autres termes de Sxy .
iii) L’estimation de la variance autour de la droite sera considérablement réduite et
par conséquent la marge d’erreur sur les prédictions sera faussement diminuée.
Une bonne partie de la variabilité naturelle dans les observations est occultée par
la mise en commun des Y ayant la même valeur de X.
a) On décide d’exprimer le prix des maisons en milliers de dollars plutôt qu’en dollars.
Posons W = Y /1 000.
Y 1
Cov(X, W ) = Cov X, = Cov(X, Y ) = 374, 225
1 000 1 000
Cov(X, Y )
=p = r(X, Y ) = 0, 77
V ar(X) V ar(Y )
8
Université Laval STT-2902
Faculté des sciences et de génie Automne 2012
Département de mathématiques et de statistique Emmanuelle Reny-Nolin