Notes Uqam Regsimple

ECO 4272 : Introduction a` leconometrie
Notes sur le modèle de regression simple

Steve Ambler
Departement des sciences e conomiques
Ecole
des sciences de la gestion
Universite du Quebec a` Montreal
c
2014
: Steve Ambler
Automne 2014
Ces notes sont en cours de developpement. Jai besoin de vos commentaires et de vos suggestions pour
les ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message a`
ambler.steven@uqam.ca.
Table des matières

1
Introduction
Objectifs du cours
Le modèle de regression simple
Estimateur moindres carres ordinaires (MCO)

4.1 Proprietes algebriques cles de lestimateur MCO . . . . . . . . . . . . . . . . .
4.1.1 La somme des residus est zero . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 La valeur moyenne de la variable dependante predite est e gale a` la moyenne
e chantillonnale de la variable dependante . . . . . . . . . . . . . . . . .
4.1.3 Orthogonalite entre la variable explicative et les residus . . . . . . . . . .
4.2 La notion de lajustement statistique (R2 ) . . . . . . . . . . . . . . . . . . . . .
4.3 Lecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Hypothèses statistiques de base du modèle

5.1 Esperance conditionnelle nulle de lerreur . . .
5.2 Observations i.i.d. . . . . . . . . . . . . . . . .
5.3 Les observations aberrantes sont peu probables
5.4 Notre approche . . . . . . . . . . . . . . . . .
Proprietes statistiques de lestimateur
6.1 Absence de biais de lestimateur .
6.1.1 1 . . . . . . . . . . . . .
6.1.2 0 . . . . . . . . . . . . .
6.2 Convergence de lestimateur . . .
6.3 Efficience de lestimateur . . . . .
6.3.1 Theorème Gauss-Markov .
6.4 Erreur quadratique moyenne . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
. 9
. 10
.
.
.
.
10
11
12
17
.
.
.
.
17
18
18
18
19
.
.
.
.
.
.
.
20
20
20
22
23
23
24
28
Proprietes e chantillonnales de lestimateur

34
2
7.1 Estimateur convergent de . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1
7.2 Estimateur convergent de 2 en cas dhomoscedasticite . . . . . . . . . . . . . . . 38
1
7.3 Detecter lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Tests dhypothèse
8.1 Approche general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.2 Hypothèse alternative bilaterale . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3 Hypothèse alternative unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . . .
Intervalles de confiance pour les coefficients

43
9.1 Intervalles de confiance pour les predictions . . . . . . . . . . . . . . . . . . . . . 44
10 Un exemple destimation du modèle de regression simple avec R

2
41
41
42
42
45
11 Le modèle de regression simple lorsque X est une variable dichotomique
51
12 Concepts a` retenir
56
13 References
56
Introduction
Objectifs du cours
Presenter le modèle de regression simple.
Deriver lestimateur moindres carres ordinaires (MCO).
Etudier
les proprietes algebriques de cet estimateur.
Etudier
la mesure habituelle de lajustement statistique, le R2 .
Regarder les hypothèses statistiques derrière le modèle et analyser leurs consequences pour
lestimateur MCO (absence de biais, convergence, efficience).
Montrer labsence de biais de lestimateur MCO.
Deriver les proprietes e chantillonnales de lestimateur MCO et montrer sa convergence.
Distinguer entre les cas derreurs heteroscedastiques et erreurs homoscedastiques.
Montrer, sous les hypothèses dhomoscedasticite et normalite, lefficience de lestimateur
MCO (theorème Gauss-Markov).
Analyser les tests dhypothèse concernant les paramètres estimes du modèle.
Analyser le calcul dintervalles de confiance pour les paramètres estimes dans le cadre du
modèle.
Le modèle de regression simple

Le modèle de base peut secrire
Yi = 0 + 1 Xi + ui .
Lidee de base est quune variable e conomique Yi peut e tre predite ou explique par une autre variable e conomique Xi . La relation entre les deux variables est lineaire. Sans le terme ui , lequation
est lequation dune droite. Si on mesure Yi sur laxe vertical, 0 est lordonnee a` lorigine et 1 est
la pente de la droite. On peut penser au paramètre 0 comme e tant associe a` une deuxième variable
explicative qui est une constante quon normalise pour e tre e gale a` un. Autrement dit, on aurait pu
e crire le modèle comme
Yi = 0 1 + 1 Xi + ui .
Le modèle de regression simple contient une constante par defaut. Il est possible aussi detudier le
modèle suivant :
Yi = Xi + ui .
Ce modèle, sans constante, a des proprietes statistiques assez differentes. Pour ceux qui sinteressent
a` poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).
On appelle communement Yi la variable dependante du modèle de regression, et on appelle
Xi la variable explicative du modèle de regression.
Estimateur moindres carres ordinaires (MCO)

Nous considerons le problème de predire la valeur de la variable dependante Yi , e tant
donnee la valeur de Xi .
Lerreur de prevision peut secrire Yi 0 1 Xi .
Le problème a` resoudre est celui de choisir les valeurs de 0 et de 1 afin de minimiser la
somme des erreurs de prevision au carre :
Notez que le critère de minimiser la somme des erreurs au carre nest pas le seul critère
possible. Par exemple, on pourrait decider de minimiser la somme des erreurs en valeur
absolue.
Il y a deux raisons fondamentales pour la popularite et limportance de lestimateur MCO
dans lhistoire de la statistique et de leconometrie.
1. Dabord, lalgèbre est relativement simple. Le critère est une expression quadratique
(du deuxième degre), et donc les conditions du premier ordre donnent un système
dequations lineaires. Il est très facile de resoudre un système de deux e quations lineaires.
2. Deuxièment, sous certaines conditions (à voir plus tard), lestimateur MCO des coefficients 0 et 1 est lestimateur avec la plus petite variance parmi tous les estimateurs
lineaires et non biaises autrement dit, il est lestimateur le plus efficient parmi les
estimateur lineaires non biaises.
Le problème de minimisation peut secrire comme suit.
min
0 ,1
n
X
(Yi 0 1 Xi )2 .
i=1
Les conditions du premier ordre (CPOs) pour ce problème sont comme suit. Dabord par
rapport au choix de 0 :
2
n

X
Yi 0 1 Xi = 0.
i=1
Ensuite, par rapport au choix de 1 :
n
X

Yi 0 1 Xi Xi = 0,
i=1
où jai e crit un chapeau sur 0 et 1 pour souligner le fait quil sagit de nos estimateurs
MCO, cest a` dire les solutions au problème de minimisation. 1
Il sagit de deux e quations où les deux inconnus sont 0 et 1 .
Il est facile disoler 0 en fonction de 1 et par la suite de trouver la solution pour 1 .
Nous avons a` partir de la première CPO :
n
X
Yi 0 1 Xi = 0
i=1
n
X
0 = n 0 =
i=1
n
X
Yi 1 Xi
i=1
1. En principe, il faudrait verifier les conditions du deuxième ordre pour savoir que nous avons trouve un minimum
et non un maximum. Nous nallons pas faire cet exercice ici.
0 =
1X
1X
Yi 1
Xi
n i=1
n i=1
0 = Y 1 X.
Nous venons de trouver la solution pour 0 en fonction des moyennes e chantillonnales X

et Y et de la solution pour 1 .
Maintenant, substituant cette solution dans la deuxième CPO, nous avons :
n
X

1 Xi Xi = 0.
Yi Y + 1 X
i=1
Multipliant des deux cotes de lequation par

n
1
n
et rearrangeant, nous obtenons
1X
1X
1X
1X
1 (Xi )2 +
1 XXi = 0
Yi Xi
Y Xi
n i=1
n i=1
n i=1
n i=1
n
1X
1X
Yi Xi Y
Xi
n i=1
n i=1
1
n
n
1X
1X
2
(Xi ) X
Xi
n i=1
n i=1
!
=0
1X
Yi Xi Y X
n i=1
n
1X
X
(Xi )2 X
n i=1
1 =
1 =
1
n
1
n
1
n
Pn
!
=0
Yi Xi X Y
Pi=1
n
2
2
i=1 (Xi ) X
Pn
i=1 Yi Y
Pn
1
i=1 Xi
n
Xi X
.

2
X
Cette solution depend des identites

n
X

1X
Y = 1
Yi Xi X
Yi Y Xi X
n i=1
n i=1
7
et
n
X

1X
2 = 1
2.
(Xi )2 X
Xi X
n i=1
n i=1
Ceci est facile a` montrer. Nous avons
n

1X
Yi Y Xi X
n i=1
n

1X
Xi Y + X
Y
Yi Xi Yi X
n i=1
n
1X
1X 1X
1X
Yi Xi
Yi X
Xi Y +
XY
n i=1
n i=1
n i=1
n i=1
n
X
1X
1X
n
1
Y
=
Yi X i X
Yi Y
Xi + X
n i=1
n i=1
n i=1
n
n
1X
Y Y X
+X
Y
=
Yi Xi X
n i=1
n
1X
Y .
Yi Xi X
=
n i=1
La preuve pour le denominateur est semblable.
Cest une première facon dexprimer la solution. Multipliant numerateur et denominateur
par n nous avons aussi
1 =
Pn
Yi Y
i=1
Xi X
.

2
Xi X
Pn
i=1
Cest une deuxième facon dexprimer la solution. Maintenant, divisant numerateur et denominateur
par (n 1) nous avons aussi
1 =
1
(n1)
Pn
i=1
1
(n1)
Yi Y
Pn
i=1
Xi X
.

2
Xi X
Donc, nous avons trois expressions e quivalentes pour la solution pour 1 .

Comme aide-memoire, la dernière expression est peut-etre la plus utile. Elle dit que les8
timateur MCO de 1 est le ratio entre la covariance e chantillonnale entre X et Y et la

variance e chantillonnale de X (voir le chapitre sur la theorie des probabilites pour les
definitions de covariance e chantillonnale et variance e chantillonnale).
Pour repeter ceci en notation algebrique :
Cov (X , Y )
1 =
.
Var (X)
Je crois quil nest pas trop difficile de se souvenir de cette facon decrire la solution pour
et
1 , et de se souvenir de la solution pour 0 en termes des moyennes e chantillonnales X
Y et 1 .
4.1
Proprietes algebriques cles de lestimateur MCO
Lestimateur MCO possède quelques proprietes de base que nous allons demontrer dans
cette section.
Nous allons par la suite nous servir de ces proprietes a` maintes reprises par la suite pour
trouver dautres proprietes de lestimateur MCO.
Jappelle ces proprietes les proprietes algebriques puisquelles ne dependent pas dhypothèses concernant les proprietes statistiques des variables aleatoires Y , X ou u.
Autrement dit, pour nimporte quelles series de donnees sur deux variables X et Y , ces
proprietes doivent tenir. On na meme pas besoin de supposer que X et Y sont des variables
aleatoires en bonne et due forme.
Plusieurs de ces proprietes dependent du fait que le modèle de regression inclut une constante.
Pour le cas de modèles qui nincluent pas une constante, voir larticle de Windmeijer
(1994), ou encore celui dEisenhauer (2003).
4.1.1
La somme des residus est zero
Definissons
ui Yi 0 1 Xi ,
le residu de la regression pour lobservation i.
Nous voulons montrer que :
n
1X
ui = 0.
n i=1
Voici la preuve.
n

1X
1 X
Y i Y + 1 X 1 Xi
ui =
n i=1
n i=1
n
4.1.2

1X
1X
= 0.
Yi Y 1
Xi X
n i=1
n i=1
La valeur moyenne de la variable dependante predite est e gale a` la moyenne e chantillonnale

de la variable dependante
Definissons
Yi 0 + 1 Xi ,
la valeur predite de Yi .
n
1X
Yi = Y .
n i=1
Voici la preuve :
Yi Yi ui
n
1X
1X
1X
1X
Yi =
Yi
ui =
Yi Y .
n i=1
n i=1
n i=1
n i=1
10
4.1.3
Orthogonalite entre la variable explicative et les residus

n
X
Xi ui = 0.
i=1
Ceci est la definition de lorthogonalite entre deux variables.

Puisque nous allons utiliser lalgèbre lineaire dans le chapitre sur le modèle de regression
multiple, cest peut-etre opportun dintroduire ici le concept dorthogonalite entre deux
vecteurs. Nous pouvons ree crire cette e quation en notation vectorielle comme
n
X
u1
u2
X 0 U = 0.
..
.
un
. . . Xn

Xi ui =
X1 X2
i=1
Donc cest la definition habituelle dorthogonalite entre deux vecteurs en algèbre lineaire.
Nous verrons plus loin quil y a aussi une interpretation geometrique.
Voici la preuve :
n
X
Xi ui =
n
X
i=1
Xi ui X
i=1
n
X
n
X
ui
i=1

ui
Xi X
i=1
n
X
Xi X

1 Xi
Yi Y + 1 X
i=1
n
X
Xi X

Y i Y 1 Xi X
i=1
n
X
Xi X
n
X

2
Yi Y 1
Xi X
i=1
i=1
n
X
Xi X
i=1
11
Yi Y
Pn
i=1
Pn
i=1
n
X
n

Yi Y X
2
Xi X
2
Xi X
Xi X
Xi X
i=1
n
X

Yi Y
Yi Y
Xi X
i=1
i=1
= 0.
Lorthogonalite est reliee a` linterpretation geometrique de la methode des MCO. Estimer
un modèle par MCO revient a` projeter la variable dependante dans lespace traverse par la
variable explicative (ou les variables explicatives dans le cas de la regression multiple).
Le principe est illustre par la Figure 1 ci-dessous. Nous constatons sur le graphique que si
nous prenons la ligne de regression comme un vecteur, la ligne pointillee sur le graphique
est un vecteur dont la longueur e gale la valeur de ui a` ce point. Il forme un angle droit par
rapport a` la ligne de regression, doù le terme orthogonal .
Pour ceux qui veulent aller plus loin, tout ce quon pourrait vouloir savoir concernant linterpretation geometrique de la regression simple se trouve dans larticle de Davidson et
MacKinnon (1999).
Figure 1
4.2
La notion de lajustement statistique (R2 )
Definissons :
TSS
n
X
i=1
12
Yi Y
2
la somme totale des carres ( total sum of squares en anglais) ;
SSR
n
X
Yi Yi
2
i=1
la somme des residus au carre ( residual sum of squares en anglais) ;
ESS
n
X
Yi Y
2
i=1
la somme expliquee des carres ( explained sum of squares en anglais).

Nous pouvons montrer que :
TSS = ESS + SSR.
Voici la preuve :
TSS =
n
X
Yi Y
2
i=1
n
X

2
Yi Yi + Yi Y
i=1
n
X
Yi Yi
2
n
X
2
i=1
i=1
+2
Yi Y
n
X
Yi Yi

Yi Y
i=1
= SSR + ESS + 2
n
X

ui Yi Y
i=1
= SSR + ESS + 2
n
X
ui Yi 2Y
i=1
n
X
ui
i=1
= SSR + ESS + 2
n
X
ui Yi
i=1
= SSR + ESS + 2
n
X
i=1
13

ui 0 + 1 Xi
= SSR + ESS + 20
n
X
ui + 21
i=1
n
X
ui Xi
i=1
= SSR + ESS.
Notez que nous avons invoque a` quelques reprises les proprietes algebriques de lestimateur
MCO que nous avons dejà demontrees.
Maintenant, definissons
R2
ESS
.
TSS
Puisque TSS, ESS et SSR sont la somme de termes au carre (et pour cette raison sont des
termes positifs sinon strictement positifs), il faut que :
0 R2 1.
Il faut aussi que

R2 = 1
SSR
.
TSS
Lajustement statistique sappelle aussi le coefficient de determination de la regression.

Lajustement statistique est defini independamment des proprietes statistiques du modèle
de regression. Il a linterpretation du pourcentage de la variation de la variable dependante
Y autour de sa moyenne qui peut e tre explique par les variations de la variable explicative
X.
Pour le modèle de regression simple, il y a une relation algebrique exacte entre le R2 et le
coefficient de correlation entre les variables X et Y . La relation est
R2 = Corr (X, Y ) .
Je montre ce resultat dans lencadre qui suit.

La lecture de lencadre est facultative, mais je vous encourage a` retenir le resultat (egalite
entre la mesure R2 et le coefficient de correlation entre X et Y au carre).
14
Je demontre ici que lajustement statistique (dans le modèle de regression simple) doit e tre e gal
au carre du coefficient de correlation entre X et Y . Nous avons
2
Pn
i=1 Yi Y
R2 Pn

2
i=1 Yi Y
Nous avons aussi (en multipliant le numerateur et le denominateur dans la definition de la
correlation e chantillonnale par (n 1))
Corr (X , Y )
2
2

Yi Y
i=1 Xi X
q
2 Pn
2
Xi X
i=1 Yi Y
Pn
q
Pn
i=1

Yi Y 2
Xi X

2 Pn Yi Y 2
Xi X
Pn
= Pn
i=1
i=1
i=1
Donc, il faut montrer que

2
Pn

Pn
Y
Yi Y 2
i
i=1
i=1 Xi X
= Pn

Pn
2
2 Pn Yi Y 2
Y
Y
i
i=1
i=1 Xi X
i=1
n
X
Yi Y
n
2 X
i=1
Xi X
2
i=1
n
X
Xi X
Yi Y
i=1
Travaillant avec le bras gauche de cette e quation, nous avons

n
X
i=1
n
X
Yi Y
n
2 X
Xi X
i=1
0 + 1 Xi Y
n
2 X
i=1
n
X
2
Xi X
2
i=1
+ 1 Xi Y
Y 1 X
i=1
n
2 X
i=1
15
Xi X
2
!2
n
X
1 Xi 1 X
n
2 X
i=1
= 12
i=1
n
X
Xi X
Pn
i=1
2
i=1
Xi X
n
2 X
i=1
Pn
Xi X
2
i=1
Yi Y

2
Xi X
n
X
Xi X
!2
n
X
!2
Xi X
2
i=1
!2
Xi X
Yi Y
i=1
ce qui fut a` demontrer.

Donc, meme si nous sommes en train de discuter des proprietes algebriques du modèle
de regression simple, et meme si la notion du R2 est definie independamment des proprietes
statistiques des variables X et Y , nous voyons que le R2 est relie au concept statistique de
correlation. Il existe des tests dhypothèse de la significativite de correlations entre variables
aleatoires (que nous nallons pas explorer dans ce cours).
Tel quindique plus tot, lajustement statistique R2 est defini independamment des hypothèses statistiques derrière le modèle.
Nous venons de voir (dans lencadre precedant) quil y a un lien stricte dans le modèle
de regression simple entre le R2 et le coefficient de correlation entre la variable
dependante Y et la variable explicative X.
Le R2 a aussi une autre interpretation statistique. On peut lutiliser pour tester lhypothèse nulle de labsence de relation entre la variable explicative (les variables explicatives a` part la constante dans le modèle de regression multiple). Voir Giles (2013b,
2013c). Selon Giles, le R2 suit, sous lhypothèse nulle (et sous lhypothèse de lhomoscedasticite), une distribution Beta.
Nous allons voir dans le chapitre sur la regression multiple quon peut construire une
16
autre statistique pour tester la meme hypothèse qui suit une distribution F de Fisher.
4.3
Lecart type de la regression
Definissons :
n
s2u
X
1
SSR
=
(
ui )2 =
.
(n 2) i=1
(n 2)
Dans le cas où nous supposons une variance constante du terme derreur du modèle (voir la
section suivante concernant les hypothèses statistiques du modèle), cest un estimateur non
biaise de la variance du terme derreur.
Il sagit du cas où les erreurs sont homoscedastiques, où donc Var (ui ) = u2 , une variance
constante.
Notez que cette hypothèse (variance constante des erreurs) ne fera pas partie des hypothèses
statistiques de base que nous adopterons.
Nous divison par (n 2) afint dobtenir un estimateur non biaise.
Il y a une autre raison pour la division par (n 2). On perd deux degres de liberte car il faut
estimer deux paramètres inconnus (0 et 1 ) afin de calculer les residus de la regression.
Maintenant, definissons :
q
su s2u .
su est lecart type de la regression.
Lecart type de la regression est un des resultats destimation que fournissent automatiquement la plupart des logiciels e conometriques.
Hypothèses statistiques de base du modèle

` partir de ce point, nous e laborons quelques proprietes statistiques de lestimateur MCO.
A
Elles dependront de certaines hypothèses statistiques de base, que voici.
17
Ces hypothèses seront cruciales pour montrer les proprietes dabsence de biais et de convergence.
Nous en aurons besoin aussi (avec une hypothèse additionnelle) pour montrer lefficience
de lestimateur MCO.
5.1
Esperance conditionnelle nulle de lerreur
Nous supposons que :

E (ui |X = Xi ) = 0.
Intuitivement, lhypothèse nous dit que le fait de connatre la valeur realisee de la variable
explicative ne donne pas dinformation concernant la valeur de lerreur.
5.2
Observations i.i.d.

(Xi , Yi ) , i = 1, 2, . . . , n i.i.d.
Nous avons dejà vu le concept dobservations i.i.d. dans le chapitre sur la statistique.
On suppose que nos observations sont independantes et quelles sont identiquement distribuees.
Notez que nous ne faisons pas une hypothèse concernant le type de distribution qui genère
les observations (normale, exponentielle, paretienne stable, etc.). Tout ce quon suppose
cest que les observations sont toujours generees par la meme distribution.
5.3
Les observations aberrantes sont peu probables

0 < E X 4 < ;

0 < E Y 4 < ;
18
Cette hypothèse sert a` nous rappeler que lestimateur MCO peut e tre sensible aux observations aberrantes.
Il est toujours bon dexaminer les residus afin de detecter la presence de ces observations,
qui pourraient indiquer des problèmes comme des erreurs de transcription des valeurs dans
les donnees, etc.
Il est important de noter quen presence dobservations aberrantes importantes, la valeur de
1 peut e tre très sensible a` cette ou a` ces valeurs, meme si elles sont peu nombreuses. Intuitement, meme un nombre très faible de ces observations aberrantes peut avoir une influence
preponderantes sur les valeurs estimees des paramètres. Dans un tel cas, les estimateurs
MCO ne seront pas convergents puisquils dependent dun petit nombre dobservations.
5.4
Notre approche
Par rapport a` lapproche dans certains manuels de base en e conometrie, nous adoptons une
approche plus generale.
1. Souvent, la première fois quon presente le modèle de regression simple, on suppose que
les observations sur la variable explicative X sont constantes a` travers des e chantillons
differents. Pour deriver les proprietes statistiques de notre estimateur MCO, on peut traiter
les observations comme des constantes au lieu de les traiter comme des realisations dune
variable aleatoire. Lalgèbre est plus facile, mais cest beaucoup moins realiste.
2. Souvent, lorsquon presente le modèle de base, on suppose aussi que la variance conditionnelle du terme derreur est e gale a` sa variance non conditionnelle et quelle est constante.
Autrement dit,
Var (ui |X = Xi ) = Var (ui ) = u2 .
Lavantage de ces hypothèses simplificatrices est de simplifier lalgèbre. On arrive a` une
expression plus simple pour la variance e chantillonnale de nos estimateurs MCO. Malheureusement, ce sont des hypothèses qui tiennent rarement dans les donnees utilisees par
19
les e conomètres appliques. Cette hypothèse nest pas retenue ici, ce qui va mener a` une
expression plus compliquee mais plus generale pour la variance e chantillonnale de nos estimateurs.
3. Souvent, lorsquon presente le modèle de base, on suppose que le terme derreur est distribue selon une loi normale. Ceci permet de faire de linference exacte (voir le chapitre sur
les tests dhypothèse pour une definition). Cette hypothèse nest pas retenue ici.
4. Au lieu de supposer la normalite, nous allons faire lhypothèse que les e chantillons de
donnees que nous avons a` notre disposition sont assez grandes pour que les statistiques
utilisees pour faire des tests dhypothèse soient approximatiement distribuees selon une loi
normale.
Proprietes statistiques de lestimateur
6.1
6.1.1
Absence de biais de lestimateur

1
Nous avons :
1 =
Pn
i=1
Xi X
Pn
i=1
Pn
i=1
Xi X
Yi Y

2
Xi X
u
0 + 1 Xi + ui 0 1 X

Pn
2
i=1 Xi X

2 + Pn Xi X
(ui u)
X
X
i
i=1
i=1

Pn
2
X
X
i
i=1

Pn
)
i=1 Xi X (ui u
= 1 +
2
Pn
Xi X
Pn
i=1
Pn
= 1 + Pi=1
n
i=1

ui
Xi X
.
2
Xi X
Ceci montre que lestimateur est e gal a` sa vraie valeur plus un terme qui depend du produit
20
des erreurs avec les e carts des Xi par rapport a` leurs moyennes e chantillonnales.
Notez ce que lon fait pour passer de la première ligne a` la deuxième. On substitut Yi
utilisant sa valeur si le modèle de regression est literalement vrai. Cela fait apparatre les
vraies valeurs de 0 et de 1 , et fait apparatre aussi lerreur (la vraie et non le residu). On
fera souvent une substitution semblable lorsquon veut analyser les proprietes statistiques
dun estimateur.
Maintenant, il sagit de calculer la valeur esperee de cette expression :
Pn

E 1 = 1 + E
i=1
Pn
i=1
Pn
= 1 + E E
i=1
Pn
i=1
!
ui
Xi X

2
Xi X
!
!
ui
Xi X
|X1 , X2 , . . . Xn

2
Xi X
!
X
E
(u
|X
,
X
,
.
.
.
X
)
i
i
1
2
n
i=1
= 1 + E
2
Pn
i=1 Xi X
!

Pn
X
E
(u
|X
)
i
i
i
i=1
= 1 + E
2
Pn
Xi X
Pn
i=1
= 1 .
Pour passer de la première ligne a` la deuxième dans cette suite degalites, nous avons utilise
la loi des esperances iterees, qui dit que pour nimporte quelle variable aleatoire Y ,
E (E (Yi |Xi )) = E (Yi ) .
Nous lavons tout simplement applique a` la variable aleatoire qui est

Pn
i=1
Pn
i=1

ui
Xi X
.
2
Xi X
Pour passer de la deuxième a` la troisième ligne, il faut noter que les esperances des X conditionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme
21
des constantes et les e crire du cote gauche de loperateur desperance conditionnelle. Ce

faisant, loperateur desperance conditionnelle sapplique uniquement au terme derreur ui .
La dernière e galite suit directement de nos hypothèses de base concernant le modèle, dont
une stipule que E (ui |Xi ) = 0.
6.1.2
Nous avons :

E 0 = E Y 1 X
n
X
+1
ui 1 X
= E 0 + 1 X
n i=1
n

X
+1
= 0 + E 1 1 X
E (ui )
n i=1
n
1X
= 0 +
E (E (ui |Xi ))
n i=1
= 0 ,
où encore une fois nous avons utilise la loi des esperances iterees :
E (ui ) = E (E (ui |Xi )) .
Ici, jai suivi la reponse a` la question 4.7 du manuel. Il nest pas forcement e vident que

= 0,
E 1 1 X
doit e tre considere comme une variable aleatoire. Il faut remonter a` labsence
puisque X
de biais de 1 , où on a montre que
Pn
1 1 = Pi=1
n
i=1
22

ui
Xi X
.
2
Xi X
Donc, on a

Pn
= E
E 1 1 X
i=1
Pn
i=1
= E X
!
ui
Xi X
X

2
Xi X
!!
X
E
(u
|X
)
i
i
i
i=1
2
Pn
Xi X
Pn
i=1
= 0.
Encore une fois, nous avons utilise la loi des esperances iterees.
6.2
Convergence de lestimateur
Nous allons remettre ce sujet a` un peu plus tard. En calculant les proprietes e chantillonnales
de lestimateur, nous allons montrer que sa variance decrot avec la taille de lechantillon
n.
Si cest le cas, nous avons a` toutes fins pratiques montre sa convergence. Nous avons montre
labsence de biais, et la variance converge a` zero lorsque n tend vers linfini.
6.3
Efficience de lestimateur
Pour montrer lefficience de lestimateur MCO, nous aurons besoin dune hypothèse additionnelle, que le terme derreur du modèle de regression est homoscedastique, ce qui veut
dire a une variance constante.
Si ce nest pas le cas, et si nous connaissons de quoi depend la variance du terme derreur, il
peut e tre possible de trouver un estimateur plus efficient que lestimateur MCO. Il sagit de
lestimateur moindres carres generalises (generalised least squares ou GLS en anglais),
que nous naurons pas loccasion detudier en detail dans ce cours. Voir le chapitre 15 du
manuel.
Une preuve detaillee du theorème Gauss-Markov se trouve dans lecadre qui suit. Nous
naurons probablement pas le temps de voir cette preuve en detail dans le cours. Je vous
invite fortement a` la lire et a` la comprendre.
23
6.3.1
Theorème Gauss-Markov
Il sagit dune preuve que lestimateur 1 est lestimateur le plus efficient parmi les
estimateurs qui sont lineaires en Yi .
Rappelons dabord les hypothèses qui doivent tenir pour demontrer le theorème GaussMarkov.
1. E (ui |X1 , . . . , Xn ) = 0 .
2. Var (ui |X1 , . . . , Xn ) = u2 ,
0 < u2 < .
3. E (ui uj |X1 , . . . , Xn ) = 0,
i 6= j.
La dernière hypothèse dit que les erreurs ne sont pas correlees entre elles.
Dabord, montrons que 1 est un estimateur lineaire en Yi . Nous avons
1 =
Pn
i=1
Yi Y
Pn
i=1
Pn
=
i=1
Xi X
2
Xi X

Y Pn Xi X
Yi X i X
i=1

Pn
2
i=1 Xi X

Pn
Y
X
X
i
i
= Pi=1

n
2
X
X
i
i=1

n
X
Xi X
=
Yi
Pn
2
Xi X
i=1
i=1
n
X
a
i Yi ,
i=1
où donc
a
i Pn
Xi X
i=1
Xi X
2
Les poids a
i ne dependent pas des Yi , et donc lestimateur est lineaire en Yi .
Nous avons vu que sous lhypothèse de lhomoscedasticite, la variance conditionnelle
24
de 1 est donnee par

u2

Var 1 |X1 , . . . , Xn = Pn
i=1
Xi X
2 .
Nous avons aussi montre que lestimateur 1 est conditionnellement non biaise.
Maintenant, considerons nimporte quel estimateur lineaire
1 =
n
X
ai Y i
i=1
et qui satisfait la propriete

E 1 |X1 , . . . , Xn = 1 .

Nous avons
1 =
n
X
ai Y i
i=1
n
X
ai (0 + 1 Xi + ui )
i=1
= 0
n
X
ai + 1
i=1
n
X
ai X i +
i=1
n
X
ai u i .
i=1
Nous avons aussi
n
X
!
ai ui |X1 , . . . , Xn
i=1
n
X
ai E (ui |X1 , . . . , Xn ) = 0.
i=1
De cette facon, nous avons

E 1 |X1 , . . . , Xn = 0
n
X
i=1
25
!
ai
+ 1
n
X
i=1
!
ai X i
Par hypothèse, notre estimateur est conditionnellement non biaise et donc il faut que
n
X
!
ai
n
X
+ 1
i=1
!
ai X i
= 1 .
i=1
Pour que cette e galite tienne pour des valeurs quelconques de 0 et de 1 il faut que
n
X
ai = 0
i=1
et
n
X
ai Xi = 1.
i=1
Nous avons donc

1 = 0
n
X
ai + 1
n
X
i=1
ai X i +
n
X
i=1
ai ui = 1 +
i=1
n
X
ai u i .
i=1
Calculons la variance conditionnelle de 1 . Nous avons

n
X
Var 1 |X1 , . . . , Xn = Var
!
ai ui |X1 , . . . , Xn
i=1
n
X
Var (ai ui |X1 , . . . , Xn ) + 2
i=1
Cov (ai ui , aj uj |X1 , . . . , Xn )
i<j
n
X
Var (ai ui |X1 , . . . , Xn )
i=1
u2
n
X
ai 2 .
i=1
Les covariances disparaissent a` cause de la troisième hypothèse ci-dessus.

Maintenant, il suffit de montrer que la variance conditionnelle de 1 doit e tre superieure
a` la variance conditionnelle de 1 .
26
Definissons
d i ai a
i
Nous avons
n
X
ai =
i=1
n
X
n
X
(
ai + d i ) =
i=1
a
2i
+2
i=1
n
X
a
i di +
i=1
n
X
di 2 .
i=1
Maintenant, il faut utiliser la definition des a

i qui est donnee ci-dessus. Nous avons
n
X
Pn
a
i di =
i=1
i=1
Pn
i=1

di
Xi X

2
Xi X
Pn d i
X i di X
=
i=1
Pn
2
i=1 Xi X
Pn
Pn (ai a
i )
i ) X
i=1 Xi (ai a
=
i=1
Pn
2
Xi X
Pn
i=1
i=1
P
P
(Pn ai Pn a
i ) X
( ni=1 Xi ai ni=1 Xi a
i=1 i )
=
2 i=1
Pn
Xi X
i=1
= 0.
La dernière e galite tient puisque les deux estimateurs 1 et 1 sont conditionnellement
non biaises et pour cette raison il faut que
n
X
X i ai
i=1
n
X
!
Xi a
i
i=1
n
X
ai =
i=1
i=1
Finalement, nous avons donc

Var 1 |X1 , . . . , Xn
u2
n
X
i=1
27
ai 2
n
X
a
i = 0.
n
X
= u2
a
2i +
i=1
n
X
!
di 2
i=1
n

X
2
= Var 1 |X1 , . . . , Xn + u
di 2
i=1
Var 1 |X1 , . . . , Xn
=
u2
n
X

Var 1 |X1 , . . . , Xn
di 2 > 0
i=1
si i tel que di 6= 0. Si di = 0, i, lestimateur 1 est tout simplement lestimateur

MCO.
Il y a aussi une preuve du theorème Gauss-Markov dans le cadre du modèle de
regression multiple dans le chapitre suivant. Vous allez constater (jespère) que la
preuve, qui utilise une notation matricielle, est plus simple que la preuve ici. Notez
que nous navons pas demontre lefficience de lestimateur 0 .
6.4
Erreur quadratique moyenne
Cette section est une peu plus ardue que les autres. Sa lecture est facultative.
Nous avons vu que lefficience dun estimateur est un concept relatif. Un estimateur est
plus efficient quun autre si les deux estimateurs sont non biaises et que le premier a une
variance moins e levee que le deuxième.
Une autre facon de comparer deux estimateurs est de comparer leurs erreurs quadratiques
moyennes. Nous avons dejà vu ce concept dans le chapitre sur la statistique.
Voici la definition de lerreur quadratique moyenne dun estimateur quelconque :

2

.
EQM E
Il sagit de lesperance de lecart au carre entre la valeur de lestimateur et sa vraie valeur.

28
Cest une mesure assez intuitive de la precision dun estimateur.

Nous pouvons montrer que lerreur quadratique moyenne est la somme de la variance de
lestimateur et du biais de lestimateur au carre. Autrement dit,

2
EQM = Var + E
.
Voici la preuve. Nous savons que pour une variable aleatoire quelconque X,

Var (X) = E X 2 (E (X))2 .

Cette formule sapplique aussi a` la variable aleatoire . Donc nous avons

2

2
Var = E
E

2

2
= Var + E
2

2
= Var + E
,
ce qui fut a` montrer, puisque

Var = Var
du au fait que nest pas une variable aleatoire.

Le critère de lerreur moyenne quadratique permet de comparer deux estimateurs qui ne
sont pas forcement non biaises.
Il permet aussi de montrer quil peut y avoir dans certaines circonstances un arbitrage entre
le biais dun estimateur (un plus grand biais est mauvais) et la variance de lestimateur
(une plus grande variance est mauvaise). Il y a des estimateurs qui sont biaises mais qui
ont neanmoins une erreur quadratique moyenne inferieure a` nimporte quel estimateur non
29
biaise justement parce quils ont une variance très faible.

Nous nallons pas mettre beaucoup daccent sur la EQM dans le cours. Dans le contexte
du modèle de regression lineaire et lestimateur MCO, le concept defficience est plus au
centre de lanalyse puisque, sous des hypothèses relativement faibles, lestimateur MCO
est non biaise.
Les articles de Giles (2013d, 2013e) portent sur lerreur quadratique moyenne dans le
contexte du modèle de regression simple.
Il e tudie le modèle de regression simple sans constante :
Yi = Xi + ui ,
où les Xi sont non aleatoires et où on a ui i.i.d. (0, 2 ) (les erreurs sont
independamment et identiquement distribuees avec moyenne nulle et variance e gale
a` 2 ). (Le fait de travailler avec des Xi non stochastiques et dimposer une hypothèse
concernant lesperance non conditionnelle des erreurs simplifie lanalyse.)
Il montre que si on minimise lerreur quadratique moyenne,
lestimateur quon
obtient depend de lui-meme, qui est non observable. Donc, cest un estimateur qui
est non operationnel , cest a` dire que nous pouvons meme pas calculer.
Dans son deuxième article (2013e), Giles montre quil est possible de trouver un estimateur operationnel ( operationnel veut dire que nous pouvons effectivement le
calculer avec les donnees que nous avons) si on minimise une combinaison lineaire de
la variance et du biais de lestimateur. Le problème peut secrire

2

e
E
Var
+ (1 )
min Q =
.
2
e
La fonction objectif est une somme ponderee de la variance relative (par rapport a` la
30
variance de lerreur) et du biais au carre relatif (par rapport a` la vraie valeur de ) de

e
lestimateur .
La solution a` ce problème (que nous allons calculer un peu plus loin) est
P
(1 ) ni=1 Xi 2
e
b
P
=
+ (1 ) ni=1 Xi 2
où b est lestimateur MCO. On peut facilement calculer cet estimateur pour une valeur
donnee de .
b Autrement dit, si on met tout le poids sur la minimisation
Pour = 0 nous avons e = .
du biais au carre, on obtient lestimateur MCO, qui nest pas biaise.
e < ||.
b Lestimateur e est plus près de zero. (Cest un exemple de ce
Pour > 0, ||
quon appelle un shrinkage estimator en anglais.)
Cette solution est un peu difficile a` montrer. Commencons par definir e comme un
estimateur lineaire quelconque :
n
X
ai Y i
i=1
pour des constantes quelconques ai .

Cette definition nous donne immediatement
!
n

X
ai (Xi + ui )
E e = E
i=1
n
X
ai X i + E
i=1
n
X
!
ai ui
i=1
n
X
ai Xi
i=1
E e =
n
X
i=1
31
!
ai X i 1
puisque nous avons fait lhypothèse que les Xi sont non stochastiques et que E (ui ) = 0.
La variance de lestimateur est donnee par
n
n
X
X
ai 2
Var e =
ai 2 Var (Yi ) = 2
i=1
i=1
pusque nous faisons lhypothèse que la variance des erreurs est constante.
Notre problème de minimisation peut donc secrire

min Q =
ai
Pn
i=1
2
ai 2
Pn
2
i=1 (ai Xi 1)
+ (1 )
ou bien
min Q =
ai
n
X
!
ai 2
n
X
+ (1 )
i=1
!2
(ai Xi 1)
i=1
Les variables de choix du problème sont les ai et non e lui-meme.

En choisissant notre fonction objectif comme une somme ponderee de la variance relative de lestimateur et du biais au carre relatif, nous avons reussi a` e liminer les paramètres non observables ( et 2 ) du problème.
Pour un ai quelconque la condition du premier ordre secrit
Q
= 0 = 2ai + 2 (1 ) Xi
ai
ai + (1 ) Xi
n
X
n
X
!
aj X j 1
j=1
!
aj X j 1
= 0.
j=1
Multiplions cette expression par Yi et calculons la somme a` travers les n termes en ai .

Nous obtenons
ai Yi + (1 ) Xi Yi
n
X
j=1
32
!
aj X j 1
=0
n
X
ai Yi + (1 )
n
X
i=1
Xi Yi
i=1
e + (1 )
n
X
n
X
aj X j 1
=0
j=1
n
X
Xi Yi
i=1
!
aj X j 1
=0
(1)
j=1
P
puisque nous avons defini au depart notre estimateur comme e ni=1 ai Yi .
Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme a` travers les n
termes, ce qui donne
n
X
ai Xi + (1 ) Xi 2
!
aj X j 1
=0
j=1
n
X
n
X
ai Xi + (1 )
i=1
i=1
n
X
n
X
aj Xj + (1 )
j=1
Xi 2
n
X
!
aj X j 1
=0
j=1
Xi
n
X
i=1
!
aj X j 1
=0
j=1
(par un simple changement dindice)
n
X
aj Xj + (1 )
j=1
n
X
n
X
Xi
n
X
i=1
+ (1 )
aj X j
aj Xj (1 )
j=1
n
X
j=1
n
X
Xi 2 = 0
i=1
!
Xi 2
(1 )
n
X
i=1
!
Xi 2
i=1
n
X

P
(1 ) ni=1 Xi 2

Pn
aj X j =
2
+
(1
)
X
.
i
i=1
j=1
Maintenant, substituons cette solution pour
Pn
j=1
aj Xj dans lequation (1) et simpli-
fions :
e + (1 )
n
X
i=1
Xi Yi
!

2
X
i
i=1
1 =0
P2
+ (1 ) i=1 Xi 2 .
(1 )
33
P2
!
Pn
2
+ (1 ) i=1 Xi (1 ) i=1 Xi

e = (1 )
X i Yi
P
+ (1 ) 2i=1 Xi 2
i=1
!
n
X

e = (1 )
Xi Yi
P2
2
+
(1
)
X
i
i=1
i=1
!
n
X
(1
)

e =
X i Yi
P2
2
+
(1
)
X
i
i=1
i=1
n
X
Pn
Pn
Pn
2
(1
)
X
Y
i
i
i=1 Xi
i=1
e
= Pn
P2
2
2
i=1 Xi + (1 )
i=1 Xi
Pn
2
(1
)
i=1 Xi
= b
P
+ (1 ) 2i=1 Xi 2 .
Ceci est le cas puisque pour ce modèle lestimateur MCO b est donne par (exercice)
Pn
Xi Yi
b = Pi=1
n
2 .
i=1 Xi
Proprietes e chantillonnales de lestimateur

Dans cette section, le but principal de lexercice est de deriver la variance (et par extension
lecart type) de nos estimateurs MCO 0 et 1 .
Les e carts types de 0 et de 1 font partie de loutput standard de nimporte quel logiciel
de regression.
Cet exercice est crucial afin de pouvoir effectuer des tests dhypothèse concernant les coefficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimes.
Nous avons :
1 = 1 +
Pn
i=1
Pn
i=1
34

ui
Xi X

2
Xi X
Pn
= 1 +
1
n
1
n
i=1
Pn
i=1

ui
Xi X
.
2
Xi X
Dabord, travaillons avec le numerateur.

Nous avons dejà vu que
p
X
X ,
ce qui veut dire que la moyenne e chantillonnale converge en probabilite a` la moyenne dans
la population. Donc, pour des e chantillons assez grands, nous avons
n
X

1X
1X
ui 1
Xi X
(Xi X ) ui v
vi .
n i=1
n i=1
n i=1
La variable aleatoire vi que nous venons de definir satisfait les proprietes suivantes :
1. E (vi ) = 0 ;
2. vi est i.i.d. ;
3. v2 < .
La variable satisfait les hypothèses pour pouvoir invoquer le theorème de la limite centrale.
Donc, nous avons
v d
N (0 , 1) ,
v
où v2 = v2 /n.
Maintenant, travaillons avec le denominateur. Nous avons dejà vu a` la fin du chapitre sur
la statistique que la variance e chantillonnale est un estimateur convergent de la variance
dune variable aleatoire. Donc nous avons :
n
X

p 2
1 X
2 1
2
Xi X
Xi X
X .
n 1 i=1
n i=1
Mettant ensemble numerateur et denominateur, nous avons

Var 1 1 =
35
v2
2
2
n (X
)
et,

d
1 1
N
0,
v2
2
n (X
)
Notez très bien ce que nous venons de faire. Nous avons montre la convergence en distribution du numerateur, et la convergence en probabilite du denominateur, et par la suite
nous avons saute tout de suite a` la convergence en distribution du ratio des deux.
Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de proprietes asymptotiques (proprietes en grand e chantillon) de nos statistiques. Notez que nous
ne pouvons pas le faire lorsquil sagit desperances. Par exemple,

E
X
Y

6=
E(X)
E(Y )
sauf dans le cas de variables aleatoires independantes.

Par contre, sous certaines hypothèses, nous avons
p
X
X ,
p
Y
Y
p X
X

,
Y
Y
et
d
X
N X ,
2
X
Y
Y
d
X
N

Y
X
,
Y
1
Y
2
!
2
X
Nous avons utilise le Theorème de Slutsky, un des theorèmes les plus utiles en theorie
des probabilites. Il permet de scinder des expressions compliquees de variables aleatoires
(produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux,
la convergence de lexpression suit immediatement.
Nous aurons frequemment loccasion dutiliser une version de ce theorème. Pour plus de
details, voir le chapitre des notes sur le modèle de regresson multiple.
Notez que la variance de 1 decrot avec n et tend vers zero lorsque n tend vers linfini. Lorsquon parle de convergence en distribution, on utilise normalement une variable
aleatoire normalisee de telle facon a` ce sa variance ne diminue pas avec la taille de lechan36
tillon. Pour cette raison, il serait conventionnel de dire que :

d
n 1 1
N
0,
v2
2
2
(X
)
Maintenant, definissons
21
v2
2.
2
n (X
)

Maintenant, si nous divisons 1 1 par la racine carree de 2 , nous obtenons une
1
statistique qui converge en distribution vers une loi normale centree reduite :

1 1
q
2
1 1

d
N (0 , 1) .
Notez que nous venons de montrer a` toutes fins pratiques la convergence de lestimateur
MCO de 1 . Nous avions dejà montre que lestimateur MCO est non biaise. Maintenant,
nous venons de montrer que la variance de notre estimateur tend vers zero lorsque la taille
de lechantillon tend vers linfini. Autrement dit,
lim 21 = 0.
Nous avons tous les prerequis pour conclure que lestimateur MCO de 1 converge en
probabilite a` sa vraie valeur.
7.1
Estimateur convergent de 2
La variance de la variable aleatoire v definie ci-dessus nest generalement pas connue, la

variance de X non plus.
Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population
par un estimateur convergent de ce moment.
37
Definissons :
21

Pn
1
2 (
ui )2
1 n2 i=1 Xi X
P
2 2
n
n
1
X
i
i=1
n
Ensuite, definissons lecart type estime de 1 comme

q
SE 1
2 .
1
La plupart des logiciels de regression calculent cet e cart type. Il faut, par contre, verifier si
loption par defaut est de calculer cet e cart type robuste (robuste a` la presence de lheteroscedasticite) ou plutot de calculer lecart type qui suppose lhomoscedasticite.
7.2
Estimateur convergent de 2 en cas dhomoscedasticite

1
Si nous sommes prets a` supposer que
Var (ui |X = Xi ) = Var (ui ) = u2 ,

nous pouvons remplacer lestimateur convergent de 2 par
1
21
1 n1
P
n1 n
n
Pn
(
ui )2
.
2
Xi X
i=1
i=1
Jai utilise la notation legèrement differente

2 pour distinguer entre le cas general (lors1
quon ne suppose pas lhomoscedasticite) où on utilise un estimateur
robuste de la
variance et le cas particulier où on suppose lhomoscedasticite.

Le manuel est parmi les seuls a` utiliser lestimateur robuste comme lestimateur par defaut.
Beaucoup de manuels presentent le cas homoscedastique comme le cas de base et montre
par la suite quest-ce qui arrive si lhypothèse dhomoscedasticite ne tient pas. Je partage
lopinion des auteurs que lhomoscedasticite est une hypothèse forte qui risque de ne pas
tenir dans le cas de beaucoup dapplications empiriques, et que, pour cette raison, il est
38
bien denseigner le cas general et lestimateur robuste comme loption par defaut dun
e conomètre applique.
Lorsquon utilise un logiciel de regression comme R, STATA ou GRETL, il faut lire attentivement la documentation pour savoir quelle est loption par defaut utilisee pour estimer la
matrice variance-covariance des coefficients estimes. Dans la plupart des cas loption par
defaut suppose lhomoscedasticite et il faut specifier loption robuste ou lequivalent
si vous netes pas prets a` supposer lhomoscedasticite, ce qui sera generalement le cas.
Les e carts types robustes peuvent e tre plus grands ou plus petits que les e carts types non robustes. Pour une explication plus detaillee et une illustration dans un cas très simple, voir Auld
(2012). Auld demontre les points suivants.
1. En presence dheteroscedasticite, si la variance des erreurs nest pas fortement correlee
avec la variable explicative du modèle (X), il y aura peu de difference entre lecart
type calcule avec la methode robuste et lecart type calcule sous lhypothèse de lhomoscedasticite.
2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur
lecart type calcule avec la methode non robuste (supmoyenne e chantillonnale X,
posant lhomoscedasticite) sera biaise vers zero (trop petit). Lecart type calcule avec
la methode robuste sera en general plus grand que lecart type non robuste.
3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont près de leur
lecart type calcule avec la methode non robuste (suppomoyenne e chantillonnale X,
sant lhomoscedasticite) sera biaise et sera en moyenne trop grand. Lecart type calcule
avec la methode robuste sera en general plus petit que lecart type non robuste.
4. Avec les donnees reeles on rencontre plus souvent le cas où lecart type non robuste est
baisie vers zero (est trop petit). Donc, typiquement les e carts types robustes sont plus
e leves que les e carts types non robustes.
39
7.3
Detecter lheteroscedasticite
Il peut e tre important de pouvoir detecter la presence derreurs heteroscedastiques. Il y

a des tests formels, 2 mais il y a aussi des methodes moins formelles que les chercheurs
appliques peuvent utiliser.
Une facon simple serait de creer, une fois le modèle estime, un graphique avec les Xi sur
laxe horizontal et les residus carres u2i sur laxe vertical.
Une relation e vidente entre les deux (par exemple, des valeurs de u2i qui semblent augmenter avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi ) est un signe clair
de la presence dheteroscedasticite.
Une autre facon serait, une fois le modèle estime, destimer une regression où on prend
les residus carres comme variable dependante et Xi comme variable explicative, ou des
fonctions non lineaires des Xi . Par exemple,
u2i = 0 + 1 Xi + i
ou encore
u2i = 0 + 1 Xi 2 + i .
Lidee est destimer les valeurs de 0 et de 1 par MCO. Soit 1 la valeur estimee du coefficient 1 Une valeur significative de 1 (voir la section suivante sur les tests dhypothèse)
serait un indice clair de la presence dheteroscedasticite. 3 Nous allons revenir sur cette
question et sur quelques tests formels pour detecter lhomoscedasticite dans le chapitre sur
la regression multiple.
2. Nous verrons certains de ces tests formels dans le chapitre sur le modèle de regression multiple.
3. Notez quil ne sagit pas dun test formel avec des proprietes statistiques connues. Il faut interpreter le resultat
du test a` titre indicatif seulement. Par contre, le test formel appele test Breusch-Pagan est essentiellement base sur une
regression de ce type.
40
Tests dhypothèse
8.1
Approche general
Le principe de base pour tester des hypothèses simples est presquidentique a` ce que nous
avons vu dans le chapitre sur linference statistique.
Lhypothèse nulle specifie generalement que le coefficient dinteret (qui peut e tre 0 ou
1 prend une certaine valeur. Lhypothèse alternative peut e tre bilaterale ou unilaterale,
dependant du contexte.
Dabord, il faut creer une statistique normalisee qui a une moyenne nulle et une variance
unitaire sous lhypothèse nulle. Il sagit dune
statistique t meme si en general elle
nobeit pas a` une loi t de Student. Par exemple :
1 1,0

SE 1

où SE 1 est un estimateur convergent de lecart type du coefficient 1 et 1,0 est la
valeur que prend le coefficient 1 sous lhypothèse nulle.
Si nous sommes prets a` faire lhypothèse que le terme derreur du modèle ui obeit a` une loi
normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de
Student. Dans ce cas, bien sur, il est preferable dutiliser la forme homoscedastique pour le
calcul de lecart type de lestimateur 1 .
Si non, sous les hypothèses du modèle de regression, la statistique t obeit en grand e chantillon
a` une loi normale centree reduite. Voir la section precedente sur les proprietes e chantillonnales
de lestimateur.
Comme il est habituellement le cas, nous remplacons lecart type dans le denominateur par
un estimateur convergent.
Maintenant, nous procedons exactement comme dans le chapitre sur la statistique.
41
8.2
Hypothèse alternative bilaterale
Dabord, si lhypothèse alternative est bilaterale :
H1 : 1 6= 1,0 ,
nous rejetons lhypothèse nulle si la statistique calculee est suffisamment loin de zero. La
p-value du test est donnee par :

p-value = Pr |z| > |tact | = 2 |tact |
où tact est la valeur calculee de la statistique et, comme auparavant, (z) est la valeur de la
distribution normale centree reduite cumulee a` z.
On appelle appelle communement un test de significativite un test de lhypothèse nulle
que la variable explicative nest pas significative, et donc naide pas a` expliquer la variabilite
de la variable dependante. Dans, ce cas, lhypothèse nulle est H0 : 1 = 0 et lhypothèse
alternative est bilaterale. On peut aussi parler dun test de significativite de la constante
dans le modèle de regression simple. Les tests de significativite sont tellement repandus
que, si loutput fourni par un logiciel deconometrie donne les statistiques t associees
aux coefficients estimes, il sagit de statistiques appropriees pour tester lhypothèse nulle
que le coefficient est e gal a` zero.
8.3
Hypothèse alternative unilaterale
Ensuite, si lhypothèse alternative est unilaterale, il faut distinguer entre les deux cas possibles.
1. Dabord,
H1 : 1 > 1,0 .
Nous rejetons lhypothèse nulle si la statistique calculee est suffisamment positive. La
42

p-value = Pr z > tact = 1 tact .
2. La deuxième possibilite est :

H1 : 1 < 1,0 .
Nous rejetons lhypothèse nulle si la statistique calculee est suffisamment negative. La

p-value = Pr z < tact = tact .
Intervalles de confiance pour les coefficients

Le principe est identique que pour lestimateur de la moyenne de la population que nous
avons vu dans le chapitre sur linference statistique.
Pour calculer les deux bornes de lintervalle de confiance de X%, dabord on cherche la
valeur de z > 0 tel que
(z) =
1 X/100
.
2
Donc, on cherche la valeur de z > 0 pour laquelle
(100X)
%
2
de la distribution normale
centree reduite se trouve a` gauche de z. Cela veut dire bien sur que
bution normale centree reduite se trouve a` droite de z.
Nous avons (pour 1 : le principe pour 0 est identique) :
X
1 1
= Pr z
z
100

= Pr z
1 1 1 z
1
43
(100X)
%
2
de la distri-

= Pr z
1 1 1 z
1

= Pr 1 z
1 1 1 + z
1 ,

où
1 SE 1 , notre estimateur convergent de lecart type de 1 .
Cela implique que lintervalle de confiance de X% autour de 1 peut e tre e crit de la facon
suivante :
1 z
1 ,
où
(z) =
9.1
1 X/100
.
2
Intervalles de confiance pour les predictions
Souvent, on estime un modèle de regression pour predire limpact du changement de la variable

explicative sur la variable dependante. Par exemple, dans le cadre du modèle developpe en detail
dans le manuel, on pourrait vouloir predire limpact sur le rendement scolaire dune reduction de
la taille moyenne des classes de deux e leves. Soit X le changement propose de la valeur de la
variable explicative. On a tout de suite
Yi = 1 Xi ,
où Yi est le changement predit de la variable dependante. Developper un intervalle de confiance
dans ce cas est facile. Le changement pose X est connue. On peut le traiter comme une constante,
et donc nous avons

Var Yi = Var 1 Xi

= (Xi )2 Var 1
44
Donc, procedant de la meme manière que pour lintervalle de confiance pour 1 lui-meme on a
X
= Pr z
100
Xi
1 1
(Xi ) 1

= Pr z (Xi ) 1 Xi 1 1 z (Xi ) 1

= Pr z (Xi ) 1 Xi

1 1 z (Xi ) 1

= Pr z (Xi ) 1 + Xi 1 Xi 1 z (Xi ) 1 + Xi 1 .
Donc, lintervalle de confiance pour le changement predit est donne par
Xi 1 z (Xi ) 1
Si nous remplacons lecart type de 1 par un estimateur convergent (notre truc habituel), lintervalle
de confiance peut secrire
Xi 1 z (Xi )
1
10
Un exemple destimation du modèle de regression simple

avec R
Voici un exemple de comment estimer un modèle de regression simple avec le logiciel R.
Lexemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus
de detaillee. Vous pouvez facilement jouer avec le code une fois que le logiciel est installe. Le but
du modèle est de predire la demande pour les abonnements a` des revues scientifiques (abonnements
par des bibliothèques universitaires) où la variable explicative est le prix par nombre de citations.
Le modèle est
ln (subsi ) = 0 + 1 ln (citepricei ) + ui ,
45
où la variable dependante subsi est le nombre dabonnements a` la revue i (mesure en logs), et la
variable explicative citepricei est le prix annuel dun abonnement divise par le nombre de citations
annuel darticles publies dans la revue (mesure aussi en logs). Notez que le choix de mesurer les
deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre
sur les modèles de regression non lineaires. 4
Les donnees sont dans une banque de donnees qui sappelle
Journals . Il sagit de
donnees (avec n = 180) sur les abonnements par des bibliothèques universitaires a` des revues
scientifiques. La taille de lechantillon est le nombre de revues dans lechantillon.
Afin deffectuer lestimation dun modèle de regression simple de base et afin deffectuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais
aussi les
packages AER (qui contient les donnees utilisees pour estimer le modèle),
lmtest, sandwich et zoo (ces trois packages permettent de calculer les e carts types robustes du modèle estime et deffectuer des tests dhypothèse utilisant les e carts types robustes). Si les packages ne sont pas dejà installes, il faut les installer avec la commande
install.packages() :
install.packages("AER")
install.packages("lmtest")
install.packages("zoo")
install.packages("sandwich")
Notez que sous Linux il est preferable dinstaller le package comme administrateur du système
ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.
Une fois les packages installes, on peut proceder a` charger les donnees et estimer le modèle
par MCO. Dans le code R qui suit, jajoute des commentaires pour expliquer ce que font les
4. Entretemps, a` moins davis contraire, je vous demande dutiliser des variables non transformees dans les exercices empiriques.
46
commandes. Les lignes precedees par # sont des commentaires.

R> # Charger les donn
ees.
R> library("AER")
R> data("Journals")
R> # Permettre dappeler les variables directement par leurs
noms.
R> attach(Journals)
R> # Calculer des statistiques descriptives concernant les
variables.
R> # summary(Journals)
R> # Cr
eer une base de donn
ees avec un sous-ensemble des
variables.
R> journals <- Journals[, c("subs", "price")]
R> # Ajouter le prix par citation `
a la base de donn
ees
restreinte.
R> journals$citeprice <- Journals$price / Journals$citations
R> # Permettre dappeler les variables dans journals
directement.
R> attach(journals)
R> # Produire un nuage de points avec les abonnements et le
prix par citation.
R> plot(log(subs) log(citeprice), data = journals)
R> # Estimer le mod`
ele par MCO utilisant la commande lm().
R> # Les r
esultats sont stock
es dans lobjet jour lm.
R> jour lm <- lm(log(subs) log(citeprice))
R> # Ajouter la ligne de r
egression estim
ee au nuage de
47
points.
R> abline(jour lm)
R> # Calculer des statistiques de base avec loutput de
lestimation.
R> summary(jour lm)
R> # Ouvrir un fichier pour contenir ces statistiques.
R> # Le nom du fichier est
regumm.out
R> outfile <- file("regsumm.out", "w")

R> capture.output(summary(jour lm), file=outfile)
R> # Fermer le fichier qui contient loutput.
R> close(outfile)
Resumons ce que nous avons fait avec ces commandes.
La commande data() charge la banque de donnees en memoire.
La commande journals<- cree une plus petite banque de donnees en extrayant les
variables subs (combien dabonnements) et price (prix de labonnement).
La commande journals$citeprice<- ajoute une nouvelle variable a` la banque
journals qui est le prix par citation.
La commande plot() cree un graphique avec les observations, avec subs (en logarithmes) sur laxe vertical et citeprice (en logarithmes) sur laxe horizontal)
La commande lm() estime le modèle de regression simple par MCO, et la commande
jour lm<- place les resultats dans la variable jour lm.
La commande abline() utilise les resultats pour placer la ligne de regression sur le
graphique qui a dejà e te cree .
La commande summary() imprime les resultats de la regression a` lecran.
La commande outfile<- cree un fichier texte où on peut envoyer les resultats.
La commande capture.output() envoie les resultats dans le fichier qui a e te cree .
48
La commande close() ferme le fichier.

Les resultats de lestimation sont comme suit.
Call:
lm(formula = log(subs) log(citeprice), data = journals)
Residuals:
Min 1Q Median 3Q Max
-2.72478 -0.53609 0.03721 0.46619 1.84808
Coefficients:
(Intercept)
Estimate
Std. Error
4.76621
0.05591
t value
Pr(>|t|)
85.25 <2e-16 ***
log(citeprice) -0.53305
0.03561
-14.97 <2e-16 ***
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.7497 on 178 degrees of freedom

Multiple R-squared: 0.5573, Adjusted R-squared: 0.5548
F-statistic: 224 on 1 and 178 DF, p-value: < 2e-16
Vous e tes dejà en mesure de comprendre tous les e lements de loutput, sauf a` la toute fin lorsquon mentionne Adjusted R-squared et F-statistic. La mesure de lajustement
statistique R2 que nous avons e tudiee est ce quon appelle Multiple R-squared dans
loutput. Nous reviendrons sur ces statistiques dans le chapitre sur le modèle de regression
multiple.
En ce qui concerne les residus, le logiciel nous donne la valeur minimale parmi les residus,
49
la valeur associee au premier quartile (la valeur pour laquelle 25% des residus on une valeur
inferieure), la valeur mediane (qui nest pas forcement e gale a` la moyenne), la valeur associee
au troisième quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maximale) peuvent e tre utiles pour reperer des observations aberrantes.
Une mise en garde : le code ci-dessus estime le modèle par MCO utilisant les options
par defaut. La fonction lm utilise par defaut une hypothèse dhomoscedasticite. Donc, les
e carts types des deux coefficients (0 et 1 dans notre notation) ne sont pas des e carts types
robustes. Afin dobtenir des e carts types robustes a` la presence de lheteroscedasticite, il faut
utiliser la commande suivante :
R> coeftest(jour lm, vcov=vcovHC)

Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et
lmtest soit intalles, tel quindique ci-dessus. Il faut aussi charger en memoire les packages
lmtest (qui va automatiquement charger zoo aussi) et sandwich avant dutiliser la commande coeftest(), avec les commandes suivantes :
R> library("lmtest")
R> library("sandwich")
Les resultats de cette commande sont comme suit :
Coefficients:
(Intercept)
log(citeprice)
Estimate
Std. Error
t value
Pr(>|t|)
4.7662
0.0555
85.8
<2e-16
-0.5331
0.0345
-15.5
<2e-16
Ce modèle est un exemple dun modèle où il ny a pas une difference e norme entre les e carts
types robustes et non robustes. Puisque lordinateur est capable de calculer les e carts types en
une fraction de seconde, il coute presque rien de les calculer des deux facons afin de verifier si
50
les resultats sont semblables ou non.

Un graphique avec les donnees (variable dependante sur laxe vertical et variable explica-
tive sur laxe horizontal) et la ligne de regression est la Figure 2 ci-dessous.
4
3
log(subs)
log(citeprice)
Figure 2
11
Le modèle de regression simple lorsque X est une variable

dichotomique
Jusquici, nous avons suppose que la variable explicative dans le modèle de regression simple,
X, est une variable aleatoire continue. Il es souvent le cas que la variable explicative est une
variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, present ou
51
absent, etc.
On peux representer ces deux valeurs possibles de la variable explicative variable dichotomique par soit 0 soit 1. Dans lexample du livre, limpact de la taille des classes sur le rendement
scolaire dans les conseils scolaires en Californie, on aurait pu avoir des donnees sur la taille des
classes où Di = 1 pour des ratios e lèves/professeurs inferieurs a` 20 est Di = 0 pour des ratios
e lèves/professeurs au moins e gaux a` 20.
Dans ces cas, 1 na pas linterpretation dun coefficient de pente. Il a linterpretation de la
moyenne conditionnelle de la variable dependante Y lorsque Di = 1. Lordonnee 0 a linterpretation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, 1 a linterpretation de
la difference entre les moyennes de deux populations ou plutot de sous-populations.
Algebriquement, nous avons
Yi = 0 + 1 Xi + ui
E (Yi |Xi = 0) = 0 + 1 0 + E (ui |Xi = 0) = 0
et
E (Yi |Xi = 1) = 0 + 1 1 + E (ui |Xi = 1) = 0 + 1 .
On e crit dans le manuel quil y a e quivalence entre dune part estimer le modèle de regression
simple par MCO avec une variable explicative X et dautre part calculer les moyennes e chantillonnales des sous-echantillons. Dans lencadre qui suit, je montre cette e quivalence. Je montre aussi
lequivalence entre tester la significativite du coefficient estime 1 et tester la significativite de la
difference entre deux moyennes.
Le modèle avec une variable explicative dichotomique peut secire
Yi = 0 + 1 Di + ui ,
où Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre dobservations pour les-
52
quelles Di = 1 et soit n0 le nombre dobservations pour lesquelles Di = 0. Il est clair que

n
X
n1
1
Di = .
D
n i=1
n
Lestimateur 0 est donne par la formule habituelle
0 = Y 1 D.
Lestimateur 1 est donne par la formule habituelle
1 =
Pn
i=1
Yi Y
Pn
i=1
Di D
.

2
Di D
Dans ce cas, avec Di une variable dichotomique, nous avons

n
X
Di D
2
i=1
n0
X
2 +
D
i=1
n1
X
1D
2
i=1

n1 2
+ n1 1
n
n
n 2
n 2
1
0
= n0
+ n1
n
n
= n0
n 2
1
=
=
n0 n1 2 + n1 n0 2
n2
n0 n1 (n0 + n1 )
n0 n1
=
.
2
n
n
Definissons Yi1 la valeur de Yi dans le cas où Di = 1. Definissons Yi0 la valeur de Yi dans le
53
cas où Di = 0. Nous avons

1 =
Pn
i=1

Yi Y Di D
n0 n1 /n

Pn0
0
1
Y
(n1 /n)
Y
Y
(1
n
/n)
Y
1
i
i=1
= i=1 i
n0 n1 /n

Pn1
Pn0
1
0
i=1 Yi Y (n0 /n)

i=1 Yi Y (n1 /n)
=
n0 n1 /n
Pn1
n1
n0

1 X
1 X
1
Yi Y
Yi0 Y
=
n1 i=1
n0 i=1
n1
n0
n1
n0
1 X
1 X
1 X
1 X
1
0
=
1
1
Y Y
Y + Y
n1 i=1 i
n1 i=1
n0 i=1 i
n0 i=1
n1
n0
1 X
1 X
n1
n0
Yi1 Y
Yi0 + Y
n1 i=1
n1
n0 i=1
n0
n1
n0
1 X
1 X
1
=
Y
Y 0.
n1 i=1 i
n0 i=1 i
Ceci est tout simplement la difference entre la moyenne e chantillonnale de Y pour le souse chantillon où Di = 1 et sa moyenne e chantillonnale pour le sous-echantillon où Di = 0.
Il faut maintenant montrer que 0 est tout simplement e gal a` la moyenne e chantillonnale
de Y pour le sous-echantillon où Di = 0. Nous avons
Pn
n1
0 = Y
n
n1
= Y
n
Pn1
i=1
n1
= Y
n
i=1
!

P 0
Yi1 Y (1 n1 /n) ni=1
Yi0 Y (n1 /n)
n0 n1 /n
n0 Pn1
n

!
Yi Y Di D
n0 n1 /n
n1
= Y
n
n0
n
Pn0

Yi0 Y n0nn1 + Y n0nn1
n0 n1 /n
Pn1 1 n1 Pn0 0
i=1 Yi n
i=1 Yi
n0 n1 /n
1
i=1 Yi
n1
n
54
i=1
1
0
1X
n1 X
1X
=
Yi
Yi1 +
Y0
n i=1
n i=1
n0 n i=1 i
1
=
n
n1
X
Yi1
n0
X
i=1
!
Yi0
i=1

=
1
n1
+
n n0 n
=
1
0
1X
n1 X
Yi1 +
Y0
n i=1
n0 n i=1 i
X
n0
Yi0
i=1
n0
1 X
Y 0,
n0 i=1 i
ce qui fut a` demontrer. La statistique t pour tester la significativite du coefficient estime 1 est
donnee par la formule habituelle :
t=
1
.
SE 1
Dans ce cas, nous avons

t= q
Y 1 Y 0
Var Y 1 Y 0
,
Y 1 Y 0
=q

,
1
0
Var Y + Var Y

Y 1 Y 0 0
= q 2
,
2 0
1
Y
Y
+ n0
n1
où
n1
n0
1 X
1 X
Y 1
Yi1 , Y 0
Y 0.
n1 i=1
n0 i=1 i
Cette formule correspond exactement a` la formule derivee dans le chapitre sur la statistique
et les tests dhypothèses pour tester la difference entre les moyennes de deux populations
differentes.
Ici, lhypothèse dheteroscedasticite permet a` la variance de lerreur du modèle de
regression de dependre des deux valeurs differentes possibles de Di .
55
12
Concepts a` retenir
Comment e crire le modèle de regression simple.
Le problème de minimisation auquel lestimateur MCO est une solution.
Les proprietes algebriques de lestimateur MCO. Il est important de pouvoir suivre les
demonstrations de ces proprietes et de les comprendre, mais il nest pas necessaire detre
capable de les reproduire.
Le concept du R2 , et les concepts de somme totale des carres, somme expliquee des carres,
et somme des residus carres et la relation entre ces sommes.
Les hypothèses statistiques de base du modèle de regression simple qui sont requises pour
montrer labsence de biais et la convergence.
Les hypothèses additionnelles necessaires pour montrer lefficience de lestimateur MCO
(theorème Gauss-Markov).
Il faut avoir suivi et compris la derivation des proprietes e chantillonnales des coefficients
estimes.
Comment tester des hypothèses concernant les coefficients estimes du modèle, contre des
hypothèses alternatives bilaterales ou unilaterales.
Comment calculer un intervalle de confiance pour les coefficients du modèle.
Comment calculer un intervalle de confiance pour un changement predit.
13
References
Voir ce lien :
http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf
Dernière modification : 28/08/2014
56

Notes Uqam Regsimple

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Notes Uqam Regsimple

Загружено:

Авторское право:

Доступные форматы

ECO 4272 : Introduction a` leconometrie

Notes sur le mod`ele de regression simple

Table des mati`eres

Le mod`ele de regression simple

Estimateur moindres carres ordinaires (MCO)

Hypoth`eses statistiques de base du mod`ele

Proprietes e chantillonnales de lestimateur

Intervalles de confiance pour les coefficients

10 Un exemple destimation du mod`ele de regression simple avec R

11 Le mod`ele de regression simple lorsque X est une variable dichotomique

Le mod`ele de regression simple

Estimateur moindres carres ordinaires (MCO)

Ensuite, par rapport au choix de 1 :

Nous venons de trouver la solution pour 0 en fonction des moyennes e chantillonnales X

Multipliant des deux cotes de lequation par

et rearrangeant, nous obtenons

Cette solution depend des identites

Donc, nous avons trois expressions e quivalentes pour la solution pour 1 .

timateur MCO de 1 est le ratio entre la covariance e chantillonnale entre X et Y et la

Proprietes algebriques cles de lestimateur MCO

La somme des residus est zero

La valeur moyenne de la variable dependante predite est e gale a` la moyenne e chantillonnale

Orthogonalite entre la variable explicative et les residus

Nous voulons montrer que :

Ceci est la definition de lorthogonalite entre deux variables.

La notion de lajustement statistique (R2 )

la somme totale des carres ( total sum of squares  en anglais) ;

la somme des residus au carre ( residual sum of squares  en anglais) ;

la somme expliquee des carres ( explained sum of squares  en anglais).

Il faut aussi que

Lajustement statistique sappelle aussi le  coefficient de determination  de la regression.

Je montre ce resultat dans lencadre qui suit.

Donc, il faut montrer que

Travaillant avec le bras gauche de cette e quation, nous avons

ce qui fut a` demontrer.

Lecart type de la regression

Hypoth`eses statistiques de base du mod`ele

Esperance conditionnelle nulle de lerreur

Nous supposons que :

Nous supposons que :

Les observations aberrantes sont peu probables

Nous supposons que :

Proprietes statistiques de lestimateur

Absence de biais de lestimateur

E (E (Yi |Xi )) = E (Yi ) .

Nous lavons tout simplement applique a` la variable aleatoire qui est

des constantes et les e crire du cote gauche de loperateur desperance conditionnelle. Ce

E (ui ) = E (E (ui |Xi )) .

de 1 est donnee par

et qui satisfait la propriete

Nous avons aussi

De cette facon, nous avons

Nous avons donc

Calculons la variance conditionnelle de 1 . Nous avons

Var 1 |X1 , . . . , Xn = Var

Var (ai ui |X1 , . . . , Xn ) + 2

Cov (ai ui , aj uj |X1 , . . . , Xn )

Var (ai ui |X1 , . . . , Xn )

Les covariances disparaissent a` cause de la troisi`eme hypoth`ese ci-dessus.

Maintenant, il faut utiliser la definition des a

Finalement, nous avons donc

si i tel que di 6= 0. Si di = 0, i, lestimateur 1 est tout simplement lestimateur

Erreur quadratique moyenne

Il sagit de lesperance de lecart au carre entre la valeur de lestimateur et sa vraie valeur.

la somme totale des carres ( total sum of squares en anglais) ;

la somme des residus au carre ( residual sum of squares en anglais) ;

la somme expliquee des carres ( explained sum of squares en anglais).

Lajustement statistique sappelle aussi le coefficient de determination de la regression.

statistique t meme si en general elle

commandes. Les lignes precedees par # sont des commentaires.