Академический Документы
Профессиональный Документы
Культура Документы
FA CULT J EA N MONN ET
Droit conomie Gestion
Economtrie
La multicolinearite
Anne Plunket
1.1
La multicolinearite parfaite
X1i = 0 + 1X2i
Yi = 0 + 1X1i + 2X2i + i
X1i = 3X2i ou X1i = 6 + X2i ou X1i = 2 + 4X2i
www.adislab.net
(1)
(2)
(3)
X1
Un exemple :
int = irt + inft = irt +
int le taux dinteret nominal en t
(4)
X2
Figure 1:
La multicolinearite parfaite
1.2
La multicolinearite imparfaite
X1i = 0 + 1X2i + ui
X1
La multicolinearite imparfaite
e2i /(n k 1)
2 )
1)2(1 r12
(X1i X
(6)
X2
Figure 2:
(7)
2
2
=
2 ) (x x
2 )s
(1 r12
k )2 (1 r12
ik
kk
(10)
Sans multicollinearite
sev`ere
10
Figure 3:
Exemples de multicolinearite
12
11
avec
La multicolinearite imparfaite
(11)
Etudiant
1
2
3
4
5
6
7
COi
2000
2300
2800
3800
3500
5000
4500
Y di
2500
3000
3500
4000
4500
5000
5500
LAi
25000
31000
33000
39000
48000
54000
55000
t = 0, 496
2 = 0, 835
R
(0,0942)
t = 0, 453
ryd,LA = 0, 986
avec
ESCONi : Consommation dessence dans la i`eme region
14
13
(0,157)
t = 6, 187
R = 0, 861
2
2 = 0, 919
R
(t=5,92)
(t=2,77)
4.1
(t=1,43)
(t=15,88)
2
il y a une presomption de multicolinearite.
Si R2 < rxi,xj
4.2
16
15
2 = 0, 861
R
(13)
Y = 0 + 1X1 + 2X2 + . . . + k Xk +
Il faut donc calculer k differents VIF, pour chaque Xi. Pour chaque
variable, il faut suivre les trois e tapes suivantes :
Faire une regression des MCO de Xi en fonction des autres
variables explicatives de lequation.
Une r`egle habituelle propose que si V IF (i) > 5, on peut dire que
la multicolinearite est sev`ere.
Certains logiciels deconometrie remplace le VIF par sa reciproque
(1 Ri2 ) appelee tolerance ou TOL.
(14)
(15)
18
17
V IF (1) =
2 = 0, 861
R
Si lon omet Y d on obtient :
i = 199, 44 + 0, 08876 LAi
CO
Remedier a` la multicolinearite
1. Ne rien faire
2. Omettre une variable redondante Dans le cas de la consommation des e tudiants on avait :
i = 376, 83 + 0, 5113 Y di + 0, 0427 LAi
CO
(0,0942)
t = 0, 453
t = 6, 187
20
19
(1,0307)
t = 0, 496
2 = 0, 835
R
(0,01443)
t = 6, 153
2 = 0, 860
R
3. Transformer les variables multicolineaires
(a) Former une combinaison des variables multicolineaires.
(16)
Yi = 0 + 3X3i + i = 0 + 3(X1i + X2i) + i
(b) Transformer lequation en utilisant un decalage dans le temps
dune periode; par exemple, Xt = Xt Xt1.
4. Accrotre la taille de lechantillon
Fiche de TD 1 : la multicolinearite
21
hsg
some_col
col_grad
grad_sch
avg_ed
full
emer
enroll
mealcat
byte
byte
byte
byte
float
byte
byte
int
byte
%4.0f
%4.0f
%4.0f
%4.0f
%9.0g
%8.2f
%4.0f
%9.0g
%18.0g
collcat
float
%9.0g
mealcat
parent hsg
parent some college
parent college grad
parent grad school
avg parent ed
pct full credential
pct emer credential
number of students
Percentage free meals in 3
categories
. pwcorr
|
api00
acs_k3
avg_ed grad_sch col_grad some_col
-------------+-----------------------------------------------------api00 |
1.0000
acs_k3 |
0.1710* 1.0000
avg_ed |
0.7930* 0.0794
1.0000
grad_sch |
0.6332* 0.0983* 0.7973* 1.0000
col_grad |
0.5273* -0.0174
0.8089* 0.4439* 1.0000
some_col |
0.2615* 0.0915
0.3031* 0.0718
0.1555* 1.0000
24
23
-----------------------------------------------------------------------------
. regress
Source |
SS
df
MS
-------------+-----------------------------Model | 5056268.54
5 1011253.71
Residual | 2623191.21
373 7032.68421
-------------+-----------------------------Total | 7679459.75
378 20316.0311
Number of obs
F( 5,
373)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
379
143.79
0.0000
0.6584
0.6538
83.861
. vif
Variable |
VIF
1/VIF
-------------+----------------------
_cons |
283.7446
70.32475
4.03
0.000
145.4848
422.0044
------------------------------------------------------------------------------
27
Variable |
VIF
1/VIF
-------------+---------------------col_grad |
1.28
0.782726
grad_sch |
1.26
0.792131
some_col |
1.03
0.966696
acs_k3 |
1.02
0.976666
-------------+---------------------Mean VIF |
1.15
. regress
26
25
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.45725
3.275411
3.50
0.001
5.016669
17.89784
avg_ed |
227.2638
37.2196
6.11
0.000
154.0773
300.4504
grad_sch | -2.090898
1.352292
-1.55
0.123
-4.749969
.5681735
col_grad | -2.967831
1.017812
-2.92
0.004
-4.969199
-.9664626
some_col | -.7604543
.8109676
-0.94
0.349
-2.355096
.8341872
_cons | -82.60913
81.84638
-1.01
0.313
-243.5473
78.32904
------------------------------------------------------------------------------
. vif
avg_ed |
43.57
0.022951
grad_sch |
14.86
0.067274
col_grad |
14.78
0.067664
some_col |
4.07
0.245993
acs_k3 |
1.03
0.971867
-------------+---------------------Mean VIF |
15.66
api00 acs_k3 grad_sch col_grad some_col
Source |
SS
df
MS
-------------+-----------------------------Model | 4180144.34
4 1045036.09
Residual | 3834062.79
393 9755.88497
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Number of obs
F( 4,
393)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
398
107.12
0.0000
0.5216
0.5167
98.772
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.7126
3.664872
3.20
0.002
4.507392
18.91781
grad_sch |
5.634762
.4581979
12.30
0.000
4.733936
6.535588
col_grad |
2.479916
.3395548
7.30
0.000
1.812345
3.147487
some_col |
2.158271
.4438822
4.86
0.000
1.28559
3.030952
CHAPITRE 1. LA MULTICOLINARIT
22
Il sagit dun fichier qui donne les performances acadmique des coles (api00). On cherche
expliquer ces performances par un certain nombre de variables telles que le nombre moyen
denfants par classe en maternelle (acs_k3), le niveau dducation des parents (avg_ed), le pourcentage des parents ayant le niveau lyce (grad_sch), le pourcentage des parents ayant un diplome universitaire (col_grad), et le pourcentage de parents qui ont t luniversit (some_col).
. use http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2, clear
. describe
Contains data from http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2.dta
obs:
400
vars:
22
9 Feb 2002 01:28
size:
15,200 (98.5% of memory free)
------------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------snum
int
%9.0g
school number
dnum
int
%7.0g
dname
district number
api00
int
%6.0g
api 2000
api99
int
%6.0g
api 1999
growth
int
%6.0g
growth 1999 to 2000
meals
byte
%4.0f
pct free meals
ell
byte
%4.0f
english language learners
yr_rnd
byte
%4.0f
yr_rnd
year round school
mobility
byte
%4.0f
pct 1st year in school
acs_k3
byte
%4.0f
avg class size k-3
acs_46
byte
%4.0f
avg class size 4-6
not_hsg
byte
%4.0f
parent not hsg
hsg
byte
%4.0f
parent hsg
some_col
byte
%4.0f
parent some college
col_grad
byte
%4.0f
parent college grad
grad_sch
byte
%4.0f
parent grad school
avg_ed
float %9.0g
avg parent ed
full
byte
%8.2f
pct full credential
emer
byte
%4.0f
pct emer credential
enroll
int
%9.0g
number of students
mealcat
byte
%18.0g
mealcat
Percentage free meals in 3
categories
collcat
float %9.0g
-----------------------------------------------------------------------------
On commence par sortir un tableau de corrlation pour voir quelles sont les relations entre
les variables.
. pwcorr
|
api00
acs_k3
avg_ed grad_sch col_grad some_col
-------------+------------------------------------------------------
|
|
|
|
|
|
1.0000
0.1710* 1.0000
0.7930* 0.0794
0.6332* 0.0983*
0.5273* -0.0174
0.2615* 0.0915
1.0000
0.7973*
0.8089*
0.3031*
1.0000
0.4439*
0.0718
23
1.0000
0.1555*
1.0000
Source |
SS
df
MS
-------------+-----------------------------Model | 5056268.54
5 1011253.71
Residual | 2623191.21
373 7032.68421
-------------+-----------------------------Total | 7679459.75
378 20316.0311
Number of obs
F( 5,
373)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
379
143.79
0.0000
0.6584
0.6538
83.861
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.45725
3.275411
3.50
0.001
5.016669
17.89784
avg_ed |
227.2638
37.2196
6.11
0.000
154.0773
300.4504
grad_sch | -2.090898
1.352292
-1.55
0.123
-4.749969
.5681735
col_grad | -2.967831
1.017812
-2.92
0.004
-4.969199
-.9664626
some_col | -.7604543
.8109676
-0.94
0.349
-2.355096
.8341872
_cons | -82.60913
81.84638
-1.01
0.313
-243.5473
78.32904
-----------------------------------------------------------------------------. vif
Variable |
VIF
1/VIF
-------------+---------------------avg_ed |
43.57
0.022951
grad_sch |
14.86
0.067274
col_grad |
14.78
0.067664
some_col |
4.07
0.245993
acs_k3 |
1.03
0.971867
-------------+---------------------Mean VIF |
15.66
On constate que les valeurs pour avg_ed, grad_sch et col_grad sont leves et donc plutt inquitantes. En fait
toutes ces variables mesurent le niveau dducation des parents et le VIF lev indique que ces variables sont sans
doute redondantes. Par exemple, il suffit de connatre grad_sch et col_grad pour connatre le niveau dducation
des parents avg_ed. Dans cet exemple, la multicolinarit se produit parce que de nombreuses variables mesurent le
mme phnomne savoir le niveau dducation des parents. Essayons domettre une varible, mettons avg_ed.
. regress
Source |
SS
df
MS
-------------+-----------------------------Model | 4180144.34
4 1045036.09
Number of obs =
F( 4,
393) =
Prob > F
=
398
107.12
0.0000
24
CHAPITRE 1. LA MULTICOLINARIT
Residual | 3834062.79
393 9755.88497
-------------+-----------------------------Total | 8014207.14
397 20186.9197
R-squared
=
Adj R-squared =
Root MSE
=
0.5216
0.5167
98.772
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.7126
3.664872
3.20
0.002
4.507392
18.91781
grad_sch |
5.634762
.4581979
12.30
0.000
4.733936
6.535588
col_grad |
2.479916
.3395548
7.30
0.000
1.812345
3.147487
some_col |
2.158271
.4438822
4.86
0.000
1.28559
3.030952
_cons |
283.7446
70.32475
4.03
0.000
145.4848
422.0044
-----------------------------------------------------------------------------. vif
Variable |
VIF
1/VIF
-------------+---------------------col_grad |
1.28
0.782726
grad_sch |
1.26
0.792131
some_col |
1.03
0.966696
acs_k3 |
1.02
0.976666
-------------+---------------------Mean VIF |
1.15
On remarque que les VIF sont bien moins leves. On peut galement remarquer que les
cart-types se sont rduits pour les variables dducation des parents grad_sch et col_grad. Ceci
sexplique par le fait que le degr lev de colinarit a conduit une augmentation importante
des cart-types. Par ailleurs, une fois la multicolinarit limine, le coefficient de grad_sch est
devenu significatif alors quil ne ltait pas auparavant !
UNIVERSITE DE PARIS 11
Fiche de TD 2 : la multicolinarit
Il sagit dun fichier qui donne les performances acadmique des coles (api00). On cherche
expliquer ces performances par un certain nombre de variables telles que le nombre moyen
denfants par classe en maternelle (acs_k3), le niveau dducation des parents (avg_ed), le pourcentage des parents ayant le niveau lyce (grad_sch), le pourcentage des parents ayant un diplome universitaire (col_grad), et le pourcentage de parents qui ont t luniversit (some_col).
1. Y a t-il de la multicolinarit dans la premire rgression ? Par quels biais le remarquezvous ?
2. Dterminez la VIF pour avg_ed
3. Quelles solutions peut-on envisager pour rsoudre le problme ? Comment justifiezvous cette solution ?
. pwcorr
|
api00
acs_k3
avg_ed grad_sch col_grad some_col
-------------+-----------------------------------------------------api00 |
1.0000
acs_k3 |
0.1710* 1.0000
avg_ed |
0.7930* 0.0794
1.0000
grad_sch |
0.6332* 0.0983* 0.7973* 1.0000
col_grad |
0.5273* -0.0174
0.8089* 0.4439* 1.0000
some_col |
0.2615* 0.0915
0.3031* 0.0718
0.1555* 1.0000
. regress
Source |
SS
df
MS
-------------+-----------------------------Model | 5056268.54
5 1011253.71
Residual | 2623191.21
373 7032.68421
-------------+-----------------------------Total | 7679459.75
378 20316.0311
Number of obs
F( 5,
373)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
379
143.79
0.0000
0.6584
0.6538
83.861
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.45725
3.275411
3.50
0.001
5.016669
17.89784
avg_ed |
227.2638
37.2196
6.11
0.000
154.0773
300.4504
grad_sch | -2.090898
1.352292
-1.55
0.123
-4.749969
.5681735
col_grad | -2.967831
1.017812
-2.92
0.004
-4.969199
-.9664626
some_col | -.7604543
.8109676
-0.94
0.349
-2.355096
.8341872
_cons | -82.60913
81.84638
-1.01
0.313
-243.5473
78.32904
------------------------------------------------------------------------------
regress
avg_ed
Source |
SS
df
MS
-------------+-----------------------------Model | 216.114961
4 54.0287402
Residual | 5.07665699
374 .013573949
-------------+-----------------------------Total | 221.191618
378
.58516301
Number of obs
F( 4,
374)
Prob > F
R-squared
Adj R-squared
Root MSE
=
379
= 3980.33
= 0.0000
= 0.9770
= 0.9768
= .11651
-----------------------------------------------------------------------------avg_ed |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
.0004584
.0045504
0.10
0.920
-.0084892
.0094061
grad_sch |
.0347897
.0005417
64.22
0.000
.0337245
.0358549
col_grad |
.0261866
.0004074
64.28
0.000
.0253855
.0269876
some_col |
.0188694
.0005634
33.49
0.000
.0177616
.0199771
_cons |
1.412384
.0871539
16.21
0.000
1.241011
1.583757
-----------------------------------------------------------------------------. vif
Variable |
VIF
1/VIF
-------------+---------------------avg_ed |
43.57
0.022951
grad_sch |
14.86
0.067274
col_grad |
14.78
0.067664
some_col |
4.07
0.245993
acs_k3 |
1.03
0.971867
-------------+---------------------Mean VIF |
15.66
. regress
Source |
SS
df
MS
-------------+-----------------------------Model | 4180144.34
4 1045036.09
Residual | 3834062.79
393 9755.88497
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Number of obs
F( 4,
393)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
398
107.12
0.0000
0.5216
0.5167
98.772
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
11.7126
3.664872
3.20
0.002
4.507392
18.91781
grad_sch |
5.634762
.4581979
12.30
0.000
4.733936
6.535588
col_grad |
2.479916
.3395548
7.30
0.000
1.812345
3.147487
some_col |
2.158271
.4438822
4.86
0.000
1.28559
3.030952
_cons |
283.7446
70.32475
4.03
0.000
145.4848
422.0044
------------------------------------------------------------------------------
Lautocorrelation.
Dans le cas de donnees en coupe transversale, le fait que les erreurs ne sont plus independantes peut e tre du a` des effets de voisinage. Les observations qui sont semblables auront leurs erreurs
correlees.
Lorsque lon consid`ere des donnees en series temporelles, une
relation similaire peut e tre observee pour les donnees au cours du
temps. Les observations qui sont proches dans le temps seront
correlees, limportance de la correlation augmente avec leur proximite dans le temps. Bien quil ny ait pas de mesure de proximite
des variables dans le cas des series en coupe, dans le cas des series
temporelles, la proximite est definie naturellement par le temps qui
secoule, on parle dautocorrelation.
On impose une restriction || < 1 pour sassurer que est stationnaire et de variance finie, ce qui implique que les effets
dun choc ut se dissiperont au cours du temps.
Si = 1, le processus est totalement aleatoire, e galement qualifie de random walk, ce qui implique que la variance de est
infinie et qu devient non stationnaire, e galement qualifie de
processus integre dordre un et note I(1).
Plus sera grand en valeur absolue et plus les chocs seront
persistants au cours du temps et plus les erreurs t seront autocorrelees. En effet, dans le cas du mod`ele AR(1), la fonction
dautocorrelation des sera une suite geometrique , 2, 3, . . . ,
et la correlation entre erreurs separees par periodes sera .
Definir lautocorrelation
Tester lautocorrelation
2. Une variante du test de Breusch-Godfrey est donnee par la statistique Q de Box et Pierce, suivant la definition de Ljung et Box,
qui examine les premi`eres p autocorrelations de lechantillon
des residus :
rj2
(2)
j=1 T j
rj2 est la j`eme autocorrelation de la serie des residus. Contrairement au test de Breusch-Godfrey, le test du Q sappuie sur les
simples correlations des residus plutot que les correlation partielles. Pour cette raison, ce test est moins puissant que celui de
Breusch-Godfrey lorsque lhypoth`ese nulle (de non correlation
entre les jusqu`a lordre p) est rejetee.
Neanmoins le test du Q peut e tre applique a` toute serie temQ = T (T + 2)
p
)
t=2 (t t1
T
2
t
t=2
T
2(1 )
2.0.1
Application
-----------------------------------------------------------------------D.rs |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------r20 |
LD. |
.4882883
.0671484
7.27
0.000
.356374
.6202027
_cons |
.0040183
.022384
0.18
0.858 -.0399555
.0479921
------------------------------------------------------------------------
On fait la regression et on sauvegarde les residus a` laide de predict afin de realiser le test wntestq.
524
52.88
0.0000
0.0920
0.0902
.51228
0.10
0.15
Number of obs
F( 1,
522)
Prob > F
R-squared
Adj R-squared
Root MSE
Autocorrelations of eps
0.05
0.00
0.05
0.10
Source |
SS
df
MS
---------+-----------------------------Model | 13.8769739
1 13.8769739
Residual | 136.988471
522 .262430021
---------+-----------------------------Total | 150.865445
523 .288461654
10
20
Lag
30
40
1 2 0 . . . 0
1
.
.
.
0
1
2
.
.
.
.
. . .
.
.
=
0
1 0
0
. . . 1
Comme pour lheteroscedasticite, on ne construit pas explicitement cette matrice, en revanche on applique la methode des moindres carres generalises en transformant les variables originales. Pour
0:
1:
2:
3:
4:
5:
6:
7:
8:
9:
rho
rho
rho
rho
rho
rho
rho
rho
rho
rho
=
=
=
=
=
=
=
=
=
=
0.0000
0.1488
0.1803
0.1874
0.1891
0.1894
0.1895
0.1895
0.1895
0.1895
Number of obs
F( 1,
522)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
524
25.73
0.0000
0.0470
0.0452
.50505
-----------------------------------------------------------------------D.rs |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------r20 |
LD. |
.3495857
.068912
5.07
0.000
.2142067
.4849647
_cons |
.0049985
.0272145
0.18
0.854 -.0484649
.0584619
---------+-------------------------------------------------------------rho |
.1895324
-----------------------------------------------------------------------Durbin-Watson statistic (original)
1.702273
(3)
N k1 N k1
Si la condition desperance nulle est vraie mais que les erreurs
ne sont pas i.i.d., les MCO produiront des estimations qui suivent une loi normale pour les grands e chantillons centres sur la
moyenne mais pour lesquelles la matrice des variances-covariances
Resume et conclusion
s2 =
2i
i=1
N
Larbitrage entre les deux methodes est un arbitrage entre la robustesse et lefficacite
Une approche robuste imposera moins de restrictions a` lestimateur
: lidee est que lestimation des coefficients est suffisante et
4.0.2
Annexe
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Autocorrlation
1 Problme 1
Vous disposez de donnes agrges portant sur linvestissement invest, les taux dintrt
interest et le PNB GNP sur 30 annes (1960 1989).
1. Analysez le tableau de la rgression ci-dessous.
2. Proposez un test du Durbin et Watson. Quelles sont vos conclusions ?
. use invest.dta", clear
. tsset year /* cette commande indique quil sagit de variables temporelles*/
time variable: year, 60 to 89
. regdw
invest GNP
interest
Source |
SS
df
MS
-------------+-----------------------------Model | 1329.98699
2 664.993493
Residual | 299.335855
27 11.0865131
-------------+-----------------------------Total | 1629.32284
29 56.1835462
Number of obs
F( 2,
27)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
30
59.98
0.0000
0.8163
0.8027
3.3296
-----------------------------------------------------------------------------invest |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------GNP |
.7699114
.0717905
10.72
0.000
.6226094
.9172134
interest | -.1841962
.1264157
-1.46
0.157
-.4435798
.0751874
_cons |
6.224938
2.510894
2.48
0.020
1.073009
11.37687
-----------------------------------------------------------------------------Durbin-Watson Statistic =
.852153
3. On vous propose le graphique suivant. Laspect des rsidus corrobore-t-il vos conclusions
pour le test du Durbin et Watson ?
. predict res, resid
. scatter res year, yline(0)
4
2
Residuals
2
0
4
6
60
70
80
90
year
4. Il vous est propos deux tests de Breusch-Godfrey ? Quelle est la diffrence entre les deux
tests ? Quelles sont vos conclusions ?
. reg invest GNP interest
Source |
SS
df
MS
-------------+-----------------------------Model | 1329.98699
2 664.993493
Residual | 299.335855
27 11.0865131
-------------+-----------------------------Total | 1629.32284
29 56.1835462
Number of obs
F( 2,
27)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
30
59.98
0.0000
0.8163
0.8027
3.3296
-----------------------------------------------------------------------------invest |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------GNP |
.7699114
.0717905
10.72
0.000
.6226094
.9172134
interest | -.1841962
.1264157
-1.46
0.157
-.4435798
.0751874
_cons |
6.224938
2.510894
2.48
0.020
1.073009
11.37687
-----------------------------------------------------------------------------. estat bgodfrey, lags(1)
Breusch-Godfrey LM test for autocorrelation
--------------------------------------------------------------------------lags(p) |
chi2
df
Prob > chi2
-------------+------------------------------------------------------------1
|
10.025
1
0.0015
--------------------------------------------------------------------------H0: no serial correlation
. estat bgodfrey, lags(4)
Breusch-Godfrey LM test for autocorrelation
--------------------------------------------------------------------------lags(p) |
chi2
df
Prob > chi2
-------------+------------------------------------------------------------4
|
11.918
4
0.0180
0:
1:
2:
3:
4:
5:
6:
7:
rho
rho
rho
rho
rho
rho
rho
rho
=
=
=
=
=
=
=
=
0.0000
0.5677
0.6234
0.6272
0.6275
0.6275
0.6275
0.6275
Number of obs
F( 2,
27)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
30
19.34
0.0000
0.5890
0.5585
2.646
-----------------------------------------------------------------------------invest |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------GNP |
.7337751
.125379
5.85
0.000
.4765187
.9910315
interest | -.2893788
.0766134
-3.78
0.001
-.4465765
-.1321812
_cons |
8.704382
3.110804
2.80
0.009
2.321539
15.08723
-------------+---------------------------------------------------------------rho |
.6275201
-----------------------------------------------------------------------------Durbin-Watson statistic (original)
0.852153
Durbin-Watson statistic (transformed) 1.619036
2 Problme 2
1. On vous propose la rgression suivante pour des donnes allant de 1950 1999. Yt reprsente le PIB agrg et Ct la consommation en t. Les tableaux de rgressions vous donnent
les cart-types entre parenthse et DW est la statistique du Durbin et Watson. Analysez le
tableau de la rgression OLS(1), est-il satisfaisante ?
2. La seconde rgression OLS(2) apporte-t-elle une amlioration ?
Dependent variable : Yt National Income
----------------------------------------OLS(1)
OLS(2)
----------------------------------------C(t)
0.800
0.250
(0.004)
(0.200)
C(t-1)
0.540
(0.300)
Constant
10.598
10.660
(0.335)
(5.500)
R2
0.915
0.995
DW
0.450
1.521
----------------------------------------
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Autocorrlation
1 Problme 1
Vous disposez de donnes agrges portant sur linvestissement invest, les taux dintrt
interest et le PNB GNP sur 30 annes (1960 1989).
1. Analysez le tableau de la rgression ci-dessous.
On cherche tester limpact du PIB et du taux dintrt sur linvestissement. Le PIB rend
compte dun effet revenu (si le PIB augmente, le revenu augmente et par consquent on
peut imaginer que les entreprises vont faire face cette demande par de linvestissement)
alors que linvestissement rend compte dun effet prix (si les taux dintrt baissent, le
cot de lemprunt diminue et les entreprises sont incites investir). La rgression montre
que nos hypothses sont confirmes au niveau du signe, en revanche, le taux dintrt ne
semble pas significatif.
2. Proposez un test du Durbin et Watson. Quelles sont vos conclusions ?
DW = 0,8521, il y a deux variables explicatives, k = 2, et il y a 30 observations par
consquent 5%, dL = 1, 2 et dU = 1, 57
DW < dL , on rejette donc lhypothse nulle de non autocorrlation des rsidus. On
conclut donc quil y a de lautocorrlation.
Par consquent, les coefficients de la mthode des MCO sont donc non biaiss mais les
cart-types des coefficients sont biaiss. Par consquent, les statistiques du student et du
Fisher de mme que les intervalles de confiance ne sont pas acceptables.
. use invest.dta", clear
. tsset year /* cette commande indique quil sagit de variables temporelles*/
time variable: year, 60 to 89
. regdw
invest GNP
interest
Source |
SS
df
MS
-------------+-----------------------------Model | 1329.98699
2 664.993493
Residual | 299.335855
27 11.0865131
-------------+-----------------------------Total | 1629.32284
29 56.1835462
Number of obs
F( 2,
27)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
30
59.98
0.0000
0.8163
0.8027
3.3296
-----------------------------------------------------------------------------invest |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------GNP |
.7699114
.0717905
10.72
0.000
.6226094
.9172134
interest | -.1841962
.1264157
-1.46
0.157
-.4435798
.0751874
_cons |
6.224938
2.510894
2.48
0.020
1.073009
11.37687
-----------------------------------------------------------------------------Durbin-Watson Statistic =
.852153
3. On vous propose le graphique suivant. Laspect des rsidus corrobore-t-il vos conclusions
pour le test du Durbin et Watson ?
Le graphique suggre des priodes dautocorrlations positives (dans les annes 1960)
suivies dautocorrlations ngatives (dans les annes 1970) suivies dautocorrlation postivies (dans les annes 1980). Ces successions dautocorrlations positives et ngatives
sont un signe dautocorrlation positive dun degr suprieur 1. Or le test de DW ne
teste que lautocorrlation dordre 1.
. predict res, resid
Residuals
2
0
60
70
80
90
year
4. Il vous est propos deux tests de Breusch-Godfrey ? Quelle est la diffrence entre les deux
tests ? Quelles sont vos conclusions ?
Le test de BG test lexistence dautocorrlation lordre p. Ici on teste lordre 1 puis
lordre 4. Dans les deux cas, on rejette lhypothse nulle de non autocorrlation.
1 = 10.025 > 1 (5%) = 3, 84 et 4 = 11.918 > 4 (5%) = 9, 49
. reg invest GNP interest
. estat bgodfrey, lags(1)
Breusch-Godfrey LM test for autocorrelation
--------------------------------------------------------------------------lags(p) |
chi2
df
Prob > chi2
-------------+------------------------------------------------------------1
|
10.025
1
0.0015
--------------------------------------------------------------------------H0: no serial correlation
. estat bgodfrey, lags(4)
Breusch-Godfrey LM test for autocorrelation
--------------------------------------------------------------------------lags(p) |
chi2
df
Prob > chi2
-------------+-------------------------------------------------------------
4
|
11.918
4
0.0180
--------------------------------------------------------------------------H0: no serial correlation
0:
1:
2:
3:
4:
5:
6:
7:
rho
rho
rho
rho
rho
rho
rho
rho
=
=
=
=
=
=
=
=
0.0000
0.5677
0.6234
0.6272
0.6275
0.6275
0.6275
0.6275
Number of obs
F( 2,
27)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
30
19.34
0.0000
0.5890
0.5585
2.646
-----------------------------------------------------------------------------invest |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------GNP |
.7337751
.125379
5.85
0.000
.4765187
.9910315
interest | -.2893788
.0766134
-3.78
0.001
-.4465765
-.1321812
_cons |
8.704382
3.110804
2.80
0.009
2.321539
15.08723
-------------+---------------------------------------------------------------rho |
.6275201
-----------------------------------------------------------------------------Durbin-Watson statistic (original)
0.852153
Durbin-Watson statistic (transformed) 1.619036
2 Problme 2
1. On vous propose la rgression suivante pour des donnes allant de 1950 1999. Yt reprsente le PIB agrg et Ct la consommation en t. Les tableaux de rgressions des MCO
vous donnent les cart-types entre parenthse et DW est la statistique du Durbin et Watson. Analysez le tableau de la rgression OLS(1), est-il satisfaisante ?
On dispose de 50 annes de donnes, pour n=50 et k = 1 5%, dL = 1, 50 et dU = 1, 59
On rejette donc lhypothse nulle puisque DW = 0,45
Par consquent, les coefficients de la mthode des MCO sont donc non biaiss mais les
cart-types des coefficients sont biaiss. Par consquent, les statistiques du student et du
Fisher de mme que les intervalles de confiance ne sont pas acceptables.
Lheteroscedasticite.
La methode des moindres carres ordinaires suppose que les erreurs sont independantes et distribuees de mani`ere identique
(- i.i.d.).
Cette hypoth`ese est violee lorsque :
la variance des erreurs, conditionnelle aux variables explicatives (ou regresseurs) varie avec les observations. A ce moment
l`a, lhypoth`ese de distribution identique est violee. Ce probl`eme
est connu sous le terme dheteroscedasticite des erreurs par opposition a` lhomoscedasticite ou variance commune.
Lorsque les erreurs sont i.i.d., on suppose quelles sont conditionnellement homoscedastiques : les regresseurs napportent
pas dinformation concernant la variance des erreurs.
Lorsque les erreurs sont correlees les unes aux autres, elles ne
sont plus distribuees de mani`ere independante; on parle alors
dautocorrelation des erreurs - chapitre suivant.
1
1.1.1
(2)
1.1.2
Application
Source |
SS
df
MS
-----------+-----------------------------Model | 47.9496883
3 15.9832294
Residual | 36.6325827
502 .072973272
-----------+-----------------------------Total | 84.5822709
505 .167489645
Number of obs
F( 3,
502)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
506
219.03
0.0000
0.5669
0.5643
.27014
---------------------------------------------------------------------------lprice |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-----------+---------------------------------------------------------------rooms |
.3072343
.0178231
17.24
0.000
.2722172
.3422514
crime | -.0174486
.001591
-10.97
0.000
-.0205744
-.0143228
ldist |
.074858
.0255746
2.93
0.004
.0246115
.1251045
_cons |
7.984449
.1128067
70.78
0.000
7.762817
8.20608
---------------------------------------------------------------------------. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of lprice
chi2(1)
Prob > chi2
. estat hettest
=
=
140.84
0.0000
=
=
252.60
0.0000
. whitetst
Whites general test statistic :
144.0052
Chi-sq( 9)
P-value =
1.5e-26
1.2
ou lindustrie, etc).
Sil y a plus de deux groupes, par exemple, un ensemble de
10 industries, cette procedure nest pas possible. On peut alors
utiliser la commande robvar. Loption by groupvar est ici aussi
specifiee1 .
Dapr`es laide dans Stata : robvar reports Levenes statistic (W 0)
and two statistics proposed by Brown and Forsythe that replace the
mean in Levenes formula with alternative location estimators. The
first alternative (W 50) replaces the mean with the median. The
second alternative replaces the mean with the 10 percent trimmed
mean (W 10).
1
1.2.2
Application
Prenons comme exemple, les donnees portant sur six Etats americains
de la Nouvelle Angleterre entre 1981 et 1990. Les statistiques descriptives sont obtenues a` laide de la commande summarize pour
la variable dpipc - state disposable personal income per capita, a`
savoir le revenu disponible par habitant.
. use http://www.stata-press.com/data/imeus/NEdata, clear
. summarize dpipc
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------dpipc |
120
18.15802
5.662848
8.153382
33.38758
La r
egression de dpipc sur lann
ee (\textsf{year}) nous donne une tendance du
revenu au cours du temps.
. regress
dpipc year
Source |
SS
df
MS
----------+-----------------------------Model | 3009.33617
1 3009.33617
Residual | 806.737449
118 6.83675804
----------+-----------------------------Total | 3816.07362
119 32.0678456
Number of obs
F( 1,
118)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
120
440.17
0.0000
0.7886
0.7868
2.6147
--------------------------------------------------------------------------dpipc |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------year |
.8684582
.0413941
20.98
0.000
.7864865
.9504298
_cons | -1710.508
82.39534
-20.76
0.000
-1873.673
-1547.343
---------------------------------------------------------------------------
= 4.3882072
df(5, 114)
Pr > F = .00108562
W50 = 3.2989849
df(5, 114)
Pr > F = .00806752
W10 = 4.2536245
df(5, 114)
Pr > F = .00139064
1.3
e tant donne lhypoth`ese desperance conditionnelle nulle des erreurs, la variance de lestimateur (conditionnel a` X) secrit :
(3)
V ar[|X]
= E[(XX)1XX(XX)1]
= (XX)1(XX)(XX)1
(4)
1. Pure heteroscedasticite
Lorsquil y a heteroscedasticite pure, est une matrice diagonale et cela viole lhypoth`ese de distribution identique. Lorsque
les e lements de la diagonale diff`erent, la variance de , conditionnelle a` X, varie selon les observations.
12
0
= E(N ) = .
.
0
0
22
..
0
...
...
...
...
0
0
..
2
N
2. Le regroupement dobservations
Les observations peuvent e tre regroupees en plusieurs groupes
separes, aussi appeles clusters au sein desquels les erreurs sont
correlees. Le regroupement a pour consequence de rendre la
matrice bloc-diagonale parce que les erreurs des differents
groupes sont independantes. Ce cas viole lhypoth`ese de distribution independante dune mani`ere particuli`ere puisque chaque
groupe peut avoir sa propre variance des erreurs.
Exemple : dans le cas des depenses des menages, il peut y
avoir une correlation des erreurs pour les menages habitants
dans le meme voisinage. En effet, habituellement le voisinage
regroupera des menages ayant des caracteristiques socioprofessionnelles et de revenu similaires.
1 0 . . . 0
0 ... 0
= . .m . .
. ..
. .
0 0 . . . M
1
1
..
1 . . . 2N 1
1
.
.
.
2N 3
2
=
..
..
...
1
N 1 2N 3 . . .
1, 2, . . . , [N (N 1)]/2 representent les correlations entre les e lements
successifs des erreurs. Ce cas viole e galement lhypoth`ese de
distribution independante des erreurs .
2.2
nellement heteroscedastiques.
Il nous faut estimer le terme (X E[|X]X) de la variance qui
est pris en sandwich entre les termes (X X)1.
V ar[|X]
= (XX)1(XX)(XX)1]
(5)
1
1
(6)
= (X X) (X E[ |X]X)(X X)
Hubert (1967) et White (1980) ont montre que
N 2
1
S0 =
x xi
(7)
N i=1 i i
permet destimer (X E[|X]X) lorsque i est conditionnellement
heteroscedastique.
Si lon substitue lestimateur (7) a` son e quivalent pour la population a` partir de (5), on obtient un estimateur de la matrice de
N 2
N
1
(X X) i XiXi (XX)1
(8)
V ar[|X]
=
i=1
N k
Loption robust dans stata applique lestimateur sandwich. Lorsque
lon calcule des e cart-types robustes cela affecte les e cart-types
Application
la mesure o`u la variable dependante est un entier, il faudrait appliquer une procedure de Poisson, mais dans ce cas, nous utiliseront une regression lineaire
Number of obs
F( 3, 3209)
Prob > F
R-squared
Adj R-squared
Root MSE
=
3213
= 1433.16
= 0.0000
= 0.5726
= 0.5722
=
1.463
--------------------------------------------------------------------------ceb |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------age |
.2237368
.003448
64.89
0.000
.2169763
.2304974
agefbrth | -.2606634
.0087954
-29.64
0.000
-.2779085
-.2434184
usemeth |
.1873702
.0554298
3.38
0.001
.0786888
.2960516
_cons |
1.358134
.1737828
7.82
0.000
1.017397
1.69887
---------------------------------------------------------------------------
Number of obs
F( 3, 3209)
Prob > F
R-squared
Root MSE
=
=
=
=
=
3213
874.06
0.0000
0.5726
1.463
---------------------------------------------------------------------------|
Robust
ceb |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------age |
.2237368
.0046619
47.99
0.000
.2145962
.2328775
agefbrth | -.2606634
.0095616
-27.26
0.000
-.2794109
-.2419159
usemeth |
.1873702
.0606446
3.09
0.002
.0684642
.3062762
_cons |
1.358134
.1675624
8.11
0.000
1.029593
1.686674
---------------------------------------------------------------------------. estimates store Robust
| .17378284
.16756239
|
7.82
8.11
---------------------------------------legend: b/se/t
Contrairement a` nos attentes, lusage dun contraceptif ne semble pas avoir deffet negatif sur le nombre denfants nes alors meme
que la variable apparat significative. Par ailleurs, il ne semble pas
y avoir de difference notable entre la regression robuste et la simple
regression indiquant quil ny a pas dheteroscedasticite conditionnelle.
Stata propose un estimateur robuste de la matrice des variancescovariances des coefficients lorsque les erreurs sont correlees au
sein des groupes et non distribuees de mani`ere independante.
Cet estimateur est qualifie de cluster-robust-VCE estimator.
La correlation au sein des groupes produit une matrice qui
est diagonale par blocs avec des e lements differents de zero au
sein de chaque bloc sur la diagonale. Cette construction permet
lautocorrelation au sein des groupes mais les erreurs des differents
groupes ne sont pas correlees.
Lorsque lon ignore les correlations au sein des groupes, les estimations produisent des estimateurs des variance-covariances non
convergents. Dans la mesure o`u lestimation robust de la matrice
des variance-covariances suppose que les erreurs sont distribuees
de mani`ere independante, son estimation (X E[|X]X) nest par
consequent pas convergente.
Lapplication de la commande cluster naffecte pas lestimation
du coefficient3 mais simplement lestimation de la matrice des variances et covariances du coefficient. Loption cluster() suppose que
lon specifie une variable dappartenance a` un groupe qui indique
comment les observations sont regroupees.
3a
`
M
N 1 M
V ar[|X]
=
(XX)1 j j (XX)1
j=1
N kM 1
(9)
k
o`u M represente le nombre de clusters, j = i=1
ixi, Nj represente
le nombre dobservations du j`eme cluster, i est alors le i`eme residu
du j`eme cluster, et xi un vecteur de regresseurs de taille 1 k de la
i`eme observation du j`eme cluster.
3.0.2
Application
En presence dheteroscedasticite et dautocorrelation, il est possible dutiliser lestimateur Newey-West (1987). Cet estimateur a
la meme forme que lestimateur robuste pour les clusters, mais il
utilise un estimateur different pour (XE[|X]X). Plutot que de
specifier une variable de cluster, lestimateur Newey-West requiert
que lon specifie lordre maximal dautocorrelation des erreurs connu comme le decalage maximal, note L.
En plus du terme qui ajuste lestimateur pour lheteroscedasticite,
lestimateur utilise des produits croises ponderes des residus pour
3.1.1
Application
1.
2.
3.
4.
5.
6.
+---------------------------------------+
|
r20
lr20
dr20
ldr20 |
|---------------------------------------|
| 4.33
.
.
. |
| 4.23
4.33
-.0999999
. |
| 4.36
4.23
.1300001
-.0999999 |
| 4.57
4.36
.21
.1300001 |
| 4.36
4.57
-.21
.21 |
|---------------------------------------|
| 4.11
4.36
-.25
-.21 |
7.
8.
9.
10.
|
4.2
4.11
.0899997
-.25 |
| 4.19
4.2
-.0099998
.0899997 |
| 4.15
4.19
-.04
-.0099998 |
| 4.22
4.15
.0699997
-.04 |
|---------------------------------------|
11. | 4.13
4.22
-.0899997
.0699997 |
12. |
4.1
4.13
-.0300002
-.0899997 |
Number of obs
F( 1,
522)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
524
52.88
0.0000
0.0920
0.0902
.51228
--------------------------------------------------------------------------D.rs |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------r20 |
LD. |
.4882883
.0671484
7.27
0.000
.356374
.6202027
_cons |
.0040183
.022384
0.18
0.858
-.0399555
.0479921
---------------------------------------------------------------------------
Number of obs
F( 1,
522)
Prob > F
=
=
=
524
36.00
0.0000
--------------------------------------------------------------------------|
Newey-West
D.rs |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------r20 |
LD. |
.4882883
.0813867
6.00
0.000
.3284026
.648174
_cons |
.0040183
.0254102
0.16
0.874
-.0459004
.0539371
--------------------------------------------------------------------------. estimates store NeweyWest
(10)
(11)
avec
4.1
(12)
yi = 0 + 1xi1 + . . . + k xik + i
(14)
o`u = 1/zi.
(13)
4.1.1
Application
Number of obs
F( 3,
502)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
506
159.98
0.0000
0.4888
0.4857
.28727
--------------------------------------------------------------------------lprice |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------rooms |
.2345368
.0194432
12.06
0.000
.1963367
.272737
crime | -.0175759
.0016248
-10.82
0.000
-.0207682
-.0143837
ldist |
.0650916
.027514
2.37
0.018
.0110349
.1191483
_cons |
8.450081
.1172977
72.04
0.000
8.219626
8.680536
------------------------------------------------------------------------------
4.2
Si differents groupes dobservations ont des erreurs avec des variances differentes, il est possible dappliquer la methode des moindres carres generalises avec une ponderation analytique.
Dans le cadre des groupes, on definit la ponderation analytique
comme une valeur constante pour chaque observation dans un groupe.
Cette valeur est calculee comme la variance estimee des residus
MCO de ce groupe. A laide de la serie des residus ainsi obtenus,
on peut construire une estimation de la variance pour chaque groupe,
chaque Etat ou region par exemple, avec la commande egen et engendrer ainsi une serie de poids analytique.
4.2.1
Application
RI | .6340872
2.48715
VT | .7147098 1.957675
------+-------------------Total | .8538824 1.688761
---------------------------
Number of obs
F( 1,
118)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
120
698.19
0.0000
0.8554
0.8542
2.0188
--------------------------------------------------------------------------dpipc |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------year |
.8444948
.0319602
26.42
0.000
.7812049
.9077847
_cons |
-1663.26
63.61705
-26.14
0.000
-1789.239
-1537.281
---------------------------------------------------------------------------
Si on compare ces resultats avec ceux obtenus plus haut sur une
Application
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------read_scr |
420
654.9705
20.10798
604.5
704
expn_stu |
420
5312.408
633.9371
3926.07
7711.507
comp_stu |
420
.1359266
.0649558
0
.4208333
meal_pct |
420
44.70524
27.12338
0
100
enrl_tot |
420
2628.793
3913.105
81
27176
Number of obs
F( 3,
416)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
420
565.36
0.0000
0.8030
0.8016
8.9561
--------------------------------------------------------------------------read_scr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------expn_stu |
.0046699
.0007204
6.48
0.000
.0032538
.006086
comp_stu |
19.88584
7.168347
2.77
0.006
5.795143
33.97654
meal_pct |
-.635131
.0164777
-38.54
0.000
-.667521
-.602741
_cons |
655.8528
3.812206
172.04
0.000
648.3592
663.3464
---------------------------------------------------------------------------
Number of obs
F( 3,
416)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
420
906.75
0.0000
0.8674
0.8664
6.7432
--------------------------------------------------------------------------read_scr |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------expn_stu |
.0055534
.0008322
6.67
0.000
.0039176
.0071892
comp_stu |
27.26378
8.197228
3.33
0.001
11.15063
43.37693
meal_pct | -.6352229
.013149
-48.31
0.000
-.6610696
-.6093762
_cons |
648.988
4.163875
155.86
0.000
640.8031
657.1728
---------------------------------------------------------------------------
Lorsque lon introduit les ponderations, les coefficients sont modifies et le Root MSE est sensiblement reduit.
En effet, si on donne le meme poids aux grands et aux petits
e tablissements, on donne en fait trop dimportance aux petits e tablissements
et pas assez aux grands.
Ainsi, limpact du nombre dordinateurs par e tudiant est presque
50% superieur dans le cas o`u lon tient compte de la ponderation,
et limpact des depenses par e l`eve est plus faible dans le mod`ele
MCO. La ponderation apporte e galement une meilleure precision
dans les estimations.
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Heteroscdasticit
1 Problme 1
Pour ce problme, il vous ait demand de travailler partir du fichier hetdat2.dta"
Cette base de donnes comprend des informations sur les niveaux de PIB (GDP) et les
population de 40 pays de lOCDE :
1. Ouvrez le fichier hetdat2.dta dans Stata et fates un graphique de la production manufacturire (manuf) en fonction du PIB - GDP -. Pour obtenir le nom des pays sur le graphique,
utilisez la commande suivante :
twoway (scatter manuf gdp, mlabel(country)), ytitle(manuf) xtitle(gdp)
2. Fates la rgression de la production manufacturire sur le PIB, sauvegardez les rsidus et
proposez un graphique des rsidus en fonction du PIB
3. Que vous apprend laspect des rsidus ?
4. On vous propose le test de Breush et Pagan suivant quen dduisez-vous ?
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of manuf
chi2(1)
12.77
5. Supposons que lon ne sache pas sil y a de lhtroscdasticit. Appliquez une procdure
robuste aux erreurs de la rgression. Y a t-il une diffrence avec la rgression des MCO
prcdente et y a t-il un risque appliquer une procdure robuste dans ce cas.
2 Problme 2
Le fichier CRIME.dta contient des donnes sur les arrestations de lannes 1986 ainsi que
dautres informations sur 2725 hommes ns en 1960 ou 1961 en Californie. Chaque homme de
lchantillon a t arrt au moins une fois avant lanne 1986.
les variables sont les suivantes :
narr86 "# times arrested, 1986"
nfarr86 "# felony arrests, 1986"
nparr86 "# property crme arr., 1986"
pcnv "proportion of prior convictions"
avgsen "avg sentence length, mos."
1
pcnvsq "pcnv2"
pt86sq "ptime862"
inc86sq "inc862"
3 Problme 3.
Pour ce dernier problme, nous allons tudier le comportement des pargnants. Nous disposons du fichier SAVING.RAW qui contient des donnes sur 100 personnes pour lanne 1970.
Les variables du modle sont les suivantes :
sav annual savings, $ (1970)
inc annual income, $ (1970)
size family size
educ years education, household head
age age of household head
black =1 if household head is black
cons annual consumption, $ (1970)
1. A partir du fichier saving.raw et des noms de variables donnes ci-dessous, entrez les
donnes, associez leur une dfinition laide de la commande variable label
2. Compte tenu des variables du modles, pensez vous quelles peuvent crer de lhtroscdasticit, expliquez pourquoi ?
3. On vous propose la rgression et le test suivants ? Quen dduisez-vous quant lhtroscdasticit ?
. reg sav inc
Source |
SS
df
MS
-------------+------------------------------
Number of obs =
F( 1,
98) =
100
6.49
Model |
66368437
1
66368437
Residual | 1.0019e+09
98 10223460.8
-------------+-----------------------------Total | 1.0683e+09
99 10790581.8
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
0.0124
0.0621
0.0526
3197.4
-----------------------------------------------------------------------------sav |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------inc |
.1466283
.0575488
2.55
0.012
.0324247
.260832
_cons |
124.8424
655.3931
0.19
0.849
-1175.764
1425.449
-----------------------------------------------------------------------------. estat hettest inc educ
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: inc educ
chi2(2)
Prob > chi2
=
=
68.82
0.0000
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Heteroscdasticit
1 Problme 1
Pour ce problme, il vous ait demand de travailler partir du fichier hetdat2.dta"
Cette base de donnes comprend des informations sur les niveaux de PIB (GDP) et les
population de 40 pays de lOCDE :
1. Ouvrez le fichier hetdat2.dta dans Stata et fates un graphique de la production manufacturire (manuf) en fonction du PIB - GDP -. Pour obtenir le nom des pays sur le graphique,
utilisez la commande suivante :
twoway (scatter manuf gdp, mlabel(country)), ytitle(manuf) xtitle(gdp)
2. Fates la rgression de la production manufacturire sur le PIB, sauvegardez les rsidus et
proposez un graphique des rsidus en fonction du PIB
. regress
manuf gdp
Source |
SS
df
MS
-------------+-----------------------------Model | 1.1600e+11
1 1.1600e+11
Residual | 1.4312e+10
26
550464875
-------------+-----------------------------Total | 1.3031e+11
27 4.8264e+09
Number of obs
F( 1,
26)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
28
210.73
0.0000
0.8902
0.8859
23462
-----------------------------------------------------------------------------manuf |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gdp |
.1936932
.0133428
14.52
0.000
.1662666
.2211197
_cons |
603.8754
5699.688
0.11
0.916
-11112
12319.75
-----------------------------------------------------------------------------. predict res, resid
. scatter res gdp
. twoway (scatter res gdp, mlabel(country)), yline(0) ytitle(residuals) xtitle (gdp)
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of manuf
chi2(1)
Prob > chi2
=
=
12.77
0.0004
manuf gdp
Linear regression
Number of obs =
F( 1,
26) =
Prob > F
=
R-squared
=
Root MSE
=
28
116.39
0.0000
0.8902
23462
-----------------------------------------------------------------------------|
Robust
manuf |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gdp |
.1936932
.0179542
10.79
0.000
.1567879
.2305985
_cons |
603.8754
3542.399
0.17
0.866
-6677.629
7885.38
-----------------------------------------------------------------------------. estimates store model1robust
. estimates table model1sansrobuste
---------------------------------------------Variable | model1sansr~e
model1robust
-------------+-------------------------------gdp | .19369316***
.19369316***
_cons | 603.87543
603.87543
---------------------------------------------legend: * p<.05; ** p<.01; *** p<.001
. estimates table model1sansrobuste
model1robust, se style(oneline)
---------------------------------------Variable | model1sa~e
model1ro~t
-------------+-------------------------gdp | .19369316
.19369316
|
.0133428
.01795416
_cons | 603.87543
603.87543
|
5699.688
3542.3987
---------------------------------------legend: b/se
Il ne semble pas y avoir de diffrences importantes. En revanche, il peut tre risqu dutiliser une procdure robuste pour un si petit chantillon On constate malgr tout que les
cart-types sont un peu plus grands et par consquent les tsont plus faibles et les intervals
de confiance plus larges. La procdure robuste nest valable que de manire asymptotique
donc pour de grands chantillons, il se peut que les cart-types ajusts soient tout aussi
faux que ceux de la procdure par les MCO.
2 Problme 2
Le fichier CRIME.dta contient des donnes sur les arrestations de lannes 1986 ainsi que
dautres informations sur 2725 hommes ns en 1960 ou 1961 en Californie. Chaque homme de
lchantillon a t arrt au moins une fois avant lanne 1986.
les variables sont les suivantes :
narr86 "# times arrested, 1986"
nfarr86 "# felony arrests, 1986"
nparr86 "# property crme arr., 1986"
pcnv "proportion of prior convictions"
avgsen "avg sentence length, mos."
tottime "time in prison since 18 (mos.)"
ptime86 "mos. in prison during 1986"
qemp86 "# quarters employed, 1986"
inc86 "legal income, 1986, $100s"
durat "recent unemp duration"
black "=1 if black"
hispan "=1 if Hispanic"
born60 "=1 if born in 1960"
pcnvsq "pcnv2"
pt86sq "ptime862"
inc86sq "inc862"
1. Lire le fichier CRIME1.dta
2. Pour chacune des variables, tentez de donner limpact attendu (positif ou ngatif) sur la
variable narr86
3. Proposez une rgression des MCO et une rgression robuste de lquation suivante :
narr86 = f( narr86 pcnv avgsen avgsen2 ptime86 qemp86 inc86 black hispan).
. gen avgsen2 = avgsen*avgsen
. reg narr86 pcnv avgsen avgsen2
Source |
SS
df
MS
-------------+------------------------------
Number of obs =
F( 8, 2716) =
2725
26.66
Model | 146.349121
8 18.2936401
Residual | 1863.99804 2716 .686302664
-------------+-----------------------------Total | 2010.34716 2724 .738012906
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
0.0000
0.0728
0.0701
.82843
-----------------------------------------------------------------------------narr86 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------pcnv | -.1355954
.0403699
-3.36
0.001
-.2147542
-.0564366
avgsen |
.0178411
.009696
1.84
0.066
-.0011713
.0368534
avgsen2 | -.0005163
.000297
-1.74
0.082
-.0010987
.0000661
ptime86 |
-.03936
.0086935
-4.53
0.000
-.0564065
-.0223134
qemp86 | -.0505072
.0144345
-3.50
0.000
-.0788109
-.0222034
inc86 | -.0014797
.0003405
-4.35
0.000
-.0021474
-.0008119
black |
.3246024
.0454188
7.15
0.000
.2355435
.4136614
hispan |
.19338
.0397035
4.87
0.000
.115528
.2712321
_cons |
.5670128
.0360573
15.73
0.000
.4963102
.6377154
-----------------------------------------------------------------------------. estimates store MCO
. reg narr86 pcnv avgsen avgsen2
Linear regression
Number of obs
F( 8, 2716)
Prob > F
R-squared
Root MSE
=
=
=
=
=
2725
29.84
0.0000
0.0728
.82843
-----------------------------------------------------------------------------|
Robust
narr86 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------pcnv | -.1355954
.0336218
-4.03
0.000
-.2015223
-.0696685
avgsen |
.0178411
.0101233
1.76
0.078
-.0020091
.0376913
avgsen2 | -.0005163
.0002077
-2.49
0.013
-.0009236
-.0001091
ptime86 |
-.03936
.0062236
-6.32
0.000
-.0515634
-.0271566
qemp86 | -.0505072
.0142015
-3.56
0.000
-.078354
-.0226603
inc86 | -.0014797
.0002295
-6.45
0.000
-.0019297
-.0010296
black |
.3246024
.0585135
5.55
0.000
.2098669
.439338
hispan |
.19338
.0402983
4.80
0.000
.1143616
.2723985
_cons |
.5670128
.0402756
14.08
0.000
.4880389
.6459867
-----------------------------------------------------------------------------. estimates store robust
. estimates table MCO
robust, se style(oneline)
---------------------------------------Variable |
MCO
robust
-------------+-------------------------pcnv | -.13559539
-.13559539
| .04036988
.03362179
avgsen | .01784106
.01784106
| .00969602
.01012332
avgsen2 | -.00051633
-.00051633
| .00029702
.00020769
ptime86 | -.03935998
-.03935998
|
.0086935
.00622356
qemp86 | -.05050717
-.05050717
| .01443452
.01420152
inc86 | -.00147966
-.00147966
| .00034053
.00022951
black | .32460243
.32460243
| .04541881
.05851354
hispan | .19338004
.19338004
| .03970348
.0402983
_cons | .56701278
.56701278
| .03605733
.04027557
----------------------------------------
Source |
SS
df
MS
-------------+-----------------------------Model | 146.349121
8 18.2936401
Residual | 1863.99804 2716 .686302664
-------------+-----------------------------Total | 2010.34716 2724 .738012906
Number of obs
F( 8, 2716)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2725
26.66
0.0000
0.0728
0.0701
.82843
-----------------------------------------------------------------------------narr86 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------pcnv | -.1355954
.0403699
-3.36
0.001
-.2147542
-.0564366
avgsen |
.0178411
.009696
1.84
0.066
-.0011713
.0368534
avgsen2 | -.0005163
.000297
-1.74
0.082
-.0010987
.0000661
ptime86 |
-.03936
.0086935
-4.53
0.000
-.0564065
-.0223134
qemp86 | -.0505072
.0144345
-3.50
0.000
-.0788109
-.0222034
inc86 | -.0014797
.0003405
-4.35
0.000
-.0021474
-.0008119
black |
.3246024
.0454188
7.15
0.000
.2355435
.4136614
hispan |
.19338
.0397035
4.87
0.000
.115528
.2712321
_cons |
.5670128
.0360573
15.73
0.000
.4963102
.6377154
-----------------------------------------------------------------------------. predict res, resid
. gen res2 = res*res
. reg res2 pcnv avgsen avgsen2
Source |
SS
df
MS
-------------+-----------------------------Model | 738.907487
8 92.3634359
Residual | 40686.1478 2716 14.9801723
-------------+-----------------------------Total | 41425.0553 2724 15.2074359
Number of obs
F( 8, 2716)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2725
6.17
0.0000
0.0178
0.0149
3.8704
-----------------------------------------------------------------------------res2 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------pcnv |
.0172283
.1886071
0.09
0.927
-.3525997
.3870562
avgsen |
.000862
.0452996
0.02
0.985
-.0879631
.0896871
avgsen2 | -.0002494
.0013877
-0.18
0.857
-.0029704
.0024716
ptime86 | -.0797674
.0406158
-1.96
0.050
-.1594084
-.0001264
qemp86 | -.2254136
.0674377
-3.34
0.001
-.357648
-.0931792
inc86 |
-.001374
.001591
-0.86
0.388
-.0044936
.0017456
black |
.7024677
.2121956
3.31
0.001
.2863865
1.118549
hispan |
.344285
.1854937
1.86
0.064
-.019438
.708008
_cons |
1.119298
.168459
6.64
0.000
.7889776
1.449619
-----------------------------------------------------------------------------* PB LM statisti
. display 2725*0.0178
48.505
ou
. display e(N)*e(r2)
et la pvaleur est
display chi2tail(8,48.505)
7.563e-08
. display invchi2(8, 0.95)
15.507313
3 Problme 3.
Pour ce dernier problme, nous allons tudier le comportement des pargnants. Nous disposons du fichier SAVING.RAW qui contient des donnes sur 100 personnes pour lanne 1970.
Les variables du modle sont les suivantes :
sav annual savings, $ (1970)
inc annual income, $ (1970)
size family size
educ years education, household head
age age of household head
black =1 if household head is black
cons annual consumption, $ (1970)
1. A partir du fichier saving.raw et des noms de variables donnes ci-dessous, entrez les
donnes, associez leur une dfinition laide de la commande variable label
. infile sav inc size educ age black cons using "C:\SAVING.RAW"
(100 observations read)
2. Compte tenu des variables du modles, pensez vous quelles peuvent crer de lhtroscdasticit, expliquez pourquoi ?
3. On vous propose la rgression et le test suivants ? Quen dduisez-vous quant lhtroscdasticit ?
. reg sav inc
Source |
SS
df
MS
-------------+-----------------------------Model |
66368437
1
66368437
Residual | 1.0019e+09
98 10223460.8
-------------+-----------------------------Total | 1.0683e+09
99 10790581.8
Number of obs
F( 1,
98)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
100
6.49
0.0124
0.0621
0.0526
3197.4
-----------------------------------------------------------------------------sav |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------inc |
.1466283
.0575488
2.55
0.012
.0324247
.260832
_cons |
124.8424
655.3931
0.19
0.849
-1175.764
1425.449
-----------------------------------------------------------------------------. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of sav
chi2(1)
14.22
Number of obs
F( 1,
98)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
100
9.14
0.0032
0.0853
0.0760
2522.2
-----------------------------------------------------------------------------sav |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------inc |
.1717555
.0568128
3.02
0.003
.0590124
.2844986
_cons | -124.9528
480.8606
-0.26
0.796
-1079.205
829.2994
------------------------------------------------------------------------------
En revanche, les variables purement qualitatives, sans ordre particulier, sont tr`es largement utilisees dans les donnees e conomiques.
Les variables indicatrices sont parmi les concepts les plus utilises
en e conomie appliquee dans la mesure o`u elles signalent la presence
ou labsence de certaines caracteristiques. Les variables indicatrices sont e galement connues sous le nom de variables binaires ou
booleennes et se retrouvent en e conometrie sous le nom de variable dummy. Nous allons considerer comment utiliser les variables
indicatrices
Supposons que lon dispose du revenu disponible par tete pour six
Etats de la Nouvelle Anglette (dpipc) pour les annees 1981-2000.
La question que lon se pose est de savoir si lEtat de residence explique une proportion significative de la variation de dpipc a` travers
les differentes annees. On calcule le dpipc moyen (en millier de
dollars) sur deux decennies.
. use http://www.stata-press.com/data/imeus/NEdata, clear
. mean dpipc, over(state)
Mean estimation
Number of obs
=
CT:
MA:
ME:
NH:
state
state
state
state
=
=
=
=
CT
MA
ME
NH
120
RI: state = RI
VT: state = VT
-------------------------------------------------------------Over |
Mean
Std. Err.
[95% Conf. Interval]
-------------+-----------------------------------------------dpipc
|
CT |
22.32587
1.413766
19.52647
25.12527
MA |
19.77681
1.298507
17.20564
22.34798
ME |
15.17391
.9571251
13.27871
17.06911
NH |
18.66835
1.193137
16.30582
21.03088
RI |
17.26529
1.045117
15.19586
19.33473
VT |
15.73786
1.020159
13.71784
17.75788
--------------------------------------------------------------
Le revenu disponible moyen pour 2000 varie de mani`ere considerable dun Etat a` lautre (CT - Connecticut (22.326 $) et
ME- Maine (15.174 $).
Total |
120
100.00
Number of obs
F( 5,
114)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
120
5.27
0.0002
0.1877
0.1521
5.2146
8
-----------------------------------------------------------------------------dpipc |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------NE2 | -2.549057
1.648991
-1.55
0.125
-5.815695
.7175814
NE3 | -7.151959
1.648991
-4.34
0.000
-10.4186
-3.88532
NE4 |
-3.65752
1.648991
-2.22
0.029
-6.924158
-.3908815
NE5 | -5.060575
1.648991
-3.07
0.003
-8.327214
-1.793937
NE6 | -6.588007
1.648991
-4.00
0.000
-9.854646
-3.321369
_cons |
22.32587
1.166013
19.15
0.000
20.01601
24.63573
10
-------------+---------------------------------------------------------------R1 | -.0349326
.1035125
-0.34
0.736
-.2379444
.1680793
R2 | -.2133924
.1049954
-2.03
0.042
-.4193126
-.0074721
union |
.239083
.0270353
8.84
0.000
.1860606
.2921054
_cons |
1.913178
.1029591
18.58
0.000
1.711252
2.115105
------------------------------------------------------------------------------
11
2, 1874) =
Prob > F =
23.25
0.0000
14
13
pour une personne noire, le (log) du salaire est suppose e tre plus
faible dune valeur 0,213 par rapport a` quelquun de la categorie
autre
3.1
15
lwagei = 1+2R1i+3R2i+4unioni+5(R1iunioni)+6(R2iunioni)+ui
Le log du salaire moyen pour ceux qui sont issus de la race R1
(white) est 1 + 2 pour les membres non syndiques, mais 1 +
2 + 4 + 5 pour les membres syndiques. Ceci donne la regression
suivante :
. generate R1u = R1*union
. generate R2u = R2*union
F(
18
17
Source |
SS
df
MS
Number of obs =
1878
-------------+-----------------------------F( 5, 1872) =
26.63
Model | 33.3636017
5 6.67272035
Prob > F
= 0.0000
Residual |
469.09053 1872 .250582548
R-squared
= 0.0664
-------------+-----------------------------Adj R-squared = 0.0639
Total | 502.454132 1877 .267690001
Root MSE
= .50058
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------R1 | -.1818955
.1260945
-1.44
0.149
-.4291962
.0654051
R2 | -.4152863
.1279741
-3.25
0.001
-.6662731
-.1642995
union | -.2375316
.2167585
-1.10
0.273
-.6626452
.187582
R1u |
.4232627
.2192086
1.93
0.054
-.0066561
.8531816
R2u |
.6193578
.2221704
2.79
0.005
.1836302
1.055085
_cons |
2.07205
.1251456
16.56
0.000
1.82661
2.317489
------------------------------------------------------------------------------
8.04
0.0003
R1 |
-.070349
.0976711
-0.72
0.471
-.2619053
.1212073
R2 | -.2612185
.0991154
-2.64
0.008
-.4556074
-.0668297
union |
.1871116
.0257654
7.26
0.000
.1365794
.2376438
tenure |
.0289352
.0019646
14.73
0.000
.0250823
.0327882
_cons |
1.777386
.0975549
18.22
0.000
1.586058
1.968715
------------------------------------------------------------------------------
19
2, 1872) =
Prob > F =
. test R1 R2
( 1) R1 = 0
( 2) R2 = 0
F(
2, 1863) =
Prob > F =
29.98
0.0000
On cherche a` mettre en e vidence des profils differents. On va commencer par faire une interaction entre union et tenure.
. generate uTen = union * tenure
. regress lwage R1 R2 union tenure uTen
22
21
4.1
Source |
SS
df
MS
-------------+-----------------------------Model |
77.726069
5 15.5452138
Residual | 417.861297 1862 .224415304
-------------+-----------------------------Total | 495.587366 1867 .265445831
Number of obs
F( 5, 1862)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1868
69.27
0.0000
0.1568
0.1546
.47372
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------R1 | -.0715443
.0976332
-0.73
0.464
-.2630264
.1199377
R2 | -.2638742
.0990879
-2.66
0.008
-.4582093
-.0695391
union |
.2380442
.0409706
5.81
0.000
.157691
.3183975
tenure |
.0309616
.0023374
13.25
0.000
.0263774
.0355458
uTen | -.0068913
.0043112
-1.60
0.110
-.0153467
.001564
_cons |
1.766484
.0977525
18.07
0.000
1.574768
1.9582
------------------------------------------------------------------------------
24
23
Number of obs
F( 6, 1861)
Prob > F
R-squared
Adj R-squared
=
=
=
=
=
1868
57.26
0.0000
0.1558
0.1531
Total |
495.587366
1867
.265445831
Root MSE
.47413
F(
2, 1861) =
Prob > F =
26
25
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------R1 |
-.082753
.1395
-0.59
0.553
-.3563459
.1908398
R2 |
-.291495
.1422361
-2.05
0.041
-.570454
-.012536
union |
.1876079
.0257915
7.27
0.000
.1370246
.2381912
tenure |
.0257611
.0186309
1.38
0.167
-.0107785
.0623007
R1ten |
.0024973
.0187646
0.13
0.894
-.0343045
.0392991
R2ten |
.0050825
.018999
0.27
0.789
-.032179
.0423441
_cons |
1.794018
.1382089
12.98
0.000
1.522957
2.065078
-----------------------------------------------------------------------------. test R1ten R2ten
( 1) R1ten = 0
( 2) R2ten = 0
0.19
0.8291
_cons |
1.76904
.1390492
12.72
0.000
1.496331
2.041749
------------------------------------------------------------------------------
. test
( 1)
( 2)
( 3)
28
27
Source |
SS
df
MS
Number of obs =
1868
-------------+-----------------------------F( 7, 1860) =
49.48
Model | 77.8008722
7 11.1144103
Prob > F
= 0.0000
Residual | 417.786494 1860 .224616394
R-squared
= 0.1570
-------------+-----------------------------Adj R-squared = 0.1538
Total | 495.587366 1867 .265445831
Root MSE
= .47394
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------R1 | -.0697096
.1396861
-0.50
0.618
-.3436676
.2042485
R2 | -.2795277
.1423788
-1.96
0.050
-.5587668
-.0002886
union |
.238244
.0410597
5.80
0.000
.1577161
.3187718
tenure |
.0304528
.0188572
1.61
0.106
-.0065308
.0674364
uTen | -.0068628
.0043311
-1.58
0.113
-.0153572
.0016316
R1ten | -.0001912
.0188335
-0.01
0.992
-.0371283
.0367459
R2ten |
.0023429
.0190698
0.12
0.902
-.0350576
.0397433
On ne peut pas rejetter lhypoth`ese nulle selon laquelle les coefficients dinteraction sont e gals a` zero, ce qui implique quil ne
semble pas y avoir devidence des discriminations au niveau des
salaires, autrement dit la croissance des salaires des femmes ne
semble pas e tre reliee a` lorigine raciale.
La regression suivante teste cinq profils differents.
Le test qui suit montre que les profils pour les membres syndiques et les membres non syndiques ont les memes pentes pour
une origine raciale donnee. Le test conjoint des trois hypoth`eses
consid`ere lhypoth`ese nulle dune pente versus six pentes distinctes pour les six categories. Cette hypoth`ese ne peut pas e tre
rejetee par les donnees, signifiant quune pente unique pourrait suffire.
3, 1860) =
Prob > F =
0.96
0.4098
SS
df
MS
Number of obs =
1868
31
-------------+-----------------------------F( 3, 1864) =
92.25
Model | 64.0664855
3 21.3554952
Prob > F
= 0.0000
Residual |
431.52088 1864 .231502618
R-squared
= 0.1293
-------------+-----------------------------Adj R-squared = 0.1279
Total | 495.587366 1867 .265445831
Root MSE
= .48115
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------union |
.2144586
.0414898
5.17
0.000
.1330872
.29583
tenure |
.0298926
.0023694
12.62
0.000
.0252456
.0345395
uTen | -.0056219
.0043756
-1.28
0.199
-.0142035
.0029597
_cons |
1.655054
.0193938
85.34
0.000
1.617018
1.69309
------------------------------------------------------------------------------
30
29
Number of obs
F( 1, 1406)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1408
148.43
0.0000
0.0955
0.0948
.49824
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------tenure |
.0298926
.0024536
12.18
0.000
.0250795
.0347056
_cons |
1.655054
.0200828
82.41
0.000
1.615659
1.69445
-----------------------------------------------------------------------------. predict double unw if e(sample), res
(470 missing values generated)
Number of obs
F( 1,
458)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
460
55.95
0.0000
0.1089
0.1069
.42439
33
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------tenure |
.0242707
.0032447
7.48
0.000
.0178944
.0306469
_cons |
1.869513
.0323515
57.79
0.000
1.805937
1.933088
------------------------------------------------------------------------------
Linear regression
combined |
1868
6.48e-17
.0111235
.4807605
-.0218157
.0218157
-----------------------------------------------------------------------------ratio = sd(nonunion) / sd(union)
f =
1.3803
Ho: ratio = 1
degrees of freedom = 1407, 459
Ha: ratio < 1
Pr(F < f) = 1.0000
Ha: ratio != 1
2*Pr(F > f) = 0.0000
36
35
On conclut que contrairement a` nos premiers resultats, les travailleurs non syndiques ont une variance beaucoup plus faible que
celle des travailleurs syndiques. Il faudrait donc corriger pour
lheteroscedasticite a` travers les differents groupes ou utiliser des
e cart-types robustes pour faire des inferences a` partir du mod`ele incluant les travailleurs syndiques et non syndiques. On peut illustrer
ce point a` laide de la regression suivante :
Number of obs
F( 3, 1864)
Prob > F
R-squared
Root MSE
=
=
=
=
=
1868
109.84
0.0000
0.1293
.48115
-----------------------------------------------------------------------------|
Robust
lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------union |
.2144586
.0407254
5.27
0.000
.1345864
.2943308
tenure |
.0298926
.0023964
12.47
0.000
.0251928
.0345924
uTen | -.0056219
.0038631
-1.46
0.146
-.0131984
.0019546
_cons |
1.655054
.0210893
78.48
0.000
1.613693
1.696415
------------------------------------------------------------------------------
5.1
38
37
Les variables indicatrices sont utilisees pour tester la stabilite structurelle dans une fonction de regression dans laquelle on specifie a
priori les possibles points de ruptures. Aux paragraphes precedents,
nous avons constate que les ordonnees a` lorigine de la regression
e taient differentes entre les cohortes syndiquees et non syndiquees
mais quil suffisait dun seul coefficient pour tenure. Par ailleurs,
nous avons trouve que 2 e tait significativement different pour les
deux cohortes de lechantillon. Lorsque lon a un doute sur la
stabilite structurelle - par exemple, une regression au niveau de
log(wage)
tenure <=2
!Ten2 & tenure <=7
!Ten2 & !Ten7 & tenure <=12
!Ten2 & !Ten7 & !Ten12 & tenure <.
39
.
.
.
.
Source |
SS
df
MS
Number of obs =
2231
-------------+-----------------------------F( 7, 2223) =
37.12
Model | 76.6387069
7 10.9483867
Prob > F
= 0.0000
Residual | 655.578361 2223 .294907045
R-squared
= 0.1047
-------------+-----------------------------Adj R-squared = 0.1018
Total | 732.217068 2230 .328348461
Root MSE
= .54305
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------Ten2 |
1.55662
.0383259
40.62
0.000
1.481462
1.631778
Ten12 |
1.870808
.1877798
9.96
0.000
1.502566
2.23905
Ten7 | -.1620807
.1971581
-0.82
0.411
-.548714
.2245527
Ten25 |
1.751961
.1691799
10.36
0.000
1.420194
2.083728
tTen2 |
.0897426
.0331563
2.71
0.007
.0247221
.1547631
tTen7 |
.027988
.0242808
1.15
0.249
-.0196274
.0756035
tTen12 |
.0154208
.019786
0.78
0.436
-.0233801
.0542218
tTen25 |
.0238014
.0102917
2.31
0.021
.0036191
.0439837
------------------------------------------------------------------------------
42
Predicted log(wage)
1.8
2
2.2
2.4
44
43
1.6
41
tenure<.),legend(off)
10
15
job tenure (years)
20
25
45
d=1
x1
x2
d=0
1.2
d=0
d=1
4
3
2.1
8
x1
x2
Le mod`ele statistique
Il y a trois mani`eres denvisager les mod`eles de regression binaires MRB, chacune de ces methodes conduit au meme mod`ele
mathematique :
P r(y = 1)
=
d
Cest illustre par les triangles dans la figure 2. Dans la mesure o`u
la courbe continue pour d = 0 et la courbe en pointilles pour d = 1
ne sont pas parall`eles 1 = 4. Leffet dune variation dune unite
de x diff`ere selon les valeurs de x et d : 2 = 3 = 5 = 6.
Dans les mod`eles non lineaires, limpact dun changement sur une
variable depend des valeurs des autres variables du mod`ele et il
nest pas simplement e gal a` un des param`etres du mod`ele.
ou
E(y | x)
P r(y = 1 | x)
y=1
=0
y=0
10
yi = + xi + i
Ce mod`ele est similaire au mod`ele de regression lineaire a` la difference
que la variable dependante nest pas observee.
Le lien avec la variable binaire observee y et la variable latente y
est le suivant :
1 si yi >
yi =
0 si yi
P r(y = 0 | x)
x
12
11
1. un mod`ele probit binaire pour lequel est distribuee normalement avec une variance V ar() = 1
2
+x
1
t
exp
dt
P r(y = 1 | x) =
2
2
13
Logit : ln (x) = x
P r(y = 1 | x) = F ( + x)
P r(y = 1 | x) = F (x)
L( | y, X) =
y=1
y=1
3.1
[1 P r(yi = 1 | xi)] (1)
y=0
F (xi ) [1 F (xi)]
y=1
16
15
i=1
P r(yi = 1 | xi)
y=0
ln F (xi) +
ln[1 F (xi)]
(2)
(3)
y=0
Application
P r(lf p = 1) = F (0 + k5k5 + k618k618 + ageage + wcwc
+ hchc + lwg lwg + incinc)
. logit
Probit estimates
Logit estimates
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
=
=
=
=
753
124.48
0.0000
0.1209
18
17
-----------------------------------------------------------------------------lfp |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------k5 | -1.462913
.1970006
-7.43
0.000
-1.849027
-1.076799
k618 | -.0645707
.0680008
-0.95
0.342
-.1978499
.0687085
age | -.0628706
.0127831
-4.92
0.000
-.0879249
-.0378162
wc |
.8072738
.2299799
3.51
0.000
.3565215
1.258026
hc |
.1117336
.2060397
0.54
0.588
-.2920969
.515564
lwg |
.6046931
.1508176
4.01
0.000
.3090961
.9002901
inc | -.0344464
.0082084
-4.20
0.000
-.0505346
-.0183583
_cons |
3.18214
.6443751
4.94
0.000
1.919188
4.445092
------------------------------------------------------------------------------
=
=
=
=
753
124.36
0.0000
0.1208
-----------------------------------------------------------------------------lfp |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------k5 | -.8747112
.1135583
-7.70
0.000
-1.097281
-.6521411
k618 | -.0385945
.0404893
-0.95
0.340
-.117952
.0407631
age | -.0378235
.0076093
-4.97
0.000
-.0527375
-.0229095
wc |
.4883144
.1354873
3.60
0.000
.2227642
.7538645
hc |
.0571704
.1240052
0.46
0.645
-.1858754
.3002161
lwg |
.3656287
.0877792
4.17
0.000
.1935847
.5376727
inc |
-.020525
.0047769
-4.30
0.000
-.0298875
-.0111626
_cons |
1.918422
.3806536
5.04
0.000
1.172355
2.66449
-----------------------------------------------------------------------------. outreg using modele103, append
Tests dhypoth`eses
4
4.1
20
19
(1) Logit
(2) Probit
Paid Labor Force: 1=yes 0=no
Paid Labor Force: 1=yes 0=no
------------------------------------------------------------# kids < 6
-1.463
-0.875
(7.43)**
(7.70)**
# kids 6-18
-0.065
-0.039
(0.95)
(0.95)
Wifes age in years
-0.063
-0.038
(4.92)**
(4.97)**
Wife College: 1=yes 0=no
0.807
0.488
(3.51)**
(3.60)**
Husband College: 1=yes 0=no
0.112
0.057
(0.54)
(0.46)
Log of wifes estimated wages
0.605
0.366
(4.01)**
(4.17)**
Family income excluding wifes
-0.034
-0.021
(4.20)**
(4.30)**
Constant
3.182
1.918
(4.94)**
(5.04)**
---------------------------------------------------------Observations
753
753
* significant at 5% level; ** significant at 1% level
probit x 1,67 = logit
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
Pour un coefficient
Les estimateurs du maximum de vraissemblance MV sont distribues asymptotiquement selon une loi normale.
H0 : k = 0
k N (k , s)
k H0
z=
sk
2
k H0
W =
21
sk
22
21
W =
Applications
H0 : k5 = 0 on fait
k=1
On conclut que le fait davoir un enfant de moins de 5 ans a un impact significatif sur la probabilite de travail. Ce resultat est significatif au 0,01=1%. (2 = 55, 14, degre de liberte=ddl=1, p < 0, 01).
La valeur dun chi2 a` un degre de liberte est identique au carre de la
normale centree reduite z. On peut voir cela en calculant la racine
carre du chi2 :
. display sqrt(55.14)
7.4256313
(soit - 7.426 des r
esultat du logit)
4.2
Application
Likelihood Ratio
. lrtest, saving(0)
. logit lfp k618 age wc hc lwg inc, nolog
(on omet les r
esultats)
24
23
. lrtest
Logit: likelihood-ratio test
chi2(1)
=
Prob > chi2 =
66.48
0.0000
17.66
0.0001
26
25
. test hc=wc
( 1) - wc + hc = 0.0
chi2( 1) =
Prob > chi2 =
lfp, nolog
Logit estimates
Log likelihood =
-514.8732
Number of obs
LR chi2(0)
Prob > chi2
Pseudo R2
=
=
=
=
753
0.00
.
0.0000
28
27
-----------------------------------------------------------------------------lfp |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_cons |
.275298
.0735756
3.74
0.000
.1310925
.4195036
-----------------------------------------------------------------------------. estimates store intercept_only
. lrtest fmodel intercept_only
likelihood-ratio test
chi2(7)
=
124.48
(Assumption: intercept_only nested in fmodel)
Prob > chi2 =
0.0000
chi2(2)
=
Prob > chi2 =
18.50
0.0001
5
5.1
F ull) k
ln L(M
2
McF
R
=1
intercept )
ln L(M
29
2/n
L(Mintercept)
2
= 1 exp(G2/N )
RML = 1
L(MF ull )
2
Si MF ull = Mintercept alors le RMcF
=0. Mais ce nest jamais le
cas.
5.2
32
31
o`u L(M ) est la vraissemblance pour le mod`ele et P est le nombre de param`etre du mod`ee (par exemple k+1 pour le mod`ele de
regression binaire avec k variables independantes). AIC permet
de comparer des mod`eles qui ne sont pas niches les uns dans les
autres. la r`egle de decision est la suivante :
le mod`ele qui a lAIC le plus petit est considere comme e tant
le mod`ele qui correspond le mieux aux observations.
34
33
McFaddens R2:
0.121
Maximum Likelihood R2:
0.152
McKelvey and Zavoinas R2:
0.217
Variance of y*:
4.203
Count R2:
0.693
AIC:
1.223
BIC:
-4029.663
-452.633
124.480
0.000
0.105
0.204
0.155
3.290
0.289
921.266
-78.112
36
35
(1.00)
3.182
0.979
(4.94)**
(0.40)
Observations
753
753
Absolute value of z-statistics in parentheses
* significant at 5% level; ** significant at 1% level
Variance of y*:
Variance of error:
Count R2:
Adj Count R2:
AIC:
AIC*n:
BIC:
BIC:
Constant
fitstat, using(mod1)
Difference of
Saved
logit
753
-514.873
-452.633
905.266(745)
124.480(7)
0.000
0.121
0.105
0.152
0.204
0.217
0.155
4.203
3.290
0.693
0.289
1.223
921.266
-4029.663
-78.112
-0.180
0.000
-0.016
-0.037
0.019
14.040
4.791
4.791
Difference
Note: p-value for difference in LR is only valid if models are nested.
0
0.000
-9.020
18.040(2)
18.040(2)
0.000
-0.018
-0.014
-0.021
-0.028
-0.035
-0.020
38
37
4.023
3.290
0.677
0.252
1.242
935.306
-4024.871
-73.321
Prevision
40
39
6.1
Previsions individuelles
On peut e tablir des previsions pour des types dindividus. Par exemple, dans le cas du travail des femmes, on peut e tablir des types
de familles tels que
CAS 2
. prvalue, x(age=50 k5=0 k618=0 wc=1 hc=1) rest(mean)
probit: Predictions for lfp
Pr(y=inLF|x):
0.7125
95% ci: (0.6247,0.7892)
Pr(y=NotInLF|x):
0.2875
95% ci: (0.2108,0.3753)
42
41
x=
x=
k5
0
inc
20.128965
k618
0
age
50
wc
1
hc
1
Types de famille
cas 1 : jeune, revenu faible et faible e ducation avec des enfants jeunes
cas 2 : niveau detude e leve, a ge moyen sans enfants a` la maison
lwg
1.0971148
La derivee partielle
P r(y = 1|x) F (x) dF (x) x
=
=
= f (x)k
xk
xk
dx xk
Pour le mod`ele probit, ca donne
P r(y = 1|x)
= (x)k
xk
Probabilites de LFP
0,13
0,72
6.2
6.3
(4)
44
43
lwg
1.0971148
La variation discr`ete
Application
. probit
min->max
-0.6441
-0.1221
-0.4274
0.1844
0.0223
0.6649
-0.6425
x=
sd(x)=
0
0.4218
k5
.237716
.523959
-+1/2
-0.3320
-0.0151
-0.0148
0.1892
0.0224
0.1423
-0.0080
-+sd/2
-0.1778
-0.0199
-0.1190
0.0858
0.0109
0.0839
-0.0932
age
42.5378
8.07257
wc
.281541
.450049
MargEfct
-0.3422
-0.0151
-0.0148
0.1911
0.0224
0.1431
-0.0080
hc
.391766
.488469
lwg
1.09711
.587556
753
124.36
0.0000
0.1208
-----------------------------------------------------------------------------lfp |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------k5 | -.8747112
.1135583
-7.70
0.000
-1.097281
-.6521411
k618 | -.0385945
.0404893
-0.95
0.340
-.117952
.0407631
age | -.0378235
.0076093
-4.97
0.000
-.0527375
-.0229095
wc |
.4883144
.1354873
3.60
0.000
.2227642
.7538645
hc |
.0571704
.1240052
0.46
0.645
-.1858754
.3002161
lwg |
.3656287
.0877792
4.17
0.000
.1935848
.5376727
inc |
-.020525
.0047769
-4.30
0.000
-.0298875
-.0111626
_cons |
1.918422
.3806536
5.04
0.000
1.172355
2.66449
------------------------------------------------------------------------------
1
0.5782
k618
1.35325
1.31987
=
=
=
=
. prchange,help
48
47
Pr(y|x)
0->1
-0.3380
-0.0150
-0.0031
0.1844
0.0223
0.1450
-0.0068
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
k5
k618
age
wc
hc
lwg
inc
Probit regression
46
45
il convient de calculer la variation de xd = 0 a` xd = 1. Les variations discr`etes peuvent e tre calculees pour nimporte quelle variation de la variable independante, les autres variables e tant maintenues constantes, comme on le montre ci-dessous
Supposons une variation dune unite centree autour de la moyenne
1
1
P r(y = 1|
x)
x), xk )
= P r(y = 1|
x, xk + ) P r(y = 1|
xk
2
2
Une variation dun e cart-type de xk . Si sk est lecart-type de xk
sk
sk
P r(y = 1|
x)
x), xk )
= P r(y = 1|
x), xk + )P r(y = 1|
xk
2
2
Variation dune variable binaire de 0 a` 1.
P r(y = 1|
x)
= P r(y = 1|
x, xk = 1) P r(y = 1|
x, xk = 0)
xk
inc
20.129
11.6348
Autre Application
Ici on a demande le resultat que pour wc = 1 et age = 40. Et on
demande le resultat pour lage.
. prchange age, x(wc=1 age=40) help
age
min->max
-0.3940
Pr(y|x)
x=
sd(x)=
0->1
-0.0017
NotInLF
0.2586
k5
.237716
.523959
-+1/2
-0.0121
-+sd/2
-0.0971
50
49
inLF
0.7414
k618
1.35325
1.31987
age
40
8.07257
wc
1
.450049
hc
.391766
.488469
lwg
1.09711
.587556
inc
20.129
11.6348
Pr(y|x)
x=
sd(x)=
k5
age
wc
lwg
inc
from:
to:
dif:
x=min
x=max min->max
0.6596
0.0235
-0.6361
0.7506
0.3134
-0.4372
0.5216
0.7097
0.1881
0.1691
0.8316
0.6624
0.7326
0.0911
-0.6415
to:
dif:
from:
x+1/2
-+1/2
x-1/2sd
0.3971
-0.3428
0.6675
0.5701
-0.0153
0.6382
0.6720
0.1945
0.5330
0.6493
0.1465
0.5340
0.5736
-0.0084
0.6258
NotInLF
inLF
from:
x=0
0.6596
0.9520
0.5216
0.4135
0.7325
to:
x+1/2sd
0.4826
0.5150
0.6214
0.6204
0.5283
to:
dif:
x=1
0->1
0.3097
-0.3499
0.9491
-0.0030
0.7097
0.1881
0.5634
0.1499
0.7256
-0.0068
dif:
-+sd/2 MargEfct
-0.1849
-0.3569
-0.1232
-0.0153
0.0884
0.1969
0.0865
0.1475
-0.0975
-0.0084
from:
x-1/2
0.7398
0.5854
0.4775
0.5028
0.5820
52
51
k5
age
wc
lwg
inc
0.4222
0.5778
k5
k618
age
.237716 1.35325 42.5378
.523959 1.31987 8.07257
wc
.281541
.450049
hc
.391766
.488469
lwg
1.09711
.587556
inc
20.129
11.6348
6.4
Si xk varie de :
P r(y = 1|x)
P r(y = 1|x)
=
P r(y = 0|x) 1 P r(y = 1|x)
On utilise une transformation du logit :
(x) =
54
53
(x) = exp(x)
= exp(0 + 1x1 + + k xk + + K xK )
= exp(0) exp(1x1) . . . exp(k xk ) . . . exp(K xK ) = (x, xk )
56
55
Application
listcoef, help
Interpretation
59
58
57
---------------------------------------------------------------------lfp |
b
z
P>|z|
eb
ebStdX
SDofX
-------------+-------------------------------------------------------k5 | -1.46291
-7.426
0.000
0.2316
0.4646
0.5240
k618 | -0.06457
-0.950
0.342
0.9375
0.9183
1.3199
age | -0.06287
-4.918
0.000
0.9391
0.6020
8.0726
wc |
0.80727
3.510
0.000
2.2418
1.4381
0.4500
hc |
0.11173
0.542
0.588
1.1182
1.0561
0.4885
lwg |
0.60469
4.009
0.000
1.8307
1.4266
0.5876
inc | -0.03445
-4.196
0.000
0.9661
0.6698
11.6348
---------------------------------------------------------------------b = raw coefficient
z = z-score for test of b=0
P>|z| = p-value for z-test
eb = exp(b) = factor change in odds for unit increase in X
ebStdX = exp(b*SD of X) = change in odds for SD increase in X
SDofX = standard deviation of X
UNIVERSITE DE PARIS 11
TD dconomtrie
Fiche de TD : Le modle variables binaires - Logit / Probit
Anne Plunket
Dans cet exemple, on tente dexpliquer les causes du petit poids des bbs. On a tabli un
certain nombre de facteurs pouvant intervenir dans le faible poids du bb. Les donnes dont on
dispose sont dcrites dans le tableau suivant :
. describe
Contains data from http://www.stata-press.com/data/r8/lbw.dta
obs:
189
Hosmer & Lemeshow data
vars:
11
18 Jul 2002 17:27
size:
3,402 (99.7% of memory free)
------------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------low
byte
%8.0g
poids la naissance <2500g
age
byte
%8.0g
age de la mre
lwt
int
%8.0g
le poids le mois prcdent
race
byte
%8.0g
race
origine raciale
smoke
byte
%8.0g
tabagisme durant la grocesse
ht
byte
%8.0g
hypertension
ui
byte
%8.0g
Problmes utrins
ftv
byte
%8.0g
Nombre de visite chez un medecin
durant le premier trimestre
bwt
int
%8.0g
poids la naissance (grammes)
------------------------------------------------------------------------------Lorigine raciale est codes 1, 2, 3 selon que les mres sont respectivement
de race blanche, noire ou autre.
1. Dans un premier temps on cherche savoir si les variables sont individuellement explicatives. Pour ce faire, expliquez quel test est employ. Les variables sont elles explicatives ?
2. Quel est le signe attendu pour les variables age et smoke. Faites un test unilatral pour les
deux variables en vous appuyant sur la p valeur. Proposez une reprsentation graphique.
On vous propose la rgression logit suivante. Afin de faire apparatre les catgories raciales, on a utilis la fonction xi qui permet dobtenir automatiquement partir de la
variable race, trois variables binaires I race1 pour les femmes de races blanches, I race2
pour les femmes de races noires et I race3 pour les femmes dune autres races. Pour viter
les problmes de multicolinarit, seules les deux dernires variables sont retenues. Les
rsultats de la rgression sont les suivants :
Number of obs
LR chi2(8)
Prob > chi2
Pseudo R2
=
=
=
=
189
30.82
0.0002
0.1313
-----------------------------------------------------------------------------low |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------age | -.0205412
.0359508
-0.57
0.568
-.0910035
.049921
lwt | -.0164966
.0068585
-2.41
0.016
-.0299389
-.0030542
_Irace_2 |
1.289233
.5275696
2.44
0.015
.2552155
2.32325
_Irace_3 |
.9195141
.4362519
2.11
0.035
.064476
1.774552
smoke |
1.041578
.3954429
2.63
0.008
.2665247
1.816632
ht |
1.88408
.6947192
2.71
0.007
.5224555
3.245705
ui |
.9041143
.448583
2.02
0.044
.0249078
1.783321
ftv |
.0592989
.171987
0.34
0.730
-.2777895
.3963873
_cons |
.4521566
1.185346
0.38
0.703
-1.871079
2.775392
------------------------------------------------------------------------------
3. On cherche savoir si les variables lwt I race2 I race3 sont conjointement explicatives.
Quelles hypothses nulle et alternative faut-il spcifier ? Quels tests et statistiques utilise t-on ? Expliquez le principe du lrtest en utilisant la dmarche modle contraint non
contraint. Fates le test.
. logit low age lwt
_Irace_2
Logit estimates
Number of obs
LR chi2(8)
Prob > chi2
Pseudo R2
=
=
=
=
189
30.82
0.0002
0.1313
Number of obs
LR chi2(5)
Prob > chi2
Pseudo R2
=
=
=
=
189
16.66
0.0052
0.0710
4. A laide de la commande fitstat, on reprend les deux modles prcdents. Lequel des deux
modles est prfr. Expliquez.
. fitstat, using(mod1)
Measures of Fit for logit of low
Model:
N:
Log-Lik Intercept Only:
Log-Lik Full Model:
D:
LR:
Prob > LR:
McFaddens R2:
McFaddens Adj R2:
Maximum Likelihood R2:
Cragg & Uhlers R2:
McKelvey and Zavoinas R2:
Efrons R2:
Variance of y*:
Variance of error:
Count R2:
Adj Count R2:
AIC:
AIC*n:
BIC:
BIC:
Difference of
Current
logit
189
-117.336
-109.004
218.007(183)
16.665(5)
0.005
0.071
0.020
0.084
0.119
0.114
0.084
3.714
3.290
0.704
0.051
1.217
230.007
-741.233
9.544
Saved
logit
189
-117.336
-101.926
203.852(180)
30.820(8)
0.000
0.131
0.055
0.150
0.212
0.234
0.152
4.296
3.290
0.730
0.136
1.174
221.852
-739.662
11.114
Difference
0
0.000
-7.077
14.155(3)
14.155(3)
0.003
-0.060
-0.035
-0.066
-0.093
-0.120
-0.068
-0.582
0.000
-0.026
-0.085
0.043
8.155
-1.571
-1.571
6. Vous disposez des rsultats suivants qui donnent des probabilits selon les caractristiques
des individus. Analysez et comparez les rsultats ? Quen dduisez-vous ?
. prvalue
x=
.
age
23.238095
0.2785
0.7215
lwt
129.82011
prvalue, x( _Irace_2=0
_Irace_2
.13756614
_Irace_3
.35449735
smoke
.39153439
ht
.06349206
ui
.14814815
ht
.06349206
ui
.14814815
ht
.06349206
ui
.14814815
ht
.06349206
ui
.14814815
ht
.06349206
ui
.14814815
x=
.
age
23.238095
0.1358
0.8642
lwt
129.82011
prvalue, x( _Irace_2=0
_Irace_2
0
_Irace_3
0
smoke
0
x=
.
age
23.238095
0.3052
0.6948
lwt
129.82011
prvalue, x( _Irace_2=1
_Irace_2
0
_Irace_3
0
smoke
1
x=
.
age
23.238095
0.5823
0.4177
lwt
129.82011
prvalue, x( _Irace_2=1
_Irace_2
1
_Irace_3
1
smoke
0
x=
age
23.238095
0.7957
0.2043
lwt
129.82011
_Irace_2
1
_Irace_3
1
smoke
1
UNIVERSITE DE PARIS 11
TD dconomtrie
Fiche de TD : Le modle variables binaires - Logit / Probit
Anne Plunket
Dans cet exemple, on tente dexpliquer les causes du petit poids des bbs. On a tabli un
certain nombre de facteurs pouvant intervenir dans le faible poids du bb. Les donnes dont on
dispose sont dcrites dans le tableau suivant :
. describe
Contains data from http://www.stata-press.com/data/r8/lbw.dta
obs:
189
Hosmer & Lemeshow data
vars:
11
18 Jul 2002 17:27
size:
3,402 (99.7% of memory free)
------------------------------------------------------------------------------storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------low
byte
%8.0g
poids la naissance <2500g
age
byte
%8.0g
age de la mre
lwt
int
%8.0g
le poids le mois prcdent
race
byte
%8.0g
race
origine raciale
smoke
byte
%8.0g
tabagisme durant la grocesse
ht
byte
%8.0g
hypertension
ui
byte
%8.0g
Problmes utrins
ftv
byte
%8.0g
Nombre de visite chez un medecin
durant le premier trimestre
bwt
int
%8.0g
poids la naissance (grammes)
------------------------------------------------------------------------------Lorigine raciale est codes 1, 2, 3 selon que les mres sont respectivement
de race blanche, noire ou autre.
z = 0, 57 ; on veut la probabilit unilatrale donc on lit dans la table 10% et non pas
5%. z10% = 1, 6449. Or z = 0, 57, en valeur absolue, z < 1, 6449, on accepte donc
lhypothse nulle.
la variable smoke aura un impact positif sur la variable, puisquelle va accrotre la probabilit davoir un enfant de faible poids.
H0 : 5 0 contre 5 > 0
z = 2, 63 > z10% , par consquent, on rejette lhypothse nulle.
Le fait de fumer a un impact trs significatif sur la probabilit davoir un bb de faible
poids.
. xi:logit low age lwt i.race smoke ht ui ftv
i.race
_Irace_1-3
(naturally coded; _Irace_1 omitted)
Logit estimates
Number of obs
LR chi2(8)
Prob > chi2
Pseudo R2
=
=
=
=
189
30.82
0.0002
0.1313
-----------------------------------------------------------------------------low |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------age | -.0205412
.0359508
-0.57
0.568
-.0910035
.049921
lwt | -.0164966
.0068585
-2.41
0.016
-.0299389
-.0030542
_Irace_2 |
1.289233
.5275696
2.44
0.015
.2552155
2.32325
_Irace_3 |
.9195141
.4362519
2.11
0.035
.064476
1.774552
smoke |
1.041578
.3954429
2.63
0.008
.2665247
1.816632
ht |
1.88408
.6947192
2.71
0.007
.5224555
3.245705
ui |
.9041143
.448583
2.02
0.044
.0249078
1.783321
ftv |
.0592989
.171987
0.34
0.730
-.2777895
.3963873
_cons |
.4521566
1.185346
0.38
0.703
-1.871079
2.775392
------------------------------------------------------------------------------
3. On cherche savoir si les variables lwt I race2 I race3 sont conjointement explicatives. Quelles hypothses nulle et alternative faut-il spcifier ? Quels tests et statistiques utilise t-on ? Expliquez le principe du lrtest en utilisant la dmarche modle
contraint non contraint. Fates le test.
G2 (M |M c) = 2ln(M ) 2ln(M c)
G2 suit un chi2 J=3 degrs de libert.
H0 : lwt = irace2 = irace3 = 0 et H1 : au moins une des trois variables un coefficient
diffrent de 0
pour le modle complet, lnL(M)=-101,92
pour le modle contrait, sous H0, lnL(Mc)=-109,003
G2 = 14, 15 > 23 = 7, 81 donc on rejette lhypothse nulle. AU moins une des trois
variables est explicative.
. logit low age lwt
_Irace_2
Logit estimates
Number of obs
LR chi2(8)
Prob > chi2
Pseudo R2
=
=
=
=
189
30.82
0.0002
0.1313
Number of obs
LR chi2(5)
Prob > chi2
Pseudo R2
=
=
=
=
189
16.66
0.0052
0.0710
. lrtest model1
likelihood-ratio test LR chi2(3) = 14.15
(Assumption: model2 nested in model1) Prob > chi2 = 0.0027
4. A laide de la commande fitstat, on reprend les deux modles prcdents. Lequel des
deux modles est prfr. Expliquez. cf cours il faut regarder les pseudo R2 et cest
le plus lev qui sera le modle prfr. Mc Fadden, maximum likelihood R2. Cest le
modle saved, donc complet qui est prfr.
. fitstat, using(mod1)
Measures of Fit for logit of low
Model:
N:
Log-Lik Intercept Only:
Log-Lik Full Model:
D:
LR:
Prob > LR:
McFaddens R2:
McFaddens Adj R2:
Maximum Likelihood R2:
Cragg & Uhlers R2:
McKelvey and Zavoinas R2:
Efrons R2:
Variance of y*:
Variance of error:
Count R2:
Adj Count R2:
AIC:
AIC*n:
BIC:
BIC:
Difference of
Current
logit
189
-117.336
-109.004
218.007(183)
16.665(5)
0.005
0.071
0.020
0.084
0.119
0.114
0.084
3.714
3.290
0.704
0.051
1.217
230.007
-741.233
9.544
Saved
logit
189
-117.336
-101.926
203.852(180)
30.820(8)
0.000
0.131
0.055
0.150
0.212
0.234
0.152
4.296
3.290
0.730
0.136
1.174
221.852
-739.662
11.114
Difference
0
0.000
-7.077
14.155(3)
14.155(3)
0.003
-0.060
-0.035
-0.066
-0.093
-0.120
-0.068
-0.582
0.000
-0.026
-0.085
0.043
8.155
-1.571
-1.571
6. Vous disposez des rsultats suivants qui donnent des probabilits selon les caractristiques des individus. Analysez et comparez les rsultats ? Quen dduisez-vous ?
La probabilit davoir un bb de faible poids est de 27,85% pour la population en gnral.
Elle est de 13% (donc plus faible) lorsque la maman est de race blanche et quelle ne fume
pas.
Elle est augmente 30,5% lorsque la maman est de race blanche et quelle fume pas.
Elle est augmente 58,23% lorsque la maman est dorigine noire ou hispanique ou autre
et quelle ne fume pas.
Elle est de 79,57% lorsque la maman est dorigine noire ou hispanique ou autre et quelle
fume. On a donc deux facteurs aggravant savoir lorigine raciale, qui nest autre que la
traduction de conditions sociales dfavorables et quelle a un facteur aggravant savoir le
fait de fumer.
. prvalue
logit: Predictions for low
Pr(y=1|x):
Pr(y=0|x):
x=
.
age
23.238095
0.2785
0.7215
lwt
129.82011
prvalue, x( _Irace_2=0
_Irace_2
.13756614
_Irace_3
.35449735
smoke
.39153439
ht
.06349206
ui
.14814815
ht
.06349206
ui
.14814815
x=
age
23.238095
0.1358
0.8642
lwt
129.82011
_Irace_2
0
_Irace_3
0
smoke
0
prvalue, x( _Irace_2=0
x=
.
age
23.238095
0.3052
0.6948
lwt
129.82011
prvalue, x( _Irace_2=1
_Irace_2
0
_Irace_3
0
smoke
1
ht
.06349206
ui
.14814815
ht
.06349206
ui
.14814815
ht
.06349206
ui
.14814815
x=
.
age
23.238095
0.5823
0.4177
lwt
129.82011
prvalue, x( _Irace_2=1
_Irace_2
1
_Irace_3
1
smoke
0
x=
age
23.238095
0.7957
0.2043
lwt
129.82011
_Irace_2
1
_Irace_3
1
smoke
1
104
1. En adoptant un niveau de significativit de 5%n construire les tests pour juger si les variables explicatives sont significatives. Dans chaque cas, indiquez clairement :
(a) Quelle est lhypothse nulle et alternative
(b) Quelle statistique utilisez-vous pour faire le test
(c) Indiquez la forme de la rgion critique. Reprsentez sur un graphique la distribution de la statistique sous lhypothse nulle. Indiquez lorigine, la signification des
axes, lemplacement de la zone de rejet, la valeur de la statistique calcule. Enoncez
clairement vos conclusions en vous rfrant au problme conomique considr.
(d) Indiquez ce que signifie la p-valeur, P[|T|>t].
2. En adoptant un niveau de significativit de 5%, construire les tests pour juger si le signe
des variables que vous aurez jugs significatives est approprie. Dans chaque cas indiquez
clairement
(a) Quelle est lhypothse nulle et alternative
(b) Quelle statistique utilisez-vous pour faire le test
(c) Reprsentez sur un graphique la distribution de la statistique sous lhypothse nulle.
Indiquez lorigine, la signification des axes, lemplacement de la zone de rejet, la valeur de la statistique calcule. Enoncez clairement vos conclusions en vous rfrant
au problme conomique considr.
3. Etablir un tableau danalyse de la variance pour le modle ci-dessus.
4. Construisez un test de significativit globale du modle 5%. Quelle statistique utilisezvous, prcisez son calcul et quelle hypothse testez-vous ? Fates cela de deux manires
diffrentes. Quen dduisez-vous ?
2 ? Quen dduisez-vous ? Etes-vous surpris de vos rsultats compte tenu
5. Calculez le R
des rsultats de la question prcdente. Comment peut-on relier ces deux indicateurs de
significativit.
6. Construisez un intervalle de confiance 10% pour le coefficient du PNB par habitant et
pour le volume de consommation de mdicaments chacun des coefficients estims.
7. Fates un test de significativit global pour GDP N , CV N et DP C. Quel test utilisezvous ? Comment procdez-vous ?
8. Pensez-vous que Schut et VanBergeijk ont conclu lexistence dune discrimination des
prix. Pourquoi ou pourquoi pas ?
Les rsultats de la rgression obtenus avec Limdep sont les suivants :
+-----------------------------------------------------------------------+
| Ordinary
least squares regression
Weighting variable = none
|
| Dep. var. = P
Mean=
41.48696970
, S.D.=
189.8914093
|
| Model size: Observations =
33, Parameters =
7, Deg.Fr.=
26 |
| Residuals: Sum of squares= 7939.073822
, Std.Dev.=
17.47424 |
| Fit:
R-squared= .993120, Adjusted R-squared =
.99153 |
| Model test: F[ 6,
26] = 625.48,
Prob value =
.00000 |
| Diagnostic: Log-L =
-137.2952, Restricted(b=0) Log-L =
-219.4502 |
105
|
LogAmemiyaPrCrt.=
5.914, Akaike Info. Crt.=
8.745 |
| Autocorrel: Durbin-Watson Statistic =
2.42015,
Rho =
-.21008 |
+-----------------------------------------------------------------------+
+---------+--------------+----------------+--------+---------+----------+
|Variable | Coefficient | Standard Error |t-ratio |P[|T|>t] | Mean of X|
+---------+--------------+----------------+--------+---------+----------+
Constant
31.64980645
6.0767585
5.208
.0000
GDPN
1.464277192
.22878429
6.400
.0000
11.240909
CVN
-.6740935338
.23393986
-2.881
.0078
2.6454545
POP
.5477959030E-02 .65222950E-01
.084
.9337
-5.2718182
PP
15.03789484
4.7588778
3.160
.0040
-29.787879
IPC
-4.670269469
6.5233638
-.716
.4804
-30.000000
DPC
-10.13164942
6.7702104
-1.497
.1466
-29.909091
(Note: E+nn or E-nn means multiply by 10 to + or -nn power.)
106
Problme 1
Il y a 33 donnes et chaque ligne correspond un pays. La 33e ligne, cest les Etats-Unis
pour cette raison les chiffres correspondant P, GDPN, CV, CVN, POP sont aux 100. Il sagit
en fait de sorte dindices. Pour les tats Unis (EU), il sagit de PEU /PEU pour les autres cest
par exemple, PF /PEU . Prix de la France / prix des EU.
1. Les tests de signification des coefficients de la rgression.
On ne peut pas calculer le risque de deuxime espce et la puissance du test parce que
pour cela il nous faudrait calculer la probabilit exacte partir de la loi du student ce
quon ne peut pas faire en tout cas sans ordinateur donc on laisse tomber.
En revanche, la p-valeur nous donne le risque de premire espce autrement dit la probabilit de rejeter H0 tort.
Il sagit de faire des tests du student bilatraux.
(a) GDPN :
H0 : 1 = 0 contre H1 : 1 = 0
Sous lhypothse nulle :
1 1H0
Stnk1
s1
1
St3361
s1
La valeur du student calcul est :
tc =
1
1, 462
= 6, 400
=
s1
0, 2287
/2
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
t/2 = 2, 056
/2
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
t
tc = 6, 4
0 t/2 = 2, 056
H0
RC
RC
Zone dacceptation de H0
RC
Zone de Rejet de H0
2
0.674
= 2.881
=
s2
0, 2339
3
15.037
= 3.160
=
s3
4.7588
(d) DPC :
H0 : 4 = 0 contre H1 : 4 = 0
Sous lhypothse nulle : La valeur du student calcul est :
tc =
4
10.131
= 1.497
=
s4
6.77
5
4.67
= 0.716
=
s5
6.52
6
0.0054
= 0.084
=
s6
0.06522
109
1
1.4642
=
= 6.4
s1
0, 2287
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
0 t = 1, 706
H0
Zone dacceptation de H0
t
tc = 6, 4
RC
Zone de Rejet de H0
SC
SCE =1.145.923,713
SCR = 7939.073
SCT=1.153.862
ddl
k=6
n-k-1 = 26
n-1 = 32
111
SCM
190.987,28
305.348
36058.18
Fisher
F=(SCE/k)/(SCR/n-k-1)=625,47
112
R2 =
F
F+
T k1
k
113
Bien que ces probl`emes aient des origines tr`es differentes, ils
peuvent e tre traites a` laide dun meme outil, les variables instrumentales - IV the instrumental-variables.
Une variable est endog`ene si elle est correlee au terme derreur.
y = 1x1 + 2x2 + . . . + k xk +
xj est endog`ene si Cov[xj , ] 6= 0
xj est exog`ene si Cov[xj , ] = 0
Les estimateurs des MCO sont a` variance minimale si et seulement si
Cov[xj , ] = 0
(1)
y = X +
On definit Z de la meme dimension que X dans laquelle le regresseur
endog`ene -p de notre exemple est remplace par z.
Zy = ZX + Z
Lhypoth`ese que Z est non correlee a` implique que 1/N (Z)
tend vers zero en probabilite alors que N devient grand. Ainsi,
on definit lestimateur IV a` partir de :
Zy = ZXIV
(3)
IV = (ZX)1Zy
(4)
(5)
(6)
desperance conditionnelle nulle se tient, chaque variable explicative peut e tre utilisee comme son propre instrument, X = Z
et lestimateur IV se reduit alors a` un estimateur des MCO. Ainsi,
lestimateur des MCO apparat comme un cas particulier des IV
qui est approprie lorsque lhypoth`ese desperance conditionnelle
nulle est satisfaite.
Considerons le cas dun regresseur endog`ene et de plusieurs instruments potentiels. Dans lequation (1), on pourrait avoir deux
instruments potentiels : z1 et z2. On pourrait appliquer lestimateur
IV de lequation (3) avec z1 entrant dans z et obtenir une estimation de IV et les deux estimations seraient differentes.
Lapproche des doubles moindres carres - DMC - combine plusieurs
instruments en un instrument optimal, qui peut alors e tre utilise
pour determiner lestimateur IV. Cette combinaison optimale suppose de faire une regression. Considerons la regression auxiliaire
(2) qui permet de tester si les instruments candidats z sont suffisamment correles au regresseur.
= [XZ(ZZ)1ZX]1[XZ(ZZ)1Zy]
= (XPzX)1XPZy
(8)
(9)
(10)
Supposons des erreurs independantes et de distributions identiques i.i.d, un estimateur de variance minimale dun grand e chantillon
des DMC secrit :
Var[2SLS] = 2[XZ(ZZ)1ZX]1 = 2(XPzX)1 (11)
o`u
=
N
2
calcule a` partir de
(12)
= y X2SLS
(13)
Bien que lon parle des doubles moindres carres comme dun
processus en deux e tapes (pour des raisons pedagogiques), on ne
proc`ederait jamais a` lestimation en deux e tapes a` la main car
sinon on obtiendrait des resultats biaises. Si on le faisait a` la main,
a` partir dune premi`ere regression des
ca reviendrait a` estimer X
=yX
au lieu des residus corrects
= y X2SLS
En utilisant la commande ivreg pour les DMC dans Stata, on
e vite ces probl`emes. La formulation dans Stata
ivreg q inc (p = rainfall temperature)
permet dindiquer que q doit e tre estime a` laide de inc et p avec
rainf all et temperature comme instruments. Comme pour les
Tests didentification
Application
car elle combine des informations sur les revenus, le niveau detude
ainsi que des mesures de laptitude des individus. La base contient
deux mesures des aptitudes, un score du QI -quotient intellectuel et un test sur la connaissance du monde du travail - knowledge of
the wordld of work (kww)-.
Les mod`eles de Griliches permettent dexpliquer les salaires en
fonction dun certain nombre de facteurs tels que le nombre dannees
decole s, le nombre dannees dexperience expr, et le nombre
dannees passees dans la meme entreprise tenure; une variable
indicatrice indiquant si la personne reside dans le sud des EtatsUnis rns; un indicateur pour la residence urbaine plutot que rurale
smsa; et un ensemble de variables indicatrices pour les annees
dans la mesure o`u les donnees sont des donnees annuelles en coupe,
telles que le QI iq, le niveau detude de la m`ere med, le score au
Number of obs =
F( 15,
742) =
Prob > F
=
758
25.03
0.0000
Residual | 93222.8583
742 125.637275
----------+-----------------------------Total | 140399.326
757 185.468066
R-squared
=
Adj R-squared =
Root MSE
=
0.3360
0.3226
11.209
--------------------------------------------------------------------------iq |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------s |
2.497742
.2858159
8.74
0.000
1.936638
3.058846
expr |
-.033548
.2534458
-0.13
0.895
-.5311042
.4640082
tenure |
.6158215
.2731146
2.25
0.024
.0796522
1.151991
rns | -2.610221
.9499731
-2.75
0.006
-4.475177
-.7452663
smsa |
.0260481
.9222585
0.03
0.977
-1.784499
1.836595
_Iyear_67 |
.9254935
1.655969
0.56
0.576
-2.325449
4.176436
_Iyear_68 |
.4706951
1.574561
0.30
0.765
-2.620429
3.56182
_Iyear_69 |
2.164635
1.521387
1.42
0.155
-.8221007
5.15137
_Iyear_70 |
5.734786
1.696033
3.38
0.001
2.405191
9.064381
_Iyear_71 |
5.180639
1.562156
3.32
0.001
2.113866
8.247411
_Iyear_73 |
4.526686
1.48294
3.05
0.002
1.615429
7.437943
med |
.2877745
.1622338
1.77
0.077
-.0307176
.6062665
kww |
.4581116
.0699323
6.55
0.000
.3208229
.5954003
age | -.8809144
.2232535
-3.95
0.000
-1.319198
-.4426307
mrt |
-.584791
.946056
-0.62
0.537
-2.442056
1.272474
_cons |
67.20449
4.107281
16.36
0.000
59.14121
75.26776
--------------------------------------------------------------------------Instrumental variables (2SLS) regression
Source |
SS
df
MS
----------+-----------------------------Model | 59.2679161
12 4.93899301
Residual | 80.0182337
745 .107407025
----------+-----------------------------Total |
139.28615
757 .183997556
Number of obs
F( 12,
745)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
758
45.91
0.0000
0.4255
0.4163
.32773
-------------------------------------------------------------------------lw |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
----------+---------------------------------------------------------------iq |
.0001747
.0039374
0.04
0.965
-.0075551
.0079044
s |
.0691759
.013049
5.30
0.000
.0435587
.0947931
expr |
.029866
.006697
4.46
0.000
.0167189
.0430132
tenure |
.0432738
.0076934
5.62
0.000
.0281705
.058377
rns | -.1035897
.0297371
-3.48
0.001
-.1619682
-.0452111
smsa |
.1351148
.0268889
5.02
0.000
.0823277
.1879019
_Iyear_67 |
-.052598
.0481067
-1.09
0.275
-.1470388
.0418428
_Iyear_68 |
.0794686
.0451078
1.76
0.079
-.009085
.1680222
_Iyear_69 |
.2108962
.0443153
4.76
0.000
.1238984
.2978939
_Iyear_70 |
.2386338
.0514161
4.64
0.000
.1376962
.3395714
_Iyear_71 |
.2284609
.0441236
5.18
0.000
.1418396
.3150823
_Iyear_73 |
.3258944
.0410718
7.93
0.000
.2452642
.4065247
_cons |
4.39955
.2708771
16.24
0.000
3.867777
4.931323
------------------------------------------------------------------------Instrumented: iq
Instruments:
s expr tenure rns smsa _Iyear_67 _Iyear_68 _Iyear_69
_Iyear_70 _Iyear_71 _Iyear_73 med kww age mrt
--------------------------------------------------------------------------
87.655
97.025
Chi-sq(3)
Chi-sq(3)
P-value = 0.0000
P-value = 0.0000
Lestimateur GMM
Jusqu`a present, nous avons fait lhypoth`ese que les erreurs e taient
i.i.d. pour deriver les estimateurs IV et des DMC. Les estimateurs IV et DMC produisent des estimateurs non biaises (consistent) mais a` variance non minimale (inefficient) ce qui implique
que lon applique une methode robuste pour les estimer.
Lestimateur des moments generalises (GMM - Generalized Methods of Moments) produira des estimateurs non biaises a` variance
minimale en presence derreurs non i.i.d.
Lequation qui nous interesse secrit :
y = X +
E[|X] =
Les estimateurs standards IV et DMC deviennent des cas particuliers des estimateurs GMM.
Lhypoth`ese selon laquelle les instruments Z sont exog`enes peut
sexprimer comme un ensemble de conditions sur les moments
E[z] = 0. Les l instruments donnent un ensemble de l moments:
gi() = Zii = Zi(yi xi)
o`u gi est l 1. Ces conditions impliquent que Z et sont non
non i.i.d.
Un estimateur GMM pour est le qui minimise J(GMM ).
Lorsque lon derive et que lon resoud les conditions a` lordre un,
J(GMM )
=0
S = E[Z Z] = E[Z Z]
(16)
o`u S est une matrice l l. Si on substitue cette matrice dans (14),
on obtient un estimateur GMM efficace :
EGMM = (XZS1ZX)1(XZS1Zy)
On peut noter la generalite de cette approche. En effet, aucune
hypoth`ese na e te faite sur , la matrice des covariances des erreurs. Mais lestimateur GMM ne peut pas e tre estime car S est
inconnu. Il nous faut donc estimer S, ce qui implique de faire des
hypoth`eses a` propos d .
Supposons que lon ait un estimateur de variance minimale pour
On peut utiliser lestimateur pour definir un estimateur
S note S.
GMM en deux e tapes quasi generalises (a feasible efficient twostep GMM estimator (FEGMM)) estime par la commande ivreg2
lorsque loption gmm est appliquee. Dans la premi`ere e tape, on
utilise une estimation standard des DMC pour engendrer des estimations des coefficients et des residus. Dans la seconde e tape, on
a` partir
fait une hypoth`ese sur la structure de pour produire S
des residus, definissant ainsi lestimateur FEGMM:
1ZX)1(XZS
1Zy)
FEGMM = (XZS
4.2
4.3
S=
i2ZiZi
N i=1
Si la regression est exactement identifiee avec l = k, le resultats de
la commande ivreg2, gmm sera identique a` la commande ivreg2,
robust.
Pour les mod`eles sur-identifies, lapproche GMM fait un meilleur
usage de linformation des l conditions que la methode standard
des DMC.
Pour comparer la methode GMM avec la methode DMC, on estime a` nouveau lequation de salaire en utilisant loption gmm.
Cette e tape engendre automatiquement des e cart-types robustes a`
lheteroscedasticite. Par defaut, ivreg2 rapporte des statistiques
pour les coefficients z pour de grands e chantillons.
. ivreg2 lw s expr tenure rns smsa _I* (iq = med kww age mrt), gmm
GMM estimation
--------------
Total (centered) SS
Total (uncentered) SS
Residual SS
=
=
=
139.2861498
24652.24662
81.26217887
Number of obs
F( 12,
745)
Prob > F
Centered R2
Uncentered R2
Root MSE
=
=
=
=
=
=
758
49.67
0.0000
0.4166
0.9967
.33
--------------------------------------------------------------------------|
Robust
lw |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
----------+---------------------------------------------------------------iq | -.0014014
.0041131
-0.34
0.733
-.009463
.0066602
s |
.0768355
.0131859
5.83
0.000
.0509915
.1026794
expr |
.0312339
.0066931
4.67
0.000
.0181157
.0443522
tenure |
.0489998
.0073437
6.67
0.000
.0346064
.0633931
rns | -.1006811
.0295887
-3.40
0.001
-.1586738
-.0426884
smsa |
.1335973
.0263245
5.08
0.000
.0820021
.1851925
_Iyear_67 | -.0210135
.0455433
-0.46
0.645
-.1102768
.0682498
_Iyear_68 |
.0890993
.042702
2.09
0.037
.0054049
.1727937
_Iyear_69 |
.2072484
.0407995
5.08
0.000
.1272828
.287214
_Iyear_70 |
.2338308
.0528512
4.42
0.000
.1302445
.3374172
_Iyear_71 |
.2345525
.0425661
5.51
0.000
.1511244
.3179805
_Iyear_73 |
.3360267
.0404103
8.32
0.000
.2568239
.4152295
_cons |
4.436784
.2899504
15.30
0.000
3.868492
5.005077
--------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
74.165
Chi-sq(3) P-val =
0.00000
--------------------------------------------------------------------------Instrumented: iq
Instruments:
med kww age mrt s expr tenure rns smsa _Iyear_67 _Iyear_68
_Iyear_69 _Iyear_70 _Iyear_71 _Iyear_73
---------------------------------------------------------------------------
4.4
Application
cinf unem if
cinf<.
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------cinf |
48
-.10625
2.566926
-9.3
6.6
unem |
48
5.78125
1.553261
2.9
9.7
Une relation de Phillips est une relation entre linflation sur les
prix ou les salaires et le taux de chomage. Dans ce mod`ele, les variable devraient avoir une relation negative, un chomage plus faible
conduisant a` une pression a` la hausse des salaires et des prix. Etant
donne que chaque variable est determinee est determinee au sein de
lenvironnement macroeconomique, on ne peut pas les considerer
comme exog`enes.
Lorsque lon utilise les donnees, on regresse linflation sur le taux
de chomage. Afin de traiter la question de la simultaneite, on utilise
comme instrument le taux de chomage avec un decalage de deux
ou trois periodes. Lorsque lon specifie bw(3), gmm et robust,
ivreg2 va produire une estimation GMM efficace.
. ivreg2
GMM estimation
-------------Heteroskedasticity and autocorrelation-consistent statistics
kernel=Bartlett; bandwidth=3
time variable (t): year
Number of obs =
46
Total (centered) SS
Total (uncentered) SS
Residual SS
=
=
=
217.4271745
217.4900005
244.9459113
F( 1,
44)
Prob > F
Centered R2
Uncentered R2
Root MSE
=
=
=
=
=
0.39
0.5371
-0.1266
-0.1262
2.3
--------------------------------------------------------------------------|
Robust
cinf |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
----------+---------------------------------------------------------------unem |
.1949334
.3064662
0.64
0.525
-.4057292
.795596
_cons | -1.144072
1.686995
-0.68
0.498
-4.450522
2.162378
--------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
0.589
Chi-sq(1) P-val =
0.44262
-------------------------------------------------------------------------Instrumented: unem
Instruments:
L2.unem L3.unem
--------------------------------------------------------------------------
De meme que pour les DMC, on peut tester la validite de la suridentification dans le cas de la methode GMM. On utilise la statistique J Hansen :
1g(EGMM ) 2lk
J(EGMM ) = N g(EGMM )S
Le test Hansen-Sargan pour la sur-identification e value lensemble
des restrictions. Dans un mod`ele qui contient un grand nombre
dinstruments, le test de C qualifie de difference-in-Sargan test C
est plus approprie. Il permet de tester un sous ensemble des conditions dorthogonalite dorigine. La statistique est calculee comme
la difference entre les deux statistiques J. C est distribuee suivant
un 2 au nombre de degres e gale a` la perte des restrictions ou le
Total (centered) SS
Total (uncentered) SS
Residual SS
=
=
=
139.2861498
24652.24662
81.26217887
Number of obs
F( 12,
745)
Prob > F
Centered R2
Uncentered R2
Root MSE
=
=
=
=
=
=
758
49.67
0.0000
0.4166
0.9967
.33
---------------------------------------------------------------------------
|
Robust
lw |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
----------+---------------------------------------------------------------iq | -.0014014
.0041131
-0.34
0.733
-.009463
.0066602
s |
.0768355
.0131859
5.83
0.000
.0509915
.1026794
expr |
.0312339
.0066931
4.67
0.000
.0181157
.0443522
tenure |
.0489998
.0073437
6.67
0.000
.0346064
.0633931
rns | -.1006811
.0295887
-3.40
0.001
-.1586738
-.0426884
smsa |
.1335973
.0263245
5.08
0.000
.0820021
.1851925
_Iyear_67 | -.0210135
.0455433
-0.46
0.645
-.1102768
.0682498
_Iyear_68 |
.0890993
.042702
2.09
0.037
.0054049
.1727937
_Iyear_69 |
.2072484
.0407995
5.08
0.000
.1272828
.287214
_Iyear_70 |
.2338308
.0528512
4.42
0.000
.1302445
.3374172
_Iyear_71 |
.2345525
.0425661
5.51
0.000
.1511244
.3179805
_Iyear_73 |
.3360267
.0404103
8.32
0.000
.2568239
.4152295
_cons |
4.436784
.2899504
15.30
0.000
3.868492
5.005077
--------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
74.165
Chi-sq(3) P-val =
0.00000
-orthog- option:
Hansen J statistic for unrestricted equation:
15.997
0.00034
58.168
0.00000
Chi-sq(2) P-val =
C statistic (exogeneity/orthogonality of specified instruments):
Chi-sq(1) P-val =
Instruments tested: s
--------------------------------------------------------------------------Instrumented: iq
Instruments:
med kww age mrt s expr tenure rns smsa _Iyear_67 _Iyear_68
_Iyear_69 _Iyear_70 _Iyear_71 _Iyear_73
---------------------------------------------------------------------------
Le test C rejette lhypoth`ese nulle indiquant que linstrument suspect s e choue au test de suridentification. La statistique J significative de 15,997 pour lequation qui exclut les instruments suspects the suspect implique que le fait de traiter s comme exog`ene
debouche sur une e quation non satisfaisante. Les instruments restant
ne semblent pas e tre independants des erreurs.
Total (centered) SS
Total (uncentered) SS
Residual SS
=
=
=
139.2861498
24652.24662
81.26217887
Number of obs
F( 12,
745)
Prob > F
Centered R2
Uncentered R2
Root MSE
=
=
=
=
=
=
758
49.67
0.0000
0.4166
0.9967
.33
---------------------------------------------------------------------------
|
Robust
lw |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
----------+---------------------------------------------------------------iq | -.0014014
.0041131
-0.34
0.733
-.009463
.0066602
s |
.0768355
.0131859
5.83
0.000
.0509915
.1026794
expr |
.0312339
.0066931
4.67
0.000
.0181157
.0443522
tenure |
.0489998
.0073437
6.67
0.000
.0346064
.0633931
rns | -.1006811
.0295887
-3.40
0.001
-.1586738
-.0426884
smsa |
.1335973
.0263245
5.08
0.000
.0820021
.1851925
_Iyear_67 | -.0210135
.0455433
-0.46
0.645
-.1102768
.0682498
_Iyear_68 |
.0890993
.042702
2.09
0.037
.0054049
.1727937
_Iyear_69 |
.2072484
.0407995
5.08
0.000
.1272828
.287214
_Iyear_70 |
.2338308
.0528512
4.42
0.000
.1302445
.3374172
_Iyear_71 |
.2345525
.0425661
5.51
0.000
.1511244
.3179805
_Iyear_73 |
.3360267
.0404103
8.32
0.000
.2568239
.4152295
_cons |
4.436784
.2899504
15.30
0.000
3.868492
5.005077
--------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
74.165
Chi-sq(3) P-val =
0.00000
-orthog- option:
Hansen J statistic for unrestricted equation:
1.176
0.27822
72.989
0.00000
Chi-sq(1) P-val =
C statistic (exogeneity/orthogonality of specified instruments):
Chi-sq(2) P-val =
Instruments tested: age mrt
--------------------------------------------------------------------------Instrumented: iq
Instruments:
med kww age mrt s expr tenure rns smsa _Iyear_67 _Iyear_68
_Iyear_69 _Iyear_70 _Iyear_71 _Iyear_73
---------------------------------------------------------------------------
Lequation estimee sans les instruments suscepts, et sans les conditions dorthogonalite age et mrt, a un J significatif, alors que C
pour les deux instruments est fortemenet significatif. Pour savoir si
on a obtenu une specification plus appropriee, on reestime lequation
avec la liste reduite dinstruments.
. ivreg2 lw s expr tenure rns smsa _I* (iq = med kww), gmm
GMM estimation
-------------Number of obs =
758
F( 12,
745) =
30.77
Prob > F
=
0.0000
Total (centered) SS
= 139.2861498
Centered R2
=
0.1030
Total (uncentered) SS
= 24652.24662
Uncentered R2 =
0.9949
Residual SS
= 124.9413508
Root MSE
=
.41
--------------------------------------------------------------------------|
Robust
lw |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
----------+---------------------------------------------------------------iq |
.0240417
.0060961
3.94
0.000
.0120936
.0359899
s |
.0009181
.0194208
0.05
0.962
-.0371459
.038982
expr |
.0393333
.0088012
4.47
0.000
.0220833
.0565834
tenure |
.0324916
.0091223
3.56
0.000
.0146122
.050371
rns | -.0326157
.0376679
-0.87
0.387
-.1064433
.041212
smsa |
.114463
.0330718
3.46
0.001
.0496434
.1792825
_Iyear_67 | -.0694178
.0568781
-1.22
0.222
-.1808968
.0420613
_Iyear_68 |
.0891834
.0585629
1.52
0.128
-.0255977
.2039645
_Iyear_69 |
.1780712
.0532308
3.35
0.001
.0737407
.2824016
_Iyear_70 |
.139594
.0677261
2.06
0.039
.0068533
.2723346
_Iyear_71 |
.1730151
.0521623
3.32
0.001
.070779
.2752512
_Iyear_73 |
.300759
.0490919
6.13
0.000
.2045407
.3969772
_cons |
2.859113
.4083706
7.00
0.000
2.058721
3.659504
-----------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
0.781
Chi-sq(1) P-val =
0.37681
--------------------------------------------------------------------------Instrumented: iq
Instruments:
med kww s expr tenure rns smsa _Iyear_67 _Iyear_68 _Iyear_69
_Iyear_70 _Iyear_71 _Iyear_73
---------------------------------------------------------------------------
En accord avec la therie, iq apparat comme un regresseur significatif pour la premi`ere fois et la statistique J de lequation est
satisfaisante. Le regresseur s, qui est apparu comme inapproprie
precedemment ne joue pas de role dans lestimation.
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Les variables instrumentales
(1)
COt = 0 + 1 Y Dt + 2 COt1 + 1t
(2)
Y Dt = Yt Tt
(3)
It = 3 + 4 Yt + 5 rt1 + 2t
(4)
rt = 6 + 7 Yt + 8 Mt + 3t
(5)
Yt : PIB lanne t
COt : Consommation en t
It : Investissement brut en t
Gt : Dpenses gouvernementales en t
N Xt : Exportations nettes de biens et services en t (exportations moins importations)
Tt : Impts en t
rt : le taux dintrt en t
Mt : loffre de monnaie en t
Y Dt : revenu disponible en t
Les donnes ncessaires se trouvent dans le fichier macro14.xls
Toutes les variables sont en termes rels sauf les taux dintrt qui sont en pourcentage
nominaux. Les donnes vont de lanne 1964 lanne 1994.
1. Quelle distinction faites-vous entre les quations stochastiques et les quations comptables. Indiquez pour chacune des quations si elle est comptable ou stochastique.
2. On cherche estimer lquation de consommation (2). Cette quation souffre-t-elle dun
problme dendognit ? Pourquoi ?
3. Quels instruments pourriez-vous proposer pour estimer cette quation ?
4. Quest-ce quune forme rduite ? Quelle distinction fates-vous avec la forme structurelle ? Soit la forme rduite suivante :
COt = 0 + 1 COt1 + 2 Gt + 3 N Xt + 4 Tt + 5 rlag + vt
On vous propose la rgression suivante aprs cration des variables manquantes. Commentez le principe de la mthode des doubles moindres carrs ainsi que les rsultats.
.
.
.
.
.
generate t= y- yd
generate nx=y- co- i- g
tsset years
generate colag=L.co
generate rlag=L.r
Number of obs
F( 5,
25)
Prob > F
R-squared
Adj R-squared
Root MSE
=
31
= 2379.18
= 0.0000
= 0.9979
= 0.9975
= 33.857
-----------------------------------------------------------------------------yd |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------colag |
1.237215
.0578294
21.39
0.000
1.118113
1.356316
g | -.5475463
.2008534
-2.73
0.012
-.9612116
-.1338809
nx | -.6295363
.1646918
-3.82
0.001
-.9687255
-.2903471
t | -.3431788
.1869254
-1.84
0.078
-.7281588
.0418013
rlag | -2.033518
4.088719
-0.50
0.623
-10.45439
6.387357
_cons |
511.6136
86.24525
5.93
0.000
333.9882
689.239
-----------------------------------------------------------------------------Instrumental variables (2SLS) regression
Source |
SS
df
MS
-------------+-----------------------------Model | 12348801.8
2 6174400.88
Residual | 26110.8198
28 932.529278
-------------+-----------------------------Total | 12374912.6
30 412497.086
Number of obs
F( 2,
28)
Prob > F
R-squared
Adj R-squared
Root MSE
=
31
= 6615.72
= 0.0000
= 0.9979
= 0.9977
= 30.537
-----------------------------------------------------------------------------co |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------yd |
.4416382
.1538393
2.87
0.008
.1265126
.7567637
colag |
.5403086
.1629997
3.31
0.003
.2064187
.8741984
_cons | -24.73018
34.90232
-0.71
0.484
-96.22435
46.76399
-----------------------------------------------------------------------------Instrumented: yd
Instruments:
colag g nx t rlag
------------------------------------------------------------------------------
5. On vous propose un test didentification ? En quoi consiste le test ? Quelle est lhypothse
teste ? Fates le test en vous aidant de la table du chi(2) ? Quelles sont vos conclusions ?
. overid
Tests of overidentifying restrictions:
Sargan N*R-sq test
21.726 Chi-sq(3)
Basmann test
58.568 Chi-sq(3)
P-value = 0.0001
P-value = 0.0000
6. Lestimation par la mthode des doubles moindres carrs suppose que les erreurs sont
i.i.d ? Cette hypothse vous parat-elle suspecte ? Pourquoi ?
7. Une rgression par les simples moindres carrs de la consommation, nous donne un dur2
bin et watson de Durbin-Watson Statistic = .8926652. Fates le test ? Quelles sont vos
conclusions ?
8. On vous propose une rgression par la mthode des moments gnraliss. Cette estimation
apporte t-elle une amlioration ?
. ivreg2 co colag (yd = g nx t rlag), gmm bw(2)
2-Step GMM estimation
--------------------Estimates efficient for arbitrary autocorrelation
Statistics robust to autocorrelation
kernel=Bartlett; bandwidth=
2
time variable (t): years
Total (centered) SS
Total (uncentered) SS
Residual SS
=
=
=
12374912.58
197725473.9
25991.24935
Number of obs
F( 2,
28)
Prob > F
Centered R2
Uncentered R2
Root MSE
=
=
=
=
=
=
31
4678.52
0.0000
0.9979
0.9999
28.96
-----------------------------------------------------------------------------co |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------yd |
.4556004
.1720822
2.65
0.008
.1183255
.7928754
colag |
.5261765
.1823187
2.89
0.004
.1688383
.8835146
_cons | -28.36601
39.24406
-0.72
0.470
-105.2829
48.55093
-----------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
16.926
Chi-sq(3) P-val =
0.0007
-----------------------------------------------------------------------------Instrumented:
yd
Included instruments: colag
Excluded instruments: g nx t rlag
------------------------------------------------------------------------------
9. On vous propose un test pour savoir si nx et rlag sont des instruments appropris. Quen
pensez vous ?
. ivreg2 co colag (yd = g t nx rlag), gmm bw(2) orthog(nx rlag)
2-Step GMM estimation
--------------------rsultats de la rgression omises
-----------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
16.926
Chi-sq(3) P-val =
0.0007
-orthog- option:
Hansen J statistic (eqn. excluding suspect orthogonality conditions):
0.595
Chi-sq(1) P-val =
0.4407
C statistic (exogeneity/orthogonality of suspect instruments):
16.331
Chi-sq(2) P-val =
0.0003
Instruments tested:
nx rlag
-----------------------------------------------------------------------------Instrumented:
yd
Included instruments: colag
Excluded instruments: g t nx rlag
------------------------------------------------------------------------------
Total (centered) SS
Total (uncentered) SS
Residual SS
=
=
=
12374912.58
197725473.9
67501.31687
Number of obs
F( 2,
28)
Prob > F
Centered R2
Uncentered R2
Root MSE
=
=
=
=
=
=
31
2006.73
0.0000
0.9945
0.9997
46.66
-----------------------------------------------------------------------------co |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------yd | -.2669334
.3834833
-0.70
0.486
-1.018547
.4846801
colag |
1.290077
.405872
3.18
0.001
.4945823
2.085571
_cons |
101.7307
78.17731
1.30
0.193
-51.49404
254.9554
-----------------------------------------------------------------------------Hansen J statistic (overidentification test of all instruments):
0.249
Chi-sq(1) P-val =
0.6175
-----------------------------------------------------------------------------Instrumented:
yd
Included instruments: colag
Excluded instruments: g t
------------------------------------------------------------------------------
exclues.
La censure se produit lorsque lon observe la variable dependante
pour tout lechantillon, mais pour certaines observations on ne
dispose que dune information limitee. Par exemple, on saura
que la variable dependante est inferieure a` 100 mais pas sa valeur
exacte. La censure de certaines valeurs de la variable dependante
de letude induit une distorsion dans les resultats statistiques conventionnels semblable a` celle de la troncature. Mais a` la difference
de la troncature, la censure correspond essentiellemnet a` un defaut
des donnees de lechantillon. Si elles netaient pas censurees, ces
donnees donneraient un e chantillon representatif de la population.
La troncature
Les consequences de la troncature sur la distribution dune variable aleatoire sont claires. Lesperance de la variable aleatoire
seloigne du point de toncature et la variance est reduite. Par
exemple, sur un e chantillon portant sur les niveaux deducation, le
niveau minimum deducation est de 12 annees, le niveau moyen
deducation est donc superieur a` celui de la population totale sans
les exclus et la variance est plus faible comme le montre lexemple
plus loin.
Les statistiques et tests realises sur cet e chantillon tronque ne permettent pas de faire quelque inference que ce soit sur la population
totale sans faire des corrections pour les individus exclus qui nont
pas e te tires de mani`ere aleatoire de la population totale. Mails Il
(i)
{1 (i)}
est lecart-type du terme derreur tronque , (.) est la fonction
de densite normale, et (.) est la fonction de densite cumulative
normale. Et (i) est linverse du ratio de Mills IMR.
On montre alors que
(i) =
1.0.1
Exemple
we
. sum
byte
%9.0g
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------whrs |
250
799.84
915.6035
0
4950
kl6 |
250
.236
.5112234
0
3
k618 |
250
1.364
1.370774
0
8
wa |
250
42.92
8.426483
30
60
we |
250
12.352
2.164912
5
17
Number of obs
F( 4,
145)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
150
2.80
0.0281
0.0717
0.0461
808.55
-----------------------------------------------------------------------------whrs |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------kl6 | -421.4822
167.9734
-2.51
0.013
-753.4748
-89.48953
k618 | -104.4571
54.18616
-1.93
0.056
-211.5538
2.639668
wa | -4.784917
9.690502
-0.49
0.622
-23.9378
14.36797
we |
9.353195
31.23793
0.30
0.765
-52.38731
71.0937
_cons |
1629.817
615.1301
2.65
0.009
414.0371
2845.597
------------------------------------------------------------------------------
Source |
SS
df
MS
-------------+-----------------------------Model | 7326995.15
4 1831748.79
Residual | 94793104.2
145 653745.546
-------------+-----------------------------Total |
102120099
149 685369.794
0:
1:
2:
3:
4:
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
Truncated regression
Limit:
lower =
0
upper =
+inf
Log likelihood = -1200.9157
=
=
=
=
=
-1205.6992
-1200.9873
-1200.9159
-1200.9157
-1200.9157
Number of obs =
150
Wald chi2(4) = 10.05
Prob > chi2
= 0.0395
-----------------------------------------------------------------------------whrs |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------eq1
|
kl6 | -803.0042
321.3614
-2.50
0.012
-1432.861
-173.1474
k618 |
-172.875
88.72898
-1.95
0.051
-346.7806
1.030578
wa | -8.821122
14.36848
-0.61
0.539
-36.98283
19.34059
we |
16.52873
46.50375
0.36
0.722
-74.61695
107.6744
_cons |
1586.26
912.355
1.74
0.082
-201.9233
3374.442
-------------+---------------------------------------------------------------sigma
|
_cons |
983.7262
94.44303
10.42
0.000
798.6213
1168.831
------------------------------------------------------------------------------
La censure
0 si yi 0
yi si yi > 0
yi contient soit des zeros pour ceux qui nach`etent pas de voiture
dans lannee ou un montant positif pour les autres. Le mod`ele combine des aspects du probit binomial pour la distinction de yi = 0
versus yi > 0 et le mod`ele de regression E[yi|yi > 1, xi]. On
pourrait prendre toute les observations positives de yi et faire une
estimation a` laide dun probit ou dun logit mais en faisant cela, on
perdrait une partie de linformation portant sur le montant depense
yi =
xi
yi xi 1
log
+ I(yi > 0) log
2
observee y est
E[y|x]
= j P r(a > yi > b)
xj
a et b representent des intervales. Par exemple, pour une censure
a` gauche de zero, a = 0 et b = +. Un accroissement de la
variable expliquee xj avec un coefficient positif implique quun individu qui est censure a` gauche a une plus faible probabilite detre
censuree. La probabilite dune valeur differente de zero va augmenter. Pour un individu non censure, une augmentation de xj
implique que E[y|y > 0] augmente.
Exemple
Source |
SS
df
MS
-------------+-----------------------------Model | 937.873188
4 234.468297
Residual | 3485.34135 1995 1.74703827
-------------+-----------------------------Total | 4423.21454 1999 2.21271363
Number of obs
F( 4, 1995)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
2000
134.21
0.0000
0.2120
0.2105
1.3218
-----------------------------------------------------------------------------lwf |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------age |
.0363624
.003862
9.42
0.000
.0287885
.0439362
married |
.3188214
.0690834
4.62
0.000
.1833381
.4543046
children |
.3305009
.0213143
15.51
0.000
.2887004
.3723015
education |
.0843345
.0102295
8.24
0.000
.0642729
.1043961
_cons | -1.077738
.1703218
-6.33
0.000
-1.411765
-.7437105
-----------------------------------------------------------------------------. tobit
Tobit regression
Number of obs
LR chi2(4)
Prob > chi2
Pseudo R2
=
=
=
=
2000
461.85
0.0000
0.0645
-----------------------------------------------------------------------------lwf |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------age |
.052157
.0057457
9.08
0.000
.0408888
.0634252
married |
.4841801
.1035188
4.68
0.000
.2811639
.6871964
children |
.4860021
.0317054
15.33
0.000
.4238229
.5481812
education |
.1149492
.0150913
7.62
0.000
.0853529
.1445454
_cons | -2.807696
.2632565
-10.67
0.000
-3.323982
-2.291409
-------------+---------------------------------------------------------------/sigma |
1.872811
.040014
1.794337
1.951285
-----------------------------------------------------------------------------Obs. summary:
657 left-censored observations at lwf<=0
1343
uncensored observations
0 right-censored observations
devient alors
E[y|z, s] = x + E[v|z, s]
Lesperance conditionnelle E[v|z, s] pour si = 1, la cas observable,
est simplement , linverse du ratio de Mills. On en deduit donc
que
E[y|z, i = 1] = x + (z)
Si = 0, les estimations des moindres carres ordinaires de lechantillon
tronque accidentel ne permettront pas destimer de mani`ere satisfaisante a` moins que lon int`egre lIMR. En revanche, si = 0,
les moindres carres conduiront a` des estimations convergentes.
Le terme IMR inclut les param`etres inconnus de la population,
qui peuvent e tre estimes a` laide dun probit.
Pr(s = 1|z) = (z)
3.0.3
Exemple
0:
1:
2:
3:
4:
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
=
=
=
=
=
-1065.7948
-1053.6855
-1052.867
-1052.8574
-1052.8574
Number of obs
Censored obs
Uncensored obs
=
=
=
2000
657
1343
Wald chi2(3)
Prob > chi2
=
=
454.78
0.0000
-----------------------------------------------------------------------------|
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lw
|
education |
.0397189
.0024525
16.20
0.000
.0349121
.0445256
age |
.0075872
.0009748
7.78
0.000
.0056767
.0094977
children | -.0180477
.0064544
-2.80
0.005
-.0306981
-.0053973
_cons |
2.305499
.0653024
35.30
0.000
2.177509
2.43349
-------------+---------------------------------------------------------------select
|
age |
.0350233
.0042344
8.27
0.000
.0267241
.0433225
married |
.4547724
.0735876
6.18
0.000
.3105434
.5990014
children |
.4538372
.0288398
15.74
0.000
.3973122
.5103621
education |
.0565136
.0110025
5.14
0.000
.0349492
.0780781
_cons | -2.478055
.1927823
-12.85
0.000
-2.855901
-2.100208
-------------+---------------------------------------------------------------/athrho |
.3377674
.1152251
2.93
0.003
.1119304
.5636045
/lnsigma | -1.375543
.0246873
-55.72
0.000
-1.423929
-1.327156
-------------+---------------------------------------------------------------rho |
.3254828
.1030183
.1114653
.5106469
sigma |
.2527024
.0062385
.2407662
.2652304
Number of obs
Censored obs
Uncensored obs
=
=
=
2000
657
1343
Wald chi2(6)
Prob > chi2
=
=
737.21
0.0000
-----------------------------------------------------------------------------|
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lw
|
education |
.0427067
.003106
13.75
0.000
.0366191
.0487944
age |
.009322
.0014343
6.50
0.000
.0065108
.0121333
children | -.0019549
.0115202
-0.17
0.865
-.0245341
.0206242
lambda |
.0822503
.0273475
.0286501
.1358505
-----------------------------------------------------------------------------LR test of indep. eqns. (rho = 0):
chi2(1) =
5.53
Prob > chi2 = 0.0187
------------------------------------------------------------------------------
Tous les facteurs sont significatifs tant pour le mod`ele tant pour
lequation de log(wage) que pour lequation de selection. En utilisant ce mod`ele de selection, on a relache lhypoth`ese que les
facteurs determinant la decision de travailler sont les memes
que ceux qui expliquent le niveau de salaire. Leffet dun nombre croissant denfants accrot la probabilite de la selection (activite salariee) mais decrot le niveau de salaire, conditionnel a` la
decision de travail. Le test du ratio de la vraissemblance pour = 0
rejette lhypoth`ese nulle, de sorte que lestimation de lequation
du log(wage) sans tenir compte de la selection conduirait a` des
resultats non convergents.
_cons |
2.124787
.1249789
17.00
0.000
1.879833
2.369741
-------------+---------------------------------------------------------------select
|
age |
.0347211
.0042293
8.21
0.000
.0264318
.0430105
married |
.4308575
.074208
5.81
0.000
.2854125
.5763025
children |
.4473249
.0287417
15.56
0.000
.3909922
.5036576
education |
.0583645
.0109742
5.32
0.000
.0368555
.0798735
_cons | -2.467365
.1925635
-12.81
0.000
-2.844782
-2.089948
-------------+---------------------------------------------------------------mills
|
lambda |
.1822815
.0638285
2.86
0.004
.05718
.307383
-------------+---------------------------------------------------------------rho |
0.66698
sigma | .27329216
lambda | .18228151
.0638285
------------------------------------------------------------------------------
Bien que le heckman a deux e tapes offre e galement une estimation des param`etres du mod`ele de selection, on voit une difference
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Les modles de slection
-------------+-------------------------------------------------------emplw |
799
.6908636
.462427
0
1
earnwkef |
756
386.8995
423.8151
0
2884
age2 |
800
2088.266
980.2236
625
4225
. regress earnwkef black othrac age age2 ihigrdc if ch02!=.
Source |
SS
df
MS
-------------+-----------------------------Model | 18384108.9
5 3676821.77
Residual |
113792966
716 158928.723
-------------+-----------------------------Total |
132177075
721 183324.653
Number of obs
F( 5,
716)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
722
23.14
0.0000
0.1391
0.1331
398.66
-----------------------------------------------------------------------------earnwkef |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -27.87674
51.14381
-0.55
0.586
-128.2865
72.53302
othrac |
29.85007
57.68221
0.52
0.605
-83.39641
143.0966
age |
26.30842
11.28381
2.33
0.020
4.155107
48.46174
age2 | -.3033743
.1254136
-2.42
0.016
-.5495967
-.0571519
ihigrdc |
53.17958
5.243977
10.14
0.000
42.88417
63.47499
_cons | -854.1964
252.5549
-3.38
0.001
-1350.033
-358.3598
-----------------------------------------------------------------------------note : la condition ch02 !=. nous assure simplement quon ne prend pas encore
les observations pour lesquelles les observations de la variable ch02 ne sont
pas manquantes
2. Peut-on sappuyer sur cette rgression pour faire des infrences sur la population des
femmes qui travaillent ? Expliquez. aleur du salaire pour ceux qui travaillent de toute
manire.
3. On vous propose la rgression suivante : en quoi cette rgression est-elle une amlioration
par rapport la mthode des MCO. Est-elle totalement satisfaisante ?
. tobit earnwkef black othrac age age2 ihigrdc if ch02!=., ll(0)
Tobit regression
Number of obs
LR chi2(5)
Prob > chi2
Pseudo R2
=
=
=
=
722
100.38
0.0000
0.0125
-----------------------------------------------------------------------------earnwkef |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -22.65272
72.77186
-0.31
0.756
-165.5241
120.2187
othrac |
67.8211
80.33858
0.84
0.399
-89.90588
225.5481
age |
44.37442
16.2132
2.74
0.006
12.54341
76.20544
age2 | -.5171235
.1812881
-2.85
0.004
-.8730424
-.1612045
ihigrdc |
73.67987
7.890169
9.34
0.000
58.18927
89.17046
_cons | -1607.653
365.2817
-4.40
0.000
-2324.803
-890.5035
-------------+---------------------------------------------------------------/sigma |
535.4785
18.33199
499.4877
571.4693
-----------------------------------------------------------------------------Obs. summary:
233 left-censored observations at earnwkef<=0
489
uncensored observations
0 right-censored observations
. mfx compute, predict(pr(0,.))
Marginal effects after tobit
y = Pr(earnwkef>0) (predict, pr(0,.))
= .69412557
-----------------------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z| [
95% C.I.
]
X
---------+-------------------------------------------------------------------black*| -.0149637
.04847
-0.31
0.758 -.109967
.08004
.094183
othrac*|
.0431323
.0495
0.87
0.384
-.05389 .140155
.072022
age |
.029064
.01064
2.73
0.006
.008207 .049921
44.241
age2 | -.0003387
.00012
-2.85
0.004 -.000572 -.000105
2076.39
ihigrdc |
.0482583
.00533
9.05
0.000
.037803 .058714
13.3996
-----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
. mfx compute, predict(e(0,.))
Marginal effects after tobit
y = E(earnwkef|earnwkef>0) (predict, e(0,.))
= 542.36086
-----------------------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z| [
95% C.I.
]
X
---------+-------------------------------------------------------------------black*| -10.95457
34.857
-0.31
0.753 -79.2733 57.3641
.094183
othrac*|
34.12324
41.624
0.82
0.412 -47.4587 115.705
.072022
age |
21.665
7.91048
2.74
0.006
6.16074 37.1693
44.241
age2 | -.2524761
.08844
-2.85
0.004 -.425815 -.079138
2076.39
ihigrdc |
35.97285
3.87786
9.28
0.000
28.3724 43.5733
13.3996
-----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
Number of obs
722
LR chi2(9)
Prob > chi2
Pseudo R2
=
=
=
60.03
0.0000
0.0662
-----------------------------------------------------------------------------emplw |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -.0014557
.1713513
-0.01
0.993
-.3372981
.3343868
othrac |
.1918463
.2016849
0.95
0.341
-.2034488
.5871415
age |
.0312355
.041705
0.75
0.454
-.0505048
.1129758
age2 | -.0005947
.0004543
-1.31
0.191
-.0014852
.0002958
ihigrdc |
.0776969
.0179726
4.32
0.000
.0424712
.1129226
ch02 | -.5777895
.1796234
-3.22
0.001
-.929845
-.225734
ch35 | -.3235616
.1657756
-1.95
0.051
-.6484758
.0013526
ch613 | -.3672208
.125268
-2.93
0.003
-.6127415
-.1217001
ch1417 |
.2476143
.1483912
1.67
0.095
-.0432271
.5384558
_cons | -.5547977
.9435299
-0.59
0.557
-2.404082
1.294487
-----------------------------------------------------------------------------. testparm ch02 ch35 ch613 ch1417
(
(
(
(
1)
2)
3)
4)
ch02 = 0
ch35 = 0
ch613 = 0
ch1417 = 0
chi2( 4) =
Prob > chi2 =
26.24
0.0000
Number of obs
F( 6,
483)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
490
20.65
0.0000
0.2041
0.1942
362.34
-----------------------------------------------------------------------------earnwkef |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -52.79758
57.14804
-0.92
0.356
-165.0871
59.4919
othrac | -15.55447
62.65035
-0.25
0.804
-138.6554
107.5464
age |
4.265233
14.2866
0.30
0.765
-23.80634
32.33681
age2 | -.0087184
.1652137
-0.05
0.958
-.3333449
.315908
ihigrdc |
63.01018
8.37043
7.53
0.000
46.56323
79.45714
invmill |
-191.354
127.9787
-1.50
0.136
-442.8178
60.10989
_cons | -356.8735
376.8102
-0.95
0.344
-1097.263
383.5162
------------------------------------------------------------------------------
7. On vous propose une estimation par la mthode de heckman avec loption twostep et on
estime la mme quation que prcdemment. Comparer les coefficients obtenus ceux
de la question prcdente et ceux ignorant la correction. Comparer les cart-types avec
ceux obtenus la question prcdente. Sont-elles trs diffrentes ? Pourquoi ?
. heckman earnwkef black othrac age age2 ihigrdc, select( emplw = black othrac
age age2 ihigrdc ch02 ch35 ch613 ch1417) twostep
Heckman selection model -- two-step estimates
(regression model with sample selection)
Number of obs
Censored obs
Uncensored obs
=
=
=
722
232
490
Wald chi2(5)
=
66.22
Prob > chi2
=
0.0000
-----------------------------------------------------------------------------|
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------earnwkef
|
black | -52.79758
58.97689
-0.90
0.371
-168.3902
62.795
othrac | -15.55447
64.95989
-0.24
0.811
-142.8735
111.7646
age |
4.265233
14.72002
0.29
0.772
-24.58549
33.11595
age2 | -.0087184
.1698654
-0.05
0.959
-.3416485
.3242116
ihigrdc |
63.01018
8.566486
7.36
0.000
46.22018
79.80018
_cons | -356.8735
388.7785
-0.92
0.359
-1118.865
405.1183
-------------+---------------------------------------------------------------emplw
|
black | -.0014557
.1713513
-0.01
0.993
-.3372981
.3343868
othrac |
.1918463
.2016849
0.95
0.341
-.2034488
.5871415
age |
.0312355
.041705
0.75
0.454
-.0505048
.1129758
age2 | -.0005947
.0004543
-1.31
0.191
-.0014852
.0002958
ihigrdc |
.0776969
.0179726
4.32
0.000
.0424712
.1129226
ch02 | -.5777895
.1796234
-3.22
0.001
-.929845
-.225734
ch35 | -.3235616
.1657756
-1.95
0.051
-.6484758
.0013526
ch613 | -.3672208
.125268
-2.93
0.003
-.6127415
-.1217001
ch1417 |
.2476143
.1483912
1.67
0.095
-.0432271
.5384558
_cons | -.5547977
.9435299
-0.59
0.557
-2.404082
1.294487
-------------+---------------------------------------------------------------mills
|
lambda |
-191.354
131.3091
-1.46
0.145
-448.715
66.00705
-------------+---------------------------------------------------------------rho |
-0.49860
sigma | 383.78392
lambda | -191.35396
131.3091
------------------------------------------------------------------------------
8. A laide de la commande predict avec loption mills arps une rgression heckman,
on obtient une estimation de linverse du ratio de Mills. On calcule la corrlation avec
linverse de Mills obtenu prcdemment la suite de la rgression du probit. Sont-ils
similaires ?
5
Number of obs
Censored obs
Uncensored obs
=
=
=
722
232
490
Wald chi2(5)
=
99.94
Log likelihood = -4002.845
Prob > chi2
=
0.0000
-----------------------------------------------------------------------------|
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------earnwkef
|
black | -51.17895
57.22987
-0.89
0.371
-163.3474
60.98954
othrac | -3.067862
61.42984
-0.05
0.960
-123.4681
117.3324
age |
8.944075
13.41368
0.67
0.505
-17.34626
35.23441
age2 | -.0679089
.1529727
-0.44
0.657
-.3677298
.231912
ihigrdc |
67.54608
6.867649
9.84
0.000
54.08574
81.00643
_cons | -559.3134
310.4226
-1.80
0.072
-1167.731
49.10374
-------------+---------------------------------------------------------------emplw
|
black | -.0063431
.1713199
-0.04
0.970
-.3421239
.3294377
othrac |
.1903743
.2016914
0.94
0.345
-.2049335
.585682
age |
.0281355
.0417927
0.67
0.501
-.0537767
.1100477
age2 | -.0005654
.0004547
-1.24
0.214
-.0014566
.0003258
ihigrdc |
.0787945
.0180116
4.37
0.000
.0434924
.1140967
ch02 | -.5682552
.1791912
-3.17
0.002
-.9194636
-.2170468
ch35 | -.3317107
.1647425
-2.01
0.044
-.6546001
-.0088213
ch613 | -.3934671
.1253686
-3.14
0.002
-.6391849
-.1477492
ch1417 |
.2658026
.1475914
1.80
0.072
-.0234713
.5550765
_cons | -.4886907
.9447972
-0.52
0.605
-2.340459
1.363078
-------------+---------------------------------------------------------------/athrho |
-.227185
.1523527
-1.49
0.136
-.5257908
.0714208
/lnsigma |
5.899569
.0362051
162.95
0.000
5.828608
5.97053
-------------+---------------------------------------------------------------rho | -.2233555
.1447522
-.482157
.0712996
sigma |
364.8802
13.21052
339.8854
391.7131
lambda |
-81.498
54.27316
-187.8714
24.87544
-----------------------------------------------------------------------------LR test of indep. eqns. (rho = 0):
chi2(1) =
1.42
Prob > chi2 = 0.2339
------------------------------------------------------------------------------
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Les modles de slection
. summarize
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------age |
800
44.38625
10.87543
25
65
hourslw |
516
36.31395
11.99572
1
96
earnwke |
509
574.6483
398.5622
0
2884
ch02 |
765
.103268
.3045076
0
1
ch35 |
765
.1111111
.3144753
0
1
-------------+-------------------------------------------------------ch613 |
765
.2522876
.4346096
0
1
ch1417 |
765
.1660131
.3723358
0
1
ihigrdc |
800
13.4075
2.905188
0
18
black |
800
.0975
.296823
0
1
othrac |
800
.0725
.2594762
0
1
-------------+-------------------------------------------------------emplw |
799
.6908636
.462427
0
1
earnwkef |
756
386.8995
423.8151
0
2884
age2 |
800
2088.266
980.2236
625
4225
. regress earnwkef black othrac age age2 ihigrdc if ch02!=.
Source |
SS
df
MS
-------------+-----------------------------Model | 18384108.9
5 3676821.77
Residual |
113792966
716 158928.723
-------------+-----------------------------Total |
132177075
721 183324.653
Number of obs
F( 5,
716)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
722
23.14
0.0000
0.1391
0.1331
398.66
-----------------------------------------------------------------------------earnwkef |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -27.87674
51.14381
-0.55
0.586
-128.2865
72.53302
othrac |
29.85007
57.68221
0.52
0.605
-83.39641
143.0966
age |
26.30842
11.28381
2.33
0.020
4.155107
48.46174
age2 | -.3033743
.1254136
-2.42
0.016
-.5495967
-.0571519
ihigrdc |
53.17958
5.243977
10.14
0.000
42.88417
63.47499
_cons | -854.1964
252.5549
-3.38
0.001
-1350.033
-358.3598
------------------------------------------------------------------------------
note : la condition ch02 !=. nous assure simplement quon ne prend pas encore les observati
2. Peut-on sappuyer sur cette rgression pour faire des infrences sur la population
des femmes qui travaillent ? Expliquez.
La mthode des MCO ne permet pas de faire une infrence sur la population totale. Il
est ncessaire de combiner un modle probit sur loccurrence de la variable y positive et
ensuite une estimation par le maximum de vraissemblance pour tenir compte de la valeur
de la variable y. En effet, les variables explicatives auront un impact sur
le fait (la probabilit) que lindividu est cesur (y = 0)
sur la valeur de y pour un individu non censur (E[y|y > 0])
Dans notre cas, la valeur des variables explicatives auront un impact sur la probabilit de
travailler dune part et sur la valeur du salaire pour ceux qui travaillent de toute manire.
3. On vous propose la rgression suivante : en quoi cette rgression est-elle une amlio2
Number of obs
LR chi2(5)
Prob > chi2
Pseudo R2
=
=
=
=
722
100.38
0.0000
0.0125
-----------------------------------------------------------------------------earnwkef |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -22.65272
72.77186
-0.31
0.756
-165.5241
120.2187
othrac |
67.8211
80.33858
0.84
0.399
-89.90588
225.5481
age |
44.37442
16.2132
2.74
0.006
12.54341
76.20544
age2 | -.5171235
.1812881
-2.85
0.004
-.8730424
-.1612045
ihigrdc |
73.67987
7.890169
9.34
0.000
58.18927
89.17046
_cons | -1607.653
365.2817
-4.40
0.000
-2324.803
-890.5035
-------------+---------------------------------------------------------------/sigma |
535.4785
18.33199
499.4877
571.4693
-----------------------------------------------------------------------------Obs. summary:
233 left-censored observations at earnwkef<=0
489
uncensored observations
0 right-censored observations
. mfx compute, predict(pr(0,.))
Marginal effects after tobit
y = Pr(earnwkef>0) (predict, pr(0,.))
= .69412557
-----------------------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z| [
95% C.I.
]
X
---------+-------------------------------------------------------------------black*| -.0149637
.04847
-0.31
0.758 -.109967
.08004
.094183
othrac*|
.0431323
.0495
0.87
0.384
-.05389 .140155
.072022
age |
.029064
.01064
2.73
0.006
.008207 .049921
44.241
age2 | -.0003387
.00012
-2.85
0.004 -.000572 -.000105
2076.39
ihigrdc |
.0482583
.00533
9.05
0.000
.037803 .058714
13.3996
-----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
. mfx compute, predict(e(0,.))
Marginal effects after tobit
y = E(earnwkef|earnwkef>0) (predict, e(0,.))
= 542.36086
-----------------------------------------------------------------------------variable |
dy/dx
Std. Err.
z
P>|z| [
95% C.I.
]
X
---------+-------------------------------------------------------------------black*| -10.95457
34.857
-0.31
0.753 -79.2733 57.3641
.094183
othrac*|
34.12324
41.624
0.82
0.412 -47.4587 115.705
.072022
age |
21.665
7.91048
2.74
0.006
6.16074 37.1693
44.241
age2 | -.2524761
.08844
-2.85
0.004 -.425815 -.079138
2076.39
ihigrdc |
35.97285
3.87786
9.28
0.000
28.3724 43.5733
13.3996
-----------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1
Dans la mesure o il importe dexpliquer la fois la probabilit que lvnement se produise et la valeur de y lorsque cet vnement se produit, lexpression estimer scrit :
E(y|y > 0, x) = x + ()
avec
= x/
est linverse du ratio de Mills ; ainsi, lesprance de y conditionnel y > 0 est fonction
des variables explicatives et du produit de lcart-type des erreurs par le ratio de Mills
valu pour x/. Cette quation montre galement pourquoi lutilisation des MCO pour
les seules valeurs positives de y ne serait pas appropri puisquen fait lquation souffrirait
dune variable omise (le ratio de Mills).
Le probit permet de tenir compte du fait que les obsevations sont censures gauche la
valeur 0.
4. Expliquez et analysez les effets marginaux
Dans le premier cas, mfx compute, predict(pr(0,.)) rend compte de leffet marginal de
chaque variable sur la probabilit de participation
Dans le second cas, mfx compute, predict(e(0,.)) rend compte de leffet marginal de
chaque variable sur le montant du salaire
Ces effets marginaux, contrairement ceux obtenus par les MCO, tiennent compte compte
correctement du fait que la variable explique est censure.
Leffet marginal implique que une anne dtude de plus par rapport la moyenne (13,39)
entranera une augmentation de la participation de 4,8%
Leffet marginal du fait dtre noire rduit la participation de 1,5% mais ce nest pas significatif.
Leffet marginal dune anne dtude de plus par rapport au niveau dtude moyen va
avoir un impact de 350% sur le salaire.
5. On vous demande prsent destimer un modle probit pour tenter de comprendre
quels sont les dterminants de la dcision de travailler (emplw == 1 ). La rgression
est ralise pour celles qui dclarent ne pas travailler (emplw==0) et pour celles qui
dclarent travailler (emplw == 1) et nont pas dobservatiosn manquantes pour le
montant du salaire hebdomadaire (earnwke !=.).
Analysez les rsultats de la rgression. En quoi cette rgression pourrait-elle tre
utile ?
On vous propose de tester lhypothse nulle que les coefficients des variables indicatrices sont gales zro. De quel test sagit-il ? Y a t-il un problme dinstrument
faibles ? Expliquez si les variables indicatrices du nombre denfants dans le mnage
sont des restrictions valides ? Le probit permet de dterminer quelles sont les variables
qui influencent la censure, cest--dire la dcision pour une femme de travailler ou non.
On constate que les variables qui sont significatives et ngatives ici correspondent lge
des enfants. La femme dcidera de travailler ou non en fonction de lge de ses enfants
de moins de 13 ans. De mme que le nombre dannes dtude, autrement dit le niveau
dducation va avoir un impact positif et significatif sur la probabilit de travailler.
4
Ces variables peuvent constituer des restrictions valides pour une procdure de heckman
par exemple si on suppose que les enfants ont un impact sur lquation de participation
et non pas sur le montant du salaire. En revanche, elles ne constitueraient pas des restrictions valides si on supposait que les femmes qui anticipent davoir des enfants pourraient
en ternir compte pour dcider du type dtude et de la qualit des tudes quelles entreprennent. Ce choix nest pas pris en compte par la variable nombre dannes dtudes
et par consquent, les variables enfants sont corrls au terme derreur de lquation de
salaire.
Quant aux tests sur les enfants, il sagit dun test de Wald qui testent plusieurs coefficients
en mme temps. Il sagit donc dun chi2 4 degrs de libert. Celui-ci montre que les
quatre variables sont conjointement significatives.
. probit emplw black othrac age age2 ihigrdc ch02 ch35 ch613 ch1417 ch1417
if earnwkef!=.
note: ch1417 dropped because of
Iteration 0:
log likelihood =
Iteration 1:
log likelihood =
Iteration 2:
log likelihood =
Iteration 3:
log likelihood =
collinearity
-453.32044
-423.47695
-423.30793
-423.30789
Probit regression
Number of obs
LR chi2(9)
Prob > chi2
Pseudo R2
=
=
=
=
722
60.03
0.0000
0.0662
-----------------------------------------------------------------------------emplw |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -.0014557
.1713513
-0.01
0.993
-.3372981
.3343868
othrac |
.1918463
.2016849
0.95
0.341
-.2034488
.5871415
age |
.0312355
.041705
0.75
0.454
-.0505048
.1129758
age2 | -.0005947
.0004543
-1.31
0.191
-.0014852
.0002958
ihigrdc |
.0776969
.0179726
4.32
0.000
.0424712
.1129226
ch02 | -.5777895
.1796234
-3.22
0.001
-.929845
-.225734
ch35 | -.3235616
.1657756
-1.95
0.051
-.6484758
.0013526
ch613 | -.3672208
.125268
-2.93
0.003
-.6127415
-.1217001
ch1417 |
.2476143
.1483912
1.67
0.095
-.0432271
.5384558
_cons | -.5547977
.9435299
-0.59
0.557
-2.404082
1.294487
-----------------------------------------------------------------------------. testparm ch02 ch35 ch613 ch1417
(
(
(
(
1)
2)
3)
4)
ch02 = 0
ch35 = 0
ch613 = 0
ch1417 = 0
chi2( 4) =
Prob > chi2 =
26.24
0.0000
6. En utilisant le probit de la question 3, on estime le terme du mills ratio, et on lintgre la rgression de lquation du salaire hebdomadaire par les MCO. Est-ce une
5
solution ?
A partir du moment o lon dtermine une estimation de linverse du ratio de Mills, il est
possible de lintgrer dans la rgression linaire afin dliminer le biais engendr par la
variable omise (ratio de mills). On peut ainsi corriger le biais de slection.
E(y|y > 0, x) = x + ()
avec
= x/
. predict zgamma, xb
// il sagit ici dune estimation de la relation linaire
(35 missing values generated)
gen invmill = normalden(zgamma)/normal(zgamma)
// on dtermine linverse du ratio de Mills en dterminant le rapport entre
la fonction de densit normale et la fonction de densit cumulative de la loi
normale pour les prdictions du modle linaire
(35 missing values generated)
. regress earnwkef black othrac age age2 ihigrdc invmill if earnwke!=.
Source |
SS
df
MS
-------------+-----------------------------Model | 16263033.2
6 2710505.53
Residual | 63411510.2
483 131286.771
-------------+-----------------------------Total | 79674543.4
489 162933.627
Number of obs
F( 6,
483)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
490
20.65
0.0000
0.2041
0.1942
362.34
-----------------------------------------------------------------------------earnwkef |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------black | -52.79758
57.14804
-0.92
0.356
-165.0871
59.4919
othrac | -15.55447
62.65035
-0.25
0.804
-138.6554
107.5464
age |
4.265233
14.2866
0.30
0.765
-23.80634
32.33681
age2 | -.0087184
.1652137
-0.05
0.958
-.3333449
.315908
ihigrdc |
63.01018
8.37043
7.53
0.000
46.56323
79.45714
invmill |
-191.354
127.9787
-1.50
0.136
-442.8178
60.10989
_cons | -356.8735
376.8102
-0.95
0.344
-1097.263
383.5162
------------------------------------------------------------------------------
Il sagit dune solution tout fait acceptable qui permet de corriger le biais de slection.
On peut comparer ce rsultat un heckman deux tapes.
7. On vous propose une estimation par la mthode de heckman avec loption twostep
et on estime la mme quation que prcdemment. Comparer les coefficients obtenus ceux de la question prcdente et ceux ignorant la correction. Comparer les
cart-types avec ceux obtenus la question prcdente. Sont-elles trs diffrentes ?
Pourquoi ?
Les deux rsultats sont exactement identiques puisquils sappuient sur un mme calcule
6
de linverse du ratio de Mills. Lorsque lon utilise la rgression deux tapes, on estime
la rgression suivante :
E[y|y > 0, x] = x + () +
pour laquelle lIMR est estime aprs un probit la premire tape et intgre comme
rgresseur dans la deuxime tape.
. heckman earnwkef black othrac age age2 ihigrdc, select( emplw = black othrac
age age2 ihigrdc ch02 ch35 ch613 ch1417) twostep
Heckman selection model -- two-step estimates
(regression model with sample selection)
Number of obs
Censored obs
Uncensored obs
=
=
=
722
232
490
Wald chi2(5)
Prob > chi2
=
=
66.22
0.0000
-----------------------------------------------------------------------------|
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------earnwkef
|
black | -52.79758
58.97689
-0.90
0.371
-168.3902
62.795
othrac | -15.55447
64.95989
-0.24
0.811
-142.8735
111.7646
age |
4.265233
14.72002
0.29
0.772
-24.58549
33.11595
age2 | -.0087184
.1698654
-0.05
0.959
-.3416485
.3242116
ihigrdc |
63.01018
8.566486
7.36
0.000
46.22018
79.80018
_cons | -356.8735
388.7785
-0.92
0.359
-1118.865
405.1183
-------------+---------------------------------------------------------------emplw
|
black | -.0014557
.1713513
-0.01
0.993
-.3372981
.3343868
othrac |
.1918463
.2016849
0.95
0.341
-.2034488
.5871415
age |
.0312355
.041705
0.75
0.454
-.0505048
.1129758
age2 | -.0005947
.0004543
-1.31
0.191
-.0014852
.0002958
ihigrdc |
.0776969
.0179726
4.32
0.000
.0424712
.1129226
ch02 | -.5777895
.1796234
-3.22
0.001
-.929845
-.225734
ch35 | -.3235616
.1657756
-1.95
0.051
-.6484758
.0013526
ch613 | -.3672208
.125268
-2.93
0.003
-.6127415
-.1217001
ch1417 |
.2476143
.1483912
1.67
0.095
-.0432271
.5384558
_cons | -.5547977
.9435299
-0.59
0.557
-2.404082
1.294487
-------------+---------------------------------------------------------------mills
|
lambda |
-191.354
131.3091
-1.46
0.145
-448.715
66.00705
-------------+---------------------------------------------------------------rho |
-0.49860
sigma | 383.78392
lambda | -191.35396
131.3091
------------------------------------------------------------------------------
8. A laide de la commande predict avec loption mills arps une rgression heckman,
on obtient une estimation de linverse du ratio de Mills. On calcule la corrlation avec
linverse de Mills obtenu prcdemment la suite de la rgression du probit. Sont-ils
similaires ?
On constate que linverse du ratio de Mills pour les deux cas sont strictement identiques.
. predict invmill2, mills
(35 missing values generated)
0:
1:
2:
3:
4:
log
log
log
log
log
likelihood
likelihood
likelihood
likelihood
likelihood
=
=
=
=
=
-4006.2731
-4003.0711
-4002.8465
-4002.8446
-4002.8446
Number of obs
Censored obs
Uncensored obs
=
=
=
722
232
490
Wald chi2(5)
Prob > chi2
=
=
99.94
0.0000
-----------------------------------------------------------------------------|
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------earnwkef
|
black | -51.17895
57.22987
-0.89
0.371
-163.3474
60.98954
othrac | -3.067862
61.42984
-0.05
0.960
-123.4681
117.3324
age |
8.944075
13.41368
0.67
0.505
-17.34626
35.23441
age2 | -.0679089
.1529727
-0.44
0.657
-.3677298
.231912
ihigrdc |
67.54608
6.867649
9.84
0.000
54.08574
81.00643
_cons | -559.3134
310.4226
-1.80
0.072
-1167.731
49.10374
-------------+---------------------------------------------------------------emplw
|
black | -.0063431
.1713199
-0.04
0.970
-.3421239
.3294377
othrac |
.1903743
.2016914
0.94
0.345
-.2049335
.585682
age |
.0281355
.0417927
0.67
0.501
-.0537767
.1100477
age2 | -.0005654
.0004547
-1.24
0.214
-.0014566
.0003258
ihigrdc |
.0787945
.0180116
4.37
0.000
.0434924
.1140967
ch02 | -.5682552
.1791912
-3.17
0.002
-.9194636
-.2170468
ch35 | -.3317107
.1647425
-2.01
0.044
-.6546001
-.0088213
ch613 | -.3934671
.1253686
-3.14
0.002
-.6391849
-.1477492
ch1417 |
.2658026
.1475914
1.80
0.072
-.0234713
.5550765
_cons | -.4886907
.9447972
-0.52
0.605
-2.340459
1.363078
-------------+---------------------------------------------------------------/athrho |
-.227185
.1523527
-1.49
0.136
-.5257908
.0714208
/lnsigma |
5.899569
.0362051
162.95
0.000
5.828608
5.97053
-------------+---------------------------------------------------------------rho | -.2233555
.1447522
-.482157
.0712996
sigma |
364.8802
13.21052
339.8854
391.7131
lambda |
-81.498
54.27316
-187.8714
24.87544
-----------------------------------------------------------------------------LR test of indep. eqns. (rho = 0):
chi2(1) =
1.42
Prob > chi2 = 0.2339
------------------------------------------------------------------------------
On rejette lhypothse nulle que = 0, les deux quations ne sont donc pas indpendantes
et il est ncessaire de corriger le biais de slection.
le = .22, ce qui indique que les termes derreur de lquation de participation et de
lquation de salaire sont corrles ngativement. Ceci signifie que si les variables non
observes ont un impact ngatif sur lquation de salaire, ils auront un impact positif des
variables non observes sur la probabilit de participation. Ce qui nest pas vraiment ce
quoi on pourrait sattendre si les variables non observes reprsentent la motivation ; des
individus plus motivs sont plus susceptibles de travailler et de gagner des salaires plus
levs.
Introduction
Les donnees de panel sont des observations qui portent sur un agent
e conomique (un individu, une entreprise, une industrie, un pays...)
au cours du temps. Ces donnees de panel ou longitudinales sont
interessantes pour traiter un certain nombre de question.
Par exemple, on peut se demander ce que signifie un taux moyen
de chomage de 10%; cela signifie t-il que les memes 10% de la
population sont au chomage de mani`ere continue au cours du temps
(chomage de longue duree) ou que de mani`ere aleatoire 10% de la
population est au chomage.
coupe et temporelles :
Yit = 0 + 1X1it + 2X2it + it
Plus generalement, le mod`ele peut secrire :
yit = xit + zi + ui + it
o`u xit est un vecteur 1 k de variables qui varient en fonction des
individus et du temps, zi est un vecteur 1 p de variables invariantes avec le temps qui varient uniquement avec les individus, est
un vecteur p 1 de coefficients,ui est un effet individuel et it le
terme derreur.
Les ui sont correles ou non aux regresseurs xit et zi. On suppose
en revanche que les ui ne sont jamais correles aux it.
si les ui sont correles aux regresseurs, ils sont qualifies deffets
fixes. Dans ce cas, la strategie est de traiter les ui comme des
Nous savons que les variables omises biaises les resultats des MCO.
Supposons que lon regroupe la variable non observee avec le terme
derreur
Yit = 0 + 1X1it + {2X2it + it}
On peut alors diviser les e lements non observes en deux composantes, une partie qui varie entre les individus mais qui est constante au cours du temps i et une partie qui varie dun individu a`
lautre et dune periode a` lautre it.
Yit = 0 + 1X1it + ui + it
Si on pouvait e carter le terme ui, il ne resterait quun terme
aleatoire et cela reviendrait aux moindres carrees ordinaires (MCO).
Il nest pas possible de supprimer ce terme dans le cas de donnees
en coupe, par consequent la presence des effets non observables
implique que :
Cov(X, u) = Cov(X, ui + it) = Cov(X1it, {2X2it + it}) 6= 0
Si ui est constant au cours du temps (si cest un effet fixe), on peut
supprimer leffet en differenciant lequation de la regression.
2.1
Si
Yit = 0 + 1X1it + ui + it
En periode t = 1
Yi1 = 1 + 1Xi1 + ui + i1
En periode t = 2
Yi2 = 2 + 1Xi2 + ui + i2
cours du temps).
Y = + 1X +
Il est e galement important de remarquer que cette methode a pour
effet de supprimer toutes les variables constantes au cours du
temps, par consequent les coefficients de la regression sont nets
des effets des variables non observees et des variables constantes.
2.1.1
Exemple
Les donnees portent sur des entreprises sur une periode de trois
annees. Elles contiennent des informations sur les ventes, lemploi,
la reconnaissance des syndicats.
91.
92.
93.
94.
95.
96.
97.
98.
99.
100.
101.
102.
103.
104.
105.
106.
+------------------------------------------------------+
| year
fcode
sales
dsales
union
dunion |
|------------------------------------------------------|
| 1987
410609
1650831
.
0
. |
| 1988
410609
1817961
167130
0
0 |
| 1989
410609
1642441
-175520
0
0 |
| 1987
410612
7000000
.
0
. |
| 1988
410612
8500000
1500000
0
0 |
|------------------------------------------------------|
| 1989
410612
1.10e+07
2500000
0
0 |
| 1987
410626
4600000
.
1
. |
| 1988
410626
4900000
300000
1
0 |
| 1989
410626
5600000
700000
1
0 |
| 1987
410627
2900000
.
1
. |
|------------------------------------------------------|
| 1988
410627
2800000
-100000
1
0 |
| 1989
410627
2900000
100000
1
0 |
| 1987
410629
1100000
.
0
. |
| 1988
410629
2050000
950000
0
0 |
| 1989
410629
2260000
210000
0
0 |
|------------------------------------------------------|
| 1987
410635
2.00e+07
.
1
. |
107.
108.
109.
110.
| 1988
410635
1.80e+07
-2000000
1
0 |
| 1989
410635
1.60e+07
-2000000
1
0 |
| 1987
410636
386807
.
0
. |
| 1988
410636
734613
347806
0
0 |
|------------------------------------------------------|
111. | 1989
410636
518842
-215771
0
0 |
+------------------------------------------------------+
Number of obs
F( 2,
112)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
115
102.86
0.0000
0.6475
0.6412
.66965
-----------------------------------------------------------------------------lsales |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lemploy |
.8379075
.0645985
12.97
0.000
.7099139
.9659011
union |
.2754602
.1595039
1.73
0.087
-.0405763
.5914967
_cons |
12.03388
.2276874
52.85
0.000
11.58275
12.48502
------------------------------------------------------------------------------
Number of obs
F( 2,
112)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
115
152.57
0.0000
0.7315
0.7267
.58056
-----------------------------------------------------------------------------lsales |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lemploy |
.9069097
.0555367
16.33
0.000
.7968708
1.016949
union |
.1570459
.1372818
1.14
0.255
-.1149604
.4290522
_cons |
11.85956
.1999808
59.30
0.000
11.46332
12.25579
------------------------------------------------------------------------------
Si lon compare les deux regressions pour 1988 et 1989, on constate que leffet des syndicats est faiblement significatif pour 1988
(la p-valeur P > |t| est de 0,087, cest donc significatif au seuil
de 10%) alors quil ne lest pas pour 1989. Par ailleurs, leffet
de la taille de lentreprise (lemploi) est plus important pour 1989
que pour 1988. Toutefois, on ne peut pas controler le fait que les
regressions subissent un biais de variables omises.
Pour corriger ce biais, on peut donc refaire la regression mais
cette fois avec les differences premi`eres des variables. On introduit
une constante (bien que les differences premi`eres aient supprimees
toutes les constantes). La constante introduite peut e tre interpretee
comme la variation de valeur de la constante au cours du temps
1 6= 2. Par ailleurs, labsence de la constante pose un probl`eme
dans la regression car elle nimpose pas que le R2 soit compris
entre 0 et 1.
Number of obs
F( 1,
109)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
111
5.62
0.0195
0.0490
0.0403
.40041
-----------------------------------------------------------------------------dlsales |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------dlemp |
.0614058
.0258991
2.37
0.019
.0100746
.1127371
dunion | (dropped)
_cons |
.1041567
.0380128
2.74
0.007
.0288166
.1794968
------------------------------------------------------------------------------
Le coefficient pour lemploi est plus faible que dans les regressions
precedentes suggerant que les regressions precedentes e taient biaisees en surevaluant limportance de la variable du fait de lexistence
de variables omises.
Autres techniques
effets fixes. Il sagit alors dune estimation par le mod`ele a` variables muettes des moindres carres ou least squares dummy variable
model LSDV.
Yit = t + 1Xit + g1D1 + g2D2 + ... + gn1Dn 1 + ui + it
o`u Di = 1 pour lindividu i (ou firme ou region) et 0 pour tous
les autres. Le coefficient pour chaque variable indicatrice donne la
valeur moyenne de la variable dependante pour lindividu i particulier net des effets de toutes les autres variables explicatives.
Number of obs
F( 6,
14)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
21
250.94
0.0000
0.9908
0.9868
1.9e+06
-----------------------------------------------------------------------------sales |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_Ifco410440 | -4.44e+07
1521379
-29.17
0.000
-4.76e+07
-4.11e+07
_Ifco410495 | -4.57e+07
1521379
-30.06
0.000
-4.90e+07
-4.25e+07
_Ifco410500 | -2.32e+07
1521379
-15.25
0.000
-2.65e+07
-1.99e+07
_Ifco410501 | -3.83e+07
1521379
-25.20
0.000
-4.16e+07
-3.51e+07
_Ifco410513 | -4.46e+07
1521379
-29.33
0.000
-4.79e+07
-4.14e+07
_Ifco410518 | -4.37e+07
1521379
-28.71
0.000
-4.69e+07
-4.04e+07
_Ifco410521 | (dropped)
_Ifco410523 | (dropped)
_Ifco410529 | (dropped)
_Ifco410531 | (dropped)
.....
_Ifco419483 | (dropped)
_Ifco419486 | (dropped)
_cons |
4.63e+07
1075778
43.07
0.000
4.40e+07
4.86e+07
------------------------------------------------------------------------------
Ce type de regression est tr`es couteux en termes de degres de liberte puisquil introduit une variable indicatrice par individu et elle
produira habituellement des estimations (pour les variables indicatrices, cest-`a-dire les effets fixes) pour lesquelles la variance nest
pas minimale si la dimension temporelle du panel est courte (ce qui
est souvent le cas).
Pour cette raison, on pref`ere a` cette methode la regression intragroupe - Within-group qui permet dobtenir des estimations a` variance minimale des effets fixes et qui consiste a` calculer la valeur
mean.
Yi =
T
Si on applique le meme principe a` toutes les variables explicatives,
on obtient :
i + ui + i
Yi = i + 1X
On peut noter que leffet fixe na pas deffet moyen. Par consequent
i) + (it it)
Yit Yi = 1(Xit X
Cette methode destimation intra-groupe permet e galement de
supprimer les effets fixes (parce que la moyenne de leffet fixe est
identique a` la valeur de leffet fixe individuel), et offre ainsi des
estimations non biaisees du coefficient 1.
Neanmoins, cette methode peut poser probl`eme sil y a de la variation pour les variables X entre les individus, et moins de variation
au cours du temps. Meme si les variables ne varient que peu au
cours du temps, lintroduction deffets fixes produira des estimations qui sont proches de zero. Les effets fixes sont susceptibles de
capter le reel impact des variables qui ne varient que peu au cours
du temps.
Plus generalement, le mod`ele peut secrire :
Si yi = (1/T ) PTt=1, etc, et si zi et ui sont des moyennes de panel,
on peut e crire :
yit yi = (xit x
i) + (zi
zi) + ui ui + it i
ce qui implique que
yit = (
xit) + it
(1)
(2)
o`u (ui + it) represente lerreur composee et ui represente les effets individuels. Lhypoth`ese fondamentale est que les effets individuels ui sont non correles aux regresseurs xit et zi.
Le mod`ele aux effets aleatoires utilise cette hypoth`ese dorthogonalite
pour reduire le nombre de param`etres a` estimer. Pour un large
t 6= s
RE = (X X ) (X y)
Xi 1Xi
X 1yi
plus haut qui fait la moyenne des periodes pour chaque individu).
Les poids optimaux secrivent :
2
2
= 2
=
(1
)
+ T u2
avec
r
=1 2
+ T u2
o`u est le poids de la matrice de covariance des estimateurs between).
Si 6= 1, une regression regroupee ne sera pas efficace car elle
donnera trop de poids a` la variation between
Si = 1( = 0), u2 = 0 ; autrement dit, sil ny a pas deffets
aleatoires alors la regression regroupee des MCO sera optimale
Number of obs
Number of groups
=
=
345
115
R-sq:
3
3.0
3
within = 0.3029
between = 0.7162
overall = 0.6901
Wald chi2(1)
Prob > chi2
=
=
383.87
0.0000
-----------------------------------------------------------------------------lsales |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lemploy |
.8750523
.0446621
19.59
0.000
.7875161
.9625885
_cons |
11.96331
.1657475
72.18
0.000
11.63845
12.28817
-------------+---------------------------------------------------------------sigma_u | .55482492
sigma_e | .28530622
rho | .79087026
(fraction of variance due to u_i)
------------------------------------------------------------------------------
Le choix des effets fixes par rapport aux effets aleatoires depend
du fait que lon pense que les variables non observees sont susceptibles detre correlees avec les variables explicatives X. Si on
pense quelles le sont alors il faut utiliser des estimateurs a` effets
fixes, sinon on utilise les effets aleatoires.
Si les variables non observees sont correlees aux variables X et
que lon utilise les effets aleatoires au lieu des effets fixes, les estimations seront biaisees car
Cov(X, u) = Cov(Xit, ui + it) 6= 0
ce qui induit un biais dendogeneite.
4.1
Test de Hausman
Le test de Hausman sappuie donc sur une comparison des estimations, permettant ainsi les variations dechantillon. Si les estimations sont suffisamment differentes, on conclut que lhypoth`ese des
effets aleatoires nest pas tenable.
Number of obs
Number of groups
=
=
345
115
R-sq:
3
3.0
3
within = 0.3029
between = 0.7162
overall = 0.6901
corr(u_i, Xb)
= 0.1611
F(1,229)
Prob > F
=
=
99.52
0.0000
-----------------------------------------------------------------------------lsales |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lemploy |
.8092035
.0811145
9.98
0.000
.6493773
.9690297
union | (dropped)
_cons |
12.19437
.2850389
42.78
0.000
11.63273
12.756
-------------+---------------------------------------------------------------sigma_u | .58411543
sigma_e | .28530622
rho | .80737938
(fraction of variance due to u_i)
-----------------------------------------------------------------------------F test that all u_i=0:
F(114, 229) =
11.97
Prob > F = 0.0000
Number of obs
Number of groups
=
=
345
115
R-sq:
3
3.0
3
within = 0.3029
between = 0.7226
overall = 0.6962
Wald chi2(2)
Prob > chi2
=
=
391.59
0.0000
-----------------------------------------------------------------------------lsales |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lemploy |
.8529599
.046184
18.47
0.000
.762441
.9434789
union |
.2383114
.1350074
1.77
0.078
-.0262983
.5029211
_cons |
11.98902
.1654712
72.45
0.000
11.6647
12.31334
-------------+---------------------------------------------------------------sigma_u | .55061581
sigma_e | .28530622
rho | .78834004
(fraction of variance due to u_i)
------------------------------------------------------------------------------
. hausman fixed
---- Coefficients ---|
(b)
(B)
(b-B)
sqrt(diag(V_b-V_B))
|
fixed
.
Difference
S.E.
-------------+---------------------------------------------------------------lemploy |
.8092035
.8529599
-.0437564
.0666828
-----------------------------------------------------------------------------b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test:
Ho:
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Les modles de panel
Vous disposez dun chantillon de 545 hommes sur une dure allant de 1980 1987. Les
variables sont les suivantes :
use "wagepan.dta"
. describe lwage exper union married hisp black educ expersq
storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------lwage
float %9.0g
log(wage)
exper
byte
%9.0g
labor mkt experience
union
byte
%9.0g
=1 if in union
married
byte
%9.0g
=1 if married
hisp
byte
%9.0g
=1 if Hispanic
black
byte
%9.0g
=1 if black
educ
byte
%9.0g
years of schooling
expersq
int
%9.0g
exper^2
. summarize lwage exper union married hisp black educ expersq
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------lwage |
4360
1.649147
.5326094 -3.579079
4.05186
exper |
4360
6.514679
2.825873
0
18
union |
4360
.2440367
.4295639
0
1
married |
4360
.4389908
.4963208
0
1
hisp |
4360
.1559633
.3628622
0
1
-------------+-------------------------------------------------------black |
4360
.1155963
.3197769
0
1
educ |
4360
11.76697
1.746181
3
16
expersq |
4360
50.42477
40.78199
0
324
1. On vous propose une rgression des MCO pour les deux premires annes. Quel problme
est engendr lorsque lon utilise lon regroupe -pooled-des donnes de panel et quon les
estime par la mthodes des moindres carrs ordinaires ? Quelles solutions peuvent tre
envisages.
. reg lwage exper expersq year married black hisp if year<1982
Source |
SS
df
MS
-------------+-----------------------------Model | 11.7925648
6 1.96542747
Residual | 314.391356 1083 .290296728
-------------+-----------------------------Total | 326.183921 1089 .299526098
Number of obs
F( 6, 1083)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
6.77
0.0000
0.0362
0.0308
.53879
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.0965928
.0326945
2.95
0.003
.032441
.1607446
expersq |
-.009292
.0032182
-2.89
0.004
-.0156067
-.0029773
year |
.0729724
.0351822
2.07
0.038
.0039394
.1420053
married |
.1473654
.0397022
3.71
0.000
.0694633
.2252674
black | -.0556556
.0521995
-1.07
0.287
-.1580792
.046768
hisp | -.0475284
.046154
-1.03
0.303
-.1380898
.0430331
_cons | -143.2867
69.65456
-2.06
0.040
-279.9598
-6.613502
------------------------------------------------------------------------------
2. Soit une rgression par la mthode des moindres carrs ordinaires avec introduction de
variables indicatrices pour chaque individu -least squares dummy variable LSDV- pour
les deux premires annes. Comparez cette rgression avec la prcdente. Expliquez pourquoi black et hisp sont limins de la rgression. En quoi consiste le test du Fisher en bas
du tableau ?
. areg lwage exper expersq year married black hisp if year<1982, absorb(id)
Linear regression, absorbing indicators
Number of obs
F( 3,
542)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
9.15
0.0000
0.7316
0.4606
.40194
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.2133325
.0575233
3.71
0.000
.1003365
.3263285
expersq | -.0135697
.0073653
-1.84
0.066
-.0280377
.0008982
year | (dropped)
married |
.0140556
.0709368
0.20
0.843
-.1252891
.1534004
black | (dropped)
hisp | (dropped)
_cons |
.9081648
.110831
8.19
0.000
.6904539
1.125876
-------------+---------------------------------------------------------------id |
F(544, 542) =
2.581
0.000
(545 categories)
. list id year id1 id2 lwage exper black hisp
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
+-------------------------------------------------------------+
|
id
year
id1
id2
lwage
exper
black
hisp |
|-------------------------------------------------------------|
|
13
1980
1
0
1.19754
1
0
0 |
|
13
1981
1
0
1.85306
2
0
0 |
|
13
1982
1
0
1.344462
3
0
0 |
|
13
1983
1
0
1.433213
4
0
0 |
|
13
1984
1
0
1.568125
5
0
0 |
|-------------------------------------------------------------|
|
13
1985
1
0
1.699891
6
0
0 |
|
13
1986
1
0
-.7202626
7
0
0 |
|
13
1987
1
0
1.669188
8
0
0 |
|
17
1980
0
1
1.675962
4
0
0 |
|
17
1981
0
1
1.518398
5
0
0 |
|-------------------------------------------------------------|
|
17
1982
0
1
1.559191
6
0
0 |
12.
13.
14.
15.
|
17
1983
0
1
1.72541
7
0
0 |
|
17
1984
0
1
1.622022
8
0
0 |
|
17
1985
0
1
1.608588
9
0
0 |
|
17
1986
0
1
1.572385
10
0
0 |
|-------------------------------------------------------------|
16. |
17
1987
0
1
1.820334
11
0
0 |
3. Soit la rgression par les effets fixes (la mthode within). Y a t-il une diffrence avec la
rgression prcdente ?
. xtreg lwage exper expersq year married black hisp if year<1982, fe i(id)
warning: existing panel variable is not id
Fixed-effects (within) regression
Group variable: id
Number of obs
Number of groups
=
=
1090
545
R-sq:
2
2.0
2
within = 0.0482
between = 0.0075
overall = 0.0127
corr(u_i, Xb)
F(3,542)
Prob > F
= -0.2177
=
=
9.15
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.2133325
.0575233
3.71
0.000
.1003365
.3263285
expersq | -.0135697
.0073653
-1.84
0.066
-.0280377
.0008982
year | (dropped)
married |
.0140556
.0709368
0.20
0.843
-.1252891
.1534004
black | (dropped)
hisp | (dropped)
_cons |
.9081648
.110831
8.19
0.000
.6904539
1.125876
-------------+---------------------------------------------------------------sigma_u | .47563131
sigma_e | .40194096
rho | .58338275
(fraction of variance due to u_i)
-----------------------------------------------------------------------------F test that all u_i=0:
F(544, 542) =
2.58
Prob > F = 0.0000
xtset id year
panel variable:
time variable:
delta:
.
.
.
.
.
.
.
gen
gen
gen
gen
gen
gen
gen
id (strongly balanced)
year, 1980 to 1987
1 unit
dexp = d.exper
dexp2 = d.expersq
dyear = d.year
dmarr = d.married
dblack = d.black
dhisp = d.hisp
dlwage = d.lwage
. list id dlwage exper dexp dexp2 dyear dmarr dblack, nol noo nod
+-------------------------------------------------------------------+
|
id
dlwage
exper
dexp
dexp2
dyear
dmarr
dblack |
|-------------------------------------------------------------------|
|
13
.
1
.
.
.
.
. |
|
13
.6555198
2
1
3
1
0
0 |
|
13
-.5085983
3
1
5
1
0
0 |
|
13
.0887517
4
1
7
1
0
0 |
|
13
.1349118
5
1
9
1
0
0 |
|-------------------------------------------------------------------|
|
13
.1317658
6
1
11
1
0
0 |
|
13
-2.420154
7
1
13
1
0
0 |
|
13
2.389451
8
1
15
1
0
0 |
|
17
.
4
.
.
.
.
. |
|
17
-.1575643
5
1
9
1
0
0 |
|-------------------------------------------------------------------|
|
17
.0407923
6
1
11
1
0
0 |
. reg dlwage dexp dexp2 dyear dmarr dblack dhisp if year< 1982
Source |
SS
df
MS
-------------+-----------------------------Model | 1.10459105
2 .552295523
Residual | 175.127289
542 .323113079
-------------+-----------------------------Total |
176.23188
544 .323955662
Number of obs
F( 2,
542)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
545
1.71
0.1820
0.0063
0.0026
.56843
-----------------------------------------------------------------------------dlwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------dexp | (dropped)
dexp2 | -.0135697
.0073653
-1.84
0.066
-.0280377
.0008982
dyear | (dropped)
dmarr |
.0140556
.0709368
0.20
0.843
-.1252891
.1534004
dblack | (dropped)
dhisp | (dropped)
_cons |
.2133325
.0575233
3.71
0.000
.1003365
.3263285
-----------------------------------------------------------------------------. reg dlwage dexp dexp2 dyear dmarr dblack dhisp if year< 1983
Source |
SS
df
MS
-------------+-----------------------------Model | 1.85609505
2 .928047523
Residual |
287.68175 1087 .264656624
-------------+-----------------------------Total | 289.537845 1089 .265874973
Number of obs
F( 2, 1087)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
3.51
0.0303
0.0064
0.0046
.51445
-----------------------------------------------------------------------------dlwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------dexp | (dropped)
dexp2 | -.0108202
.0045143
-2.40
0.017
-.0196779
-.0019625
dyear | (dropped)
dmarr |
.0490769
.0478281
1.03
0.305
-.0447689
.1429228
dblack | (dropped)
dhisp | (dropped)
_cons |
.1717418
.0398248
4.31
0.000
.0935996
.2498839
-----------------------------------------------------------------------------. xtreg lwage exper expersq year married black hisp if year<1983, fe i(id)
Fixed-effects (within) regression
Group variable: id
Number of obs
Number of groups
=
=
1635
545
R-sq:
3
3.0
3
within = 0.0622
between = 0.0011
overall = 0.0073
corr(u_i, Xb)
F(3,1087)
Prob > F
= -0.3164
=
=
24.05
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper | (dropped)
expersq | -.0096686
.0033856
-2.86
0.004
-.0163116
-.0030256
year |
.1612026
.0298573
5.40
0.000
.1026182
.2197871
married |
.0640683
.0446676
1.43
0.152
-.0235763
.1517129
black | (dropped)
hisp | (dropped)
_cons | -317.6788
59.08473
-5.38
0.000
-433.6118
-201.7458
-------------+---------------------------------------------------------------sigma_u | .45922815
sigma_e | .37488352
rho | .60009562
(fraction of variance due to u_i)
-----------------------------------------------------------------------------F test that all u_i=0:
F(544, 1087) =
3.80
Prob > F = 0.0000
. reg lwage exper expersq year married black hisp if year<1983
Source |
SS
df
MS
-------------+-----------------------------Model | 22.6120652
6 3.76867753
Residual | 443.284137 1628 .272287553
-------------+-----------------------------Total | 465.896202 1634 .285126194
Number of obs
F( 6, 1628)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1635
13.84
0.0000
0.0485
0.0450
.52181
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.0851297
.0262017
3.25
0.001
.0337371
.1365223
expersq | -.0080752
.0023391
-3.45
0.001
-.0126632
-.0034873
year |
.0548031
.0186986
2.93
0.003
.0181273
.0914789
married |
.1623551
.0299007
5.43
0.000
.1037072
.2210029
black | -.0867096
.04137
-2.10
0.036
-.1678536
-.0055657
hisp | -.0323874
.0364623
-0.89
0.375
-.1039053
.0391306
_cons | -107.2864
37.01138
-2.90
0.004
-179.8813
-34.69145
-----------------------------------------------------------------------------. predict resid if e(sample), resid
. gen resid1 =l.resid
. reg resid resid1 if e(sample)
Source |
SS
df
MS
-------------+-----------------------------Model |
73.883776
1
73.883776
Residual | 205.582489 1088 .188954494
-------------+-----------------------------Total | 279.466265 1089 .256626506
Number of obs
F( 1, 1088)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
391.01
0.0000
0.2644
0.2637
.43469
-----------------------------------------------------------------------------resid |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------resid1 |
.4844822
.0245009
19.77
0.000
.4364079
.5325566
_cons |
.0016788
.0131666
0.13
0.899
-.024156
.0275136
------------------------------------------------------------------------------
4. En quoi consiste la rgression des panels effets alatoires. Quelle diffrence faites-vous
avec les effets fixes ?
. xtreg lwage exper expersq year married black hisp if year<1982, re
Random-effects GLS regression
Group variable: id
Number of obs
Number of groups
=
=
1090
545
R-sq:
2
2.0
2
within = 0.0442
between = 0.0327
overall = 0.0357
Wald chi2(6)
Prob > chi2
=
=
43.04
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.1051732
.0366117
2.87
0.004
.0334156
.1769308
expersq | -.0100233
.0035787
-2.80
0.005
-.0170374
-.0030093
year |
.0725566
.0287777
2.52
0.012
.0161535
.1289598
married |
.1179335
.042232
2.79
0.005
.0351603
.2007067
black | -.0597944
.0627198
-0.95
0.340
-.1827229
.0631342
hisp | -.0458667
.0554806
-0.83
0.408
-.1546067
.0628732
_cons |
-142.475
56.95574
-2.50
0.012
-254.1062
-30.84384
-------------+---------------------------------------------------------------sigma_u | .35906291
sigma_e | .40194096
rho | .44383424
(fraction of variance due to u_i)
------------------------------------------------------------------------------
5. On vous propose un test de Hausman pour la rgression sur les deux premires annes.
Analysez le rsultat ?
. quietly xtreg lwage exper expersq year married black hisp if year<1982, fe
. est store fixed
. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. hausman fixed
---- Coefficients ----
|
(b)
(B)
(b-B)
sqrt(diag(V_b-V_B))
|
fixed
.
Difference
S.E.
-------------+---------------------------------------------------------------exper |
.2133325
.1051732
.1081593
.044368
expersq |
-.0135697
-.0100233
-.0035464
.0064374
married |
.0140556
.1179335
-.1038778
.0569955
-----------------------------------------------------------------------------b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test:
Ho:
6. En quoi consiste le test de Breusch et Pagan dans le cas des donnes de panel ?
. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. xttest0
Breusch and Pagan Lagrangian multiplier test for random effects
lwage[id,t] = Xb + u[id] + e[id,t]
Estimated results:
|
Var
sd = sqrt(Var)
---------+----------------------------lwage |
.2995261
.5472898
e |
.1615565
.401941
u |
.1289262
.3590629
Test:
Var(u) = 0
chi2(1) =
Prob > chi2 =
105.00
0.0000
7. Que se passe-t-il pour les coefficients lorsque les priodes de temps augmentent ?
. xtreg lwage exper expersq year married black hisp, fe
Fixed-effects (within) regression
Group variable: id
Number of obs
Number of groups
=
=
4360
545
R-sq:
8
8.0
8
within = 0.1741
between = 0.0014
overall = 0.0534
corr(u_i, Xb)
F(3,3812)
Prob > F
= -0.1289
=
=
267.93
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.1169371
.0084385
13.86
0.000
.1003926
.1334815
expersq | -.0043329
.0006066
-7.14
0.000
-.0055222
-.0031436
year | (dropped)
married |
.0473384
.0183445
2.58
0.010
.0113725
.0833043
black | (dropped)
hisp | (dropped)
_cons |
1.085044
.026295
41.26
0.000
1.033491
1.136598
-------------+---------------------------------------------------------------sigma_u | .40387668
sigma_e | .35204264
rho | .56824996
(fraction of variance due to u_i)
-----------------------------------------------------------------------------F test that all u_i=0:
F(544, 3812) =
9.33
Prob > F = 0.0000
. xtreg lwage exper expersq year married black hisp, re
Random-effects GLS regression
Group variable: id
Number of obs
Number of groups
=
=
4360
545
R-sq:
8
8.0
8
within = 0.1738
between = 0.0482
overall = 0.1054
Wald chi2(6)
Prob > chi2
=
=
827.17
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.0439292
.0137259
3.20
0.001
.017027
.0708315
expersq | -.0042308
.0005974
-7.08
0.000
-.0054017
-.0030599
year |
.0703197
.0103635
6.79
0.000
.0500075
.0906319
married |
.0699282
.0169834
4.12
0.000
.0366413
.1032152
black | -.1293855
.0520067
-2.49
0.013
-.2313167
-.0274542
hisp | -.0333494
.0459016
-0.73
0.468
-.123315
.0566161
_cons | -137.9134
20.49045
-6.73
0.000
-178.074
-97.75286
-------------+---------------------------------------------------------------sigma_u | .35927864
sigma_e | .35204264
rho | .51017158
(fraction of variance due to u_i)
------------------------------------------------------------------------------
UNIVERSITE DE PARIS 11
TD dconomtrie
Anne Plunket
Les modles de panel
Vous disposez dun chantillon de 545 hommes sur une dure allant de 1980 1987. Les
variables sont les suivantes :
use "wagepan.dta"
. describe lwage exper union married hisp black educ expersq
storage display
value
variable name
type
format
label
variable label
------------------------------------------------------------------------------lwage
float %9.0g
log(wage)
exper
byte
%9.0g
labor mkt experience
union
byte
%9.0g
=1 if in union
married
byte
%9.0g
=1 if married
hisp
byte
%9.0g
=1 if Hispanic
black
byte
%9.0g
=1 if black
educ
byte
%9.0g
years of schooling
expersq
int
%9.0g
exper^2
. summarize lwage exper union married hisp black educ expersq
Variable |
Obs
Mean
Std. Dev.
Min
Max
-------------+-------------------------------------------------------lwage |
4360
1.649147
.5326094 -3.579079
4.05186
exper |
4360
6.514679
2.825873
0
18
union |
4360
.2440367
.4295639
0
1
married |
4360
.4389908
.4963208
0
1
hisp |
4360
.1559633
.3628622
0
1
-------------+-------------------------------------------------------black |
4360
.1155963
.3197769
0
1
educ |
4360
11.76697
1.746181
3
16
expersq |
4360
50.42477
40.78199
0
324
On vous propose une rgression des MCO pour les deux premires annes. Quel problme est engendr lorsque lon utilise lon regroupe -pooled-des donnes de panel et
quon les estime par la mthodes des moindres carrs ordinaires ? Quelles solutions
peuvent tre envisages.
. reg lwage exper expersq year married black hisp if year<1982
Source |
SS
df
MS
-------------+-----------------------------Model | 11.7925648
6 1.96542747
Residual | 314.391356 1083 .290296728
-------------+-----------------------------Total | 326.183921 1089 .299526098
Number of obs
F( 6, 1083)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
6.77
0.0000
0.0362
0.0308
.53879
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.0965928
.0326945
2.95
0.003
.032441
.1607446
expersq |
-.009292
.0032182
-2.89
0.004
-.0156067
-.0029773
year |
.0729724
.0351822
2.07
0.038
.0039394
.1420053
married |
.1473654
.0397022
3.71
0.000
.0694633
.2252674
black | -.0556556
.0521995
-1.07
0.287
-.1580792
.046768
hisp | -.0475284
.046154
-1.03
0.303
-.1380898
.0430331
_cons | -143.2867
69.65456
-2.06
0.040
-279.9598
-6.613502
------------------------------------------------------------------------------
Lorsque lon utilise les moindres carrs ordinaires pour estimer des panels, on ne peut pas
contrler lhtrognit non observe. Par consquent, les rsultats sont biaiss. Trois
mthodes permettent de contrler lhtrognit non observes :
LSDV : Si on introduit une variable indicatrice par individu, il est possible de contrler
lhtrognit non observe. Chaque variable indicatrice est une proxi pour les effets
non observs et invariants avec le temps.
Within : Une autre manire dobtenir des effets fixes est de procder une rgression
within. Il sagit alors dune rgression des MCO de lcart pour chaque individu de
y sa moyenne intra-groupe sur lcart de chaque variable pour chaque individu sa
moyenne (cf cours).
Diffrence : Enfin, on peut utiliser la mthode de la diffrence premire pour liminer
leffet de lhtrognit individuelle non observe
Soit une rgression par la mthode des moindres carrs ordinaires avec introduction de variables indicatrices pour chaque individu -least squares dummy variable
LSDV- pour les deux premires annes. Comparez cette rgression avec la prcdente. Expliquez pourquoi black et hisp sont limins de la rgression. En quoi
consiste le test du Fisher en bas du tableau ?
. areg lwage exper expersq year married black hisp if year<1982, absorb(id)
Linear regression, absorbing indicators
Number of obs
F( 3,
542)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
9.15
0.0000
0.7316
0.4606
.40194
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.2133325
.0575233
3.71
0.000
.1003365
.3263285
expersq | -.0135697
.0073653
-1.84
0.066
-.0280377
.0008982
year | (dropped)
married |
.0140556
.0709368
0.20
0.843
-.1252891
.1534004
black | (dropped)
hisp | (dropped)
_cons |
.9081648
.110831
8.19
0.000
.6904539
1.125876
-------------+---------------------------------------------------------------id |
F(544, 542) =
2.581
0.000
(545 categories)
Les variables qui sont constantes travers le temps sont totalement colinaires avec les
variables indicatrices spcifiques aux individus et ne peuvent donc pas tre estimes. La
variable married nest plus significative. Ceci sexplique par le fait que seule une petite
partie des individus ont chang de statut marital par consquent, la variable nest pas
limine comme pour les variables qui ne varient pas dans le temps mais sa variation
concerne si peu de personnes quelle ne ressort pas comme significative (lcart-type est
beaucoup plus lev).
. list id year id1 id2 lwage exper black hisp
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
+-------------------------------------------------------------+
|
id
year
id1
id2
lwage
exper
black
hisp |
|-------------------------------------------------------------|
|
13
1980
1
0
1.19754
1
0
0 |
|
13
1981
1
0
1.85306
2
0
0 |
|
13
1982
1
0
1.344462
3
0
0 |
|
13
1983
1
0
1.433213
4
0
0 |
|
13
1984
1
0
1.568125
5
0
0 |
|-------------------------------------------------------------|
|
13
1985
1
0
1.699891
6
0
0 |
|
13
1986
1
0
-.7202626
7
0
0 |
|
13
1987
1
0
1.669188
8
0
0 |
|
17
1980
0
1
1.675962
4
0
0 |
|
17
1981
0
1
1.518398
5
0
0 |
|-------------------------------------------------------------|
|
17
1982
0
1
1.559191
6
0
0 |
|
17
1983
0
1
1.72541
7
0
0 |
|
17
1984
0
1
1.622022
8
0
0 |
|
17
1985
0
1
1.608588
9
0
0 |
|
17
1986
0
1
1.572385
10
0
0 |
|-------------------------------------------------------------|
|
17
1987
0
1
1.820334
11
0
0 |
Le test du Fisher en bas du tableau permet de tester la significativit globale des effets
fixes individuels (il y a q = 544 contraintes).
H0 : id1 = id2 = ... = id544
car id545 devient la constante.
F (q, n k 1) =
(SCRc SCR)/q
SCR/n k
Soit la rgression par les effets fixes (la mthode within) et la rgression diffrence
premire pour deux annes (< 1982) et trois annes (< 1983). Y a t-il une diffrence
avec la rgression prcdente ?
. xtreg lwage exper expersq year married black hisp if year<1982, fe i(id)
warning: existing panel variable is not id
Fixed-effects (within) regression
Group variable: id
Number of obs
Number of groups
=
=
1090
545
R-sq:
2
2.0
2
within = 0.0482
between = 0.0075
overall = 0.0127
corr(u_i, Xb)
F(3,542)
Prob > F
= -0.2177
=
=
9.15
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.2133325
.0575233
3.71
0.000
.1003365
.3263285
expersq | -.0135697
.0073653
-1.84
0.066
-.0280377
.0008982
year | (dropped)
married |
.0140556
.0709368
0.20
0.843
-.1252891
.1534004
black | (dropped)
hisp | (dropped)
_cons |
.9081648
.110831
8.19
0.000
.6904539
1.125876
-------------+---------------------------------------------------------------sigma_u | .47563131
sigma_e | .40194096
rho | .58338275
(fraction of variance due to u_i)
-----------------------------------------------------------------------------F test that all u_i=0:
F(544, 542) =
2.58
Prob > F = 0.0000
xtset id year
panel variable: id (strongly balanced)
time variable: year, 1980 to 1987
delta: 1 unit
.
.
.
.
.
.
.
gen
gen
gen
gen
gen
gen
gen
. list id dlwage exper dexp dexp2 dyear dmarr dblack, nol noo nod
+-------------------------------------------------------------------+
|
id
dlwage
exper
dexp
dexp2
dyear
dmarr
dblack |
|-------------------------------------------------------------------|
|
13
.
1
.
.
.
.
. |
|
13
.6555198
2
1
3
1
0
0 |
|
13
-.5085983
3
1
5
1
0
0 |
|
13
.0887517
4
1
7
1
0
0 |
|
13
.1349118
5
1
9
1
0
0 |
|-------------------------------------------------------------------|
|
13
.1317658
6
1
11
1
0
0 |
|
13
-2.420154
7
1
13
1
0
0 |
|
13
2.389451
8
1
15
1
0
0 |
|
17
.
4
.
.
.
.
. |
|
17
-.1575643
5
1
9
1
0
0 |
|-------------------------------------------------------------------|
|
17
.0407923
6
1
11
1
0
0 |
. reg dlwage dexp dexp2 dyear dmarr dblack dhisp if year< 1982
Source |
SS
df
MS
-------------+-----------------------------Model | 1.10459105
2 .552295523
Residual | 175.127289
542 .323113079
-------------+-----------------------------Total |
176.23188
544 .323955662
Number of obs
F( 2,
542)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
545
1.71
0.1820
0.0063
0.0026
.56843
-----------------------------------------------------------------------------dlwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------dexp | (dropped)
dexp2 | -.0135697
.0073653
-1.84
0.066
-.0280377
.0008982
dyear | (dropped)
dmarr |
.0140556
.0709368
0.20
0.843
-.1252891
.1534004
dblack | (dropped)
dhisp | (dropped)
_cons |
.2133325
.0575233
3.71
0.000
.1003365
.3263285
------------------------------------------------------------------------------
On constate que les coefficients pour la mthode des effets fixes (within) et la mthode
des diffrences premires sont strictement identiques. Les deux mthodes sont donc identiques sur deux priodes.
. xtreg lwage exper expersq year married black hisp if year<1983, fe i(id)
Fixed-effects (within) regression
Group variable: id
Number of obs
Number of groups
=
=
1635
545
R-sq:
3
3.0
3
within = 0.0622
between = 0.0011
overall = 0.0073
corr(u_i, Xb)
F(3,1087)
Prob > F
= -0.3164
=
=
24.05
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper | (dropped)
expersq | -.0096686
.0033856
-2.86
0.004
-.0163116
-.0030256
year |
.1612026
.0298573
5.40
0.000
.1026182
.2197871
married |
.0640683
.0446676
1.43
0.152
-.0235763
.1517129
black | (dropped)
hisp | (dropped)
_cons | -317.6788
59.08473
-5.38
0.000
-433.6118
-201.7458
-------------+---------------------------------------------------------------sigma_u | .45922815
sigma_e | .37488352
rho | .60009562
(fraction of variance due to u_i)
-----------------------------------------------------------------------------F test that all u_i=0:
F(544, 1087) =
3.80
Prob > F = 0.0000
. reg dlwage dexp dexp2 dyear dmarr dblack dhisp if year< 1983
Source |
SS
df
MS
-------------+-----------------------------Model | 1.85609505
2 .928047523
Residual |
287.68175 1087 .264656624
-------------+-----------------------------Total | 289.537845 1089 .265874973
Number of obs
F( 2, 1087)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
3.51
0.0303
0.0064
0.0046
.51445
-----------------------------------------------------------------------------dlwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------dexp | (dropped)
dexp2 | -.0108202
.0045143
-2.40
0.017
-.0196779
-.0019625
dyear | (dropped)
dmarr |
.0490769
.0478281
1.03
0.305
-.0447689
.1429228
dblack | (dropped)
dhisp | (dropped)
_cons |
.1717418
.0398248
4.31
0.000
.0935996
.2498839
------------------------------------------------------------------------------
Lorsque lon compare la mthode par les effets fixes et par les diffrences premires pour
trois priodes, les coefficients ne sont plus identiques. Autrement dit, lorsque les priodes
sont suprieures deux T > 2, les deux mthodes ne donnent plus des rsultats similaires.
. reg lwage exper expersq year married black hisp if year<1983
Source |
SS
df
MS
-------------+-----------------------------Model | 22.6120652
6 3.76867753
Residual | 443.284137 1628 .272287553
-------------+-----------------------------Total | 465.896202 1634 .285126194
Number of obs
F( 6, 1628)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1635
13.84
0.0000
0.0485
0.0450
.52181
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.0851297
.0262017
3.25
0.001
.0337371
.1365223
expersq | -.0080752
.0023391
-3.45
0.001
-.0126632
-.0034873
year |
.0548031
.0186986
2.93
0.003
.0181273
.0914789
married |
.1623551
.0299007
5.43
0.000
.1037072
.2210029
black | -.0867096
.04137
-2.10
0.036
-.1678536
-.0055657
hisp | -.0323874
.0364623
-0.89
0.375
-.1039053
.0391306
_cons | -107.2864
37.01138
-2.90
0.004
-179.8813
-34.69145
------------------------------------------------------------------------------
Number of obs
F( 1, 1088)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1090
391.01
0.0000
0.2644
0.2637
.43469
-----------------------------------------------------------------------------resid |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------resid1 |
.4844822
.0245009
19.77
0.000
.4364079
.5325566
_cons |
.0016788
.0131666
0.13
0.899
-.024156
.0275136
------------------------------------------------------------------------------
On constate que lon peut mettre en vidence de lautocorrlation entre les rsidus pour
les donnes de panel. De mme on pourrait mettre en vidence de lhtroscdasticit.
6
Ceci indique que les simples modles de panels ne sont pas suffisants et quil faudrait
utiliser des mthodes qui permettent de corriger lautocorrlation et lhtroscdasticit,
ce qui dpasse le cadre de ce cours.
En quoi consiste la rgression des panels effets alatoires. Quelle diffrence faitesvous avec les effets fixes ?
La mthode destimation des panels effets fixes suppose que lhtrognit non observes ui est corrle une ou plusieurs variables explicatives du modle. Les effets
alatoires supposent que les effets non observs ne sont pas corrls aux variables du modle mais quils varient de manire alatoire dun individu lautre et que par consquent
ils peuvent tre considrs comme des rsidus.
eit = ui + vit
Un des avantages des effets alatoires est quils permettent destimer limpact des variables qui sont constantes dans le temps.
La mthode destimation est de type des moindres carrs gnraliss (GLS - Generalized
Least Squares. On peut noter que les coefficients sont plus proches de ceux obtenus par
les MCO (regroupement des donnes -pooled-).
. xtreg lwage exper expersq year married black hisp if year<1982, re
Random-effects GLS regression
Group variable: id
Number of obs
Number of groups
=
=
1090
545
R-sq:
2
2.0
2
within = 0.0442
between = 0.0327
overall = 0.0357
Wald chi2(6)
Prob > chi2
=
=
43.04
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.1051732
.0366117
2.87
0.004
.0334156
.1769308
expersq | -.0100233
.0035787
-2.80
0.005
-.0170374
-.0030093
year |
.0725566
.0287777
2.52
0.012
.0161535
.1289598
married |
.1179335
.042232
2.79
0.005
.0351603
.2007067
black | -.0597944
.0627198
-0.95
0.340
-.1827229
.0631342
hisp | -.0458667
.0554806
-0.83
0.408
-.1546067
.0628732
_cons |
-142.475
56.95574
-2.50
0.012
-254.1062
-30.84384
-------------+---------------------------------------------------------------sigma_u | .35906291
sigma_e | .40194096
rho | .44383424
(fraction of variance due to u_i)
------------------------------------------------------------------------------
On vous propose un test de Hausman pour la rgression sur les deux premires annes. Analysez le rsultat ?
Sous lhypothse nulle que les erreurs sont non corrles aux variables explicatives, les
estimateurs des effets fixes et des effets alatoires sont tous deux convergents (consistent
estimator mais les effets alatoires sont plus efficaces ( variance minimale) dans la mesure o ils tiennent compte de la structure des erreurs.
Si lhypothse nulle est rejete alors seuls les effets fixes sont convergents.
Par consquent, le test consiste comparer les estimations. Si les estimations sont suffisamment diffrentes, on en conclut que les effets alatoires ne sont pas tenables.
7
Le test ne porte que sur la comparaison des estimations pour les variables qui varient
travers le temps. Dans notre cas, il y en a trois, par consquent, le test suit un chi2 3
degrs de libert.
Dans notre cas, on rejette lhypothse nulle de non corrlation entre x et le terme derreur.
Par consquent, les effets fixes sont la technique destimation prfre ici.
. quietly xtreg lwage exper expersq year married black hisp if year<1982, fe
. est store fixed
. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. hausman fixed
---- Coefficients ---|
(b)
(B)
(b-B)
sqrt(diag(V_b-V_B))
|
fixed
.
Difference
S.E.
-------------+---------------------------------------------------------------exper |
.2133325
.1051732
.1081593
.044368
expersq |
-.0135697
-.0100233
-.0035464
.0064374
married |
.0140556
.1179335
-.1038778
.0569955
-----------------------------------------------------------------------------b = consistent under Ho and Ha; obtained from xtreg
B = inconsistent under Ha, efficient under Ho; obtained from xtreg
Test:
Ho:
En quoi consiste le test de Breusch et Pagan dans le cas des donnes de panel ?
Ce test permet de tester sil y a une composante spcifique lindividu dans le terme
derreur des MCO. Selon lhypothse nulle H0 : V ar(u) = 0, il ny a pas de composante
spcifique lindividu dans le terme derreur. Si on rejette cette hypothse, a implique
que lon utilise une rgression par les effets alatoires.
. quietly xtreg lwage exper expersq year married black hisp if year<1982, re
. xttest0
Breusch and Pagan Lagrangian multiplier test for random effects
lwage[id,t] = Xb + u[id] + e[id,t]
Estimated results:
|
Var
sd = sqrt(Var)
---------+----------------------------lwage |
.2995261
.5472898
e |
.1615565
.401941
u |
.1289262
.3590629
Test:
Var(u) = 0
chi2(1) =
Prob > chi2 =
105.00
0.0000
Que se passe-t-il pour les coefficients lorsque les priodes de temps augmentent ?
Lorsque T , les coefficients des effets fixes et des effets alatoires convergent. Le
composant spcifique lindividu de lerreur compos devient plus grand et 0. On
peut en effet constater cela lorsque lon fait la rgression sur les 8 priodes, les coefficients
sont plus proches que sur deux priodes.
. xtreg lwage exper expersq year married black hisp, fe
Fixed-effects (within) regression
Group variable: id
Number of obs
Number of groups
=
=
4360
545
R-sq:
8
8.0
8
within = 0.1741
between = 0.0014
overall = 0.0534
corr(u_i, Xb)
F(3,3812)
Prob > F
= -0.1289
=
=
267.93
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.1169371
.0084385
13.86
0.000
.1003926
.1334815
expersq | -.0043329
.0006066
-7.14
0.000
-.0055222
-.0031436
year | (dropped)
married |
.0473384
.0183445
2.58
0.010
.0113725
.0833043
black | (dropped)
hisp | (dropped)
_cons |
1.085044
.026295
41.26
0.000
1.033491
1.136598
-------------+---------------------------------------------------------------sigma_u | .40387668
sigma_e | .35204264
rho | .56824996
(fraction of variance due to u_i)
-----------------------------------------------------------------------------F test that all u_i=0:
F(544, 3812) =
9.33
Prob > F = 0.0000
. xtreg lwage exper expersq year married black hisp, re
Random-effects GLS regression
Group variable: id
Number of obs
Number of groups
=
=
4360
545
R-sq:
8
8.0
8
within = 0.1738
between = 0.0482
overall = 0.1054
Wald chi2(6)
Prob > chi2
=
=
827.17
0.0000
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------exper |
.0439292
.0137259
3.20
0.001
.017027
.0708315
expersq | -.0042308
.0005974
-7.08
0.000
-.0054017
-.0030599
year |
.0703197
.0103635
6.79
0.000
.0500075
.0906319
married |
.0699282
.0169834
4.12
0.000
.0366413
.1032152
black | -.1293855
.0520067
-2.49
0.013
-.2313167
-.0274542
hisp | -.0333494
.0459016
-0.73
0.468
-.123315
.0566161
_cons | -137.9134
20.49045
-6.73
0.000
-178.074
-97.75286
-------------+---------------------------------------------------------------sigma_u | .35927864
sigma_e | .35204264
rho | .51017158
(fraction of variance due to u_i)
------------------------------------------------------------------------------
10
UNIVERSITE DE PARIS 11
Exam dEconomtrie M1 Session 1 Janvier 2007
A. Plunket
Correction
(2)
La premire equation est une quation doffre Les variables sont les suivantes :
hours : nombre dheures de travail
educ : nombre dannes de scolarit
exper : nombre dannes de travail
age : age de la femme en annes
kidslt6 : nombre denfants de moins de 6 ans
nwif einc : est le revenu hors travaille de la femme (inclus les revenus du mari)
wage : revenu du travail
1. Expliquez pourquoi dans le cas des quations simultanes, il nest pas possible dutiliser
la mthode des moindres carrs ordinaires. cause du biais de simultanit, cf transparents du cours
2. Les quations 1 et 2 sont elles identifies? Justifiez votre rponse.
Les quations sont identifies parce quelles respectent la condition de rang: il y a 7
variables exognes et 5 coeff estimer dans lquation 1 et 5 dans lquation 2.
3. Expliquez ce quest une quation structurelle et quoi elle sert pour lestimation dun
systme dquation? cf cours
4. Quelles sont les variables endognes et quelles sont les variables prdtermines du systme? hours et log(wage) sont les variables endognes, toutes les autres sont les variables prdtermines
1
5. Vous disposez dun certain nombre de rgression ci-aprs. Compte tenu de votre rponse
la question prcdente, indiquez quelle est la rgression qui convient entre REGRESSION 1 REGRESSION 2. Justifiez votre rponse. Il sagit de la rgression 2 car entre
parenthse, il doit y avoir les variables instrumentales de la premire quation hours
qui nest pas estime ici
6. Analysez les rsultats. Expliquez si les variables ont les signes attendus, sils sont explicatifs ou non, si le modle est globalement explicatif et quel seuil de significativit.
Seules deux variables sont significatives, educ au seuil de 1% et expr au seuil de 10%.
Les signes attendus sont bons puisque educ et expr sont supposs avoir un impact
positif sur le salaire. Le modle est globalement significatif au seuil de 1%.
-----> REGRESSION 1
. ivreg lwage (hours = age kidslt6) educ exper expersq nwifeinc
Instrumental variables (2SLS) regression
Source |
SS
df
MS
-------------+-----------------------------Model | 24.9437217
5 4.98874434
Residual |
198.38373
422 .470103625
-------------+-----------------------------Total | 223.327451
427 .523015108
Number of obs
F( 5,
422)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
428
15.52
0.0000
0.1117
0.1012
.68564
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------hours |
.0001728
.0002584
0.67
0.504
-.0003352
.0006808
educ |
.104068
.0161015
6.46
0.000
.072419
.1357171
exper |
.0329624
.0196933
1.67
0.095
-.0057469
.0716716
expersq |
-.000661
.000459
-1.44
0.151
-.0015633
.0002412
nwifeinc |
.0056115
.0033317
1.68
0.093
-.0009373
.0121603
_cons | -.7332055
.3439679
-2.13
0.034
-1.409309
-.0571018
-----------------------------------------------------------------------------Instrumented: hours
Instruments:
educ exper expersq nwifeinc age kidslt6
----------------------------------------------------------------------------------> REGRESSION 2
. ivreg lwage (hours = age kidslt6 nwifeinc) educ exper expersq
Instrumental variables (2SLS) regression
Source |
SS
df
MS
-------------+-----------------------------Model | 28.0618854
4 7.01547135
Residual | 195.265566
423 .461620723
-------------+-----------------------------Total | 223.327451
427 .523015108
Number of obs
F( 4,
423)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
428
19.03
0.0000
0.1257
0.1174
.67943
-----------------------------------------------------------------------------lwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------hours |
.0001259
.0002546
0.49
0.621
-.0003746
.0006264
educ |
.11033
.0155244
7.11
0.000
.0798155
.1408445
exper |
.0345824
.0194916
1.77
0.077
-.00373
.0728947
expersq | -.0007058
.0004541
-1.55
0.121
-.0015983
.0001868
_cons | -.6557256
.3377883
-1.94
0.053
-1.319678
.008227
-----------------------------------------------------------------------------Instrumented: hours
Instruments:
educ exper expersq age kidslt6 nwifeinc
------------------------------------------------------------------------------
Modles logit
1. Indiquez en quoi consiste une rgression logit par rapport une rgression linaire. Quexplique
le modle 1... Il sagit dun modle non linaire cf cours... il explique la probabilit
quun vnement se produise. gpa et psi sont respectivement significative au seuil de
5%.
2. Proposez un test de significativit globale du modle 1 en vous aidant de tous les tableaux
votre disposition. Prcisez quelle est la statistique que vous utilisez pour faire ce test.
Proposez un test 5%.
lhypothse est que H0 :1 = 2 = 3 = 0 contre hypothse alternative au moins un
des bta est diffrent de zro.
Pour un test multiple : H0 : k = ... = J = 0
W =
J
X
k
s
k=1 k
J
X
k=1
z2 2J
k
Number of obs
LR chi2(3)
Prob > chi2
Pseudo R2
=
=
=
=
32
15.40
0.0015
0.3740
-----------------------------------------------------------------------------grade |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gpa |
2.826113
1.262941
2.24
0.025
.3507938
5.301432
tuce |
.0951577
.1415542
0.67
0.501
-.1822835
.3725988
psi |
2.378688
1.064564
2.23
0.025
.29218
4.465195
cons | -13.02135
4.931325
-2.64
0.008
-22.68657
-3.35613
---------------------------------------------------------------------------------> MODELE 2
. logit grade gpa
(itrations non prsentes)
Logistic regression
Number of obs
LR chi2(1)
Prob > chi2
Pseudo R2
=
=
=
=
32
8.77
0.0031
0.2128
-----------------------------------------------------------------------------grade |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------gpa |
2.84006
1.126979
2.52
0.012
.6312229
5.048898
cons | -9.703194
3.671103
-2.64
0.008
-16.89842
-2.507965
---------------------------------------------------------------------------------> fitstat, using(mod1)
Measures of Fit for logit of grade
Model:
N:
Log-Lik Intercept Only
Log-Lik Full Model
D
LR
Prob > LR
McFaddens R2
McFaddens Adj R2
ML (Cox-Snell) R2
Cragg-Uhler(Nagelkerke) R2
McKelvey & Zavoinas R2
Efrons R2
Variance of y*
Variance of error
Count R2
Adj Count R2
AIC
Current
logit
32
-20.592
-16.209
32.418(30)
8.766(1)
0.003
0.213
0.116
0.240
0.331
0.348
0.294
5.047
3.290
0.750
0.273
1.138
Saved
logit
32
-20.592
-12.890
25.779(28)
15.404(3)
0.002
0.374
0.180
0.382
0.528
0.544
0.426
7.210
3.290
0.813
0.455
1.056
Difference
0
0.000
-3.319
6.639(2)
6.639(2)
0.036
-0.161
-0.064
-0.142
-0.197
-0.196
-0.131
-2.163
0.000
-0.063
-0.182
0.082
AIC*n
BIC
BIC
BIC used by Stata
AIC used by Stata
Difference of
36.418
-71.554
-5.300
39.349
36.418
33.779
-71.261
-5.007
39.642
33.779
2.639
-0.293
-0.293
-0.293
2.639
gpa
tuce
psi
min->max
0.7872
0.2824
0.4565
Pr(y|x)
x=
sd(x)=
0
0.7472
gpa
3.11719
.466713
0->1
0.0008
0.0038
0.4565
-+1/2
0.5055
0.0180
0.4330
-+sd/2
0.2466
0.0701
0.2246
MargEfct
0.5339
0.0180
0.4493
1
0.2528
tuce
21.9375
3.90151
psi
.4375
.504016
UNIVERSITE DE PARIS 11
Interro de TD 1
Anne Plunket
Master 1 - ETT et EI
Number of obs
F( 4,
59)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
12.65
0.0000
0.4616
0.4251
.15197
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.1752641
.175792
1.00
0.323
-.1764948
.527023
lavginc |
.5139219
.0819555
6.27
0.000
.3499294
.6779143
pctstu |
.0093131
.0060311
1.54
0.128
-.002755
.0213813
lenroll | -.1215012
.1903735
-0.64
0.526
-.5024376
.2594352
_cons | -.1622075
.9068567
-0.18
0.859
-1.976824
1.652409
-----------------------------------------------------------------------------. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Variables: fitted values of lrent
chi2(1)
Prob > chi2
=
=
0.12
0.7340
Number of obs
F( 2,
61)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
17.42
0.0000
0.3635
0.3427
.1625
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop | -.0011434
.0352743
-0.03
0.974
-.0716786
.0693919
lavginc |
.4736686
.0861569
5.50
0.000
.3013872
.64595
_cons |
1.282824
.8076707
1.59
0.117
-.3322131
2.897862
-----------------------------------------------------------------------------. reg lrent
pctstu lenroll
Source |
SS
df
MS
-------------+-----------------------------Model | .253850382
2 .126925191
Residual | 2.27714896
61 .037330311
-------------+-----------------------------Total | 2.53099934
63 .040174593
Number of obs
F( 2,
61)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
3.40
0.0398
0.1003
0.0708
.19321
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------pctstu |
.0001169
.001812
0.06
0.949
-.0035066
.0037403
lenroll |
.1327148
.0518252
2.56
0.013
.0290839
.2363457
_cons |
4.724284
.5018249
9.41
0.000
3.720823
5.727745
------------------------------------------------------------------------------
Source |
SS
df
MS
-------------+-----------------------------Model | 13.6478645
3 4.54928816
Residual | .637257238
60 .010620954
-------------+-----------------------------Total | 14.2851217
63 .226747964
Number of obs
F( 3,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
428.33
0.0000
0.9554
0.9532
.10306
-----------------------------------------------------------------------------lenroll |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.9003717
.0264604
34.03
0.000
.847443
.9533003
lavginc |
.0568458
.0550904
1.03
0.306
-.0533515
.167043
pctstu |
.0303161
.0011872
25.53
0.000
.0279413
.0326909
_cons | -1.687126
.5751112
-2.93
0.005
-2.837519
-.5367318
-----------------------------------------------------------------------------. reg lrent lpop lavginc pctstu
Source |
SS
df
MS
-------------+-----------------------------Model | 1.15895654
3 .386318847
Residual |
1.3720428
60
.02286738
-------------+-----------------------------Total | 2.53099934
63 .040174593
Number of obs
F( 3,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
16.89
0.0000
0.4579
0.4308
.15122
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.0658678
.038826
1.70
0.095
-.0117957
.1435314
lavginc |
.507015
.0808356
6.27
0.000
.3453198
.6687103
pctstu |
.0056297
.0017421
3.23
0.002
.002145
.0091143
_cons |
.0427803
.8438753
0.05
0.960
-1.645222
1.730782
-----------------------------------------------------------------------------. reg lrent lpop lavginc pctstu [ ???? ]
Source |
SS
df
MS
-------------+-----------------------------Model | .972470742
3 .324156914
Residual | 1.25031296
60 .020838549
-------------+-----------------------------Total |
2.2227837
63 .035282281
Number of obs
F( 3,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
15.56
0.0000
0.4375
0.4094
.14436
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.0330849
.0330518
1.00
0.321
-.0330285
.0991982
lavginc |
.4874827
.0751816
6.48
0.000
.3370971
.6378683
pctstu |
.0051889
.001674
3.10
0.003
.0018404
.0085374
_cons |
.6196268
.8128841
0.76
0.449
-1.006384
2.245637
------------------------------------------------------------------------------
151
Quantiles de la loi du 2
11.3
2n/2 (n/2)
y 2 1 ey/2 dy = P(Xn x) = .
PSfrag replacements
0.990
0.975
0.950
0.900
0.100
0.050
0.025
0.010
0.001
1
2
3
4
5
6
7
8
9
10
0.0002
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56
0.0010
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25
0.0039
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
0.0158
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59
11
12
13
14
15
16
17
18
19
20
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
21
22
23
24
25
26
27
28
29
30
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
L
Lorsque n > 30, on peut utiliser lapproximation 2Xn 2n 1 # G N1 (0, 1) (voir
lexercice 5.5.11) qui assure que pour x 0,
!
152
11.4
((n + 1)/2)
n (n/2) "
1+
y2
n
1
#(n+1)/2 dy = P(|Xn | t) = .
/2
/2
PSfrag replacements
n\
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.050
0.020
0.010
0.001
1
2
3
4
5
6
7
8
9
10
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
16
17
18
19
20
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
21
22
23
24
25
26
27
28
29
30
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
40
80
120
0.126
0.126
0.126
0.126
0.255
0.254
0.254
0.253
0.388
0.387
0.386
0.385
0.529
0.526
0.526
0.524
0.681
0.678
0.677
0.674
0.851
0.846
0.845
0.842
1.050
1.043
1.041
1.036
1.303
1.292
1.289
1.282
1.684
1.664
1.658
1.645
2.021
1.990
1.980
1.960
2.423
2.374
2.358
2.326
2.704
2.639
2.617
2.576
3.551
3.416
3.373
3.291
11.5
153
Soit Xn,m une v.a. de loi de Fisher de param`etre (n, m). On pose
P(Xn,m f ) = .
PSfrag replacements
n=2
n=3
n=4
n=5
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
1
2
3
4
5
6
7
8
9
10
161.45
18.51
10.13
7.71
6.61
5.99
5.59
5.32
5.12
4.96
4052.18
98.50
34.12
21.20
16.26
13.75
12.25
11.26
10.56
10.04
199.50
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
4999.50
99.00
30.82
18.00
13.27
10.92
9.55
8.65
8.02
7.56
215.71
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
5403.35
99.17
29.46
16.69
12.06
9.78
8.45
7.59
6.99
6.55
224.58
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
5624.58
99.25
28.71
15.98
11.39
9.15
7.85
7.01
6.42
5.99
230.16
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
5763.65
99.30
28.24
15.52
10.97
8.75
7.46
6.63
6.06
5.64
11
12
13
14
15
16
17
18
19
20
4.84
4.75
4.67
4.60
4.54
4.49
4.45
4.41
4.38
4.35
9.65
9.33
9.07
8.86
8.68
8.53
8.40
8.29
8.18
8.10
3.98
3.89
3.81
3.74
3.68
3.63
3.59
3.55
3.52
3.49
7.21
6.93
6.70
6.51
6.36
6.23
6.11
6.01
5.93
5.85
3.59
3.49
3.41
3.34
3.29
3.24
3.20
3.16
3.13
3.10
6.22
5.95
5.74
5.56
5.42
5.29
5.18
5.09
5.01
4.94
3.36
3.26
3.18
3.11
3.06
3.01
2.96
2.93
2.90
2.87
5.67
5.41
5.21
5.04
4.89
4.77
4.67
4.58
4.50
4.43
3.20
3.11
3.03
2.96
2.90
2.85
2.81
2.77
2.74
2.71
5.32
5.06
4.86
4.69
4.56
4.44
4.34
4.25
4.17
4.10
21
22
23
24
25
26
27
28
29
30
4.32
4.30
4.28
4.26
4.24
4.23
4.21
4.20
4.18
4.17
8.02
7.95
7.88
7.82
7.77
7.72
7.68
7.64
7.60
7.56
3.47
3.44
3.42
3.40
3.39
3.37
3.35
3.34
3.33
3.32
5.78
5.72
5.66
5.61
5.57
5.53
5.49
5.45
5.42
5.39
3.07
3.05
3.03
3.01
2.99
2.98
2.96
2.95
2.93
2.92
4.87
4.82
4.76
4.72
4.68
4.64
4.60
4.57
4.54
4.51
2.84
2.82
2.80
2.78
2.76
2.74
2.73
2.71
2.70
2.69
4.37
4.31
4.26
4.22
4.18
4.14
4.11
4.07
4.04
4.02
2.68
2.66
2.64
2.62
2.60
2.59
2.57
2.56
2.55
2.53
4.04
3.99
3.94
3.90
3.85
3.82
3.78
3.75
3.73
3.70
40
80
120
4.08
3.96
3.92
3.84
7.31
6.96
6.85
6.63
3.23
3.11
3.07
3.00
5.18
4.88
4.79
4.61
2.84
2.72
2.68
2.60
4.31
4.04
3.95
3.78
2.61
2.49
2.45
2.37
3.83
3.56
3.48
3.32
2.45
2.33
2.29
2.21
3.51
3.26
3.17
3.02
UNIVERSITE DE PARIS 11
Interro de TD 1
Anne Plunket
Master 1 - ETT et EI
2
.5139219
= 6.27 tnk1/645/59
=
s2
.0819555
Pour un test 5%, t5%,40 = 1.684 ou t5%,80 = 1.664 ; On en dduit que la valeur du
student est largement suprieure au t calcul, par consquent la variable est bien de signe
positif. On rejette lhypothse nulle.
3. En vous aidant des tableaux donns ci-dessous, proposez un test 3 = 4 = 0
Il sagit ici dun test du Fisher avec modle non contraint par rapport modle contraint,
la contrainte est gale 3 = 4 = 0.
Le modle non contraint scrit : reg lrent lpop lavginc pctstu lenroll
Le modle contraint scrit : reg lrent lpop lavginc
Le test scrit :
Fc =
(1.61085517 1.36263527)/2
(SCRc SCR/q
=
= 5.3737689 F (2, 59)
SCR/n k 1
1.36263527/59
1
1
1
= 22, 42
=
1 Rk2
1 0.9554
Number of obs =
F( 4,
59) =
64
12.65
Model | 1.16836407
4 .292091018
Residual | 1.36263527
59 .023095513
-------------+-----------------------------Total | 2.53099934
63 .040174593
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
0.0000
0.4616
0.4251
.15197
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.1752641
.175792
1.00
0.323
-.1764948
.527023
lavginc |
.5139219
.0819555
6.27
0.000
.3499294
.6779143
pctstu |
.0093131
.0060311
1.54
0.128
-.002755
.0213813
lenroll | -.1215012
.1903735
-0.64
0.526
-.5024376
.2594352
_cons | -.1622075
.9068567
-0.18
0.859
-1.976824
1.652409
-----------------------------------------------------------------------------. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Variables: fitted values of lrent
chi2(1)
Prob > chi2
=
=
0.12
0.7340
Number of obs
F( 2,
61)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
17.42
0.0000
0.3635
0.3427
.1625
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop | -.0011434
.0352743
-0.03
0.974
-.0716786
.0693919
lavginc |
.4736686
.0861569
5.50
0.000
.3013872
.64595
_cons |
1.282824
.8076707
1.59
0.117
-.3322131
2.897862
-----------------------------------------------------------------------------. reg lrent
pctstu lenroll
Source |
SS
df
MS
-------------+-----------------------------Model | .253850382
2 .126925191
Residual | 2.27714896
61 .037330311
-------------+-----------------------------Total | 2.53099934
63 .040174593
Number of obs
F( 2,
61)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
3.40
0.0398
0.1003
0.0708
.19321
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------pctstu |
.0001169
.001812
0.06
0.949
-.0035066
.0037403
lenroll |
.1327148
.0518252
2.56
0.013
.0290839
.2363457
_cons |
4.724284
.5018249
9.41
0.000
3.720823
5.727745
------------------------------------------------------------------------------
Number of obs
F( 3,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
428.33
0.0000
0.9554
0.9532
.10306
-----------------------------------------------------------------------------lenroll |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.9003717
.0264604
34.03
0.000
.847443
.9533003
lavginc |
.0568458
.0550904
1.03
0.306
-.0533515
.167043
pctstu |
.0303161
.0011872
25.53
0.000
.0279413
.0326909
_cons | -1.687126
.5751112
-2.93
0.005
-2.837519
-.5367318
-----------------------------------------------------------------------------. reg lrent lpop lavginc pctstu
Source |
SS
df
MS
-------------+-----------------------------Model | 1.15895654
3 .386318847
Residual |
1.3720428
60
.02286738
-------------+-----------------------------Total | 2.53099934
63 .040174593
Number of obs
F( 3,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
16.89
0.0000
0.4579
0.4308
.15122
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.0658678
.038826
1.70
0.095
-.0117957
.1435314
lavginc |
.507015
.0808356
6.27
0.000
.3453198
.6687103
pctstu |
.0056297
.0017421
3.23
0.002
.002145
.0091143
_cons |
.0427803
.8438753
0.05
0.960
-1.645222
1.730782
-----------------------------------------------------------------------------. reg lrent lpop lavginc pctstu [ ???? ]
Source |
SS
df
MS
-------------+-----------------------------Model | .972470742
3 .324156914
Residual | 1.25031296
60 .020838549
-------------+-----------------------------Total |
2.2227837
63 .035282281
Number of obs
F( 3,
60)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
64
15.56
0.0000
0.4375
0.4094
.14436
-----------------------------------------------------------------------------lrent |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------lpop |
.0330849
.0330518
1.00
0.321
-.0330285
.0991982
lavginc |
.4874827
.0751816
6.48
0.000
.3370971
.6378683
pctstu |
.0051889
.001674
3.10
0.003
.0018404
.0085374
_cons |
.6196268
.8128841
0.76
0.449
-1.006384
2.245637
------------------------------------------------------------------------------
UNIVERSITE DE PARIS 11
Interro de TD 2
Anne Plunket
Master 1 - ETT et EI
Number of obs
F( 2,
42)
Prob > F
R-squared
Adj R-squared
Root MSE
=
45
= 2919.99
= 0.0000
= 0.9929
= 0.9925
= 8977.9
-----------------------------------------------------------------------------cons |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------income |
.9333721
.0644142
14.49
0.000
.8033789
1.063365
trend | -140.4874
553.0085
-0.25
0.801
-1256.504
975.5288
_cons |
11579.25
8573.289
1.35
0.184
-5722.351
28880.84
-----------------------------------------------------------------------------Durbin-Watson Statistic = .4633078
(a) Expliquez ce quest lautocorrlation et quels problmes elle pose pour lestimation par la mthode des Moindres carrs ordinaires
Lautocorrlation rend compte du fait que les rsidus sont corrls entre eux au cours
du temps. Autrement dit, les rsidus ne sont pas distribus de manire indpendants,
ils ne sont pas i.i.d. A ce moment l, la variance des rsidu nest pas minimale et on
risque de rejeter lhypothse nulle tort.
(b) Quel est le type dautocorrlation que le test de Durbin et Watson permet de
tester ?
Le DW ne teste que lautocorrlation dordre 1 du type :
t = t1 + ut
Il sagit dun processus de Markov dordre 1.
(c) Fates le test de Durbin et Watson ; indiquez clairement quelle est lhypothse
nulle et alternative. Quelles sont vos conclusions.
H0 : = 0 contre H1 : 6= 0 La rgle de dcision est la suivante :
si d < dL on rejette lhypothse null ;
si d > dU on ne la rejette pas ;
si dL < d < dU il y a un doute
Ici, DW = 0,46, k=2 et n=45, dL = 1.43 et dU = 1.62
DW < dL (1.43), par consquent, on en dduit quil y a de lautocorrlation
lordre 1 au moins.
1
2. Vous disposez de deux rgressions du revenu en fonction dun certain nombre dindicateurs et de variables o hwage indique le salaire horaire en cents, urban est une indicatrice gale un si la personne vit en ville par opposition la campagne, age reprsente
lge de la personne, ethnic est gale 1 si la personne nest pas dorigine blanche, south
est gale 1 si la personne habitude dans le sud des Etats-Unis
. mean hwage, over(urban)
Mean estimation
Number of obs
1900
0: urban = 0
1: urban = 1
-------------------------------------------------------------Over |
Mean
Std. Err.
[95% Conf. Interval]
-------------+-----------------------------------------------hwage
|
0 |
496.7519
9.091503
478.9216
514.5823
1 |
622.3078
7.321256
607.9493
636.6664
-------------------------------------------------------------. reg hwage educ age ethnic urban south
Source |
SS
df
MS
-------------+-----------------------------Model | 31555417.8
5 6311083.57
Residual | 98930460.8 1894 52233.6118
-------------+-----------------------------Total |
130485879 1899 68712.9429
Number of obs
F( 5, 1894)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
1900
120.82
0.0000
0.2418
0.2398
228.55
-----------------------------------------------------------------------------hwage |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------educ |
19.52263
2.101356
9.29
0.000
15.40141
23.64384
age |
26.63248
1.703658
15.63
0.000
23.29124
29.97372
ethnic | -83.06785
15.34264
-5.41
0.000
-113.1581
-52.97761
urban |
95.69047
12.08005
7.92
0.000
71.99886
119.3821
south | -61.58681
11.53298
-5.34
0.000
-84.20549
-38.96813
_cons |
454.6921
55.89884
8.13
0.000
564.3219
345.0623
------------------------------------------------------------------------------
habitent dans le sud est de south + ethnic = 83, 06 61, 58 = 144, 64.
3. On vous propose dtudier les dterminants davoir un salaire horaire suprieur 700
cents. Vous disposez des tableaux suivants :
. logit highwage educ age fatheduc motheduc ethnic urban south, nolog
Logistic regression
Number of obs
LR chi2(7)
Prob > chi2
Pseudo R2
=
=
=
=
1900
313.50
0.0000
0.1412
-----------------------------------------------------------------------------highwage |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------educ |
.1246213
.0256527
4.86
0.000
.074343
.1748995
age |
.2012003
.0184215
10.92
0.000
.1650949
.2373057
fatheduc |
.0101726
.021478
0.47
0.636
-.0319236
.0522687
motheduc |
.0694325
.0257211
2.70
0.007
.0190201
.1198449
ethnic | -.8283974
.2134957
-3.88
0.000
-1.246841
-.4099534
urban |
.8551816
.1462779
5.85
0.000
.5684822
1.141881
south | -.3091703
.1261468
-2.45
0.014
-.5564136
-.061927
_cons |
-9.74939
.6661931
-14.63
0.000
-11.0551
-8.443676
-----------------------------------------------------------------------------. logit highwage educ age fatheduc south, nolog
Logistic regression
Number of obs
LR chi2(4)
Prob > chi2
Pseudo R2
=
=
=
=
1900
255.43
0.0000
0.1150
-----------------------------------------------------------------------------highwage |
Coef.
Std. Err.
z
P>|z|
[95% Conf. Interval]
-------------+---------------------------------------------------------------educ |
.1512071
.0248181
6.09
0.000
.1025645
.1998496
age |
.200255
.0180981
11.06
0.000
.1647833
.2357267
fatheduc |
.0612833
.0178013
3.44
0.001
.0263933
.0961733
south | -.5051628
.1211115
-4.17
0.000
-.742537
-.2677886
_cons | -9.230539
.62938
-14.67
0.000
-10.4641
-7.996977
-------------------------------------------------------------------------------------------------------------------------------. prvalue, x(motheduc = 12) rest(mean)
logit: Predictions for highwage
Confidence intervals by delta method
Pr(y=1|x):
Pr(y=0|x):
x=
educ
14.166223
0.2879
0.7121
age
27.869681
fatheduc
11.210106
motheduc
12
ethnic
.05585106
urban
.76861702
south
.28191489
Pr(y=1|x):
Pr(y=0|x):
x=
educ
14.268166
0.3367
0.6633
age
27.942907
fatheduc
11.351211
motheduc
12
ethnic
.06401384
urban
1
south
.25778547
urban
.80769231
south
1
Pr(y=1|x):
Pr(y=0|x):
x=
educ
13.923077
0.1116
0.8884
age
27.115385
fatheduc
9.6538462
motheduc
12
ethnic
1
23/09/08 13:56
! Prsentation des fentres Stata
" fentre command : pour entrer les commandes
" fentre stata results : liste les rsultats
" fentre variables : liste toutes le variables de la base de donnes
" fentre review : liste toutes les commandes entres
! Entrer des commandes :
" Soit en entrant les commandes dans la fentre command (ou en
utilisant le menu)
" Soit en utilisant un fichier .do ; on peut crer un fichier o lon met
lensemble des commandes et ensuite il suffit de faire tourner le
fichier .do
! Avant de commencer, il faut ouvrir un fichier .log pour garder en
mmoire tout ce quon a fait
" File/Log/Begin/ td1_dcouverte de Stata
! Il faut entrer les donnes
" File/ Import / Unformatted ASCII format
" Nom des variables : year
infmort afdcprt popul
pcinc
physic afdcper d90
lpcinc lphysic DC lpopul
! Il faut sauvegarder les donnes ; on obtient un fichier .dta
! Pour voir les variables
" list in 1/10 mais illisible il vaut mieux
" list year infmort afdcprt pcinc physic in 1/10
" On dispose des donnes pour les annes 1987 et 1990 ; On dispose
de donnes pour les 51 Etats des Etats-Unis mais seule le district de
Columbia est identifie par une variable indicatrice DC==0/1
" La variable infmort donne le nombre de dcs pour les enfants de
moins dun an pour 1000 naissances, pcinc donne le niveau de
revenu par tte, physic est le nombre de mdecins pour 100 000
personnes et popul est la population en milliers.
# year
1987 or 1990
# infmort
infant mortality rate # of deaths within the
first year par 1,000 live births
# afdcprt
AFDC participation, 1000s /welfare program
Aid to Families with Dependent Children (AFDC) program
# popul
population in 1000s (thousands)
# pcinc
per capita income
# physic
Doctors per 100,000 civilian population
#
#
afdcper
d90
percent on AFDC
=1 if year == 1990
# lpcinc
log(pcinc)
# lphysic
log(physic)
# DC
=1 for Washington DC
# lpopul
log(popul)
! Supprimer et crer des variables
" drop pour supprimer
# drop afdcper d90 lpcinc lpopul
" generate avec une abrviation g ou gen pour crer une variable
# gen afdcper = afdcprt/popul
# gen lpcinc = ln(pcinc)
# gen lphysic = ln(physic)
# gen d90 = 1 if year == 1990 & year<. Mais problme plutt
# gen d90 = (year==1990) if year<.
# gen lpopul = log(popul)
! Donner une explication aux variables
" On peut crer un .do file pour faire a
# ***********************************
#
Nommer les variables
# ***********************************
# label variable infmort "infant mortality rate"
# label variable
! Obtenir une description numrique statistiques des variables
" Describe
" Summarize
" sum infmort pcinc physic popul
! Quelles sont les relations attendues entre les variables et
infmort ?
# On sattend une relation ngative entre le revenu par tte et la
mortalit (si les individus sont plus riches , ils ont davantage
les moyens dtre suivis par leur mdecin ce qui rduit la
mortalit infantile;
# On sattend galement une relation ngative entre le nombre
de mdecins et le taux de mortalit
# On sattend une relation positive entre la population et le
nombre de dcs par mortalit infantile
! Corrlations entre les variables
# pwcorr infmort lpcinc lphysic lpopul if d90==0, star(.05)
Chapitre 11
Tables statistiques
Les tables qui suivent ont ete generees a` laide du logiciel Scilab.
11.1
ey
2 /2
dy
= P(|X| x) = .
2
/2
/2
PSfrag replacements
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
+x
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
1.6449
1.2816
1.0364
0.8416
0.6745
0.5244
0.3853
0.2533
0.1257
2.5758
1.5982
1.2536
1.0152
0.8239
0.6588
0.5101
0.3719
0.2404
0.1130
2.3263
1.5548
1.2265
0.9945
0.8064
0.6433
0.4959
0.3585
0.2275
0.1004
2.1701
1.5141
1.2004
0.9741
0.7892
0.6280
0.4817
0.3451
0.2147
0.0878
2.0537
1.4758
1.1750
0.9542
0.7722
0.6128
0.4677
0.3319
0.2019
0.0753
1.9600
1.4395
1.1503
0.9346
0.7554
0.5978
0.4538
0.3186
0.1891
0.0627
1.8808
1.4051
1.1264
0.9154
0.7388
0.5828
0.4399
0.3055
0.1764
0.0502
1.8119
1.3722
1.1031
0.8965
0.7225
0.5681
0.4261
0.2924
0.1637
0.0376
1.7507
1.3408
1.0803
0.8779
0.7063
0.5534
0.4125
0.2793
0.1510
0.0251
1.6954
1.3106
1.0581
0.8596
0.6903
0.5388
0.3989
0.2663
0.1383
0.0125
149
150
Fonction de r
epartition de la loi N1(0, 1)
11.2
ey
2 /2
dy
= P(X x) = .
2
PSfrag replacements
2
2.28e-02
3
1.35e-03
4
3.17e-05
5
2.87e-07
6
9.87e-10
7
1.28e-12
8
6.22e-16
9
1.13e-19
10
7.62e-24
151
Quantiles de la loi du 2
11.3
2n/2 (n/2)
y 2 1 ey/2 dy = P(Xn x) = .
PSfrag replacements
0.990
0.975
0.950
0.900
0.100
0.050
0.025
0.010
0.001
1
2
3
4
5
6
7
8
9
10
0.0002
0.02
0.11
0.30
0.55
0.87
1.24
1.65
2.09
2.56
0.0010
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25
0.0039
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
0.0158
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.12
27.88
29.59
11
12
13
14
15
16
17
18
19
20
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.31
21
22
23
24
25
26
27
28
29
30
8.90
9.54
10.20
10.86
11.52
12.20
12.88
13.56
14.26
14.95
10.28
10.98
11.69
12.40
13.12
13.84
14.57
15.31
16.05
16.79
11.59
12.34
13.09
13.85
14.61
15.38
16.15
16.93
17.71
18.49
13.24
14.04
14.85
15.66
16.47
17.29
18.11
18.94
19.77
20.60
29.62
30.81
32.01
33.20
34.38
35.56
36.74
37.92
39.09
40.26
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
35.48
36.78
38.08
39.36
40.65
41.92
43.19
44.46
45.72
46.98
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
L
Lorsque n > 30, on peut utiliser lapproximation 2Xn 2n 1 ' G N1 (0, 1) (voir
lexercice 5.5.11) qui assure que pour x 0,
p
152
11.4
((n + 1)/2)
n (n/2)
1+
y2
n
1
(n+1)/2 dy = P(|Xn | t) = .
/2
/2
PSfrag replacements
n\
0.900
0.800
0.700
0.600
0.500
0.400
0.300
0.200
0.100
0.050
0.020
0.010
0.001
1
2
3
4
5
6
7
8
9
10
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.325
0.289
0.277
0.271
0.267
0.265
0.263
0.262
0.261
0.260
0.510
0.445
0.424
0.414
0.408
0.404
0.402
0.399
0.398
0.397
0.727
0.617
0.584
0.569
0.559
0.553
0.549
0.546
0.543
0.542
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
1.376
1.061
0.978
0.941
0.920
0.906
0.896
0.889
0.883
0.879
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1.108
1.100
1.093
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
63.657
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
636.619
31.599
12.924
8.610
6.869
5.959
5.408
5.041
4.781
4.587
11
12
13
14
15
16
17
18
19
20
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.260
0.259
0.259
0.258
0.258
0.258
0.257
0.257
0.257
0.257
0.396
0.395
0.394
0.393
0.393
0.392
0.392
0.392
0.391
0.391
0.540
0.539
0.538
0.537
0.536
0.535
0.534
0.534
0.533
0.533
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.876
0.873
0.870
0.868
0.866
0.865
0.863
0.862
0.861
0.860
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
21
22
23
24
25
26
27
28
29
30
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.257
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.256
0.391
0.390
0.390
0.390
0.390
0.390
0.389
0.389
0.389
0.389
0.532
0.532
0.532
0.531
0.531
0.531
0.531
0.530
0.530
0.530
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.859
0.858
0.858
0.857
0.856
0.856
0.855
0.855
0.854
0.854
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
3.819
3.792
3.768
3.745
3.725
3.707
3.690
3.674
3.659
3.646
40
80
120
0.126
0.126
0.126
0.126
0.255
0.254
0.254
0.253
0.388
0.387
0.386
0.385
0.529
0.526
0.526
0.524
0.681
0.678
0.677
0.674
0.851
0.846
0.845
0.842
1.050
1.043
1.041
1.036
1.303
1.292
1.289
1.282
1.684
1.664
1.658
1.645
2.021
1.990
1.980
1.960
2.423
2.374
2.358
2.326
2.704
2.639
2.617
2.576
3.551
3.416
3.373
3.291
11.5
153
Soit Xn,m une v.a. de loi de Fisher de param`etre (n, m). On pose
P(Xn,m f ) = .
PSfrag replacements
n=2
n=3
n=4
n=5
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
1
2
3
4
5
6
7
8
9
10
161.45
18.51
10.13
7.71
6.61
5.99
5.59
5.32
5.12
4.96
4052.18
98.50
34.12
21.20
16.26
13.75
12.25
11.26
10.56
10.04
199.50
19.00
9.55
6.94
5.79
5.14
4.74
4.46
4.26
4.10
4999.50
99.00
30.82
18.00
13.27
10.92
9.55
8.65
8.02
7.56
215.71
19.16
9.28
6.59
5.41
4.76
4.35
4.07
3.86
3.71
5403.35
99.17
29.46
16.69
12.06
9.78
8.45
7.59
6.99
6.55
224.58
19.25
9.12
6.39
5.19
4.53
4.12
3.84
3.63
3.48
5624.58
99.25
28.71
15.98
11.39
9.15
7.85
7.01
6.42
5.99
230.16
19.30
9.01
6.26
5.05
4.39
3.97
3.69
3.48
3.33
5763.65
99.30
28.24
15.52
10.97
8.75
7.46
6.63
6.06
5.64
11
12
13
14
15
16
17
18
19
20
4.84
4.75
4.67
4.60
4.54
4.49
4.45
4.41
4.38
4.35
9.65
9.33
9.07
8.86
8.68
8.53
8.40
8.29
8.18
8.10
3.98
3.89
3.81
3.74
3.68
3.63
3.59
3.55
3.52
3.49
7.21
6.93
6.70
6.51
6.36
6.23
6.11
6.01
5.93
5.85
3.59
3.49
3.41
3.34
3.29
3.24
3.20
3.16
3.13
3.10
6.22
5.95
5.74
5.56
5.42
5.29
5.18
5.09
5.01
4.94
3.36
3.26
3.18
3.11
3.06
3.01
2.96
2.93
2.90
2.87
5.67
5.41
5.21
5.04
4.89
4.77
4.67
4.58
4.50
4.43
3.20
3.11
3.03
2.96
2.90
2.85
2.81
2.77
2.74
2.71
5.32
5.06
4.86
4.69
4.56
4.44
4.34
4.25
4.17
4.10
21
22
23
24
25
26
27
28
29
30
4.32
4.30
4.28
4.26
4.24
4.23
4.21
4.20
4.18
4.17
8.02
7.95
7.88
7.82
7.77
7.72
7.68
7.64
7.60
7.56
3.47
3.44
3.42
3.40
3.39
3.37
3.35
3.34
3.33
3.32
5.78
5.72
5.66
5.61
5.57
5.53
5.49
5.45
5.42
5.39
3.07
3.05
3.03
3.01
2.99
2.98
2.96
2.95
2.93
2.92
4.87
4.82
4.76
4.72
4.68
4.64
4.60
4.57
4.54
4.51
2.84
2.82
2.80
2.78
2.76
2.74
2.73
2.71
2.70
2.69
4.37
4.31
4.26
4.22
4.18
4.14
4.11
4.07
4.04
4.02
2.68
2.66
2.64
2.62
2.60
2.59
2.57
2.56
2.55
2.53
4.04
3.99
3.94
3.90
3.85
3.82
3.78
3.75
3.73
3.70
40
80
120
4.08
3.96
3.92
3.84
7.31
6.96
6.85
6.63
3.23
3.11
3.07
3.00
5.18
4.88
4.79
4.61
2.84
2.72
2.68
2.60
4.31
4.04
3.95
3.78
2.61
2.49
2.45
2.37
3.83
3.56
3.48
3.32
2.45
2.33
2.29
2.21
3.51
3.26
3.17
3.02
154
n=6
n=8
n = 12
n = 24
n=
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
=0.05
=0.01
1
2
3
4
5
6
7
8
9
10
233.99
19.33
8.94
6.16
4.95
4.28
3.87
3.58
3.37
3.22
5858.99
99.33
27.91
15.21
10.67
8.47
7.19
6.37
5.80
5.39
238.88
19.37
8.85
6.04
4.82
4.15
3.73
3.44
3.23
3.07
5981.07
99.37
27.49
14.80
10.29
8.10
6.84
6.03
5.47
5.06
243.91
19.41
8.74
5.91
4.68
4.00
3.57
3.28
3.07
2.91
6106.32
99.42
27.05
14.37
9.89
7.72
6.47
5.67
5.11
4.71
249.05
19.45
8.64
5.77
4.53
3.84
3.41
3.12
2.90
2.74
6234.63
99.46
26.60
13.93
9.47
7.31
6.07
5.28
4.73
4.33
254.31
19.50
8.53
5.63
4.36
3.67
3.23
2.93
2.71
2.54
6365.86
99.50
26.13
13.46
9.02
6.88
5.65
4.86
4.31
3.91
11
12
13
14
15
16
17
18
19
20
3.09
3.00
2.92
2.85
2.79
2.74
2.70
2.66
2.63
2.60
5.07
4.82
4.62
4.46
4.32
4.20
4.10
4.01
3.94
3.87
2.95
2.85
2.77
2.70
2.64
2.59
2.55
2.51
2.48
2.45
4.74
4.50
4.30
4.14
4.00
3.89
3.79
3.71
3.63
3.56
2.79
2.69
2.60
2.53
2.48
2.42
2.38
2.34
2.31
2.28
4.40
4.16
3.96
3.80
3.67
3.55
3.46
3.37
3.30
3.23
2.61
2.51
2.42
2.35
2.29
2.24
2.19
2.15
2.11
2.08
4.02
3.78
3.59
3.43
3.29
3.18
3.08
3.00
2.92
2.86
2.40
2.30
2.21
2.13
2.07
2.01
1.96
1.92
1.88
1.84
3.60
3.36
3.17
3.00
2.87
2.75
2.65
2.57
2.49
2.42
21
22
23
24
25
26
27
28
29
30
2.57
2.55
2.53
2.51
2.49
2.47
2.46
2.45
2.43
2.42
3.81
3.76
3.71
3.67
3.63
3.59
3.56
3.53
3.50
3.47
2.42
2.40
2.37
2.36
2.34
2.32
2.31
2.29
2.28
2.27
3.51
3.45
3.41
3.36
3.32
3.29
3.26
3.23
3.20
3.17
2.25
2.23
2.20
2.18
2.16
2.15
2.13
2.12
2.10
2.09
3.17
3.12
3.07
3.03
2.99
2.96
2.93
2.90
2.87
2.84
2.05
2.03
2.01
1.98
1.96
1.95
1.93
1.91
1.90
1.89
2.80
2.75
2.70
2.66
2.62
2.58
2.55
2.52
2.49
2.47
1.81
1.78
1.76
1.73
1.71
1.69
1.67
1.65
1.64
1.62
2.36
2.31
2.26
2.21
2.17
2.13
2.10
2.06
2.03
2.01
40
80
120
2.34
2.21
2.18
2.10
3.29
3.04
2.96
2.80
2.18
2.06
2.02
1.94
2.99
2.74
2.66
2.51
2.00
1.88
1.83
1.75
2.66
2.42
2.34
2.18
1.79
1.65
1.61
1.52
2.29
2.03
1.95
1.79
1.51
1.32
1.25
1.00
1.80
1.49
1.38
1.00
318
k=1
n
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
55
60
65
70
75
80
85
90
95
100
dL
0.81
0.84
0.87
0.90
0.93
0.95
0.97
1.00
1.02
1.04
1.05
1.07
1.09
1.10
1.12
1.13
1.15
1.16
1.17
1.18
1.19
1.21
1.22
1.23
1.24
1.25
1.29
1.32
1.36
1.38
1.41
1.43
1.45
1.47
1.48
1.50
1.51
1.52
k=3
k=2
du
dL
1.07
1.09
1.10
1.12
1.13
1.15
1.16
1.17
1.19
1.20
1.21
1.22
1.23
1.24
1.25
1.26
1.27
1.28
1.29
1.30
1.31
1.32
1.32
1.33
1.34
1.34
1.38
1.40
1.43
1.45
1.47
1.49
1.50
1.52
1.53
1.54
1.55
1.56
0.70
0.74
0.77
0.80
0.83
0.86
0.89
0.91
0.94
0.96
0.98
1.00
1.02
1.04
1.05
1.07
1.08
1.10
1.11
1.13
1.14
1.15
1.16
1.18
1.19
1.20
1.24
1.28
1.32
1.35
1.38
1.40
1.42
1.44
1.46
1.47
1.49
1.50
k=4
k=5
du
dL
du
dL
du
dL
du
1.25
1.25
0.59
0.63
0.67
0.71
0.74
0.77
0.80
0.83
0.86
0.88
0.90
0.93
0.95
0.97
0.99
1.01
1.02
1.04
1.05
1.07
1.08
1.10
1.11
1.12
1.14
1.15
1.20
1.24
1.28
1.32
1.35
1.37
1.39
1.42
1.43
1.45
1.47
1.48
1.46
1.44
1.43
1.42
1.41
1.41
1.41
1.40
1.40
1.41
1.41
1.41
1.41
1.41
1.42
1.42
1.42
1.43
1.43
1.43
1.44
1.44
1.45
1.45
1.45
1.46
1.48
1.49
1.51
1.52
1.53
1.55
1.56
1.57
1.58
1.59
1.60
1.60
0.49
0.53
0.57
0.61
0.65
0.68
0.72
0.75
0.77
0.80
0.83
0.85
0.88
0.90
0.92
0.94
0.96
0.98
1.00
1.01
1.03
1.04
1.06
1.07
1.09
1.10
1.16
1.20
1.25
1.28
1.31
1.34
1.37
1.39
1.41
1.43
1.45
1.46
1.70
1.66
1.63
1.60
1.58
1.57
1.55
1.54
1.53
1.53
1.52
1.52
1.51
1.51
1.51
1.51
1.51
1.51
1.51
1.51
1.51
1.51
1.51
1.52
1.52
1.52
1.53
1.54
1.55
1.56
1.57
1.58
1.59
1.60
1.60
1.61
1.62
1.63
0.39
0.44
0.48
0.52
0.56
0.60
0.63
0.66
0.70
0.72
0.75
0.78
0.81
0.83
0.85
0.88
0.90
0.92
0.94
0.95
0.97
0.99
1.00
1.02
1.03
1.05
1.11
1.16
1.21
1.25
1.28
1.31
1.34
1.36
1.39
1.41
1.42
1.44
1.96
1.90
1.85
1.80
1.77
1.74
1.71
1.69
1.67
1.66
1.65
1.64
1.63
1.62
1.61
1.61
1.60
1.60
1.59
1.59
1.59
1.59
1.59
1.58
1.58
1.58
1.58
1.59
1.59
1.60
1.61
1.61
1.62
1.62
1.63
1.64
1.64
1.65
1.25
1.26
1.26
1.27
1.27
1.28
1.29
1.30
1.30
1.31
1.32
1.32
1.33
1.34
1.34
1.35
1.36
1.36
1.37
1.38
1.38
1.39
1.39
1.40
1.42
1.45
1.47
1.48
1.50
1.52
1.53
1.54
1.55
1.56
1.57
1.58
319
k=1
k=2
dL
dU
dL
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
45
50
55
60
65
70
75
80
85
90
95
100
1.08
1.10
1.13
1.16
1.18
1.20
1.22
1.24
1.26
1.27
1.29
1.30
1.32
1.33
1.34
1.35
1.36
1.37
1.38
1.39
1.40
1.41
1.42
1.43
1.43
1.44
1.48
1.50
1.53
1.55
3.57
1.58
1.60
1.61
1.62
1.63
1.64
1.65
1.36
1.37
1.38
1.39
1.40
1.41
1.42
1.43
1.44
1.45
1.45
1.46
1.47
1.48
1.48
1.49
1.50
1.50
1.51
1.51
1.52
1.52
1.53
1.54
1.54
1.54
1.57
1.59
1.60
1.62
3.63
1.64
1.65
1.66
1.67
1.68
1.69
1.69
0.95
0.98
1.02
1.05
1.08
1.10
1.13
1.15
1.17
1.19
1.21
1.22
1.24
1.26
1.27
1.28
3.30
1.31
1.32
3.33
1.34
1.35
1.36
1.37
1.38
1.39
1.43
1.46
3.49
1.51
1.54
1.55
1.57
1.59
1.60
1.61
1.62
3.63
k=3
k=4
k=5
dU
dL
dU
dL
dU
dL
dU
1.54
1.54
1.54
1.53
1.53
1.54
1.54
1.54
1.54
1.55
1.55
1.55
1.56
1.56
1.56
1.57
1.57
1.57
1.58
1.58
1.58
1.59
1.59
1.59
1.60
1.60
1.62
3.63
1.64
1.65
1.66
1.67
1.68
3.69
1.70
1.70
1.71
1.72
0.82
0.86
0.90
0.93
0.97
1.00
1.03
1.05
1.08
1.10
1.12
1.14
1.16
1.18
1.20
1.21
1.23
1.24
1.26
1.27
1.28
1.29
3.31
1.32
1.33
1.34
1.38
1.42
1.45
1.48
1.50
1.52
1.54
1.56
1.57
1.59
1.60
1.61
1.75
1.73
1.71
1.69
1.68
1.68
1.67
1.66
1.66
1.66
1.66
1.65
1.65
1.65
1.65
1.65
1.65
1.65
1.65
1.65
1.65
1.65
1.66
1.66
1.66
1.66
1.67
1.67
1.68
1.69
1.70
1.70
1.71
1.72
1.72
3.73
1.73
1.74
0.69
0.74
0.78
0.82
0.86
0.90
0.93
0.96
0.99
1.01
1.04
1.06
1.08
1.10
1.12
1.14
1.16
1.18
1.19
1.21
1.22
1.24
1.25
1.26
1.27
1.29
1.34
1.38
1.41
1.44
1.47
3.49
1.51
1.53
1.55
3.57
3.58
1.59
1.97
1.93
1.90
1.87
1.85
1.83
1.81
1.80
1.79
1.78
1.77
1.76
1.76
1.75
1.74
1.74
1.74
1.73
1.73
1.73
1.73
1.73
1.72
1.72
1.72
1.72
1.72
1.72
1.72
1.73
1.73
1.74
1.74
1.74
1.75
1.75
1.75
1.76
0.56
0.62
0.67
0.71
0.75
0.79
0.83
0.86
0.90
0.93
0.95
0.98
1.01
1.03
1.05
3.07
1.09
1.11
1.13
1.15
1.16
1.18
1.19
1.21
1.22
1.23
1.29
3.34
1.38
1.41
1.44
1.46
1.49
1.51
1.52
1.54
1.56
1.57
2.21
2.15
2.10
2.06
2.02
1.99
1.96
1.94
1.92
1.90
1.89
1.88
1.86
1.85
1.84
1.83
1.83
1.82
1.81
1.81
1.80
1.80
1.80
1.79
1.79
1.79
1.78
1.77
1.77
1.77
1.77
1.77
1.77
1.77
1.77
1.78
1.78
1.78