Main

Table des matires
1 Introduction
1.1 Quest-ce quun panel . . . . . . . . . . .
1.2 Organisation des donnes de panel sous R
1.3 Mesure de la variabilit dans un panel . .
1.4 Des transformations utiles . . . . . . . . .
1.5 Les diffrentes formes dhtrognit . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
2
3
5
10
12
2 Modle erreurs composes

15
2.1 Notations et hypothses . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.2 Hypothses sur les termes derreur . . . . . . . . . . . . . . 17
2.2 Estimateurs des moindres carrs ordinaires . . . . . . . . . . . . . 18
2.2.1 Estimateur des moindres carrs ordinaires sur les variables
non transformes . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Lestimateur between . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Lestimateur within . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Lestimateur des moindres carrs gnraliss . . . . . . . . . . . . . 23
2.3.1 Prsentation de lestimateur des mcg . . . . . . . . . . . . 23
2.3.2 Estimation des variances des composantes du terme derreur 25
2.4 Comparaison des estimateurs . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Relations entre les estimateurs . . . . . . . . . . . . . . . . 27
2.4.2 Comparaison des variances . . . . . . . . . . . . . . . . . . 28
2.5 Exemples dapplication . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.1 Un exemple complet destimation avec plm . . . . . . . . . 28
2.5.2 Exemples de modles linaires simples . . . . . . . . . . . . 32
2.6 Simulation des proprits des estimateurs . . . . . . . . . . . . . . 37
3 Le modle erreurs composes : extensions
3.1 Le modle double erreurs composes . . . . . . . . . . . .
3.1.1 Dcomposition de la variance dans le modle doubles
3.1.2 Modles effets fixes et effets alatoires . . . . . .
3.1.3 Application . . . . . . . . . . . . . . . . . . . . . . .
. . . .
effets
. . . .
. . . .
41
41
41
42
42
viii
Economtrie des donnes de panel avec R

3.2
3.3
3.4
3.5
Dautres estimateurs des variances des composantes du terme derreur

Panel non cylindre . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1 Application . . . . . . . . . . . . . . . . . . . . . . . . . . .
Lestimateur du maximum de vraisemblance . . . . . . . . . . . . .
Systme dquations corrles . . . . . . . . . . . . . . . . . . . . .
3.5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 Les moindres carrs contraints . . . . . . . . . . . . . . . .
3.5.3 La prise en compte des corrlations inter-quations . . . . .
3.5.4 Donnes de panel . . . . . . . . . . . . . . . . . . . . . . . .
3.5.5 Application . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Tests sur le modele a erreurs composees

4.1 Tests deffets individuels et/ou deffets temporels . .
4.1.1 Tests de F . . . . . . . . . . . . . . . . . . . .
4.1.2 Tests de Breush-Pagan . . . . . . . . . . . . .
4.1.3 Application . . . . . . . . . . . . . . . . . . .
4.2 Modele a erreurs composees vs modeles a coefficients
4.2.1 Modeles a coefficients variables . . . . . . . .
4.3 Modele a effet fixe vs modele a effets aleatoires . . .
5 Autocorrlation et htroscdasticit
. . . . . .
. . . . . .
. . . . . .
. . . . . .
variables
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
45
48
49
53
53
53
54
55
57
61
61
61
62
63
65
67
70
73
6 Endogneite
75
6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.2 Estimation dune quation isole . . . . . . . . . . . . . . . . . . . 76
6.2.1 Les modles within et between . . . . . . . . . . . . . . . . 80
6.2.2 Estimateurs combinant les variations intra et inter-individuelles 83
6.3 Estimation dun systme dquation . . . . . . . . . . . . . . . . . 88
6.3.1 Lestimateur des triples moindres carrs ordinaires . . . . . 88
6.3.2 Lestimateur des triples moindres carrs ordinaires erreurs
composes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.4 Estimateur dHausman-Taylor . . . . . . . . . . . . . . . . . . . . . 92
7 Estimation dun modle dynamique
97
7.1 Modle dynamique et endognit . . . . . . . . . . . . . . . . . . 99
7.1.1 Le biais de lestimateur des mco . . . . . . . . . . . . . . . 99
7.1.2 Lestimateur within . . . . . . . . . . . . . . . . . . . . . . 101
7.1.3 Mthodes destimation convergentes pour les modles dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
7.2 Estimateur des moments gnraliss du modle en diffrences . . . 105
7.2.1 Variables instrumentales et mthode des moments gnraliss 105
7.2.2 Estimateur en une tape . . . . . . . . . . . . . . . . . . . . 107
7.2.3 Estimateur en deux tapes . . . . . . . . . . . . . . . . . . 109
Table des matires

7.2.4
7.3
7.4
7.5
La prolifration du nombre dinstruments dans le modle des

moments gnraliss en diffrences . . . . . . . . . . . . . .
Estimateur gmm systme . . . . . . . . . . . . . . . . . . . . . . .
7.3.1 Des instruments faibles . . . . . . . . . . . . . . . . . . . .
7.3.2 Conditions de moments sur le modle en niveau . . . . . . .
7.3.3 Lestimateur gmm en systme . . . . . . . . . . . . . . . . .
Infrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.4.1 Estimation robuste de la matrice de variance des coefficients
7.4.2 Tests de validit des moments . . . . . . . . . . . . . . . . .
7.4.3 Test dabsence dautocorrlation des innovations . . . . . .
Exemples dapplication . . . . . . . . . . . . . . . . . . . . . . . . .
ix
110
113
113
114
116
118
118
121
122
124
8 Modles linaires gnraliss et assimils

8.1 Le modele binomial . . . . . . . . . . . . .
8.1.1 Introduction . . . . . . . . . . . .
8.1.2 Panel . . . . . . . . . . . . . . . .
8.1.3 Application . . . . . . . . . . . . .
8.2 Modele ordonne . . . . . . . . . . . . . . .
8.2.1 Introduction . . . . . . . . . . . .
8.2.2 Panel . . . . . . . . . . . . . . . .
8.2.3 Application . . . . . . . . . . . . .
8.3 Modele tobit . . . . . . . . . . . . . . . .
8.3.1 Introduction . . . . . . . . . . . .
8.3.2 Panel . . . . . . . . . . . . . . . .
8.3.3 Application . . . . . . . . . . . . .
8.4 Poisson . . . . . . . . . . . . . . . . . . .
8.4.1 Introduction . . . . . . . . . . . .
8.4.2 Panel . . . . . . . . . . . . . . . .
8.4.3 Application . . . . . . . . . . . . .
8.5 Negbin . . . . . . . . . . . . . . . . . . . .
8.5.1 Introduction . . . . . . . . . . . .
8.5.2 Panel . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
127
127
127
129
131
132
132
133
134
135
135
137
138
139
139
140
142
143
143
144
9 Racines unitaires et cointgration

9.1 Introduction . . . . . . . . . . . . .
9.2 Tests de racine unitaire en panel .
9.2.1 Test de Levin-lin-Chu . . .
9.2.2 Test de Im, Pesaran et Shin
9.2.3 Le test de Madalla et Wu .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
147
147
151
152
153
153
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10 Panels spacials
155
Bibliographie
161
Chapitre 1
Introduction
mco = (Z > Z)1 Z > y = (Z > Z)1 Z > (Z + )
b = (Z > BZ)1 Z > By = (Z > BZ)1 Z > B(Z + )
w = (X > W X)1 X > W y = (X > W X)1 X > W (j + X + )
mco = (Z > Z)1 Z >
b = (Z > BZ)1 Z > B)
w = (X > W X)1 X > W
Mmco = I Z(Z > Z)1 Z >
Mb = I Z(Z > BZ)1 Z > B
X(X > W X)1 X > W )
Mw = (I J)(I
= 2 I + 2 U
qw
qb
=
=
e = M
e> W e = > M > W M = tr(M > W M > )
e> Be = > M > BM = tr(M > BM > )
E(
qw ) = tr(M > W M ) = 2 tr(M > W M ) + 2 tr(M > W M U )
E(
qb ) = tr(M > BM ) = 2 tr(M > BM ) + 2 tr(M > BM U )

1.1
tr(M > W M ) tr(M > W M U )

tr(M > BM ) tr(M > BM U )
2
2

=
E(
qw )
E(
qb )
Quest-ce quun panel
On appelle panel une base de donnes dans laquelle deux dimensions sont prsentes :
une dimension individuelle (au sens large) : il peut sagir de personnes physiques,
de mnages, dentreprises, de pays, etc. On note ces individus n = 1 . . . N .
une dimension temporelle : il existe plusieurs observations au cours du temps de
ces individus. On note les priodes dobservations t = 1 . . . T .
Les panels sont donc une combinaison de srie temporelle et de coupe transversale ;
ils permettent de combler en partie les limites de ces deux types dchantillon :
le fait quil y ait deux dimensions dans ces donnes permet daugmenter le
nombre dobservations et la variabilit de lchantillon, ce qui permet dobtenir
des estimations plus prcises,
lhtrognit individuelle peut tre prise en compte de manire beaucoup plus
satisfaisante dans le cadre de donnes de panel car on dispose de plusieurs observations des mmes individus.
Un panel est caractris par ses deux dimensions, transversale (N ) et temporelle
(T ). En fonction de ces dimensions, on peut distinguer grossirement deux types
de panel :
les panels micros N >> T : le nombre dindividus observs est trs important (typiquement plusieurs milliers) et le nombre dobservations temporelles
est faible (4-5 par exemple). Pour ce type de panel, il nest pas possible de
raliser des estimations pour chaque individu et laccent est mis sur des problmatiques de micro-conomtrie : htrognit individuelle, corrlation entre
lerreur et les variables explicatives,
les panels macros : le nombre dindividus est faible et le nombre de sries temporelles est lev, typiquement N et T sont du mme ordre de grandeur, la
ou quelques dizaines. il sagit par exemple de donnes de lOCDE, deurostat
ou dautres organismes internationaux concernant des groupes de pays ou de
rgions. Dans ce cas, lestimation sur donnes de panel est une alternative
une estimation sur une srie chronologique pour un seul individu. On retrouve
dans ce cas les proccupations prsentes dans lanalyse contemporaine des sries
temporelles, en particulier la dtection de racines unitaires et de relations de
cointgration.
Un panel est dit cylindr lorsque chaque individu est observ pour le mme ensemble de priodes. Dans ce cas, la taille totale de lchantillon est simplement
N T , alors que, P
dans le cas gnral, en notant Tn le nombre dobservations pour
N
lindividu n, on a n=1 Tn . Trs souvent, les modles dconomtrie de panel sont
prsents dans le cas ou le panel est cylindr et il est indiqu que lextension au
cas des panels non cylindrs est vidente. Ce point de vue nous semble abusif,
Chapitre 1. Introduction
lestimation sur des donnes cylindres tant trs souvent beaucoup plus simple
que sur des donnes non cylindres.
La littrature thorique et empirique concernant lconomtrie des donnes de
panel est trs abondante. Tous les manuels dconomtrie consacrent au moins un
chapitre ce sujet, dautres y sont spcifiquement consacrs, en particulier Baltagi
(2001), Sevestre (2002), Pirotte (2011) et Hsiao (2003)
R ne permet pas danalyser simplement les donnes de panel. La librairie plm
(Croissant & Millo, 2008) fournit un ensemble de fonctions qui permettent de
grer correctement les donnes de panel et qui proposent les principales mthodes
destimation et de test.
1.2
Organisation des donnes de panel sous R
La librairie plm est charge simplement en entrant la commande suivante :

> library("plm")
Avec R, il est dusage de stocker les donnes dans un data.frame , qui est une
liste contenant un ensemble de vecteurs qui peuvent tre de modes diffrents, mais
qui sont de mme longueur, ce qui permet une reprsentation tabulaire. Cette
structure est adapte aux coupes transversales mais elle est insuffisante car elle est
incapable de rendre compte de la double dimension (individuelle et temporelle) des
donnes de panel. A cet effet, plm fournit une fonction appele pdata.frame qui
prend pour argument principal un data.frame et qui renvoie un objet de classe
pdata.frame . Il sagit dun tableau de donnes auquel est ajout une information
sur les deux dimensions du panel. Les deux arguments obligatoires de cette fonction
sont data (un tableau de donnes) et index . Ce dernier renseigne la structure des
donnes. Il peut sagir :
dune chane de caractre : dans ce cas, il sagit du nom de la variable qui contient
lindex individuel,
dun vecteur de deux chanes de caractres, les deux variables qui contiennent
les index individuels et temporels,
dun entier, le nombre dindividus ; le panel doit dans ce cas tre cylindr et les
observations classes dabord par individu.
drop.index est un dernier argument optionnel logique ; sil est gal TRUE, les
index sont retirs du tableau de donnes.
A titre dexemple, nous allons analyser les donnes Grunfeld qui figurent dans la
librairie AER. Ces donnes indiquent linvestissement (invest), la valeur (value)
et le stock de capital (capital) de 10 entreprises amricaines pour 20 ans (de 1935
1954). Nous en prendrons pour linstant un petit sous-ensemble, constitu de
deux firmes pour trois ans.
>
>
>
>
data("Grunfeld", package = "AER")

Gr <- pdata.frame(Grunfeld, index = c("firm", "year"), drop.index = TRUE)
smallGr <- subset(Grunfeld, (firm %in% c("General Motors", "US Steel")) & year <= 1938)
smallGr
1
2
3
4
21
22
23
24
invest
317.6
391.8
410.6
257.7
209.9
355.3
469.9
262.3
value capital
firm year
3078.5
2.8 General Motors 1935
4661.7
5387.1
2792.2
1362.4
53.8
US Steel 1935
1807.1
50.5
US Steel 1936
2676.3
118.1
US Steel 1937
1801.9
260.2
US Steel 1938
> smallGr <- pdata.frame(smallGr, index=c("firm", "year"), drop.index = TRUE)

> smallGr
General Motors-1935
General Motors-1936
General Motors-1937
General Motors-1938
US Steel-1935
US Steel-1936
US Steel-1937
US Steel-1938
invest
317.6
391.8
410.6
257.7
209.9
355.3
469.9
262.3
value capital
3078.5
2.8
4661.7
52.6
5387.1
156.9
2792.2
209.2
1362.4
53.8
1807.1
50.5
2676.3
118.1
1801.9
260.2
Les informations concernant la dimension de ces donnes de panel peuvent tre

extraites en utilisant la fonction pdim :
> pdim(smallGr)
Balanced Panel: n=2, T=4, N=8
Les index peuvent tre extraits en utilisant la fonction index . Par dfaut, les deux
index sont renvoys, mais on peut indiquer avec un second argument which le
ou les index que lon souhaite extraire en indiquant soit un nom, soit un index
numrique (1 pour lindex individuel, 2 pour lindex temporel)
> index(smallGr)
1
2
3
4
21
22
23
24
firm
General Motors
General Motors
General Motors
General Motors
US Steel
US Steel
US Steel
US Steel
year
1935
1936
1937
1938
1935
1936
1937
1938
> index(smallGr, "firm")
[1] General Motors General Motors General Motors General Motors US Steel
[6] US Steel
US Steel
US Steel
Levels: General Motors US Steel
> index(smallGr, 2)
[1] 1935 1936 1937 1938 1935 1936 1937 1938

Levels: 1935 1936 1937 1938
Notons que les index peuvent galement tre extraits des sries contenues dans un
pdata.frame :
> z <- smallGr$invest
> index(z)
1
2
3
4
21
22
23
24
firm
General Motors
General Motors
General Motors
General Motors
US Steel
US Steel
US Steel
US Steel
year
1935
1936
1937
1938
1935
1936
1937
1938
On peut galement reprsenter ces sries sous forme matricielle en appliquant la

mthode as.matrix une srie :
> as.matrix(z)
1935 1936 1937 1938

General Motors 317.6 391.8 410.6 257.7
US Steel
209.9 355.3 469.9 262.3
1.3
Mesure de la variabilit dans un panel
Pour une coupe transversale ou une srie chronologique, une variable de lchantillon peut tre note xi avec i = 1 . . . I lindice de lobservation. La moyenne
arithmtique de la variable est :
I
x
=
1X
xi
I i=1
La variabilit de la variable est la somme des carts quadratiques par rapport la

moyenne empirique :
Sxx =
I
I
X
X
(xi x
)2 =
x2i I x
i=1
i=1
La variance empirique est obtenue en divisant cette expression par I (ou par I 1
pour corriger du nombre de degrs de libert).
Dans un panel, la variable doit tre doublement indice, par convention dabord
par lindice individuel (n = 1 . . . N ), puis par lindice temporel (t = 1 . . . T ) : xnt .
Trois types de moyenne empiriques peuvent tre calcules :
, qui est la moyenne arithmtique de toutes
la moyenne globale, que lon notera x
les observations (pour tous les individus et pour lensemble des priodes) :
PN
=
x
PT
n=1
t=1
xnt
NT
les N moyennes individuelles, notes x

n. que lon obtient en faisant la moyenne
pour chaque individu des observations pour les diffrentes priodes :
PT
t=1
x
n. =
xnt
les T moyennes temporelles, notes x

.t que lon obtient en faisant la moyenne
pour chaque priode des observations pour les diffrents individus :
PN
x
.t =
n=1
xnt
Ces diffrentes moyennes permettent dobtenir diffrentes mesures (et diffrentes

dcompositions) de la variabilit dans un panel. La variabilit totale est la somme
quadratique des carts par rapport la moyenne globale :
Sxx =
N X
T
X
)2
(xnt x
n=1 t=1
On parle de variabilit intra (within en anglais) lorsque lon mesure la variabilit

au sein dune mme dimension (par dfaut la dimension individuelle). Ainsi, la
variabilit intra-individuelle est obtenue en sommant les carts quadratiques par
rapport la moyenne individuelle :
wn
Sxx
=
N X
T
X
(xnt x
n. )2
n=1 t=1
La variabilit inter (between en anglais) mesure la variabilit entre lments

dune dimension (par dfaut la dimension individuelle). On doit donc ici sommer
les carts quadratiques entre les moyennes individuelles et la moyenne globale :
bn
Sxx
N X
T
N
X
X
2
)2
=
(
xn. x) = T
(
xn. x
n=1 t=1
n=1
On peut montrer aisment que la variabilit totale est la somme des variabilits
intra et inter individuelles. En effet :
Sxx
PN PT
2
=
n=1 Pt=1 (xnt x)
PN
T
)]2
=
[(xnt x
n. ) + (
xn. x
n=1

PN
PTt=1
)2 + 2(xnt x
) 2
=
n. )2 + (
xn. x
n. )(
xn. x
nt x
n=1
t=1 (xP
P
N
T
bn
wn
)
+ 2 n=1 t=1 (xnt x
+ Sxx
n. )(
xn. x
= Sxx
PN
P
) Tt=1 (xnt x
Or, ce dernier terme est nul, car on peut lcrire n=1 (
xn. x
n. )
et la somme pour un individu des carts par rapport la moyenne individuelle
est ncessairement nulle. De la mme manire, on peut dcomposer la variabilit
totale en une variabilit within et between temporelle :
wt
=
Sxx
T
N X
X
(xnt x
.t )2
n=1 t=1
bt
Sxx
=
T
N X
X
)2 = N
(
x.t x
n=1 t=1
T
X
)2
(
x.t x
t=1
et
bt
wt
+ Sxx
Sxx = Sxx
Enfin, la variabilit double within scrit de la manire suivante :

wnt
Sxx
=
N X
T
X
)2
(xnt x
n. xt + x
n=1 t=1
Soit encore :
wnt
Sxx
PN PT
) (xt x
)]2
xn. x
=
n=1
t=1 [(xnt x) (
bn
bt
= Sxx Sxx
Sxx
car on montre aisment que les doubles sommes des termes croiss sont nulles
laide du mme argument que prcdemment. On obtient donc une troisime
dcomposition de la variabilit :
wnt
bn
bt
Sxx = Sxx
+ Sxx
+ Sxx
plm fournit des fonctions qui permettent de calculer simplement les transformations prcdemment dcrites : Within calcule la transformation within alors que

Between et between calculent la transformation between ; la diffrence entre
ces deux dernires fonctions est que la premire renvoie un vecteur de longueur
N T , chaque moyenne individuelle tant rpte T fois alors que la seconde
renvoie un vecteur de longueur N .
Avec la variable invest pour le petit sous-ensemble des donnes Grunfeld , on
obtient :
> between(z)
General Motors
344.425
US Steel
324.350
> Between(z)
General Motors General Motors General Motors General Motors

344.425
344.425
344.425
344.425
US Steel
US Steel
US Steel
324.350
324.350
324.350
US Steel
324.350
> Within(z)
General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

-26.825
47.375
66.175
-86.725
US Steel-1935
US Steel-1936
US Steel-1937
US Steel-1938
-114.450
30.950
145.550
-62.050
Ces transformations sont par dfaut ralises sur la dimension individuelle. Les
mmes oprations peuvent tre effectues sur la dimension temporelle en fixant le
second argument effect "time" :
> between(z, effect = "time")
1935
1936
1937
1938
263.75 373.55 440.25 260.00
> Within(z, effect = "time")
General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

53.85
18.25
-29.65
-2.30
US Steel-1935
US Steel-1936
US Steel-1937
US Steel-1938
-53.85
-18.25
29.65
2.30
Les diffrentes mesures de la variabilit sont alors aisment obtenues en utilisant

ces fonctions et en appliquant les formules prcdement dcrites (pour plus de
lisibilit, on divise la variable par 1E+03, linvestissement tant alors mesur en
milliards de dollars)
>
>
>
>
>
>
>
z <- Gr$invest / 1E+03

Stot <- sum( (z - mean(z)) ^ 2)
SWn <- sum( Within(z) ^ 2)
SBn <- sum( (Between(z) - mean(Between(z))) ^ 2)
SWt <- sum( Within(z, effect = "time") ^ 2)
SBt <- sum( (Between(z, effect = "time") - mean(Between(z, effect = "time")))^ 2)
round(c(Stot, SWn, SBn, SWt, SBt), 2)
[1] 9.71 2.24 7.47 9.14 0.57
On vrifie ensuite les deux formules de dcomposition de la variabilit.

> SWn + SBn
[1] 9.711985
> SWt + SBt
[1] 9.711985
Enfin, on peut analyser plus prcisment limportance des diffrentes sources de

variabilit en calculant la part de la variance inter dans la variance totale :
> SBn / Stot
[1] 0.768889
> SBt / Stot
[1] 0.05893524
ce qui peut tre automatiquement ralis en appliquant la mthode summary

une srie :
> summary(z)
total sum of squares : 9.711985
id
time
0.76888896 0.05893524
On constate, et cest le cas la plupart du temps, que la variabilit dans lchantillon est trs largement imputable aux diffrences entre individus. Ce rsultat est
galement illustr par la figure 1.1.
1.5
10
0.5
1.0
0.0
General Motors
Chrysler
IBM
Goodyear
Fig. 1.1 Variation intra et inter individuelle pour les donnes Grunfeld
1.4
Des transformations utiles
Les mesures de variabilit que nous avons mises en vidence utilisent diffrentes
moyennes et des donnes transformes en cart par rapport ces diffrentes moyennes.
Une expression compacte de ces transformations peut tre obtenue en utilisant diffrents oprateurs matriciels, et en particulier le produit de Kronecker.
Le produit de Kronecker de deux matrices, not A B, correspond la matrice
obtenue en multipliant
chaque
lment de A par B. Si, par exemple, on a B =

1 0
2 4
et A = 0 0.5 , alors :
6 8
2 1
1
AB = 0
2

0
2
0.5
6
1

1

4
=
0
2
6
2
6
2
6

4
2
0
8
6
4
2
0.5
8
6
4
2
1
8
6

4
8
4
8
4
8
2
6
0
0
4
12
Afin de mettre en vidence ces transformations, on notera Ik la matrice identit

de dimension k, jl un vecteur de 1 de longueur l et Jl = jl jl> une matrice de 1
de dimensions l l. Dans ce qui suit, on supposera dune part que les observations
sont classes dabord par individu, puis par priode et dautre part que le panel
est cylindr. On a dans ce cas une variable x qui est reprsente par le vecteur de
longueur N T suivant :
4
8
0
0
8
16
0
0
1
3
2
6
11
x> = (x11 , x12 , . . . , x1T , x21 , x22 , . . . , x2T , . . . , xN 1 , xN 2 , . . . , xN T )

Pour obtenir la transformation inter-individuelle (between), on utilisera une matrice de transformation note Bn dfinie par :
Bn = In JT /T
Par exemple, pour N = 2 et T = 3, on a :
1
0
0
1
1
0
0
1
1/3
1/3
1/3
0
0
1

1 1 1 1 /3
1

1/3 1/3 1/3
1/3 1/3 1/3
1/3 1/3 1/3
1/3 1/3
0
0
0
1/3 1/3
0
0
0
1/3 1/3
0
0
0
0
0
1/3 1/3 1/3
0
0
1/3 1/3 1/3
0
0
1/3 1/3 1/3

On a alors :
(Bn x)> = (
x1 , x
1 , . . . , x
1 , x
2 , x
2 , . . . , x
2 , . . . , x
N. , x
N. , . . . , x
N. )
Pour obtenir la transformation inter-individuelle (within), on utilisera une matrice
de transformation note Wn dfinie par :
Wn = IN T In JT /T = IN T Bn
Ces deux matrices ont des proprits trs importantes :
elles sont symtriques, on a donc B > = B et W > = W ,
elles sont idempotentes, cest--dire que W W = W et B B = B. Considrons
par exemple loprateur between. Si on lapplique deux fois successivement x,
on obtient : (B B) x = B (B x). Cela revient calculer des moyennes
individuelles sur un vecteur contenant dj des moyennes individuelles, ce qui
laisse le vecteur inchang ; on a donc bien (B B) x = B x (le mme
raisonnement sapplique W ),
elles ralisent une dcomposition dun vecteur, cest--dire que Bx+W x = x.
En effet, W = I B. On a alors B x + W x = (B + W ) x = I x = x,
elles sont orthogonales, cest--dire que W > B = 0. En effet, en utilisant la
proprit de symtrie et par dfinition de W , on a : W > B = W B = (I B)
B = B B B = B B = 0.
12
Ces proprits indiquent que W et B ralisent une dcomposition orthogonale dun

vecteur x ; cela signifie quen multipliant x par chacune de ces matrices, on obtient
deux vecteurs qui se somment x (notion de dcomposition) et dont le produit
intrieur est nul (notion dorthogonalit).
1.5
Les diffrentes formes dhtrognit
On parle dhtrognit lorsque les individus (et/ou les priodes) prsentent des
diffrences systmatiques. Pour simplifier, nous ignorons pour linstant lhtrognit temporelle et nous raisonnons dans le cadre habituel du modle linaire
simple. On a donc le modle suivant :
y = + x +
Lhtrognit individuelle peut prendre diffrentes formes :

la moyenne de la variable explicative peut tre diffrente dun individu un
autre,
lordonne lorigine de la droite peut tre diffrente dun individu un autre,
la pente de la droite peut tre diffrente dun individu un autre.
Ces trois cas sont dune nature trs diffrente et ncessitent lutilisation de modles
spcifiques. Pour linstant, nous allons illustrer graphiquement ces trois formes
dhtrognit.
Fig. 1.2 Absence dhtrognit
Sur la figure 1.2, on constate que la seule forme dhtrognit entre les individus
correspond des niveaux moyens diffrents de la variable explicative, et donc de
13
la variable explique. En revanche, lensemble des points semblent correctement

aligns sur une mme droite. Le modle que lon devra estimer peut donc scrire :
ynt = + xnt + nt
Autrement dit, on se ramne un modle linaire standard, et la mthode destimation des moindres carrs ordinaires est approprie.
Fig. 1.3 Htrognit de niveau
Sur la figure 1.3, on constate que les points correspondant chaque individu
semblent aligns sur des droites parallles, cest--dire des droites dont les pentes
sont identiques, mais dont les ordonnes lorigine sont propres lindividu.
Dans ce cas, le modle estimer peut scrire sous la forme :
ynt = + xnt + nt avec nt = n + nt
et lordonne lorigine propre lindividu n scrit : + n . On est alors dans le
cadre du modle erreurs composes qui fera lobjet dun traitement dtaill dans
les deux section suivantes.
Sur la figure 1.4, on constate que les points correspondants chaque individu sont
aligns sur des droites diffrentes et non parallles. Dans ce cas, le modle estimer
scrit :
ynt = + n xnt + nt avec nt = n + nt
Les points correspondant lindividu n sont alors aligns sur une droite dordonne
lorigine +n et de pente n . Le modle appropri ce cas est le modle coefficients variables et une estimation correcte de ce modle ncessite une dimension
temporelle suffisamment longue.
14
Fig. 1.4 Htrognit de pentes
Chapitre 2
Le modle erreurs composes

Le modle erreurs composes est pertinent lorsque les pentes, cest--dire leffet
marginal des variables explicatives sur les variables expliques sont les mmes pour
lensemble des individus, les ordonnes lorigine tant a priori diffrentes. Il sagit
du modle de rfrence de lconomtrie des donnes de panel et ce chapitre en
prsente les principaux rsultats.
2.1
2.1.1
Notations et hypothses
Notations
Pour lobservation concernant lindividu n la priode t, le modle estimer scrit,

en notant ynt la variable explique xnt le vecteur des K variables explicatives,
nt lerreur du modle, la constante et le vecteur de paramtres associ aux
variables explicatives :
ynt = + x>
nt + nt
(2.1)
Dans certains cas, il sera plus clair de rassembler la constante et les pentes dans
le mme vecteur de coefficients. En notant > = (, > ) le vecteur complet de
>
paramtres estimer et znt
= (1, xnt ) le vecteur de variables explicatives associs,
le modle estimer se rcrit alors :
>
ynt = znt
+ nt
(2.2)
Pour le modle erreurs composes, lerreur est la somme de deux effets :

le premier, n est un effet spcifique lindividu n,
le second, nt est leffet rsiduel appel galement leffet idiosyncratique.
nt = n + nt
(2.3)
Pour lensemble de lchantillon, on notera y le vecteur contenant les valeurs de la

variable explique et X la matrice contenant les variables explicatives, en rangeant
16
les observations dabord par individu, puis par priode. Nous supposerons pour
linstant que le panel est cylindr, cest--dire que chaque individu est observ le
mme nombre de fois. Dans ce cas, y est un vecteur de longueur N T et X une
matrice de dimension N T K.
x11
x211 . . . xK
y11
11
y12
x112
x212 . . . xK
12
..
..
..
..
..
.
.
.
.
.
y1T
x1T x21T . . . xK
1T
2
K
y21
x21
x21 . . . x21
y22
x22
x222 . . . xK
22
..
..
..
.
..
..
.
.
y=
. et X = 1.
K
2
y2T
x
.
.
.
x
x
2T
2T
2T
.
.
..
..
..
..
..
.
.
.
K
2
yN 1
x1
N 1 xN 1 . . . xN 1
2
K
yN 2
x1
N 2 xN 2 . . . xN 2
.
.
..
..
..
..
..
.
.
.
yN T
x1N T
x2N T
...
xK
NT
En notant j un vecteur de 1 de longueur N T , on obtient :

y = j + X +
(2.4)
Dans le cas o on souhaite rassembler lensemble des coefficients, on note > =

(, > ) et Z = (j, X) et le modle estimer scrit :
y = Z +
(2.5)
est la somme dun vecteur de longueur N T contenant la composante idiosyncratique du terme derreur et de leffet individuel de longueur N dont chaque
lment est rpt T fois. On peut lexprimer sous la forme matricielle suivante :
= (IN jT ) +
(2.6)
Un modle estim sera caractris par des paramtre estims > = (

, > ) et par
un vecteur de rsidus .
y=
j + X +
(2.7)
y = Z +
(2.8)
La soustraction membre membre de (2.5) et (2.8) permet dcrire les rsidus

dun modle en fonction des erreurs :
= Z(
)
(2.9)
Chapitre 2. Modle erreurs composes
17
Pour obtenir une expression similaire en fonction de X et de , on utilise (2.4) et

(2.7) :
= (
)j X( )
La moyenne de cette expression est, en notant j = j/O :
j > = j> (
)j j > X( )
Dans un modle linaire avec constante, j > , qui est la moyenne des rsidus est
nul. En combinant les deux expressions prcdentes, on obtient :

X( )
= (I J)
(2.10)
avec J = jj > /O. Les expressions (2.9 et 2.10) seront utilises tout au long de ce
chaptre pour analyser les proprits des estimateurs.
2.1.2
Hypothses sur les termes derreur
On fait les hypothses suivantes concernant les termes derreurs :

Les esprances mathmatiques des deux termes derreurs sont supposes tre
nulles ; elles ne peuvent de toute faon pas tre identifies sil y a une constante
dans le modle,
les effets individuels n sont homoscdastiques et non corrls entre eux,
la composante idiosyncratique du terme derreur nt est galement homoscdastique et non auto-corrle,
il ny a pas de corrlation entre les deux composantes du terme derreur.
Dans ce cas, la matrice de covariance des erreurs est caractrise uniquement par
les variances des deux composantes du terme derreur, cest--dire par les deux
paramtres 2 et 2 . On peut alors calculer les variances et les covariances des
termes derreur :
la variance dun terme derreur scrit : E(2nt ) = 2 + 2 ,
la covariance entre deux termes derreur pour le mme individu (mais pour des
priodes diffrentes) scrit : E(nt ns ) = 2 ,
la covariance entre deux termes derreur pour deux individus diffrents est nulle,
mmes sils sont contemporains : E(nt mt ) = E(nt ms ) = 0.
Pour un individu donn n, la matrice de covariance du vecteur derreurs de lindividu n >
n = (n1 , n2 , . . . , nt ) scrit :
2
2
nn = E(n >
n ) = IT + J T
(2.11)
o JT = jT jT> est une matrice carr de 1. Concernant le vecteur derreurs pour

>
>
lensemble de lchantillon > = (>
1 , 2 , . . . , N ), la covariance est une matrice
carr de dimension N T constitue de sous-matrices de type E(n m ). Pour n = m,
lexpression de cette sous-matrice est donne par (2.11), pour n 6= m, compte tenu
18
des hypothses de non-corrlation des deux composantes du terme derreur, elle

est constitue uniquement de 0. La matrice de variance-covariance des erreurs
est donc une matrice bloc-diagonale, constitue de N blocs identiques donns par
(2.11) qui peut tre exprime sous la forme dun produit de Kronecker.

= IN 2 IT + 2 JT = 2 IN T + 2 (IN JT )
This matrix can also usefully expressed in terms of the two transformation matrices
within and between described in the chapter 1. In fact, B = T1 IN JT and W =
I B ; and introducing these two matrices in the expression of , we get :
= 2 (B + W ) + T 2 B
Soit finalement :
= 2 W + (T 2 + 2 )B = 2 W + 2 B
(2.12)
Enfin, nous supposerons tout au long de ce chaptre que les deux composantes du
terme derreur sont non-corrles avec les diffrentes variables explicatives :E( |
x) = E( | x) = 0.
2.2
Estimateurs des moindres carrs ordinaires
Dans le chapitre 1, nous avons montr que la variabilit dans un panel peut tre
dcompose en deux :
la variabilit between ou inter-individuelle qui correspond la variabilit des
variables du panel mesures en moyenne individuelle, soit zn ou sous forme
matricielle Bz.
la variabilit within ou intra-individuelle qui correspond la variabilit des variables du panel mesures en cart par rapport la moyenne individuelle, soit
znt zn ou sous forme matricielle W z = z Bz,
Trois estimations par les moindres carrs ordinaires sont donc envisageables : la
premire sur les donnes non-transformes, la seconde sur les donnes transformes en moyennes individuelles (modle between) et la troisime sur les donnes
transformes en carts par rapport la moyenne individuelle (modle within).
2.2.1
Estimateur des moindres carrs ordinaires sur les variables non transformes
Le modle estimer scrit y = j + X = Z + . En utilisant la seconde

formulation, la somme des carrs des rsidus scrit :
(y > > Z > )(y Z)
et les conditions de premier ordre pour un minimum sont :
Z > = 0
19
(2.13)
On rappelle que la premire colonne de Z est un vecteur de 1, associ , le

premier lment
P de
P . La premire de ces conditions de premier ordre implique
donc que
= n t nt /(N T ) = 0 ou encore que :
y =
+x
>
(2.14)
On retrouve ici le rsultat bien connu que la droite de rgression des moindres
carrs ordinaires passe ncessairement par le centre du nuage de points, cest-dire par le pointPde P
coordonnes (
x, y). Les K autres conditions de premier ordre
impliquent que n t nt xknt = 0, soit encore, le rsidu moyen tant nul :
XX
(
nt
)(xknt x
k )/(N T ) = 0
(2.15)
n
ce qui signifie que les covariances empiriques entre les rsidus et les diffrentes
variables explicatives sont nulles sur lchantillon. En rsolvant (2.13), on obtient
lestimateur des moindres carrs ordinaires du vecteur tendu des coefficients :
mco = (Z > Z)1 Z > y
(2.16)
En remplaant y par Z + dans (2.16), on obtient :

mco = (Z > Z)1 Z >
(2.17)
Pour obtenir lestimateur restreint aux coefficients associs aux variables explicatives, on dcompose Z en (j, X) et > en (
, > ) :

=
O
X >j
j>X
X >X
1
j>y
X >y
En appliquant la formule de linversion dune matrice partitionne, on obtient :

1
1/O + j > XF X > j/O2 j > XF/0
>
Z Z
=
F X > j/O
F
1
avec F = X > (I J)X

. J = jj > /O est une matrice carr de dimension O
renvoie un vecteur de longueur O
dont tous les lments sont gaux 1/O. Jz
dont tous les lments contiennent la moyenne z. On vrifie aisment que cette
matrice est idempotente. On obtient alors :
>
= X > (I J)X
1
X > (I J)y
(2.18)
cest--dire une formule similaire (2.16), mais avec des variables prmultiplies
cette transformation ayant pour effet denlever chaque variable sa
par I J,
moyenne. Concernant la constante estime
, on retrouve lexpression (2.14). Afin
20
danalyser les caractristiques de lestimateur des mco, on remplace dans (2.18) y

par j + X + :
>
= + X > (I J)X
1
X > (I J)

= ) si E X > (I J)
Lestimateur est donc sans biais (E()

= 0 cest--dire
si les covariances thoriques entre chaque variable explicative xk et sont toutes
nulles. Ce rsultat est rapprocher de lexpression (2.18) qui indique que lestimateur des mco est dtermin de telle manire que les covariances empiriques entre
les rsidus et les variables explicatives sont nulles. Lestimateur est convergent si
plim = . Cette expression scrit :
plim = + plim
T X > (I J)X
N
1
plim
T X > (I J)
N
Lestimateur est donc convergent si la matrice de covariance des variable explicative est dfinie et si la covariance entre les variances explicatives et les erreurs du
modle sont nulle. La variance de lestimateur des mco est donne par :

V (
mco ) = E (
mco )(
mco )> = (Z > Z)1 Z > Z(Z > Z)1
(2.19)
Notons que pour le modle erreur composes, la matrice de variance des erreurs
du modle ne se rduit pas un multiple de la matrice identit du fait de
la corrlation gnre par les effets individuels. Par consquent, la variance de
lestimateur des mco ne se rduit pas V (
mco ) = 2 (Z > Z)1 et lutilisation de
cette expression pour construire des statistiques de test conduirait une infrence
biaise.
En conclusion, lestimateur des mco, mme sil est non-biais et convergent prsente deux limites :
la premire est que lestimation de la variance utilise habituellement dans le
cadre de lestimation des mco nest pas adapte et doit tre remplace par une
expression plus complexe,
la seconde est que, dans ce contexte, le modle des mco nest pas le meilleur
estimateur linaire non-biais, ce qui signifie quil existe dautres estimateurs
linaires non-biaiss plus efficaces.
2.2.2
Lestimateur between
Lestimateur between est lestimateur des mco appliqu au modle pr-multipli

par B, cest--dire transform en moyennes individuelles.
By = BZ + B = j + BX + B
Notons que les lments du modle qui ne prsentent pas de variation intraindividuelle ne sont pas affects par cette transformation : il sagit de la colonne
de 1 associe la constante, de la matrice (IN jT ) associe aux effets individuels
21
et galement aux ventuelles variables explicatives ne prsentant aucune variation

intra-inviduelle (le genre dans un chantillon dindividus par exemple). Notons
galement que les N T observations de ce modle sont en fait constitues de N
observations de moyennes individuelles rptes T fois. En utilisant, comme dans
le cas de lestimateur des mco, la formule de linverse dune matrice partitione,
lestimateur between scrit :
>
b = X > (B J)X
1
X > (B J)y
(2.20)
La variance de est obtenue en remplaant y par j + X + :

>
b = X > (B J)X
1
X > (B J)

> 1 X > (B J)(B
> 1
V b = X > (B J)X
J)X
X > (B J)X
= 2 (B J).
Par
Or, lexpression d donne par (2.12) implique que (B J)
consquent, lexpression de la variance du modle between se ramne :

> 1
V b = 2 X > (B J)X
(2.21)
Pour le vecteur de coefficients tendu la constante , lestimateur between et sa
variance scrivent :
b = Z > BZ >
V (
b ) = 2
1
Z > By
1
Z > BZ >
(2.22)
(2.23)
Pour estimer 2 , on part de la somme des carrs des rsidus du modle between
estim : qb = > B
.

B
= B BZ(Z > BZ)1 Z > B B = M B
La matrice M est idempotente et sa trace est tr(M ) = tr(B)tr(IK+1 ) = N K
1. On a donc qb = > BM M B et E(
qb ) = E(tr(> BM B)) = E(tr(BM B> )) =
2
tr(BM B)) = tr(M ) Lestimateur sans biais de 2 est donc
2 = qb /(N K
1). Celle renvoye par le logiciel est : qb /(O K 1) et la matrice de covariance
des coefficients renvoye doit donc tre multiplie par (O K 1)/(N K 1).
2.2.3
Lestimateur within
Lestimateur within est obtenu en appliquant lestimateur des mco au modle

prmultipli par la matrice W .
W y = W (j + X + ) = W X + W
La transformation within se traduit par une limination du vecteur de 1 associ
la constante ainsi qu la matrice associe au vecteur deffets individuels. Elle se
traduit galement par llimination des variables sans variation intra-individuelle.
22
Lapplication de lestimateur des mco sur le modle transform abouti lestimateur within :
w = X > W X >
1
X >W y
(2.24)
La variance de w scrit :

1 >
1
X W W X X > W X >
V w = X > W X >
Or, W = W ( W + B) = W . La transformation within introduit donc une
corrlation entre les erreurs du modle. Lexpression de la variance du modle
within se ramne :

1
V w = 2 X > W X >
(2.25)
et on retrouve donc, malgr cette corrlation, lexpression classique de la variance.
Pour estimer 2 , on utilise la somme des carrs des rsidus du modle within
estim : qw > W

W = W W X(X > W X)1 X > W W = M W
La matrice M est idempotente et sa trace est tr(M ) = tr(W )tr(IK ) = ON K.
On a donc qw = > W M M W et E(
qw ) = E(tr(> W M W )) = E(tr(W M W > )) =
2
2 = qw /(O
tr(W M W )) = tr(M ). Lestimateur sans biais de 2 est donc
N K), alors que celle renvoye par le logiciel est : qw /(O K 1). La matrice de
covariance des coefficients renvoye doit donc tre multiplie par (O K 1)/(O
N K).
Le modle within est galement appel modle effets fixes, car il est quivalent
un modle linaire dans lequel les effets individuels sont estims et donc considrs
comme des paramtres fixes. Ce dernier modle scrit :
y = X + (IN jT ) +
o est dsormais un vecteur de paramtres estimer, il y a donc au total N + K
paramtres estimer. Lestimation du modle sous cette forme est possible si N
nest pas trop grand. En revanche, sur un panel micro de grande taille, elle devient
rapidement impossible.
Lquivalence entre les deux modles peut tre tablie en utilisant le thorme de
Frish-Waugh ou en utilisant la formule de linverse dune matrice partitionne.
Le thorme de Frish-Waugh indique quil est quivalent destimer y en fonction
dun ensemble de variables explicatives X1 , X2 ou destimer les rsidus destimation
de y en fonction de X2 en fonction des rsidus destimation de X1 en fonction de
X2 . Lapplication du thorme de Frish-Waugh dans notre contexte consiste
rgresser chaque variable par rapport X2 = IN jT et rcuprer les rsidus.
Ici, pour chaque observation, le rsidu scrit znt n . Or, la condition de premier
ordre de la minimisation de la somme des carrs des rsidus est X2> = 0. Or,
23
X2 tant ici une matrice qui slectionne les individus, on obtient pour chaque
individu :
T
X
t=1
(znt n ) =
T
X
znt T n = 0
t=1
Par consquent, on a n = zn. et les rsidus destimation sont donc les carts
de la variable par rapport sa moyenne individuelle. Par consquent, daprs le
thorme de Frish-Waugh, le modle effets fixe peut tre estim en appliquant
lestimateur des moindres carrs ordinaires aux variables transformes en cart par
rapport la moyenne individuelle, cest--dire en estimant par les moindres carrs
ordinaires W y en fonction de W X.
La diffrence entre les deux estimations est que, dans le second cas, les effets
individuels ne sont pas directement estims. On peut malgr tout les rcuprer
aisment car yn. =

n + x
>
n. . On a donc :
n = yn. x
>
n.
Dans le cas o on souhaite dfinir les effets individuels comme tant de moyenne
nulle dans lchantillon, on dfinit la constante gnrale
= y x
> et on obtient
)>
pour chaque individu de lchantillon n =
n
= (
yn. y) (
xn. x
2.3
Lestimateur des moindres carrs gnraliss
2.3.1
Prsentation de lestimateur des mcg
Dans le cas o les erreurs sont non corrles avec les variables explicatives mais
sont caractrises par une matrice de covariance qui nest pas un multiple de la
matrice identit, lestimateur adapt est celui des moindres carrs gnraliss. Cet
estimateur scrit :
gls = Z > 1 Z
1
Z > 1 y
(2.26)
Afin de calculer la variance de mcg , on remplace comme prcdemment y par

Z + . On obtient alors :
mcg = Z > 1 Z
1
Z > 1
En utilisant un raisonnement similaire (2.19), on obtient la variance de lestimateur :

V (
gls )
=
=
1 > 1

1
X > 1 X
X E > 1 X X > 1 X
1
X > 1 X
(2.27)
Les hypothses faites dans ce chaptre concernant les termes derreur induisent que
la matrice de covariance des erreurs est donne par (2.12), (2 W + (T 2 +2 )B)
24
qui ne dpend que de deux paramtres, les variances des deux composantes du
terme derreur (2 et 2 ). Nous avons montr dans le chaptre 1 que ces deux
matrices sont idempotentes (BB = 0 et W W = 0) et orthogonales (BW = 0).
Lexpression des puissances de est alors particulirement simple :
r = T 2 + 2
r
B + 2 W
(2.28)
que lon peut aisment vrifier par exemple pour r = 2. Ce rsultat est galement
valable pour r < 0 et r rationnel, on a ainsi :
1 =
1
1
B + 2W
T 2 +
et lestimateur des moindres carrs gnraliss du modle erreurs composes et

sa variance sont donc :

gls =
1

1 >
1 >
1 >
1 >
Z
W
Z
+
Z
BZ
Z
W
y
+
Z
By
2
2
2
2
1

1 >
1 >
Z W Z + 2 Z BZ
V (
gls ) =
2
(2.29)
(2.30)
Pour le vecteur de coefficients sans la constante, on obtient :
gls =
gls
1

1 >
1 >
X W y + 2 X (B J)y
2
(2.31)

1
1 >
1
=
X W X + 2 X > (B J)X
(2.32)
2
1 >
1
X W X + 2 X > (B J)X
2
La dimension de la matrice est donne par la taille de lchantillon. La formule

matricielle (2.26) nest donc pas praticable pour calculer lestimateur lorsque la
taille de lchantillon est importante. En pratique, on dtermine lexpression de la
matrice C qui vrifie C > C = 1 et on lutilise pour transformer les diffrentes
variables du modle. En notant y = Cy et Z = CZ les variables transformes,
lestimation par les moindres carrs du modle sur donnes transformes scrit :
= (Z > Z )1 Z > y = (Z > C > CZ)1 Z > C > Cy = (Z > 1 Z)1 Z > 1 y
qui correspond bien lestimateur des mcg donn par (??). On obtient aisment
lexpression de la matrice C en utilisant lquation (2.28) :
1
1
C = 0.5 = q
B+
W
T +
25
Lestimateur des moindres carrs gnraliss peut alors tre obtenu en estimant
par la mthode des moindres carrs ordinaires un modle pour lequel toutes les
variables (explicatives et explique) ont t transformes en les pr-multipliant par
0.5 , ou plus simplement 0.5 . En notant 2 = T 2 + 2 et = , cette
transformation consiste en une combinaison linaire des transformations between
et within de la variable, les pondrations tant respectivement de et de 1. Par
consquent, la variable transforme scrit :
xnt =
xn. + (xnt x
n. ) = xnt (1 )
xn.
Pour estimer ce modle, il faut connatre le paramtre de la transformation =
2 2 , qui dpend des variances des deux composantes du terme derreur, ou
T +
plus prcisment de leur rapport. En effet, on a :

= r
1+T
2.3.2
(2.33)
2
Estimation des variances des composantes du terme

derreur
Ces paramtres tant en pratique inconnus, on utilise des estimations de ceux-ci

bass sur les rsidus dun modle convergent ; on parle alors de mthode destimation des moindres carrs gnraliss ralisables (fgls pour feasible generalized
least squares par la suite).
Considrons les erreurs du modle (nt ), leurs moyennes individuelles (
n. ) et leurs
carts par rapport la moyenne individuelle (nt n. ). On a, par dfinition,
V (nt ) = 2 + 2 . Concernant la moyenne individuelle, on obtient :
n. =
T
T
1X
1X
nt = n +
nt
T t=1
T t=1
1 2
= 12 /T
T
La variance de lcart par rapport la moyenne individuelle sobtient plus facilement en isolant les termes en nt :
V (
n. ) = 2 +

T
1X
1
1X
nt n. = nt
nt = 1
nt
st
T t=1
T
T
s6=t
la somme contenant alors T 1 termes. La variance scrit alors :

V (nt n. ) =
Soit finalement :
1
1
T
2
2 +
1
(T 1)2
T2
26
V (nt n. ) =
T 1 2
Si les taient observs, les estimateurs naturels des deux variances 2 et 2

seraient alors :
12 = T
PN
2n.
n=1
N
PN
=T
n=1
PT
2n.
t= 1
T =T
PT
> B
> B
T =
N
N
and
T
=
T 1
n=1
PT
(nt n. )
T =
N
t=1
n=1
(nt n. )
> W
=
N (T 1)
N (T 1)
t=1
cest--dire des estimateurs bass sur les normes des erreurs transformes avec les
oprateurs between et within.
Les erreurs ne sont bien entendu pas observes, mais une estimation convergente
des variances estimes peut tre obtenue en remplaant les erreurs par les rsidus
obtenus dans le cadre dune estimation convergente du modle. Parmi les nombreux
estimateurs de ce type envisageables, le plus courament utilis est celui de Swamy
& Arora (1972). Il consiste utiliser les rsidus du modle between pour estimer
2 :
2 =
> B

N K 1
et ceux du modle within pour estimer 2 :
2 =
> W
N (T 1) K
On peut ensuite obtenir lestimation de la variance des effets individuels :
2 =
2.4
2
2
T
Comparaison des estimateurs
Pour linstant, on dispose de 4 estimateurs possibles du mme modle : le modle

between et le modle within nexploitent quune seule dimension de la variabilit
de lchantillon, alors que les moindres carrs ordinaires et les moindres carrs
gnraliss utilisent les deux.
Notons tout dabord que, si lhypothse dabsence de corrlation entre les erreurs
et les variables explicatives est vrifie, tous ces modles sont non biaiss et convergents ; autrement dit, on peut sattendre ce quils aboutissent des estimations
relativement similaires, en tous cas si lchantillon est grand.
27
Nous commencerons par analyser les relations existant entre ces diffrents estimateurs, puis nous comparerons leurs variances.
2.4.1
Relations entre les estimateurs
On peut sattendre ce que les estimateurs des mco et des mcg donnent des
rsultats intermdiaires entre les estimateurs within et between dans la mesure o
ils intgrent les deux sources de variabilit. A partir de lquation (2.31), on peut
crire lestimateur des moindres carrs gnraliss sous la forme suivante :
mcg = X > W X + 2 X > (B J)X
1
X > W y + 2 X > (B J)y
En utilisant (2.20) et (2.24), on peut alors exprimer mcg comme une moyenne
pondre des estimateurs within et between.
mcg = X > W X + 2 X > (B J)X
1
b
X > W X w + 2 X > (B J)X
Il en est de mme pour lestimateur des moindres carrs ordinaires mco qui correspond au prcdent dans le cas particulier o = 1.

X 1 X > W X w + X > (B J)X
b
mco = X > W X + X > (B J)
Dans le cas de lestimateur des mco, les pondrations sont trs intuitives puisquil
sagit des parts de la variance observe intra et inter-individuelle. Dans le cas du
modle des mcg, les pondrations intgrent non seulement la part des variances
des variables explicatives, mais galement celle des variances des erreurs, via le
paramtres . De manire gnrale ( 1), ce modle accorde moins de poids
la dimension between que le prcdent et admet deux cas particuliers :
0 ; cela signifie que est petit par rapport . Dans ce cas, lestimateur
des mcg converge vers lestimateur within,
1 ; cela signifie que est grand par rapport . Dans ce cas, lestimateur
des mcg converge vers lestimateur des mco.
La relation entre les diffrents estimateurs peut galement tre illustre par le fait
que lestimateur des mcg peut tre obtenu en empilant les deux transformations
within et between du modle :

Wy
WZ
W
=
+
(2.34)
By
BZ
B
La matrice de covariance des erreurs de ce modle empil est :
2

W
0
0
2 B
(2.35)
En appliquant les moindres carrs gnraliss 2.34, on retrouve lexpression de

lestimateur des mcg (equation 2.29).
28
2.4.2
Comparaison des variances
A partir de lquation (2.32), on peut crire la variance de lestimateur des mcg

sous la forme :

1
V gls = 2 X > W X + 2 X > BX
(2.36)
La variance de lestimateur within tant 2 (X > W X)1 , V(w ) V(mcg ) est
ncessairement une matrice dfinie positive et lestimateur des mcg est donc plus
efficace que lestimateur within. De mme, lquation (2.21) indique que la variance
1 et donc V(b ) V(mcg ) est
de lestimateur between peut scrire 2 (2 X > BX)
galement une matrice dfinie positive.
2.5
Exemples dapplication
La librairie plm fournit la fonction plm qui permet destimer les estimateurs dcrits
dans ce chaptre.
2.5.1
Un exemple complet destimation avec
plm
Pour illustrer lestimation des estimateurs prcdemment prsents, nous utilisons

les donnes LargeBanks de la librairie pder. Ces donnes concernent les cots de
production de 128 grandes banques amricaines pour la priode 1989-2000. cost
est le cot total de production en logarithmes et assets le niveau de production en
logarithmes. Nous souhaitons estimer une fonction de cot log-linaire en utilisant
le niveau de production comme unique variable.
> data("LargeBanks", package = "pder")
> LB <- pdata.frame(LargeBanks)
La fonction permettant de raliser lestimation du modle sappelle plm . Ces

arguments principaux sont :
formula , la description symbolique du modle,
data , le tableau de donnes qui peut tre soit un tableau de donnes ordinaire,
soit un pdata.frame ; dans le premier cas, largument index peut tre ajout
de manire indiquer les variables contenant les index individuel et temporel,
model , le modle estimer : "within", "between", "pooling" (cest--dire le
modle des moindres carrs ordinaires) et "random" (le modle des moindres
carrs gnraliss).
random.method , pour le modle des mcg, plusieurs estimateurs sont disponibles, on utilisera ici celui de Swamy & Arora (1972) ; comme il sagit du choix
par dfaut, il nest pas indispensable de renseigner cet argument en le fixant
"swar".
On estime ensuite les diffrents modles :
>
>
>
>
>
costbanks <- cost ~ assets

banks.pooling <- plm(costbanks, LB, model = "pooling")
banks.within <- plm(costbanks, LB, model = "within")
banks.between <- plm(costbanks, LB, model = "between")
banks.random <- plm(costbanks, LB, model = "random")
29
Limpression simple ou dtaille de lestimation est obtenue comme cest lusage

avec R en appliquant les mthodes print et summary lobjet contenant le modle
estim. Par exemple, pour le modle des mcg, on obtient :
> banks.random
Model Formula: cost ~ assets

Coefficients:
(Intercept)
-0.2952
assets
1.0286
> summary(banks.random)
Oneway (individual) effect Random Effect Model

(Swamy-Aroras transformation)
Call:
plm(formula = costbanks, data = LB, model = "random")
Effects:
var std.dev share
idiosyncratic 0.03715 0.19274 0.738
individual
0.01316 0.11473 0.262
theta: 0.5636
Residuals :
Min. 1st Qu. Median 3rd Qu.
-0.6200 -0.0836 -0.0169 0.0598
Max.
4.1800
Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -0.295205
0.100583 -2.9349 0.003386 **
assets
1.028565
0.007185 143.1548 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares:
823.87
Residual Sum of Squares: 57.375
R-Squared
: 0.93036
Adj. R-Squared : 0.92915
F-statistic: 20493.3 on 1 and 1534 DF, p-value: < 2.22e-16
La partie du rsultat qui concerne lestimation des deux composantes du terme

derreur peut galement tre obtenue en appliquant la fonction ercomp soit au
modle des mcg estim, soit en utilisant une interface formula - data .
> ercomp(cost ~ assets, LB)
> ercomp(banks.random)
30
Les rsultats indiquent que la part de la variance due la prsence de leffet

individuel est denviron un quart. Le paramtre appel correspond la part de
la moyenne individuelle qui est retire de chaque variable pour lestimation du
modle mcg. Elle correspond ici 56%. Lestimateur mcg est donc ici peu prs
mi-chemin entre lestimateur mco ( = 0) et lestimateur within ( = 1).
Pour le modle within, la mthode fixef permet dextraire les effets individuels.
Trois versions des effets individuels peuvent tre obtenus selon largument type
pass la fonction :
level, la valeur par dfaut, renvoie les ordonnes lorigine, cest--dire
+ n ,
dfirst renvoie les effets individuels en carts par rapport au premier individu ;
on a alors
qui correspond lordonne lorigine pour le premier individu,
dmean renvoie les effets indiviudels en carts par rapport la moyenne des effets
individuels ; dans ce cas,
est la moyenne des effets individuels.
> head(fixef(banks.within))
1
2
3
4
5
6
-0.4088325 -0.4814600 -0.4840704 -0.4333303 -0.4761411 -0.4434490
> head(fixef(banks.within, type = "dfirst"))
2
3
4
5
6
7
-0.07262754 -0.07523796 -0.02449779 -0.06730860 -0.03461650 -0.19118140
> head(fixef(banks.within, type = "dmean"))
1
2
3
0.061133962 -0.011493577 -0.014104000
4
5
0.036636176 -0.006174642
6
0.026517461
On montre ci-dessous lquivalence entre le modle within et lestimation par les

mco avec des variables indicatrices des banques. A cet effet, on introduit la variable
id dans lestimation car il sagit de lindex individuel. Le comportement de lm
est alors destimer une constante et denlever la premire modalit de la variable
explicative id. Les effets individuels estims sont alors similaires ceux obtenus
en utilisant fixef avec largument type ix "dfirst".
> banks.within
Model Formula: cost ~ assets

Coefficients:
assets
1.0411
31
> head(coef(lm(cost ~ assets + factor(id), LB)))
(Intercept)
-0.40883248
assets factor(id)2 factor(id)3 factor(id)4 factor(id)5

1.04112845 -0.07262754 -0.07523796 -0.02449779 -0.06730860
La commande ci-dessous permet dextraire le coefficient associ la production

pour les quatre modles :
> sapply(list(pooling = banks.pooling, within = banks.within,
+
between = banks.between, random = banks.random),
+
function(x) coef(x)[["assets"]])
pooling
within
between
random
1.0063604 1.0411285 0.9816273 1.0285650
Les quatre modles concluent un coefficient trs proche de 1, ce qui correspond

lhypothse de rendements constants. On constate galement que les estimateurs
mco et mcg sont bien intermdiaires entre les estimateurs within et between et
que lestimateur mcg est plus proche de lestimateur within que lestimateur mco.
Pour retrouver formellement le rsultat obtenu prcdemment, on calcule tout
dabord les parts des variances intra et inter-individuelles de la varianble explicative assets.
>
>
>
>
>
SxxW <- sum(Within(LB$assets) ^ 2)

SxxB <- sum((Between(LB$assets)-mean(LB$assets))^2)
SxxTot <- sum( (LB$assets- mean(LB$assets)) ^ 2)
pondW <- SxxW / SxxTot
pondW
[1] 0.415674
> pondW * coef(banks.within)[["assets"]] +

+
(1 - pondW) * coef(banks.between)[["assets"]]
[1] 1.00636
La part de la variance intra-individuelle est de 42%, lestimateur mco est un peu

plus proche de lestimateur between que de lestimateur within. Pour retrouver le
rsultat concernant le modle des mcg, on commence par estimer le paramtre
laide des rsidus de lestimation des modles within et between :
>
>
>
>
>
T <- 12
N <- 128
siota2 <- deviance(banks.between) * T / (N - 2)
snu2 <- deviance(banks.within) / (N * (T - 1) - 1)
phi <- sqrt(snu2 / siota2)
32
On peut alors calculer les pondrations et lestimation pour le modle des moindres
carrs gnraliss :
> pondW <- SxxW / (SxxW + phi^2 * SxxB)
> pondW * coef(banks.within)[["assets"]] +
+
(1 - pondW) * coef(banks.between)[["assets"]]
[1] 1.028565
Enfin, les rsultats semblent indiquer que nous sommes dans le cas o lhypothse
dabsence de corrlation entre les effets individuels et la variable explicative est
vrifie. Dans ce cas, les quatre modles sont convergents et il doivent donner des
rsultats relativement proche, ce qui est le cas ici.
2.5.2
Exemples de modles linaires simples
Mme sils ont peut dintrt pratique, les modles conomtriques pertinents
contenant en gnral plusieurs variables explicatives, les modles linaires simples
ont un intrt pdagogique vident car ils permettent la reprsentation graphique
des chantillons et des modles sous la forme de nuages de points et de droite de
rgression. Ils permettent en particulier de bien comprendre les relations entre les
diffrents estimateurs. Nous analyserons successivement 4 jeux de donnes.
Le premier, appel ForeignTrade a t utilis par Kinal & Lahiri (1993) pour
construire un modle complet du commerce extrieur pour les pays en dveloppement qui sera prsent dans le chaptre 6. Pour linstant, nous analyserons simplement la relation entre les importations (imports) et le produit intrieur (gnp).
Les deux variables sont en logarithmes et sont exprimes par habitant.
Les instructions suivantes crent un pdata.frame , en extrait la variable explicative et y applique la mthode summary qui calcule la dcomposition de sa variance.
Pour estimer tous les modles, on cre tout dabord un vecteur contenant les noms
de ces modles, puis on utilise la fonction sapply de manire extraire de ces
diffrents modles estims le coefficient associ la variable explicative.
> data("ForeignTrade", package = "pder")
> FT <- pdata.frame(ForeignTrade)
> summary(FT$gnp)

id
time
0.98248044 0.00763845
> ercomp(imports ~ gnp, FT)
var std.dev share

idiosyncratic 0.08634 0.29383 0.074
individual
1.07785 1.03820 0.926
theta: 0.9423
33
> models <- c("within", "pooling", "random", "between")

> sapply(models, function(x) coef(plm(imports ~ gnp, FT, model = x))["gnp"])
within.gnp pooling.gnp
0.90236420 0.06366400
random.gnp between.gnp
0.76815599 0.04870833
On constate que, pour ce modle la variance de la variable explicative et de lerreur

est quasi exclusivement due la variation inter-individuelle (respectivement 98 et
93%). Dans ce cas, le modle des mcg consiste enlever 94% de la moyenne individuelle et est donc quasiment identique au modle within. Quand au modle des
mco qui prend en compte toute la variation inter-individuelle, il est trs proche
du modle between. Enfin, les deux premiers modles donnent des rsultats trs
diffrents des deux suivants et sont caractriss par une lasticit beaucoup plus
importante. On constate sur le graphique 2.1 quil y a une corrlation ngative
trs forte entre les effets individuels et la variable explicative. Dans ce cas, les estimateurs qui intgrent leffet individuel souffrent dun biais vers le bas. Cest le cas
pour les mco et pour le modle between, beaucoup moins pour lestimateur des
mcg qui, on la vu, nintgre quune part infime de la variation inter-individuelle.
Fig. 2.1 Importations en fonction du produit intrieur pour les donnes ForeignTrade
Les donnes TurkishBanks ont t utilises par El-Gamal & Inanoglu (2005) afin
danalyser les cots de production des banques. On estime le cot en fonction de
la production, les deux variables tant en logarithmes. En appliquant les mmes
calculs que pour lexemple prcdent, on obtient :
> data("TurkishBanks", package = "pder")
> TurkishBanks <- na.omit(TurkishBanks)
> TB <- pdata.frame(TurkishBanks)
34

series type is constant and has been removed
> summary(log(TB$output))

id
time
0.84730373 0.01255259
> ercomp(log(cost) ~ log(output), TB)
bon
var std.dev share
idiosyncratic 0.3291 0.5737 0.604
individual
0.2156 0.4643 0.396
theta :
Min. 1st Qu. Median
Mean 3rd Qu.
0.6192 0.6509 0.6509 0.6474 0.6509
Max.
0.6509
> sapply(models, function(x)

+
coef(plm(log(cost) ~ log(output), TB, model = x))["log(output)"])
bon
within.log(output) pooling.log(output)
0.5063813
0.8006578
random.log(output) between.log(output)
0.6470472
0.8531416
La variation de la variable explicative est principalemet inter-individuelle (85%),

en revanche, pour lerreur, le partage de la variance est assez quivalent entre
la part de leffet individuel (40%) et celle de leffet idiosyncratique (60%). On
a par consquent de nouveaux deux estimateurs mco et between trs proches.
Lestimateur des mcg est au centre de lintervalle constitu par les estimateurs
mco et between car la transformation ralise consiste enlever environ 65% de
la moyenne. La figure 2.2 semble indiquer que les effets individuels sont corrls
ngativement avec la variable explicative et que par consquent les estimateurs
between, des mco et dans une moindre mesure celui des mcg sont biaiss vers le
bas.
Les donnes TexasElectr , utilises par Kumbhakar (1996) et Horrace & Schmidt
(1996), permettent danalyser le cot de production dentreprises de production
dlectricit au Texas. On commence par dfinir le cot comme la somme des
dpenses en travail (explab), en capital (expcap) et en carburant (expfuel).
On ralise ensuite les mmes calculs que prcdemment.
>
>
>
>
data("TexasElectr", package = "pder")

TexasElectr$cost <- with(TexasElectr, explab + expfuel + expcap)
TE <- pdata.frame(TexasElectr)
summary(log(TE$output))
35
21
20
19
18

17
16
15
14
16
17
18
19
20
21
22
Fig. 2.2 Cot en fonction de loutput pour les donnes TurkishBanks

id
time
0.8233617 0.1684892
> ercomp(log(cost) ~ log(output), TE)
var std.dev share

idiosyncratic 0.106806 0.326811 0.99
individual
0.001088 0.032990 0.01
theta: 0.08076

+
coef(plm(log(cost) ~ log(output), TE, model = x))["log(output)"])
within.log(output) pooling.log(output)
2.6325286
1.1804164
random.log(output) between.log(output)
1.2259868
0.8688903
La variation de la variable explicative est principalement inter-individuelle (82%),

en revanche, concernant les erreurs, la variance de la composante idiosyncratique
est trs largement dominante, ce qui implique quune part infime (8%) de la
moyenne individuelle est enleve dans le cadre de lestimation par les mcg. On
a donc deux estimateurs des mcg et des mco quasiment gaux. Lestimateur within est de nouveau trs suprieur du fait de la corrlation ngative apparente
entre les effets individuels et la variable explicative.
36
14
13
12
11
10
7.5
8.0
8.5
9.0
9.5
10.0
Fig. 2.3 Cot en fonction de loutput pour les donnes TexasElectr
Le dernier jeu de donne est DemocracyIncome25 utilis par Acemoglu, Johnson, Robinson & Yared (2008). Les donnes concernent 25 pays et 7 observations
de 25 ans pour la priode 1850 2000. Les auteurs analysent la relation causale
dynamique entre le niveau de richesse dun pays et le degr de dmocratie. Leur
analyse sera reproduite en dtail dans le chaptre 7. Dans limmdiat, nous analyserons simplement la relation entre le niveau de dmocratie et le revenu retard
dune priode.
> data("DemocracyIncome25", package = "pder")
> DI <- pdata.frame(DemocracyIncome25)
> summary(lag(DI$income))

id
time
0.4297745 0.4890893
> ercomp(democracy ~ lag(income), DI)
var std.dev share

idiosyncratic 0.05585 0.23632 0.789
individual
0.01494 0.12222 0.211
theta: 0.4099

+
coef(plm(democracy ~ lag(income), DI, model = x))["lag(income)"])

within.lag(income) pooling.lag(income)
0.1869989
0.2309095
37
random.lag(income) between.lag(income)
0.2100902
0.2891701
Pour ce jeu de donnes, la part inter-individuelle de la variation de la variable

explicative et de lerreur est plutt faible (43 et 21%). La part de la moyenne
retire dans le cas de lestimateur des mcg est de 41%. Enfin, la figure ?? montre
quil ny a pas de corrlation vidente entre les effets individuels et la variable
explicative, ce qui a pour consquence que les 4 estimateurs sont proches les uns
des autres.
1.0
0.8
0.6
0.4
0.2
1.9
2.0
2.1
2.2
Fig. 2.4 Dmocratie en fonction du revenu retard pour les donnes DemocracyIncome25
2.6
Simulation des proprits des estimateurs
Les proprits des estimateurs sont souvent difficiles, voir impossible tablir
analytiquement. Dans ce cas, il est intressant davoir une approche par simulation
(approche dite de Monte-Carlo). Cette approche comporte plusieurs tapes :
on commence par dfinir parfaitement la manire dont les chantillons sont
gnrs,
on cr ensuite un grand nombre dchantillons laide dun gnrateur de
nombres alatoires,
on calcule pour chaque chantillon une statistique,
on sintresse la distribution de cette statistique (sa moyenne par exemple).
La fonction ci-dessous permet de gnrer un chantillon avec N individus et T
priodes, pour des carts-types des deux composantes du terme derreur donns,
38
pour des paramtres de la droite donns et pour un vecteur de variable explicative

donn.
> simpanel <- function(N, T, s.nu, s.eta, alpha, beta, x){
+
eta <- rnorm(N, sd = s.eta)
+
nu <- rnorm(N * T, sd = s.nu)
+
y <- alpha + beta * x + rep(eta, each = T) + nu
+
data.frame(id = rep(1:N, each = T), y = y, x = x)
+ }
La fonction peut alors tre utilise comme suit :

> simpanel(N = 2, T = 3, s.nu = 0.5, s.eta = 0.5, alpha = 1, beta = 1, x = 7:12)
1
2
3
4
5
6
id
y x
1 8.053460 7
1 8.420634 8
1 9.509192 9
2 10.725954 10
2 11.025958 11
2 11.940134 12
Pour mener bien nos simulations, on commence par dfinir la dimension de notre
panel, ici T = 4 et N = 100, ainsi que les carts-types des deux composantes du
terme derreur.
>
>
>
>
>
set.seed(4)
T <- 4
N <- 100
s.nu <- 0.6
s.eta <- 0.4
On a donc une variance totale pour les erreurs de 2 + 2 = 0.62 + 0.42 = 0.52 et
0.6
= 0.6.
le paramtre est ici gal : = 2 2 = 40.4
2 +0.6
T +
Pour la variable explicative, nous choisissons galement de fixer sa variance totale

1, la moiti correspondant une variation within et lautre moiti une variation
between.
> x <- rep(rnorm(N, sd = sqrt(0.5)), each = T) +
+
rnorm(N * T, sd = sqrt(0.5)) + 2
On peut dsormais procder aux simulations. On tire au hasard 100 chantillons

et, pour chacun dentre eux, on estime les 4 modles. On stocke les 4 coefficients
obtenus pour chaque chantillon dans une matrice.
> result <- c()
> for (i in 1:100){
+
z <- simpanel(N = N, T = T, s.nu = s.nu, s.eta = s.eta,
+
alpha = 1, beta = 1, x = x)
+
z$Bx <- tapply(z$x, z$id, mean)[as.character(z$id)]
39
+
z$By <- tapply(z$y, z$id, mean)[as.character(z$id)]
+
O <- lm(y ~ x, z)
+
W <- lm(I(y - By) ~ I(x - Bx), z)
+
B <- lm(By ~ Bx, z)
+
s2.nu <- deviance(W) / (N * T - N - 1)
+
s2.lambda <- deviance(B) / (N - 2)
+
theta <- sqrt(s2.nu / s2.lambda)
+
G <- lm(I(y - (1 - theta) * By) ~ I(x - (1 - theta) * Bx), z)
+
result <- rbind(result,
+
c( coef(O)[2],
+
coef(B)[2],
+
coef(W)[2],
+
coef(G)[2]
+
)
+
)
+ }
> colnames(result) <- c("ols", "between", "within", "gls")
Pour vrifier que les estimateurs sont non-biaiss, on calcule la moyenne des valeurs
obtenues pour chaque estimateur.
> apply(result, 2, mean)
ols
between
within
gls
0.9968929 0.9966218 0.9972462 0.9969072
On constate queffectivement, on obtient pour chaque estimateur des valeurs moyennes

trs proches de 1.
La prcision des estimateurs peut tre apprhende par le calcul de lcart-type
obtenu pour chaque estimateur.
> apply(result, 2, sd)
ols
between
within
gls
0.04940275 0.07565773 0.05477897 0.04486814
Lestimateur between est le moins prcis, ce qui nest pas surprenant car il est
estim sur seulement les N moyennes individuelles. Lestimateur des mcg est nettement plus prcis que celui des mco. Enfin, la prcision de lestimateur within est
moins bonne que celle de lestimateur mcg.
Enfin, on peut vrifier graphiquement (figure 2.5) pour un estimateur (par exemple
celui des mcg) que la distribution de lestimateur est proche de la normale.
> hist(result[, "gls"], probability = TRUE, ann = FALSE)
> curve(dnorm(x, mean = mean(result[, "gls"]),
+
sd = sd(result[, "gls"])), add = TRUE)
10
40
0.90
0.95
1.00
1.05
1.10
Fig. 2.5 Distribution de lestimateur des mcg
Chapitre 3
Le modle erreurs
composes : extensions
3.1
Le modle double erreurs composes
Lorsque lon souhaite intgrer des effets spcifiques chaque priode, on doit
considrer le modle suivant :
ynt = + xnt + n + t + nt
3.1.1
Dcomposition de la variance dans le modle doubles

effets
Les hypothses faites sur leffet temporel sont en tous points similaires celles que
lon a faites sur leffet individuel :
est desprance nulle et homoscdastique, on note 2 sa variance,
les effets temporels ne sont pas corrls entre eux E(t s ) = 0 t 6= s,
les effets temporels ne sont corrls ni avec les effets individuels, ni avec lerreur
idiosyncratique.
Avec ces hypothses, la matrice de covariance des erreurs scrit dsormais :
= 2 IN T + 2 IN JT + 2 JN IT
Comme dans le cas du modle erreurs composes avec effet individuel, on cherche
lexpression de la dcomposition spectrale de cette matrice qui est une combinaison
linaire de matrices idempotentes et orthogonales. A cet effet, on note :
1
JN T
Bn = IN JT /T , Bt = JT IN /N et J =
NT
Bn x renvoie comme prcdemment la moyenne individuelle x
n. , Bt x la
la moyenne globale de x
. Enfin, la matrice within
moyenne x
.t temporelle et Jx
42
doit ici raliser une double diffrence par rapport aux moyennes individuelles et
:
temporelles : xnt x
n. x
.t + x
W = I Bn Bt + J
Avec ces notations, on obtient :
= 2 W + (T 2 + 2 )Bn + (N 2 + 2 )Bt 2 J
On vrifie aisment que les diffrentes matrices sont idempotentes. En revanche,
on a Bn Bt = J 6= 0. En effet, le produit de ces deux matrices conduit calculer la moyenne temporelle des moyennes individuelles, ce qui renvoie la moyenne
n = Bn J et B
t = Bt J qui renvoient
globale. Pour cette raison, on utilise B
respectivement les moyennes individuelles et temporelles en cart par rapport la
moyenne globale. En regroupant les termes, on obtient finalement :
n + (N 2 + 2 )B
t + (T 2 + N 2 + 2 )J
= 2 W + (T 2 + 2 )B
Soit encore, en notant n = (T 2 + 2 )0.5 , t = (N 2 + 2 )0.5 et j = (T 2 +
N 2 + 2 )0.5 :
1
n /2n + B
t /2 + J/
2
=W +B
t
j
2
3.1.2
Modles effets fixes et effets alatoires
Comme dans le cas du modle effets individuels, le modle effets fixes peut
tre obtenu de deux manires diffrentes :
en estimant le modle par les moindres carrs ordinaires en introduisant dans
lestimation des variables indicatrices des individus et des priodes,
en estimant le modle par les moindres carrs ordinaires en introduisant dans
lestimation les variables transformes en cart par rapport aux moyennes individuelles et temporelles : znt zn. z.t + z.
Pour le modle des moindres carrs gnraliss, on transforme les variables du
modle en les prmultipliant par 0.5 ou plus simplement par 0.5 :
n + t B
t + j J
0.5 = W + n B
En regroupant les termes, on obtient la transformation ralise par la pr-multiplication
des variables du modle par cette matrice :
znt
= znt (1 n )
xn. (1 t )
x.t + (1 n t + j )x
3.1.3
Application
Pour le modle concernant la production de riz prcdemment estim, on peut

obtenir une estimation double erreurs composes en fixant largument effect de
la fonction plm twoways. Les rsultats des deux modles effets fixes et effets
alatoires sont prsents ci-dessous :
Chapitre 3. Le modle erreurs composes : extensions

>
>
>
>
43
riceprod <- log(goutput)~log(seed)+log(totlabor)+log(size)

rice.wd <- plm(riceprod, Rice, effect = "twoways")
rice.rd <- plm(riceprod, Rice, effect = "twoways", model = "random")
ercomp(rice.rd)
var std.dev share

idiosyncratic 0.09431 0.30710 0.631
individual
0.02102 0.14497 0.141
time
0.03415 0.18479 0.228
theta : 0.3459 (id) 0.8739 (time) 0.3446 (total)
Les parts des trois composantes du terme derreur sont dsormais de 14% pour la
composante individuelle et 23% pour la composante temporelle.
Les effets individuels sont extraits du modle effets fixes laide de la fonction fixef laquelle on peut ajouter un second argument effect qui est gal
"individual" par dfaut et que lon peut fixer "time" pour extraire les effets
fixes temporels :
> fixef(rice.wd, effect = "time")
1
2
3
4
5
6
5.914708 5.842072 5.716913 5.544581 6.076116 6.038450
3.2
Dautres estimateurs des variances des composantes du terme derreur
On rappelle que lestimateur de Wallace & Hussain (1969) est bas sur lestimation
du modle par la mthode des moindres carrs ordinaires. On a alors :
12 = T
N
X
e2n. /N
n=1
2 =
N X
T
X
(ent en. )2 /(N (T 1))
n=1 t=1
Dautres estimateurs ont t proposs.

Lestimateur de Amemiya (1971) est bas sur lestimation du modle within. On
obtient :
= y w x
ent = ynt
w xnt
44
12 = T
N
X
e2n. /N
n=1
2 =
N X
T
X
(ent en. )2 /(N (T 1)))
n=1 t=1
Pour lestimateur de Swamy & Arora (1972), on utilise deux estimations, celles du
modle within et du modle between.
2 =
T
N X
X
2
ew
nt /(N (T 1) K)
n=1 t=1
12 = T
N
X
ebnt /(N K 1)
n=1
Enfin, pour lestimateur de Nerlove (1971), on calcule lestimateur de 2 en calculant les effets individuels partir du modle within :
n = yn. w x
n.
2 =
N
X
(
n
)2 /(N 1)
n=1
2 =
N X
T
X
e2nt /(N T )
n=1 t=1
Pour utiliser ces mthodes destimation, il suffit de fixer largument random.method

swar pour Swamy & Arora (1972), walhus pour Wallace & Hussain (1969),
amemiya pour Amemiya (1971) et nerlove pour Nerlove (1971).
>
+
>
>
>
>
+
rice.wh <- plm(log(goutput)~log(seed)+log(totlabor)+log(size), Rice,

model="random", random.method = "walhus")
rice.sa <- update(rice.wh, random.method = "swar")
rice.am <- update(rice.wh, random.method = "amemiya")
rice.ne <- update(rice.wh, random.method = "nerlove")
rbind(walhus = coef(rice.wh), swar = coef(rice.sa),
amemyia = coef(rice.am), nerlove = coef(rice.ne))
walhus
swar
amemyia
nerlove
(Intercept)
5.312634
5.312310
5.311825
5.302849
log(seed) log(totlabor) log(size)

0.2199918
0.2854699 0.5280732
0.2199071
0.2855146 0.5278612
0.2197788
0.2855815 0.5275402
0.2171339
0.2867853 0.5209678
45
On constate que les diffrences entre les modles sont trs faibles, lestimateur de
Nerlove (1971) tant malgr tout un peu diffrent des autres. Cela est confirm en
analysant la transformation ralise avec cet estimateur :
> ercomp(rice.ne)
var std.dev share

idiosyncratic 0.10992 0.33155 0.743
individual
0.03802 0.19498 0.257
theta: 0.4298
La part estime de leffet individuel dans lerreur est bien plus leve avec cet
estimateur quavec les autres (26% contre 10%) et par consquent les donnes sont
transformes en soustrayant une part plus importante de la moyenne individuelle
des variables.
3.3
Panel non cylindr
Dans le cas du panel non cylindr, on a dsormais Tn observations par individu.

Le modle effets fixes peut tre obtenu de la mme manire que dans le cas dun
panel cylindr, cest--dire en transformant les variables en cart par rapport la
moyenne individuelle. En revanche, pour le modle effets alatoires, la mthode
destimation des variances des composantes du terme derreur doit tre modifie 1 .
Dans le cas o le modle est non cylindr, on ne peut plus exprimer la matrice
de variance covariance des erreurs comme une combinaison linaire des matrices
within et between, les pondrations tant 2 et 12 . En revanche, mmes si les
rsultats sont plus complexes, on peut de nouveau calculer les deux formes quadratiques qw = e> W e et qb = e> Be et galiser les valeurs pour lchantillon leur
esprance afin destimer 2 et 2 . Pour les diffrents estimateurs, la dmarche sera
toujours la mme :
Dterminer la matrice qui permet de transformer le vecteur derreurs en vecteur
de rsidus e = A,
Calculer les deux formes quadratiques : qw = e> W e et qb = e> Be,
Dterminer leur esprance : E(
qw ) = E e> W e et E(
qb ) = E e> Be
Egaliser les deux et rsoudre le systme de deux quations en fonction de 2 et
2 .
Wallace et Hussain
Les deux formes quadratiques sont calcules partir des rsidus des moindres
carrs ordinaires, pour lesquels on a :
eo = I X(X > X)1 X >
1. voir Baltagi & Chang (1994).
46
Pour la premire forme quadratique, qui utilise la matrice within, on obtient, en

esprance :
E(
qw ) = tr

I X(X > X)1 X > W I X(X > X)1 X >
Soit :
E(
qw )

=
n N tr (X > W X)(X > X)1 2

+ tr (X > U X)(X > X)1 (X > W X)(X > X)1 2
Que lon peut galement rcrire, en remplaant W par I B :

>
= n N K 1 + tr (X
BX)(X > X)1 2

+
tr (X > U X)(X > X)1 tr (X > U X)(X > X)1 (X > BX)(X > X)1 2
E(
qw )
Pour la seconde forme quadratique, qui utilise la matrice between, lesprance est :
E(
qb ) = tr

I X(X > X)1 X > B I X(X > X)1 X >
Soit encore :
E(
qb )

= N tr (X > X)1 (X > BX) 2

+
n + tr (X > U X)(X > X)1 (X > BX)(X > X)1 2tr (X > U X)(X > X)1
Swamy et Arrora
Ici, qw est calcul partir des rsidus within et qb partir des rsidus between.
Les deux matrices de trnansformation sont :

ew = W W X > (X > W X)1 X > W = Aw

eb = B BX > (X > BX)1 X > B = Ab
qw est calcul partir des rsidus within. On a alors :

>
qw = > A>
W W X(X > W X)1 X > W
w W Aw =
et donc :
E(
qw ) = (n N K)2
qb est calcul partir des rsidus between. On a alors :

>
qb = > A>
B BX(X > BX)1 X > B
B BAB =
et
E(
qb ) = (N K 1)2 + n tr (X > BX)1 (X > U X)
47
Le calcul des estimateur des variances est donc ici particulirement simple puisque
2 peut tre obtenu partir de la premire condition et introduit dans la seconde

afin de calculer
2 .
Amemyia
Pour cet estimateur, on calcule les rsidus destimation non transforms en utilisant
lestimateur within :
ea = y X w
w .
avec
= y X
On a donc :
w
ea = (y y) (X X)
(3.1)
De plus, la relation entre w et est donn par :

w = (X > W X)1 X >
(3.2)
Pour le vrai modle, on a :

= y X
La moyenne pour lchantillon donne :

= y X
Soit finalement, pour le vrai modle en cart par rapport la moyenne :
= (y y) (X X)
(3.3)
En soustrayant membre membre (3.1) et (3.3), on obtient :

w )
ew + = (X X)(
Soit encore en utilisant 3.2 :
>
ew = + (X X)(X
W X)1 X >
En notant Jn la matrice dont tous les termes sont gaux 1/n, on obtient finalement lexpression de la matrice Aa qui transforme les erreurs du modles en les
rsidus dAmemyia :
Aa = (I Jn ) I X(X > W X)1 X > W
48
>
>
On a qw = e>
b = e>
a W ea = Aa W Aa et q
a Bea = Aa BAa .
>
1
Comme W U = 0, tr(W ) = n N , tr(W X(X W X) W > W ) = K lesprance de
la premire forme quadratique scrit simplement :
E(
qw ) = (n N K)2
Pour E(
qb ), notons que les matrices ayant aux extrmits B ou Jn dun ct et W
de lautre ont une trace nulle. On a donc :

E(
qb ) = tr(B Jn ) + tr W X(X > W X)1 (B Jn )X(X > W X)1 X > W 2 + (B Jn )U
Soit finalement :
X

E(
qb ) = (N 1+tr (X > W X)1 (X > BX) tr (X > W X)1 (X > Jn X) 2 + n
T n2 /N
n
3.3.1
Application
Pour illustrer lestimation dun panel non cylindr, nous utilisons les donnes Tileries qui concernent la production de carreaux en Egypte ; 25 entreprises sont
observes, le nombre dobservations variant entre 12 et 22.
> data("Tileries", package = "pder")
> head(Tileries, 3)
1
2
3
id week
area
output
labor machine
2
1 fayoum 5.650487 4.532599 4.663439
2
2 fayoum 6.522328 5.347108 4.234107
2
3 fayoum 6.302619 4.969813 4.234107
> pdim(Tileries)
Unbalanced Panel: n=25, T=12-22, N=483
On estime une fonction de production Cobb-Douglass en spcifiant une quation

log-linaire reliant la production (output) au travail (labor) et aux machines
(machine).
> tile.r <- plm(log(output)~log(labor)+log(machine), Tileries, model = "random")
bon
> summary(tile.r)
49

Call:
plm(formula = log(output) ~ log(labor) + log(machine), data = Tileries,
model = "random")
Effects:
var
std.dev share
idiosyncratic 0.0026396 0.0513772 0.808
individual
0.0006269 0.0250375 0.192
theta :
Min. 1st Qu. Median
Mean 3rd Qu.
0.4903 0.5741 0.5830 0.5785 0.5913
Max.
0.5992
Residuals :
Min.
1st Qu.
-0.187000 -0.027300
3rd Qu.
0.033400
Median
0.003070
Mean
0.000007
Max.
0.227000
Coefficients :
(Intercept) 0.278203
0.060791 4.5764 6.032e-06 ***
log(labor)
0.908630
0.030048 30.2390 < 2.2e-16 ***
log(machine) 0.023965
0.027062 0.8856
0.3763
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
4.8402
R-Squared
: 0.73206
Adj. R-Squared : 0.72751
Le paramtre de transformation est donc dsormais spcifique lindividu, ou

plus exactement au nombre dobservations disponibles pour chaque individu. On
constate ici que est compris entre 0.49 et 0.60.
3.4
Lestimateur du maximum de vraisemblance
Une alternative lestimateur des moindres carrs gnraliss est lestimateur du

maximum de vraisemblance. Contrairement au prcdent, les paramtres ne sont
pas estims de manire squentielle (dabord , puis ), mais simultanment. Afin
dcrire la vraisemblance du modle, la distribution des erreurs doit tre parfaitement dfinie ; par rapport au modle prcdent, on ajoutera donc lhypothse
de distribution normale pour les deux composantes du terme derreur, leffet individuel et leffet idiosyncratique . La vraisemblance est la densit jointe pour
lensemble de lchantillon, qui correspond au produit des densit individuelle dans
le cas o les diffrentes observations ne sont pas corrles. Ce nest pas le cas ici,
50
plus prcisment, les Tn observations correspondant lindividu n sont corrles

du fait de la prsence de leffet individuel. Le modle estimer scrit :
ynt = > xn + n + nt
avec n N (0, ) and nt N (0, ). Pour une valeur donne de leffet indiviudel
n , la densit pour ynt scrit :

2
>
ynt xnt n
21
1
e
f (ynt | n ) =
2
Pour une valeur donne de , la distribution de yn = yn1 , . . . , ynT est celle dun
vecteur de variables alatoires indpendantes, la distribution jointe est donc simplement le produit des densits individuelles :

f (yn | n ) =
1
22
T2n
e
212
PTn
t=1
(ynt > xnt n )
La distribution non conditionnelle est obtenue en intgrant lexpression prcdente

par rapport ; cela revient calculer une moyenne de la densit pour lensemble
des valeurs possibles de :
1
f (yn ) = q
22
f (yn | n )e
12
2
d = q
22
1
22
T2n Z
e 2 A d
avec, en notant nt = ynt > xnt and n = yn > xn :

T
X
(nt )2
2
1
+ 2 = 2
2
X
1n
2
A=
2T

+
nt 2
n
n.
2
2
t
t=1
!
2

2
1 1n
1 X 2
2 2
A= 2
T n.
+ 2
nt Tn n. 2

1n
1n
t
En notant z 2 le premier terme, on a dz =
:
notant n = 1n

f (yn ) =
1
22
T2n
n e
1n
d
212

P
et la densit jointe devient, en
2nt Tn2 2n.
2
1n
Or :
X
t
2nt Tn2 e2n.
X
X
2
2
=
2nt Tn (1 2n )
2n. =
(nt (1 n )
n. )
2
1n
t
t
et la densit jointe pour un individu scrit donc finalement :

f (yn ) =
1
22
T2n
n e
212
51
n. )2
t (nt (1n )
La contribution de lindividu n la fonction de log de vraisemblance est simplement

le logarithme de cette densit jointe :
ln Ln =
Tn
1
1 X
Tn
2
ln 2
ln 2 + ln 2n 2
(nt (1 n )
n. )
2
2
2
2 t
Pour obtenir la fonction de log de vraisemblance, il ne reste qu sommer pour

tous les individus :
P
ln L =
Tn
ln 2
Tn
ln 2 +
1X
1 XX
2
(nt (1 n )
n. )
ln 2n 2
2 n
2 n t
ou, plus simplement, si le panel est cylindr :
ln L =
NT
NT
N
1 XX
2
ln 2
ln 2 +
ln 2 2
(nt (1 )
n. )
2
2
2
2 n t
Notons galement que :

XX
n
(nt (1 )
n. ) =
XX
(nt n. ) + 2
Tn 2n. = > W + 2 > B
Les drives premires de la vraissemblance scrivent :

2
ln L
= 2 X > y X > X
(3.4)

ln L
NT
1
= 2 + 4 > W + 2 > B
2
2
2
(3.5)
N > B
ln L
= 2
2
2 22
(3.6)

1
= X > X
X > y
(3.7)
En rsolvant 3.4, on obtient :
Lestimateur de 2 est simplement obtenue en utilisant 3.5 comme la variance

rsiduelle du modle estim sur donnes transformes :
2 =
> W + 2 > B

NT
(3.8)
52
Enfin, le paramtre de transformation scrit, en utilisant (3.6) et (3.8) :

2 =
> W
(T 1)
> B

(3.9)
Lestimation peut tre ralise de manire itrative. Partant dun estimateur de

(par exemple celui du modle within), on calcule 2 en utilisant la formule
donne par 3.9. On transforme alors les donnes laide de cet estimateur de 2
et on dtermine une nouvelle estimation de en utilisant (3.7). On rpte alors
les oprations prcdentes jusqu ce que les estimateurs de et de 2 convergent.
On estime alors 2 en utilisant (3.8).
Lestimateur du maximum de vraisemblance est disponible dans la librairie pglm.
La fonction pglm permet destimer un grand nombre de modles de panel par la
mthode du maximum de vraisemblance. On doit spcifier la distribution suppose
des erreurs des modles, ici normale en fixant largument family "gaussian".
> library(pglm)
> rice.ml <- pglm(log(goutput)~log(seed)+log(totlabor)+log(size), Rice, family = gaussian)
> summary(rice.ml)
-------------------------------------------Maximum Likelihood estimation

Newton-Raphson maximisation, 6 iterations
Return code 2: successive function values within tolerance limit
Log-Likelihood: -460.4513
6 free parameters
Estimates:
Estimate Std. error t value
Pr(> t)
(Intercept)
5.312540
0.203771 26.0712 < 2.2e-16 ***
log(seed)
0.219967
0.028330 7.7643 8.207e-15 ***
log(totlabor) 0.285483
0.031047 9.1953 < 2.2e-16 ***
log(size)
0.528012
0.032649 16.1725 < 2.2e-16 ***
sd.mu
0.119040
0.017129 6.9496 3.663e-12 ***
sd.eps
0.363663
0.008601 42.2816 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------
On constate que les rsultats sont trs similaires ceux obtenus avec les moindres
carrs gnraliss. Les deux paramtres appels "sd.eps" et "sd.mu" sont les
carts-type estims de la composante idiosyncratique de lerreur et de leffet individuel. L aussi, les valeurs obtenues sont quasiment identiques celles du modle
des moindres carrs gnraliss.
3.5
3.5.1
53
Systme dquations corrles

Introduction
Trs souvent en conomie, le phnomne tudier nest pas dcrit par une quation,
mais par un systme dquations. Cest en particulier le cas en micro-conomie de la
consommation ou de la production. Par exemple, le comportement dun producteur
sera caractris par une quation de cot, une quation de demande de travail et
une quation de demande de capital. Il est dans ce cas prfrable de considrer le
systme dquations dans son intgralit pour deux raisons :
tout dabord, les termes derreur des diffrentes quations peuvent tre corrls
entre eux. Dans ce cas, mme si lestimation dune quation isole est convergente, elle est inefficace car elle ne prend pas en compte la corrlation des erreurs ;
ensuite, la thorie conomique impose parfois des restrictions sur diffrents coefficients du systme, par exemple lgalit de deux coefficients appartenant
deux quations diffrentes du systme. Dans ce cas, ces restrictions doivent tre
prises en compte en utilisant la mthode des moindres carrs contraints.
3.5.2
Les moindres carrs contraints
Les restrictions linaires sur le vecteur de coefficients estimer sont modliss

laide dune matrice de restrictions R et dun vecteur numrique q :
R = q
Par exemple, si la somme des deux premiers coefficients doit tre gale 1 et que
le premier et le troisime doivent tre gaux, les restrictions scrivent :

1
1
1 1 0
2 =
1 0 1
0
3
Pour calculer lestimateur des mco contraints, on forme le lagrangien :
L = e> e + 2> (R q)
avec e = y X et le vecteur des multiplicateurs de Lagrange associes aux
diffrentes contraintes 2 . En dveloppant, on obtient :
L = y > y 2 > X > y + > X > X + 2(R q)
Les conditions de premier ordre scrivent :
L
= 2X > y 2X > X + 2R> = 0
L
= 2(R q) = 0
2. Ces multiplicateurs de Lagrange sont multiplis par deux pour simplifier les conditions de
premier ordre.
54
Soit encore, sous forme matricielle :

>

>
X X R>
X y
=
R
0
q
Lestimateur des moindres carrs contraints sobtient en utilisant la formule de
linversion dune matrice partitionne.

A11
A21
A12
A22
1

=
B11
B21
B12
B22

=
1
1
A1
11 (I + A12 F2 A21 A11 ) A11 A12 F2
1
F2 A21 A11
F2
1
et F1 = A11 A12 A1
.
22 A21

>
1 > 1
On a ici F2 = R(X X) R
. Lestimateur contraint scrit alors : c =
>
>
B11 X y + B12 q, avec B11 = (X X)1 I R> (R(X > X)1 R> )1 R(X > X)1
1
et B12 = (X > X)1 R> R(X > X)1 R>
1 >
Lestimateur non-contraint tant nc = X > X
X y, on obtient finalement :
avec F2 = A22 A21 A1
11 A12
1
c = nc (X > X)1 R> (R(X > X)1 R> )1 (Rnc q)

Lcart entre les estimateurs contraints et non-contraints est donc une combinaison linaire du solde des contraintes linaire du modle values pour le modle
contraint.
3.5.3
La prise en compte des corrlations inter-quations
On considre un systme de L quations notes yl

Sous forme matricielle, le systme scrit :
y1
X1 0 . . . 0
y2 0 X2 . . . 0
.. = ..
..
..
..
. .
.
.
.
yL
...
XL
= Xl l + l , avec l = 1 . . . L.
1
2
..
.
1
2
..
.
L
La matrice de covariance des erreurs du systme scrit :
= E(> ) = E
1 >
1
2 >
1
..
.
1 >
2
2 >
2
..
.
...
...
..
.
1 >
L
2 >
L
..
.
L >
1
L >
2
...
L >
L
On supposera que les erreurs dun mme individu pour deux quations l et m sont
corrles et que la covariance, note lm , est constante. Dans ce cas, la matrice de
55
covariance scrit :
11 I
12 I
..
.
12 I
22 I
..
.
...
...
..
.
1L I
2L I
..
.
1L I
2L I
...
LL I
Soit encore, en notant la matrice de covariance inter-quations :
11
12
..
.
12
22
..
.
...
...
..
.
1L
2L
..
.
1L
2L
...
LL
=I
Du fait de la corrlation inter-quations, lestimateur efficace est celui des moindres
1 > 1
carrs gnraliss, qui scrit : = X1 X
X y. Cet estimateur, dvelopp par Zellner (1962) est connu par lacronyme sur pour seemingly unrelated
regression.
Il peut tre obtenu en appliquant lestimateur des moindres carrs ordinaires sur
les donnes transformes en pr-multipliant chaque variable par la matrice 0.5 .
Du fait de la structure d, cette matrice scrit simplement : 0.5 = 0.5 I. En
notant rlm les lments de 0.5 , la variable explique et les variables explicatives
transformes sont :
y =
r11 y1 + r12 y2 + . . . + r1L yL

r21 y1 + r22 y2 + . . . + r2L yL
..
.
rL1 y1 + rL2 y2 + . . . + rLL yL
et X =
r11 X1
r21 X1
..
.
r12 X2
r22 X2
..
.
...
...
..
.
r1L XL
r2L XL
..
.
rL1 X1
rL2 X2
...
rLL XL
Dans les faits, est une matrice de paramtres inconnus. Ceux-ci peuvent tre estims en utilisant les rsidus dune estimation convergente, mais inefficace, comme
celle des moindres carrs ordinaires. On obtient alors lestimateur en suivant les
tapes suivantes :
tout dabord, on estime chaque quation sparment par les mco et on note
E = (e1 , e2 , . . . , eL ) la matrice de dimension N N dont chaque colonne est le
vecteur de rsidus dune des quations du systme,
= E > E/N ,
ensuite, on estime la matrice de covariance des erreurs :
0.5
on calcule la matrice
et on lutilise pour transformer les variables du
modle y et X ,
enfin, on estime le modle par les moindres carrs sur les variables transformes.
56
3.5.4
Donnes de panel
Lapplication du modle sur aux donnes de panel ne pose pas de difficults particulires dans le cas o seule la variation between ou within des donnes est prise
en compte. Dans ce cas, il suffit simplement dappliquer les formules prcdentes
en utilisant les variables en moyennes individuelles (between-sur) ou en cart par
rapport aux moyennes individuelles (within-sur). La prise en compte des deux dimensions de la variabilit des donnes demande davantage dattention et conduit
au modle sur erreurs composes propos par Avery (1977) et Baltagi (1980).
Les erreurs du modles prsentent alors deux sources de corrlation :
la corrlation prise en compte dans le modle sur, cest--dire les corrlations
inter-quations,
la corrlation prise en compte dans le modle erreurs composes, cest--dire
les corrlations intra-individuelles.
Chaque observation est maintenant caractrise par trois indices : zlnt reprsente
lobservation de z pour la lime quation, le nime individu la time priode.
Les observations sont ranges dabord par quation, puis par individu. En notant
>
>
>
ime quation et le nime
>
ln = (ln1 , ln2 , . . . , lnT ) le vecteur derreurs pour la l
individu, on obtient :
E(ln >
mn ) = lm IT + lm JT
Labsence de corrlation entre erreurs associes des individus diffrents implique
la matrice suivante de corrlation pour deux quations et pour lensemble des
individus :
E(l >
m ) = IN (lm IT + lm JT )
= lm IN T + lm IN JT
= lm (W + B) + T lm B
= lm W + (lm + T lm )B
= lm W + 1lm B
Finalement, pour lensemble du systme dquations, on obtient, en notant et
1 les deux matrices de dimensions L L contenant les paramtres lm et 1lm ,
la matrice de covariance des erreurs suivantes :
= W + 1 B
Le modle sur erreurs composes peut tre obtenu en appliquant les moindres
carrs ordinaires sur les donnes transformes en pr-multipliant chaque variable
par 0.5 . Cette matrice scrit :
0.5 = 0.5
W + 10.5 B
(3.10)
1
et peut tre estime en utilisant les dcompositions de Cholesky de 1
et de 1
(voir Kinal & Lahiri, 1990).
Les deux matrices de covariance des erreurs tant inconnues, lestimateur sur
erreurs composes est obtenu en suivant les tapes suivantes :
57
tout dabord, on estime chaque quation sparment en utilisant une mthode

destimation convergente (les moindres carrs ordinaires par exemple) et on note
W E la matrice des rsidus en cart par rapport la moyenne individuelle et
BE la matrice des moyennes individuelles des rsidus,
ensuite, on estime les matrices de covariance des erreurs. A cet effet, on peut
tendre aux systmes dquations les mthodes destimations des variances utilises dans le cas de lestimation dquations isoles. Par exemple, Baltagi (1980)
a utilis la mthode propos par Amemiya (1971) alors quAvery (1977) a choisi
celle de Swamy & Arora (1972). En notant E la matrice de rsidus des moindres
= (W E)> (W E)/(N (T 1)) et
1 = (BE)> (BE)/(N
carrs ordinaires, on obtient :
1),
0.5 et on obtient ainsi une estimation de ??
0.5
et
on calcule les matrices
1
qui est utilise pour obtenir les variables transformes y et X ,
enfin, on estime le modle par les moindres carrs sur les variables transformes.
3.5.5
Application
Une application classique du modle sur est lanalyse des cots de production.
La fonction de cot indique le cot minimum de production C compte tenu du
vecteur de prix des K facteurs de production p> = (p1 , p2 , . . . , pK ) et du niveau
de production q. La fonction de cot minimum scrit C(p, q). Elle vrifie plusieurs
proprits :
elle est homogne de degr 1 par rapport aux prix des facteurs : C(p, q) =
C(p, q),
les fonctions de demande de facteurs de production sont obtenues par drivation
du cot minimum par rapport aux prix des facteurs 3 , il sagit donc du gradient
de la fonction de cot : C
p (p, q) = x(p, q)
la matrice hessienne de la fonction de cot est symtrique :
2C
pi p>
j
2C
.
pi p>
j
La forme fonctionelle la plus souvent retenue pour la fonction de cot minimum

est la fonction translog, dfinie par :
ln C(p, q)
PK
= 0 + q ln q + i=1 i ln pi
PK PK
+ 0.5qq ln2 q + 0.5 i=1 j=1 ij ln pi ln pj
Imposer lhomognit de degr 1 par rapport au prix revient considrer le cot

total et les prix de facteur en les divisant par un des prix (le premier par exemple) :
ln pC1 (p, q)
PK
= 0 + q ln q + i=2 i ln pp1i
PK PK
p
+ 0.5qq ln2 q + 0.5 i=2 j=2 ij ln pp1i ln p1j
pi x i
ln C
C pi
Le lemme de shepard implique que : ln
pi = pi C = C = si , cest--dire que la
drive logarithmique du cot par rapport un prix est gale la part du facteur
3. Ce rsultat est connu sous le nom de lemme de Shephard.
58
dans le cot. La part du facteur j est donc :

sj =
ln C
pj
= j + jj ln
+
ln pj
p1
K
X
i=2&i6=j
ij ln
pi
p1
Il est dusage de rapporter chaque prix et la production la moyenne de lchantillon ; dans ce cas ln q et ln pi sont nuls la moyenne de lchantillon, ce qui donne
un sens intuitif aux coefficients de premier ordre. q est en effet llasticit du cot
par rapport la production la moyenne de lchantillon et i la part du facteur
i dans le cot de production la moyenne de lchantillon.
Les donnes utilises concernent le cot de production de 10 producteurs dlectricit du Texas pour 18 ans (de 1966 1983). Elles ont t utilises par Kumbhakar
(1996), Horrace & Schmidt (1996) et Horrace & Schmidt (2000). Trois facteurs de
production sont utiliss, le carburant, le travail et le capital. Pour chaque facteur,
on dispose des prix unitaires (pfuel, plab et pcap) et des dpenses (expfuel,
explab et expcap).
On commence par caluler les prix en logarithmes, en les divisant par la moyenne
de lchantillon et en les divisant galement par un des prix, par exemple le prix
du carburant :
>
>
>
>
data("TexasElectr", package = "pder")

TexasElectr$pf <- with(TexasElectr, log(pfuel / mean(pfuel)))
TexasElectr$pl <- with(TexasElectr, log(plab / mean(plab)) - pf)
TexasElectr$pk <- with(TexasElectr, log(pcap / mean(pcap)) - pf)
sa moyenne pour lchantillon :

> TexasElectr$q <- with(TexasElectr, log(output / mean(output)))
On calcule ensuite le cot total de production en sommant les dpenses pour les
trois facteurs, puis les parts de facteurs et enfin on mesure le cot en logarithme
en le divisant par sa moyenne de lchantillon et par le prix de rfrence.
>
>
>
>
TexasElectr$C <- with(TexasElectr, expfuel

TexasElectr$sl <- with(TexasElectr, explab
TexasElectr$sk <- with(TexasElectr, expcap
TexasElectr$C <- with(TexasElectr, log(C /
+ explab + expcap)
/ C)
/ C)
mean(C)) - pf)
On calcule enfin les carrs et les effets intractifs des diffrentes variables.
>
>
>
>
TexasElectr$pll <- with(TexasElectr, 1/2 * pl ^ 2)

TexasElectr$plk <- with(TexasElectr, pl * pk)
TexasElectr$pkk <- with(TexasElectr, 1/2 * pk ^ 2)
TexasElectr$qq <- with(TexasElectr, 1/2 * q ^ 2)
On dfinit les trois quations du systme, une pour le cot total et les deux autres
pour les parts de facteur 4 .
4. La part du facteur carburant est omise car, les trois parts se sommant 1, lintroduire dans
le systme gnrerait une colinarit parfaite.
59
> cost <- C ~ pl + pk + q + pll + plk + pkk + qq

> shlab <- sl ~ pl + pk
> shcap <- sk ~ pl + pk
Les parts de facteur tant drives de la fonction de cot, les restrictions suivantes
doivent tre imposes :
le coefficient de pl dans lquation de cot doit tre gal la constante de
lquation de part de travail,
le coefficient de pk dans lquation de cot doit tre gal la constante de
lquation de part de capital,
le coefficient de pll dans lquation de cot doit tre gal au coefficient associ
pl dans lquation de part de travail,
le coefficient de pkk dans lquation de cot doit tre gal au coefficient associ
pk dans lquation de part de capital,
le coefficient de plk dans lquation de cot doit tre gal au coefficient associ
pk dans lquation de part de travail et celui associ pl dans celle de part
de capital,
Ces restrictions (au nombre de 7) sont dfinie laide de la matrice R ci-dessous :
> R <- matrix(0, nrow = 6, ncol = 14)
> R[1, 2] <- R[2, 3] <- R[3, 5] <- R[4, 6] <- R[5, 6] <- R[6, 7] <- 1
> R[1, 9] <- R[2, 12] <- R[3, 10] <- R[4, 11] <- R[5, 13] <- R[6, 14] <- -1
La premire ligne de la matrice indique par exemple que le deuxime coefficient

(celui associ pl dans lquation de cot doit tre gal au neuvime (la constante
dans lquation de part de travail).
Le modle sur est estim en indiquant en premier argument de plm une liste de
formules qui dcrivent le systme dquations estimer. Les diffrentes formules de
cette liste peuvent tre nommes, ce qui permet de clarifier laffichage des rsultats.
Largument model est fix "random" de manire estimer le mod le sur
erreurs composes. Enfin, les arguments restrict.matrix et restrict.rhs permettent
dindiquer la matrice R et le vecteur q qui dfinit les contraintes linaires du
modle. Dans le cas o tous les lments du vecteur q sont nuls, ce qui est le cas
ici, largument restrict.rhs peut tre omis.
> z <- plm(list(cost = C ~ pl +
+
shlab = sl ~ pl
+
shcap = sk ~ pl
+
TexasElectr, model =
+
restrict.matrix = R)
> summary(z)
pk + q + pll + plk + pkk + qq,

+ pk,
+ pk),
"random",

Call:
plm.list(formula = list(cost = C ~ pl + pk + q + pll + plk +
pkk + qq, shlab = sl ~ pl + pk, shcap = sk ~ pl + pk), data = TexasElectr,
model = "random", restrict.matrix = R)
60

Effects:
Estimated standard deviations of the error
cost
shlab
shcap
id
0.23813 0.024350 0.078911
idios 0.17413 0.056133 0.078592
Estimated correlation matrix of the individual effects
cost
shlab shcap
cost
1.00000
.
.
shlab -0.27381 1.00000
.
shcap -0.53206 0.71985
1
Estimated correlation matrix of the idiosyncratic effects
cost
shlab shcap
cost
1.00000
.
.
shlab -0.47376 1.00000
.
shcap -0.69301 0.91543
1
- cost
(Intercept) -0.4889327 0.0726261 -6.7322 4.385e-11
pl
0.2238329 0.0074131 30.1943 < 2.2e-16
pk
0.5935533 0.0201037 29.5246 < 2.2e-16
q
1.2524625 0.0288140 43.4672 < 2.2e-16
pll
0.0845448 0.0075629 11.1789 < 2.2e-16
plk
-0.0877305 0.0076570 -11.4576 < 2.2e-16
pkk
0.0869210 0.0090932
9.5589 < 2.2e-16
qq
0.0690853 0.0314857
2.1942
0.02866
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 .
***
***
***
***
***
***
***
*
0.1 1
- shlab
(Intercept) 0.2238329 0.0074131 30.194 < 2.2e-16 ***
pl
0.0845448 0.0075629 11.179 < 2.2e-16 ***
pk
-0.0877305 0.0076570 -11.458 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
- shcap
(Intercept) 0.5935533 0.0201037 29.5246 < 2.2e-16
pl
-0.0877305 0.0076570 -11.4576 < 2.2e-16
pk
0.0869210 0.0090932
9.5589 < 2.2e-16
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 .
***
***
***
0.1 1
Chapitre 4
Tests sur le modle erreurs

composes
4.1
Tests deffets individuels et/ou deffets temporels
Afin de tester la prsence deffets individuels et/ou temporels, deux approches sont
possibles :
la premire est de partir du modle qui estime ces effets (modle within) et de
raliser un test dhypothse jointe que lensemble de ces coefficients estims sont
nuls,
le second est de partir du modle des moindres carrs ordinaires et dinfrer sur
lexistence des effets partir des caractristiques des rsidus de cette estimation.
4.1.1
Tests de F
w
Le modle
P
P w 2within est caractris par une somme des carrs des rsidus : SCR =
n
t ent et le nombre de degrs de libert est de N (T 1) K, o K est
le nombre de variables explicatives. On pose comme hypothse nulle labsence
deffets individuels. Le modle contraint est donc le modle des moindres carrs
ordinairess, dont la somme des carrs des rsidus et le nombre de degrs de libert
P P
2
scrivent respectivement : SCRp = n t eP
nt et N T K 1. Si H0 est vraie,
on a alors la statistique :
SCRP SCRW N T K 1
SCRw
N 1
qui suit un F de Fisher Snedecor avec N 1 et N T K 1 degrs de libert.
62
4.1.2
Tests de Breush-Pagan
Le test de Breusch & Pagan (1980) est un test de multiplicateur de Lagrange, bas
sur les rsidus des moindres carrs ordinaires.
ln L
,
Le test de multiplicateur de Lagrange est bas sur le vecteur de scores g() =
cest--dire de drives de la fonction de log de vraisemblance, valu pour un
modle contraint. La variance du vecteur de score est donn par :

ln L
H() = E
()
>
On estime un modle contraint caractris par un vecteur de paramtres ; on a
alors, si les hypothses sous jacentes sont vraies :
N (0, H())
g()
le score et sa variance valus pour le modle
Soit encore, en notant g et H
contraint :
1 g
g> H
qui suit un 2 dont le nombre de degrs de libert est gal au nombre dhypothses
imposes dans le cadre du modle contraint.
Dans le cas du modle effets individuels, on rappelle que la vraisemblance scrit,
2
en notant 2 = T 2 +
2 :
ln L =
NT
N (T 1)
N
1 XX
2
ln 2
ln 2 + ln(T 2 +2 ) 2
(ent (1 )
en. )
2
2
2
2 n t
Le gradient est donc :

ln L
2
ln L
2
g() =
!
=
w
N
+ SSR
24
212
b
T
+ T SSR
N
212
214
1)
N (T
2 2
SSRb
214
Pour calculer la variance, on commence par calculer la matrice de drives secondes :

!
w
b
1)
NT
T SSRb
N (T
+ N4 SSR
SSR
6
4
6
6
ln L
24
1
1
1
1
=
b
2
b
2
NT
NT 2
>
T SSR
T SSR
N2T4
2 4
6
2 4
6
1
En prenant loppos de lesprance de cette matrice, on obtient lexpression de la

variance. Pour cela, on note que E(SSRw ) = N (T 1)2 et E(SSRb ) = N 12 :
!
1)
N
T
N (T
2
N
4
4
24
2
1
1
H() =
2
T
N
N2T4
2 4
1
Chapitre 4. Tests sur le modele a erreurs composees
63
Pour calculer la statistique, on pose lhypohse : H0 : 2 = 0 (absence deffets individuels). Dans ce cas, lestimateur est lestimateur des moindres carrs ordinaires
et lestimateur de
2 = SSRp /N T . Le score et sa variance scrivent alors :
!
0

=
g()
NT
T SSRb
2
2 1
2

NT
1 1
H() =
1 T
2
4
Dont linverse est :
1 =
H()
2
4
N T (T 1)
T
1
1
1
La statistique calcule scrit donc finalement :

BP =
NT
2
2

1
T SSRb
2
2
2
4
N T (T 1)

=
NT
2(T 1)

1
T SSRb
SSRp
2
qui suit asymptotiquement un 2 1 degr de libret.

Le problme de cette statistique est que lhypothse alternative stipule que la
variance des effets individuels est non-nulle, cest--dire quelle peut tre positive ou
ngative ; or une variance est ncessairement non ngative. Une solution propose
par Honda (1985) consiste considrer la racine carre de la statistique prcdente
et de raliser un test unilatral en utilisant une loi normale. On a donc H = BP

et la valeur critique au seuil de 5% considrer est alors de 1.64.
4.1.3
Application
Le test de F est disponible avec la fonction pFtest . Il prend comme argument deux
modles embot et ralise un test dhypothses jointes pour les effets individuels
estims dans un seul des modles. Par exemple, le test dabsence deffets individuels
peut tre ralis en utilisant le modle pooling et le modle within avec effets
individuels.
> pFtest(rice.w, rice.p)
F test for individual effects
data: log(goutput) ~ log(seed) + log(totlabor) + log(size)
F = 1.6623, df1 = 170, df2 = 852, p-value = 2.786e-06
alternative hypothesis: significant effects
On constate sans surprise que lhypothse dabsence deffets individuels est trs
fortement rejete.
Pour tester lhypothse dabsence deffets individuels et temporels, on utilisera :
64

> pFtest(rice.wd, rice.p)
F test for twoways effects

F = 4.2604, df1 = 175, df2 = 847, p-value < 2.2e-16
Pour tester lhypothse dabsence deffets temporels, mais en supposant quil y a

des effets individuels, on compare le modle within individuel et le modle double
within :
> pFtest(rice.wd, rice.w)
F test for twoways effects

F = 69.7794, df1 = 5, df2 = 847, p-value < 2.2e-16
L encore, lhypothse est trs fortement rejete.

Le test de Breusch & Pagan (1980) est obtenu en utilisant la fonction plmtest .
Largument de cette fonction est un modle estim par les moindres carrs ordinaires, mais on peut galement fournir une formule et un tableau de donnes. Par
dfaut, la version de Honda (1985) est calcule. Le type deffets que lon souhaite
tester est comme dhabitude renseign par largument effect :
> plmtest(rice.p)
Lagrange Multiplier Test - (Honda)

normal = 4.8396, p-value = 1.301e-06
> plmtest(log(goutput)~log(seed)+log(totlabor)+log(size), Rice)
Lagrange Multiplier Test - (Honda)

normal = 4.8396, p-value = 1.301e-06
> plmtest(rice.p, effect = "time")
65
Lagrange Multiplier Test - time effects (Honda)

normal = 58.6822, p-value < 2.2e-16
> plmtest(rice.p, effect = "twoways")
Lagrange Multiplier Test - two-ways effects (Honda)

normal = 44.9166, p-value < 2.2e-16
4.2
Modle erreurs composes vs modles coefficients variables
Le modle erreurs composes impose que tous les paramtres du modle (

lexception de lordonne lorigine) sont les mmes dun individu un autre.
Dans ce cas, on peut estimer un seul modle pour lensemble de lchantillon, avec
ventuellement des constantes spcifiques. Lalternative est de considrer que le
modle appliquer chaque individu est spcifique, cest--dire que des paramtres
spcifiques chaque individu doivent tre estims. On parle alors de modles
coefficients variables.
Dans ce cadre, le modle non-contraint consiste estimer un modle diffrent pour
chaque individu par les moindres carrs ordinaires. On obtient alors SCRnp =
>
>
e>
1 e1 + e2 e2 + . . . en en . Pour ce modle, le nombre de degrs de libert est :
N (T K 1). Le modle contraint est soit le modle des moindres carrs ordinaires
(SCRP avec N T K 1 degrs de libert), soit le modle within (SCRw avec
N (T 1) K degrs de libert), suivant que lon suppose ou non labsence deffets
indiviuels. La statistique de test scrit alors (en utilisant le modle within comme
modle non-contraint) :
SCRP SCRw N (T K 1)
SCRw
(N 1)K
Il sagit dun test de stabilit (appel souvent test de Chow) dont la distribution
est un F (N 1)K et N (T K 1) degrs de libert sous H0 .
La fonction permettant de raliser ce test est appele pooltest . La premire manire dutiliser cette fonction est de lui fournir deux modles : un modle o lestimation est ralise individu par individu et un modle soit de moindres carrs
ordinaires, soit un modle within. Dans le premier cas, sous H0 , tous les paramtres
sont supposes tre identiques, y compris les constantes. Le modle non contraint
est estim laide de la fonction pvcm (pour variable coefficients model). Cette
66
fonction permet destimer deux modles suivant la valeur du paramtre mode ;

la valeur approprie ici est "within", lautre modle ferra lobjet de la section
suivante. Pour le tableau de donnes USAirlines , on obtient :
> air.np <- pvcm(log(cost)~log(output), Air, model="within")
La fonction pvcm dispose de mthodes print et summary permettant danalyser

la dispersion des coefficients estims pour chaque individu :
> air.np
Model Formula: log(cost) ~ log(output)
<environment: 0x29a8530>
Coefficients:
(Intercept) log(output)
1
14.021
2.0498
2
14.437
1.9510
3
15.175
1.9765
4
15.788
1.6218
5
15.617
1.4235
6
15.521
1.2994
> summary(air.np)
Oneway (individual) effect No-pooling model
Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "within")
Residuals:
Min.
1st Qu.
-0.384100 -0.106600
Coefficients:
(Intercept)
Min.
:14.02
1st Qu.:14.62
Median :15.35
Mean
:15.09
3rd Qu.:15.59
Max.
:15.79
Median
0.003459
Mean
0.000000
3rd Qu.
0.088070
Max.
0.334500
log(output)
Min.
:1.299
1st Qu.:1.473
Median :1.786
Mean
:1.720
3rd Qu.:1.970
Max.
:2.050
Total Sum of Squares: 9745.3

Multiple R-Squared: 0.9998
Le test de stabilit peut alors tre ralis en passant la fonction de test air.np
et air.pooling ou air.within selon que lon souhaite ou non poser sous H0
lhypothse dabsence deffets individuels.
67
> pooltest(air.pooling, air.np)
F statistic
data: log(cost) ~ log(output)
F = 33.139, df1 = 10, df2 = 78, p-value < 2.2e-16
alternative hypothesis: unstability
> pooltest(air.within, air.np)
F statistic
F = 8.3319, df1 = 5, df2 = 78, p-value = 2.388e-06
alternative hypothesis: unstability
Lhypothse de stabilit est trs fortement rejete, mme dans sa version la plus
faible (constantes spcifiques). Les mmes tests peuvent tre raliss avec une interface formula-data, en prcisant grce largument model quel modle contraint
doit tre utilis.
> pooltest(log(cost)~log(output), Air, model = "within")
> pooltest(log(cost)~log(output), Air, model = "within")
4.2.1
Modles coefficients variables
Swamy (1970) a propos un modle dans lequel tous les coefficients du modle
sont propres lindividu. On a alors :
ynt = n> xnt + nt
On ferra lhypothse que nt N (0, 2 ), autrement dit nous ne faisons pas lhypothse dhomoscdasticit dans ce modle. On supposera galement que n
N (, ), soit encore n = n N (0, ). Le modle se rcrit alors :
ynt = > xnt + nt
avec nt = nt + n> xnt . Les erreurs du modles sont donc htroscdastiques
(en particulier parce que nous navons pas impos lhomoscdasticit de ) et les
erreurs dun mme individu sont corrles car elles contiennent le mme vecteur
de paramtres n . Pour un individu n, la matrice de variance des erreurs scrit
donc :
>
> >
n = E(n >
n ) = E (n + Xn n ) n + n Xn
et tant par hypothse non corrls, on obtient :
68
2
>
n = E(n >
n ) = n IT + Xn Xn
Pour lensemble de lchantillon, = E(> ) est une matrice bloc-diagonale,

chaque bloc ayant comme expression n .
Lestimation de ce modle par les moindres carrs ordinaires est inefficace car
elle ne prend pas en compte lhtroscdasticit et la corrlation des erreurs. La
mthode des moindres carrs gnraliss consiste calculer 0.5 et estimer
le modle par la mthode des moindres carrs ordinaires en prmultipliant les
variables par 0.5 . Cette matrice tant bloc-diagonale, on peut galement calculer
n0.5 et pr-multiplier les variables pour lindividu n par n0.5 . Bien videmment
n tant inconnu, le modle des moindres carrs gnraliss nest pas oprationnel.
En revanche, on peut utiliser la mthodes des moindres carrs quasi-gnraliss
en remplaant 0.5 par une estimation base sur les rsultat dune estimation
convergente du modle. Cela revient ici estimer les N n2 et les lments de la
matrice , soit au total N + K(K + 1)/2 paramtres.
A cet effet, on commence par estimer par les moindres carrs ordinaires le modle
pour chaque individu. On obtient alors :
n = (Xn> Xn )1 Xn> yn = n + (Xn> Xn )1 Xn n
Un estimateur naturel de n2 est alors :
n2 =
T
X
e2nt /(T K 1)
Une fois ces estimations obtenues, on peut galement calculer leur moyenne :
N
1 X
n
=
N n=1
Lestimation de est base sur lexpression :
zn = n
qui scrit, en dveloppant et en regroupant les termes :
zn

PN
>
= n + (Xn> Xn )1 Xn> n N1 n=1 nP+ (Xn> Xn )1 X
n n
P
>
>
= NN1 n + NN1 (Xn> Xn )1 Xn> n N1 m6=n m N1 m6=n (Xm
Xm )1 Xm
m
Lintrt de cette dernire expression est dcrire zn comme une combinaison linaire de diffrentes variables alatoires non corrles. Le calcul de la variance de
z en est largement simplifi car les covariances sont toutes nulles. On a alors :
E(zn2 ) =
N 1
N
2

+
N 1
N
2
n2 (Xn> Xn )1 +
69
1 X 2
N 1
>
+ 2
m (Xm
Xm )1
2
N
N
m6=n
Soit finalement, en regroupant les termes :

E(zn2 ) =
N 1
N 2 2 >
1 X 2 >
+
n (Xn Xn )1 + 2
(X Xn )1
N
N
N n n n
On a alors :
E
2
n zn
=
=
E
(N 1) +
(N 1) +
N 2
N
N 1
N
1 X 2
z
N 1 n n
P 2 >
1
Pn n2 (Xn> Xn )1 +
n n (Xn Xn )
!
=+
1
N
n2 (Xn> Xn )1
1 X 2 >
(X Xn )1
N n n n
Ce qui permet dobtenir lestimateur de :

=
1 X 2
1 X 2 >
zn
(X Xn )1
N 1 n
N n n n
Le modle de Swamy (1970) est estim avec la fonction pvcm et largument model
gal "random".
> summary(pvcm(log(cost)~log(output), Air, model="random"))
Oneway (individual) effect Random coefficients model

Call:
pvcm(formula = log(cost) ~ log(output), data = Air, model = "random")
Residuals:
id
time
0.95300854 0.01073151
Estimated mean of the coefficients:
Estimate Std. Error z-value Pr(>|z|)
(Intercept) 15.03427
0.28734 52.322 < 2.2e-16 ***
log(output) 1.65227
0.12350 13.379 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Estimated variance of the coefficients:
(Intercept) log(output)
70

(Intercept)
log(output)
0.48610
-0.18913
-0.189126
0.080597
Total Sum of Squares: 9745.3

Multiple R-Squared: 0.99209
On constate que la dispersion du coefficient associ la production est trs importante. Elle correspond un cart-type de de 0.28, la valeur moyenne du coefficient
tant de 1.65.
4.3
Modle effet fixe vs modle effets alatoires
On a vu que, si les erreurs du modles ne sont pas corrles aux variables explicatives, les deux modles sont convergents. Pour comparer les deux modles,
on continuera de supposer que la composante idiosyncratique du terme derreur
(E(X > ) = 0) est non corrle avec les variables explicatives. Deux situations
peuvent alors tre distingues :
E(X > ) = 0 : les effets individuels ne sont pas non plus corrls avec les variables
explicatives ; dans ce cas, les deux modles sont convergents, mais le modle
effets alatoires est plus efficace que le modle effets fixes.
E(X > ) 6= 0 : les effets individuels sont corrls avec les variables explicatives ;
dans ce cas, le modle effet fixe est convergent car les effets individuels sont
des paramtres estims. En revanche, le modle effets alatoires nest pas
convergent car une composante des erreurs de ce modle sont les effets individuels qui sont corrls avec la variable explicative.
Afin de clarifier la relation entre les deux modles, Mundlak (1978) a considr le
modle suivant :
ynt = x>
nt + n + nt
avec
n = x
n. n + n
Autrement dit, les effets individuels sont corrls avec les variables explicatives,
plus prcisment, ils sont gaux la somme dune combinaison linaire des moyennes
individuelles de ces variables explicatives et dun terme derreur n . Le modle
estimer scrit alors, sous forme matricielle :
y = X + BX + (IN JT ) +
Le terme derreur = (IN JT ) + a les caractristiques habituelles du modle
erreurs composes, cest--dire une esprance nulle et une variance donne par :
= 2 IN T + 2 ((IN JT ) = 2 W + 12 B
71
Le modle des moindres carrs gnraliss consiste estimer le modle sur les
donnes transformes en pr-multipliant chaque variable par 0.5 = W + 1 B
On a alors y = W y + By, X = W X + BX et (BX) = BX. Lestimateur
des moindres carrs gnraliss scrit alors :

X > W + X > B
X > B

=

=

W X + BX
X > W X + 2 X > BX
2 X > BX
2 X > BX
2 X > BX
1
X > W + X > B
X > B
BX
1
X > W y + 2 X > By
2 X > By
(W y+B
on utilise le rsultat suivant concernant linverse

Afin dobtenir lexpression de ,
dune matrice partitionne :

A11
A21
A12
A22
1

=
1
(A11 A12 A1
22 A21 )
1
1
(A22 A21 A11 A12 ) A21 A1
11
1
1
A1
11 A12 (A22 A21 A11 A12 )
1
1
(A22 A21 A11 A12 )
On obtient finalement :

=
(X > W X)1
(X > W X)1

=
(X > W X)1
>
(X W X)1 + 12 (X > BX)1
(X > W X)1 X > W y

>
1 >
(X BX) X By (X > W X)1 X > W y

X > W y + 2 X > By
2 X > By

=
w
b
et

V
= 2
(X > W X)1
(X > W X)1
(X > W X)1
>
(X W X)1 + 12 (X > BX)1
Le rsultat fondamental de Mundlak (1978) est donc que si on prend correctement

en compte la corrlation entre les termes derreurs et les variables explicatives,
le modle des moindres carrs gnraliss est le modle effets fixes. Il donne
galement une piste pour tester la prsence de corrlation ; en effet, labsence de
corrlation revient tester : H0 : = 0. Sous H0 , on a :
> V (
)1
qui suit un 2 K degrs de libert. Or, on a

= b w et V(
) = V(w )+V(b
Cette statistique de test est une des version du test propos par Hausman (1978).
Le principe gnral de ce test consiste comparer deux modles A et B avec,
72
sous H0 : A et B sont convergents, mais B est plus efficace que A,

sous H1 : seul A est convergent.
Lide du test est que, si H0 est vraie, les coefficients estims dans les deux modles
seront proches. Dans le cas inverse, on sattend des diffrences importantes. Le
test est donc bas sur A b et Hausman a montr que, sous H0 , la variance de
cette diffrence est simplement gale : V(A b ) = V(A ) V(b ).
La version la plus commune de ce test est bas sur la comparaison des modles
within et du modle de moindres carrs gnraliss. La diffrence entre les deux
scrit : q = w g . Sous lhypothse dabsence de corrlation entre les variables
explicatives et le terme derreur, on a plim q = 0. La variance de q scrit :
V(
q ) = V(w ) + V(g ) 2cov(w , g )
Pour dterminer ces variances et ces covariances, on crit les deux estimateurs
en fonction des erreurs : g = (X > 1 X)1 X1 et w = (X > W X)1 XW .
On a alors V(g ) = (X > 1 X)1 , V(w ) = 2 (X > W X)1 et cov(w , g ) =
(X > 1 X)1 . La variance de q scrit donc simplement :
V(
q ) = 2 (X > W X)1 (X > 1 X)1
et la statistique de test est simplement :
q> V(
q )
q
qui, sous H0 , suit un 2 K degrs de libert.
Le test dhausman est ralis avec la fonction phtest , qui prend pour argument
deux modles.
> phtest(air.within, air.random)
Hausman Test
chisq = 596.4829, df = 1, p-value < 2.2e-16
alternative hypothesis: one model is inconsistent
> phtest(rice.w, rice.r)
Hausman Test
chisq = 3.775, df = 3, p-value = 0.2868
On constate que lhypothse de non corrlation des variables explicatives avec leffet individuel est trs fortement rejete dans le cas des donnes sur les compagnies
ariennes, alors quelle ne lest pas avec les donnes sur les fermes de riz. Ce rsultat tait prsivible puisque les rsultats des modles effets fixes et effets
alatoires taient trs diffrents dans le premier cas et trs proches dans le second.
Chapitre 5
Autocorrlation et
htroscdasticit
74
Chapitre 6
Endognit
6.1
Introduction
On parle dendognit lorsque lerreur du modle est corrle avec (au moins) une
variable explicative. Ce phnomne est particulirement courant en conomtrie,
dans la mesure o, contrairement aux chercheurs en sciences exprimentales, lconomtre na pas la possibilit de contrler le processus gnrateur de donnes. Les
causes possibles dendognit sont multiples, on citera simplement pour mmoire
les trois principales :
la simultanit . Lquation dintrt comporte une variable explicative qui est
dtermine simultanment avec la variable explique : cest le cas par exemple
de lestimation dune quation de demande pour un bien, qui contient le prix
de ce bien. La quantit demande et le prix sont simultanment dtermins
par lgalisation de loffre et de la demande et, par consquent, une variation
du terme derreur de lquation de demande se traduira par un dplacement
de la courbe de demande et donc par une variation de la quantit et du prix
dquilibre.
lerreur de mesure sur une variable explicative . Si le vrai modle est y =
+ x + et que lon observe x = x + , le modle estim scrit alors :
y = + (x ) + , soit encore y = + x + avec = et est
corrl avec x.
les variables explicatives omises . Si le vrai modle est y = + x x + z z +
et que la variable z nest pas observe, le modle estim est y = 0 + x x + ,
avec = z z + . Lerreur du modle estim contient alors linfluence de la
variable omise et cette erreur est alors corrle x si x et z sont corrls.
Lestimateur du modle linaire simple y = X + scrit :
= X > X
1
X >y
76
En remplaant y par son expression, on obtient en fonction des erreurs du

modle :
1 >
= + X > X
X
On a alors, en notant n la taille de lchantillon :
= +
1 >
X X
n
1
X >
n
>
On a alors un estimateur convergent plim = si limn+ Xn = 0, cette

expression tant le vecteur de covariances pour la population entre les variables
explicatives et lerreur. La convergence du modle linaire simple ncessite donc
labsence de corrlation entre les variables explicatives et lerreur. Dans le cas o
cette condition nest pas vrifie, on recours la mthode des variables instrumentales qui sera dveloppe en dtail dans ce chaptre.
Le cas de la simultanit pose un problme supplmentaire car le modle est dfini
non pas par une quation, mais par un systme dquation. Dans ce cas, deux
stratgies sont possibles :
estimer uniquement lquation dintrt (on parle de modle information limite),
estimer simultanment lensemble des quations du modle (on parle alors de
modle information complte).
Cette dernire situation prsente lavantage dtre a priori plus efficace, car elle
permet de prendre en compte la corrlation entre les erreurs des diffrentes quations. En revanche, si une quation est mal spcifie, ce problme de mauvaise
spcification peut se diffuser au niveau de lestimation des paramtres des autres
quations du modle.
6.2
Estimation dune quation isole
Nous considrons dans un premier temps lestimation dune seule quation du

systme. Comme dans le cas du modle erreur compose classique, on peut distinguer les variations intra et inter-individuelles et estimer alors respectivement
un modle within et un modle between. On peut galement combiner au mieux
ces deux sources de variation en utilisant un estimateur des moindres carrs gnraliss.
Gnralits sur lestimateur des variables instrumentales
Variables instrumentales et doubles moindres carrs On considre le modle suivant : y = X + avec V () = 2 I. Si au moins une des variables explicatives est corrle avec les erreurs, lestimateur ols nest pas convergent. Afin
dobtenir un estimateur convergent, on utilise la mthode des variables instrumentales. Les variables instrumentales sont notes Z. On notera K le nombre de
Chapitre 6. Endogneite
77
variables explicatives et L K le nombre dinstruments. Les variables instru>

mentales doivent vrifier : limn+ Zn = 0, autrement dit, elles ne doivent pas
prsenter de corrlation avec les erreurs 1 . Dans le cas le plus simple o le nombre
de colonnes de X et de Z est le mme, lestimateur des variables instrumentales
est simplement obtenu en rsolvant le systme dquations : Z > e = 0 qui est juste
identifi. En dveloppant, on obtient Z > (y X) = 0, soit encore :
= Z > X
1
Z >y
(6.1)
Sil y a plus dinstruments que de variables explicatives (L > K), Z > e ne peut pas
tre un vecteur de 0. Dans ce cas-l, deux approches permettent de dterminer
lestimateur optimal. La premire consiste pr-multiplier le modle par Z > .
Z > y = Z > X + Z >
(6.2)
Il sagit dun modle contenant L lignes et K paramtres estimer . Si on le

considre
comme un modle de rgression classique, la variance de lerreur tant
V Z > = 2 Z > Z, le meilleur estimateur linaire est celui des moindres carrs
gnraliss (gls) et on obtient alors lestimateur des variables instrumentales :
iv
=
=
1 > 1 >
1 >
X >Z Z >Z
Z X
X Z Z >Z
Z y
1

>
>
X PZ X
X PZ y
(6.3)
1 >
avec PZ = Z Z > Z
Z .
La seconde approche est celledes moments gnraliss.
On considre en effet un

vecteur de L moments E Z > = E Z > (y X) , dont la variance est V(Z > ) =
2 Z > Z. Dans le cadre de la mthode des moments gnraliss, on minimise la
forme quadratique du vecteur de moments en utilisant linverse de la matrice de
variance de ces moments :
1
1
1 >
(y > X > )Z Z > Z
Z(y X) = 2 (y > > X > )PZ (y X)
2
Les conditions de premier ordre pour un minimum scrivent : 2X > PZ (yX) =

0 et en rsolvant ce sytme dquations linaires, on obtient le mme estimateur
que prcdemment.
Cet estimateur est galement appel lestimateur des doubles moindres carrs (twostage least squares ou 2sls) car il peut tre obtenu en appliquant deux fois la
mthode des moindres carrs. Lorsque lon considre la rgression dune variable
1 >
v en fonction de Z, on obtient un estimateur = Z > Z
Z v et des valeurs
1 >
>
Z v = PZ v. La matrice PZ est donc la maprdites vZ = Z = Z Z Z

trice de projection dans le sous-espace dfini par les colonnes de Z. Cette matrice
1. En gnral, certaines variables explicatives ne sont pas corrles avec les erreurs du modle
et seront donc galement utilises comme instrument.
78
est symtrique et idempotente, cest--dire que PZ PZ = PZ . Lestimateur des va Z = PZ X

riables instrumentales (6.3) peut donc galement scrire, en notant X
les valeurs prdites des diffrentes variables explicatives en fonction des diffrentes
variables instrumentales :

1

1
z> X
Z
Z> y = X
Z> X
Z
Z> yZ
2sls = X
X
X
(6.4)
et peut donc tre obtenu en appliquant les moindres carrs ordinaires deux fois :
la premire fois en rgressant chaque variable explicative par rapport aux instruments,
la seconde fois en rgressant la variable explique par rapport aux valeurs prdites de la premire estimation.
La variance de lestimateur des variables instrumentales est :

1
>X
z
V = 2 X
z
On voit alors que lestimateur sera dautant plus efficace que la corrlation entre
X et Z est importante.
Estimateur des variables instumentales gnralis Dans le cas o les erreurs ne sont pas indpendament et identiquement distribues, la variance de
est note de manire gnrale et celle des erreurs du modle (6.2) est gale
Z > Z. Lestimateur des variables instrumentales gnralise est alors obtenu, soit
en appliquant les gls au modle (6.2), soit en utilisant la mthode des moments
gnraliss en minimisant :
1
1 >
(y > X > )Z Z > Z
Z(y X)
2
Dans les deux cas, lestimateur scrit :

1 > 1 >
1 >
g2sls = X > Z Z > Z
Z X
X Z Z > Z
Z y
(6.5)
La formule prcdente fait apparatre des matrices carrs de dimensions gales la

taille de lchantillon. Elle peut donc savrer inapplicable pour de gros chantillons
et en tout cas elle est numriquement inefficace. Cet estimateur sera de prfrence
calcul en utilisant la dcomposition de Cholesky de , cest--dire en calculant
la matrice diagonale suprieure L qui vrifie LL> = I soit encore L> LL> L =
L> L et donc L> L = 1
Lestimateur des variables instrumentales gnralises peut tre obtenu en appliquant lestimateur des variables instrumentales sur le modle Ly = LX + L en
1
utilisant comme instruments Z = L>
Z. La matrice de projection dfinie par
ces instruments est alors :

1

1 >
1
1 > > 1
Z Z > L>
L
Z
Z > L>
PZ = L>
Or :

L>
1 >
L>
1
On a donc :
PZ = L>
1
Z Z > Z
1
79
Z>
L>
1 >
En utilisant cette matrice de projection dans la formule de lestimateur des variables instrumentales (6.3), on obtient :

1
1
1 > > 1 >
=
X > L> L>
Z Z > Z
Z
L
LX

(6.6)
1
1 > > 1 >
X > L> L>

Z Z > Z
Z
L
Ly
soit finalement :

1 > 1 >
1 >
= X > Z Z > Z
Z X
X Z Z > Z
Z y
qui correspond bien la formule (6.5) de lestimateur des variables instrumentales
gnralises. En pratique, comme dans le cas du modle des moindres carrs gnraliss, est inconnu et donc tre estim, en utilisant les rsultats dune estimation
prliminaire convergente.
Estimateur des variables instrumentales efficace Un estimateur plus gnral est obtenu en pr-multipliant le modle par (U Z)> , U tant une matrice de
transformation de dimension n n :
Z > U > y = Z > U > X + Z > U >
(6.7)
La variance des erreurs de ce modle est alors : Z > U > U Z et lestimateur obtenu :

1 > > 1 >
1 > >
= X > U Z Z > U > U Z
Z U X
X U Z Z > U > U Z
Z U y
En choisissant U = 1 , on obtient lestimateur des variables instrumentales efficace :

1 > 1 1 > 1
1 > 1
e2sls = X > 1 Z Z > 1 Z
Z X
X Z Z > 1 Z
Z y
(6.8)
Lestimateur des variables instrumentales gnralises peut tre obtenu en appliquant lestimateur des variables instrumentales sur le modle Ly = LX + L en
utilisant comme instruments LZ, autrement dit en appliquant la mme transformation aux diffrents lments du modle (variable explique, variables explicatives
et instruments) 2 .
2. Cet estimateur est prsent en dtail par White (1986).
80
6.2.1
Les modles within et between
La variation au sein de lchantillon pouvant se dcomposer en une variation inter

et intra-individuelle, il est naturel de commencer par prsenter les estimateurs qui
ne prennent en compte quune seule de ces deux sources de variation, cest--dire
les estimateurs des variables instrumentales between et within. Pour lestimateur
within, chaque variable du modle est mesure en cart par rapport la moyenne,
cest dire prmultiplie par W . On a donc W y = W X +W avec W Z la matrice
dinstruments. En prmultipliant le modle par (W Z)> , on obtient :
Z > W y = Z > W X + Z > W
(6.9)
Lestimateur des variables instrumentales within est obtenu en appliquant les

moindres carrs gnraliss cette quation, la variance des erreurs de ce modle tant 2 Z > W Z :

1

1 >
1 >
w2sls = X > W Z Z > W Z
Z WX
X >W Z Z >W Z
Z Wy
Soit encore :
w2sls = X > W PZW W X
1

1

X > W PZW W y = X > PZW X
X > PZW y (6.10)
1 >
Z W . La dernire galit est obtenue en notant que
avec PZW = W Z Z > W Z
W est idempotente.
Un raisonnement similaire peut tre men pour le modle between. On considre la
transformation between du modle By = BX + B, avec la mme transformation
applique aux instruments (BZ). Lestimateur des variables instrumentales est
obtenue en pr-multipliant le modle par BZ :
Z > By = Z > BX + Z > B
(6.11)
et en appliquant ce modle lestimateur des moindres carrs gnraliss :

1
1 >
1 >
b2sls = X > BZ Z > BZ
Z BX
X > BZ Z > BZ
Z By
Soit encore :
b2sls = X > PZB X
1
X > PZB y
(6.12)
Le modle w2sls est convergent, mme si les effets individuels sont corrls avec
les variables explicatives. En revanche, le modle b2sls ne lest quen labsence de
corrlation. Si cette dernire hypothse est vrifie, aucun des deux nest efficace
car chacun ne prend en compte quune source de la variabilit.
Exemple 6.1
Cohen & Einav (2003) se sont intresss linfluence du port de la ceinture de
scurit sur le nombre de morts sur les routes aux Etats-Unis, en distinguant les
81
occupants des vhicules concerns par les accidents (environ 35000 morts par an) et
les non-occupants (environ 5000 morts par an). Ils utilisent des donnes de panel
pour les 50 Etats amricains pour la priode 1983-1997. La principale variable
explative est le taux dutilisation de la ceinture de scurit. Deux questions font
principalement lobjet de leur attention :
la premire concerne le test de la thorie de la compensation du comportement
dveloppe par Peltzman (1975). Daprs cette thorie, le port de la ceinture
met le conducteur plus en confiance et lamne adoter une conduite moins
prudente. Si leffet du port de la ceinture sur la mortalit des conducteurs en
cas daccident est naturellement ngatif, leffet global sur la mortalit peut tre
insignifiant, voir positif. En particulier, il est possible que le dveloppement du
port de la ceinture de scurit augmente la mortalit des non-occupants.
la seconde concerne la question de lendognit : si les conditions de conduite se
dgradent, par exemple pour des raisons mtorologiques, toutes choses gales
par ailleurs, la mortalit sur les routes va augmenter, mais lusage de la ceinture
de scurit va galement augmenter car les automobilistes peroivent laggravation du risque daccident. On a donc une corrlation entre le terme derreur de
lquation de mortalit et la variable explicative qui mesure le taux dusage de
la ceinture de scurit. Dans ce cas, la non prise en compte de lendognit se
traduira par un biais vers le bas de lestimation du coefficient associ lusage
de la ceinture de scurit.
Cohen & Einav (2003) proposent trois types destimation. La premire est une
estimation par les moindres carrs ordinaires qui ne prend donc nullement en
compte le problme dendognit. La seconde est une estimation du modle effets fixes ; dans le cadre de celle-ci, le problme dendognit entre la composante
individuelle du terme derreur et la variable explicative est pris en compte car la
transformation within limine leffet individuel. En revanche, subsiste le problme
de la corrlation entre la composante idiosyncratique du terme derreur et la variable explicative. Ce dernier problme est rsolu en estimant un modle w2sls.
Les instruments utiliss sont des variables de lois concernant la ceinture, qui sont
corrles avec lusage de la ceinture de scurit, mais pas avec le terme derreur. De
nombreuses variables de contrle sont galement introduites (voir la page daide
des donnes pour plus de prcision).
Lestimation dun modle avec variables instrumentales est ralise laide de la
fonction plm . Les variables instrumentales sont spcifies laide dune formule en
deux parties, disponible grce la librairie Formula (Zeileis & Croissant, 2010)).
La premire partie indique la liste des variables explicatives du modle alors que
la seconde indique la liste des variables instrumentales. Trs souvent, une partie
importante des variables explicatives sont utilises comme instrument. Afin dviter de rpter quasimment deux fois la mme liste de variables, il est possible
dutiliser une syntaxe diffrentielle en utilisant le signe .. Par exemple, si les variables explicatives sont x1, x2 et x3, que seule x2 est endogne et quil existe un
seul instrument extrieur z, la description du modle peut tre ralise de manire
quivalente laide des deux formules ci-dessous :
82

> y ~ x1 + x2 + x3 | x1 + x3 + z
> y ~ x1 + x2 + x3 | . - x2 + z
Cohen & Einav (2003) estiment successivement trois modles. Le premier est un
modle avec des effets fixes temporels (qualifi par les auteurs de modle mco
car il ny a pas de prise en compte des effets individuels), le second est un modle doubles effets fixes individuels et temporels et le dernier est un modle
doubles effets fixes avec des variables instrumentales afin de prendre en compte
lendognit du port de la ceinture de scurit.
>
>
>
+
+
+
+
+
>
>
>
+
+
data("SeatBelt", package = "pder")

SeatBelt$occfat <- with(SeatBelt, log(farsocc / (vmtrural + vmturban)))
ols <- plm(occfat ~ log(usage) + log(percapin) + log(unemp) + log(meanage) +
log(precentb) + log(precenth)+ log(densrur) +
log(densurb) + log(viopcap) + log(proppcap)+
log(vmtrural) + log(vmturban) + log(fueltax) +
lim65 + lim70p + mlda21 + bac08, SeatBelt,
effect = "time")
fe <- update(ols, effect = "twoways")
ivfe <- update(fe, . ~ . | . - log(usage) + ds + dp +dsp)
rbind(ols = coef(summary(ols))[1,],
fe = coef(summary(fe))[1, ],
w2sls = coef(summary(ivfe))[1, ])
Estimate Std. Error

t-value
Pr(>|t|)
ols
0.11404316 0.02546722 4.478037 9.252148e-06
fe
-0.05349783 0.02251563 -2.376031 1.789646e-02
w2sls -0.13335261 0.04482326 -2.975076 3.078717e-03
Les rsultats attestent que le problme dendognit est trs important. Pour le
premier modle estim, on a un coefficient associ lutilisation de la ceinture de
scurit qui est positif et significatif. Il devient ngatif et significatif pour le modle
effets fixes, ce qui indique que la variable usage prsente une corrlation positive
importante avec les effets individuels. Enfin, ce coefficient augmente de manire
importante (en valeur absolue) si on utilise des variables instrumentales, ce qui
indique que la composante idiosincratique des erreurs est galement corrle avec
usage.
Pour tester lhypothse de la thorie de la compensation du comportement, les
auteurs estiment les mmes modles avec cette fois la mortalit des non-occupants
comme variable explicative. Si cette thorie est vraie, le dveloppement du port
de la ceinture devrait accrotre les comportements de conduite risque et donc
contribuer accrotre la mortalit des non-occupants.
> SeatBelt$noccfat <- with(SeatBelt, log(farsnocc / (vmtrural + vmturban)))
> nivfe <- update(ivfe, noccfat ~ . | .)
> coef(summary(nivfe))[1, ]
Estimate
-0.04237248
Std. Error
t-value
0.10311901 -0.41090855
Pr(>|t|)
0.68132529
Les rsultats indiquent que le port de la ceinture na pas dinfluence sur la mortalit
des non-occupant, en contradiction avec la thorie de Peltzman (1975).
6.2.2
83
Estimateurs combinant les variations intra et interindividuelles
Si les effets individuels sont non-corrls avec les variables explicatives, les estimateurs within et between sont convergents mais inefficaces. Pour obtenir un
estimateur efficace, il faut combiner les deux sources de variations, ce qui peut
tre ralis en empilant les deux modles et en appliquant les moindres carrs gnraliss (estimateur error component two stage least squares ec2sls de Baltagi
(1981)) ou en appliquant les moindres carrs gnraliss sur le modle transform
en quasi-diffrences (estimateur generalized two stage least squares g2sls de
Balestra & Varadharajan-Krishnakumar (1987)).
Lestimateur des doubles moindres carrs erreur compose
Baltagi (1981) part des quations (6.9) et (6.11) qui permettent dobtenir respectivement les estimateurs within et between. Il empile ces deux quations,
>
>

>

Z Wy
Z WX
Z W
=
+
Z > By
Z > BX
Z > B
ce qui a un sens, car le vecteur de paramtres estimer est le mme dans les
deux quations. Afin dappliquer les gls, on calcule la variance des erreurs du
modle empil :

V
Z >W
Z > B

=E
Z > W > W Z
Z > B> W Z
Z > W > BZ
Z > B> BZ

=
Z >W Z
0
0
1
>
2 Z BZ
avec 2 = T 2 +
2 . On applique ensuite la formule de lestimateur des moindres
carrs gnraliss :
"
=
>
>
X WZ
X >W Z
X BZ
X > BZ
Z >W Z
0
Z >W Z
0
1
Z >W X
1
>
Z
BZ
Z > BX
2

1 >
0
Z Wy
1
>
Z > By
2 Z BZ
0
#1
i1
1 >
Z > W X + 2 X > BZ Z > BZ
Z BX
h
1 >
1 > i
X >W Z Z >W Z
Z W y + 2 X > BZ Z > BZ
Z By
h
X >W Z Z >W Z
1
On obtient finalement :

1 > W

X PZ y + 2 X > PZB y
ec2sls = X > PZW X + 2 X > PZB X
(6.13)
84
On vrifie aisment, comme dans le modle erreur compose simple, que lestimateur ec2sls est une moyenne pondre des estimateurs within et between :
e2sls = DW w2sls + DB b2sls , avec :

1 > W
DW = X > PZW X + 2 X > PZB X
X PZ X

1 > B
DB = 2 X > PZW X + 2 X > PZB X
X PZ X
Lestimateur des doubles moindres carrs gnraliss
Cet estimateur, appel g2sls (pour generalised two stages least squares) a t
propos par Balestra & Varadharajan-Krishnakumar (1987). On part du modle
erreurs composes classique : y = X + , avec :

V() = = T 2 + 2 B + 2 W
Lestimateur propos est un estimateur des variables instrumentales efficaces obtenu en pr-multipiant toutes les variables du modle et les instruments par 0.5
ou plus simplement par 0.5
0.5 = W + q
B = W + B
T 2 +
xnt = (xnt x
n. ) +
xn. = xnt (1 )xn.
On considre alors le modle pr-multipli par 0.5 :
y = X +
pour lequel les erreurs sont identiquement distribues. On applique ce modle la
mthode des variables instrumentales, on note A la matrice dinstruments et PA
le sous-espace de projection des colonnes de A. Lestimateur obtenu scrit :
= X > PA X
1
X > PA y
(6.14)
White (1986) a montr que dans ce contexte, il est efficace dappliquer aux instruments la mme transformation quaux autres lments du modle. On a alors
A = 0.5 Z = W Z + BZ = Z
Lestimateur propos par (Baltagi, 1981) est galement un estimateur de la mme
famille, mais avec un choix dinstruments diffrents : A = (BX, W X) (Cornwell
et al., 1992). En effet, en introduisant PA = PZB + PZW dans (6.14), on obtient 3 :
3. Voir aussi Baltagi & Li (1992) et Baltagi & Liu (2009).
85
h
i1

>
(W X + BX) PZW + PZB (W X + BX)

>
(W X + BX) PZW + PZB (W y + By)
= X > PZW X + 2 X > PZB X
>
X > PZW y + 2 X > PZB y
Lavantage de la formulation de Baltagi (1981) est que la liste des instruments within et celle des instruments between peut tre diffrente. On peut alors considrer
trois types de variables (Cornwell et al., 1992) :
les variables endognes sont corrles avec les deux composantes du terme derreur,
les variables simplement exognes sont corrles avec les effets individuels, mais
pas avec la composante idiosyncratique du terme derreur,
les variables doublement exognes ne sont corrles ni avec les effets individuels,
ni avec la composante idiosyncratique du terme derreur.
Dans le cadre dune estimation avec variables instrumentales, les variables doublement exognes peuvent tre utilises deux fois, une fois en utilisant leur transformation between et une fois en utilisant leur transformation within, comme le
suggre Baltagi (1981). Les variables simplement exognes en revanche ne peuvent
tre introduites comme instrument quavec leur transformation within.
Exemple 6.2
Kinal & Lahiri (1993) se sont intresss aux dterminants du commerce international pour les pays en dveloppement et en particulier la mesure des lasticits
prix et revenu du commerce international pour les pays en dveloppement. Ce sujet est particulirement important car il conditionne en grande partie la croissance
et lvolution de lendettement de ces pays. Le panel utilis contient 31 pays en
dveloppement, pour la priode 1964-1986. Ces donnes sont disponibles dans la
librairie pder sous le nom ForeignTrade.
Plus prcisment, ils estiment trois quations : la premire dfinit la demande
dimportations, la deuxime la demande dexportations et la troisime loffre dexportations. Plus prcisment, les auteurs supposent que :
la demande dimportations imports augmente avec le revenu domestique gnp,
diminue avec le prix des importations en devises locales rapporte au prix domestiques pmcpi et augmente avec le ratio des rserves sur les importations
resimp retard dune priode,
la demande pour les exportations exports augmente avec le revenu du reste du
monde gnpw et diminue avec le prix relatif des exportations et de leurs substituts
trangers pxpw,
loffre dexportations exports augmente avec le prix mondial exprim en devise
domestique rapport lindice des prix la consommation pwpci, avec le revenu
domestique potentiel pgnp (utilis comme proxy du stock de capital) et dpend
galement positivement dune variable qui reprsente le rle des importations
86
dans loffre dexportation importspmpx (mesure par les importations en devises

du pays divis par le prix des exportations) 4 .
Toutes les variables sont exprimes en logarithmes et, les pays prsents dans le
panel tant de tailles trs diverses, par tte, de manire limiter les problmes
dhtroscdasticit.
Afin de prendre en compte la dynamique de lajustement, un retard de la variable
explique est introduit comme variable explicative dans chaque quation.
Les variables gnp, exports, imports et leur retard (et donc resimp et importspmpx)
sont considres comme endognes, ainsi que le prix des exportations qui rend endogne pxpw et lindice des prix la consomation domestique qui rend endogne
pmcpi et pwcpi. Parmi lensemble des variables explicatives, seules gnpw et pgnp
sont considres comme exognes et peuvent donc tre utilises comme instruments. De nombreuses autres variables sont utilises comme instruments : le trend
linaire trend, la population pop, le taux de change exrate, la consommation
consump, le revenu disponible income, les rserves reserves, loffre de monaie
money, lindice des prix la consommation cpi, le prix des importations pm, le
prix des exportations px, le prix mondial pw, la plupart du temps avec un dcalage
dune priode.
Kinal & Lahiri (1993) sinscrivent dans le prolongement dun article de Khan &
Knight (1988) qui ont estim un systme dquation expliquant les dterminants
du commerce international pour les pays en dveloppement en utilisant la transformation within. Ils indiquent leur prfrence pour un estimateur plus efficace qui
prend en compte la variation inter-individuelle et retiennent lestimateur ec2sls.
Cependant, la convergence de cet estimateur nest assure que si les instruments
ne sont pas corrls avec les effets individuels. La stratgie quils adoptent consiste
dans un premier temps estimer la mme quation en utilisant lestimateur within
et lestimateur erreurs composes et raliser un test dHausman afin de pouvoir
tester lhypothse dexognit des instruments.
Nous prsentons ci-dessous les rsultats obtenus concernant la demande dimportations. Le modle within et des mcg sont successivement estims. Concernant le
modle des mcg, largument inst.method est fix "baltagi", de manire introduire les instruments en moyennes individuelles et en cart par rapport cette
moyenne. Lautre possibilit (qui constitue la valeur par dfaut) est "bvk" pour
Balestra & Varadharajan-Krishnakumar (1987). Largument random.method st
fix "kinla" pour pouvoir reproduire les rsultats de Kinal & Lahiri (1993).
Ceux-ci utilisent en effet une technique destimation des variances des composantes du terme derreur non standard ; similaires celle de Nerlove (1971), mais
avec une correction du nombre de degrs de libert.
> data("ForeignTrade", package = "pder")
> w1 <- plm(imports~pmcpi + gnp + lag(imports) + lag(resimp)
4. Les auteurs justifient lintroduction de cette variable par le fait que, pour la plupart des
pays en dveloppement, limportation de biens intermdiaires et de biens dquipement sont trs
importants pour produire des biens lexportation.
87
+
lag(consump) + lag(cpi) + lag(income) + lag(gnp) + pm +
+
lag(invest) + lag(money) + gnpw + pw + lag(reserves) +
+
lag(exports) + trend + pgnp + lag(px),
+
ForeignTrade, model = "within")
> r1 <- update(w1, model = "random", random.method = "kinla",
+
inst.method = "baltagi")
Lhypothse de non-corrlation entre les instruments et les effets individuels implique que les deux modles within et mcg sont convergent, le dernier tant plus
efficace. En revanche, si cette hypothse est rejete, seul le modle within est
convergent. Afin de tester cette hypothse, les auteurs utilisent un test dHausman
(1978).
> phtest(r1, w1)
Hausman Test
data: imports ~ pmcpi + gnp + lag(imports) + lag(resimp) | lag(consump) +
chisq = 11.0059, df = 4, p-value = 0.0265
...
Lhypothse de non-corrlation entre les instruments et les variables effets individuels est rejete 5 . Plutt que de rejeter lestimateur mcg et de se contenter de
lestimateur within, Kinal & Lahiri (1993), suivant en cela Cornwell et al. (1992),
choisissent de diffrencier deux types dinstruments :
ceux qui ne sont pas corrls avec les effets individuels, dans ce cas, ils peuvent
tre introduits doublement avec leur transformation between et within,
ceux qui sont corrls avec les effets individuels ; pour ceux-l, seule la transformation within est utilise comme instrument.
Un tel modle est dfini laide dune formule en trois parties :
la deuxime partie indique quelles sont les instruments introduits en utilisant
les deux transformations within et between,
la troisime partie indiquant les instruments introduits seulement en utilisant la
transformation within.
Ils aboutissent finalement la spcification prsente ci-dessous :
> r1b <- plm(imports ~ pmcpi + gnp + lag(imports) + lag(resimp) |
+
lag(consump) + lag(cpi) + lag(income) + lag(px) +
+
lag(reserves) + lag(exports) | lag(gnp) + pm +
+
lag(invest) + lag(money) + gnpw + pw + trend + pgnp,
+
ForeignTrade, model="random",
+
inst.method="baltagi", random.method="kinla")
> phtest(w1, r1b)
Hausman Test
data: imports ~ pmcpi + gnp + lag(imports) + lag(resimp) | lag(consump) +
chisq = 7.372, df = 4, p-value = 0.1175
...
5. Cest galement le cas pour les deux autres quations doffre dexportation et de demande
dexportation.
88
On constate que dsormais, sur la base du test dHausman (1978), lhypothse de

convergence de lestimateur des mcg nest pas rejete.
Comme on le constate avec les rsultats prsents ci-dessous, les estimateurs within
et des mcg sont dsormais trs similaires :
> rbind(within = coef(w1), e2sls = coef(r1b)[-1])
pmcpi
gnp lag(imports) lag(resimp)
within -0.05873374 0.02890065
0.9512149 0.05215182
e2sls -0.05419095 0.01352559
0.9481222 0.04170158
Llasticit de court-terme de la demande dimportations est directement donne

par le coefficient associ au prix. Llasticit de long-terme est obtenue en divisant ce coefficients par le complment lunit du coefficient associ lendogne
retarde. On obtient ainsi :
> matrix(c(coef(w1)["pmcpi"],
+
coef(w1)["pmcpi"] / (1 - coef(w1)["lag(imports)"]),
+
coef(r1)["pmcpi"],
+
coef(r1)["pmcpi"] / (1 - coef(r1)["lag(imports)"]),
+
coef(r1b)["pmcpi"],
+
coef(r1b)["pmcpi"] / (1 - coef(r1b)["lag(imports)"])),
+
byrow = TRUE, nrow = 3,
+
dimnames = list(c("w1", "r1", "r1b"), c("CT", "LT")))
CT
LT
w1 -0.05873374 -1.203928
r1 -0.05521142 -1.197191
r1b -0.05419095 -1.044588
La prise en compte dune partie de la variation inter-individuelle a permis de

rduire considrablement la variance des estimateurs, comme latteste la comparaison des carts-types des coefficients :
> rbind(within = coef(summary(w1))[, 2],
+
ec2sls = coef(summary(r1b))[-1, 2])
pmcpi
gnp lag(imports) lag(resimp)
within 0.02915262 0.041235082
0.03066695 0.008257449
ec2sls 0.02179875 0.006871687
0.01281239 0.006683680
6.3
6.3.1
Estimation dun systme dquation

Lestimateur des triples moindres carrs ordinaires
Dans le cas de systmes dquations, on prend souvent en considration la corrlation entre les erreurs dquations diffrentes pour la mme observation. Dans ce
cas, le modle estimer, qui contient L quations scrit :
y1
y2
..
.
yL
X1
0
..
.
0
X2
..
.
...
...
..
.
0
0
..
.
...
XL
1
2
..
.
1
2
..
.
89
L
La matrice dinstruments pour le systme scrit quant elle :
Z1 0 . . . 0
0 Z2 . . . 0
..
.. . .
..
.
.
.
.
0
...
ZL
La matrice de variance des erreurs scrit :
= V() = E >
1 >
1
2 >
1
..
.
...
...
..
.
1 >
L
2 >
L
..
.
L >
L >
. . . L >
1
2
L
11 I 12 I . . . 1L I
21 I 22 I . . . 2L I
..
..
.. = I
..
.
.
.
.
L1 I
avec :
1 >
2
2 >
2
..
.
L2 I
...
11
21
..
.
12
22
..
.
...
...
..
.
1L
2L
..
.
L1
L2
...
LL
(6.15)
LL I
la matrice de covariances des erreurs des diffrentes quations du systme.

Lestimateur des triples moindres carrs (3sls) est obtenu en appliquant lestimateur des variables instrumentales gnralises au systme dquation. En remplaant dans la formule de cet estimateur (6.5) la variance des erreurs donne par
(6.15), on obtient :
3sls
1 > 1
X > Z Z > 1 I Z
Z X

1
Z >y
X > Z Z > 1 I Z
(6.16)
Dans le cas particulier o la matrice dinstruments est la mme pour toute les
quations, la formule se simplifie :
3sls = X > 1 PZ X
1
X > 1 PZ y
Le calcul pratique des triples moindres carrs est le suivant :
(6.17)
90
on estime les quations indpendemment les unes des autres en utilisant lestimateur des variables instrumentales, ce qui permet dobtenir une matrice de
rsidus e = (e1 , e2 , . . . , eL ) qui constitue une estimation convergente des erreurs
des diffrentes quations,
on estime la matrice de covariance des erreurs du systme : s = e> e/N
on calcule la dcomposition de Cholesky de cette matrice : l | lsl> = I,
on transforme les diffrents lments du modle : y = (l I)y, X = (l I)X
et Z = (l1 I)Z.
on applique la mthode des variables instrumentales sur le modle transform.
La transformation est particulirement simple ici :
y1
l11 y1 + l12 y2 + . . . l1L yL
y2 l21 y1 + l22 y2 + . . . l2L yL
y = (l I) . =
..
..
.
yL
X1
0
..
.
0
X2
..
.
...
...
..
.
0
0
..
.
...
XL
Z1
0
..
.
0
Z2
..
.
...
...
..
.
0
0
..
.
...
ZL
X = (l I)
Z = (l I)
lL1 y1 + lL2 y2 + . . . lLL yL
l11 X1
l21 X1
..
.
l12 X2
l22 X2
..
.
...
...
..
.
l1L XL
l2L XL
..
.
lL1 X1
lL2 X2
...
lLL XL
(l1 )11 Z1
(l1 )21 Z1
..
.
(l1 )12 Z2
(l1 )22 Z2
..
.
...
...
..
.
(l1 )1L ZL
(l1 )2L ZL
..
.
(l1 )L1 Z1
(l1 )L2 Z2
...
(l1 )LL ZL
Lestimateur des triples moindres carrs within et between nappelle aucun dveloppement complmentaire. Il suffit simplement dappliquer lestimateur prcdemment dcrit aux donnes transformes en cart par rapport la moyenne
individuelle (within) ou en moyenne individuelle (between).
6.3.2
Lestimateur des triples moindres carrs ordinaires

erreurs composes
Balestra & Varadharajan-Krishnakumar (1987) et Baltagi (1981) ont, en plus

de lestimateur des doubles moindres carrs, propos des estimateurs des triples
moindres carrs utilisant au mieux la variation inter et intra-individuelles des donnes de panel.
On doit dsormais considrer trois indices, lindice de lquation l = 1 . . . L sajoutant aux indices n = 1 . . . N et t = 1 . . . T habituels. Lerreur du modle erreur
compose scrit alors :
lnt = ln + lnt
91
En notant >
ln = (ln1 , . . . , lnT ), le vecteur derreurs pour lindividu n et lquation
l, le vecteur derreurs pour le systme dquation scrit :

>
>
>
>
>
>
>
>
> = (>
11 , 12 , . . . , 1N ), (21 , 22 , . . . , 2N ), . . . , (L1 , L2 , . . . , LN )
La variance des erreurs du modle est alors :
= V() = (IN JT ) + (IN IT )
Seule la prsence des effets individuels rend le modle spcifique par rapport
lestimateur classique des triples moindres carrs. Par rapport au modle erreurs
composes standard, les scalaires 2 et 2 sont remplacs par les deux matrices de
covariances et .
= (T + ) (IN JT ) + (IN (IT JT ))

= (T + ) B + Z
= 1 B + Z
Exemple 6.3
Kinal & Lahiri (1993) estiment le systme constitu de lquation de demande
dimportations et de celle de demande dexportations par la mthode des triples
moindres carrs. Pour raliser cette estimation avec plm , il faut indiquer comme
premier argument une liste contenant la description des diffrentes quations du
modle.
>
+
+
+
>
+
+
+
>
+
+
+
>
eqimp <- imports ~ pmcpi + gnp + lag(imports) +

lag(resimp) | lag(consump) + lag(cpi) + lag(income) +
lag(px) + lag(reserves) + lag(exports) | lag(gnp) + pm +
lag(invest) + lag(money) + gnpw + pw + trend + pgnp
eqexp <- exports ~ pxpw + gnpw + lag(exports) |
lag(gnp) + pw + lag(consump) + pm + lag(px) + lag(cpi) |
lag(money) + gnpw + pgnp + pop + lag(invest) +
lag(income) + lag(reserves) + exrate
r12 <- plm(list(import.demand = eqimp,
export.demand = eqexp),
data = ForeignTrade, index = 31, model = "random",
inst.method = "baltagi", random.method = "kinla")
summary(r12)

(NAs transformation)
Call:
plm.list(formula = list(import.demand = eqimp, export.demand = eqexp),
data = ForeignTrade, model = "random", random.method = "kinla",
inst.method = "baltagi", index = 31)
Effects:
92

Estimated standard deviations of the error
import.demand export.demand
id
0.061593
0.077971
idios
0.143954
0.120020
Estimated correlation matrix of the individual effects
import.demand
1.00000
.
export.demand
0.14522
1
Estimated correlation matrix of the idiosyncratic effects
import.demand
1.000000
.
export.demand
0.097391
1
- import.demand
Estimate Std. Error
(Intercept)
0.3994010 0.1189694
pmcpi
-0.0539358 0.0217000
gnp
0.0109534 0.0052860
lag(imports) 0.9506440 0.0118683
lag(resimp)
0.0395085 0.0063413
--Signif. codes: 0 *** 0.001 **
t-value
3.3572
-2.4855
2.0721
80.0995
6.2304
Pr(>|t|)
0.0008083
0.0130505
0.0384327
< 2.2e-16
6.123e-10
***
*
*
***
***
0.01 * 0.05 . 0.1 1
- export.demand
(Intercept)
0.143130
0.139472 1.0262 0.30496
pxpw
-0.061362
0.019462 -3.1530 0.00165 **
gnpw
0.114368
0.053353 2.1436 0.03224 *
lag(exports) 0.946532
0.013298 71.1772 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
demande dimportations sont proches de ceux obtenus avec le modle des doubles
moindres carrs. Le gain en termes defficacit se traduit par une lgre rduction
des carts-types, comme illustr ci-dessous.
> rbind(ec2sls = coef(summary(r1b))[-1, 2],
+
ec3sls = coef(summary(r12), "import.demand")[-1, 2])
pmcpi
gnp lag(imports) lag(resimp) (Intercept)
pxpw
ec2sls 0.02179875 0.006871687
0.01281239 0.006683680 0.02179875 0.006871687
ec3sls 0.02169995 0.005286002
0.01186829 0.006341284 0.13947240 0.019461702
gnpw lag(exports)
ec2sls 0.01281239
0.00668368
ec3sls 0.05335346
0.01329825
6.4
Estimateur dHausman-Taylor
Le modle erreurs composes amne choisir entre le modle within et le modle mcg. Lavantage du modle within est quil est convergent mme si les effets
93
individuels sont corrls avec les variables explicatives. Le dsavantage est que, si
certaines variables explicatives ne prsentent aucune variation intra-individuelle,
elles disparaissent de lestimation. Or, ces variables sont souvent des variables essentielles. Par exemple, dans le cadre dune estimation dune fonction de salaire,
des variables telles que le genre, le niveau dducation et lorigine ethnique sont
souvent au centre de lattention, mais le chercheur na alors que le choix entre :
un estimateur mcg qui renvoit des coefficients associs ces variables, mais qui
nest pas un estimateur convergent compte tenu de la corrlation entre les effets
individuels et les variables explicatives,
un estimateur within qui est convergent mais qui ne donne aucune information
sur linfluence de ces variables.
Si on reprend la typologie de Cornwell et al. (1992), Hausman & Taylor (1981)
considre un modle qui ne contient pas de variables endognes, cest--dire que
des variables non corrles avec la composante idiosyncratique du terme derreur.
Certaines de ces variables sont simplement exognes (donc corrles avec les effets individuels), dautre sont doublement exognes (non corrles avec les effets
individuels).
De plus, on prendra explicitement en compte le fait quun sous-ensemble de variables ne prsentent pas de variations intra-individuelles.
En croisant ces deux lments de typologie, on obtient quatre catgories de variables (Cx , Ce , Vx et Ve ) en notant C et V les variables sans / avec variation
intra-individuelle et x et e les variables doublement / simplement exognes.
Lide est de construire un estimateur de variables instrumentales sans avoir recours des instruments extrieurs au modle, souvent difficiles trouver. Pour
chaque type de variable, on dcompte le nombre dinstruments :
les variables Vx , au nombre de Kvx , fournissent chacune deux instruments (within et between),
les variables Ve , au nombre de Kve fournissent chacune un instrument (within),
les variables Cx au nombre deKcx fournissent chacune un instrument,
les variables Ce au nombre de Kce ne fournissent aucun instrument.
On a donc L = 2Kvx + Kve + Kcx instruments et K = Kvx + Kve + Kcx + Kce
variables explicatives. Par consquent, le modle est identifi (L K) si Kvx
Kce .
Si cette condition est vrifie, lestimateur propos par Hausman & Taylor (1981)
est un estimateur des mcg qui utilise (W Vx , BVx , W Ve , Cx ) comme instruments.
Pour raliser cette estimation, il faut au pralable estimer les variances des composantes du terme derreur. A cet effet, il faut disposer dune estimation convergente
des rsidus et le choix naturel est celui de lestimateur within. Cet estimateur (w )
est obtenu en rgressant W y en fonction de (W Vx , W Ve ). Cette estimation est
convergente car toutes les variables sont supposes non corrles avec les effets
individuels. De cette estimation within, on rcupre les rsidus w qui permet de
calculer lestimateur de 2 utilis par Amemiya (1971) et Swamy & Arora (1972),
cest--dire :
2 = >
w /(O N K)
wW
94
On extrait galement de cette estimation les effets indivuels n . On doit purger de

ces effets individuels linfluence des variables sans variation intra-individuelle. A
cet effet, on rgresse n en fonction des variables sans variation intra-individuelle
(Cx , Ce ). Les variables Ce tant corrles avec les effets individuels, on doit trouver
au moins Kce instruments, et ceux-l sont fournis par les variables Vx , au nombre
de Kvx . On obtient alors le vecteur des coefficients estims associs (Cx , Ce ).
On obtient alors des rsidus :
= y (Vx , Ve )w (Cx , Ce )
(6.18)
partir desquel on obtient lestimateur de 2 :
2 = > B
/N
(6.19)
Voir aussi Breusch et al. (1989) et Amemiya & MaCurdy (1986).

Exemple 6.4
Egger & Pfaffermayr (2004) se sont intress aux dterminants au commerce bilatral de deux pays, lAllemagne et les Etats-Unis avec leurs partenaires commerciaux.
Les exportations sont ici observes au niveau dune combinaison pays-secteur qui
constitue ici l individu. La variable explique est lrex, le log des exportations
bilatrales relles. Les variables explicatives sont : ldist, le log de la distance entre
les deux pays, les dotations relatives des deux pays en travail (lrl), en capital (lrk)
et en capital humain (lrh), une variable mesurant la similitude entre les deux pays
(lsimi) et deux variables dinteraction : lkldist est linteraction entre ldist et lrk-lrl
et lkgdt celle entre lrk en valeurs absolues et lgdt.
Comme les auteurs, nous commenons par estimer le modle within pour les donnes concernnt les Etats-Unis. Ce modle est valable mme sil existe des corrlations entre les variables explicatives et la composante individuelle du terme
derreur, le problme est quil ne permet pas destimer de coefficients associs
aux variables propres lindividu, ici la distance. Les rsultats sont prsents cidessous :
> data("TradeFDI", package="pder")
> TradeUS <- subset(TradeFDI, country == "us")

> wm <- plm(lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi + lrk +
+
lrh + lrl + factor(year), TradeUS, model = "within")
series country is constant and has been removed
> coef(summary(wm))[1:7, ]
95
Estimate Std. Error

t-value
Pr(>|t|)
lkldist -0.101909178 0.357257542 -0.2852541 7.754740e-01
lgdt
3.401276395 0.446679551 7.6145783 3.773733e-14
lkgdt
-0.002224905 0.006289922 -0.3537253 7.235757e-01
lsimi
1.185650961 0.283767050 4.1782545 3.042234e-05
lrk
1.169721273 3.112589518 0.3758033 7.070963e-01
lrh
0.173182814 0.082666204 2.0949651 3.627828e-02
lrl
-0.465181905 3.083511888 -0.1508611 8.800979e-01
Pour les auteurs, leffet individuel, indiquant une propension commercer avec un
pays donn pour des raisons de proximits gographique et culturelle est vraisemblablement corrl avec la distance. Cette variable, la seule sans variation temporelle, est donc corrle avec leffet individuel. Au niveau des variables qui varient au
cours du temps, les trois variables qui mesurent les dotations relatives en facteur
et lindice de similitude sont considres comme doublement exognes, alors que
les autres sont supposes tre corrles avec la composante individuelle du terme
derreur.
> ht <- pht(lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi + lrk +
+
lrh + lrl + factor(year) | lsimi + lrk + lrh +lrl +
+
factor(year), TradeUS, model= "ht")

> print(summary(ht), subset = 1:9)
Oneway (individual) effect Hausman-Taylor Model

Call:
pht(formula = lrex ~ ldist + lkldist + lgdt + lkgdt + lsimi +
lrk + lrh + lrl + factor(year) | lsimi + lrk + lrh + lrl +
factor(year), data = TradeUS, model = "ht")
T.V.
T.V.
T.I.
T.I.
exo
endo
exo
endo
: lsimi, lrk, lrh, lrl, factor(year)

: lkldist, lgdt, lkgdt
:
: ldist

Effects:
var std.dev share
idiosyncratic 0.1790 0.4231 0.049
individual
3.5074 1.8728 0.951
theta :
Min. 1st Qu. Median
Mean 3rd Qu.
0.8707 0.9204 0.9287 0.9223 0.9320
Residuals :
Min. 1st Qu.
Median
Mean
Max.
0.9320
3rd Qu.
Max.
96

-2.34000 -0.24500
0.03040
0.00016
0.26400
1.48000
Coefficients :
Estimate Std. Error t-value
(Intercept) -60.1815522 13.6941742 -4.3947
ldist
-1.6473986
0.7996188 -2.0602
lkldist
-0.3500265
0.3183469 -1.0995
lgdt
3.0224557
0.4016546 7.5250
lkgdt
-0.0045699
0.0060232 -0.7587
lsimi
1.2692939
0.2026840 6.2624
lrk
3.4976621
2.7600926 1.2672
lrh
0.1232587
0.0784673 1.5708
lrl
-2.8425857
2.7783193 -1.0231
--Signif. codes: 0 *** 0.001 ** 0.01 *
Pr(>|t|)
1.109e-05
0.03938
0.27154
5.272e-14
0.44802
3.790e-10
0.20507
0.11622
0.30625
***
*
***
***
0.05 . 0.1 1

13701
Limpression des rsultats rappelle la typologie des variable. Le modle est ici
identifi parce que le nombre de variables constantes endognes est bien infrieur
au nombre de variables exognes variables (1 contre 4 + 10 variables indicatrices
de lanne).
Chapitre 7
Estimation dun modle

dynamique
Un modle est dit dynamique lorsquune de ses variables explicatives est la variable explique retarde. Lintrt des donnes de panel pour estimer un modle
dynamique est vident. Il est naturellement impossible destimer une relation dynamique sur des donnes en coupe transversale et, sagissant des sries chronologiques, une telle relation ne peut tre estime prcisment que si la srie est
suffisamment longue. En revanche, pour des donnes de panel, le modle peut tre
estim pour un ensemble dindividus observs un petit nombre de fois. Les modles
prsents dans ce chapitre sont adapts pour des donnes de panel micro, cest-dire des donnes pour lesquelles N >> T . Pour des panels macro, caractriss par
une dimension temporelle quivalente ou suprieure la dimension individuelle, les
modles pertinents sont bass sur une adaptation des problmatiques de dtection
de racines unitaires et de relations de cointgration aux spcificits des donnes de
panel.
Parmi les nombreux exemples dapplication rencontrs dans la littrature, on peut
citer :
lestimation de la convergence de la richesse par tte, obtenue en rgressant
le taux de croissance en fonction du niveau de richesse initiale ou, ce qui est
quivalent, en rgressant le niveau de richesse par tte en fonction du niveau de
richesse retard ;
lanalyse de la vitesse dajustement de la main doeuvre, obtenue en rgressant
le nombre demploys en fonction de diffrente variables, dont lemploi retard ;
lanalyse de la dynamique de la consommation, base sur une fonction de consommation qui dpend de la consommation retarde.
Larticle fondateur concernant lestimation dun modle dynamique en panel est
celui de Balestra & Nerlove (1966). La littrature sur le sujet est devenu considrable partir des annes 90 et des articles de Holtz-Eakin, Newey & Rosen (1988)
98
et Arellano & Bond (1991) qui ont introduit lutilisation de la mthode destimation des moments gnraliss pour les panels dynamiques 1 . Celle-ci est devenue
la mthode destimation privilgie et la plus grande partie de ce chapitre sera
consacre sa prsentation. Il faut cependant noter que le champ dapplication de
cette mthode pour les panels nest pas limite aux modles dynamiques et quelle
peut galement tre utilise avec profit pour des modles statiques.
Exemple 7.1
Tout au long de ce chapitre, nous utiliserons larticle de Acemoglu, Johnson, Robinson & Yared (2008) afin dillustrer les rsultats. Cette tude traite de la relation
causale entre le niveau de richesse et le niveau de dmocratie des pays. Les auteurs
utilisent diffrentes donnes de panel. Parmi celles-ci, nous en avons retenu deux :
les premires correspondent une frquence dobservation de 5 ans, avec 11
observations sur la priode 1950 2000 pour 211 pays ;
les secondes correspondent une frquence dobservation de 25 ans, avec 7 observations sur la priode 1850 2000 pour 25 pays.
Ces donnes sont disponibles dans la librairie pder sous le nom de DemocracyIncome pour les premires et de DemocracyIncome25 pour les secondes.
> data("DemocracyIncome", package = "pder")
En coupe transversale, la relation positive entre le degr de dmocratie et le revenu

par tte est vidente. Ceci est illustr sur la figure 7.1 qui utilise les donnes de
Acemoglu et al. (2008) pour lanne 2000. Cependant, cette corrlation instantane nimplique pas ncessairement quil existe une relation de causalit entre les
deux variables. Les donnes de panel utilises permettent de spcifier une relation
dynamique entre le revenu et la dmocratie et donc danalyser cette ventuelle
causalit.
> library("plm")
> pdim(DemocracyIncome)
> head(DemocracyIncome, 4)
1
2
3
4
country
Andorra
Andorra
Andorra
Andorra
year democracy income sample

1950
NA
NA
0
1955
NA
NA
0
1960
NA
NA
1
1965
NA
NA
1
1. Il existe de nombreuses revues de cette littrature, en particulier, Harris et al. (2008), Bond
(2002), Roodman (2009a).
99
1.0
1.2
Chapitre 7. Estimation dun modle dynamique
Bolivia
Croatia
Chile
El
Salvador
St. Vincent
and the Grenadines
Korea, Rep.
Dominican
Jamaica

Republic
Thailand
Trinidad
and
Tobago
Mexico
Moldova
RomaniaBulgaria
India Philippines
0.6
Senegal
Malawi
Nepal
Bangladesh
Mozambique
Nicaragua

Honduras
0.4
Burkina Faso
Nigeria
GuineaBissau
Niger
Tanzania
Guatemala
Venezuela,
Brazil
RBSeychelles
Indonesia
SriEcuador
Lanka Peru
Macedonia, FYR
Colombia
Albania
Jordan
Paraguay
Turkey
Ukraine
Georgia
Armenia
Lesotho
Ethiopia 1993
Togo
Yemen
Zambia
0.2
democracy
0.8
Benin
Madagascar
Ghana
Mali
Burundi
0.0
Iceland
St. Kitts and
Nevis
Hungary
Sweden
New
Zealand
Germany
Norway
Netherlands
Estonia
Barbados
Slovakia
Italy
Canada
Belgium
United
Kingdom
St.Belize
Lucia
Switzerland
Ireland
Czech
Republic
Denmark
Greece
Slovenia
Australia
Japan
Lithuania
Spain
Uruguay
Israel
Dominica
United
Costa
Latvia
Africa
Argentina
Mauritius
France
States
Finland
Luxembourg
Poland
Portugal
Rica
Grenada
South
Austria
Cape Verde Panama
Morocco
Antigua
Gabon
Russia
Malaysia
Uganda Kenya
Congo,
Rep.
Pakistanpost1972
Azerbaijan
Kyrgyz
Republic
Cote
d'Ivoire
Tajikistan
Comoros

Zimbabwe
Guinea
Swaziland
Tunisia

Iran
Egypt, Arab
Rep.
Chad
Lebanon
Algeria
Kazakhstan
Belarus
Gambia, The
Rwanda
Syrian Arab
Republic
Equatorial
Guinea
China
Cameroon
10
income
Fig. 7.1 Relation entre revenu et dmocratie
Les donnes pour lesquelles la frquence dobservation est de 5 ans constituent un

panel cylindr de 211 pays pour 11 priodes. Cependant, le caractre cylindr est
artificiel car il y a normment dobservations manquantes, en particulier pour le
degr de dmocratie. En plus des deux index individuels et temporels (country et
year), les donnes contiennent lindice de dmocratie (democracy), le logarithme
du produit intrieur brut par habitant (income) et enfin une variable indicatrice
permettant de slectionner le sous-chantillon retenu par les auteurs (sample).
7.1
Modle dynamique et endognit
Le modle dynamique le plus simple est le modle autorgressif dordre 1 :

ynt = yn(t1) + n + nt
lerreur du modle tant suppose tre la somme dun effet individuel n invariant
au cours du temps et dune composante idiosyncratique nt que lon appellera par
la suite linnovation.
Tout au long de ce chapitre, nous supposerons que les innovations ne sont pas
auto-corrles E(nt ns ) = 0 s 6= t, ne sont pas corrles avec leffet individuel
E(n nt ) = 0 et que le processus considr nest pas un processus de racine unitaire
(| |< 1).
Pour la priode prcdente, le modle scrit : yn(t1) = yn(t2) + n + n(t1) .
Lerreur et la variable explicative yn(t1) sont donc corrles puisque yn(t1) est
corrl avec leffet individuel n .
100
7.1.1
Le biais de lestimateur des mco
Du fait de cette corrlation, lestimateur des moindres carrs ordinaires (ainsi que
celui des moindres carrs gnraliss) nest pas convergent. Cet estimateur scrit :
=
PT
t=2 ynt yn(t1)
n=1
PN PT
2
n=1
t=2 yn(t1)
PN
PN
=+
n=1
PT
t=2 (n
+ nt )yn(t1)
PT 1 2
n=1
t=1 ynt
PN
et le numrateur du second terme ne converge pas vers 0 car n est positivement

corrl avec yn(t1) . La corrlation tant positive, le biais des mco est un biais
vers le haut. Afin danalyser lampleur de ce biais, on rcrit ynt par substitutions
successives, en notant S la date de dbut du processus et 1 la date de la premire
observation :
ynt
t+S
t+S yn(S) + 1
1 n

nt + n(t1) + 2 n(t2) + . . . t+S1 n(S+1)
=
+
(7.1)
En supposant que les valeurs initiales de y sont fixes, on obtient alors, pour le
dnominateur de lestimateur des mco les limites suivantes, dabord par rapport
N , puis par rapport T :

2
N
1 t+S
1 2(t+S) 2
1 X 2
ynt =
2 +
lim
N + N
1
1 2
n=1
N
T
2
1 XX 2
2
ynt =
+
T + N + N T
(1 )2
1 2
n=1 t=1
lim
lim
(7.2)
Pour le numrateur, avec lhypothse dabsence de corrlation entre leffet individuel et les innovations, on obtient :
1 X
1 t+S1 2
(n + nt )yn(t1) =
N + N
1
n
lim
2
1 XX
(n + nt )yn(t1) =
N + T + N T
1
n
t
lim
lim
(7.3)
Lestimateur des mco converge donc vers :

plim = +
2
1
2
(1)2
2
1 2
=+
(1 2 )2
(1 + )2 + (1 )2
Au vue de cette expression, lestimateur des mco est biais vers le haut. Le biais
tend vers 0 lorsque 2 tend vers 0.
101
Exemple 7.2
Dans le modle estim par Acemoglu et al. (2008), la variable explique est lindice
de dmocratie et les variables expliques lindice de dmocratie et le revenu par
tte retards dune priode. Des variables indicatrices des annes sont galement
introduites et lestimation est ralise sur le sous-ensemble dobservations dfini
par la variable sample. Lestimation du modle des mco laide de la fonction
lm de R est ici malaise du fait de la prsence de retards. En effet, la mthode
lag utilise sera alors celle qui est approprie pour les sries temporelles et non
pour les donnes de panel 2 . Pour cette raison, on utilisera la fonction plm de
la librairie plm en fixant largument model "pooling", de manire utiliser
les donnes non transformes. Le -1 dans la formule indique que lon ne veut pas
estimer de constante gnrale, mais un coefficient pour toutes les modalits de la
variable year, ce qui est sans consquence sur lestimation.
> mco <- plm(democracy ~ lag(democracy) + lag(income) + year - 1,
+
DemocracyIncome, index = c("country", "year"),
+
model = "pooling", subset = sample == 1)
Ce mme modle peut galement tre estim en fixant largument model "within"
et en indiquant que lon souhaite introduire des effets fixes temporels :
> mco <- plm(democracy ~ lag(democracy) + lag(income),
+
+
model = "within", effect = "time",
+
subset = sample == 1)
> coef(summary(mco))
Estimate Std. Error t-value

Pr(>|t|)
lag(democracy) 0.70636982 0.024293078 29.07700 6.978578e-133
lag(income)
0.07231846 0.008342943 8.66822 1.915051e-17
Deux rsultats ressortent de ce premier modle. Dune part, la variable democracy semble assez persistante puisquon obtient un coefficient estim gal 0.71.
Cependant, nous savons que lestimateur des mco souffre dun biais vers le haut.
Dautre part, le revenu retard semble avoir une influence significativement positive sur lindice de dmocratie.
7.1.2
Lestimateur within
Le biais des mco tant d la corrlation entre le terme derreur et la variable

endogne retarde cause par la prsence dun effet individuel, on peut penser
rsoudre le problme en utilisant une transformation qui permet dliminer leffet
individuel. Le choix
le plus vident est la transformation
within. On a alors, en
PT 1
PT
notant yn(1) = t=1 ynt /(T 1) et yn = t=2 ynt /(T 1) :
2. Cela signifie en particulier que le retard de la variable pour la premire observation du
deuxime pays sera tort indique comme tant gale la dernire observation du premier pays.
102
PN
PT
yn )(yn(t1)
yn(1) )
nt
n=1 P t=2 (y
PT
N
(y
yn(1) )2
PNn=1PTt=2 nt
yn(1) )(nt
n )
n=1 P t=2 (y
Pn(t1)
N
T
yn(1) )2
n=1
t=2 (ynt
Les effets individuels (et donc le problme de biais) prsents dans lestimateur des
mco ont bien disparu. En revanche, une seconde source de biais a t ajoute. En
1
1
(yn1 + . . . + yn(T 1) ) et t T 1
(n2 + . . . + nT ) sont corrls.
effet, yn(t1) T 1
1
1
Pour t > 2, on a un terme en T 1 ynt nt , un terme en yn(t1) T 1
n(t1)
1
et T 2 termes en (T 1)2 ynt nt . Chaque terme en nt ynt ayant une esprance de
2 , on obtient finalement :

1
1
T 2
T
2

+
= 2
2
T 1 T 1 (T 1)
(T 1)2
et le biais est donc ngatif 3 . Plus prcisment, on peut montrer que 4 :
1+
plim =
T 11
T
1 1
T 1
2
(1)(T 1)
1 T
T (1)
Ce biais prsente deux caractristiques qui le diffrencie de celui des mco. Tout
dabord, il est ngatif et ensuite il tend vers 0 lorsque T tend vers linfini. Ce biais
ne peut cependant pas tre ignor dans le cas de panels micros o la dimension
temporelle est rduite. Par exemple, pour T = 10 (soit une dure assez longue) et
= 0.5, le biais est de 0.167.
Exemple 7.3
Le modle within est obtenu avec plm en fixant les arguments model et effect
"within" et "twoways", puisque lon souhaite introduire des effets temporels et
individuels. Le modle peut tre estim simplement en actualisant le modle des
mco prcdemment estim :
> within <- update(mco, effect = "twoways")
> coef(summary(within))
Estimate Std. Error
t-value
Pr(>|t|)
lag(democracy) 0.37862837 0.03344426 11.3211770 1.251513e-27
lag(income)
0.01041497 0.02640112 0.3944898 6.933266e-01
Par rapport au modle des mco, le coefficient autorgressif est plus petit (0.38
contre 0.71), ce qui tait attendu dans la mesure o lestimateur within est biais
vers le bas alors que celui des mco est biais vers le haut. On constate galement
quavec lintroduction des effets individuels, le coefficient du revenu devient trs
proche de 0 et est non significatif.
3. Nickel (1981).
4. Voir par exemple Hsiao (2003) p.72.
7.1.3
103
Mthodes destimation convergentes pour les modles

dynamiques
Les mthodes destimation les plus courantes utilises dans le cas de modles statiques tant inadaptes, plusieurs stratgies destimation peuvent tre envisages
afin dobtenir un estimateur convergent.
la premire est dutiliser la mthode du maximum de vraisemblance. Elle prsente cependant linconvnient majeur dtre extrmement sensible aux hypothses faites sur les valeurs initiales de la variable explique. Suivant que ces
valeurs sont considres comme fixes ou alatoires et corrles ou non avec les
effets individuels, on obtient des modles sensiblement diffrents et les biais destimation peuvent tre svres dans le cas o la spcification retenue nest pas
la bonne. Pour cette raison, cette mthode destimation nest plus beaucoup
utilise et ne sera pas prsente ici 5 ;
la seconde consiste partir dun estimateur biais et de corriger ce biais. Cest la
dmarche suivie par Kiviet (1995) qui propose un estimateur within corrig du
biais analys prcdemment. Cependant, lintrt de cette approche est limit
par le fait quelle nest applicable quaux panels cylindrs et quelle ne prend
pas en considration lventuelle endognit des autres variables explicatives 6 ;
la troisime est dutiliser la mthode des variables instrumentales, les instruments utiliss tant des retards en niveau ou en diffrences de la variable explique. La mthode des moments gnraliss, qui est une extension de la mthode
des variables instrumentales est de plus en plus utilise.
La mthode des variables instrumentales est utilise sur un modle qui a t pralablement transform de manire liminer les effets individuels. La transformation within apparat de prime abord comme un choix naturel, elle est cependant
peu adapte. En effet, en labsence dinstruments extrieurs pertinents, les seules
variables instrumentales disponibles sont souvent la variable explicative retarde,
cest--dire ici la variable explique
PT retarde au moins deux fois. Or, avec le modle
1
within, lerreur est : nt T 1
t=2 nt . Elle contient donc lensemble des ralisations de nt et est donc corrle avec lensemble des valeurs retardes de ynt .
Deux transformations alternatives peuvent tre utilises avec profit, la diffrence
premire et la dviation orthogonale.
5. Pour une prsentation dtaille de lestimation dun panel dynamique par le maximum de
vraisemblance, voir Hsiao (2003), chapitre 4.
6. Voir Roodman (2009a), p. 103.
104
Pour la diffrence premire, on a simplement znt = znt zn(t1) , soit encore,

sous forme vectorielle, zn = Dzn avec :
1 1 0 . . . 0
0
0 1 1 . . . 0
0
0 0
1 ... 0
0
D= .
..
..
..
..
..
..
.
.
.
.
.
0 0
0 . . . 1 0
0 0
0 . . . 1 1
Lavantage de cette transformation est quelle est simple et intuitive. Elle prsente
cependant trois inconvnients :
le premier est quune observation, la premire, est ncessairement perdue ;
le second est que si les erreurs initiales sont non corrles, celles du modle
transform le sont. En effet, on a t t1 = (t t1 )(t1 t2 ) et donc,
si les sont homoscdastiques
et non corrles, les erreurs transformes sont

homoscdastiques E t2 = 22 , mais corrles pour deux erreurs successives
E (t t1 ) = 2 ;
le dernier est que, pour chaque priode t o une observation est manquante,
deux observations t et t + 1 sont perdues en diffrence.
La transformation en dviations orthogonales ne souffre pas des deux derniers
problmes, elle est par contre moins intuitive car elle consiste calculer la diffrence entre une observation et la moyenne des observations postrieures celle-ci.
Formellement, on a :
!
T
1 X
znt = cnt znt
zns
Tnt s>t
o Tnt est le nombre dobservations
postrieures t pour lindividu n et cnt un
q
Tnt
facteur dchelle gal Tnt +1 .
Comme pour la transformation en diffrences premires, une observation est perdue, mais il sagit dsormais de la dernire. Sous forme matricielle, pour un panel
cylindr, la transformation scrit zt = Oz, avec z = (z1 , z2 , . . . zt ) et :
q
T 1
1
1
...
1
1
T
T (T 1)
T (T 1)
T (T 1)
T (T 1)
T 2
1
1
1
0
...
T 1
(T 1)(T 2)
(T 1)(T 2)
(T 1)(T 2)
q
T 3
1
1
O=
0
0
. . .
T 2
(T 2)(T 3)
(T 2)(T 3)
..
..
..
..
..
..
.
.
.
.
.
q
q.
1
0
0
0
...
12
2
En supposant que les erreurs initiales sont homoscdastiques et non corrles, on
a alors, pour les erreurs transformes :
105
V(
) = E(
> ) = E(O > O> ) = 2 OO> = 2 I
Le dernier rsultat est d au fait que les lignes de O sont mutuellement orthogonales.
De plus, en cas dobservations manquantes pour une priode, seule cette observation sera perdue pour lestimation, contre deux pour le modle estim en diffrences
premires.
Lestimateur propos par Anderson & Hsiao (1982) utilise le modle crit en diffrences premires de manire liminer les effets individuels. La variable explicative yn(t1) = yn(t1) yn(t2) est alors corrle avec lerreur en diffrences
nt = nt n(t1) . Si les innovations ne sont pas auto-corrles, yn(t1) peut
tre instrument soit par yn(t2) = yn(t2) yn(t3) , soit par yn(t2) . Dans les
faits, il savre que yn(t2) est un bien meilleur instrument que yn(t2) .
Exemple 7.4
Afin de calculer lestimateur de Anderson & Hsiao (1982), on doit spcifier que les
variables explicatives et explique sont en diffrences et que lendogne retarde
en diffrence est intrumente par lendogne en niveau retarde de deux priodes.
Acemoglu et al. (2008) ont choisi galement dinstrumenter le revenu par tte en
utilisant un deuxime retard. Le modle est dcrit simplement en utilisant une
formule deux parties 7 , la premire partie indiquant les variables explicatives et
la seconde les instruments, les deux parties tant spares par le signe |.
> ahsiao <- plm(diff(democracy) ~ lag(diff(democracy)) +
+
lag(diff(income)) + year - 1 |
+
lag(democracy, 2) + lag(income, 2) + year - 1,
+
+
model = "pooling", subset = sample == 1)
> coef(summary(ahsiao))[1:2, ]
Estimate Std. Error

t-value
Pr(>|t|)
lag(diff(democracy)) 0.4686593 0.1181956 3.9651163 7.970953e-05
lag(diff(income))
-0.1035793 0.3048546 -0.3397662 7.341189e-01
Le modle dAnderson & Hsiao (1982) tant convergent, on sattend ce que le

coefficient autorgressif estim soit compris entre celui du modle within (biais
vers le bas) et celui du modle mco (biais vers le haut). Cest effectivement le cas
ici, la valeur obtenue de 0.47 tant bien comprise entre 0.38 et 0.71. On remarque
galement que le coefficient associ au revenu est dsormais la limite du seuil de
significativit de 10%.
7. On utilise ici les formules tendues fournies par la librairie Formula (Zeileis & Croissant,
2010).
106
7.2
Estimateur des moments gnraliss du modle en diffrences
Lestimateur des variables instrumentales prsent dans la section prcdente est

inefficace pour deux raisons :
la premire est quil ne prend pas en compte la corrlation des erreurs provoque
par la diffrenciation ;
la seconde est quil existe dautres instruments valables qui peuvent tre utilises.
Ces deux limites de lestimateur de variables instrumentales peuvent tre surmontes en utilisant lestimateur des moments gnraliss propos par Holtz-Eakin
et al. (1988) et Arellano & Bond (1991).
7.2.1
Variables instrumentales et mthode des moments gnraliss
Cet estimateur prend en compte le fait que le nombre dinstruments valides augmente avec t. Le caractre dynamique du modle rend la premire observation
inutilisable. Le fait que le modle soit estim en diffrences premires fait perdre
la seconde observation. Par consquent, la premire observation utilisable est la
troisime, pour laquelle le modle scrit :
yn3 yn2 = (yn2 yn1 ) + (n3 n2 )
Pour cette observation, yn1 est le seul instrument valable. Pour la quatrime observation, lerreur est n4 n3 , yn2 et yn1 sont des instruments valables. Ainsi,
un instrument supplmentaire est ajout ds que t augmente de 1. Pour lindividu
n, la matrice dinstruments scrit :
Zn =
yn1
0
0
..
.
0
yn1
0
..
.
0
yn2
0
..
.
0
0
yn1
..
.
0
0
yn2
..
.
0
0
yn3
..
.
...
...
...
..
.
0
0
0
..
.
0
0
0
..
.
0
0
0
..
.
0
0
0
..
.
...
...
...
yn1
yn2
...
yn(T 2)
(7.4)
Les conditions de moment correspondent au vecteur = Z > . Les instruments

tant par hypothse non corrls avec les erreurs en diffrence, ce vecteur doit tre
desprance nulle : E() = 0. La mthode des moments gnraliss consiste crire
lquivalent pour lchantillon de ce vecteur de moments thoriques, cest--dire la
moyenne arithmtique de lexpression prcdente pour lensemble des individus de
lchantillon :
m
=
N
N
1 X >
1 X
mn =
Z (yn Xn )
N n=1
N n=1 n
(7.5)
107
o, dans le cas simple dun modle purement autorgressif, Xn est un vecteur

colonne qui contient lendogne retarde dune priode en diffrence. La manire
dobtenir lestimateur dpend alors de la comparaison entre le nombre de moments
J et le nombre de coefficients estimer K. Si J = K, lestimateur des moments
est obtenu simplement en fixant (7.5) 0 et en rsolvant pour . On obtient alors :
=
N
X
!1
Zn> Xn
n=1
N
X
!
Zn> yn
n=1
Si J < K, le systme dquations linaires dfini par (7.5) est sous-identifi, il y a

une infinit de combinaisons de valeurs des paramtres qui permettent dgaliser
(7.5) 0. Dans le cas o J > K, le systme est sur-identifi et, sauf cas trs particulier, il nexiste pas de combinaisons de valeurs des paramtres qui permettent
dgaliser (7.5) 0. Dans ce cas, on cherchera la combinaison de paramtres qui
minimise la taille de ce vecteur, cette taille tant dfinie par une forme quadratique
du vecteur de moments empiriques :
!
!
N
N
1 X >
1 X
>
>
>
(yn Xn )Zn A
Z (yn Xn )
(7.6)
N n=1
N n=1 n
o A est la matrice de pondrations des moments. En annulant les drivs de
(7.6) par rapport et en rsolvant par rapport , on obtient lestimateur des
moments gnraliss :
P

1
P
= Pn Xn> Zn A Pn Zn> Xn
>
>
n Xn Zn A
n Zn yn
7.2.2
(7.7)
Estimateur en une tape
Pour que cet estimateur puisse tre calcul, il faut choisir une matrice de pondrations. Le choix le plus simple pour A est la matrice identit. Dans ce cas, la
fonction minimiser est simplement la somme des carrs des diffrents lments
du vecteur. Cette solution nest pas efficace dans le cas o les variances de ces
diffrents lments sont diffrentes. Dans ce cas, intuitivement, il est plus efficace
daccorder un poids dautant plus lev un lment du vecteur que sa variance est
faible. La matrice de pondration est alors une diagonale contenant linverse de la
variance de chaque lment. De plus, si des lments du vecteur sont corrls, leurs
poids conjoints doivent tre rduits car ces lments vhiculent une information
similaire. De manire gnrale, la matrice optimale de pondrations est linverse
de la matrice de variance-covariance du vecteur de moments 8 . On a donc :
!
N
N
1 X
1 X
1
mn = 2
V(mn )
A = V(m)
=V
N n=1
N n=1
8. Voir Hansen (1982).
108
Si les erreurs en niveau sont homoscdastiques et non-autocorrles, V(mn ) a une

expression trs simple. En effet, on a :

V(mn ) = E Zn> n n> Zn = Zn> E Dn n> D> Zn = 2 Zn> hZn
avec
h = DD =
>
2
1
0
..
.
1
2
1
..
.
0
1
2
..
.
...
...
...
..
.
0
0
0
..
.
(7.8)
En effet, les erreurs du modle sont les innovations en diffrence nt n(t1) . En

supposant que ces erreurs son homoscdastiques et non corrles, on a :
2
E(nt
) = 22 ;
E(nt n(t1) ) = 2 ;
E(nt ns ) = 0 si | t s |> 1.
Linverse de la matrice de pondration scrit alors :
A(1)1 = V(m)
=
N
N
2 X >
1 X
V(m
)
=
Z hZn
n
N 2 n=1
N 2 n=1 n
(7.9)
2 est un scalaire inconnu qui ne joue aucun rle dans lestimation et qui peut donc
tre ignor. Lestimateur qui utilise cette matrice de pondrations est qualifi desP
1
N
>
timateur en une tape. Il sobtient simplement en substituant
n=1 Zn hZn
A dans lquation (7.7). Afin de calculer sa variance, on commence par remplacer
yn dans (7.7) par Xn + n . On obtient alors :
(1)
h P
P >
1 P >
i1
>
n Xn Zn
n Zn hZn
n Zn Xn
h P
P >
1 P >
i
>
X
Z
Z
hZ
Z
n
n
n
n
n
n
n
n
n
qui permet dobtenir lexpression de la variance de (1) , note V(1) :

V(1) = E ( )( )>
h P
P >
1 P >
i1
>
=
X
Z
Z
hZ
Z
X
n
n
n
n
n n
n n
h Pn
P >
1
>
X
Z
Z
hZ
n
n n
n
P
Pn n >
>
Z
E
Z
n
n i
n
1 P n > n

P n>
Z
hZ
Z
X
n
n
n n
n n
h P
P >
1 P >
i1
>
X
Z
Z
Z
hZ
X
n
n
n
n
n
n n
n n
(7.10)
(7.11)
109
Si les hypothses faites sur les erreurs sont vrifies, on a :

"
!
!#
X
X
X
E
Zn> n
n> Zn
= 2
Zn> hZn
n
et lexpression de la variance se simplifie alors :
(1)
= 2
Xn> Zn
!1
!1
!
X
Zn> hZn
Zn> Xn
(7.12)
Lestimateur des moments gnraliss et sa variance peuvent tre exprims de

manire plus compacte en utilisant les notations matricielles
: X > =
> suivantes
>
>
>
>
>
>
>
>
>
>
X1 , X2 , . . . , XN , y = y1 , y2 , . . . , yN , Z = Z1 , Z2 , . . . , ZN
et H une matrice bloc-diagonale obtenue en rptant h N fois. On a alors :

1

(1) = (X > Z)(Z > HZ)1 (Z > X)
(X > Z)(Z > HZ)1 (Z > y) (7.13)

(1) = 2 (X > Z)(Z > HZ)1 (Z > X) 1
V
(7.14)
Si, contrairement aux hypothse faites, les erreurs sont htroscdastiques et/ou
autocorrles, lestimateur en une tape demeure convergent, mais deux problmes
classiques se posent :
dune part, la matrice de pondrations utilise nest pas une estimation convergente de la bonne matrice de pondration, ce qui se traduit par une perte
defficacit ;
dautre part, lestimation de la variance donne par lquation (7.14) nest pas
convergente. Par consquent, tous les tests bass sur cette variance estime seront biaiss.
7.2.3
Estimateur en deux tapes
Afin de rsoudre en partie le premier problme, on peut utiliser un estimateur en

deux tapes, qui consiste rcuprer les rsidus destimation du modle en une
P >
P

P
(1)
(1)
(1)>
>
tape
n et destimer E
par n Zn>
n
n Zn ,
n Zn n
n n Zn
cet estimateur tant robuste la prsence dhtroscdasticit et/ou dautocorrlation. Linverse de la matrice de pondration des moments utilise scrit dans ce
cas :
P
m)
A(2)1 = V(
= N12 n V(m
n)
P
(7.15)
(1)
(1)>
(1) Z
= N12 n Zn>
n
n Zn = N12 Z >
(1)
(1)>
(1) une matrice bloc diagonale constitue des blocs :
avec
n
n
pour
n = 1 . . . N . Lestimateur gmm en deux tapes est alors obtenu en substituant
110
(7.15) A dans lquation (7.7) :

(2)

=

X > Z

(1) Z
Z >
1
X > Z

(1) Z
Z >
1
Z > X
Z > y
1
(7.16)
Concernant la variance de lestimateur, par un raisonnement similaire celui dcrit

par les quations (7.11 et 7.12), on obtient :
h
i1
(2) = (X > Z)(Z >
(1) Z)1 (Z > X)
V
(7.17)
(1) qui dpend

Le problme de cet estimateur de la variance est quil intgre
des rsidus destimation du modle en une tape et donc de (1) et de y. Cet

estimateur est par consquent biais et la drivation dun estimateur robuste de
la variance sera prsente dans la section 7.4.
Exemple 7.5
Lestimation dun modle de panel par la mthode des moments gnraliss est
ralise en utilisant la fonction pgmm de la librairie plm. Les arguments de cette
fonction sont les mmes que ceux de la fonction plm et il y a quelques arguments
spcifiques :
formula : la formule est particulire car elle comporte trois parties : la premire partie contient comme dhabitude les variables explicatives, la deuxime
les instruments gmm et la troisime les instruments normaux ;
model : le modle estimer est soit le modle en une tape : "onestep", soit
le modle en deux tapes "twosteps" ;
effect : les effets sont soit individuels "individuals" (ils sont alors limins par
la diffrentiation), soit double "twoways", dans ce cas des variables indicatrices
pour chaque priode sont ajoutes ;
On estime ci-dessous le modle en une tape. Dans la deuxime partie de la formule,
on indique ici que lon ne souhaite utiliser que la variable democracy comme
instrument gmm et que lon souhaite utiliser tous les retards disponibles en partant
du deuxime. Comme dans le cas prcdent, on instrumente galement le revenu
retard dune priode par cette mme variable retarde de deux priodes.
> diff1 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99)| lag(income, 2),
+
DemocracyIncome, index=c("country", "year"),
+
model="onestep", effect="twoways", subset = sample == 1)
> coef(summary(diff1))
Estimate Std. Error

z-value
Pr(>|z|)
lag(democracy) 0.50499446 0.09049045 5.580638 2.396373e-08
lag(income)
-0.09010807 0.08029127 -1.122265 2.617498e-01
111
Le modle deux tapes est obtenu en fixant largument model "twosteps" :

> diff2 <- update(diff1, model = "twosteps")
> coef(summary(diff2))
Estimate Std. Error

z-value
Pr(>|z|)
lag(democracy) 0.554007280 0.10783032 5.13776889 2.780195e-07
lag(income)
0.001843585 0.06053787 0.03045341 9.757054e-01
Tous les retards disponibles tant utiliss, le nombre dinstruments est trs important. On a en effet : 0.5 (11 1) (11 2) = 45 instruments gmm plus les
9 variables indicatrices de la priode et le revenu retard de deux priodes, soit
J = 55.
Notons que ces rsultats sont proches de ceux du modle dAnderson & Hsiao
(1982) ( coefficient autorgressif proche de 0.5 et coefficient du revenu non significatif).
7.2.4
La prolifration du nombre dinstruments dans le modle des moments gnraliss en diffrences
Pour lestimateur des moments gnraliss, le nombre dinstruments augmente avec

la dimension chronologique de lchantillon. Pour le modle gmm en diffrences, en
considrant uniquement les niveaux de y qui instrumentent y, on a 1 instrument
y1 pour la troisime observation (la premire utilisable), deux instruments y1 , y2
pour la quatrime et T 2 instruments pour la dernire observation y1 , y2 , . . . , yT 2
soit au total J = 1+2+. . .+(T 2) = 0.5(T 1)(T 2) instruments. Par exemple,
pour T = 10, on obtient 36 instruments. Le nombre dinstruments augmente donc
de manire quadratique avec T . Les matrices de pondration des moments (7.9)
et (7.15) sont de dimension J J. Du fait de leur symtrie, elles contiennent
J (J + 1)/2 lments uniques. Le nombre dlments estimer de cette matrice
est donc un polynme en T dont le terme dominant est T 4 /8. Chaque lment de
cette matrice tant estim par une moyenne empirique calcule sur les N individus
de lchantillon, il est vident que la prcision de lestimation des lments de cette
matrice nest assure que si N est grand par rapport J. Si ce nest pas le cas, il
arrive frquemment que les matrices (7.9 et 7.15) soient singulires. Lestimateur
des moments gnraliss ne peut alors plus tre calcul en utilisant la formule
donne par (7.7) car celle-ci utilise linverse de cette matrice. On peut alors avoir
recours une mthode dinverse gnralise pour calculer lestimateur, mais cest
clairement le symptme dun nombre dinstruments trop lev par rapport au
nombre dindividus.
Pour comprendre les consquences nfastes dun nombre dinstruments trs lev,
le plus simple est de considrer le cas de lestimateur des variables instrumentales.
Cet estimateur peut tre obtenu en appliquant deux fois les moindres carrs : une
premire fois en rgressant chaque colonne de la matrice de variables explicatives
X par rapport aux variables instrumentales W , une seconde fois en rgressant la
112
variable explique y par rapport aux valeurs prdites des estimations prcdentes
Plus le nombre dinstruments J sera important, meilleurs seront les rsultats
X.
sera dautant plus proche de X que
des premires estimations, cest--dire que X
J sera lev. Si J devient suprieur ou gal au nombre dobservations, on aura
= X et lestimateur des variables instrumentales sera identique celui des
X
moindres carrs ordinaires. On parle de problme d over-fitting 9 .
Afin de limiter le nombre dinstruments, plusieurs solutions sont envisageables. La
premire consiste limiter le nombre de retard pour les instruments. Par exemple,
pour T = 10, si on limite le nombre de retards 3, on obtient 1 instrument pour
t = 3, 2 pour t = 4, 3 pour t = 5 . . . 10, soit au total 21 instruments contre 36 si
tous les retards sont utiliss.
La seconde consiste agglomrer les conditions de moments 10 . Dans ce cas, la
matrice dinstruments (7.4) est remplace par la matrice suivante :
yn1
yn2
yn3
..
.
Zn =
yn(T 3)
yn(T 2)
0
yn1
yn2
..
.
0
0
yn1
..
.
0
0
0
..
.
yn(T 4)
yn(T 3)
yn(T 5)
yn(T 4)
yn(T 6)
yn(T 5)
...
...
...
..
.
0
0
0
..
.
. . . yn2
. . . yn3
0
0
0
..
.
yn1
yn2
P
1
0
0
0
..
.
0
yn1
(7.18)
Le vecteur des (T 2) moments empiriques est alors : m

= N n Zn> n avec :
P
>
PT
PT
T
=
Zn> n
t=3 yn(t2) nt ,
t=4 yn(t3) nt ,
t=5 yn(t4) nt , . . . ,

PT
t=T 1 yn(tT +2) nt , yn1 nT
Exemple 7.6
Afin dillustre le problme de prolifration des instruments, nous utilisons le second
jeu de donnes pour lequel la frquence dobservation est de 25 ans.
> pdim(DemocracyIncome25)
Nous estimons le modle gmm en diffrences avec les deux variables democracy
et income utilises comme instruments gmm en utilisant lensemble des retards
disponibles.
> diff25 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99) + lag(income, 2:99),
+
DemocracyIncome25, model = "twosteps")
9. Voir Roodman (2009a), pp.98-99.
10. Voir Roodman (2009b), p.148.
113
Pour chaque instrument gmm, il y a 0.5 6 5 = 15 conditions de moments et il

y a donc au total 30 instruments gmm plus les 5 variables indicatrices des annes,
soit J = 35, alors que le nombre dindividu N = 25. Comme lindique le message
davertissement, la matrice de pondration est singulire et une mthode dinverse
gnralise est utilise.
Afin de limiter le nombre dinstruments, nous estimons le mme modle en utilisant au maximum 3 retards pour chaque instrument, puis en agglomrant les
instruments.
> diff25lim <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:4)+ lag(income, 2:4),
+
+
model="twosteps", effect="twoways", subset = sample == 1)
> diff25coll <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99)+ lag(income, 2:99),
+
+
model="twosteps", effect="twoways", subset = sample == 1,
+
collapse = TRUE)
> sapply(list(diff25, diff25lim, diff25coll), function(x) coef(x)[1:2])
[,1]
[,2]
[,3]
lag(democracy) 0.4066085 0.4678152 0.50272735
lag(income)
-0.1713431 -0.1257871 -0.04221125
On constate que les rsultats des trois modles sont relativement similaires.
7.3
Estimateur des moments gnraliss en diffrences et en niveau
Le problme principal de lestimateur des moments gnraliss en diffrences est

que les retards en niveau de la variable explique sont souvent trs faiblement
corrls avec la variable explique retarde en diffrence. Pour rsoudre ce problme
dinstruments faibles, des conditions de moments sur le modle en niveau peuvent
tre ajoutes.
7.3.1
Des instruments faibles
La faiblesse de la corrlation entre les instruments du modle estim en diffrences

et la variable explicative yt1 peut tre mise en vidence dans le cas dun modle
autorgressif simple avec T = 3 11 . Dans ce cas, le modle en diffrences scrit pour
la troisime observation (la seule utilisable) :
yn3 = yn2 + n3
11. Voir Blundell & Bond (1998) p.120.
114
Le seul instrument disponible pour cette observation est yn1 . Lestimateur des
moments gnraliss se ramne donc lestimateur des variables instrumentales,
yn2 tant instrument par yn1 . En appliquant la dmarche des doubles moindres
carrs, on estime dans un premier temps yn2 en fonction de yn1 , puis dans un
second temps yn3 en fonction de
yn2 . La premire estimation correspond au
modle linaire suivant :
yn2 = yn1 + n
Le modle structurel tant ynt = yn(t1) + n + nt , lquation estimer peut
galement scrire :
yn2 = ( 1)yn1 + n + n2
Lestimateur des mco est alors :
= ( 1) +
1/N
yn1 (n + n2 )
P 2
1/N n yn1
n
En supposant que le processus a commenc il y a un grand nombre de priodes,

on peut calculer la limite de
en notant que le numrateur tend vers 2 /(1 )
(voir 7.3) et le dnominateur vers 2 /(1 )2 + 2 /(1 2 ) (voir 7.2). On a alors,
en notant k = (1 )2 /(1 2 ) :
plim
= ( 1)
k
2 /2 + k
(7.19)
En notant que lim=1 k = 0, on voit clairement que si le processus est proche

dun processus de racine unitaire,
sera proche de 0. La figure 7.2, qui reprsente
plim
et 1 en fonction de illustre le fait que, mme pour des valeurs de
sensiblement infrieures 1, plim
est trs proche de 0. Les instruments sont alors
faibles et la seconde estimation du modle des doubles moindres carr ordinaires
sera mdiocre (valeur du coefficient erratique, ecart-type lev). Les instruments
seront galement faibles si la variance de leffet individuel est trs leve par rapport
celle de linnovation.
7.3.2
Conditions de moments sur le modle en niveau
Arellano & Bover (1995) et Blundell & Bond (1998) ont montr quavec des hypothses faibles sur la manire dont les donnes sont gnres, une condition de
moment supplmentaire existe pour lquation en niveau qui scrit :
ynt = yn(t1) + n + nt
Les conditions de moment supplmentaires scrivent :

E yn(ts) (n + nt ) = 0 s = 1 . . . t 1
Elles indiquent donc que yn(ts) sont des instruments valides pour yn(t1) dans
lquation en niveau. Si les conditions de moments pour le modle en diffrences
115
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
0.8
1.0
Fig. 7.2 Coefficient de la premire tape et 1 en fonction de la valeur du

coefficient autorgressif
sont galement prises en compte, seule la condition correspondant s = 1 est

pertinente, les autres tant redondantes. Par exemple, pour T = 4, il y 3 conditions
de moment pour lquation en niveau 12 :
( + 3 )y2
(7.20)
( + 4 )y3
(7.21)
( + 4 )y2
(7.22)
et 3 conditions pour le modle en diffrences :

(3 2 )y1
(7.23)
(4 3 )y2
(7.24)
(4 3 )y1
(7.25)
En soustrayant (7.20) de (7.22) ou en soustrayant (7.25) de (7.24), on obtient

dans les deux cas : (4 3 )y2 . Par consquent, une condition de moment est
redondante. On peut omettre la condition (7.22) et plus gnralement ne prendre
en considration que les
conditions de moment pour le modle en niveau du type :
E yn(t1) (n + nt ) = 0.
En remplaant yn(t1) par yn(t2) + n + n(t1) , on obtient :

E (n + nt )(( 1)yn(t2) + n + n(t1) ) = 0
12. Lindice individuel est temporairement omis.
116
Les tant non corrls, on obtient :

E n ( 1)yn(t2) + n = 0
Soit encore, pour la priode t :
E [n (( 1)ynt + n )] = 0
Pour | |< 1 (hypothse dabsence de racine unitaire), cette condition peut se
rcrire, en la divisant par 1 :

n
=0
mnt = E n ynt
1
n
est ltat stationnaire de ynt dans le cadre du modle autorgressif simple.
Or, 1
La condition de moment indique donc que, la priode t, lcart entre la valeur
de la variable et ltat stationnaire ne doit pas tre corrl avec leffet individuel.
En remplaant ynt par yn(t1) + n + nt , on obtient :

n
mnt = E n yn(t1) + n + nt
=
1

n
E n yn(t1)
= mn(t1)
1
On a donc : mn(t1) = 0 mnt = 0. Cette quation indique donc que la condition de moment est soit vrifie pour toutes les priodes, soit pour aucune. Cette
situation est illustre sur la figure 7.3 13 . Une interprtation plus pragmatique de
cette quation est que mn dcrot au cours du temps un taux donn par . Si
le processus a dbut il y a longtemps, y est proche de sa valeur stationnaire et
la condition de moment est acceptable, mme si elle nest pas exactement vrifie.
Cette situation est illustre sur la figure 7.4.
7.3.3
Lestimateur gmm en systme
Lestimateur qui ajoute au modle estim en diffrences des conditions de moments sur le modle en niveau est appel estimateur des moments gnraliss en
systme ou sys-gmm. Cet estimateur est obtenu en utilisant le vecteur derreurs
en diffrence et en niveau :
+
n = (n , n ) = (n , n )
et la matrice de moments augmente suivante :
Zn
0
0
...
0 yn2
0
.
..
+
Zn =
0
0
yn3 . . .
0
0
0
...
0
0
0
yn(T 1)
13. Cette figure et la suivante sont inspires de Roodman (2009b) p.145 et 147.
117
12
10
0
0
10
15
20
25
30
Fig. 7.3 Le cas o la condition est vrifie chaque priode
10
10
15
20
25
30
Fig. 7.4 Le cas o la condition est quasiment vrifie pour les dernires priodes
118
Les conditions de moments sont alors :

X
Zn+>
n ()
n ()
!>
=
yn1 n3 ,
yn1 n4 ,
yn1 nT ,
yn2 n4 , . . . ,
yn2 nT , . . . ,
yn(T 2) nT ,
!>
n3 yn2 ,
n4 yn3 , . . . ,
nT yn(T 1)
Le choix dune matrice de pondration initiale est moins vident que dans le cas
du modle en diffrence. En effet, dans celui-ci, seul le vecteur des erreurs en diffrences est utilis et par consquent la variance de ce vecteur est, avec les hypothses
dabsence dautocorrlation et dhomoscdasticit des innovations, proportionnelle
une matrice connue, le coefficient de proportionnalit tant 2 dont lestimation
nest pas ncessaire (voir 7.8). En revanche, ici, le vecteur derreurs augment inclue les erreurs en niveaux, et donc les effets individuels. Dans ce cas, la matrice
de variance dpend de 2 et de 2 . Pour rsoudre ce problme et disposer dune
matrice initiale connue, on peut supposer 2 = 0. Dans ce cas :
V(+
n)

=E
n
n
n> , n>

=E
Dn n> D>
n n> D>
Dn n>
n n>

=
h
D>
D
I
Exemple 7.7
Le modle gmm en systme est obtenu dune manire similaire au modle en diffrence, la seule diffrence tant que largument transformation doit tre fix "ld"
(pour level et difference), sa valeur par dfaut tant "d" pour difference.
> sys2 <- pgmm(democracy ~ lag(democracy) + lag(income) |
+
lag(democracy, 2:99)| lag(income, 2),
+
+
model = "twosteps", effect = "twoways",
+
transformation = "ld")
> coef(summary(sys2))
Estimate Std. Error

z-value
Pr(>|z|)
lag(democracy) 0.6175939 0.05713917 10.808591 3.134483e-27
lag(income)
0.1199633 0.01791565 6.696003 2.141970e-11
On constate que le coefficient autorgressif obtenu dans le modle en systme est

proche de celui obtenu prcdemment dans le modle en diffrence. On remarque
galement que le coefficient associ au revenu est significativement positif et beaucoup plus lev que prcdemment.
7.4
119
Infrence
Lestimation dun modle par la mthode des moments gnraliss pose deux types
de problmes en termes dinfrence :
le premier est que, mme si lestimation du modle est convergente, il nen est pas
ncessairement de mme pour la matrice de variance-covariance des coefficients
si la formule classique de cette matrice est applique. On peut alors mettre en
oeuvre des estimateurs robustes de cette matrice ;
le second est que lestimation nest convergente que si certaines hypothses sont
vrifies : en particulier lhypothse dabsence de corrlation des innovations et
celle de validit des conditions de moments.
7.4.1
Estimation robuste de la matrice de variance des coefficients
La formule de la variance de lestimateur en une tape est donne par lquation

>
(7.11). Si les innovations sont htroscdastiques
et/ou corrles,
P >
P
Z HZ nest pas
>
un estimateur convergent de E
et lestimateur de
n Zn n
n n n Z n
(1) Z est un
la variance donn par (7.14) nest pas robuste. En revanche, Z >
estimateur convergent de la variance des moments, ce qui permet, en introduisant cette expression dans (7.11), dobtenir lestimateur robuste de la variance des
coefficients du modle en une tape :

(1) = X > Z(Z > HZ)1 Z > X 1

V
(1) Z)(Z > HZ)1 Z > X
(7.26)
X > Z(Z > HZ)1 (Z >

1
>
>
1 >
X Z(Z HZ) Z X
Lexpression de lestimateur en deux tapes est donne par (7.16). La difficult est
(1) , qui dpend lui-mme de (1) et donc de y. Par
que lestimateur dpend de
consquent, (2) nest pas une fonction linaire de y et la formule habituelle de

la variance nest pas adapte.
(1) est typiquement trs
Lestimation de la variance du vecteur des J moments
imprcise pour deux raisons. La premire est que le nombre de paramtres est
trs important (J (J + 1)/2). La seconde est que ces paramtres sont des moments dordre 2 de moments dordre 2, donc des moments dordre 4 des donnes
originales 14 . La dmarche propose par Windmeijer (2005) permet dobtenir une
estimation convergente de la variance de lestimateur en deux tapes. Pour commencer, on remplace dans (7.16) y par X + . On obtient alors :

1

1
>
(1) Z
(2) =
X > Z Z >
Z
X

(7.27)

1

>
(1) Z
X > Z Z >
Z
14. Voir Roodman (2009b) p.140.
120
De manire gnrale, on dfinit :

1

1
=
g(y, )
X > Z Z > Z
Z > X

1

Z >
X > Z Z > Z
(7.28)
(1) ). La variance de (2) est donc celle de

ce qui implique que (2) = g(y,
(1) ). On ralise ensuite un dveloppement limit dordre 1 de g autour de

g(y,
la vraie valeur des paramtres . On note D le gradient de g valu pour la vraie

valeur des paramtres :
) |
D=
g(y,
=

Le dveloppement limit scrit alors :
(1) ) g(y,
) + D((1) )
g(y,
Or, ((1) ) = g(y, H). Par consquent, le dveloppement limit devient :

(1) ) g(y,
) + Dg(y, H)
g(y,
La variance de (2) est alors approxime par :

h
ih
i>
(2) g(y,
) + Dg(y, H) g(y,
) + Dg(y, H)
V
Soit encore :
(2)
V
)g(y, H)> D>

g(y,
)>
+ Dg(y, H)g(y,
)g(y,
)>
+ g(y,
+ Dg(y, H)g(y, H)> D>
(7.29)
par
(1) , g(y,
)g(y,
)> et g(y,
)g(y, H)>
En remplaant par
(1) et
h
i
1
(2) = X > Z(Z >
(1) Z)1 Z > X
sont tous les deux approxims par V
. De

(1)
1
. On obtient
= V
plus, g(y, H)g(y, H)> = X > Z(Z > HZ)1 Z > X
donc finalement lexpression de la matrice de variance robuste de lestimateur en
deux tapes :
(2)
(2) D> + DV
(1) D> + V
(2) + DV
(2)
V
=V
Lexpression de D est donne par Windmeijer (2005).
Exemple 7.8
La fonction vcov permet dobtenir lexpression classique et non convergente de
la variance et vcovHC permet dobtenir la version robuste (quations 7.26 pour le
modle en une tape et 7.29 pour le modle en deux tapes). Nous extrayions cidessous les carts-types des deux premiers coefficients pour le modle en diffrences
en deux tapes.
121
> sqrt(diag(vcov(diff2)))[1:2]
lag(democracy)
0.04794953
lag(income)
0.04645903
> sqrt(diag(vcovHC(diff2)))[1:2]
lag(democracy)
0.10783032
lag(income)
0.06053787
On constate effectivement sur cet exemple que lexpression classique de la variance

de lestimateur semble biaise vers le bas. En effet, lcart-type robuste est nettement suprieur lcart-type classique.
7.4.2
Tests de validit des moments
Si P
les conditions de moments sont valides, le vecteur de moments empiriques m
=
1
>
est
desprance
nulle.
Si
cette
hypothse
est
vrifie,
la
statistique
Z
n
n n
N
de Wald :
m
> V(m)
1 m
suit un 2 J K degrs de libert. Ce test a t propos par Sargan (1958) et

appliqu aux modles des moments gnraliss par Hansen (1982).
Plusieurs versions de ce test peuvent tre obtenues selon :
que les rsidus du modle en une tape ou en deux tapes sont utiliss pour
approximer m
;
2
(1) Z) de la matrice de
que lestimation simple ( N2 Z > HZ)ou robuste ( N12 Z >
variance des moments est utilise.

Par exemple, le test portant sur le modle deux tapes utilisant lestimation
robuste de la matrice des moments est bas sur la statistique :
1
(2)> Z
N

(2)> Z
1
>
N 2 Z (1) Z

(1) Z
Z >
1
1
1 >
(2)
N Z
Z >

(2)
qui est la valeur de la fonction objectif du modle de moments gnraliss en deux

tapes value pour (2) .
Il est recommand, dans le cas du modle sys-gmm, de raliser un test de SarganHansen sur le sous-ensemble de conditions de moments qui concerne le modle
en niveau, afin de tester sparment la validit des hypothses supplmentaires
imposes pour que ce modle soit valide.
Exemple 7.9
Le test de Sargan-Hansen est ralis laide de la fonction sargan . Par exemple,
pour le modle en diffrences en une tape, on obtient :
122

> sargan(diff2)
Sargan Test
data:
chisq = 49.8814, df = 44, p-value = 0.251
> sargan(sys2)
Sargan Test
data:
chisq = 55.6784, df = 54, p-value = 0.4114
On a pour le modle en diffrences J = 55 (les 45 instruments gmm, la variable

de revenu et les 9 variables indicatrices de la priode) et K = 11 (lendogne
retarde, le revenu et les 9 variables indicatrices de la priode). Le nombre de
degrs de libert de ce test est donc de J K = 44. Lhypothse de validit des
moments pour ce modle est ici non-rejete.
Pour le modle en systme, le nombre dobservations utilises est de 10 (une de plus
que dans le modle en diffrence). Il y a donc un coefficient et un instrument en
plus (le coefficient associ la variable indicatrice de la priode supplmentaire),
et 10 instrument supplmentaires qui correspondent aux conditions de moments
pour les 10 observations du modle en niveau. On a donc J = 55 + 1 + 10 = 66 et
K = 11 + 1 = 12. Le nombre de degrs de libert est donc de J K = 66 12 = 44
et l aussi, lhypothse de validit des conditions de moment pour le modle gmm
en systme nest pas rejete.
Le test de Hansen-Sargan est particulirement sensible au problme de prolifration des instruments. Roodman (2009b) montre, en utilisant les tudes de Levine
et al. (2000) et de Forbes (2000), que la probabilit critique de ce test a tendance
tre trs leve, ce qui conduit ne pas rejeter lhypothse de validit des conditions de moments, alors que le mme test ralis sur des modles plus parcimonieux
en termes de nombre dinstruments peut conduire au rsultat oppos. Afin dillustrer ce rsultat, on calcule le test de Sargan sur les modles estims prcdemment
sur les donnes pour lesquelles il y a 7 observations de 25 pays.
> sapply(list(diff25, diff25lim, diff25coll),
+
function(x) sargan(x)[["p.value"]])
chisq
chisq
chisq
0.91890072 0.07104934 0.21531390
La probabilit critique pour le modle qui utilise toutes les conditions de moment
est proche de 1, alors que celles des deux autres modles sont bien infrieure ; en
particulier, pour le modle qui limite le nombre de retards 3, lhypothse de
validit des conditions de moment est rejete au seuil de 5%.
7.4.3
123
Test dabsence dautocorrlation des innovations
La mthode des moments gnraliss nest convergente que si les conditions de

moments sont vrifies, ce qui implique en particulier que les innovations ne sont
pas auto-corrls. Arellano & Bond (1991) ont propos un test adapt cette
situation. Ce test est bas sur la statistique suivante :
1
>
l
al =
N
o l est le retard dordre l de . En utilisant lexpression du modle thorique
et du modle estim : y = X + = X +
, on obtient :
= X( )
En insrant cette expression dans la statistique de test, on obtient :

al = 1N > ( )> X > l X l ( )
= 1N > l
1
>
l

N ( )
N X
> 1
N ( ) N X > l
N ( )> 1 1 X > X l N ( )
+
N N
Cette expression se simplifie siN + en notant que :

tant convergent dordre N , N ( ) nest ni divergent, ni ne converge
vers 0 ;
si les variable explicatives ne sont pas post-dtermines, elles ne sont pas corrles avec les valeurs postrieures de . On a alors : N1 > X l 0 ;
N1 X > X l ne diverge pas.
ce qui implique que les deuxime et quatrime termes convergent vers 0. Le calcul
dun estimateur convergent de la variance de al peut donc tre bas sur celle de :

1 > l
bl =
( )> X > l
N
Un estimateur convergent de bl (et donc de al ) est :
1 l>
> l
)X
V(
)
l +
l> X V(
N

)
2
l> X(X > ZAZ > X)1 XZAZ > V(
l
La statistique de test est alors obtenue en divisant al par la racine carr de lexpression prcdente et elle suit une distribution normale si lhypothse dabsence
dautocorrlation est vrifie. Le modle tant exprim en diffrence, le test dautocorrlation dordre 1 nest pas pertinent car nt = nt n(t1) est corrl
124
avec n(t1) = n(t1) n(t2) du fait de la prsence de n(t1) dans les deux
diffrences successives. En revanche, le test dautocorrlation dordre 2 est pertinent, puisquil consiste analyser la corrlation entre nt = nt n(t1) et
n(t2) = n(t2) n(t3) , qui existe si n(t1) est corrl n(t2) , cest--dire
si les innovations en niveau prsentent une autocorrlation dordre 1.
Exemple 7.10
Le test dautocorrlation des innovations de Arellano & Bond (1991) est obtenu
laide de la fonction mtest . Largument order est ici fix 2 conformment la
remarque prcdente.
> mtest(diff2, order = 2)
Autocorrelation test of degree 2
data:
normal = 0.8809, p-value = 0.1892
Les rsultats dtaills du modle sont disponibles en utilisant la mthode summary

. Les tests prcdemment dcrits sont imprims et linfrence est ralise laide
de lestimateur robuste de la variance des coefficients si largument robust est vrai,
ce qui est la valeur par dfaut.
> summary(diff2)
Twoways effects Two steps model
Call:
pgmm(formula = democracy ~ lag(democracy) + lag(income) | lag(democracy,
2:99) | lag(income, 2), data = DemocracyIncome, subset = sample ==
1, effect = "twoways", model = "twosteps", index = c("country",
"year"))
Number of Observations Used:
Residuals
Min.
1st Qu.
-1.301000 -0.003145
Median
0.000000
838
Mean
0.001891
3rd Qu.
0.000000
Max.
1.079000
Coefficients
Estimate Std. Error z-value Pr(>|z|)
lag(democracy) 0.5540073 0.1078303 5.1378 2.78e-07 ***
lag(income)
0.0018436 0.0605379 0.0305
0.9757
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Sargan Test: chisq(44) = 49.8814 (p.value=0.25098)
Autocorrelation test (1): normal = -4.457875 (p.value=4.1388e-06)
Autocorrelation test (2): normal = 0.8592423 (p.value=0.1951)
Wald test for coefficients: chisq(2) = 28.13308 (p.value=7.78e-07)
Wald test for time dummies: chisq(9) = 33.6682 (p.value=0.00010211)
7.5
125
Exemples dapplication
Les articles utilisant la mthode des moments gnraliss en panel sont trs nombreux. Nous nous contenterons ici de dcrire ceux pour lesquels les donnes sont
disponibles dans les librairies plm et pder.
Ltude de Levine et al. (2000) vise analyser sil existe une relation de causalit
entre la qualit du systme financier (qui permet de limiter les asymtries dinformation et de faciliter les transactions) et la croissance conomique. A cet effet, ils
estiment un modle dans lequel la croissance conomique est estime en fonction
dun ensemble de variables de contrle et des caractristiques exognes du systme financier. Ils utilisent un panel de 74 pays pour lequel ils ont 7 observations
de priodes de 5 ans allant de 1960 1995. Le taux de croissance en logarithme
est rgress en fonction du niveau de richesse initiale en logarithme, et de trois
indicateurs de la qualit du systme financier : le degr de liquidit du systme
financier, le rapport entre les dpts des banques commerciales et la somme des
dpts des banques commerciales et de la banque centrale et le rapport entre les
crdits accords lconomie et le PIB. Les deux modles gmm en diffrences et
en systme sont estims et les trois indicateurs de la qualit du systme financier
ont une influence significativement positive sur la croissance, en particulier dans
le cadre de lestimation en systme. Roodman (2009b) revient sur cette tude en
sintressant au problme de prolifration des instruments, susceptible daboutir
une validation fallacieuse de lhypothse de validit des conditions de moments. En
particulier, dans ltude originale, la probabilit critique du test de Hansen pour
les conditions de moments du modle en niveau est de 0.97. Des spcifications diffrentes, plus conomes en termes de nombre dinstruments, utilises par Roodman
(2009b) donnent des rsultats bien diffrents. En effet, la probabilit critique est
de 0.001 et lhypothse de validit des conditions de moments supplmentaires du
modle en systme est rejete. Les donnes permettant de reproduire ces rsultats
sont disponibles sous le nom de FinGrowth dans la librairie pder.
Forbes (2000) sintresse linfluence de lingalit de la distribution des revenus
sur la croissance conomique. A cet effet, un panel de 45 pays pour 6 priodes
quinquennales allant de 1960 1995 est utilis. La croissance est estime en fonction du revenu par tte en logarithme retard dune priode, du coefficient de Gini
retard dune priode, du niveau dducation des hommes et des femmes et du niveau de prix de linvestissement. Plusieurs mthodes destimation sont utilises, en
particulier lestimateur gmm en diffrences de Arellano & Bond (1991). Le rsultat
principal de ltude est que le coefficient associ lindice de Gini est positif et
significatif au seuil de 5%. Ce rsultat est en contradiction avec beaucoup dtudes
ralises en coupe transversale qui concluent une relation ngative entre ingalit et croissance. Cette tude a t reprise par Roodman (2009b) afin dillustrer le
risque dutiliser des instruments faibles et nombreux. En effet, le coefficient autorgressif est proche de 1 et le nombre dinstruments est trs lev (80, alors quil ny
a que 138 observations). Roodman (2009b) utilise plusieurs autres spcifications
qui limitent le nombre dinstruments et, dans ce cas, lindice de Gini nest plus
126
significatif.
Caselli et al. (1996) sintressent lanalyse de la croissance conomique des pays
et en particulier au phnomne de convergence. Il partent des rsultats obtenus
dans de nombreuses tudes ralises en coupe transversale qui aboutissent pour
la plupart la conclusion que les pays convergent vers leur tat stationnaire un
taux trs faible, gal environ 2-3%. Leur argument est que ces tudes souffrent
de deux problmes de spcification : le premier est la non prise en compte de
la nature dynamique du modle et le second est la non prise en compte de la
possible endognit des variables explicatives. Les auteurs appliquent lestimateur
de Arellano & Bond (1991) sur un panel de 93 pays et 6 priodes quinquennales
de 1965 1985. Ils aboutissent un taux de convergence beaucoup plus lev, de
lordre de 10%. Bond et al. (2001) indiquent que les rsultats obtenus doivent tre
pris avec circonspection dans la mesure o la variable explique tant quasiment
une variable racine unitaire, les instruments utiliss dans le modle sont faibles.
Ils restiment le mme modle en utilisant lestimateur de Blundell & Bond (1998)
et ils obtiennent alors un taux de convergence beaucoup plus faible, de lordre de
2-4%.
Dans leur article fondateur, Arellano & Bond (1991) ont utilis des donnes de 140
entreprises britanniques de 1976 1984 afin destimer une quation de demande de
travail. Celle-ci est dynamique du fait de linclusion de deux retards de la variable
explique. Les autres variables explicatives utilises, elles aussi avec deux retards,
sont le taux de salaire, le stock de capital et le niveau de production. Ces donnes
ont t utilises dans de nombreux autres articles, en particulier Blundell & Bond
(1998), Windmeijer (2005) et Roodman (2009a). Elles sont disponibles sous le nom
de EmplUK dans la librairie plm.
Alonso-Borrego & Arellano (1999) mnent une tude sur des donnes similaires
concernant 738 entreprises espagnoles sur la priode 1983-1990. Un modle var
est utilis pour lemploi et le taux de salaire. Ces donnes sont disponibles sous le
nom de Snmesp dans la librairie plm.
Mairesse & Hall (1996), Blundell & Bond (2000) et Bond (2002) ont estim une
fonction de production Cobb-Douglas sur un panel de 509 entreprises amricaines
sur la priode 1982-1989. Les variables explicatives sont, en logarithme, lendogne
retarde et les deux facteurs de production (travail et capital) contemporains et
avec un retard. Les rsultats de Mairesse & Hall (1996), obtenus en utilisant lestimateur de Arellano & Bond (1991) sont surprenants : lhypothse de rendements
constants est rejete et le coefficient associ au capital est faible et non-significatif.
Blundell & Bond (2000) montrent que ces mauvais rsultats sont ds au fait que
les variables utilises sont proches dtre des processus de racine unitaire. Dans
ce cas, on sait que lestimateur gmm en diffrences donne de mauvais rsultat car
les instruments sont faibles. En revanche, les rsultats quils obtiennent en utilisant lestimateur en systme donne des rsultats plus plausibles (hypothse de
rendements constants non rejete et coefficient associ au capital significatif). Ces
donnes sont disponibles sous le nom de RDPerfCompanies dans la librairie pder.
Bond (2002) prsente un exemple destimation de modle autorgressif simple en
127
utilisant une srie de taux dinvestissement pour 703 entreprises amricaines sur
la priode 1987-2000. Ces donnes sont disponibles sous le nom de InvRate dans
la librairie pder.
Kessler et al. (2011) sintressent linfluence des transferts inter-rgionaux dans
un Etat fdral sur les ingalits entre les rgions. Leur modle thorique prdit
que, contrairement lintuition, ces transferts peuvent aggraver les ingalits interrgionales. Ils utilisent des donnes pour 17 pays de lOCDE sur la priode 19821999, en utilisant en particulier la mthode destimation de Arellano & Bond
(1991). Les rsultats indiquent effectivement quun accroissement des transferts
aggrave les ingalits inter-rgionales. Ces donnes sont disponibles sous le nom
de RegIneq dans la librairie pder.
128
Chapitre 8
Modles linaires gnraliss et

assimils
Les modles linaires gnraliss constituent une famille de modles utiliss en
statistique. Ces modles sont caractriss par une fonction de distribution pour la
variable explique et inclue, comme cas particulier :
le modle gaussien, quivalent au modle linaire,
le modle binomial, pour lequel la variable explicative ne prend que deux valeurs ;
deux cas particuliers trs utiliss des modles binomiaux sont les modles logit
et probit,
le modle de Poisson, adapt au cas o la variable explique est une variable de
comptage.
En plus de ces modles, trs couramment utiliss en conomtrie, nous dcrivons
dans cette section dautres modles qui ne sont pas des modles linaires gnraliss
mais qui constituent des extensions naturelles de ceux-ci ; il sagit :
du modle tobit qui est un mlange du modle gaussien et du modle probit,
du modle ordonn, qui est une extension naturelle du modle binomial,
du modle negbin, qui est une extension du modle de Poisson.
8.1
8.1.1
Le modle binomial
Introduction
On considre une modle pour lequel la variable explique est binomiale, les deux
valeurs possibles tant notes 0 et 1. On dfinit une variable latente y , qui est
une variable continue inobservable. Cette variable latente est relie la variable
binomiale observe y par la rgle dobservation suivante :
130
y > y = 1
y y = 0
Sans perte de gnrait, on peut supposer que = 0. La valeur de la variable
latente est la somme dune combinaison linaire de variables explicatives et dun
terme derreur.
y = > x +
Les probabilits associes aux deux valeurs possibles de la variable explique sont
alors :
P (y = 0) = P ( > x)
P (y = 1) = P ( > > x)
En notant F la fonction de densit cummule de , nous avons :
P (y = 0) = F ( > x)
P (y = 1) = 1 F ( > x) = F ( > x)
la dernire expression tant valable si la densit de est symtrique. En notant
q = 2y 1, qui est gal 1, +1, la probabilit peut tre exprime en utilisant
lexpression compacte suivante :
P (y) = F (q > x)
La moyenne et la variance de la variable latente ne sont pas identifies. Deux
fonctions de distribution sont couramment utilises. La distribution normale :
Z
2
1
e
F () = () =
2
qui conduit au modle probit et la distribution logistique :

F () = () =
e
1 + e
qui conduit au modle logit.

La fonction de log de vraisemblance scrit :
X
ln L =
ln Fi
i
avec :
Chapitre 8. Modles linaires gnraliss et assimils
131
Fi = F (zi ) and zi = qi > xi

Le gradient est :
ln L X fi
=
q i xi
Fi
i
et la hessienne :
X
2 ln L
=
>
fi0
Fi
fi
Fi
2 !
qi2 xi x>
i
Pour le modle logit, ces deux expressions deviennent :

ln L X
1
=
qi xi
1
+
ez i
i
X ezi
2 ln L
=
q 2 x x>
>
zi i i i
1
+
e
i
alors que pour le modle probit, on obtient :
ln L X i
=
qi xi
i
i

X i
i
2 ln L
=
zi +
qi2 xi x>
i
>
i
i
i
8.1.2
Panel
Dans le cas de donnes de panel, nous disposons dobservations rptes de y pour

les mmes individus. La variable latente est alors dfinie par :
ynt
= > xnt + n + nt
Le terme derreur est classiquement la somme de deux composantes, un effet individuel n et un terme isiosyncratique nt . Deux observations du mme individu
sont alors corrles du fait de la prsence de n . Si le vecteur contient une
constante, on peut suposer sans perte de gnralit que E() = 0.
ynt
= > xnt + n + nt
Pour une valeur donne de n , la probabilit est dfinie comme prcdemment

pour une observation :
P (ynt | n ) = F qnt ( > xnt + n )
132
La probabilit jointe des diffrentes ralisations de y pour les diffrentes priodes

pour lindividu n scrit :
P (yn1 , yn2 , . . . , ynT | n ) =
T
Y

F qnt ( > xnt + n )
t=1
La probabilit non conditionelle est obtenue en intgrant cette expression. En

supposant que la distribution de est normale, on obtient :
Z
Ln =
T
+ Y
1
2
e0.5( ) d
F qnt ( > xnt + )
2
t=1
d
v=
dv =
2
2
1
Ln =
T
+ Y

2
F qnt ( > xnt + 2v) ev dv
t=1
Il ny a pas dexpression analytique pour cette intgrale, mais elle peut tre approxime numriquement de manire efficace en utilisant les quadrature dHermite.
On a alors :
R
T
R

Y
1 X
1 X
wr
F qnt ( > xnt + 2vr ) =
wr Fir
Ln =
r=1
t=1
r=1
avec : Fir =
QT
t=1
F qnt ( > xnt +

2vr )
r
gnt
=
hrnt =
r
ln Fnt
r
znt
r
2 ln Fnt
2
r
znt
Le gradient et la hessienne sont, en notant = (, ) lensemble des paramtres

estimer :
" ( T

)#
R
X
ln Ln
1 X r
x
nt
r
=
F wr
qnt gnt
2vr
Ln r=1 n
t=1
2 ln Ln
>
8.1.3
133
" T

R
X 2

1 X r
xnt
r
r
=
x>
,
2vr
Fn w r
qnt hnt
nt
2vr
Ln r=1
t=1
!#
! X

T
T

X
x
nt
r
r
x>
ant gnt
+
ant gnt
nt , 2vr
2vr
t=1
t=1

>

ln Ln
ln Ln
Application
Brender & Drazen (2008) se sont intress linfluence de la politique budgtaire

sur la rlection des hommes politiques. Plus prcisment, il est souvent suggr
que lorsquune chance lectorale approche, les hommes politiques en place ont
tendance mener une politique budgtaire plus gnreuse, cest--dire rduire
les impts et/ou augmenter les dpenses. Dans cet article, un panel de 75 pays
est utilis, avec un nombre dobservations compris entre 1 et 16. Au sein de cet
chantillon, un sous-ensemble dobservations est isol lorsque lhomme politique
au pouvoir se reprsente (pour les autres observations, on analyse si le parti au
pouvoir est rlu ou non). Ce sous-chantillon peut tre slectionn laide de la
variable logique narrow. La variable explique est reelect qui vaut 1 en cas de
rlection et 0 autrement. Les deux variables explicatives cruciales sont ddefterm
et ddefey qui mesure le ratio dexcdent budgtaire, dans le premier cas pour
les deux annes prcdent llection par rapport aux deux annes prcdentes et
dans le second cas pour lanne de llection par rapport lanne prcdente. Les
variables de contrle sont le taux de croissance du pib durant le mandat gdppc,
le fait que le pays soit en dveloppement ou non dev, le fait quil soit nouvellement
une dmocratie nd et le fait que le systme lectoral soit majoritaire ou non maj.
> library("pglm")
> data("Reelection", package="pder")
Les rsultats du modle logit effets alatoires est donn ci-dessous :

> summary(elect.ea <- pglm(reelect~ddefterm+ddefey+gdppc+dev+nd+maj, Reelection,
+
family=binomial(link=logit), subset = narrow))

Return code 1: gradient close to zero
8 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
134

0.48947 -3.1402 0.001689
ddefterm
14.08614
8.21124 1.7155 0.086259
ddefey
13.79305
6.99844 1.9709 0.048738
gdppc
19.37953
7.61767 2.5440 0.010958
dev
0.89268
0.42963 2.0778 0.037728
nd
0.80960
0.43940 1.8425 0.065402
maj
0.84695
0.38076 2.2243 0.026126
sigma
0.84054
0.34604 2.4290 0.015140
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
--------------------------------------------
**
.
*
*
*
.
*
*
. 0.1 1
On constate que la probabilit de rlection est plus forte dans les pays en dveloppement, dans les pays nouvellement dmocratique et pour les systmes lectoraux
majoritaires. Le taux de croissance du pib a galement leffet positif attendu sur la
probabilit de rlection. Concernant la politique budgtaire, les coefficients associs aux deux variables indiquant la variation du surplus budgtaire lapproche de
llection sont positifs ; cela signifie quune politique budgtaire lectoraliste na
pas deffet positif systmatique sur la rlection. A linverse, les rsultats indiquent
que les lecteurs auraient plutt tendance pnaliser ce type de politique.
8.2
8.2.1
Modle ordonn
Introduction
Un modle ordonn est un modle pour lequel la variable explique peut prendre
J valeurs (avec J > 2). La modlisation est similaire au modle binomial. On
considre une variable latente, gale comme prcdemment la somme dune combinaison linaire de variables
explicatives et dun terme derreur :
y = > x +
Notons = (1 , 1 , . . . , J , J+1 ) un vecteur de paramtres, avec 1 = et
J+1 = +. La rgle dobservation pour les diffrentes valeurs de y scrit alors :
y
y
= 1
= 2
..
.
..
.
y
y
= J 1
= J
J1
1
2
..
.
>x +
>x +
..
.
2
3
>x +
J
> x + J+1
En notant F la fonction de densit cummulative de , la probabilit associe une

valeur de y scrit :
P(y = j) = F (j > x) F (j1 > x)
135
The probability of the outcome yn for the individual n can be writen :

Pyn = P(y = yn ) = F (yn +1 > xn ) F (yn > xn )
The gradient and the hessian are, denoting = (, ) the complete set of the
parameters, wh a vector of J + 1 elements which are all zero except at the h
0
position and f the derivative of the density function f :

ln Ln
fyn +1
fyn
xn
xn
=
wyn +1
wyn
Pyn
Pyn
2 ln Ln
>
xn
wyn +1
ln Ln

8.2.2
>
x>
n , wyn +1
ln Ln
fyn +1
Py n
xn
wyn
>
x>
n , wyn
fyn
Py n
>
Panel
Le raisonnement est similaire celui adopt pour le modle binomial. La probabilit jointe pour un individu n pour une valeur donne de leffet individuel est :
P (yn1 , yn2 , . . . , ynt | n ) =
T
Y

F ynt +1 > xnt n F ynt > xnt n
t=1
En supposant que la distribution des effets individuels est normale, la probabilit

non conditionelle scrit :
Z
Ln =
T
+ Y
t=1

1
2
F ynt +1 > xnt n F ynt > xnt n
e0.5( ) d
2
En utilisant le mme changement de variable que prcdemment, on obtient :
1
Ln =
T h
+ Y

i
2
F ynt +1 > xnt 2v F ynt > xnt 2v ev dv
t=1
que lon peut approximer en utilisant les quadrature de Gauss-Hermite :

R
T h

i
Y
1 X
Ln =
wr
F ynt +1 > xnt 2vr F ynt > xnt 2vr
r=1
t=1
136
En notant :
r
znt = ynt > xnt 2vr
mrnt = m(z
nt )
xn
= wynt
Mnt
2vr
+r
znt
= ynt +1 > xnt 2vr
+r
m+r
nt = m(z
nt )
xn
r+
Mnt = wynt +1
2vr
R
T
Y
+r

1 X
r
Ln =
wr
Fnt Fnt
r=1
t=1

QT +r
r
Fnt
avec > = ( > , > , ) le vecteur complet de paramtres estimer, Fnr = t=1 Fnt
+r
+r
r
r
ln[Fnt
Fnt
2 ln[Fnt
Fnt
] r
]
r
=
gnt
, hnt =
le gradient et la hessienne scrivent :
z r
z r 2
nt
nt
R
X
1
ln Ln
=
Ln
ln Ln
>
Ln
R
X
r=1
wr Pnr
e+r
ynt
t=1
r
Fy+r
nt Fynt
8.2.3
ln Ln
r
fyrnt Mnt
Fy+r
nt

ln Ln
r
r
gnt
Mnt
T
X
!>
+r
+r
gnt
Mnt
r
r
gnt
Mnt
t=1
>
r
r
gnt
Mnt
!
+r
+r
gnt
Mnt
+r
+r
Mnt
Mnt
+r
Mnt
fy+r
nt
)
+r
+r
gnt
Mnt
t=1
t=1
T
X
t=1
T
X
r=1
T
X
T
X
(
wr Fnr
T
X
erynt
t=1
r
Fy+r
nt Fynt
r
r >
Mnt
Mnt
+r
r
Mnt
fyrnt Mnt
fy+r
nt
2
Fyrnt
> !)
>
Application
Raux et al. (2009) ont analys lquit perue de diffrents type de rationnement
de la demande laide dune enqute dans laquelle les individus devaient indiquer
sur une chelle ordinale leur avis sur une proposition de rationnement concernant
soit lallocation de places de TGV, soit de places de parking. La variable explique
answer prend des valeurs entires de 0 (trs injuste) 3 (trs juste). La principale
variable explicative indique le type de rationnement propos : tarification de pointe
peak, rgle administative admin, tirage au hasard lottery, offre complmentaire
addsupply, file dattente queuing, rgle morale moral et rgle de compensation
compensation. Les autres variables explicatives indique que le rationnement est
rcurrent ou non reccuring, que la personne interroge a un diplme education
et quelle dispose ou non dun permis de conduire driving. Lestimation suivante
137
est un probit ordonn pour le bien parking en prenant en compte linteraction

entre le type de rgle et lducation.
> data(Fairness, package = pglm)
> op <- pglm(as.numeric(answer)~recurring+driving+education+rule,
+
data= Fairness,subset=good==parking,
+
family=ordinal(probit), R=10, index=id,
+
model="random")
> summary(op)

13 free parameters
Estimates:
Pr(> t)
(Intercept)
-0.268592
0.072483 -3.7056 0.0002109 ***
recurringyes
-0.077394
0.059175 -1.3079 0.1909119
drivingno
0.255440
0.079863 3.1985 0.0013816 **
educationno
-0.308525
0.105204 -2.9326 0.0033610 **
ruleadmin
-0.066439
0.088131 -0.7539 0.4509275
rulelottery
0.238053
0.086215 2.7612 0.0057594 **
ruleaddsupply
1.221326
0.085302 14.3177 < 2.2e-16 ***
rulequeuing
1.847690
0.088629 20.8476 < 2.2e-16 ***
rulemoral
2.836708
0.098330 28.8487 < 2.2e-16 ***
rulecompensation 2.622407
0.095999 27.3170 < 2.2e-16 ***
mu_1
1.018679
0.037790 26.9566 < 2.2e-16 ***
mu_2
2.515460
0.058926 42.6888 < 2.2e-16 ***
sigma
0.529240
0.050331 10.5152 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------
8.3
8.3.1
Modle tobit
Introduction
On considre dsormais une variable y qui est censure gauche en 0. Sa relation

avec la variable latente continue y est alors la suivante :
y 0 y = 0
y > 0 y = y
Les mmes hypothses que prcdemment sont faites sur la variable latente, cest-dire y = > x + , avec N (0, 2 ). La contribution dune observation la
138
vraisemblance dpend alors du fait que cette observation soit nulle ou positive.
Pour une observation nulle, il sagit dune probabilit :

>x
P(y = 0) =

alors que pour une observation positive, il sagit de la densit :
1
f (y) =

y >x

En notant In0 et In+ deux variables indicatrices qui valent respectivement 1 si

lobservation est nulle et positive et 0 autrement, la contribution dune observation
la fonction devraisemblance est alors :

In0

In+
> xn
yn > xn
1

ce qui conduit la fonction de log de vraisemblance :

n
X
1 (yn > xn )2
> xn
1
2
+
0
ln(2 ) +
In
ln L =
In ln

2
2
2
i=1
Le gradient et la hessienne ont pour expression :
ln Ln
=
ln Ln
=
2
In0 n
yn en
+ 2
n

In0 > xn n
In+
23 n
22

xn

1
e2n
2

1
n n
> xn
2 ln Ln
0
=
+
+
y
xn x>
I
n
n
>
2 n

n n
2 ln Ln
=
2
In0

1 n
> xn
n n > x n
+ en
I
xn
+
+
n 4
2 3 n

n n 2 4
2 ln Ln
1
=
4

24
e0n

n
n
0
0
+
+2
3 en +
en + In (1 2 en
n
n
8.3.2
139
Panel
En cas dobservation rptes pour les mmes individus, on dcompose comme

prcdemment lerreur en la somme dun effet individuel et dun terme isiosyncra
tique : n : ynt
= > xnt + n + nt , avec N (0, 2 ) et N (0, 2 )
La probabilit jointe dobserver le vecteur yn = yi1 , . . . , ynt pour lindividu n pour
une valeur donne de leffet individuel est :
(

1ynt
ynt )
T
Y
ynt > xnt n
1
> xnt + n
P(yn | n ) =

t=1
La probabilit non conditionnelle sobtient en intgrant lexpression prcdente
par rapport leffet individuel :
P(yn ) = q
1
22
P(yn | n )e
1
P(yn ) =
+ Y
t=1
2
En utilisant le changement de variable z =
12
> xnt +
,
2
22 z
on obtient :
1ynt
1

ynt > xnt
22 z
qui peut tre approxim par la quadrature de Gauss-Hermite :
P(yn )
(

2 1ynt
2
> xnt + 2
ynt > xnt 2
vr
vr
1
t=1

PR
wr
PR
r
wr Pnt
r=1
r=1
QT
avec :
r
ln Pnt

q
q
T
> xnt + 22 vr
ynt > xnt
X
2
0.5ynt
=
(1 ynt ) ln
ln(2 ) +
2

t=1
Le gradient scrit :

R
x
X
p
ln Ln
1
(1 ynt ) rnt
ynt
nt
r
2v
=
w
P
+
e
2
nt
r nt
r
2vr
(, 2 )

rnt
2
2Ln r=1
140

p
2
>
ent 22 v
r
2
v
)
(1
y
)(
x
+
1
ln Ln
ynt
nt
nt
r nt
r
=
2 1
wr Pnt
3/2
2
rnt
2
2
2Ln r=1
2
R
X
8.3.3
Application
Porto & Revelli (2012) se sont intress aux dterminants du niveau dune taxe
rgionale sur les automobiles en Italie. Les donnes concernent une panel constitu des 100 rgions italiennes sur 7 ans (2000-2007). La variable explique tax
est censure car certaines rgions certaines annes ont choisi de ne pas appliquer
cette taxe. Les variables explicatives sont le fait quil y ait ou non une lection
rgionale election, le fait que le gouvernement rgional soit ou non de droite
right, le montant de subventions reu par la rgion grants en euros par tte, le
revenu rgionale par tte income et le nombre de vhicules immatriculs lanne
prcdente vehicules.
> data("VehiculeTax", package="pder")
On commence par analyser la variable explicative :

> mean(VehiculeTax$tax)
[1] 16.52429
> prop.table(table(VehiculeTax$tax == 0))
FALSE
TRUE
0.8785714 0.1214286
Le taux de taxe moyen est de 16.5% et il est nul pour 12% des observations.
Lestimation du modle tobit effets alatoires nous donne :
> summary(z <- pglm(tax~right+log(grants)+log(income)+vehicules+election,
+
VehiculeTax, family="tobit", R=30))

8 free parameters
Estimates:
Pr(> t)
6.77223 -1.4327 0.1519389
rightyes
-2.36868
0.86185 -2.7484 0.0059890 **
141
log(grants) 1.96307
0.51455 3.8151 0.0001361 ***
log(income) 6.54658
2.22255 2.9455 0.0032241 **
vehicules
-3.34148
1.26429 -2.6430 0.0082182 **
election
0.10314
0.51589 0.1999 0.8415450
sd.eps
4.96077
0.15649 31.7012 < 2.2e-16 ***
sd.mu
5.68479
0.51949 10.9431 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------
8.4
8.4.1
Poisson
Introduction
On considre dsormais un modle pour lequel la variable explique est une variable
de comptage. Nous supposons dans un premier temps que la distribution de y est
une loi de Poisson de paramtre n (qui est la fois la moyenne et la variance
de la variable). Avec cette hypothse de distribution, la probabilit associe yn
scrit :
P (yn ) =
en nyn
yn !
En utilisant le lien logarithmique, le paramtre de Poisson est une fonction loglinaire des variables explicatives :
n = e
>
xn
Ce qui conduit la probabilit suivante pour lobservation n.

P (yn | xn ) =
ee
> xn
e
yn !
>
xn yn
En prenant cette probabilit en logarithmes et en sommant pour lensemble des

individus, on obtient la fonction de log de vraisemblance suivante :
ln L =
n
X
>
xn
i=1
n
X
i=1
> xn yn
n
X
i=1
Le gradient et la hessienne scrivent :

n

>
ln L X
=
yn e xn xn
i=1
n
X
>
ln L
=
e xn xn x>
n
>
i=1
ln yn !
142
8.4.2
Panel
En cas dobservations rptes pour les mmes individus, on crit dsormais le

paramtre de Poisson pour lindividu n la date t de la manire suivante :
nt = n nt = n e
>
xnt
ce qui signifie que lon suppose que leffet individu est multiplicatif. Pour une valeur
donne de cet effet individuel, la probabilit associe ynt scrit :
P(ynt | xnt , n , ) =
ynt
ent nt
en nt (n nt )ynt
=
ynt !
ynt !
PT
Soit Yn = t=1 ynt la somme des ralisations de la variable pour lensemble des
PT
priodes pour lindividu n et n = t=1 nt la somme des paramtres de Poisson.
La somme de variables de Poisson est une variable de Poisson dont le paramtre
est gal la somme des paramtres des variables sommes. Par consquent, nous
avons :
P(Yn | xn , n , ) =
en n (n n )Yn
Yn !
(8.1)
Soit yn = (yi1 , yi2 , . . . , ynt ) le vecteur de ralisations de y pour lindividu n. On a

alors :
P(yn | xn , n , ) =
en
PT
t=1
nt
QT
QT
t=1
t=1 (n nt )
ynt !
ynt
en i nYn
=
QT
t=1
QT
t=1
ynt !
yntnt
(8.2)
En appliquant le thorme de Bayes, on a :

P(yn | xn , n , ) = P(yn | xn , n , , Yn )P(Yn | xn , n , )
i.e. la probabilit jointe des lments de yn est le produit de la probabilit conditionnelle de yn compte tenu de la somme des ralisations Yn et de la distribution
marginae de Yn . Cette probabilit conditionnelle scrit :
P(yn | xn , n , , Yn ) =
P(yn | xn , n , )
P(Yn | xn , n , )
ce qui implique :
P(yn | xn , , Yn ) =
T
Yn ! Y yntnt
Ynn t=1 ynt !
(8.3)
Yn est une statistique suffisante, ce qui signifie quelle permet dliminer leffet individuel. En prenant le logarithme de cette expression et en sommant pour
lensemble des individus, on obtient le modle de Poisson within :
n
X
ln L(y | x, , Y ) =
ln Yn ! Yn ln
T
X
nt +
t=1
i=1
T
X
143
!
(ynt ln nt ln ynt !)
(8.4)
t=1
Pour obtenir le modle between et le modle effets alatoires, on doit intgrer

les probabilits pertinentes (8.1 et ?? respectivement), en faisant une hypothse de
distribution pour ces effets indivduels. Comme ceux-ci sont ncessairement positifs,
un choix de distribution naturel est une distribution gamma, dont la densit scrit :
f (x, a, b) =
ab ax b1
e
x
(b)
avec
Z
(z) =
tz1 et dt
la fonction . Lesprance et la variance de x sont respectivement :

b
b
and V(x) = 2
a
a
Si le modle contient une constante, lesprance nest pas identifie et on peut
donc, sans restriction, supposer quelle est gale 1, ce qui implique que a = b.
On obtient ainsi une distribution de gamma un paramtre (not ) :
E(x) =
f () =
1
e
()
En intgrant les probabilits conditionelles (8.1 et ??), on obtient les probabilits

non-conditionelles pour les modles between et pour le modles effets alatoires :
Z
P(Yn | xn , ) =
P(Yn , xn , , )f ()d =
0
+
Z
P(yn , xn , ) =
P(yn , xn , , )f ()d =
0
n Yn
(Yn + )
Yn ! () (n + )Yn +
T
Y
yntnt
(Yn + )
Y +
y
!
()
(
nt
n + ) n
t=1
ce qui conduit aux fonctions de log de vraisemblance pour les deux modles :
ln L(Y | x, )
ln L(y | x, )
Pn
nt ln Yn ! + ln
i
PT
ln () + ln (Yn + ) (Yn + ) ln
t=1 nt
Pn
i=1
[Yn ln
(ynt ln nt ln ynt !) + ln

i
PT
ln () + ln (Yn + ) (Yn + ) ln
t=1 nt +
i=1
(8.5)
(8.6)
144
8.4.3
Application
Drakos (2007) sest intress la mesure des actions terroristes. Plus prcisment,
lhypothse teste est quil y a un biais vers le bas dans la publicit faite par les
autorits sur les actions terroristes menes sur leur sol et que ce biais est dautant
plus important que le pays est peu dmocratique, et en particulier que la libert
de la presse nest pas respecte. A cet effet, on souhaite estimer un modle dans
lequel la variable explique est le nombre dactions terroristes (incidents) et les
deux variables explicatives polity qui est un index de rgime politique qui varie de
-10 (rgime trs autocratique) +10 (rgime trs dmocratique) et press qui est
une variable catgorielle avec trois modalits : notFree, partlyFree et Free.
> data("Terrorism", package="pder")
On commence par estimer le modle effets alatoires, qui est le modle par
dfaut :
> ea <- pglm(incidents~polity+press, data = Terrorism,
+
index = c("country", "year"), family = poisson)
> summary(ea)

Return code 2: successive function values within tolerance limit
5 free parameters
Estimates:
Pr(> t)
(Intercept)
0.5672487 0.1388095 4.0865 4.379e-05 ***
polity
0.0686051 0.0070205 9.7721 < 2.2e-16 ***
presspartlyFree 0.0221862 0.0602074 0.3685
0.7125
pressFree
0.1376516 0.0752343 1.8296
0.0673 .
sigma
0.3977339 0.0451065 8.8177 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------
Le coefficient associ la variable polity est de signe positif et est trs significative. Les coefficients associs aux trois modalits de la variable press sont classs
conformment ce qui tait attendu. Pour tester la significativit de cette variable,
on peut raliser un test de Wald :
> stpress <- as.numeric(coef(ea)[3:4]%*%solve(vcov(ea))[3:4,3:4]%*%coef(ea)[3:4])
> stpress
[1] 5.685158
qui suit, sous H0 un chi-deux 2 degrs de libert. La probabilit critique est :
145
> pchisq(stpress, df = 2, lower.tail = FALSE)
[1] 0.05827518
Lhypothse que la variable press na pas dinfluence nest pas rejete au seuil de
5%, mais elle lest au seuil de 10%.
Les autres modles (pooling, within et between) sont aisment estim en mettant
jour le modle prcdemmment estim :
>
>
>
>
po <- update(ea, model="pooling")

wi <- update(ea, model="within")
be <- update(ea, model="between")
summary(wi)

3 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
polity
0.068894
0.007416 9.2899 < 2e-16 ***
presspartlyFree 0.010625
0.060334 0.1761 0.86021
pressFree
0.127728
0.075556 1.6905 0.09093 .
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
--------------------------------------------
Les rsultats des modles within et effets alatoires sont trs proches, ce qui doit
tre le cas en labsence de problmes de corrlation entre leffet individuel et les
variables explicatives.
8.5
8.5.1
Negbin
Introduction
Les variables de comptage prsentent souvent un phnomne de dispersion excdentaire, ce qui signifie que la variance est souvent suprieure la moyenne. Dans
ce cas, le modle NegBin est une alternative intressante au modle de Poisson.
Ce modle, dans un contexte de coupe transversale, est trs similaire au modle
de Poisson erreurs composes.
Supposons que yn est une variable alatoire qui suit une distribution de Poisson
>
de paramtre n = n n avec n = e xn si le lien est logarithmique, n tant
une variable alatoire.
La probabilit conditionelle pour yn est :
146
P(yn | xn , n , ) =
en n (n n )yn
en nyn
=
yn !
yn !
On suppose que n suit une distribution gamma et, comme on la vu prcdemment, la moyenne nest pas identifie de fait quune distribution un paramtre
est choisie, qui impose une moyenne unitaire.
f () =
1
e
()
En intgrant la probabilit conditionelle en uilisant cette fonction de densit, on

obtient :
Z
P (yn | xn ) =
0

P (yn | xn ) =
n
n + n
ei (i )yi 1
e
d
yi !
()
n
n
n + n
yn
(yn + n )
(yn + 1)(n )
Pour comprendre la signification de n , on calcule les deux premiers moments de

yn . Tout dabord, pour une valeur donne de n , on a toujours : E(yn | n ) =
V(yn | n ) = n = n n . Lesprance non-conditionelle est : E (n ) = n car
lesprance de est gale 1.
Pour calculer la variance non-conditionelle, on applique la rgle de la variance :
V(yn ) = E (n ) + V (n ) = n +
1 2
n n
Une formule gnrale pour n est :

n =
2k
n
Pour k = 1, on obtient le modle Negbin1, avec n = n / et V(yn ) = n (1 + ).

Dans ce cas, la variance est proportionelle la moyenne.
Pour k = 2, on obtient le modle Negbin2, avec n = 1/ et V(yn ) = n + 2n .
Dans ce cas, la variance est une fonction quadratique de la moyenne.
8.5.2
Panel
(nt + ynt )
(nt )(ynt + 1)
t=1
(n )(Yn + 1)
(n + Yn )
(8.7)
(n + Yn ) (a + b)(a + n )(b + Yn )
(n )(Yn + 1) (a)(b)(a + b + n + Yn )
(8.8)
P(yn | xn , , Yn ) =
P(Yn | xn , ) =
T
Y
(a + b)(a + n )(b + Yn )
P(yn , xn , ) =
(a)(b)(a + b + n + Yn )
T
Y
(nt + ynt )
(nt ) + (ynt + 1)
t=1
147
!
(8.9)
148
Chapitre 9
Racines unitaires et
cointgration
9.1
Introduction
La dtection de la prsence de racines unitaires et de relations de cointgration est

devenue un sujet phare de la macro-conomtrie. Les techniques utilises dans le
cadre de sries temporelles ont t adaptes au cas de donnes de panel. Nous commencerons par rappeler les principaux rsultats concernant les sries temporelles
avant de prsenter ces techniques.
On considre une variable yt pour laquelle on suppose un processus autorgressif
dodre 1 :
yt = yt1 + x>
t + t
Le vecteur de variables explicatives peut contenir un 1, un trend linaire et diffrentes variables explicatives. Pour simplifier, on supposera par la suite que = 0,
on sintresse donc un processus autorgressif pur. Concernant lerreur (appele
aussi dans ce contexte linnovation), nous supposerons quelle est desprance nulle
et dcart-type . Par substitutions successives, on obtient :
yt = t y0 + t1 1 + t2 + . . . + t1 + t
Si y0 est dterministe et les ne sont pas corrls, la variance de yt scrit :
V(yt ) = (t1 + t2 + . . . + + 1) 2
Si 6= 1, on a :
V(yt ) =
1 t 2
1

2
1
1
150
En revanche, si = 1, on a V(yt ) = t 2 , la variance augmente avec t et tend vers

linfini, la srie nest pas stationnaire, on dit quelle prsente une racine unitaire.
La prsence de racine unitaire prsente plusieurs problme, le principale tant celui
des rgressions falacieuses. En prsence de racine unitaire, une srie prsente une
sorte de tendance, qui nest pas une tendance dterministe mais stochastique, et le
prsence de tendances de ce type sur deux sries prsentant des racines unitaires
peut faire apparatre une corrlation artificielle entre deux variables. Sur la figure 9.1 on prsente deux sries autorgressives avec = 0.2 et = 1. On constate
que dans le premier cas, le processus autoregressif se traduit par une corrlation
entre les valeurs successives de yt , en particulier si yt1 < 0, il y a plus de chances
que yt soit ngatif que positif. Cependant, la courbe reprsentative de y coupe
malgr tout frquemment laxe des abcisses. Dans le cas dune racine unitaire en
revanche, on voit clairement la prsence dun trend stochastique (ici la hausse),
yt ne change de signe quune seule fois et la plupart des valeurs de y sont positives.
10
20
30
40
10
20
30
40
Fig. 9.1 Courbe reprsentative pour un processus autoregressif
Pour illustrer limportance du phnomne de rgressions fallacieuses, on mne

un exercice de simulations ; on cr deux sries indpendantes autorgressives,
on rgresse lune par rapport lautre et on rcupre la statistique de student
correspondant lhypothse HO : = 0. Cette hypothse est ici vraie et, dans un
contexte normal, cela signifie que, dans 95% des cas, on doit avoir une statistique
infrieure 2 en valeur absolue. Commenons par illustrer ce rsultat pour = 0.2.
A cet effet, on utilise 2 fonctions : autoreg gnre une srie autoregressive, tstat
ralise une estimation et rcupre la statistique de Student :
> autoreg <- function(rho = 0.1, T = 100){
+
e <- rnorm(T)
Chapitre 9. Racines unitaires et cointgration

+
+
+
>
+
+
+
+
+
>
>
>
>
151
for (t in 2:(T)) e[t] <- e[t]+rho*e[t-1]

e
}
tstat <- function(rho = 0.1, T = 100){
y <- autoreg(rho, T)
x <- autoreg(rho, T)
z <- lm(y ~ x)
coef(z)[2] / sqrt(diag(vcov(z))[2])
}
result <- c()
R <- 1000
for (i in 1:R) result <- c(result, tstat(rho = 0.2, T = 40))
quantile(result, c(0.025, 0.975))
2.5%
-2.114024
97.5%
1.990031
> prop.table(table(abs(result) > 2))
FALSE TRUE
0.943 0.057
On constate que les quantiles empiriques sont trs proches des valeurs attendues et
le pourcentage de cas o une relation significative entre les deux variables apparat
est de lordre de 5%. Faisons maintenant la mme exprience avec deux sries
contenant une racine unitaire :
>
>
>
>
result <- c()

R <- 1000
for (i in 1:R) result <- c(result, tstat(rho = 1, T = 40))
quantile(result, c(0.025, 0.975))
2.5%
-9.158448
97.5%
8.227059
> prop.table(table(abs(result) > 2))
FALSE TRUE
0.379 0.621
En se fiant la statistique de Student habituelle, on retient dsormais la conclusion

quil existe une relation significative entre les deux variables dans deux tiers des
cas, alors que ces variables sont par constructions indpendantes.
Il est donc crucial de dceler la prsence de racines unitaires ; autrement, le risque
est grand dobtenir des rsultats faussement significatifs lorsque lon ralise des
estimations sur sries temporelles. Pour cela, le plus simple est dcire le modle
autorgressif en en enlevant de chaque ct yt1 . On a alors :
152
yt = ( 1)yt1 + t
Le test de prsence de racine unitaire se ramne alors un test que le coefficient
estim associ yt1 lorsque la variable explique est yt est nul. On peut alors
penser utiliser une statistique de Student classique, obtenue en divisant 1 par
son cart-type. En posant HO : = 1 vs H1 : < 1, on rejettera alors lhypothse
de racine unitaire au seuil de 5% si la statistique est infrieure 1.64. A cet effet,
on ralise de nouveau un exercice de simulations :
>
>
>
>
+
+
+
+
+
+
R <- 1000
T <- 100
result <- c()
for (i in 1:R){
y <- autoreg(rho=1, T=100)
Dy <- y[2:T] - y[1:(T-1)]
Ly <- y[1:(T-1)]
z <- lm(Dy ~ Ly)
result <- c(result, coef(z)[2] / sqrt(diag(vcov(z))[2]))
}
0.0
0.1
0.2
0.3
0.4
0.5
On reprsente sur la figure 9.2 les ralisations de la statistique de Student laide

dun histograme, en superposant la courbe de densit normale :
Fig. 9.2 Histograme de la statistique de Student en prsence de racine unitaire
On constate quon ne peut en aucun cas analyser la prsence de racine unitaire en

utilisant linfrence classique car la statistique de Student suit ici une distribution
trs loigne de la normale. En utilisant la valeur critique habituelle de 1.64, on
obtient ici :
153
> prop.table(table(result < -1.64))

FALSE TRUE
0.542 0.458
ce qui conduirait rejeter lhypothse nulle de racine unitaire alors quelle est
vraie environ une fois sur deux. Le test que lon vient de raliser est le test de
Dickey-Fuller, il ncessite lutilisation de valeurs critiques spcifiques qui ne sont
pas celles correspondant une densit normale. On peut galement raliser ce
test en introduisant en plus une constante et/ou un trend dterministe et on peut
galement ajouter des retards de y de manire en prendre en considration une
ventuelle autocorrlation de .
La rgression de deux sries prsentant toutes les deux une racine unitaire est
pertinent si ces deux sries prsentent une relation structurelle de long terme, on
parle alors de co-intgration. Plus prcisment, on dira que deux variables x et y
sont co-intgrs si il existe tel que :
y = x +
avec qui ne contient pas de racine unitaire. Un test simple de cointgration peut
alors tre ralis de la manire suivante :
1. on utilise un test de Dickey-Fuller pour vrifier que x et y ont une racine
unitaire,
2. on estime alors y en fonction de x et on rcupre les rsidus destimation e,
3. on utilise un test de Dickey-Fuller sur e : si on rejette lhypothse de racine
unitaire, x et y sont cointgrs et la rgression de y en fonction de x a du
sens, sinon x et y ne sont pas cointgrs et la rgression de y en fonction de
x est falacieuse.
9.2
Tests de racine unitaire en panel
Le test classique de racine unitaire est souvent appel adf pour augmented
Dickey-Fuller. Plusieures extensions de ce test ont t proposes afin de le rendre
utilisable et efficace sur donnes de panel.
Rsultats prliminaires
Certains de ces tests sont obtenus en appliquant des tests adf pour chaque individu
de lchantillon. Pour raliser ces tests prliminaires, il faut choisir le nombre de
retards dans la rgression suivante :
ynt = ( 1)yn(t1) +
Ln
X
yn(ts)
s=1
Ce choix peut tre ralis en utilisant diffrents critres :
154
le critre dinformation de Swartz (SIC),

le critre dinformation dAkaike (AIC),
la mthode de Hall, qui consiste retirer le retard le plus lev tant quil nest
pas significatif.
La rgression est ralise sur T Ln 1 observations pour chaque individu, soit
1)
un nombre dobservations total de N T avec T = T (L
avec L le nombre moyen de retards. Notons en le vecteur de rsidus pour lindividu

n, sa variance est estime par :
PT
2n
2
t=Ln +1 ent
dfn
dfn tant le nombre de degrs de libert de lestimation.
9.2.1
Test de Levin-lin-Chu
Levin et al. (2002) sont les premiers avoir propos un test de racine unitaire en
panel. Pour raliser ce test, on ralise deux rgressions prliminaires qui consistent
regresser ynt et yit1 en fonction de yitL et dmt de manire rcuperer
deux vecteurs de rsidus nots znt et vnt .
Ces deux rsidus sont ensuite normaliss en les divisant par lcart-type estim, et
on ralise alors une rgression sur lensemble de lchantillon de znt /
n en fonction
de vnt /
n de manire obtenir , son cart-type
(
) et la statistique de Student
t = /
(
).
La variance de long-terme de yn est alors estime :
y2n
"
#
K
T
T
X
X
1
1 X
2
=
wKL
ynt
+2
ynt yntL
T 1 t=2
T 1
L=1
t=2+L
En dfinissant sn comme le rapport entre les variance de long terme et de court

terme dun individu et en notant s la moyenne pour lensemble des individus de
lchantillon, on obtient
sn =
yi
n
PN
s =
i=1 sn
N
Levin et al. (2002) montrent alors que la statistique :
t =
t nTs
2
(
)mT
m
T
suit une distribution normale sous lhypothse nulle de racine-unitaire. Les valeurs
de mT sont m
donnes dans larticle.
T
9.2.2
155
Test de Im, Pesaran et Shin
Un des dfaut du test de Levin et al. (2002) est que lhypothse alternative suppose
que est diffrent de 1, mais prend la mme valeur pour tous les individus. Le
test propos de Im et al. (2003) dpasse cette limitation puisque lhypothse nulle
est toujours que = 1 pour tous les individus, mais lhypothse alternative est
dsormais que les valeurs de peuvent tre diffrentes dun individu un autre,
mais que n < 1 pour au moins certains individus.
La statistique de test est base sur la moyenne des statistique de Student pour
obtenues pour chaque individu :
n
1X
tn
t=
n n=1
La statistique de test est alors :
z=
n (t E(t))
p
V(t)
qui, sous lhypothse nulle de racine unitaire, suis une distribution normale centre
rduite. Les valeurs de E(t) et de V(t) sont donnes dans larticle de Im et al. (2003)
9.2.3
Le test de Madalla et Wu
Maddala & Wu (1999) ont propos un test trs similaire au prcdent, qui nimpose
pas non plus que les valeurs de soient identiques dans lhypothse alternative.
Il est bas sur les N probabilits critiques pn obtenue dans le cadre de test adf
raliss pour chaque individu. La statistique de test scrit alors simplement :
P = 2
N
X
ln pn
n=1
et, sous lhypothse nulle de racine unitaire pour les N individus, suit une distribution de chi deux N degrs de libert.
156
Chapitre 10
Panels spacials
Bibliographie
Acemoglu A.D., Johnson S., Robinson J.A. & Yared P. (2008). Income and democracy. American Economic Review, 98(3), 808842.
Alonso-Borrego C. & Arellano M. (1999). Symmetrically normalized instrumentalvariable estimation using panel data. Journal of Business and Economic Statistics, 17(1), 3649.
Amemiya T. (1971). The estimation of the variances in a variancecomponents
model. International Economic Review, 12, 113.
Amemiya T. & MaCurdy T.E. (1986). Instrumental-variable estimation of an
error-components model. Econometrica, 54(4), 86980.
Anderson T. & Hsiao C. (1982). Formulation and estimation of dynamic models
using panel data. Journal of Econometrics, 18, 4782.
Arellano M. & Bond S. (1991). Some tests of specification for panel data : Monte
carlo evidence and an application to employment equations. Review of Economic
Studies, 58, 277297.
Arellano M. & Bover O. (1995). Another look at the at the instrumental variables
estimation of error components. Journal of Econometrics, 68, 2951.
Avery R. (1977). Error components and seemingly unrelated regressions. Econometrica, 45, 199209.
Balestra P. & Nerlove M. (1966). Pooling cross-section and time-series data in the
estimation of dynamic models : The demand for natural gas. Econometrica, 34,
585612.
Balestra P. & Varadharajan-Krishnakumar J. (1987). Full information estimations
of a system of simultaneous equations with error components. Econometric
Theory, 3, 223246.
Baltagi B. (1980). On seemingly unrelated regressions with error components.
Econometrica, 48, 15471551.
160
Baltagi B. (1981). Simultaneous equations with error components. Journal of

Econometrics, 17, 2149.
Baltagi B. (2001). Econometric Analysis of Panel Data. John Wiley and Sons ltd,
3rd ed.
Baltagi B. & Chang Y. (1994). Incomplete panels : a comparative study of alternative estimators for the unbalanced one-way error component regression model.
Journal of econometrics, 62, 6789.
Baltagi B.H. & Li Q. (1992). A note on the estimation of simultaneous equations
with error components. Econometric Theory, 8(01), 113119.
Baltagi B.H. & Liu L. (2009). A note on the application of ec2sls and ec3sls
estimators in panel data models. Statistics & Probability Letters, 79(20), 2189
2192.
Blundell R. & Bond S. (1998). Initital conditions and moment restrictions in
dynamic panel data models. Journal of Econometrics, 87, 115143.
Blundell R. & Bond S. (2000). Gmm estimation with persistent panel data : an
application to production functions. Econometric Reviews, 19(3), 321340.
Bond S.R. (2002). Dynamic panel data models : a guide to micro data methods
and practise. Portugese Economic Journal, 1, 141162.
Bond S.R., Hoeffler A. & Temple J. (2001). Gmm estimation of empirical growth
model. CEPR Discussion Paper, 3048.
Brender A. & Drazen A. (2008). Budget deficits and economic growth affect reelection prospects ? evidence froma large panel of countries. American Economic
Review, 98(5), 22032220.
Breusch T. & Pagan A. (1980). The lagrange multiplier test and its applications to
model specification in econometrics. Review of Economic Studies, 47, 239253.
Breusch T.S., Mizon G.E. & Schmidt P. (1989). Efficient estimation using panel
data. Econometrica, 57(3), 695700.
Caselli F., Esquivel G. & Lefort F. (1996). Reopening the convergence debate :
a new look at cross-country growth empirics. Journal of Economic Growth, 1,
363389.
Cohen A. & Einav L. (2003). The effects of mandatory seat belt laws on driving
behavior and traffic fatalities. The Review of Economics and Statistics, 85(4),
828843.
Cornwell C., Schmidt P. & Wyhowski D. (1992). Simultaneous equations and panel
data. Journal of Econometrics, 51(1-2), 151181.
Bibliographie
161
Croissant Y. & Millo G. (2008). Panel data econometrics in R : The plm package.
Journal of Statistical Software, 27(2). http://www.jstatsoft.org/v27/i02/.
Drakos K. (2007). The size of under-reporting bias in recorded transational terrorist activity. Journal of the Royal Statistical Society, Series A (Statistics in
Society), 170(4), 909921.
Egger P. & Pfaffermayr M. (2004). Distance, trade, and fdi : A hausman-taylor
sur approach. Journal of Applied Econometrics, 19(2), 22746.
El-Gamal M. & Inanoglu H. (2005). Inefficiency and heterogeneity in turkish
banking : 1990-2000. Journal of Applied Econometrics, 20(5), 641664.
Forbes K.J. (2000). A reassessment of the relation between inequality and growth.
American Economic Review, 90(4), 869887.
Hansen L. (1982). Large sample properties of generalized method moments estimators. Econometrica, 50, 10291054.
Harris M.N., Matyas L. & Sevestre P. (2008). Dynamic models for short panels.
Dans The Econometrics of Panel Data, rd. L. Matyas & P. Sevestre, pp. 249
278. Springer.
Hausman J. (1978). Specification tests in econometrics. Econometrica, 46, 1251
1271.
Hausman J. & Taylor W. (1981). Panel data and unobservable individual effects.
Holtz-Eakin D., Newey W. & Rosen H. (1988). Estimating vector autoregressions
with panel data. Econometrica, 56, 13711395.
Honda Y. (1985). Testing the error components model with nonnormal disturbances. Review of Economic Studies, 52, 681690.
Horrace W. & Schmidt P. (1996). Confidence statements for efficiency estimates
from stochastic frontier models. Journal of productivity analysis, 7, 257282.
Horrace W. & Schmidt P. (2000). Multiple comparisons with the best, with economic applications. Journal of applied econometrics, 15(1), 126.
Hsiao C. (2003). Analysis of Panel Data. Cambridge University Press, Cambridge.
Im K., Pesaran M. & Shin Y. (2003). Testing for unit roots in heterogenous panels.
Journal of econometrics, 115(1), 5374.
Kessler A.S., Hansen N.A. & Lessman C. (2011). Interregional redistribution and
mobility in federations : a positive approach. The Review of Economic Studies,
78, 134578.
162
Khan M.S. & Knight M.D. (1988). Import compression and export performance
in developing countries. Review of economics and statistics, 70(2), 315321.
Kinal T. & Lahiri K. (1990). A computational algorithm for multiple equation
models with panel data. Economic letters, 34, 143146.
Kinal T. & Lahiri K. (1993). On the estimation of simultaneous-equations errorcomponents models with an application to a model of developing country foreign
trade. Journal of applied econometrics, 8, 8192.
Kiviet J.F. (1995). On bias, inconsistency, and efficiency of various estimators in
dynamic panel data models. Journal of Econometrics, 68, 5378.
Kumbhakar S. (1996). Estimation of cost efficiency with heteroscedasticity : an
application to electric utilities. Journal of the royal statistical society, series D,
45, 319335.
Levin A., Lin C. & Chu C. (2002). Unit root test in panel data : asymptotic and
finite sample properties. Journal of Econometrics, 108, 124.
Levine R., Loayza N. & Beck T. (2000). Financial intermediation and growth :
causalty and causes. Journal of Monetary Economics, 46, 3177.
Maddala G. & Wu S. (1999). A comparative study of unit root tests with panel
data and a new simple test. Oxford bulletin of economics and statistics, 61,
63152.
Mairesse J. & Hall B. (1996). Estimating the productivity of research and development in french and us manufacturing firms : an exploration of simultaneity
issues with gmm methods. Dans International productivity differences and their
explanations, rd. K. Wagner & B. Van-Ark, pp. 285315. Elsevier Science.
Mundlak Y. (1978). On the pooling of time series and cross section data. Econometrica, 46(1), 6985.
Nerlove M. (1971). Further evidence on the estimation of dynamic economic relations from a timeseries of crosssections. Econometrica, 39, 359382.
Nickel S. (1981). Biaises in dynamic models with fixed effects. Econometrica, 49,
14171426.
Peltzman S. (1975). The effects of automobile safety regulation. Journal of Political
Economy, 83(4), 677725.
Pirotte A. (2011). Economtrie des donnes de panel. Economica.
Porto E.D. & Revelli F. (2012). Tax limited reaction functions. Journal of applied
econometrics.
Bibliographie
163
Raux C., Souche S. & Croissant Y. (2009). How fair is pricing perceived to be ?
an empirical study. Public Choice, 139(1), 227240.
Roodman D. (2009a). How to do xtabond2 : an introduction to difference and
system gmm in stata. The Stata Journal, 9, 86136.
Roodman D. (2009b). A note on the theme of too many instruments. Oxford
Bulletin of Economics and Statistics, 71, 135158.
Sargan J. (1958). The estimation of economic relationships using instrumental
variables. Econometrica, 26, 393415.
Sevestre P. (2002). Economtrie des donnes de panel. Dunod.
Swamy P. (1970). Efficient inference in a random coefficient regression model.
Swamy P. & Arora S. (1972). The exact finite sample properties of the estimators
of coefficients in the error components regression models. Econometrica, 40,
261275.
Wallace T. & Hussain A. (1969). The use of error components models in combining
cross section with time series data. Econometrica, 37(1), 5572.
White H. (1986). Advances in statistical analysis and statistical computing, vol.
1, chap. Instrumental variables analogs of generalized least squares estimators.
Mariano, R.S.
Windmeijer F. (2005). A finite sample correction for the variance of linear efficient
twosteps gmm estimators. Journal of Econometrics, 126, 2551.
Zeileis A. & Croissant Y. (2010). Extended model formulas in R : Multiple parts
and multiple responses. Journal of Statistical Software, 34(XYZ), 112. http:
//www.jstatsoft.org/v34/iXYZ/.
Zellner A. (1962). An efficient method of estimating seemingly unrelated regressions and tests of aggregation bias. Journal of the american statistical association, 57, 500509.
Index
objets
data.frame, 3
pdata.frame, 3, 5, 28, 32
fonctions
as.matrix, 5
Between, 8
between, 8
ercomp, 29
fixef, 30, 43
index, 4
lag, 100
lm, 30, 100
mtest, 123
pdata.frame, 3
pdim, 4
pFtest, 63
pglm, 52
pgmm, 109
phtest, 72
plm, 28, 42, 59, 81, 91, 101, 102,
110
plmtest, 64
pooltest, 65
print, 29, 66
pvcm, 65, 66, 69
sapply, 32
sargan, 121
summary, 9, 29, 32, 66, 124
vcov, 120
vcovHC, 120
Within, 7
donnes
DemocracyIncome, 98
DemocracyIncome25, 36, 37, 98
EmplUK, 126
FinGrowth, 125
ForeignTrade, 32, 33
Grunfeld, 8
InvRate, 126
LargeBanks, 28
RDPerfCompanies, 126
RegIneq, 126
Snmesp, 126
TexasElectr, 34, 36
Tileries, 48
TurkishBanks, 33, 35
USAirlines, 66
arguments
data, 3, 28, 29
drop.index, 3
effect, 8, 42, 43, 64, 102, 110
family, 52
formula, 28, 29, 110
index, 3, 28
inst.method, 86
mode, 66
model, 28, 59, 67, 69, 101, 102,
110
order, 123
random.method, 28, 44, 86
restrict.matrix, 59
restrict.rhs, 59
robust, 124
transformation, 118
type, 30
Index
which, 4
165
166
Table des figures

1.1
1.2
1.3
1.4
Variation intra et inter individuelle

Absence dhtrognit . . . . . .
Htrognit de niveau . . . . . .
Htrognit de pentes . . . . . .
2.1
Importations en fonction du produit intrieur pour les donnes ForeignTrade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Cot en fonction de loutput pour les donnes TurkishBanks . . . .
Cot en fonction de loutput pour les donnes TexasElectr . . . . .
Dmocratie en fonction du revenu retard pour les donnes DemocracyIncome25 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Distribution de lestimateur des mcg . . . . . . . . . . . . . . . . .
2.2
2.3
2.4
2.5
7.1
7.2
7.3
7.4
9.1
9.2
pour
. . .
. . .
. . .
les donnes Grunfeld

. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
10
12
13
14
33
35
36
37
40
Relation entre revenu et dmocratie . . . . . . . . . . . . . . . . . 99

Coefficient de la premire tape et 1 en fonction de la valeur du
coefficient autorgressif . . . . . . . . . . . . . . . . . . . . . . . . . 114
Le cas o la condition est vrifie chaque priode . . . . . . . . . 116
Le cas o la condition est quasiment vrifie pour les dernires priodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Courbe reprsentative pour un processus autoregressif . . . . . . . 148
Histograme de la statistique de Student en prsence de racine unitaire150

Main

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Main

Загружено:

Авторское право:

Доступные форматы

Table des matires

2 Modle erreurs composes

Economtrie des donnes de panel avec R

Dautres estimateurs des variances des composantes du terme derreur

4 Tests sur le modele a erreurs composees

Table des matires

La prolifration du nombre dinstruments dans le modle des

8 Modles linaires gnraliss et assimils

9 Racines unitaires et cointgration

Economtrie des donnes de panel avec R

tr(M > W M ) tr(M > W M U )

Quest-ce quun panel

Organisation des donnes de panel sous R

La librairie plm est charge simplement en entrant la commande suivante :

data("Grunfeld", package = "AER")

Economtrie des donnes de panel avec R

> smallGr <- pdata.frame(smallGr, index=c("firm", "year"), drop.index = TRUE)

Les informations concernant la dimension de ces donnes de panel peuvent tre

Balanced Panel: n=2, T=4, N=8

> index(smallGr, "firm")

[1] 1935 1936 1937 1938 1935 1936 1937 1938

On peut galement reprsenter ces sries sous forme matricielle en appliquant la

1935 1936 1937 1938

Mesure de la variabilit dans un panel

La variabilit de la variable est la somme des carts quadratiques par rapport la

Economtrie des donnes de panel avec R

les N moyennes individuelles, notes x

les T moyennes temporelles, notes x

Ces diffrentes moyennes permettent dobtenir diffrentes mesures (et diffrentes

On parle de variabilit intra (within en anglais) lorsque lon mesure la variabilit

La variabilit inter (between en anglais) mesure la variabilit entre lments

Enfin, la variabilit double within scrit de la manire suivante :

Economtrie des donnes de panel avec R

General Motors General Motors General Motors General Motors

General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

> Within(z, effect = "time")

General Motors-1935 General Motors-1936 General Motors-1937 General Motors-1938

Les diffrentes mesures de la variabilit sont alors aisment obtenues en utilisant

z <- Gr$invest / 1E+03

[1] 9.71 2.24 7.47 9.14 0.57

On vrifie ensuite les deux formules de dcomposition de la variabilit.

Enfin, on peut analyser plus prcisment limportance des diffrentes sources de

ce qui peut tre automatiquement ralis en appliquant la mthode summary

Economtrie des donnes de panel avec R

Des transformations utiles

lment de A par B. Si, par exemple, on a B =

Afin de mettre en vidence ces transformations, on notera Ik la matrice identit

x> = (x11 , x12 , . . . , x1T , x21 , x22 , . . . , x2T , . . . , xN 1 , xN 2 , . . . , xN T )

Economtrie des donnes de panel avec R

Ces proprits indiquent que W et B ralisent une dcomposition orthogonale dun

Les diffrentes formes dhtrognit

Lhtrognit individuelle peut prendre diffrentes formes :

Fig. 1.2 Absence dhtrognit

la variable explique. En revanche, lensemble des points semblent correctement

Fig. 1.3 Htrognit de niveau

Economtrie des donnes de panel avec R

Fig. 1.4 Htrognit de pentes

Le modle erreurs composes

Pour lobservation concernant lindividu n la priode t, le modle estimer scrit,

Pour le modle erreurs composes, lerreur est la somme de deux effets :

Pour lensemble de lchantillon, on notera y le vecteur contenant les valeurs de la

Economtrie des donnes de panel avec R

En notant j un vecteur de 1 de longueur N T , on obtient :

Dans le cas o on souhaite rassembler lensemble des coefficients, on note > =

Le modle estimer scrit y = j + X = Z + . En utilisant la seconde

En remplaant y par Z + dans (2.16), on obtient :

La variance de est obtenue en remplaant y par j + X + :

Si les taient observs, les estimateurs naturels des deux variances 2 et 2