Вы находитесь на странице: 1из 34

Econometra I - Tema 4

Estimacin por variables


instrumentales. Mnimos
cuadrados en 2 etapas

Jorge Pena Izquierdo

Departamento de Economa, Universidad Carlos III de Madrid


Outline

 Motivacin: variables omitidas.

 Estimacin VI del modelo de regresin mltiple.

 Mnimos cuadrados bietpicos.

 Soluciones VI para el problema de errores en las


variables.

 Contrastes de endogeneidad y contrastes de


restricciones de sobreidentificacin.
2
Motivacin: variables omitidas.

Ante un posible problema de variables omitidas,


tenemos tres opciones:

 Ignorar el problema y afrontar las consecuencias de


estimadores sesgados e inconsistentes.
 Podemos intentar encontrar y usar una variable proxy
adecuada para la variable no observada.
 Podemos asumir que la variable omitida no cambia en el
tiempo y usar mtodos de datos de panel.

3
Modelo de variables instrumentales (VI).
Escribimos el modelo de regresin como:

y = 0 + 1 x1 + u
donde,

C ov(x,u ) 0

El mtodo de VI funciona independientemente de si x y u estn


correlados o no, pero si no lo estn es mejor usar MCO.
Para obtener estimadores consistentes de 0 y 1 cuando x y u estn
correlados, necesitamos informacin adicional: una nueva variable z
que satisfaga ciertas propiedades.
La nueva variable z es una Variable Instrumental para x si satisface:

 VI.1 C ov(z,u ) = 0
 VI.2 C ov(z, x) 0

4
Modelo de variables instrumentales (VI).

 Podemos testear estos supuesto?

 Es una proxy un buen candidato de instrumento?.

 En el caso de la ecuacin de Mincer. Qu podemos


utilizar como instrumento?

 ltima cifra del nmero de la Seguridad Social de un


individuo?
 Educacin de los padres?
 Nmero de Siblings?

5
Ejemplo: asistencia a clase.
Modelo:

score = 0 + 1s k ip p e d + u

 El problema es que el nmero de clases no atendidas, skipped,


puede estar correlado con otros factores en u, ya que mejores
estudiantes normalmente faltan menos a clase.

 Una buena VI debera no tener efecto directo sobre score y no


estar correlada con la habilidad del estudiante, y a la vez, estar
correlada con skipped.

 Distancia entre el domicilio y el campus.

6
Identificacin.
La identificacin de un parmetro 1 implica que podemos
escribir 1 en trminos de momentos poblacionales que se
pueden estimar usando una muestra.

Usando el modelo

y = 0 + 1 x1 + u
vemos que
C o v ( z , y ) = 1C o v ( z , x ) + C o v ( z , u )

Los supuestos de validez de z como VI, VI.1-2 suponen que


C o v ( z , u ) = 0 y C o v ( z , x ) 0 , por lo que
Cov( z, y)
1 =
Cov( z, x)
7
Identificacin.

 El Estimador de Variables Instrumentales (EVI) es el anlogo


muestral,

(z z )( y i y )
1 = i

(z i z )( xi x )

 El estimador de VI de 0 es simplemente

)
0 = y 1 x

 Si z = x, entonces EVI=EMCO. Si x es exgena, se puede usar como su


propia VI.

8
Inferencia estadstica con el EVI.
 Similitud con el EMCO: asintticamente normal en
muestras grandes.

 Para hacer inferencia se necesita un error estndar para


computar estadsticos t e IC.

 Tpicamente necesitamos una condicin de


homoscedasticidad, en este caso sobre la VI:

Var ( u / z ) = 2 = Var (u )
 Entonces
2
AVar ( 1 ) =
n x2 xz2
9
Errores estndar EVI.
A V a r ( 1 )
puede estimarse consistentemente dada una muestra.
Error estndar: raz cuadrada de la estimacin de A V ar ( 1 ) .
2
S S T x R x2z
donde R x2z es el coef. de determinacin de la regresin de x s. z,

1
2 = u i2
n 2
Adems se puede comparar las AVar de los EVI y de los EMCO:

2 2
AVar ( VI ) = AVar ( 1 ) =
MCO

n x2 xz2 n x2
1

Como x2, z 1 entonces A V a r ( 1V I ) A V a r ( 1M C O )

10
VI pobres o dbiles.

 Los EVI tienen varianza alta si la correlacin de la VI con


x es pequea.
 La correlacin entre z y u puede tener incluso peores
consecuencias en trminos de sesgo:
C o rr ( x , u ) u
p lim ( 1 ) = 1 +
C o rr ( x , z ) x

 En este caso, si slo atendemos a consistencia, no est


claro que es mejor usar EVI que EMCO:

p lim ( 1M C O ) = 1 + C o rr ( x , u ) u
x

 Entonces, cundo preferiremos VI sobre MCO?


 Entonces, . . . qu debemos hacer?

11
R-cuadrado en la estimacin por VI.
 La mayora de paquetes economtricos calculan
S S R
R 2
= 1
S S T
donde SSR es la suma de cuadrados de los residuos de la estimacin
VI.
 En este caso R-cuadrado puede ser negativo ya que SSR
puede ser mayor que SST.
 Adems cuando x y u estn correlados, no podemos
descomponer la varianza de y en 1 2 V a r ( x ) + V a r ( u ) , por
lo que el R-cuadrado no tiene interpretacin natural.
 Si el objetivo es reportar el mayor R-cuadrado posible,
entonces EMCO es la solucin.

12
Estimacin VI del modelo de regresin mltiple.

y1 = 0 + 1 y 2 + 2 z1 + u1

 Mide una relacin causal, y estamos interesados en los


j

 Nueva notacin para distinguir variables endgenas (y1,


y2) de las variables exgenas (z) .
 El trmino de error u satisface E[u] = 0.
 Asumimos que z1 est incorrelada con el trmino de
error, E[z/u] = 0.
 Pero es posible que y2 est correlada con u (por ejemplo
porque hay factores omitidos en u).

13
EVI para regresin mltiple.

y1 = 0 + 1 y 2 + 2 z1 + u1

 La idea es buscar un instrumento para y2.


 Aunque z1 est incorrelada con u, no podemos usarla como
instrumento para y2: ya aparece en la ecuacin y no se
puede usar dos veces.
 Hay que buscar otra variable z2 que no est en la ecuacin.
 El supuesto clave es que z1 y z2 no estn correladas con u1 :
E(u1) = 0, Cov(u1, z1) = 0, Cov(u1, z2) = 0.

14
EVI para regresin mltiple (II).
 Estas condiciones son equivalentes a
E(u1) = 0, E(u1z1) = 0, E(u1z2) = 0.

 Y estas condiciones son equivalentes a


1 y
n
i = 1
( y i1 0 i 2 2 z i1 ) = 0

1 y
n
i = 1
z i1 ( y i1 0 i 2 2 z i1 ) = 0

1 y
n
i = 1
z i 2 ( y i1 0 i 2 2 z i1 ) = 0

que son un sistema de 3 ecuaciones con 3 incgnitas,0 , 1, 2 : los


estimadores de Variables Instrumentales.

 Si y2=z2 porque creemos que es exgena, entonces


tenemos que EVI=EMCO.
15
EVI: validez de instrumentos.
 Necesitamos que z2 est correlado con y2, pero hay que tener en
cuenta tambin a z1.
 La condicin hace referencia a la correlacin parcial:
y 2 = 0 + 1 z1 + 2 z 2 + v 2
donde
E ( v 2 ) = 0 , C o v ( v 2 , z 1 ) = 0 , C o v ( v 2 , z 2 ) = 0

y los j son parmetros desconocidos.


 La condicin clave de identificacin es
2 0
 que dice que despus de descontar el efecto de z1, z2 e y2 estn
correlados.
 El contraste es fcil: se estima el modelo por MCO y se hace un
contraste de la t.
 Pero no se puede hacer un contraste para Cov(u1, z2) = 0.

16
Formas reducidas.
 Forma reducida de y2
y 2 = 0 + 1 z1 + 2 z 2 + v 2

donde
E(v2) = 0, Cov(v2, z1) = 0, Cov(v2, z2) = 0.

 Esta ecuacin es una forma reducida: explica una


variable endgena en funcin de variables exgenas.

 El nombre sirve para distinguirla de las ecuaciones


estructurales, que miden relaciones causales.

17
EVI para regresin mltiple: ms de dos
variables.

y 1 = 0 + 1 y 2 + 2 z 1 + ... + k z k 1 + u 1

y2 puede estar correlada con u1.


Se dispone de una variable zk para hacer de instrumento de
y2.
Asumimos que
E(u1) = 0, Cov(u1, zj ) = 0, j = 1, . . . , k.
La forma reducida para y2 es
y 2 = 0 + 1 z1 + ... + k z k + v 2

El supuesto clave para que zk y y2 estn correladas


parcialmente es
k 0

18
Mnimos cuadrados bietpicos.

 En ocasiones disponemos de dos o ms variables


exgenas excluidas de la ecuacin para servir de
instrumentos para y2.

 Ambas variables estn correladas con y2 y son posibles


instrumentos vlidos para y2.

 Consideramos los casos de una y mltiples variables


explicativas endgenas.

19
El caso de una sola variable explicativa endgena.
y1 = 0 + 1 y 2 + 2 z1 + u 1

 Ahora disponemos de dos variables exgenas excluidas: z2 y z3,


que estn excluidas de la ecuacin.
 Restricciones de exclusin: z2 y z3 no aparecen en la ecuacin y
estn incorreladas con u1.
 Si las dos variables z2 y z3 estn correladas con y2 entonces
cada una de ellas se podra usar como VI para y2.
 Entonces tendramos dos VI y en general ninguna de las dos
sera eficiente: como z1, z2 y z3 estn incorrelados con u1,
cualquier combinacin lineal tambin lo estar y ser una VI
vlida.
 La VI ptima ser la que tenga la correlacin mxima con y2 :
la forma reducida de y2,
y 2 = 0 + 1 z1 + 2 z 2 + 3 z 3 + v 2

E ( v 2 ) = 0 , C o v ( v 2 , z1 ) = 0 , C o v ( v 2 , z 2 ) = 0 , C o v ( v 2 , z 3 ) = 0
20
VI ptimas.

y 2* = 0 + 1 z1 + 2 z2 + 3 z3

 Queremos que esta VI no est perfectamente correlada


con z1 (para que est correlada parcialmente con y2
aparte del efecto de z1).
 Para ello necesitamos que
2 0 3 0
 La ecuacin no est identificada si 2 = 3 . = 0
 La condicin de identificacin se puede contrastar con
un test de la F para H 0 : 2 = 0 , y , 3 = 0

21
Interpretacin de la primera etapa.
 La forma reducida de y2
y 2 = 0 + 1 z1 + 2 z 2 + 3 z 3 + v 2

divide a y2 en dos partes y2* = 0 + 1z1 + 2 z2 + 3 z3 que es la parte de y2


incorrelada con el error u.

 v2 : que es la parte posiblemente correlada con u.


 Con los datos sobre zj podemos calcular y2 para cada
observacin si se conocen los j .
 En la prctica los j deben estimarse por MCO y computar para
cada i , y i 2 : y 2* = 0 + 1 z1 + 2 z 2 + 3 z3
 En este momento debemos comprobar que z2 y z3 son
conjuntamente significativos. En caso contario esta regresin
no conduce a VI vlidas.

22
Interpretacin de la segunda etapa.
 Esta basada en la utilizacin de y2 como VI para y2

1 y
n
i = 1
y i 2 ( y i1 0 i 2 2 z i1 ) = 0

 Cuando hay mltiples instrumentos el EVI tambin se


denomina Estimador de Mnimos Cuadrados Bietpicos o en 2
etapas (EMC2).

 La razn del nombre es que el estimador VI se puede obtener


por dos regresiones MCO, ya que la segunda etapa equivale a
hacer una regresin MCO de y1 sobre y2 , z1 .

23
Variables Instrumentales: EMC2.

 1 etapa: regresin de y2 sobre z1 , z2 y z3 : se obtiene y2 .


 2 etapa: regresin de y1 sobre y2 y z1 .
 La diferencia con MCO entonces es usar y2 en lugar de y2 .
 La idea es que y2 es la versin estimada de y2* , que est
incorreladacon u1, por lo que EMC2 libera a y2 de su
correlacin con u1.
 Por tanto la regresin MCO sobre y2* es vlida, ya que
y 2 = y *
2 + v 2

y 1 = 0 +
+ 2 z1 + u 1 + 1v 2
1 y *
2

donde el nuevo error u1 + 1v2 est incorrelado con


y2* y con z1 .
 Sin embargo los errores estndar de esta segunda etapa no son
los correctos para EMC2

24
Condiciones para inferencia asinttica vlida para EMC2.

y1 = 0 + 1 y 2 + 2 z1 + ... + k z k 1 + u1

 Cada zj est incorrelada con u1.


 Necesitamos al menos una variable exgena que est
correlada parcialmente con y2 (aparte de las zj , j = 1, . . .
, k-1 ya presentes en la ecuacin).
 Para que los e.s. y estadsticos t habituales sean vlidos
se necesita una condicin de homoscedasticidad: la
varianza de u1 no puede depender de ningn regresor
exgeno.

25
Multicolinealidad y MC2.

La multicolinealidad provoca que EMCO tenga grandes err. std.


El problema puede ser todava ms grave para MC2.
La varianza asinttica del EMC2 se puede aproximar por
2

S S T 2 (1 R 22 )
2
donde 2 = V ar ( u1 ) , SST2 es la varianza total de yy2 y R2 es el R2 de la
regresin de y2 sobre todas las otras variables exgenas que aparecen
en la ecuacin estructural.
Hay dos razones por las que la varianza del EMC2 es mayor que la
del EMCO:
 Por construccin y2 tiene menos variacin que y2 (ya que y2 es un residuo).

 Adems la correlacin de y2 con el resto de variables exgenas es frecuentemente


mucho mayor que la de y2 y esas variables. y es una funcin de esas variables y
2
los otros instrumentos que evitan que la correlacin sea perfecta y R2 =1 .
2

26
Mltiples variables endgenas.
y1 = 0 + 1y2 + 2 y 3 + 3 z1 + 4 z2 + 5 z3 + u1

donde
E (u1 ) = 0 , C o v ( z j , u1 ) = 0

 y2 e y3 son variables explicativas endgenas y pueden estar


correladas con u1.
 El problema puede ser todava ms grave para MC2.
 Para estimar esta ecuacin por VI necesitamos al menos dos
variables exgenas que no aparezcan en la ecuacin y que
estn correladas parcialmente con y2 y con y3, por ejemplo z4 y
z5.
 Condicin necesaria: bien z4 z5 deben aparecer en las formas
reducidas de y2 y de y3.
 Condicin suficiente: cada variable z4 y z5 debe aparecer en al
menos una de las dos formas reducidas.

27
Soluciones VI para problemas de errores en las variables.

 Consideramos el modelo
y 1 = 0 + 1 x 1* + 2 x 2 + u

donde y y x2 son observadas, pero no x*1.

 Sea x1 una medida observada de x*1 :


x1 = x 1* + e 1

donde e1 es el error de medida.

 La correlacin entre e1 y x1 hace que el EMCO, cuando se


usa x1 en lugar de x*1, sea sesgado e inconsistente:
y1 = 0 + 1 x1 + 2 x 2 + (u 1e1 )

28
Supuesto clsico de errores en variables (CEV).

 En este caso el sesgo en el EMCO es hacia cero, y sin ms


informacin no podemos corregirlo.
 En ocasiones podemos usar un mtodo de VI para solucionar
el problema de error de medida.
 En la ecuacin original asumimos que u est incorrelado con
x*1 , x1 y x2.
 En el caso CEV asumimos que e1 est incorrelado con x*1 y x2.
 Esto implica que x2 es exgena en la ecuacin

y1 = 0 + 1 x1 + 2 x 2 + ( u 1e1 )

pero que x1 est correlado con e1 : necesitamos una VI para x1,


correlada con x1 pero incorrelada con u y con e1.

29
Posibles IV para errores de medida.

 Una segunda medida de x*1 : z1. Necesitamos que el error de


medida a1 en
z 1 = x 1* + a 1

est incorrelado con e1 y que z1 est incorrelado con u.

 Adems z1 estar lgicamente correlado con x1 porque ambas


son mediciones de x*1.

 Cmo conseguir la segunda medida? Generalmente es


complicado.

 Otra variable exgena. Por ejemplo si usamos motheduc y


fatheduc como VIs, podemos pensar que estn incorreladas
con el error de medida en

30
Contraste de endogeneidad.
 El EMC2 es menos eficiente que el EMCO cuando las variables
explicativas son exgenas.
 Por esta razn es til disponer de un contraste de endogeneidad de
una variable explicativa para ver si es necesario MC2.
 Modelo
y 1 = 0 + 1 y 2 + 2 z 1 + 3 z 2 + u 1

donde z1 y z2 son exgenas.


 Se dispone de otras dos variables exgenas z3 y z4 que no aparecen en
la ecuacin estructural.
 Si y2 est incorrelada con u1 entonces deberamos usar MCO.
 Cmo se hace este contraste?
 Hausman (1978) sugiri comparar directamente los EMCO y EMC2
para ver si las diferencias eran significativas. Si difieren
sustancialmente es porque EMCO es inconsistente: y2 es endgena.

31
Contraste de Hausman.

 Para ver si la diferencia EMCO-EMC2 es significativa es mejor


usar una regresin.
 Para ello se emplea la forma reducida de y2,

y 2 = 0 + 1 z1 + 2 z 2 + 3 z 3 + 4 z 4 + v 2

 Como zj estn incorrelada con u1, y2 est incorrelada con u1 si


y slo si v2 est incorrelada con u1.
 Podemos escribir
u 1 = 1v 2 + e1

donde e1 est incorrelado con v2 y tiene media cero.


 Entonces u1 y v2 estn incorrelados si y slo si

1 = 0

32
Contrastes de restricciones de sobreidentificacin.

 Una VI tiene que satisfacer dos requerimientos: estar


correlada con la variable explicativa endgena pero
incorrelada con el error.

 El primer requerimiento se puede comprobar por medio


de contrastes de la t y de la F.

 El segundo requerimiento no se puede comprobar porque


implica errores no observados.

 Sin embargo, si tenemos ms de una VI s que podemos


contrastar el supuesto.

33
Contrastes de restricciones de sobreidentificacin.

Modelo
y 1 = 0 + 1 y 2 + 2 z 1 + 3 z 2 + u 1

donde z1 y z2 son exgenas y se dispone de otras dos variables


exgenas z3 y z4.
Estimamos la ecuacin por MC2 usando como VI slo z3 (que
asumimos es un buen instrumento) y obtenemos residuos
u 1 = y 1 0 + 1 y 2 + 2 z 1 + 3 z 2

Como z4 no se ha usado en la estimacin se puede comprobar


si z4 y 1 estn correlados: si estn correlados z4 no es una VI
vlida para la estimacin.
Para llevar a cabo el contraste se hace la estimacin MCO de
1 sobre todas las variables exgenas, 1 sobre z1, z2, z3 y z4.
Estadstico
L M : n R 2
1
2

34

Вам также может понравиться