Вы находитесь на странице: 1из 11

JAMES HECKMAN, EL SESGO DE SELECCIN MUESTRAL.

Cristina Snchez Figueroa


Pedro Cortias Vzquez
Iigo Tejera Martn
Senda del Rey
UNED. Madrid
csanchez@cee.uned.es, pcortinas@cee.uned.es, itejera@cee.uned.es


El objetivo de este trabajo es hacer una breve revisin del trabajo elaborado por
James Heckman (1979) que tiene en cuenta el problema del sesgo de seleccin muestral.
Este problema, esencial a lo hora de obtener conclusiones acertadas, no haba sido
estimado en los modelos tradicionales desarrollados hasta ese momento.

Es importante resaltar que la correccin en la seleccin muestral se puede
realizar tanto en modelos con variable dependiente continua como en modelos con
variable dependiente discreta. En este trabajo se considera nicamente el caso de
variable dependiente continua, y se analizan los mtodos de estimacin que existen;
considerando principalmente el mtodo de Heckman en dos etapas.

Al presentarse el problema de la seleccin muestral los modelos de estimacin
deben recurrir, adems de la ecuacin objetivo que se pretende estimar, a una segunda
ecuacin que se le suele denominar ecuacin de seleccin. La ecuacin de seleccin
corresponde a un modelo de variable dependiente discreta y mide la probabilidad de
estar en la muestra. El ejemplo tpico considerado por Heckman en su trabajo es el
mercado laboral. En este caso las personas que trabajan son una submuestra de la
poblacin potencialmente activa, que puede trabajar.



1. Antecedentes.

Heckman, James J. (1944- ). Economista norteamericano nacido en Chicago
(Illinois) en 1944. Estudi matemticas en la universidad de Colorado y despus
economa en la universidad de Princeton, donde, en 1971, consigui el doctorado. En
1985 obtuvo el cargo de profesor de economa en la ctedra Henry Schultz, de la
universidad de Chicago, donde se le elev a catedrtico con mencin por servicios
distinguidos en 1995.

Su labor docente se ha desarrollado en la universidad de Columbia, Yale y
Chicago, y la ha compatibilizado con cargos en la oficina nacional norteamericana de
investigacin econmica o en el centro de investigacin econmica del centro nacional
norteamericano de investigacin de opinin. Tambin ha estado vinculado a diferentes
organizaciones (como la academia nacional de las ciencias) y a publicaciones de
carcter econmico, y ha sido miembro de diversas comisiones de la academia nacional
de las ciencias.

Heckman se ha especializado en el estudio estadstico de la microeconoma, es
decir la parte de la economa que describe el comportamiento de los individuos, las
familias y las empresas ante diversos incentivos de mercado y de gobierno. A esta
combinacin se le ha denominado microeconometra. Y surge como consecuencia de la
creciente disponibilidad y accesibilidad de informacin de tipo individual proveniente
de encuestas, as como del espectacular desarrollo de los medios de clculo necesarios
para procesar dicha informacin.

De esta manera, Heckman ha orientado sus anlisis a temas relacionados con la
economa laboral, como la decisin de aceptar un empleo, los ingresos del trabajo, la
duracin del desempleo, los programas gubernamentales para desempleados y menos
capacitados, la fecundidad y la discriminacin.

Utilizando como base estos anlisis su principal contribucin ha sido
metodolgica, al resolver problemas frecuentemente encontrados en la aplicacin de la
economa y conocidos en el lenguaje tcnico como "sesgo de seleccin" y
"autoseleccin". As, el problema del sesgo de seleccin fue desarrollado por James
Heckman en su trabajo Sample selection bias as a especification error (1979). Hasta la
publicacin del trabajo este problema, de gran importancia, no era considerado en los
anlisis de los economistas, desconociendo a su vez que la correccin del mismo resulta
fundamental para obtener conclusiones acertadas con estimadores insesgados,
consistentes y eficientes sobre las caractersticas de la poblacin o la muestra en estudio.
Actualmente resulta ser uno de los problemas que ms se deben tener en cuenta a la
hora de la estimacin de un modelo.

Fue galardonado con el Premio Novel de Economa en el ao 2000. Este hecho
supone un reconocimiento a sus trabajos, pioneros en la resolucin de problemas que
tienen relevancia desde el punto de vista social. La lnea de investigacin iniciada por
Heckman ha generado numerosas contribuciones centradas en la estimacin de los
efectos de polticas activas del mercado de trabajo. Su trabajo ha permitido establecer
ventajas e inconvenientes de utilizar datos experimentales en la evaluacin de polticas
pblicas.

2. El sesgo de seleccin muestral.

El sesgo de seleccin muestral surge cuando las muestras a disposicin de los
investigadores no son "aleatorias", es decir no representan adecuadamente la poblacin
que se desea estudiar. Dentro de los sesgos de seleccin existen diferentes modalidades
que pueden depender de los criterios del analista, de la decisin de los agentes
econmicos, etc. En base esto podemos decir que el propio analista, al decidir el diseo
muestral, puede realizar una mala seleccin de los grupos que se comparan, o bien, lo
que se puede dar es un problema de autoseleccin, cuando los individuos deciden
autoselecionarse para pertenecer a un determinado grupo.

En primer lugar comentamos brevemente en qu consiste la autoseleccin, que
correspondera al caso en el que la observabilidad de la variable dependiente est en
funcin del valor que tome otra variable. El caso ms tpico, desarrollado por Heckman,
es analizar cmo las muestras de participantes en el mercado laboral no son el resultado
de una seleccin aleatoria sino de la autoseleccin de los individuos derivada de un
proceso de maximizacin de utilidad. Al mismo tiempo diversos factores, como la
educacin, afectan al salario que puede conseguir un individuo en el mercado laboral. Si
el estudio slo considera a los individuos que trabajan y adems estn educados, se
obtiene una muestra incompleta de la poblacin ("autoseleccionada" de acuerdo con la
decisin de las personas por educarse) lo que conducira a conclusiones errneas
("sesgadas") sobre el efecto de la educacin. En este caso, al estar "sobrerepresentada"
la poblacin educada en la muestra, se tiende a subestimar el efecto de la educacin.

Por otro lado los datos pueden no ser seleccionados de forma aleatoria por
decisiones del propio analista. Un ejemplo son los estudios con datos de panel, una
muestra ser seleccionada por el analista si existe estabilidad en la unidad familiar
durante varios periodos de anlisis.

Para obtener estimaciones no sesgadas, debe considerarse este hecho. Por tanto,
teniendo en cuenta este problema y la complejidad de las estimaciones, se han
desarrollado mtodos computacionales muy sencillos que son utilizados por la mayor
parte de los investigadores a la hora de obtener conclusiones acertadas en los estudios
realizados.

3. El Modelo de Heckman.

Ante la presencia de sesgo de seleccin, existen mtodos de correccin que
tienen como objetivo solucionar este problema. Para obtener estimaciones en modelos
de variable dependiente continua, los mtodos de correccin que se pueden utilizar son
el propuesto por Heckman en 1979 y el mtodo de Mxima Verosimilitud de Amemiya
1981 En este trabajo se considera principalmente el primero, aunque se hace un pequeo
apunte al de Mxima Verosimilitud, pues es uno de los ms utilizados gracias al
desarrollo de los programas computacionales.

El mtodo propuesto por Heckman permite aislar el sesgo de seleccin muestral
que se deriva de trabajar con modelos, ya sean de ingresos u horas de trabajo, de los
individuos en el mercado laboral. Tal sesgo es producto de la autoseleccin de los
individuos que deciden estar ocupados, de manera que cuando se utilizan los mtodos
clsicos Mnimos Cuadrados Ordinarios (MCO), por ejemplo- los coeficientes
obtenidos por este procedimiento estn sesgados por el hecho de que la poblacin
ocupada constituye un segmento de la poblacin total que paso por un proceso de
autoseleccin para ingresar al mercado laboral. El procedimiento sugerido por Heckman
para tratar con este tipo de problemas es conocido como el mtodo bietapico.

El mtodo consiste en estimar en un primer paso un modelo tipo probit para
calcular la probabilidad (dadas ciertas variables de inters que determinen tal decisin)
de que un individuo decida o no estar ocupado, de esta estimacin se obtiene el
estadstico conocido como la razn inversa de Mills que captura la magnitud de dicho
sesgo. Posteriormente al calculo del modelo probit, la razn de Mills estimada se
incorpora al modelo de regresin original (estimado por MCO) para ser aadido como
un regresor ms, de esta manera la significatividad de este coeficiente indica la
magnitud de sesgo en que se incurrira si no se hubiese incorporado a la regresin
explicativa de la desigualdad salarial. De esta manera, los coeficientes estimados por
MCO aadiendo la variable ,que capta la magnitud del sesgo, son consistentes. Los
estimadores obtenidos en por MCO con el mtodo bietapico aunque consistentes,
presentan problemas de eficiencia tal como demostr Maddala (1983). Este hecho hace
que surja el mtodo por mxima verosimilitud en el cual la estimacin se realiza de
manera conjunta.





1. Definicin del modelo de Heckman.


i i i
v z y
2 2
+ = o (a)

i i i
u x y
1 1
+ = | si 0
2
>
i
y (b)

i
y
1
no se observa si 0
2
s
i
y

i
D
2
1 si 0
2
>
i
y

i
D
2
0 si 0
2
s
i
y

La ecuacin para
i
y
1
es una ecuacin de regresin comn. Sin embargo, bajo
ciertas condiciones no observamos la variable dependiente de esta ecuacin.
Denotaremos si observamos o no esta variable mediante una variable dummy
i
D
2
.
La observacin de la variable dependiente
i
y
1
es funcin del valor de otra
regresin: la ecuacin de seleccin que relaciona la variable latente
i
y
2
con algunas
caractersticas observadas
i
z .

Para simplificar la exposicin podemos decir que se consideran dos ecuaciones
en el modelo, una ecuacin de inters que corresponde a la ecuacin que se busca
estimar, de la que buscamos extraer conclusiones, y una ecuacin de seleccin o
participacin (regresin auxiliar) que corresponde a un modelo de eleccin discreta
(Probit o Logit), que mide la probabilidad de estar en la muestra, en esta ltima
ecuacin se pueden incluir las variables independientes de la ecuacin de inters y a su
vez esta ecuacin deber contener al menos una variable continua que sea determinante
en el proceso de pertenecer o no a la muestra pero que a su vez no resulte relevante para
determinar la variable dependiente, lo anterior con el fin de no caer en problemas de
identificacin.

Adems, se asume la existencia de una distribucin normal bivariada de los
errores en las ecuaciones (a) y (b) con la siguiente estructura:


(
(

|
|
.
|

\
|
|
|
.
|

\
|
~
|
|
.
|

\
|
1
,
0
0
1
1
2
1
2
1
o
o o
N
u
u


De esta forma, la ecuacin de seleccin se convierte en un modelo Probit. Por su
parte, recordemos que la varianza de la distribucin en la ecuacin Probit puede ser
normalizada a uno sin prdida de informacin ya que la escala de la variable
dependiente no es observada.
De esta manera, usando el supuesto de normalidad y las propiedades de la
normal bivariada truncada podemos calcular:

| | o | z v v E x y y E > + = >
2 1 2 1
/ ) 0 / ( (c)

(

+ =
1
1
o
o |
z
x

( )
( ) o
o |
o |
z
z
x
u

+ =
1
1


( )
( ) o
o |
o |
z
z
x
u
+ =
1


Consideramos que la razn inversa de Mills siempre es positiva, la regresin de
y sobre x est sesgada dependiendo del valor de

As la magnitud del sesgo depender de la magnitud de la correlacin entre los
errores ) ( , la varianza relativa del error ) (
1
o y la severidad del truncamiento (la
razn inversa de Mills es mayor cuando o z es menor). As, si =0 entonces no habrs
sesgo de seleccin

2. Estimacin del modelo de Heckman.

As utilizando la siguiente especificacin:
= > ) 0 / (
2 1
y y E
( )
( ) o
o |
o |
z
z
x
u
+
1


El objetivo es estimar | en la ecuacin (b) por MCO incluyendo en dicha
ecuacin la medida
( )
( ) o
o |
z
z
u
. Con este fin Heckman (1979) sugiere realizar los siguientes
pasos:

1. Estimar o consistentemente usando un probit para la probabilidad de observar
los datos en funcin de z.
2. Calcular su valor ajustado para la funcin ndice o variable latente
o i
i
z y
. .
=
2
y calcular la razn inversa de Mills i
.
como funcin de
i
y
2
.
.
3. Incluir i
.
en la regresin de
i
y
1
sobre
i
x para aproximar ( ) o
i
z . El
coeficiente de i
.
ser una medida de
1
o y de esta forma una estimacin de
y de
1
o puede ser obtenida a partir de all.

Los valores resultantes (estimadores) de
1
, o | y son consistentes pero
asintticamente ineficientes bajo el supuesto de normalidad. La gran importancia de este
mtodo es su sencillez , puesto que slo se necesita realizar un probit y un MCO.

No obstante y una vez establecido este mtodo, existen por lo menos tres
aspectos que se deben considerar con respecto a este estimador en dos etapas:

1. El estimador del error estndar convencional en (a) es inconsistente pues el
modelo de regresin en (c) es intrnsecamente heterocedstico debido a la
seleccin. Una forma de solucionar esto es mediante el uso de los estimadores
de los errores estndar robustos los cuales son, al menos consistentes.
2. El mtodo no impone la condicin que 1 s lo cual est implcitamente
asumido en el modelo. Esta condicin es a menudo no respetada.
3. El supuesto de normalidad es necesario para la consistencia de los estimadores.



3. Estimacin por Mxima Verosimilitud (ML).

En el mtodo por mxima verosimilitud lo primero que debemos hacer es
especificar el modelo, tal como hemos visto en las ecuaciones (a) y (b), para una vez
especificado realizar la estimacin de manera conjunta.

En este caso al considerar el sesgo de seleccin cada grupo tendr diferente
funcin de verosimilitud. Como tenemos dos tipos de observaciones:

1. Aquellas donde
1
y es observada para lo cual sabemos que se cumple que
0
2
> y . Para estas observaciones la funcin de verosimilitud es la probabilidad
del evento
1
y y que tambin ocurra que 0
2
> y .

( ) ) , , / 0 ( ) , / 0 , (
1 2 1 2 1
z x y y P y f z x y y P
i i i i i
> = >
( ) ) , , / (
1 2 1
z x v z v P v f
i i i i
o > =
( )
i
z
i i
i i
dv v v f
x y
i
2 1 2
1
1
1
/
1
}

|
|
.
|

\
|
=
o
o
|
|
o


( )
i
z
i i i
i i
dv
x y v
x y
i
2
2
1
1
2
1
1
1 1
1
}

(
(
(
(


|
|
.
|

\
|
=
o

|
o

|
o
|
o


( )
(
(
(
(

|
|
|
|
.
|

\
|

+
u
|
|
.
|

\
|
=
2
1
1
1
1
1 1
1
1

|
o

o
o
|
|
o
i i i
i i
x y z
x y


( )
(
(
(
(

|
|
|
|
.
|

\
|

+
u
|
|
.
|

\
|
=
2
1
1
1
1
1 1
1

|
o

o
o
|
|
o
i i i
i i
x y z
x y


2. Aquellas donde
1
y no es observada para lo cual sabemos que se cumple que
0
2
s y del manera, no tenemos informacin independiente para
1
y .
( ) o
i i
z v P y P s = s
2 2
) 0 (
) ( o
i
z u =
) ( 1 o
i
z u =

De esta manera considerando la funcin de verosimilitud para todos los
elementos de la muestra obtendramos la siguiente expresin:
+ u =

)) ( 1 log( ) , , , , ( log
1
o o o |
i
z datos L

( )

(
(
(
(

|
|
|
|
.
|

\
|
+
u +
|
|
.
|

\
|
+
1
log log log
1
1
1
1
1
|
o

o
o
|
| o
i i i
i i
x y z
x y



Estos estimadores sern consistentes y asintticamente eficientes bajo el
supuesto de normalidad y homocedasticidad de los trminos de error no censurados.
Aunque unos de los problemas que tiene la estimacin por ML es que la funcin no es
estrictamente cncava y en consecuencia no necesariamente existe una nica solucin.















BIBLIOGRAFIA.


- Gonzalez Espitia, Carlos G.Sesgo de seleccin muestral con STATA
- Gujarati (2010). Econometra. Mxico. Mc Graw Hill.
- Heckman James J. (enero 1979) Sample selection bias as a specification
errorEconometrica. Journal of the Econometric Society (47): pp.153-161.
- MADDALA G.S. (1983), Limited Dependent and Qualitative Variables in
Econometrics, Econometric. Society Monographs.
- Murray, M. (2006). Econometrics: a modern introduction. Ed. Pearson.
- Prez L. Csar (2006). Problemas resueltos de econometra, Ed. Thomson.
- STATA CORP (2008). Users Guide, Reference Manual Release 10. Stata Press.
- Wooldridge, J. (2006). Introduccin a la Econometra. Un enfoque moderno.
Ed.Thomson.

Вам также может понравиться