Вы находитесь на странице: 1из 9

Introducción a Stata

Clase 3: Análisis de Regresión Lineal

R. E. De Hoyos*
University of Cambridge

28 de febrero de 2005

1. Introducción

En esta clase aprenderemos a realizar regresiones en Stata incluyendo vari-


ables dummy e interacciones como determinantes. Veremos las diferentes
hipótesis que podemos evaluar justo después de haber corrido el modelo.
Otra parte fundamental del análisis de regresión es obtener los diagnósticos
necesarios para probar si el modelo cumple con los supuestos clásicos de Mı́ni-
mos Cuadrados Ordinarios (OLS, por sus siglas en inglés.) El que se rompa
con uno o más de los supuestos de OLS tiene diferentes repercusiones sobre
el valor de los parametros en algunos casos o sobre la inferencia estadı́stica
en otros.

En esta documento, al contrario de los dos anteriores, casi no se presen-


tan ejemplos, concentrándonos más en los comandos que podemos utilizar
en Stata para realizar las distintas tareas dejando para el ejercicio la im-
plementación prática. El documento se divide en cinco aparatados dedicando
*
red29@cam.ac.uk

1
uno para el comando reg, otro para el prefijo xi, seguido por los diagnósticos
(regdiag), estimaciones con errores estandar robustos (robust), pruebas de
hipótesis (test) y finalmente la predicción del modelo (predict).

2. Regresión

Si, basados en una relación teórica, tenemos elementos para suponer que las
variaciones en y son causadas por las variaciones en x, podemos utilizar el
análsis de regresión para probar esta relación estadı́sticamente. En forma muy
simple, lo que la regresión hace es encontrar los parametros de la ecuación
y = α + βx + ² tal que la sumatoria de errores al cuadrado sea mı́nima (de
ahı́ su nombre OLS.) Esto se realiza en Stata utilizando el comando reg
seguido por y y x en donde x puede tener más de un elemento (es decir se
pueden incluir cuantas variables independientes se quiera—dado un número
finito de grados de libertad.) Por ejemplo si estamos interesados en la relación
ente ingreso y y educacion s escribimos en Stata:

reg y s

Comando: reg

3. Variables Dummy y el Prefijo xi

El modelo anterior es el más sencillo que podemos estimar, lo más probable


es que no tome en cuenta muchas otras variables que estan determinando el
ingreso. Por ejemplo si pensamos que el ingreso de los hombres es mayor al
percibido por las mujeres entonces podemos correr el siguiente modelo:

reg y s m

En donde m es una variable indicador (dummy) la cual toma el valor de 1


si la observación corresponde a una mujer y cero de lo contrario. Utilizando

2
datos de la ENIGH se arrojaron los siguientes resultados:

Cuadro 1: regress
Variable Coefficient (Std. Err.)
yschooling 1147.498 (11.927)
mujer -2844.586 (109.824)
Intercept -936.559 (109.701)

En términos de nuestro modelo, y = α + βs + δm + ², si δ es diferente de


cero (lo que es cierto en nuestro ejemplo) entonces quiere decir que hay evi-
dencia suficiente para afirmar que los ingresos de las mujeres difieren del de
los hombres controlando por el nivel de educación. Según nuestros resulta-
dos un año extra de educación formal representa un incremento de $1,147
pesos en el salario trimestral y las mujeres ganan, en promedio, $2,844 pesos
menos que los hombres. Ahora suponga que se introduce una variable discre-
ta (llamémosla sector) tomando valores del 0 al 6 indicando cada una de las 7
industrian en la muestra. A partir de sector se podrı́an contruir 7 variables in-
dicadores tomando cada una el valor de 1 cuando la observación corresponde
a un trabajador de determinada industria y cero de otra forma. Sospechamos
que el ingreso varı́a entre industrias y no sólo eso sino que el retorno a la
educación (medido por β en nuestro modelo) también toma valores diferentes
dependiendo de la industria. Para probar esto podemos generar variables de
interacción entre x y los 6 diferentes indicadores de industria o bien utilizar
el prefijo xi. El modelo que estimaremos es el siguiente:

y = α + βs + δm + φ0 I0 + . . . + φ5 I5 + γ0 (s)I0 + . . . + γ5 (s)I5 + ² (1)

En donde I son los indicadores para cada industria. En Stata este modelo se
correrı́a de la siguiente forma:

xi: reg y m i.sector*s

3
Los resultados son presentados en el siguiente cuadro:

Cuadro 2: xi reg
Variable Coefficient (Std. Err.)
Isector 0 2707.292 (315.385)
Isector 1 3089.960 (299.282)
Isector 2 3658.951 (1029.817)
Isector 3 3570.618 (474.277)
Isector 4 183.165 (377.134)
Isector 5 1419.964 (384.152)
yschooling 1367.352 (21.367)
IsecXyscho 0 -932.026 (37.764)
IsecXyscho 1 -1239.702 (41.611)
IsecXyscho 2 320.377 (102.659)
IsecXyscho 3 -629.909 (59.936)
IsecXyscho 4 120.991 (40.711)
IsecXyscho 5 -532.240 (41.359)
mujer -2927.649 (111.873)
Intercept -1545.552 (240.282)

Las primeras 6 varaibles en el cuadro 2 (con el prefijo I) miden el impacto


que tienen las diferentes industrias (o sectores) sobre el intercepto α, mientras
que las las que le siguen a la variable “yschooling” miden el impacto sobre
la pendiente β. Si sólo nos interesara el impacto sobre la pendiente entonces
el modelo se hubiera estimado incluyendo i.sector sin el asterisco seguido
por la variable educación.

Opción: xi

4
4. Diagnósticos

Para que los resultados obtenidos por reg sean válidos es necesario que se
cumplan los supuestos clásicos de OLS, es decir, normalidad en los residuales,
hemosedasticidad, no autocorrelación (en el caso de series de tiempo) y no
multicolinealidad entre otros.

Los diagnósticos de la regresión son obtenidos justo después de la prueba es-


cribiendo cualquiera de los siguientes comandos: hettest para heterosedas-
ticidad, vif para multicolinealidad y ovtest para variables omitidas y es-
pecificación incorrecta.

1. hettest Esta prueba utiliza los residuales obtenidos de la regresión


original, los eleva al cuadrado y posterirormente los corre contra las
variables independientes. De este segundo modelo se obtiene un es-
tadı́stico de pueba con distribución F. Esto es lo que se conoce como
la prueba Breusch-Pagan (1980).

2. ovtest Realiza lo prueba RESET, Regression Specification Error Test,


[Ramsey 1969]. En esta prueba se agregan polinomios de valores ajus-
tados para y. Suponga el modelo y = α + βx + ² de aquı́ se obtienen
los valores estimados ŷ, se crean las variables de orden dos o mayor
ŷ 2 , ŷ 3 , . . .. Se corre el modelo alternativo: y = α + βx + ŷ 2 + ŷ 3 + . . . + ²
y por último se prueba el modelo alternativo contra el original utilizan-
do un estadistico F. Si el primero es preferido al segundo, entonces
tenemos un problema de especificación.

3. vif Esta prueba presenta la proporcion de la varianza total de cada


una las variables independientes que no es explicada por las variables
independientes restantes (Variance Inflation Factor.) El procedimiento
consiste en crear regresiones del tipo xi = α + βxj + ε, i 6= j; j =
1, 2...J en donde xi y xj son regresores en el modelo original. De los
resultados de esta regresión, se calcula el estadı́tico R2 , el valor vif es
igual a (1 − R2 ). Valores altos de vif nos indican que gran parte de la

5
variación en xi no es explicada por variaciones en las restantes xj por
lo tanto no hay evidencia para afirmar que tenemos un problema de
multicolinealidad.

Comandos: hettest, ovtest, vif

5. Violación de los Supuestos OLS

Si alguno de los diagnosticos nos indican la presencia de un problema con


los supuestos OLS, hay varias formas de lidiar con el problema. Aquı́ pre-
sentamos las técnicas más comunes. El problema de heterosedasticidad, se
da cuando la varianza de los errores no es constante, por lo tanto los inter-
valos de confianza que utilizamos para probar hipótesis (compuestos en base
a la varianza del error) tampoco van a ser constantes impidiendo con ello
toda inferencia estadı́stica. Corregir este problema es relativamente sencil-
lo, en Stata se utiliza la opción robust al final de la ecuación de regresión
para que Stata calcule errores estandar robustos (es decir corrigiendo por
heterosedasticidad.) La técnica que se utiliza es la conocida como Huber-
White o sandwich. Este procedimiento permite corregir para heterosedas-
ticidad de cualquier tipo sin tener que especificar la forma fucnional de la
misma. Normalmente la varianza estimada de los parametros está definida
como V ˆar(β̂) = σ 2 /SST 2 , cuando la opción robust es utilizada la varianza
es reeplazada por la siguiente expresión:
Pn 2 2
r̂ij ûij
V ˆar(β̂) = i=1 2
SSRj

En donde rij son los residuales de la regresión de xi contra el resto de las


variables independientes; uij son los residuales de la ecuación original y SST 2
es la sumatoria de errores al cuadrado. La flexibilidad de la expresión ante-
rior está contenida en el término û2ij el cual, evidentemente, varı́a para cada
observación ajustando ası́ cualquier cambio en varianza.

6
El problema de mutlicolinealidad es más sutil ya que—a diferencia de la
heterosedasticidad—este es un problema de grado. En otras palabras, siem-
pre vamos a observar que dos o más variables independientes estan correla-
cionadas entre si, sin que ello implique, necesariamente, un problema serio.
Hay ciertos sı́ntomas que nos permiten identificar el problema. Uno de ellos y
el más común es que los signos y valores de los parámetros estimados cambian
mucho al añadir o eliminar variables al modelo. Como ya lo vimos, otra for-
ma de identificar el probelma es utilizando el diagnóstico vif. Aún con esta
prueba la decisión de si existe un problema o no es, hasta cierto punto, subje-
tiva ya que no se utiliza un estadı́stico de prueba con un ditribución conocida
para realizar inferencia estadı́stica. Si creemos que hay un problema de mul-
ticolinealidad en nuesto modelo tenemos varias alternativas, lo más sencillo y
obvio es eliminar una (o más) de la variables que estan correlacionadas. Otra
técnica un poco más elegante es utilizar variables instrumentales (ivreg).
Esto lo veremos en la sesión 5 del curso.

Quizás el problema más grave de los tres que estamos tocando, sea el de
especificación o variables relevantes omitidas. La existencia de este proble-
ma causa sesgo en nuestros parámetros y elmina las propiedades asintóticas
(no es consistente) del modelo OLS. La corrección de este problema hace
uso de la teorı́a económica combinada con la intuición del investigador para
seber identificar la forma funcional correcta y/o las variables relevantes que
han sido omitidas. Muchas veces el problema esta relacionado con las re-
stricciones que imponemos de manera implı́cita al plantear la forma fun-
cional del modelo. Por ejemplo, corremos un modelo de salarios como fun-
ción del nivel de educación, la experiencia y la experiencia al cuadrado,
y = α + β1 edu + β2 exp + β3 exp2 + ². Suponga que tomamos como muestra
a todos los asalariados entre 15 y 65 años, estamos imponiendo implı́cita-
mente la restricción de que los retornos a la educación (β1 ) son iguales entre
hombres y mujeres, estratos urbano y rural, sectores económicos, etc. Si la
prueba ovtest nos rechaza la hipótesis nula de no variables omitidas en el
modelo anterior, entoces muy probablemente se deba a que hay diferencias

7
importantes en los retornos a la educación (u otras paramétros) entre las
categorı́as mencionadas. En la práctica siempre hay una disyuntiva entre la
parsimonia y la flexibilidad de un modelo. Lo primero me permite una inter-
pretación clara de cada uno de los parametros y hay un beneficio en grados de
libertad; lo segundo por otro lado, toma en cuenta todas aquellas diferencias
en parametros que se esconderı́an detras de un modelo reducido, es aquı́ en
donde entra la intuición del investigador para encontrar el modelo que mejor
describa los datos.

Opciones: robust, ivreg

6. Prueba de Hipótesis

Una vez resuelto el problema con los supuestos OLS, el segundo paso de-
spués de realizar el análisis de regresión es el de llevar al cabo pruebas de
hipótesis acerca de los parámetros. El comando test nos permite probar no
sólo la significancia estadı́stica de cada parametro sino también la diferencia
con respecto a un valor diferente de cero o cualquier otra expresión numérica
y respecto a una combinación lineal de otros coeficientes. Por ejemplo de-
spués de estimar el modelo que se presenta en el cuadro 2, pordrı́amos estar
interesados en probar que el coeficiente del sector 3 es el doble de la suma
de los coeficientes para los sectores 4 y 5. Esta hipótesis es estimada en Sta-
ta de la siguiente manera: justo despues de estimar el modelo de regresión,
escriba:

Comandos: predict, e(sample)

test Isector 3 = 2*( Isector 4 + Isector 5)

Comandos: test

8
7. Predicción

El últimos de los comandos post-regresión, es predict. Como su nombre lo


indica, este comando se utiliza para crear una nueva variable, llamémosla ŷ
la cual es creada con los valores ajustados β̂x del modelo y = βx + ². El
comando tmbién permite crear variables con errores estandar de la predic-
ción lineal utilizando la opción stdp. Siguiendo con nuestro ejemplo, después
de la regresión escriba predict yhat para crear la variable ŷ con los val-
ores ajustados. La prediccón se realizará para todas las observaciones cuyas
variables independientes no tengan valores en blanco sin importar que no
hayan sido tomados en cuenta al estimar la regresión. Para aclarar, suponga
que los resultados que se presentan en el cuadro 2 sólo toman datos de ar-
eas urbanas; el comando predict creará la variable ŷ para toda la población
(siempre y cuando haya información sobre las variables independientes.) Para
limitar la predicción a la muestra de donde provienen los resultados, utilice
la limitante if e(sample) como se muestra a continuación: predict yhat
if e(sample).

Referencias

[1] Hamilton, L. C. (2004) ‘Statistics with Stata. Updated for version 8’,
Thomson. (Capı́tulos 6, 7 y 9)

[2] Wooldrich, J. M. (2003) ‘Introductory econometrics: A modern ap-


proach, 2e’, Thomson. (Capı́tulos 2, 3, 4 y 8)

Вам также может понравиться