Regresion

Introducción a Stata
Clase 3: Análisis de Regresión Lineal
R. E. De Hoyos*
University of Cambridge
28 de febrero de 2005
1. Introducción
En esta clase aprenderemos a realizar regresiones en Stata incluyendo vari-

ables dummy e interacciones como determinantes. Veremos las diferentes
hipótesis que podemos evaluar justo después de haber corrido el modelo.
Otra parte fundamental del análisis de regresión es obtener los diagnósticos
necesarios para probar si el modelo cumple con los supuestos clásicos de Mı́ni-
mos Cuadrados Ordinarios (OLS, por sus siglas en inglés.) El que se rompa
con uno o más de los supuestos de OLS tiene diferentes repercusiones sobre
el valor de los parametros en algunos casos o sobre la inferencia estadı́stica
en otros.
En esta documento, al contrario de los dos anteriores, casi no se presen-

tan ejemplos, concentrándonos más en los comandos que podemos utilizar
en Stata para realizar las distintas tareas dejando para el ejercicio la im-
plementación prática. El documento se divide en cinco aparatados dedicando
*
red29@cam.ac.uk
1
uno para el comando reg, otro para el prefijo xi, seguido por los diagnósticos
(regdiag), estimaciones con errores estandar robustos (robust), pruebas de
hipótesis (test) y finalmente la predicción del modelo (predict).
2. Regresión
Si, basados en una relación teórica, tenemos elementos para suponer que las
variaciones en y son causadas por las variaciones en x, podemos utilizar el
análsis de regresión para probar esta relación estadı́sticamente. En forma muy
simple, lo que la regresión hace es encontrar los parametros de la ecuación
y = α + βx + ² tal que la sumatoria de errores al cuadrado sea mı́nima (de
ahı́ su nombre OLS.) Esto se realiza en Stata utilizando el comando reg
seguido por y y x en donde x puede tener más de un elemento (es decir se
pueden incluir cuantas variables independientes se quiera—dado un número
finito de grados de libertad.) Por ejemplo si estamos interesados en la relación
ente ingreso y y educacion s escribimos en Stata:
reg y s
Comando: reg
3. Variables Dummy y el Prefijo xi
El modelo anterior es el más sencillo que podemos estimar, lo más probable

es que no tome en cuenta muchas otras variables que estan determinando el
ingreso. Por ejemplo si pensamos que el ingreso de los hombres es mayor al
percibido por las mujeres entonces podemos correr el siguiente modelo:
reg y s m
En donde m es una variable indicador (dummy) la cual toma el valor de 1

si la observación corresponde a una mujer y cero de lo contrario. Utilizando
2
datos de la ENIGH se arrojaron los siguientes resultados:
Cuadro 1: regress
Variable Coefficient (Std. Err.)
yschooling 1147.498 (11.927)
mujer -2844.586 (109.824)
Intercept -936.559 (109.701)
En términos de nuestro modelo, y = α + βs + δm + ², si δ es diferente de

cero (lo que es cierto en nuestro ejemplo) entonces quiere decir que hay evi-
dencia suficiente para afirmar que los ingresos de las mujeres difieren del de
los hombres controlando por el nivel de educación. Según nuestros resulta-
dos un año extra de educación formal representa un incremento de $1,147
pesos en el salario trimestral y las mujeres ganan, en promedio, $2,844 pesos
menos que los hombres. Ahora suponga que se introduce una variable discre-
ta (llamémosla sector) tomando valores del 0 al 6 indicando cada una de las 7
industrian en la muestra. A partir de sector se podrı́an contruir 7 variables in-
dicadores tomando cada una el valor de 1 cuando la observación corresponde
a un trabajador de determinada industria y cero de otra forma. Sospechamos
que el ingreso varı́a entre industrias y no sólo eso sino que el retorno a la
educación (medido por β en nuestro modelo) también toma valores diferentes
dependiendo de la industria. Para probar esto podemos generar variables de
interacción entre x y los 6 diferentes indicadores de industria o bien utilizar
el prefijo xi. El modelo que estimaremos es el siguiente:
y = α + βs + δm + φ0 I0 + . . . + φ5 I5 + γ0 (s)I0 + . . . + γ5 (s)I5 + ² (1)
En donde I son los indicadores para cada industria. En Stata este modelo se
correrı́a de la siguiente forma:
xi: reg y m i.sector*s
3
Los resultados son presentados en el siguiente cuadro:
Cuadro 2: xi reg
Variable Coefficient (Std. Err.)
Isector 0 2707.292 (315.385)
Isector 1 3089.960 (299.282)
Isector 2 3658.951 (1029.817)
Isector 3 3570.618 (474.277)
Isector 4 183.165 (377.134)
Isector 5 1419.964 (384.152)
yschooling 1367.352 (21.367)
IsecXyscho 0 -932.026 (37.764)
IsecXyscho 1 -1239.702 (41.611)
IsecXyscho 2 320.377 (102.659)
IsecXyscho 3 -629.909 (59.936)
IsecXyscho 4 120.991 (40.711)
IsecXyscho 5 -532.240 (41.359)
mujer -2927.649 (111.873)
Intercept -1545.552 (240.282)
Las primeras 6 varaibles en el cuadro 2 (con el prefijo I) miden el impacto

que tienen las diferentes industrias (o sectores) sobre el intercepto α, mientras
que las las que le siguen a la variable “yschooling” miden el impacto sobre
la pendiente β. Si sólo nos interesara el impacto sobre la pendiente entonces
el modelo se hubiera estimado incluyendo i.sector sin el asterisco seguido
por la variable educación.
Opción: xi
4
4. Diagnósticos
Para que los resultados obtenidos por reg sean válidos es necesario que se
cumplan los supuestos clásicos de OLS, es decir, normalidad en los residuales,
hemosedasticidad, no autocorrelación (en el caso de series de tiempo) y no
multicolinealidad entre otros.
Los diagnósticos de la regresión son obtenidos justo después de la prueba es-

cribiendo cualquiera de los siguientes comandos: hettest para heterosedas-
ticidad, vif para multicolinealidad y ovtest para variables omitidas y es-
pecificación incorrecta.
1. hettest Esta prueba utiliza los residuales obtenidos de la regresión

original, los eleva al cuadrado y posterirormente los corre contra las
variables independientes. De este segundo modelo se obtiene un es-
tadı́stico de pueba con distribución F. Esto es lo que se conoce como
la prueba Breusch-Pagan (1980).
2. ovtest Realiza lo prueba RESET, Regression Specification Error Test,

[Ramsey 1969]. En esta prueba se agregan polinomios de valores ajus-
tados para y. Suponga el modelo y = α + βx + ² de aquı́ se obtienen
los valores estimados ŷ, se crean las variables de orden dos o mayor
ŷ 2 , ŷ 3 , . . .. Se corre el modelo alternativo: y = α + βx + ŷ 2 + ŷ 3 + . . . + ²
y por último se prueba el modelo alternativo contra el original utilizan-
do un estadistico F. Si el primero es preferido al segundo, entonces
tenemos un problema de especificación.
3. vif Esta prueba presenta la proporcion de la varianza total de cada

una las variables independientes que no es explicada por las variables
independientes restantes (Variance Inflation Factor.) El procedimiento
consiste en crear regresiones del tipo xi = α + βxj + ε, i 6= j; j =
1, 2...J en donde xi y xj son regresores en el modelo original. De los
resultados de esta regresión, se calcula el estadı́tico R2 , el valor vif es
igual a (1 − R2 ). Valores altos de vif nos indican que gran parte de la
5
variación en xi no es explicada por variaciones en las restantes xj por
lo tanto no hay evidencia para afirmar que tenemos un problema de
multicolinealidad.
Comandos: hettest, ovtest, vif
5. Violación de los Supuestos OLS
Si alguno de los diagnosticos nos indican la presencia de un problema con

los supuestos OLS, hay varias formas de lidiar con el problema. Aquı́ pre-
sentamos las técnicas más comunes. El problema de heterosedasticidad, se
da cuando la varianza de los errores no es constante, por lo tanto los inter-
valos de confianza que utilizamos para probar hipótesis (compuestos en base
a la varianza del error) tampoco van a ser constantes impidiendo con ello
toda inferencia estadı́stica. Corregir este problema es relativamente sencil-
lo, en Stata se utiliza la opción robust al final de la ecuación de regresión
para que Stata calcule errores estandar robustos (es decir corrigiendo por
heterosedasticidad.) La técnica que se utiliza es la conocida como Huber-
White o sandwich. Este procedimiento permite corregir para heterosedas-
ticidad de cualquier tipo sin tener que especificar la forma fucnional de la
misma. Normalmente la varianza estimada de los parametros está definida
como V ˆar(β̂) = σ 2 /SST 2 , cuando la opción robust es utilizada la varianza
es reeplazada por la siguiente expresión:
Pn 2 2
r̂ij ûij
V ˆar(β̂) = i=1 2
SSRj
En donde rij son los residuales de la regresión de xi contra el resto de las

variables independientes; uij son los residuales de la ecuación original y SST 2
es la sumatoria de errores al cuadrado. La flexibilidad de la expresión ante-
rior está contenida en el término û2ij el cual, evidentemente, varı́a para cada
observación ajustando ası́ cualquier cambio en varianza.
6
El problema de mutlicolinealidad es más sutil ya que—a diferencia de la
heterosedasticidad—este es un problema de grado. En otras palabras, siem-
pre vamos a observar que dos o más variables independientes estan correla-
cionadas entre si, sin que ello implique, necesariamente, un problema serio.
Hay ciertos sı́ntomas que nos permiten identificar el problema. Uno de ellos y
el más común es que los signos y valores de los parámetros estimados cambian
mucho al añadir o eliminar variables al modelo. Como ya lo vimos, otra for-
ma de identificar el probelma es utilizando el diagnóstico vif. Aún con esta
prueba la decisión de si existe un problema o no es, hasta cierto punto, subje-
tiva ya que no se utiliza un estadı́stico de prueba con un ditribución conocida
para realizar inferencia estadı́stica. Si creemos que hay un problema de mul-
ticolinealidad en nuesto modelo tenemos varias alternativas, lo más sencillo y
obvio es eliminar una (o más) de la variables que estan correlacionadas. Otra
técnica un poco más elegante es utilizar variables instrumentales (ivreg).
Esto lo veremos en la sesión 5 del curso.
Quizás el problema más grave de los tres que estamos tocando, sea el de
especificación o variables relevantes omitidas. La existencia de este proble-
ma causa sesgo en nuestros parámetros y elmina las propiedades asintóticas
(no es consistente) del modelo OLS. La corrección de este problema hace
uso de la teorı́a económica combinada con la intuición del investigador para
seber identificar la forma funcional correcta y/o las variables relevantes que
han sido omitidas. Muchas veces el problema esta relacionado con las re-
stricciones que imponemos de manera implı́cita al plantear la forma fun-
cional del modelo. Por ejemplo, corremos un modelo de salarios como fun-
ción del nivel de educación, la experiencia y la experiencia al cuadrado,
y = α + β1 edu + β2 exp + β3 exp2 + ². Suponga que tomamos como muestra
a todos los asalariados entre 15 y 65 años, estamos imponiendo implı́cita-
mente la restricción de que los retornos a la educación (β1 ) son iguales entre
hombres y mujeres, estratos urbano y rural, sectores económicos, etc. Si la
prueba ovtest nos rechaza la hipótesis nula de no variables omitidas en el
modelo anterior, entoces muy probablemente se deba a que hay diferencias
7
importantes en los retornos a la educación (u otras paramétros) entre las
categorı́as mencionadas. En la práctica siempre hay una disyuntiva entre la
parsimonia y la flexibilidad de un modelo. Lo primero me permite una inter-
pretación clara de cada uno de los parametros y hay un beneficio en grados de
libertad; lo segundo por otro lado, toma en cuenta todas aquellas diferencias
en parametros que se esconderı́an detras de un modelo reducido, es aquı́ en
donde entra la intuición del investigador para encontrar el modelo que mejor
describa los datos.
Opciones: robust, ivreg
6. Prueba de Hipótesis
Una vez resuelto el problema con los supuestos OLS, el segundo paso de-
spués de realizar el análisis de regresión es el de llevar al cabo pruebas de
hipótesis acerca de los parámetros. El comando test nos permite probar no
sólo la significancia estadı́stica de cada parametro sino también la diferencia
con respecto a un valor diferente de cero o cualquier otra expresión numérica
y respecto a una combinación lineal de otros coeficientes. Por ejemplo de-
spués de estimar el modelo que se presenta en el cuadro 2, pordrı́amos estar
interesados en probar que el coeficiente del sector 3 es el doble de la suma
de los coeficientes para los sectores 4 y 5. Esta hipótesis es estimada en Sta-
ta de la siguiente manera: justo despues de estimar el modelo de regresión,
escriba:
Comandos: predict, e(sample)
test Isector 3 = 2*( Isector 4 + Isector 5)
Comandos: test
8
7. Predicción
El últimos de los comandos post-regresión, es predict. Como su nombre lo

indica, este comando se utiliza para crear una nueva variable, llamémosla ŷ
la cual es creada con los valores ajustados β̂x del modelo y = βx + ². El
comando tmbién permite crear variables con errores estandar de la predic-
ción lineal utilizando la opción stdp. Siguiendo con nuestro ejemplo, después
de la regresión escriba predict yhat para crear la variable ŷ con los val-
ores ajustados. La prediccón se realizará para todas las observaciones cuyas
variables independientes no tengan valores en blanco sin importar que no
hayan sido tomados en cuenta al estimar la regresión. Para aclarar, suponga
que los resultados que se presentan en el cuadro 2 sólo toman datos de ar-
eas urbanas; el comando predict creará la variable ŷ para toda la población
(siempre y cuando haya información sobre las variables independientes.) Para
limitar la predicción a la muestra de donde provienen los resultados, utilice
la limitante if e(sample) como se muestra a continuación: predict yhat
if e(sample).
Referencias
[1] Hamilton, L. C. (2004) ‘Statistics with Stata. Updated for version 8’,
Thomson. (Capı́tulos 6, 7 y 9)
[2] Wooldrich, J. M. (2003) ‘Introductory econometrics: A modern ap-

proach, 2e’, Thomson. (Capı́tulos 2, 3, 4 y 8)

Regresion

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Regresion

Загружено:

Авторское право:

Доступные форматы

Introducción a Stata

Clase 3: Análisis de Regresión Lineal

En esta clase aprenderemos a realizar regresiones en Stata incluyendo vari-

En esta documento, al contrario de los dos anteriores, casi no se presen-

3. Variables Dummy y el Prefijo xi

El modelo anterior es el más sencillo que podemos estimar, lo más probable

En donde m es una variable indicador (dummy) la cual toma el valor de 1

En términos de nuestro modelo, y = α + βs + δm + ², si δ es diferente de

y = α + βs + δm + φ0 I0 + . . . + φ5 I5 + γ0 (s)I0 + . . . + γ5 (s)I5 + ² (1)

xi: reg y m i.sector*s

Las primeras 6 varaibles en el cuadro 2 (con el prefijo I) miden el impacto

Los diagnósticos de la regresión son obtenidos justo después de la prueba es-

1. hettest Esta prueba utiliza los residuales obtenidos de la regresión

2. ovtest Realiza lo prueba RESET, Regression Specification Error Test,

3. vif Esta prueba presenta la proporcion de la varianza total de cada

Comandos: hettest, ovtest, vif

5. Violación de los Supuestos OLS

Si alguno de los diagnosticos nos indican la presencia de un problema con

En donde rij son los residuales de la regresión de xi contra el resto de las

Opciones: robust, ivreg

Comandos: predict, e(sample)

test Isector 3 = 2*( Isector 4 + Isector 5)

El últimos de los comandos post-regresión, es predict. Como su nombre lo

[2] Wooldrich, J. M. (2003) ‘Introductory econometrics: A modern ap-

Вам также может понравиться