Академический Документы
Профессиональный Документы
Культура Документы
R. E. De Hoyos*
University of Cambridge
28 de febrero de 2005
1. Introducción
1
uno para el comando reg, otro para el prefijo xi, seguido por los diagnósticos
(regdiag), estimaciones con errores estandar robustos (robust), pruebas de
hipótesis (test) y finalmente la predicción del modelo (predict).
2. Regresión
Si, basados en una relación teórica, tenemos elementos para suponer que las
variaciones en y son causadas por las variaciones en x, podemos utilizar el
análsis de regresión para probar esta relación estadı́sticamente. En forma muy
simple, lo que la regresión hace es encontrar los parametros de la ecuación
y = α + βx + ² tal que la sumatoria de errores al cuadrado sea mı́nima (de
ahı́ su nombre OLS.) Esto se realiza en Stata utilizando el comando reg
seguido por y y x en donde x puede tener más de un elemento (es decir se
pueden incluir cuantas variables independientes se quiera—dado un número
finito de grados de libertad.) Por ejemplo si estamos interesados en la relación
ente ingreso y y educacion s escribimos en Stata:
reg y s
Comando: reg
reg y s m
2
datos de la ENIGH se arrojaron los siguientes resultados:
Cuadro 1: regress
Variable Coefficient (Std. Err.)
yschooling 1147.498 (11.927)
mujer -2844.586 (109.824)
Intercept -936.559 (109.701)
En donde I son los indicadores para cada industria. En Stata este modelo se
correrı́a de la siguiente forma:
3
Los resultados son presentados en el siguiente cuadro:
Cuadro 2: xi reg
Variable Coefficient (Std. Err.)
Isector 0 2707.292 (315.385)
Isector 1 3089.960 (299.282)
Isector 2 3658.951 (1029.817)
Isector 3 3570.618 (474.277)
Isector 4 183.165 (377.134)
Isector 5 1419.964 (384.152)
yschooling 1367.352 (21.367)
IsecXyscho 0 -932.026 (37.764)
IsecXyscho 1 -1239.702 (41.611)
IsecXyscho 2 320.377 (102.659)
IsecXyscho 3 -629.909 (59.936)
IsecXyscho 4 120.991 (40.711)
IsecXyscho 5 -532.240 (41.359)
mujer -2927.649 (111.873)
Intercept -1545.552 (240.282)
Opción: xi
4
4. Diagnósticos
Para que los resultados obtenidos por reg sean válidos es necesario que se
cumplan los supuestos clásicos de OLS, es decir, normalidad en los residuales,
hemosedasticidad, no autocorrelación (en el caso de series de tiempo) y no
multicolinealidad entre otros.
5
variación en xi no es explicada por variaciones en las restantes xj por
lo tanto no hay evidencia para afirmar que tenemos un problema de
multicolinealidad.
6
El problema de mutlicolinealidad es más sutil ya que—a diferencia de la
heterosedasticidad—este es un problema de grado. En otras palabras, siem-
pre vamos a observar que dos o más variables independientes estan correla-
cionadas entre si, sin que ello implique, necesariamente, un problema serio.
Hay ciertos sı́ntomas que nos permiten identificar el problema. Uno de ellos y
el más común es que los signos y valores de los parámetros estimados cambian
mucho al añadir o eliminar variables al modelo. Como ya lo vimos, otra for-
ma de identificar el probelma es utilizando el diagnóstico vif. Aún con esta
prueba la decisión de si existe un problema o no es, hasta cierto punto, subje-
tiva ya que no se utiliza un estadı́stico de prueba con un ditribución conocida
para realizar inferencia estadı́stica. Si creemos que hay un problema de mul-
ticolinealidad en nuesto modelo tenemos varias alternativas, lo más sencillo y
obvio es eliminar una (o más) de la variables que estan correlacionadas. Otra
técnica un poco más elegante es utilizar variables instrumentales (ivreg).
Esto lo veremos en la sesión 5 del curso.
Quizás el problema más grave de los tres que estamos tocando, sea el de
especificación o variables relevantes omitidas. La existencia de este proble-
ma causa sesgo en nuestros parámetros y elmina las propiedades asintóticas
(no es consistente) del modelo OLS. La corrección de este problema hace
uso de la teorı́a económica combinada con la intuición del investigador para
seber identificar la forma funcional correcta y/o las variables relevantes que
han sido omitidas. Muchas veces el problema esta relacionado con las re-
stricciones que imponemos de manera implı́cita al plantear la forma fun-
cional del modelo. Por ejemplo, corremos un modelo de salarios como fun-
ción del nivel de educación, la experiencia y la experiencia al cuadrado,
y = α + β1 edu + β2 exp + β3 exp2 + ². Suponga que tomamos como muestra
a todos los asalariados entre 15 y 65 años, estamos imponiendo implı́cita-
mente la restricción de que los retornos a la educación (β1 ) son iguales entre
hombres y mujeres, estratos urbano y rural, sectores económicos, etc. Si la
prueba ovtest nos rechaza la hipótesis nula de no variables omitidas en el
modelo anterior, entoces muy probablemente se deba a que hay diferencias
7
importantes en los retornos a la educación (u otras paramétros) entre las
categorı́as mencionadas. En la práctica siempre hay una disyuntiva entre la
parsimonia y la flexibilidad de un modelo. Lo primero me permite una inter-
pretación clara de cada uno de los parametros y hay un beneficio en grados de
libertad; lo segundo por otro lado, toma en cuenta todas aquellas diferencias
en parametros que se esconderı́an detras de un modelo reducido, es aquı́ en
donde entra la intuición del investigador para encontrar el modelo que mejor
describa los datos.
6. Prueba de Hipótesis
Una vez resuelto el problema con los supuestos OLS, el segundo paso de-
spués de realizar el análisis de regresión es el de llevar al cabo pruebas de
hipótesis acerca de los parámetros. El comando test nos permite probar no
sólo la significancia estadı́stica de cada parametro sino también la diferencia
con respecto a un valor diferente de cero o cualquier otra expresión numérica
y respecto a una combinación lineal de otros coeficientes. Por ejemplo de-
spués de estimar el modelo que se presenta en el cuadro 2, pordrı́amos estar
interesados en probar que el coeficiente del sector 3 es el doble de la suma
de los coeficientes para los sectores 4 y 5. Esta hipótesis es estimada en Sta-
ta de la siguiente manera: justo despues de estimar el modelo de regresión,
escriba:
Comandos: test
8
7. Predicción
Referencias
[1] Hamilton, L. C. (2004) ‘Statistics with Stata. Updated for version 8’,
Thomson. (Capı́tulos 6, 7 y 9)