Академический Документы
Профессиональный Документы
Культура Документы
Facultad de Ingeniería
Escuela de Estadística
Asignatura: Econometría
Universidad del Valle
Segundo Semestre 2017
Clase No 2
Introducción a la Regresión Lineal Simple
Es una de las técnicas más utilizadas en economía para investigar y modelar la
relación entre variables económicas, financieras, entre otras
Yi 0 1 X i i
Se denota a:
La media condicional
100
de E (Y / X i ) f ( X i )
es una función de Xi,
90
donde Xi es un valor
dado de X.
80
70
60
E (Y / X i ) f ( X i )
E (Y / X i ) 0 1 X i
Significado de término lineal
Linealidad en las variables
E (Y / X i ) 0 1 X i Es lineal en Xi
E (Y / X i ) 0 1 X i2
Es un componente aleatorio. Es
Yi E (Y / X i ) i un sustituto para todas aquellas
variables que fueron omitidas del
modelo, pero que de manera
conjunta afectan a la variable
Es la media condicional del gasto dependiente.
de consumo de todos los hogares
con el mismo nivel de ingresos
n
Minimizar ( ˆ0 , ˆ1 ) (Yi Yˆi ) 2
i 1
Método de Mínimos Cuadrados Ordinarios (MCO)
n
SCE (Yi Yˆi ) 2
i 1
n
SCE (Yi ( ˆ0 ˆ1 X i )) 2
i 1
n
SCE (Yi ˆ0 ˆ1 X i ) 2
i 1
Si la SCE tiene un mínimo, ocurrirá para valores que satisfagan las siguientes
ecuaciones:
SCE SCE
0 0
ˆ0 1
ˆ
Tomando las derivadas parciales de la suma de cuadrados de los residuales
con respecto a ˆ0 y ˆ1 e igualando a cero se obtiene:
Método de Mínimos Cuadrados Ordinarios (MCO)
n
(Yi ˆ0 ˆ1 X i ) 2 n
SCE
i 1 2(Y ˆ ˆ X )(1) 0
ˆ0 ˆ0
i 0 1 i
i 1
n n n
2 (Yi ˆ0 ˆ1 X i ) 0 Y
i 1
i nˆ0 ˆ1 X i
i 1
(1)
i 1
n
(Yi ˆ0 ˆ1 X i ) 2 n
SCE
i 1 2(Y ˆ ˆ X )( X ) 0
ˆ1 ˆ1
i 0 1 i i
i 1
n n n n
2 (Yi X i ˆ0 X i ˆ1 X ) 0i
2
i i 0 i 1 i
Y X ˆ X
ˆ X 2
(2)
i 1 i 1 i 1 i 1
Y nˆ0 ˆ1 X i
n n
i 1
i
i 1
Y ˆ X
i 1
i 1
i 1
i nˆ0
n
1
Y
n
Sabemos que: Y i Y i nY
n i 1 i 1
De esta manera:
i i 0 i 1 i
Y X
i 1
ˆ X
ˆ X 2
i 1 i 1
; ˆ0 Y ˆ1 X
n n n
i i
Y X
i 1
(Y
ˆ1 X ) i 1 i
X
ˆ X 2
i 1 i 1
n n n n
Y X
i 1
i i (Y ˆ1 X )nX ˆ1 X i2
i 1
Y X
i 1
i i Y nX ˆ1nX 2 ˆ1 X i2
i 1
n
n
2
i 1
Y X
i i n Y X ̂1
n X 2
i 1
X i
n
n
2
i 1
Yi X i nY X 1 X i nX
ˆ
i 1
2
n
Y X i i nY X
Cov ( x, y ) S xy
ˆ1 i 1
n
2
2
i
Sx Sx
X 2
n X 2
i 1
Interpretación de los estimadores de MCO
Interpretación de la constante del modelo:
Si la variable exógena permanece constante o es igual a cero, se espera que
la variable endógena tome el valor de ˆ0 unidades.
En caso que la pendiente sea igual a cero, no existe una relación lineal
entre la variable exógena y endógena del modelo econométrico.
Ejemplo: Teoría de Keynes
La interpretación de los parámetros estimados para el ejemplo entre el
gasto de consumo y el ingreso de los hogares colombianos es:
Por cada mil millones de pesos que aumente el ingreso de los hogares
colombianos en un determinado trimestre, se espera que el gasto
promedio de consumo aumente $0,80 (mil millones) en el mismo
trimestre.
Estimación de los parámetros en forma matricial
La ecuación en forma matricial viene dada por: Y X
donde: Y1 1
1 X 1
Y2 1 X2 0 2
Y X
1
Y 1 X
n n n
Yˆ1 1 X 1
Yˆ2 1 X 2 ˆ0
Yˆ X ˆ
ˆ1
Yˆ 1 X
n n
Estimación de los parámetros en forma matricial
La Suma de Cuadrados de los Errores viene dada por:
SCE Y T Y 2 ˆ T X T Y ˆ T X T Xˆ
Y T Xˆ ˆ T X T Y
Para hallar el mínimo de SCE respecto a los parámetros, debemos igual el
vector de primeras derivadas al vector nulo, es decir:
( SCE) ( T )
2 X T Y 2 X T Xˆ 0
Estimación de los parámetros en forma matricial
2 X T Y 2 X T Xˆ 0
ˆ ( X T X ) 1 X T Y
Modelo Ingenuo: La variable endógena solo está en función de la
variable dependiente: Y 0
Matricialmente se tiene: Y X
Y1 1 1
Y2 1 2
Y X (0 )
Y 1
n n
Estimación del Modelo Ingenuo y Modelo que pasa
por el origen
La estimación de los parámetros es:
1
1 Y1
1 Y2 n
ˆ ( X X ) X Y (1 1 1) (1 1 1) (n) * Y i Y
T 1 T 1
i 1
1 Y
n
Y1 X1 1
Y2 X2 2
Y X ( 1 )
Y X
n n n
Modelo que pasa por el origen
La estimación de los parámetros es:
1
X 1 Y1
X 2 Y2
̂ ( X T X ) 1 X T Y ( X 1 X2 X n ) (X 1 X2 X n )
X Y
n n
n
n
1 n X i Yi
̂ X i2 X i Yi i 1
n
i 1 i 1
X
i 1
i
2
Y X Yi 0 1 X i i
(Yi Y ) 0 1 ( X i X ) i
Yi * 0 1 ( X i* ) i Yi * Yi Y ; X i* X i X
Matricialmente se tiene:
Y1 Y 1 X 1 X 1
Y2 Y 1 X 2 X 0 2
Y
*
X
*
1
Y Y 1 X X
n n n
Modelo Centrado
ˆ ( X T X ) 1 X T Y
1
1 X 1 X Y1 Y
1 1 1 1 X 2 X 1 1 1 2 Y Y
ˆ
X 1 X X2 X Xn X X1 X X 2 X X n X
1 X n X Y Y
n
1
n
(Yi Y )
n
n ( X i X ) i 1
̂ n i 1
n n
(X X ) ( X i X )2
i X i X )(Yi Y )
i 1 i 1 i 1
(X
i 1
i X ) X i X nX nX 0
i 1 i 1
Modelo Centrado
n 0
1
0
n
̂ 0 2
n
( X i X )
i X X )(Yi Y )
i 1
i 1
n 0
̂
1
* i 1
( X i X ) 2
0 n
det( X X ) i
T
( X X )(Y Y )
n i
0 i 1
n
det( X X ) ( X i X ) 2 * n
T
i 1
n
Sabemos que: i
( X
i 1
X ) 2
( n 1) S 2
x
det( X T X ) (n 1) S x2 n
Modelo Centrado
n 0
̂
1
* i 1
( X i X ) 2
0 n
(n 1) S x n
2
0
n
i 1
( X i X )(Yi Y )
0
1
̂ * n
(n 1) S x n n ( X i X )(Yi Y )
2
i 1
0 0
n n 0
n ( X i X )(Yi Y ) ( X i X )(Yi Y ) Cov ( x, y )
ˆ
i 1 i 1
2
(n 1) S x n
2 (n 1) S x
2 S x
Además, la desviación estándar o típica del modelo no cambia al igual que sus
medidas de bondad de ajuste.
Paso Previo al Análisis de Regresión Lineal
600
Variable dependiente
500
El comportamiento
de las variables
400
sugiere una
relación de línea
Turbiedad
300
recta.
200
100
0
0 50 100 150 200 250 300 350
Variable independiente
Color
Paso Previo al Análisis de Regresión Lineal
Definición: Sean X y Y variables aleatorias con varianzas x2 , y2 y
covarianza C ov( X , Y ) xy2
C ov X , Y C ov X , Y
2
x
2
y
x y
donde:
N
1
(X
N
1
Cov( X , Y ) ( X i X )(Yi Y )
2 2
; X i X )
N i 1
N i 1
N
1
2
Y
N
i Y
(Y
i 1
) 2
Coeficiente de Correlación Lineal de Pearson
El coeficiente de correlación toma valores entre -1 y 1.
1 1
Si el coeficiente es aproximadamente cero no hay relación entre las
variables.
x y nx y 1 n
; S x2
i i 2
Cov ( x, y ) ( x x )
r i 1
i
SxS y n 2
n
2
n 1 i 1
( xi x ) ( yi y )
i 1 i 1 1 n
S
2
y i
n 1 i 1
( y y ) 2
1 n
Cov ( x, y ) ( xi x )( yi y )
n 1 i 1
Relación entre el coeficiente de correlación lineal y
pendiente del modelo de regresión
Cov ( x, y ) S xy
Sabemos que: r
SxS y SxS y
Cov ( x, y ) S xy Sy S xy Sy Sy
1
ˆ * * r*
S x2 Sx Sx S y Sx S y Sx Sx
R
2 i
( y y ) 2
Suma de Cuadrados de la Regresion
( yi y ) 2
Suma de Cuadrados Total
Tabla de Análisis de Varianza (ANOVA)
Fuente de Grados de Suma de Cuadrados
Variación libertad Cuadrados (SC) Medios (CM) FCalculado
Regresión 1 SCregresion SCregresion / 1 CMregresion / CMerror
i 1 i 1 i 1
σˆ 2
SCE/(n- 2 )
SCRe gresion ( yi y ) 2
σˆ
2
SCE/(n-k-1 )
donde SCTotal ( yi y ) 2
n
k Numero de
SCerror SCTotal SCRe gresion yi yˆ i 2 variables exógenas
i 1
Prueba de Hipótesis para el coeficiente de
correlación lineal
a ) H 0 : 0 vs H a : 0
b) H 0 : 0 vs H a : 0
c) H 0 : 0 vs H a : 0
H 0 : 0 1 0 v.s H a : 0 1
El estadístico de prueba es:
CM Re gresion
FCalculado
CM Error
H o : i 0 vs. H a : i 0
Pr βi -tα/ 2 ;n 2*ee( βi ) i βi tα/ 2 ;n 2*ee( βi ) 1
El intervalo es:
IC ( βi ) (1α )% βi -tα/ 2 ;n 2*ee( βi ); βi tα/ 2 ;n 2*ee( βi )
Sí el intervalo de confianza incluye el valor cero, el parámetro no es
significativo en la estimación de la variable endógena.
Propiedades descriptivas en la regresión lineal
simple
1. Supuesto Inicial: Siempre que incluyamos el término constante en la
ecuación de regresión, podemos suponer que la sumatoria de los
residuales estimados del modelo es igual a cero, es decir:
n
ˆ
i 1
i 0
ˆ Y ˆ ˆ X Y nˆ
i 1
i
i 1
i
i 1
0
i 1
1 i
i 1
i 0 ˆ1 X i (*)
i 1
Propiedades descriptivas en la regresión lineal
simple
Por otra parte, la primera ecuación del sistema de ecuaciones normales es:
n n
Y
i 1
i nˆ0 ˆ1 X i
i 1
(1)
ˆ
i 1
i nˆ0 ˆ1 X i nˆ0 ˆ1 X i 0
i 1 i 1
ˆ X
i 1
i i 0
Sabemos que
ˆi Yi Yˆi Yi ( ˆ0 ˆ1 X i ) Yi ˆ0 ˆ1 X i
Reemplazando en la sumatoria se tiene:
n n n
ˆ X (Y ˆ
i 1
i i
i 1
i 0 ˆ1 X i ) X i (Yi X i ˆ0 X i ˆ1 X i X i )
i 1
n n n n
i i i i 0 i 1 i (**)
ˆ X
i 1
Y X
ˆ X
ˆ
i 1
X 2
i 1 i 1
Propiedades descriptivas en la regresión lineal
simple
Por otra parte, la segunda ecuación del sistema de ecuaciones normales es:
n n n
i i 0 i 1 i
Y X
i 1
ˆ X
ˆ X
i 1
2
i 1
(2)
i i 0 i 1
ˆ X
i 1
ˆ X
ˆ X
ˆ 0
i 1
X i
ˆ1 X i
2
i 1
i
2
i 1 i 1
n
ˆ X
i 1
i i 0
i
( y
i 1
y ) i
( ˆ
2
y y )
i 1
i i
( y ˆ
y ) 2 2
i 1
Supuestos de los Residuales del Modelo de
Regresión
Supuesto 1: El valor esperado o la esperanza matemática de los residuales
es igual a cero, es decir:
E ( i ) E ( i / X i ) 0
Var( i / X i ) 2
En otros términos los residuales son homocedasticos o presentan
varianza constante.
Supuestos de los Residuales del Modelo de
Regresión
El supuesto de homogeneidad de varianza se puede verificar a través de
herramientas gráficas o pruebas formales. Se gráfica los residuales
estimados en el eje (y) y en el eje (x) se consideran los valores estimados de
la variable endógena.
Gráficamente se puede
concluir que los residuales
presentan varianza constante
Supuestos de los Residuales del Modelo de
Regresión
Gráficamente se puede
concluir que los
residuales no presentan
varianza constante.
Supuestos de los Residuales del Modelo de
Regresión
Algunas pruebas formales para validar el supuesto son White, Breusch-
Pagan y Levene.
Cov( i , j / X i , X j ) 0
E ( ˆ ) E ( I ) E (( X T X ) 1 X T ) ( X T X ) 1 X T E ( )
E ( ˆ )
Óptimo: Es de mínima varianza dentro de la familia de estimadores
lineales e insesgados. La matriz de varianzas y covarianzas es:
Por definición: Var ( X ) E (( X E ( X ))( X E ( X ))T )
Var ( ˆ ) E ((( X T X ) 1 X T X ( X T X ) 1 X T ) *
(( X T X ) 1 X T X ( X T X ) 1 X T )T )
Var ( ˆ ) E (( ( X T X ) 1 X T ) * ( ( X T X ) 1 X T )T )
Var ( ˆ ) E ((( X T X ) 1 X T ) * (( X T X ) 1 X T )T )
Var ( ˆ ) E (( X T X ) 1 X T T X ( X T X ) 1 )
límitenVar ( ˆ ) 0
Además se debe probar que el límite del valor esperado del estimador
cuando n tiende a infinito es igual al parámetro. Es decir:
límiten E ( ˆ )
Ejemplo: Teoría de Keynes
Retomando el ejemplo visto en la primera clase, la estimación del modelo
de regresión lineal por el método de MCO(*) viene dada por:
H 0 : 0,95 vs H a : 0,95
r 0 0,9989 0,95
tCal 8,46
1 r 2
1 0,9978
n2 68 2
H 0 : 0 1 0 v.s H a : 0 1
Se aprecia que el valor p (0,000) es menor que un nivel de significancia
del 5%, se puede concluir que al menos uno de los dos parámetros es
significativo en la estimación del gasto de consumo trimestral de los
hogares colombianos.
Ejemplo: Teoría de Keynes
d) Propensión marginal a consumir es superior a 0,78.
H 0 : 1 0,78 vs H a : 1 0,78
ˆ1 1 0,8003 0,78
tCalculado 4,413
Var ( 1 ) 0,0046