Вы находитесь на странице: 1из 41

Regresión lineal simple

Lunes 8 de octubre

Carmen Le Foulon

Análisis de Datos Polı́ticos - ICP 0502


Hoy veremos

1. Varios

2. Métodos de Mı́nimos Cuadrados Ordinarios

3. Supuestos modelo clásico de regresión

1
Varios
Reprogramación

• Se ha ajustado los contenidos de las clases siguientes, por favor


revisar programa actualizado en Webcursos.
• Fecha entrega tareas se mantiene.
• Fecha controles se mantiene, se ajustará el contenido.
• Por lo tanto: Tarea 3 está disponible hoy en Webcursos, se debe
entregar miércoles 17 de las 15:30hrs. Apenas todos los grupos
entreguen la tarea, se subirá la pauta.
• Miércoles 10 se subirá guı́a de ejercicios para control 3.

2
Lo que veremos el resto del semestre

• Determinar el efecto de variables explicativas en una variable


cuantitativa a explicar.
• En la terminologı́a tradicional: explicar una variable dependiente por
medio de variables independientes.
• En particular, vamos a decir que una variable explicada (Y) es
función de una o más variables explicativas, (Xs).
• En la clase del 26 de septiembre, iniciamos el estudio de regresión
lineal.

3
Métodos de Mı́nimos Cuadrados
Ordinarios
¿Cuál es la relación entre mortalidad infantil y
libertad de expresión?

América Latina y el Caribe (2012)

4
Buscamos encontrar una recta que explique la relación

Tenemos muchas alternativas, cómo elegimos la ”mejor”

5
Buscamos encontrar una recta que explique la relación

• Definimos como mejor aquella que pasa más cerca de todos los
puntos
• ¿Cómo definimos cerca?
• Diferencia entre el valor predicho por la recta y el valor observado

6
Residuo: diferencia entre el predicho y observado

7
Método para encontrar la mejor recta

• La mejor recta es aquella que minimiza la suma de los residuos, AL


CUADRADO
• ¿Qué implica al cuadrado?
• Es una suma: al cuadrado es siempre positivo
• Mayor peso a las observaciones que éstan más lejos

8
Método mı́nimos cuadrados ordinarios

Mejor recta: aquella que minimiza la suma de los residuos al cuadrado


n
X n
X
2
SRC = (yi − ŷi ) = (yi − (a + bxi ))2
i=1 i=1

• Buscamos encontrar a y b que minimicen la SRC.


• Para ello,resolvemos para encontrar los valores de a y b que:
n
∂(SRC ) X
CPOa : = −2 (yi − a − bxi ) = 0
∂a
i=1
n
∂(SRC ) X
CPOb : = −2 −xi ∗ (yi − a − bxi ) = 0
∂b
i=1

9
Método mı́nimos cuadrados ordinarios

Resolviendo para a y b, encontramos a y b (en función de los datos de la


muestra) que minimizan SRC:

a = ȳ − bx̄

Pn
(x − x̄)(yi − ȳ )
b= Pn i
i=1
2
i=1 (xi − x̄)

10
MCO: Propiedades algebraicas

• Se derivan del método utilizado.


• Por lo tanto, se cumplen en cualquier muestra.
• Son las propiedades algebraicas:

Por CPOa : ȳ = a + bx̄


Pn
Por CPOa : i=1 ri =0
Pn
Por CPOb : i=1 xi ∗ ri = 0

11
Volviendo al ejemplo de la clase anterior

Pn
(x − x̄)(yi − ȳ ) 37
b= Pn i
i=1
2
= = 1,383
i=1 (xi − x̄) 26,75

a = ȳ − bx̄ = 23 − 1,383 ∗ 9,25 = 10,205

12
Bondad de ajuste

• Número que resume cuán bien se ajusta el modelo (la linea de la


regresión) a nuestros datos.
• R 2 o R-cuadrado - llamado coeficiente determinación - entrega el
porcentaje de la varianza muestral de Y que es explicado por el
modelo.
• R 2 está siempre entre 0 y 1.
• Entre mayor el R 2 mayor porcentaje de la varianza muestral de Y es
explicado por el modelo.

13
Bondad de ajuste

Definimos:
Pn
Suma Cuadrados Totales: SCT = i=1 (yi − ȳ )2
Pn
Suma Cuadrados Explicados: SCE = i=1 (ŷi − ȳ )2
Pn
Suma Cuadrados Residuales: SCR = i=1 (ŷi − yi )2

Por lo tanto:
SCE SCR
R2 = =1−
SCT SCT

14
Bondad de ajuste

Var (µ | x) = σ 2 , R 2 = ,60 Var (µ | x) = 2σ 2 . R 2 = ,14

15
Supuestos modelo clásico de
regresión
Explicar relación variables cuantitativas en la población

• Buscamos inferir del comportamiento de nuestra muestra, el


comportamiento de la población.
• Buscamos estimar una función poblacional a través de nuestra
muestra de datos
• Para ello, debemos definir el modelo probabilı́stico y muestral.
Debemos realizar una serie de supuestos.

16
Función poblacional

Vamos a suponer que existe una relación entre Y y X , de la siguiente


forma:
yi = β0 + β1 ∗ xi + µi

17
Función poblacional

Vamos a suponer que existe una relación entre Y y X , de la siguiente


forma:
yi = β0 + β1 ∗ xi + µi

18
Función poblacional vs estimada

19
Implicancias supuestos

• ¿Pero para qué nos sirven esos supuestos, o más bien, por qué
necesitamos asumir que el mundo se comporta de esa manera?
• Necesitamos derivar las PROPIEDADES de los estimadores de β0 y
β1 .
• En particular, queremos poder realizar afirmaciones sobre su
esperanza - para determinar sesgo, y sobre su varianza - para
determinar la eficiencia del estimador.
• Para ello, recurrimos a algunos de los supuestos.

20
Propiedad insesgadez

• Sesgo se define como la diferencia entre la esperanza del estimador y


el parámetro poblacional.
• Sesgo = E (β̂) − β
• Estimador insesgado implica que si realizamos nuestra estimación
repetidamente, el promedio de los estimadores será igual al
parámetro poblacional.
• Estimador insesgados: Sesgo = E (β̂) − β = 0
• Por lo tanto, estimador insesgado: E (β̂) = β

21
Supuestos para insesgadez

Se puede demostrar que si se cumplen los cuatro siguientes supuestos, los


estimadores MCO son insesgados:

1. Linealidad: yi = β0 + β1 ∗ xi + µi
2. Rango completo:
3. Media condicional 0:E (µ|x) = 0
4. Muestra aleatoria

22
Supuestos para eficiencia: varianza estimadores MCO

• Eficiencia se relaciona con la varianza del estimador.


• La cual depende de la variabilidad del error µ, el cual no observamos.
• Por lo tanto, debemos estimar la varianza del error, V (µ).
• Para derivar la varianza de los estimadores, y demostrar que esta es
insesgada, requerimos agregar un supuesto
• Además, dado que la varianza del estimador nunca es cero,
buscamos aquel estimador que tenga la menor varianza.

23
Supuestos para eficiencia: varianza estimadores MCO

Se puede demostrar que si se cumplen los cinco siguientes supuestos, los


varianza del esitmador es insesgada y menor entre todos los posibles
estimadores:

1. Lineal en los parámetros: yi = β0 + β1 ∗ xi + µi


2. Rango completo:
• Caso bivariado: variabilidad en X
3. Media condicional de error es 0:E (µ|x) = 0
4. Muestra aleatoria en caso de datos observacionales.
5. Homocedasticidad Var (µi | xi ) = σ 2 , ∀xi .

24
Varianza estimadores MCO

Supuesto homocedasticidad

25
Teorema Gauss-Markov

• Los supuestos 1-5 también se conocen como los supuestos


Gauss-Markov:
• Esto ya que demostraron que bajo esos supuestos, los estimadores de
los coeficientes son los mejores estimadores insesgados dentro de los
estimadores lineales.
• Qué quiere decir ”mejor”: estimadores eficientes, es decir, mı́nima
varianza entre los lineales insesgados.
• Por las siglas en inglés: BLUE (Best Linear Unbiased Estimator)

26
Supuestos Gauss-Markov

1. Lineal en los parámetros: yi = β0 + β1 ∗ xi + µi


2. Rango completo:
• Caso bivariado: variabilidad en X
3. Media condicional de error es 0:E (µ|x) = 0
4. Muestra aleatoria en caso de datos observacionales.
5. Homocedasticidad Var (µi | xi ) = σ 2 , ∀xi .

Bajo los supuestos 1-4: E (yi | xi ) = β0 + β1 ∗ xi


Agregando supuesto 5: Var (µi | xi ) = σ 2

27
Varianza estimador MCO

σ2
Var (βˆ1 ) = Pn 2
i=1 (xi − x̄)
Pero no conocemos la varianza del error, por lo que debemos estimarla:
Pn 2
r
σ̂ 2 = i=1 i
(n − 2)

Debemos usar n − 2 ya que al estimar mediante MCO, se imponen dos


restricciones a los datos (una por cada coeficiente estimado, en esta caso
beta0 y beta1 )

28
Inferencia

Para realizar inferencia, necesitamos la distribución muestral del


estimador, en este caso, de β0 y β1 :

• Distribución muestral está centrada en el parámetro (estimador


insesgado)
• Varianza del estimador es función de la varianza del error y de los
datos.
• Nos falta la forma de la distribución muestral
• En muestra chica: asumimos que el error se distribuye Normal.
• Con esto, ya tenemos todo lo necesario para realizar inferencia.
• Por lo tanto, a los supuestos 1-5 se le agrega un 6to supuesto
• Se le agrega el supuesto de normalidad de los errores.

29
Supuestos del Modelo Clásico de Regresión

1. Lineal en los parámetros: yi = β0 + β1 ∗ xi + µi


2. Rango completo:
• Caso bivariado: variabilidad en X
3. Media condicional de error es 0:E (µ|x) = 0
4. Muestra aleatoria en caso de datos observacionales.
5. Homocedasticidad Var (µi | xi ) = σ 2 , ∀xi .
6. Error se distribuye normal: µ ∼ N(0, σ 2 )

Supuestos Gauss-Markov: 1-5

30
Inferencia bajo supuestos del Modelo Clásico de Regresión

Bajo los supuestos del modelos clásico de regresión:

βˆ1 ∼ N(β1 , (βˆ1 ))

31
Ejemplo: Efecto fractionalization etnolinguı́stica en la provisión
de bienes públicos

Siguiendo a la literatura:

• Variable explicada: Porcentaje hogares con acceso a agua potable


• Variable explicativa: Índice de fraccionalización etnolinguı́stica:
E
X
ELF = 1 − prope2
e=1

• Ası́, la ecuación poblacional a estimar es: PorcAi = β0 + β1 ELFi + µi

32
Efecto ELF en Porcentaje hogares con Agua potable

Porcentaje Agua Potable y ELF

Porc Agua ELF


69 0.78
63 0.62
75 0.51
67 0.89
62 0.83

33
Estimamos por MCO

Variable explicada:
Porcentaje hogares con agua potable
ELF −21.132∗∗∗
(3.169)

Constant 81.723∗∗∗
(2.059)

Observations 31
R2 0.605
Adjusted R2 0.592
Residual Std. Error 4.437 (df = 29)
F Statistic 44.456∗∗∗ (df = 1; 29)
∗ ∗∗ ∗∗∗ 34
Note: p<0.1; p<0.05; p<0.01
Estimamos por MCO

35
Estimamos por MCO

36
Estimamos por MCO

porc A ELF ŷ Residuo


69 0.78 65.2 3.8
63 0.62 68.6 -5.9
75 0.51 70.9 4.3
67 0.89 62.9 4.4
62 0.83 64.2 -2.2
56 0.66 67.8 -11.8
68 0.69 67.1 1.4
59 0.69 67.1 -8.3
63 0.73 66.3 -3.5
73 0.33 74.7 -1.8

37

Вам также может понравиться