Вы находитесь на странице: 1из 64

REGRESIN LINEAL SIMPLE

Regresin: conjunto de tcnicas que son usadas para


establecer una relacin entre una variable cuantitativa
llamada variable dependiente y una o ms variables
independientes, llamadas predictoras. Estas tambin
deberan ser cuantitativas, sin embargo algunas de
ellas podran ser cualitativas.
Modelo de regresin. Ecuacin que representa la
relacin entre las variables. Para estimar la ecuacin del
modelo se debe tener una muestra de entrenamiento.

Usos del modelo de regresin


a) Prediccin
b) Descripcin
c) Control
d) Seleccin de variables

El modelo de Regresin Lineal simple

Y = + X +
Considerando la muestra (xi, yi) para i=1,n

Yi = + X i+ei
Suposiciones del modelo:
La variable X es no aleatoria.
Los errores i son variables aleatorias con media 0 y varianza
constante 2.
Los errores i y j (ij=1,n) son independientes entre si.
4

Razones para la existencia de

Imprecisin de la teora
Datos no disponibles
Variables deficientes proxy
Principio de Parsimonia
Omisin de variables relevantes
Mala especificacin de la forma funcional

VARIABLES
VARIABLE
INDEPENDIENTE

VARIABLE
DEPENDIENTE

V. EXPLICATIVA
V. CONTROL
V. PREDICTORA
V. REGRESOR

V. EXPLICADA
V. RESPUESTA
V. PREDICHA
V. REGRESADA

Notacin alternativa:
Yi = 0 + 1 Xi + i (Y es funcin lineal de X)
6

: expresa la magnitud
del cambio de y por
cada unidad de x
E(y|x)

E(y|x)=+x
E(y|x)
x

{
Constante
Parmetro de
intercepcin

X
E(y|x)
=
x

Es la pendiente
Parmetro de pendiente

Supuestos del Modelo de RLS


1. Modelo de regresin lineal:
(Lineal en los parmetros) y = 0 + 1x + u
2. Muestreo aleatorio: {(yi, xi); i=1, , n} muestra aleatoria del
modelo poblacional
3. Media condicional de es cero,
E(i| xj) = E(i) = 0
4. Variacin muestral en la variable independiente
5. Homocedasticidad o igual varianza de i,
var(i|xj) = 2
6. No autocorrelacin de :
cov(i, j) = 0, para todo i j
8

Caso Homocedstico
yi

ga

sto

f(yi)

.
.

x1=80

x2=100

renta

xi

Las varianzas de yi en dos niveles distintos de


renta familiar, x i , son idnticas.

Caso Heterocedstico
i

f(yi)
to
s
a

.
x1

x2

x3

renta

xt

La varianza de yi aumenta con la renta de la


familia xi.

10

Estimacin de la lnea de regresin usando


Mnimos Cuadrados
Se debe Minimizar

Q(, ) =
n

i =1

2
i

(y
i =1

xi ) 2

Derivando se obtiene las ecuaciones normales, con


solucin:

i=1

i=1
n

i =1

nxi yi xi yi
n

nxi2 (xi )2
i =1

Donde:

i=1

equivalentemente

xy

xx

= y x

Sxx = ( xi x ) 2
i =1

11

(RRP)
E(y) = + x

y4

e4 {

y3
y2

y1

e2 {.

(RRM)
y = b0 + b1x

.}e3

e1
}
.
x1

x2

x3

x4

x
12

Interpretacin de los coeficientes de regresin


estimados
)

La pendiente indica el cambio promedio en la variable de


respuesta cuando la variable predictora aumenta en una unidad
adicional.
)

El intercepto indica el valor promedio de la variable de


respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretacin prctica si es irrazonable pensar que el
rango de valores de x incluye a cero.

13

Ejemplo de estudio de la altura en grupos familiares de Pearson


Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm cunto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Es decir, nos interesaremos por modelos de regresin lineal simple.

14

Propiedades de los estimadores mnimos cuadrticos


de regresin
)

a) es un estimador insegado de . Es decir, E( )=


) es un estimador insegado de . Es decir, E( ) )=

b)
c)

La varianza de es

Sxx

2
1
x
y la de es ( +
)
n Sxx

Nota: la covarianza:

15

Propiedades de los residuales


Los residuales son las desviaciones de los valores
observados de la variables de respuesta con respecto
a la lnea de regresin.
a)

La suma de los residuales es 0. Es decir, ei = 0


i =1

b)

e x
i =1

c)

i i

=0

)
ei yi = 0
i =1

16

Estimacin de la varianza del error


Un estimador insesgado de 2 es:
n

s2 =

) 2
(
y

y
i i)
i =1

n2

e
i =1

2
i

n2

s 2 es tambien llamado el cuadrado medio del error

(MSE)

17

Descomposicin de la suma de cuadrados total


La desviacion de un valor observado con respecto a
la media se puede escribir como:
)
)
( yi y ) = ( yi yi ) + ( yi y )
n

( yi y ) 2 =

)
( yi yi ) 2 +

i =1

i =1

(y
i =1

y)2

SST = SSE + SSR


Se puede deducir que

SSR =

2
(
x

x
)
i
i =1

18

El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
R2 =

SSR
SST

Un modelo de regresin con R2 mayor o igual a 75% se puede


considerar bastante optimista.
2

R es afectado por la presencia de valores


Nota: El valor de
anormales.

19

Distribucin de los estimadores mnimos


cuadrticos
Para efecto de hacer inferencia en regresin, se requiere asumir
que los errors ei , se distribuyen en forma normal e
2
independientemente con media 0 y varianza constante . En
consecuencia, tambin las yi ' s se distribuyen normalmente con
2
media + xi y varianza .
Se puede establecer que:

~ N( , )
Sxx
2

1 x2 2
~ N ( , ( + ) )
n S xx

20

Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:
i)

ii)

iii)

SST

SSE

SSR

~ '(2n 1)

2
( n2)

~ '(21)

(Chi-Cuadrado no central con n-1 g.l)

Equivalentemente

(n 2) s 2

~ (2n 2 )

(Chi-Cuadrado no central con 1 g.l)

Podemos mostrar que:

E ( SSR ) = E ( 2 S xx ) = 2 + 2 S xx
21

Inferencia en Regresion Lineal Simple


Pruebas de hiptesis e intervalos de confianza acerca de los
coeficientes de regresin del modelo de regresin
poblacional.
Intervalos de confianza para un valor predicho y para el valor
medio de la variable de respuesta

22

Inferencia acerca de la pendiente y el


intercepto usando la prueba t.
La pendiente de regresin se distribuye como una normal con
2

media y varianza
Sxx

Un intervalo de confianza del 100(1-)% para la pendiente


poblacional es de la forma:
)

( t ( n 2, / 2 )

s
Sxx

, + t ( n 2, / 2 )

s
Sxx

El nivel de significacin , vara entre 0 y 1.

23

Intervalo de confianza para el intercepto


Un intervalo de confianza del 100(1-)% para el intercepto de
la linea de regresin poblacional es de la forma:

1 x2 )
1 x2
( t ( n 2, / 2 ) s
+
, + t ( n 2, / 2 ) s
+
)
n Sxx
n Sxx
)

24

Tres Posibles Poblaciones

=0
A

>0
B

1< 0

25

Pruebas de hiptesis para la pendiente


(asumiendo que su valor es * )
Caso I
Ho: =*
Ha: <*
Prueba Estadstica

Caso II
Ho: =*
Ha: *
t=

Caso III
Ho: =*
Ha: >*

*
s
Sxx

Regla de Decisin
Rechazar Ho,
Rechazar Ho

~ t( n 2)

Rechazar Ho

si tcal<-t(,n-2)
si |tcal |>t(/2,n-2)
si tcal>t(,n-2)
*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
26

Pruebas de hiptesis para el intercepto


(asumiendo que su valor es * )
Caso I
Ho: = *
Ha: < *
Prueba Estadstica

Caso II
Ho: = *
Ha: *
t=

Caso III
Ho: = *
Ha: > *

*
2

1 x
( +
) 2
n S xx

Regla de Decisin
Rechazar Ho,

Rechazar Ho

~ t( n 2 )

Rechazar Ho

si tcal<-t(,n-2)
si |tcal |>t(/2,n-2)
si tcal>t(,n-2)
*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
27

El anlisis de varianza para regresin lineal


simple
El anlisis de varianza para regresin consiste en descomponer
la variacin total de la variable de respuesta en varias partes
llamadas fuentes de variacin.
La divisin de la suma de cuadrados por sus grados de libertad
es llamada cuadrado medio.
As se tienen tres cuadrados medios.
Cuadrado Medio de Regresin=MSR=SSR/1
Cuadrado Medio del Error= MSE=SSE/(n-2)
Cuadrado Medio del Total=MST=SST/(n-1)

28

Tabla de Anlisis de Varianza


________________________________________________________________
Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios
F
________________________________________________________________
Debido a
la Regresion
1
SSR
MSR=SSR/1
MSR
Error
n-2
SSE
MSE=SSE/(n-2)
MSE
________________________________________________________________
Total
n-1
SST
________________________________________________________________

Se rechazara la hiptesis nula Ho:=0 si el P-value de la


prueba de F es menor de . En este caso, X se relaciona de manera
importante con Y
29

Estimacin de la Recta Media:


Interesa estimar la respuesta media en funcin de un valor especfico del input,
1) Pivote: Sea
Interesa estimar

Podemos utilizar que

y es independiente de

30

Luego,

2) Intervalo para la Media: Se obtiene el intervalo de (1 - )100% de confianza


para

31

Ejemplo: En el ejemplo de la dureza de los paneles de partculas versus la


temperatura de produccin, se obtiene las bandas de confianza para la recta
media:

recta estimada
lmite inferior del
intervalo
lmite
superior del
intervalo

32

Problemas: Estimaciones simultneas.


i) Bonferroni: Reemplazar por /n, donde n es el nmero de estimaciones
que se desea realizar (nmero de valores de X0).
ii) Scheff: Reemplazar valor

Se obtiene intervalos ms amplios.

por

33

Prediccin de una Nueva Observacin:


Interesa predecir una observacin que se producir para un valor especfico del
input
.
Sabemos que

luego con probabilidad (1 - )100%, la nueva observacin estar en el intervalo:

Problema:
No conocemos

ni

.
34

Idea:
Definir
Se puede ver que

luego, con (1 - )100% de probabilidad la nueva observacin

estar en

35

CUIDADO CON EXTRAPOLACIN

36

Ejemplo: Bandas de confianza para la Recta Media (curvas interiores) e


Intervalos de Prediccin para nuevas observaciones (curvas exteriores)

37

Estandarizacin de los Datos;


I) Definamos la variable:

y la regresin

Interpretacin de

vs

38

II) Definamos las variables:

y la regresin

Entonces:

39

Ejemplo Consideremos el ejemplo de la presin atmosfrica versus la


temperatura de ebullicin del agua.
Ajustamos los modelos:

26
24
22

pressure

28

30

Modelo 1)

195

200

205
boil.point

210

40

0.0
-0.2

pressure.star

0.2

0.4

Modelo 2)

-0.4

-0.2

0.0

0.2

0.4

boil.point.star

con
41

El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se
define como:
Cov( X , Y )
=
x y
a) 1 1
b) La media condicional de Y dado X es E(Y / X ) = + x ,
y
donde:
y =
=
x

c) La varianza condicional de las Y dado X, est dado por


y2 / x = y2 (1 2 )

Si = 1 entonces y2 / x = 0 (perfecta relacin lineal).


El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relacin entre las
42
variables.

Coeficiente de correlacin muestral


Considerando una muestra de n pares (xi,yi)

Notar que:

) Sxx
r=
Syy

r2 =

)2

Sxx
Syy

r =

Sxy
SxxSyy

SSR
SST

El cuadrado del coeficiente de correlacin es igual al coeficiente de


determinacin.
r es til para determinar si hay relacin lineal entre dos variables, pero no
servir para otro tipo de relaciones (cuadrtica, logartmica,...)

43

Dcima para el coeficiente de correlacin


Para probar la hiptesis nula H0: = 0, utilizamos la
estadstica de prueba

t=

r n2
1 r2

Decisin: Rechazar Ho, si |tcal |>t(/2,n-2)


Si Ho: = 0, (X e Y no estn relacionados)

44

CONSIDERACIONES PARA LA VALIDEZ DEL TEST


Los residuos ( e ) deben ser :

- Normales
- Homocedsticos
- Independientes

Testar la Ho: = 0 equivale a ensayar la Ho: = 0

45

Prctica. Problema resuelto de regresin lineal simple


Los datos de la tabla adjunta muestran el tiempo de impresin de trabajos
que se han impreso en impresoras de la marca HP. Se est interesado en
estudiar la relacin existente entre la variable de inters tiempo de impresin
de un trabajo y la variable explicativa nmero de pginas del trabajo. Hacer
el estudio en base a los datos obtenidos en el muestreo y que son los de la
tabla adjunta.

46

Solucin
Se calculan los estadsticos bsicos de las variables X e Y,

Que permiten calcular las estimaciones de los parmetros de la recta de


regresin

47

48

49

50

El coeficiente de correlacin es

51

52

El grfico de residuos frente a las predicciones se observa en el


siguiente grfico

53

54

A partir de la tabla se puede realizar el contraste de regresin

55

Que permite construir la siguiente tabla ANOVA ms completa

56

57

58

59

60

61

62

63

64

Вам также может понравиться