REGRESIÓN LINEAL SIMPLE v4 PDF

REGRESIN LINEAL SIMPLE
Regresin: conjunto de tcnicas que son usadas para

establecer una relacin entre una variable cuantitativa
llamada variable dependiente y una o ms variables
independientes, llamadas predictoras. Estas tambin
deberan ser cuantitativas, sin embargo algunas de
ellas podran ser cualitativas.
Modelo de regresin. Ecuacin que representa la
relacin entre las variables. Para estimar la ecuacin del
modelo se debe tener una muestra de entrenamiento.
Usos del modelo de regresin

a) Prediccin
b) Descripcin
c) Control
d) Seleccin de variables
El modelo de Regresin Lineal simple
Y = + X +
Considerando la muestra (xi, yi) para i=1,n
Yi = + X i+ei
Suposiciones del modelo:
La variable X es no aleatoria.
Los errores i son variables aleatorias con media 0 y varianza
constante 2.
Los errores i y j (ij=1,n) son independientes entre si.
4
Razones para la existencia de
Imprecisin de la teora
Datos no disponibles
Variables deficientes proxy
Principio de Parsimonia
Omisin de variables relevantes
Mala especificacin de la forma funcional
VARIABLES
VARIABLE
INDEPENDIENTE
VARIABLE
DEPENDIENTE
V. EXPLICATIVA
V. CONTROL
V. PREDICTORA
V. REGRESOR
V. EXPLICADA
V. RESPUESTA
V. PREDICHA
V. REGRESADA
Notacin alternativa:
Yi = 0 + 1 Xi + i (Y es funcin lineal de X)
6
: expresa la magnitud
del cambio de y por
cada unidad de x
E(y|x)
E(y|x)=+x
E(y|x)
x
{
Constante
Parmetro de
intercepcin
X
E(y|x)
=
x
Es la pendiente
Parmetro de pendiente
Supuestos del Modelo de RLS

1. Modelo de regresin lineal:
(Lineal en los parmetros) y = 0 + 1x + u
2. Muestreo aleatorio: {(yi, xi); i=1, , n} muestra aleatoria del
modelo poblacional
3. Media condicional de es cero,
E(i| xj) = E(i) = 0
4. Variacin muestral en la variable independiente
5. Homocedasticidad o igual varianza de i,
var(i|xj) = 2
6. No autocorrelacin de :
cov(i, j) = 0, para todo i j
8
Caso Homocedstico
yi
ga
sto
f(yi)
.
.
x1=80
x2=100
renta
xi
Las varianzas de yi en dos niveles distintos de

renta familiar, x i , son idnticas.
Caso Heterocedstico
i
f(yi)
to
s
a
.
x1
x2
x3
renta
xt
La varianza de yi aumenta con la renta de la

familia xi.
10
Estimacin de la lnea de regresin usando

Mnimos Cuadrados
Se debe Minimizar
Q(, ) =
n
i =1
2
i
(y
i =1
xi ) 2
Derivando se obtiene las ecuaciones normales, con

solucin:
i=1
i=1
n
i =1
nxi yi xi yi
n
nxi2 (xi )2
i =1
Donde:
i=1
equivalentemente
xy
xx
= y x
Sxx = ( xi x ) 2
i =1
11
(RRP)
E(y) = + x
y4
e4 {
y3
y2
y1
e2 {.
(RRM)
y = b0 + b1x
.}e3
e1
}
.
x1
x2
x3
x4
x
12
Interpretacin de los coeficientes de regresin

estimados
)
La pendiente indica el cambio promedio en la variable de

respuesta cuando la variable predictora aumenta en una unidad
adicional.
)
El intercepto indica el valor promedio de la variable de

respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretacin prctica si es irrazonable pensar que el
rango de valores de x incluye a cero.
13
Ejemplo de estudio de la altura en grupos familiares de Pearson

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 120cm cunto mide el hijo?

Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Es decir, nos interesaremos por modelos de regresin lineal simple.
14
Propiedades de los estimadores mnimos cuadrticos

de regresin
)
a) es un estimador insegado de . Es decir, E( )=

) es un estimador insegado de . Es decir, E( ) )=
b)
c)
La varianza de es
Sxx
2
1
x
y la de es ( +
)
n Sxx
Nota: la covarianza:
15
Propiedades de los residuales

Los residuales son las desviaciones de los valores
observados de la variables de respuesta con respecto
a la lnea de regresin.
a)
La suma de los residuales es 0. Es decir, ei = 0

i =1
b)
e x
i =1
c)
i i
=0
)
ei yi = 0
i =1
16
Estimacin de la varianza del error

Un estimador insesgado de 2 es:
n
s2 =
) 2
(
y
y
i i)
i =1
n2
e
i =1
2
i
n2
s 2 es tambien llamado el cuadrado medio del error
(MSE)
17
Descomposicin de la suma de cuadrados total

La desviacion de un valor observado con respecto a
la media se puede escribir como:
)
)
( yi y ) = ( yi yi ) + ( yi y )
n
( yi y ) 2 =
)
( yi yi ) 2 +
i =1
i =1
(y
i =1
y)2
SST = SSE + SSR

Se puede deducir que
SSR =
2
(
x
x
)
i
i =1
18
El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
R2 =
SSR
SST
Un modelo de regresin con R2 mayor o igual a 75% se puede

considerar bastante optimista.
2
R es afectado por la presencia de valores

Nota: El valor de
anormales.
19
Distribucin de los estimadores mnimos

cuadrticos
Para efecto de hacer inferencia en regresin, se requiere asumir
que los errors ei , se distribuyen en forma normal e
2
independientemente con media 0 y varianza constante . En
consecuencia, tambin las yi ' s se distribuyen normalmente con
2
media + xi y varianza .
Se puede establecer que:
~ N( , )
Sxx
2
1 x2 2
~ N ( , ( + ) )
n S xx
20
Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:
i)
ii)
iii)
SST
SSE
SSR
~ '(2n 1)
2
( n2)
~ '(21)
(Chi-Cuadrado no central con n-1 g.l)
Equivalentemente
(n 2) s 2
~ (2n 2 )
(Chi-Cuadrado no central con 1 g.l)
Podemos mostrar que:
E ( SSR ) = E ( 2 S xx ) = 2 + 2 S xx
21
Inferencia en Regresion Lineal Simple

Pruebas de hiptesis e intervalos de confianza acerca de los
coeficientes de regresin del modelo de regresin
poblacional.
Intervalos de confianza para un valor predicho y para el valor
medio de la variable de respuesta
22
Inferencia acerca de la pendiente y el

intercepto usando la prueba t.
La pendiente de regresin se distribuye como una normal con
2
media y varianza
Sxx
Un intervalo de confianza del 100(1-)% para la pendiente

poblacional es de la forma:
)
( t ( n 2, / 2 )
s
Sxx
, + t ( n 2, / 2 )
s
Sxx
El nivel de significacin , vara entre 0 y 1.
23
Intervalo de confianza para el intercepto

Un intervalo de confianza del 100(1-)% para el intercepto de
la linea de regresin poblacional es de la forma:
1 x2 )
1 x2
( t ( n 2, / 2 ) s
+
, + t ( n 2, / 2 ) s
+
)
n Sxx
n Sxx
)
24
Tres Posibles Poblaciones
=0
A
>0
B
1< 0
25
Pruebas de hiptesis para la pendiente

(asumiendo que su valor es * )
Caso I
Ho: =*
Ha: <*
Prueba Estadstica
Caso II
Ho: =*
Ha: *
t=
Caso III
Ho: =*
Ha: >*
*
s
Sxx
Regla de Decisin
Rechazar Ho,
Rechazar Ho
~ t( n 2)
Rechazar Ho
si tcal<-t(,n-2)
si |tcal |>t(/2,n-2)
si tcal>t(,n-2)
*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
26
Pruebas de hiptesis para el intercepto

(asumiendo que su valor es * )
Caso I
Ho: = *
Ha: < *
Prueba Estadstica
Caso II
Ho: = *
Ha: *
t=
Caso III
Ho: = *
Ha: > *
*
2
1 x
( +
) 2
n S xx
Regla de Decisin
Rechazar Ho,
Rechazar Ho
~ t( n 2 )
Rechazar Ho
si tcal<-t(,n-2)
si |tcal |>t(/2,n-2)
si tcal>t(,n-2)
*Un P-value cercano a cero, sugirira rechazar la hiptesis nula.
27
El anlisis de varianza para regresin lineal

simple
El anlisis de varianza para regresin consiste en descomponer
la variacin total de la variable de respuesta en varias partes
llamadas fuentes de variacin.
La divisin de la suma de cuadrados por sus grados de libertad
es llamada cuadrado medio.
As se tienen tres cuadrados medios.
Cuadrado Medio de Regresin=MSR=SSR/1
Cuadrado Medio del Error= MSE=SSE/(n-2)
Cuadrado Medio del Total=MST=SST/(n-1)
28
Tabla de Anlisis de Varianza

________________________________________________________________
Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios
F
________________________________________________________________
Debido a
la Regresion
1
SSR
MSR=SSR/1
MSR
Error
n-2
SSE
MSE=SSE/(n-2)
MSE
________________________________________________________________
Total
n-1
SST
________________________________________________________________
Se rechazara la hiptesis nula Ho:=0 si el P-value de la

prueba de F es menor de . En este caso, X se relaciona de manera
importante con Y
29
Estimacin de la Recta Media:

Interesa estimar la respuesta media en funcin de un valor especfico del input,
1) Pivote: Sea
Interesa estimar
Podemos utilizar que
y es independiente de
30
Luego,
2) Intervalo para la Media: Se obtiene el intervalo de (1 - )100% de confianza

para
31
Ejemplo: En el ejemplo de la dureza de los paneles de partculas versus la

temperatura de produccin, se obtiene las bandas de confianza para la recta
media:
recta estimada
lmite inferior del
intervalo
lmite
superior del
intervalo
32
Problemas: Estimaciones simultneas.

i) Bonferroni: Reemplazar por /n, donde n es el nmero de estimaciones
que se desea realizar (nmero de valores de X0).
ii) Scheff: Reemplazar valor
Se obtiene intervalos ms amplios.
por
33
Prediccin de una Nueva Observacin:

Interesa predecir una observacin que se producir para un valor especfico del
input
.
Sabemos que
luego con probabilidad (1 - )100%, la nueva observacin estar en el intervalo:
Problema:
No conocemos
ni
.
34
Idea:
Definir
Se puede ver que
luego, con (1 - )100% de probabilidad la nueva observacin
estar en
35
CUIDADO CON EXTRAPOLACIN
36
Ejemplo: Bandas de confianza para la Recta Media (curvas interiores) e

Intervalos de Prediccin para nuevas observaciones (curvas exteriores)
37
Estandarizacin de los Datos;

I) Definamos la variable:
y la regresin
Interpretacin de
vs
38
II) Definamos las variables:
y la regresin
Entonces:
39
Ejemplo Consideremos el ejemplo de la presin atmosfrica versus la

temperatura de ebullicin del agua.
Ajustamos los modelos:
26
24
22
pressure
28
30
Modelo 1)
195
200
205
boil.point
210
40
0.0
-0.2
pressure.star
0.2
0.4
Modelo 2)
-0.4
-0.2
0.0
0.2
0.4
boil.point.star
con
41
El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se
define como:
Cov( X , Y )
=
x y
a) 1 1
b) La media condicional de Y dado X es E(Y / X ) = + x ,
y
donde:
y =
=
x
c) La varianza condicional de las Y dado X, est dado por

y2 / x = y2 (1 2 )
Si = 1 entonces y2 / x = 0 (perfecta relacin lineal).

El signo de la covarianza nos dice si el aspecto de la nube de puntos es
creciente o no, pero no nos dice nada sobre el grado de relacin entre las
42
variables.
Coeficiente de correlacin muestral

Considerando una muestra de n pares (xi,yi)
Notar que:
) Sxx
r=
Syy
r2 =
)2
Sxx
Syy
r =
Sxy
SxxSyy
SSR
SST
El cuadrado del coeficiente de correlacin es igual al coeficiente de

determinacin.
r es til para determinar si hay relacin lineal entre dos variables, pero no
servir para otro tipo de relaciones (cuadrtica, logartmica,...)
43
Dcima para el coeficiente de correlacin

Para probar la hiptesis nula H0: = 0, utilizamos la
estadstica de prueba
t=
r n2
1 r2
Decisin: Rechazar Ho, si |tcal |>t(/2,n-2)

Si Ho: = 0, (X e Y no estn relacionados)
44
CONSIDERACIONES PARA LA VALIDEZ DEL TEST

Los residuos ( e ) deben ser :
- Normales
- Homocedsticos
- Independientes
Testar la Ho: = 0 equivale a ensayar la Ho: = 0
45
Prctica. Problema resuelto de regresin lineal simple

Los datos de la tabla adjunta muestran el tiempo de impresin de trabajos
que se han impreso en impresoras de la marca HP. Se est interesado en
estudiar la relacin existente entre la variable de inters tiempo de impresin
de un trabajo y la variable explicativa nmero de pginas del trabajo. Hacer
el estudio en base a los datos obtenidos en el muestreo y que son los de la
tabla adjunta.
46
Solucin
Se calculan los estadsticos bsicos de las variables X e Y,
Que permiten calcular las estimaciones de los parmetros de la recta de

regresin
47
48
49
50
El coeficiente de correlacin es
51
52
El grfico de residuos frente a las predicciones se observa en el

siguiente grfico
53
54
A partir de la tabla se puede realizar el contraste de regresin
55
Que permite construir la siguiente tabla ANOVA ms completa
56
57
58
59
60
61
62
63
64

REGRESIÓN LINEAL SIMPLE v4 PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

REGRESIÓN LINEAL SIMPLE v4 PDF

Загружено:

Авторское право:

Доступные форматы

REGRESIN LINEAL SIMPLE

Regresin: conjunto de tcnicas que son usadas para

Usos del modelo de regresin

El modelo de Regresin Lineal simple

Razones para la existencia de

Supuestos del Modelo de RLS

Las varianzas de yi en dos niveles distintos de

La varianza de yi aumenta con la renta de la

Estimacin de la lnea de regresin usando

Derivando se obtiene las ecuaciones normales, con

Interpretacin de los coeficientes de regresin

La pendiente indica el cambio promedio en la variable de

El intercepto indica el valor promedio de la variable de

Ejemplo de estudio de la altura en grupos familiares de Pearson

Si el padre mide 120cm cunto mide el hijo?

Es decir, nos interesaremos por modelos de regresin lineal simple.

Propiedades de los estimadores mnimos cuadrticos

a) es un estimador insegado de . Es decir, E( )=

Propiedades de los residuales

La suma de los residuales es 0. Es decir, ei = 0

Estimacin de la varianza del error

s 2 es tambien llamado el cuadrado medio del error

Descomposicin de la suma de cuadrados total

SST = SSE + SSR

Un modelo de regresin con R2 mayor o igual a 75% se puede

R es afectado por la presencia de valores

Distribucin de los estimadores mnimos

(Chi-Cuadrado no central con n-1 g.l)

(Chi-Cuadrado no central con 1 g.l)

Podemos mostrar que:

Inferencia en Regresion Lineal Simple

Inferencia acerca de la pendiente y el

Un intervalo de confianza del 100(1-)% para la pendiente

El nivel de significacin , vara entre 0 y 1.

Intervalo de confianza para el intercepto

Tres Posibles Poblaciones

Pruebas de hiptesis para la pendiente

Pruebas de hiptesis para el intercepto

El anlisis de varianza para regresin lineal

Tabla de Anlisis de Varianza

Se rechazara la hiptesis nula Ho:=0 si el P-value de la

Estimacin de la Recta Media:

Podemos utilizar que

2) Intervalo para la Media: Se obtiene el intervalo de (1 - )100% de confianza

Ejemplo: En el ejemplo de la dureza de los paneles de partculas versus la

Problemas: Estimaciones simultneas.

Se obtiene intervalos ms amplios.

Prediccin de una Nueva Observacin:

luego con probabilidad (1 - )100%, la nueva observacin estar en el intervalo:

luego, con (1 - )100% de probabilidad la nueva observacin

CUIDADO CON EXTRAPOLACIN

Ejemplo: Bandas de confianza para la Recta Media (curvas interiores) e

Estandarizacin de los Datos;

II) Definamos las variables:

Ejemplo Consideremos el ejemplo de la presin atmosfrica versus la

c) La varianza condicional de las Y dado X, est dado por

Si = 1 entonces y2 / x = 0 (perfecta relacin lineal).

Coeficiente de correlacin muestral

El cuadrado del coeficiente de correlacin es igual al coeficiente de

Dcima para el coeficiente de correlacin

Decisin: Rechazar Ho, si |tcal |>t(/2,n-2)

CONSIDERACIONES PARA LA VALIDEZ DEL TEST

Testar la Ho: = 0 equivale a ensayar la Ho: = 0