Академический Документы
Профессиональный Документы
Культура Документы
Regresin
g
Lineal Simple
p
CONTENIDOS
Anlisis de Regresin
Diagrama
g
de Dispersin
Modelo de Regresin Lineal Simple.
Supuestos sobre los errores.
Violacin de supuestos
Estimacin de recta de regresin.
Interpretacin de los coeficientes
Residuos - Variancia Residual.
Variancia
V i
i Total
T t l vs Variancia
V i
i Residual
R id l
Coeficiente de Determinacin.
197
Anlisis de Regresin
En muchos problemas cientficos y tecnolgicos se desea
conocer las relaciones entre las variables intervinientes. El
anlisis de regresin es una tcnica estadstica para
investigar y modelar la relacin entre variables con el
propsito de obtener una ecuacin emprica de prediccin
y que proporcione un modelo emprico que no est
disponible. Se desea hallar una funcin matemtica
sencilla que describa en forma razonable una variable
aleatoria llamada variable de respuesta, dados los
aleatoria,
valores de otras variables llamadas predictoras.
Diagrama de dispersin
En el caso de la Regresin Lineal Simple tendremos la
variable de respuesta que denotaremos Y, y un nico
predictor X. Se dispondr de una serie simple
bidimensional de n pares ordenados:
(x1 , y1 ); (x2 , y2 );
. . . .; (xn , y n )
donde el i-simo par ordenado ( xi , yi ) representa la isima observacin de la variable Y fijando X=xi.
La representacin de las observaciones bidimensionales se
denomina diagrama de dispersin y es el punto de
partida del Anlisis de Regresin porque la nube de puntos
representada puede conformar patrones que indican al
investigador qu tipo de relacin hay entre las variables,
variables si
hay valores atpicos en el conjunto de datos, etc..
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
198
relacin
lineal,
relacin
no
lineal,
formacin
de
grupos
de
observaciones.
Aspecto
General
Desviaciones
199
Sin
relacin
Relacin
lineal
Relacin No
lineal
Formacin de
grupos de
observaciones
200
Relacin
negativa
Relacin
positiva
Fuerza
Relacin
fuerte
x
Relacin
menos fuerte
201
y
Observacin
atpica
Observacin
atpica
202
65
55
60
Altura HIJAS
70
75
55
60
65
70
75
Altura MADRES
(en Pulgadas)
203
65
55
60
Altura HIJAS
70
75
55
60
65
70
75
Altura MADRES
(en Pulgadas)
Direccin:
Di
i El tipo
ti
d relacin
de
l i entre
t las
l alturas
lt
d
de
madre e hija es positiva, es decir, que en general a
madres altas corresponden hijas altas y viceversa.
Fuerza: Si la
F
l relacin
l i entre
t altura
lt
d hija-madre
de
hij
d es
lineal, la fuerza de la relacin quedara determinada
por lo cerca que quedan los puntos de una lnea
recta imaginaria. En este caso, la relacin no sera
muy fuerte.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
204
Otras observaciones
Como las alturas de madres e hijas estn medidas en la
misma unidad de longitud (pulgada). Si la relacin fuera
lineal y perfecta, los puntos estaran exactamente en una
lnea de 45.
Para valores fijos de altura de la madre, la variabilidad
en la altura de la hija parece ser aproximadamente la
misma. (ver fig. 2)
65
55
60
Altu
ura HIJAS
70
75
55
60
65
70
75
Altura MADRES
205
50
40
30
20
10
0
Ca
ant. de nieve caida enero--junio (pulgadas)
60
10
20
30
40
50
60
206
Ejemplo 3
Se desea establecer la relacin entre el tiempo de recarga
de una mquina de gaseosas (Y: en minutos) y la cantidad
de latas que se colocan (X).
Se visitan 25 lugares escogidos al azar en los hay una
mquina
i
y se anotan
t
l tiempos
los
ti
d recarga y la
de
l cantidad
tid d
de latas colocadas.
Diagrama de Dispersin
14
12
Tiempo
10
0
2
10
12
14
16
18
20
22
24
26
28
30
32
Cant_Latas
207
ESTADSTICA - CORRELACIN
Correlacin
El diagrama de dispersin
nos permite ver la fuerza de una
relacin lineal , pero es fcil engaar a la vista cambiando
de escala. Necesitamos una medida numrica que
complemente al grfico: esta medida es el coeficiente de
correlacin
l i .
Coeficiente de Correlacin
El coeficiente
f
de correlacin muestral mide la fuerza y
la direccin de la relacin lineal entre dos variables
cuantitativas X e Y. Se simboliza con la letra r y se calcula
mediante:
1 n
( x i X )( y i Y )
n
cov( x , y )
i =1
r =
=
S ( x ). S ( y )
n
1
2
2
(x X ) (y Y )
i
n i =1 i
n
x y nXY
i i
cov( x, y )
1
i
=
r=
=
S ( x)).S ( y )
( x 2 nX 2 )( y 2 nY 2 )
i
i
1 n xi x yi y
r=
n 1 i =1 s ( x) s ( y )
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
208
ESTADSTICA - CORRELACIN
Caractersticas de r
1. El coeficiente
f
de correlacin es ppositivo cuando
existe una relacin lineal positiva entre X e Y; es
negativo cuando existe una relacin lineal negativa.
4. El coeficiente
Valores
una relacin
lineal muy dbil.
La fuerza de la relacin lineal aumenta a medida
que r se aleja de 0 y se acerca a -1 o a 1.
Valores
l
d r prximos
de
a -1 o a 1 indican
d
que las
l
observaciones se hallan muy alineadas.
209
ESTADSTICA - CORRELACIN
Sin relacin
r =0
Relacin No lineal
r=0
y
210
ESTADSTICA - CORRELACIN
r = -1
r =1
x
Relacin p
positiva
perfecta
Relacin negativa
g
perfecta
211
ESTADSTICA - CORRELACIN
Ejemplo
En el conjunto de datos del ejemplo 3 correspondiente al
tiempo de recarga de la mquina el valor del coeficiente de
correlacin es: r = 0,961.
Diagrama de Dispersin
14
12
Tiempo
10
0
2
10
12
14
16
18
20
22
24
26
28
30
32
Cant_Latas
212
yi = + xi
12
Tiempo
10
0
2
10
12
14
16
18
20
22
24
26
28
30
32
Cant_Latas
213
El modelo de regresin
g
lineal simple
p es:
yi = + xi + i
cov(( i , j ) = 0 i j
214
E (Y / xi ) = Y / x i = E ( + xi + i ) = + xi
La variancia de Y es constante e igual a la variancia del
error para cualquier valor de X, es decir no depende del
valor de X (homocedasticidad)
V (Y / xi ) = V ( + xi + i ) = V ( i ) = 2
cov(Yi , Y j ) = 0 , i j
Resumiendo: La hiptesis
p
de distribucin normal de los
errores y la de homocedasticidad traen como consecuencia
inmediata
la distribucin normal de la variable Y
condicionada a un valor fijo X = xi .
2
Si i ~ N (0, )
Y / xi ~ N ( + .xi , 2 )
215
E(Y/x0)
E(Y/x1)
Y / x = + x
+ x1
+ x0
Distribucin de Y/x1
x0
x1
Distribucin de Y/x0
Observaciones
Se puede interpretar como el cambio promedio de Y
cuando X cambia en una unidad.
La variancia del error 2 mide la variabilidad o ruido de
las observaciones alrededor de la recta.
recta
Cuando 2 es pequea las observaciones estarn
relativamente cercanas a la recta,
Cuando 2 es grande las observaciones estarn
alejadas de la recta.
ecta
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
216
Violacin de Supuestos
Errores no independientes (autocorrelacin)
cov( i , j ) 0 i j
Variancia del error no constante (heterocedasticidad),
es decir,
d i 2 depende
d
d del
d l valor
l
d X y trae
de
t
como
consecuencia que la variancia de Y condicionada a un
valor de X tampoco es constante sino que depende de
dicho valor.
Distribucin no normal de los errores.
Variancia no
Constante:
la dispersin
de Y depende
p
del valor de X
217
y i = a + bxi
p
para
referirnos al estimador de la recta de regresin
g
poblacional
E(Y/x) = Y/x = +.x
donde:
)
)
a =
b=
218
Respuesta = Y
-1
Predictor = X
ei = yi y i = yi + xi = yi (a + bxi )
La suma de cuadrados de los residuos es:
n
n
) 2
2
e
=
(
y
y
)
=
(
y
bx
)
i i i
i
i =1
2
i
i =1
i =1
219
y
i =1
= na + b xi
x y
i =1
i =1
i =1
i =1
a = y b x
b=
= a xi + b x 2
(x x )( y
i
i =1
y)
(xi x )
i =1
x y
i
i =1
n x y
2
2
x
n
x
i
i =1
s( y)
b=r
s ( x)
220
y i = 1,125 + 0,36 xi
12
Tiempo
10
0
2
10
12
14
16
18
20
22
24
26
28
30
32
Cant Latas
Cant_Latas
221
Interpretacin de b
En general el signo de b indica el tipo de relacin lineal
entre X e Y, se pueden dar tres casos:
b> 0 Existe una relacin lineal positiva entre X e Y
b< 0 Existe una relacin
lineal negativa entre X e Y
b= 0 NO Existe una relacin lineal entre X e Y
y
b>0
b<0
b=0
222
Interpretacin de a
La ordenada al origen de la recta de regresin a, es la
estimacin del valor esperado de Y cuando X=0.
Como coeficiente de regresin,
regresin a tiene menor importancia
que b, dado que:
1. La validez del modelo est limitada al rango de
valores observados. Cuando X se observ en un rango
alejado de X = 0, a es una extrapolacin y es
peligroso dar una interpretacin.
2. Es frecuente que la interpretacin de a no tenga
sentido
tid en relacin
l i all problema
bl
que se estudia.
t di
En el ejemplo del tiempo de recarga no interpretaremos
el valor de a = 1,125 por los motivos 1 y 2 recin
sealados.
l d
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
223
xi = a '+b' yi
a' = x b' y
Donde:
n
b' =
(x x )( y
i
i =1
y)
( yi y )
x y
i
i =1
i =1
n x y
=r
2
2
y
n
y
i
s( x)
s( y )
i =1
s( y)
b=r
s ( x)
s ( x)
b' = r
s( y)
El signo de b,
b b
b y r es el mismo
3. Otra relacin importante es:
b b' = r 2
(x, y )
224
Residuos
La
ad
diferencia
e e ca e
entre
tee
el valor
a o obse
observado
ado y e
el valor
a o est
estimado
ado
se llama residuo o residual
ei = yi y i = yi (a + bxi )
Estimacin de 2
Un estimador insesgado
g
de la variancia del error 2 se
obtiene como promedio de los cuadrados de los residuos
respecto de la recta ajustada y recibe el nombre de
n
2
variancia residual:
e2 = S e2 = SY2 x =
( yi y i )
i =1
n2
225
e2 = S e2 =
(
)
y
y
i i
i =1
n2
= 0,8537
S e = S e2 = 0,924
S y2 =
(y
i =1
y)
n 1
226
227
Coeficiente de Determinacin
En el siguiente diagrama de dispersin se puede ver que
el desvo de cualquier observacin respecto de la media
puede descomponerse en dos partes:
400
El residuo, corresponde a la
explicada por X: ( yi y i )
350
yi
Media muestral de Y
200
250
300
( yi y )
( yi y i )
( yi y )
150
0.0
0.1
0.2
0.3
0.4
( yi Y ) = ( yi y$i ) + ( y$i Y )
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
228
( yi Y ) 2 = [( yi y$i ) + ( y$i Y ) ]
( yi Y )
n
i =1
[
i =1
= ( yi y$ i ) + ( y$ i Y )
n
( yi Y ) = ( yi y$ i ) + ( y$ i Y )
n
i =1
i =1
Suma de
Cuadrados
Totall
i =1
Suma de
Cuadrados No
Explicada
l d
Suma de
Cuadrados
Explicada
l d
r2 =
SCE
SCNE
= 1
SCT
SCT
229
Interpretacin de r2
Dado que:
Si
0 SCE SCT 0 r 2 1
X no explica nada de
la variabilidad de Y
r 2 = 1 SC
SCE = SC
SCT SCN
SCNE = 0
300
Y
250
200
150
Toda la
variabilidad de Y
est explicada
por X
350
400
Si
0.0
0.1
0.2
0.3
0.4
230
Observaciones
Relacin entre r y r2
El coeficiente
fi i t de
d correlacin
l i r describe
d
ib la
l di
direccin
i y
fuerza de una relacin lineal. El cuadrado de r es el
coeficiente de determinacin r2.
Es usual elevar el coeficiente de correlacin al cuadrado
para tener una idea ms precisa del efecto de X sobre Y.
Si r = 1 significa que todos los puntos se hallan
perfectamente alineados. En este caso r2 = 1, es decir
t d la
toda
l variacin
i i de
d Y est
t explicada
li d por la
l relacin
l i
lineal con X.
Si r = 0,7, entonces r2 = 0,49 es decir
aproximadamente la mitad de la variacin de Y est
explicada por X.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
231
H1 : < 0
H 0 : = 0
H1 : > 0
versus
H1 : 0
b N ;
(x x )
N (0; 1)
2
(
)
x
x
i
Si reemplazamos
l
e por su estimador
ti d
l distribucin
la
di t ib i
con n-2 grados de
resultante es una t-Student
libertad. Suponiendo H0 verdadera, el estadstico de
prueba es:
T=
b 0
Se
b 0
=
tn2
Sb
2
(
)
x
x
i
i =1
232
Donde Sb es el desvo
estndar de b
Sb =
Se
n
2
(
)
x
i =1
H0 : = 0
versus
H 1 : > 0 Hay
H relacin
l i lineal
li
l positiva
iti
H 1 : 0 Hay relacin lineal
No hay relacin
lineal ent
entre
eXeY
En el ejemplo de los tiempos de recarga nos interesa
contrastar la existencia de una relacin directa o
positiva entre la cantidad de latas colocadas en la
mquina y el tiempo que insume la recarga:
233
H0 : = 0
H0 : > 0
=0,05
pivotal
b 0
tn2
T=
Sb
Suponiendo H0 verdadera, el estadstico de prueba es:
b
T=
t13
Sb
Variable
pivotal
234
0
NoRH0
tc
T
RH0
Valor Crtico
tObs =
0,36
b
=
= 12,54
S b 0,029
235
H0 a un
coeficientes de regresin,
regresin son variables aleatorias cuyos
valores fluctan de una muestra a otra, la recta de
regresin estimada tambin es una variable aleatoria, en
consecuencia tiene una distribucin muestral:
y i N ( + xi ; y )
Recta de
regresin
estimada
y = e
donde
y i = a + bxi
1
+
n
(xi x )2
n
2
(
)
x
x
i
i =1
Desvo de la
recta de
regresin
estimada
236
Si
y i N ( + xi ; y )
y i ( + xi )
N (0;1)
y i ( + xi )
tn2
s y
donde
S y = y = e
1
+
n
(xi x )2
n
2
(
)
x
x
i
= Se
1
+
n
i =1
(xi x )2
n
2
(
)
x
x
i
i =1
y x0 = a + bx0
237
y x0 Y
T=
Se
x0
2
1
(
)
x
x
0
+
n x 2 nx 2
tn2
y x0 t n 2; / 2 S y Y
donde
S y = S e
x0
1
+
n
y x0 + t n 2; / 2 S y
(x0 x )2
n
2
(
)
x
x
i
i =1
238
7,789 Y
x0 = 20
Y/x0 es:
8,846
Intervalo de prediccin
En prediccin,
prediccin tenemos un nuevo caso,
caso posiblemente un
valor futuro, no usado para estimar los parmetros del
modelo. Este valor nuevo (o futuro) x0, est dentro del
rango de valores observados de X. Deseamos predecir el
valor y0 que podra asumir la respuesta Y, el cual tampoco
ha sido observado.
Es posible usar la funcin media estimada para predecir a
y0. Suponemos
S
que la
l estimacin
ti
i de
d la
l funcin
f
i media
di es
relevante para el nuevo caso, es decir, que el ajuste es
vlido para l.
El estimador puntual de y0 es:
y 0 = a + bx
b 0
239
( xi x ) 2
)
2
2 1
V ( yi y i ) = V ( yi ) + V ( yi ) = e + e +
2
n ( xi x )
1
( xi x ) 2
V ( yi y i ) = 1 + +
2
n ( xi x )
Adems:
2
e
E ( yi y i )= E ( yi ) E ( y i ) = + xi ( + xi ) = 0
Por ser diferencia de variables normales,
tiene distribucin normal:
yi y i
(
x
x
)
1
i
yi y i ~ N 0 , e . 1 + +
2
n
(
)
x
x
Como e es desconocido: S
2
y0 y 0
yi y i
T=
se . 1 +
( xi x )
1
+
n ( xi x ) 2
2
( x0 x ) 2
1
= S .1 + +
2
n ( xi x )
2
e
~ tn2
240
y x0 t n 2; / 2 S y0 y 0 y0 y x0 + t n 2; / 2 S y0 y 0
Ejemplo
Supongamos que deseamos estimar el tiempo de recarga
de la mquina si se colocan 20 latas de gaseosa, es decir, el
tiempo para x0 = 20.
20
El estimador puntual de y0 es:
S y0 y 0
6,253 y0 10,382
Si se colocan 20 latas en la mquina el tiempo de
recarga estar entre 6,253 y 10,382 minutos con el 95%
de confianza.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas
241
Y/x0 como el
de prediccin tienen amplitud mnima cuando: x0 = x
Tanto el intervalo de confianza p
para la media
Variancia
estimada de la
recta
Variancia
estimada de una
observacin
futura
2
1
(
)
x
x
S y2 = S e2 + n 0
n ( xi x )2
i =1
2
y0 y 0
1
( x0 x ) 2
= S .1 + +
2
n ( xi x )
2
e
242
Tiempo = 1,1246+0,3597*x
14
12
Franjas de
intervalos
de
confianza
0
2
10
12
14
16
18
20
22
24
26
28
30
32
Cant_Latas
Tiempo = 1,1246+0,3597*x
14
Franjas de
intervalos
de
prediccin
12
10
Tiempo
Tiempo
10
0
2
10
12
14
16
18
20
22
24
26
28
30
32
Cant Latas
Cant_Latas
243