Вы находитесь на странице: 1из 47

ESTADSTICA - REGRESIN LINEAL SIMPLE

Regresin
g
Lineal Simple
p
CONTENIDOS
Anlisis de Regresin
Diagrama
g
de Dispersin
Modelo de Regresin Lineal Simple.
Supuestos sobre los errores.
Violacin de supuestos
Estimacin de recta de regresin.
Interpretacin de los coeficientes
Residuos - Variancia Residual.
Variancia
V i
i Total
T t l vs Variancia
V i
i Residual
R id l
Coeficiente de Determinacin.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

197

ESTADSTICA - REGRESIN LINEAL SIMPLE

Anlisis de Regresin
En muchos problemas cientficos y tecnolgicos se desea
conocer las relaciones entre las variables intervinientes. El
anlisis de regresin es una tcnica estadstica para
investigar y modelar la relacin entre variables con el
propsito de obtener una ecuacin emprica de prediccin
y que proporcione un modelo emprico que no est
disponible. Se desea hallar una funcin matemtica
sencilla que describa en forma razonable una variable
aleatoria llamada variable de respuesta, dados los
aleatoria,
valores de otras variables llamadas predictoras.

Diagrama de dispersin
En el caso de la Regresin Lineal Simple tendremos la
variable de respuesta que denotaremos Y, y un nico
predictor X. Se dispondr de una serie simple
bidimensional de n pares ordenados:

(x1 , y1 ); (x2 , y2 );

. . . .; (xn , y n )

donde el i-simo par ordenado ( xi , yi ) representa la isima observacin de la variable Y fijando X=xi.
La representacin de las observaciones bidimensionales se
denomina diagrama de dispersin y es el punto de
partida del Anlisis de Regresin porque la nube de puntos
representada puede conformar patrones que indican al
investigador qu tipo de relacin hay entre las variables,
variables si
hay valores atpicos en el conjunto de datos, etc..
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

198

ESTADSTICA ANALISIS DE RELACIONES

La nube de puntos representada puede conformar


patrones que indican al investigador qu tipo de relacin
hay entre las variables, si hay valores atpicos en el
conjunto de datos, etc..

Descripcin de un diagrama de dispersin


Al examinar un diagrama de dispersin debemos
identificar las siguientes caractersticas:
Forma: no relacin,

relacin

lineal,
relacin
no
lineal,
formacin
de
grupos
de
observaciones.
Aspecto
General

Direccin: se refiere al tipo de


relacin entre las variables:
positiva o negativa.
Fuerza: est determinada por lo
cerca que quedan los puntos
respecto
de
una
curva
imaginaria
imaginaria.

Desviaciones

Observaciones atpicas que


quedan fuera del aspecto general
de la relacin.
relacin

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

199

ESTADSTICA - ANALISIS DE RELACIONES

Descripcin de un Diagrama de Dispersin


Forma

Sin
relacin

Relacin
lineal

Relacin No
lineal

Formacin de
grupos de
observaciones

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

200

ESTADSTICA - ANALISIS DE RELACIONES

Descripcin de un Diagrama de Dispersin


Direccin

Relacin
negativa

Relacin
positiva

Fuerza

Relacin
fuerte

x
Relacin
menos fuerte

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

201

ESTADSTICA - ANALISIS DE RELACIONES

Descripcin de un Diagrama de Dispersin


Observaciones atpicas

y
Observacin
atpica

Observacin
atpica

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

202

ESTADSTICA - ANALISIS DE RELACIONES

Ejemplo 1: Herencia de la Altura


En el perodo 1893-1898
1893 1898 Pearson organiz la recoleccin de
las alturas de n=1375 madres de menos de 65 aos en el
Reino Unido y la altura de una de sus hijas de ms de 18
aos de edad. El inters era estudiar la relacin de la altura
de madre,
madre tomada como variable regresora, y la de hija
tomada como variable de respuesta.

65
55

60

Altura HIJAS

70

75

Figura 1: Diagrama de Dispersin

55

60

65

70

75

Altura MADRES
(en Pulgadas)

Forma: la forma de la relacin entre la altura de hijas y


madres parece ser lineal.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

203

ESTADSTICA - ANALISIS DE RELACIONES

65
55

60

Altura HIJAS

70

75

Figura 1: Diagrama de Dispersin

55

60

65

70

75

Altura MADRES
(en Pulgadas)

Direccin:
Di
i El tipo
ti
d relacin
de
l i entre
t las
l alturas
lt
d
de
madre e hija es positiva, es decir, que en general a
madres altas corresponden hijas altas y viceversa.
Fuerza: Si la
F
l relacin
l i entre
t altura
lt
d hija-madre
de
hij
d es
lineal, la fuerza de la relacin quedara determinada
por lo cerca que quedan los puntos de una lnea
recta imaginaria. En este caso, la relacin no sera
muy fuerte.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

204

ESTADSTICA - ANALISIS DE RELACIONES

Otras observaciones
Como las alturas de madres e hijas estn medidas en la
misma unidad de longitud (pulgada). Si la relacin fuera
lineal y perfecta, los puntos estaran exactamente en una
lnea de 45.
Para valores fijos de altura de la madre, la variabilidad
en la altura de la hija parece ser aproximadamente la
misma. (ver fig. 2)

65
55

60

Altu
ura HIJAS

70

75

Figura 2: Madres de 59, 61, 63, 65 y 67 pulgadas

55

60

65

70

75

Altura MADRES

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

205

ESTADSTICA - REGRESIN LINEAL SIMPLE

Ejemplo 2: Prediccin de Cantidad de Nieve


La cantidad de nieve cada en las nevadas desde el 1 de
septiembre hasta el 31 de diciembre puede predecir la
cantidad de nieve que caer en las nevadas del resto de la
temporada (desde el 1 de enero hasta 30 de junio)?. La
figura 3 muestra la precipitacin de nieve (en pulgadas)
ocurridas en n = 93 aos en Ft. Collins (Colorado)1 . La
relacin entre las nevadas tardas y las tempranas parece
ser dbil y el grfico sugiere que las precipitaciones de la
primera p
p
parte de la temporada
p
no tienen relacin con la
cantidad cada en el resto de la temporada.

50
40
30
20
10
0

Ca
ant. de nieve caida enero--junio (pulgadas)

60

Figura 3: Precipitaciones de Nieve

10

20

30

40

50

60

Cant de nieve caida septiembre-diciembre (pulgadas)


Cant.

Datos de dominio pblico en http//www.ulysses.atmos.colostate.edu

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

206

ESTADSTICA - REGRESIN LINEAL SIMPLE

Ejemplo 3
Se desea establecer la relacin entre el tiempo de recarga
de una mquina de gaseosas (Y: en minutos) y la cantidad
de latas que se colocan (X).
Se visitan 25 lugares escogidos al azar en los hay una
mquina
i
y se anotan
t
l tiempos
los
ti
d recarga y la
de
l cantidad
tid d
de latas colocadas.
Diagrama de Dispersin
14

12

Tiempo

10

0
2

10

12

14

16

18

20

22

24

26

28

30

32

Cant_Latas

El diagrama de dispersin correspondiente al ejemplo


presenta una nube de puntos relativamente alineada, lo
que parece indicar que el tiempo de recarga tiene una
relacin lineal con la cantidad de latas colocada.
colocada
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

207

ESTADSTICA - CORRELACIN

Correlacin
El diagrama de dispersin
nos permite ver la fuerza de una
relacin lineal , pero es fcil engaar a la vista cambiando
de escala. Necesitamos una medida numrica que
complemente al grfico: esta medida es el coeficiente de
correlacin
l i .

Coeficiente de Correlacin
El coeficiente
f
de correlacin muestral mide la fuerza y
la direccin de la relacin lineal entre dos variables
cuantitativas X e Y. Se simboliza con la letra r y se calcula
mediante:
1 n
( x i X )( y i Y )
n
cov( x , y )
i =1
r =
=
S ( x ). S ( y )
n
1
2
2
(x X ) (y Y )
i
n i =1 i

n
x y nXY
i i
cov( x, y )
1
i
=
r=
=
S ( x)).S ( y )
( x 2 nX 2 )( y 2 nY 2 )
i
i

1 n xi x yi y

r=

n 1 i =1 s ( x) s ( y )
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

208

ESTADSTICA - CORRELACIN

Caractersticas de r
1. El coeficiente
f
de correlacin es ppositivo cuando
existe una relacin lineal positiva entre X e Y; es
negativo cuando existe una relacin lineal negativa.

2. No hace ninguna distincin entre variable explicativa y


variable de respuesta.
respuesta X e Y tienen el mismo rol.
rol
3. Como r utiliza los valores estandarizados de las
observaciones (ver ltima frmula) , no cambia de
valor, si se modifican las unidades de medida de X e Y.
El coeficiente no tiene unidades.

r toma valores entre -1 y 1.


de r cercanos a cero indica

4. El coeficiente

Valores
una relacin
lineal muy dbil.
La fuerza de la relacin lineal aumenta a medida
que r se aleja de 0 y se acerca a -1 o a 1.
Valores
l
d r prximos
de

a -1 o a 1 indican
d
que las
l
observaciones se hallan muy alineadas.

Los valores lmite r = -1 y r = 1 solo se dan


cuando existe una relacin lineal perfecta y los
puntos del diagrama estn exactamente sobre una
recta.
5. El coeficiente r mide unicamente la fuerza de una
relacin lineal entre X e Y No describe relaciones
curvilneas entre variables, aunque sean muy fuertes.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

209

ESTADSTICA - CORRELACIN

Diagramas de dispersin y valor de r


y

Sin relacin
r =0

Relacin No lineal
r=0
y

Relacin positiva fuerte


r = 0,85
0 85

Relacin positiva dbil


r = 0,29
0 29

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

210

ESTADSTICA - CORRELACIN

Diagramas de dispersin y valor de r


y

Relacin negativa moderada


r = -0,5
0,5
y

Relacin negativa fuerte


r =-0,9
0,9

r = -1
r =1
x

Relacin p
positiva
perfecta

Relacin negativa
g
perfecta

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

211

ESTADSTICA - CORRELACIN

Ejemplo
En el conjunto de datos del ejemplo 3 correspondiente al
tiempo de recarga de la mquina el valor del coeficiente de
correlacin es: r = 0,961.
Diagrama de Dispersin
14

12

Tiempo

10

0
2

10

12

14

16

18

20

22

24

26

28

30

32

Cant_Latas

El signo positivo indica que existe relacin lineal positiva.


El valor cercano a 1 indica q
que la relacin es fuerte.
Resumiendo: Si r = 0,961 entonces hay una fuerte
relacin lineal positiva entre el tiempo de recarga y la
cantidad de latas colocadas.
colocadas
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

212

ESTADSTICA - REGRESIN LINEAL SIMPLE

Modelo de Regresin Lineal Simple


A menudo suponer una relacin lineal entre las dos
variables es un supuesto razonable, al menos en el
intervalo de valores observado, o puede adoptase este
supuesto como una primera aproximacin simplificada del
fenmeno que se estudia.
estudia En este sentido,
sentido el modelo lineal
simple tiene cierta importancia prctica.
Suponiendo una relacin lineal entre ambas, la ecuacin de
la recta es:

yi = + xi

Donde y son los parmetros a estimar a partir de los


datos bidimensionales y corresponden a la ordenada al
origen y la pendiente de la recta respectivamente.
Diagrama de Dispersin
14

12

Tiempo

10

0
2

10

12

14

16

18

20

22

24

26

28

30

32

Cant_Latas

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

213

ESTADSTICA - REGRESIN LINEAL SIMPLE

En general los puntos no caen sobre la recta, para tomar


esto en cuenta llamaremos error y lo denotaremos a la
diferencia entre la recta y el valor observado yi.
Se debe pensar que
una variable aleatoria
ajusta exactamente a
formado por efectos
medicin, etc.

es un error estadstico, es decir, es


que explica porqu el modelo no
los datos. Este error puede estar
de otras variables, errores de

El modelo de regresin
g
lineal simple
p es:

yi = + xi + i

La variable Y es la variable de respuesta y la X la variable

de prediccin, mientras que y son llamados


coeficientes de regresin.
Los errores i conforman la parte aleatoria del modelo. i
es la parte de yi que no est explicada por la regresin
lineal de Y sobre X .
Supuestos sobre los Errores:
En relacin a los errores del modelo se hacen los
siguientes
g
supuestos:
p
Esperanza nula E(i) = 0
i ~ N (0, 2 )
Variancia constante V(i) = 2
Tienen una distribucin Normal
Son independientes entre s

cov(( i , j ) = 0 i j

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

214

ESTADSTICA - REGRESIN LINEAL SIMPLE

Supuestos sobre el Modelo:


Los supuestos en los errores se traducen en los
siguientes supuestos del modelo:
La variable predictora
X
toma valores fijos
predeterminados por el investigador.
Para cada
d valor
l fijo
f de
d X , la
l variable
bl Y se distribuye
d
b
en
forma normal .
La relacin entre las variables X e Y es lineal , es decir,
p
media de Y p
para cualquier
q
valor de X se ubica
la respuesta
sobre la recta. La media de Y es una funcin de X.

E (Y / xi ) = Y / x i = E ( + xi + i ) = + xi
La variancia de Y es constante e igual a la variancia del
error para cualquier valor de X, es decir no depende del
valor de X (homocedasticidad)

V (Y / xi ) = V ( + xi + i ) = V ( i ) = 2

Los valores observados de la variable de respuesta no


estn estadsticamente correlacionados:

cov(Yi , Y j ) = 0 , i j
Resumiendo: La hiptesis
p
de distribucin normal de los
errores y la de homocedasticidad traen como consecuencia
inmediata
la distribucin normal de la variable Y
condicionada a un valor fijo X = xi .
2
Si i ~ N (0, )

Y / xi ~ N ( + .xi , 2 )

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

215

ESTADSTICA - REGRESIN LINEAL SIMPLE

E(Y/x0)

E(Y/x1)

Y / x = + x

+ x1
+ x0
Distribucin de Y/x1

x0

x1
Distribucin de Y/x0

Observaciones
Se puede interpretar como el cambio promedio de Y
cuando X cambia en una unidad.
La variancia del error 2 mide la variabilidad o ruido de
las observaciones alrededor de la recta.
recta
Cuando 2 es pequea las observaciones estarn
relativamente cercanas a la recta,
Cuando 2 es grande las observaciones estarn
alejadas de la recta.
ecta
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

216

ESTADSTICA - REGRESIN LINEAL SIMPLE

Violacin de Supuestos
Errores no independientes (autocorrelacin)

cov( i , j ) 0 i j
Variancia del error no constante (heterocedasticidad),
es decir,
d i 2 depende
d
d del
d l valor
l
d X y trae
de
t
como
consecuencia que la variancia de Y condicionada a un
valor de X tampoco es constante sino que depende de
dicho valor.
Distribucin no normal de los errores.

X es variable aleatoria , lo que significa que no han


sido predeterminados los valores de X .

Variancia no
Constante:
la dispersin
de Y depende
p
del valor de X

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

217

ESTADSTICA - REGRESIN LINEAL SIMPLE

Estimacin de la recta de regresin


Uno de los mtodos utilizado para estimar y es el
mtodo de Mnimos Cuadrados (MC). Con este mtodo
las distancias verticales de las observaciones a la recta son
lo ms pequeas posibles.
posibles Para obtener los estimadores
por MC de y se partir de un conjunto de n pares
ordenados (x1 , y1) , (x2 , y2) , ... , (xn , yn) .
El mtodo MC considera las desviaciones entre las
observaciones yi y los valores obtenidos por medio de la

recta estimada. Determina los estimadores de y como


aquellos que minimizan la suma de cuadrados de estas
d i i
desviaciones
o residuos
id
.
Utilizaremos la notacin

y i = a + bxi

p
para
referirnos al estimador de la recta de regresin
g
poblacional
E(Y/x) = Y/x = +.x
donde:
)
)

a =

b=

son los estimadores mnimo cuadrticos de los


coeficientes de regresin y sern funciones de las n
observaciones.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

218

ESTADSTICA - REGRESIN LINEAL SIMPLE

Respuesta = Y

El siguiente diagrama de dispersin presenta una situacin


hipottica basada en 20 datos bidimensionales. Tambin
est representada la recta de obtenida por Mnimos
Cuadrados.

-1

Los residuos son los


segmentos verticales
0

Predictor = X

El i-simo residuo es:

ei = yi y i = yi + xi = yi (a + bxi )
La suma de cuadrados de los residuos es:
n

n
) 2
2
e
=
(
y

y
)
=
(
y

bx
)
i i i
i
i =1

2
i

i =1

i =1

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

219

ESTADSTICA - REGRESIN LINEAL SIMPLE

Derivando respecto de a y respecto de b e igualando a


cero se obtienen
bti
l llamadas
las
ll
d ecuaciones
i
normales
l :
n

y
i =1

= na + b xi

x y

i =1

i =1

i =1

i =1

a = y b x

en la segunda ecuacin y resolver para b

b=

= a xi + b x 2

Dividiendo la primera por n se obtiene a:


Al sustituir a
resulta:

(x x )( y
i

i =1

y)

(xi x )

i =1

Otra frmula para calcular b es:

x y
i

i =1

n x y

2
2
x

n
x
i
i =1

s( y)
b=r
s ( x)

Donde r es coeficiente de correlacin , s(y) y s(x) son los


desvos de X e Y respectivamente.

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

220

ESTADSTICA - REGRESIN LINEAL SIMPLE

Aplicando las ecuaciones de los estimadores de


mnimo
i
cuadrados
d d
a los
l
d t
datos
d l ejemplo
del
j
l 3,
3
donde:
Y: tiempo de recarga de la mquina de
gaseosas ((en min))
g
X: cantidad de latas colocadas en la misma,
resulta la siguiente recta de regresin estimada:
Diagrama de Dispersin
14

y i = 1,125 + 0,36 xi

12

Tiempo

10

0
2

10

12

14

16

18

20

22

24

26

28

30

32

Cant Latas
Cant_Latas

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

221

ESTADSTICA - REGRESIN LINEAL SIMPLE

Interpretacin de b
En general el signo de b indica el tipo de relacin lineal
entre X e Y, se pueden dar tres casos:
b> 0 Existe una relacin lineal positiva entre X e Y
b< 0 Existe una relacin
lineal negativa entre X e Y
b= 0 NO Existe una relacin lineal entre X e Y
y

Relacin lineal positiva

b>0

Relacin lineal negativa

No hay relacin lineal

b<0

b=0

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

222

ESTADSTICA - REGRESIN LINEAL SIMPLE

En el ejemplo de recarga de la mquina de gaseosas, la


pendiente de la recta ajustada result b = 0,36 su
interpretacin es :
Como b > 0 Existe una relacin lineal positiva
entre el tiempo de recarga (Y) y la cantidad de latas
colocadas
l
d (X)
Por cada lata que se coloca en la mquina, el tiempo
de recarga aumenta en promedio 0,36 minutos.

Interpretacin de a
La ordenada al origen de la recta de regresin a, es la
estimacin del valor esperado de Y cuando X=0.
Como coeficiente de regresin,
regresin a tiene menor importancia
que b, dado que:
1. La validez del modelo est limitada al rango de
valores observados. Cuando X se observ en un rango
alejado de X = 0, a es una extrapolacin y es
peligroso dar una interpretacin.
2. Es frecuente que la interpretacin de a no tenga
sentido
tid en relacin
l i all problema
bl
que se estudia.
t di
En el ejemplo del tiempo de recarga no interpretaremos
el valor de a = 1,125 por los motivos 1 y 2 recin
sealados.
l d
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

223

ESTADSTICA - REGRESIN LINEAL SIMPLE

Algunas caractersticas de la regresin


1. En regresin la distincin entre variable explicativa o
regresora y variable de respuesta es fundamental. Si
cambiamos los papeles de las variables obtenemos una
recta distinta: la recta de regresin
g
de X sobre Y es:

xi = a '+b' yi

a' = x b' y

Donde:
n

b' =

(x x )( y
i

i =1

y)

( yi y )

x y
i

i =1

i =1

n x y
=r

2
2
y

n
y
i

s( x)
s( y )

i =1

2. Existe un estrecha relacin entre el coeficiente de


correlacin r y las pendientes b y b de las rectas
estimadas.
i d

s( y)
b=r
s ( x)

s ( x)
b' = r
s( y)

El signo de b,
b b
b y r es el mismo
3. Otra relacin importante es:

b b' = r 2

4. Ambas rectas de regresin estimadas


pasan por el punto:
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

(x, y )
224

ESTADSTICA - REGRESIN LINEAL SIMPLE

Residuos
La
ad
diferencia
e e ca e
entre
tee
el valor
a o obse
observado
ado y e
el valor
a o est
estimado
ado
se llama residuo o residual

ei = yi y i = yi (a + bxi )

Se representan graficamente como la distancia vertical


entre cada observacin y la recta de regresin ajustada.
ajustada
Los residuos tienen un papel importante para investigar la
adecuacin del modelo y para detectar diferencias
respecto a los supuestos.

Estimacin de 2

Un estimador insesgado
g
de la variancia del error 2 se
obtiene como promedio de los cuadrados de los residuos
respecto de la recta ajustada y recibe el nombre de
n
2
variancia residual:

e2 = S e2 = SY2 x =

( yi y i )
i =1

n2

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

225

ESTADSTICA - REGRESIN LINEAL SIMPLE

Desvo Estndar Residual


La raz
cuadrada de la variancia residual se llama desvo
d
estndar residual, mide la dispersin de las
observaciones respecto de la recta ajustada y est
p
en las mismas unidades q
que la variable Y.
expresado
Valores pequeos del desvo estndar residual indican que
las observaciones estn prximas a la recta de regresin
ajustada y
valores grandes indican que hay mucha
di pe in de las
dispersin
l observaciones
ob e
ione en relacin
el in a la
l recta.
e t
En el ejemplo 3: recarga de la mquina de gaseosas, la
variancia residual y el desvo estndar residual son:
n

e2 = S e2 =

(
)
y
y

i i
i =1

n2

= 0,8537

S e = S e2 = 0,924

Variancia Residual vs Variancia Total


La Variancia Total estima la dispersin de Y sin la
n
intervencin de X. Su frmula es:
2

S y2 =

(y
i =1

y)

n 1

Los siguientes grficos presentan los desvos de las


observaciones yi respecto de:
la media muestral y
la recta de regresin estimada y i
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

226

ESTADSTICA - REGRESIN LINEAL SIMPLE

Si X no explica nada de la variabilidad de Y, entonces:


Sy2 = Se2, ya que recta
t de
d ajustada
j t d coincide
i id con la
l media
di
muestral de Y. En este caso, la regresin de Y sobre X
no tiene sentido porque no estn relacionadas.
Si Y tiene relacin con X, entonces la influencia de X
explica cierta parte de la variabilidad de Y que antes no
estaba explicada. En este caso los desvos respecto de la
recta ajustada sern menores que los desvos respecto
de la media de Y, resultando: Sy2 > Se2
Comparando la variancia residual Se2 con la variancia total
Sy2 que siempre se verifica que: Sy2 Se2.
Cuanto menor sea el valor de Se2 , ms relacionadas estn
las variables, llegando al extremo de ser Se2 = 0 cuando
X e Y estn perfectamente relacionadas, ya que esto
significara que toda la variabilidad de Y est explicada
por la variabilidad de X.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

227

ESTADSTICA - REGRESIN LINEAL SIMPLE

Coeficiente de Determinacin
En el siguiente diagrama de dispersin se puede ver que
el desvo de cualquier observacin respecto de la media
puede descomponerse en dos partes:

La porcin del desvo que est explicada por X: ( y i y )


fraccin del desvo no

400

El residuo, corresponde a la
explicada por X: ( yi y i )

350

yi

Media muestral de Y

200

250

300

( yi y )

( yi y i )
( yi y )

150

Recta de Regresin Ajustada

0.0

0.1

0.2

0.3

0.4

Con esta descomposicin cada desvo es:

( yi Y ) = ( yi y$i ) + ( y$i Y )
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

228

ESTADSTICA - REGRESIN LINEAL SIMPLE

La variabilidad total es la suma de los cuadrados de los


desvos (respecto de y). Luego, elevando cada desvo al
cuadrado y sumando los n desvos del conjunto de datos.

( yi Y ) 2 = [( yi y$i ) + ( y$i Y ) ]
( yi Y )
n

i =1

[
i =1

= ( yi y$ i ) + ( y$ i Y )
n

Mediante pasos algebraicos se llega a:

( yi Y ) = ( yi y$ i ) + ( y$ i Y )
n

i =1

i =1

Suma de
Cuadrados
Totall

i =1

Suma de
Cuadrados No
Explicada
l d

Suma de
Cuadrados
Explicada
l d

SCT = SCNE + SCE


Dividiendo por la Suma de Cuadrados Total:

SCT SCNE+ SCE


SCNE SCE
1=
+
=
SCT
SCT
SCT
SCT
Se llama coeficiente de determinacin a la cantidad:

r2 =

SCE
SCNE
= 1
SCT
SCT

El coeficiente r2 mide el porcentaje de la variabilidad total


de Y que es explicada por X o atribuible a un efecto lineal
de X sobre Y.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

229

ESTADSTICA - REGRESIN LINEAL SIMPLE

Interpretacin de r2
Dado que:
Si

0 SCE SCT 0 r 2 1

r 2 = 0 SCE = 0 SCNE= SCT

X no explica nada de
la variabilidad de Y

r 2 = 1 SC
SCE = SC
SCT SCN
SCNE = 0

300
Y
250
200
150

Toda la
variabilidad de Y
est explicada
por X

350

400

Si

0.0

0.1

0.2

0.3

0.4

En el ejemplo de recarga de la mquina: r2 = 0,9236


Es decir,
decir el 92,36%
92 36% de la variabilidad del tiempo de recarga
est explicado por la cantidad de latas colocadas.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

230

ESTADSTICA - REGRESIN LINEAL SIMPLE

Observaciones

El coeficiente de determinacin se expresa en


porcentaje e indica la fraccin de la variacin de Y que
es explicada por la recta de regresin.

Cuando existe una relacin lineal,


lineal parte de la variacin
de Y se explica por el hecho de que cuando X cambia
tiene un efecto lineal sobre Y.

El coeficiente de determinacin es una medida de la


bondad de X para explicar a Y.

Relacin entre r y r2
El coeficiente
fi i t de
d correlacin
l i r describe
d
ib la
l di
direccin
i y
fuerza de una relacin lineal. El cuadrado de r es el
coeficiente de determinacin r2.
Es usual elevar el coeficiente de correlacin al cuadrado
para tener una idea ms precisa del efecto de X sobre Y.
Si r = 1 significa que todos los puntos se hallan
perfectamente alineados. En este caso r2 = 1, es decir
t d la
toda
l variacin
i i de
d Y est
t explicada
li d por la
l relacin
l i
lineal con X.
Si r = 0,7, entonces r2 = 0,49 es decir
aproximadamente la mitad de la variacin de Y est
explicada por X.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

231

ESTADSTICA - REGRESIN LINEAL SIMPLE

Pruebas de Hiptesis para


Supongamos que se desea probar la hiptesis que la
pendiente es igual a un cierto valor 0, las hiptesis que
se pueden contrastar son:

H1 : < 0

H 0 : = 0

H1 : > 0

versus

H1 : 0

Como las observaciones cambian de una muestra


aleatoria
l
i a otra, b es una variable
i bl aleatoria
l
i cuya
distribucin es:

b N ;

(x x )

N (0; 1)

2
(
)

x
x
i

Si reemplazamos
l
e por su estimador
ti d
l distribucin
la
di t ib i
con n-2 grados de
resultante es una t-Student
libertad. Suponiendo H0 verdadera, el estadstico de
prueba es:

T=

b 0

Se

b 0
=
tn2
Sb

2
(
)

x
x
i
i =1

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

232

ESTADSTICA - REGRESIN LINEAL SIMPLE

Donde Sb es el desvo
estndar de b

Sb =

Se
n

2
(
)
x

i =1

Prueba de significacin de la regresin


Un caso especial muy importante de prueba para es el
que contrasta la significancia
q
g
de la regresin.
g
Las
hiptesis que se pueden formular son:

H 1 : < 0 Hay relacin lineal negativa

H0 : = 0

versus

H 1 : > 0 Hay
H relacin
l i lineal
li
l positiva
iti
H 1 : 0 Hay relacin lineal

No hay relacin
lineal ent
entre
eXeY
En el ejemplo de los tiempos de recarga nos interesa
contrastar la existencia de una relacin directa o
positiva entre la cantidad de latas colocadas en la
mquina y el tiempo que insume la recarga:

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

233

ESTADSTICA - REGRESIN LINEAL SIMPLE

Paso 1: Enunciar las hiptesis adecuadas a la situacin

H0 : = 0

No hay una relacin lineal entre la


cantidad de latas colocadas y el
tiempo de recarga.

H0 : > 0

Hay una relacin lineal directa entre


la cantidad de latas colocadas y el
tiempo de recarga.

Paso 2: Establecer el nivel de significacin de la prueba


Utilizaremos:

=0,05

Paso 3: Identificar el estadstico de prueba o variable

pivotal

b 0
tn2
T=
Sb
Suponiendo H0 verdadera, el estadstico de prueba es:

b
T=
t13
Sb

Variable
pivotal

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

234

ESTADSTICA - REGRESIN LINEAL SIMPLE

Paso 4: Enunciar la regla de decisin

0
NoRH0

tc

T
RH0

Valor Crtico

P (T > tc ) = 0,05 tc = t13, 0.05 = 1,771


Regla de Decisin

Si tObs tc es decir, si tObs 1,771 RH 0

Si tObs < tc es decir, si tObs < 1,771 NoRH 0


Paso 5: Calcular el valor observado del estadstico de
prueba

tObs =

0,36
b
=
= 12,54
S b 0,029

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

235

ESTADSTICA - REGRESIN LINEAL SIMPLE

Paso 6: Efectuar el test


Como tObs > tc nuestra decisin es Rechazar
nivel de significacin del 5%.

H0 a un

Paso 7: Enunciar las conclusiones


A partir de los datos muestrales, se ha encontrado
evidencia que permite afirmar que hay una relacin lineal
directa entre la cantidad de latas colocadas y el tiempo
de recarga de la mquina.
mquina

Distribucin de la recta de regresin estimada


Dado que a y b, los estimadores minimo cuadrticos de los

coeficientes de regresin,
regresin son variables aleatorias cuyos
valores fluctan de una muestra a otra, la recta de
regresin estimada tambin es una variable aleatoria, en
consecuencia tiene una distribucin muestral:

y i N ( + xi ; y )

Recta de
regresin
estimada

y = e

donde

y i = a + bxi
1
+
n

(xi x )2
n
2
(
)
x

x
i
i =1

Desvo de la
recta de
regresin
estimada

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

236

ESTADSTICA - REGRESIN LINEAL SIMPLE

Si

y i N ( + xi ; y )

y i ( + xi )

N (0;1)

Generalmente se desconoce el valor de e y se lo estima


con el desvo estndar residual muestral Se. Luego:

y i ( + xi )
tn2
s y

donde

S y = y = e

1
+
n

(xi x )2
n
2
(
)

x
x
i

= Se

1
+
n

i =1

(xi x )2
n
2
(
)
x

x
i
i =1

Intervalo de confianza para la respuesta media


Una aplicacin
p
muyy importante
p
del modelo de regresin
g
es
estimar el valor esperado de Y para un valor dado de X.
Sea x0 el valor de la variable regresora para el que se desea
estimar Y/x0.
Se supone que x0 es cualquier valor de x dentro del
intervalo de datos originales que se usaron para ajustar el
modelo.
Un estimador puntual de Y/x0
Y/ 0 es:

y x0 = a + bx0

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

237

ESTADSTICA - REGRESIN LINEAL SIMPLE

La variable pivotal para construir el intervalo de confianza


es:

y x0 Y

T=
Se

x0

2
1

(
)

x
x
0
+

n x 2 nx 2

tn2

Un intervalo del 100(1-)% de confianza para Y/x0 es:

y x0 t n 2; / 2 S y Y
donde

S y = S e

x0

1
+
n

y x0 + t n 2; / 2 S y

(x0 x )2
n
2
(
)
x

x
i
i =1

Supongamos que deseamos estimar el tiempo medio de


recarga de la mquina para todas las ocasiones en que se
colocan 20 latas de gaseosas, es decir, el tiempo medio
para x0 = 20. El estimador puntual de Y/x0 es:

y x0 = a + bx0 y 20 = 1,125 + 0,36 20 = 8,318

t13; 0,025 = 2,16


1 (20 15,86 )
S y = 0,924
+
= 0,2448
15
4814
2

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

238

ESTADSTICA - REGRESIN LINEAL SIMPLE

El intervalo del 100(1-)% de confianza para

7,789 Y

x0 = 20

Y/x0 es:

8,846

Se estima que cuando se colocan 20 latas en la mquina el


tiempo medio de recarga estar entre 7,789 y 8,846
minutos con un 95% de confianza.
confianza

Intervalo de prediccin
En prediccin,
prediccin tenemos un nuevo caso,
caso posiblemente un
valor futuro, no usado para estimar los parmetros del
modelo. Este valor nuevo (o futuro) x0, est dentro del
rango de valores observados de X. Deseamos predecir el
valor y0 que podra asumir la respuesta Y, el cual tampoco
ha sido observado.
Es posible usar la funcin media estimada para predecir a
y0. Suponemos
S
que la
l estimacin
ti
i de
d la
l funcin
f
i media
di es
relevante para el nuevo caso, es decir, que el ajuste es
vlido para l.
El estimador puntual de y0 es:

y 0 = a + bx
b 0

Para obtener un intervalo de prediccin para y0 es


necesario estimar la variancia de las diferencias : yi y i

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

239

ESTADSTICA - REGRESIN LINEAL SIMPLE

Esta variable tiene dos fuentes de variacin:


La variacin en la estimacin de la recta
La variacin debido a que y0 es una observacin, en
general , no ser igual a su esperanza, una observacin
tiene la variacin de los errores i.

( xi x ) 2
)
2
2 1
V ( yi y i ) = V ( yi ) + V ( yi ) = e + e +
2
n ( xi x )
1
( xi x ) 2
V ( yi y i ) = 1 + +
2
n ( xi x )
Adems:
2
e

E ( yi y i )= E ( yi ) E ( y i ) = + xi ( + xi ) = 0
Por ser diferencia de variables normales,
tiene distribucin normal:

yi y i

(
x

x
)
1
i
yi y i ~ N 0 , e . 1 + +
2

n
(

)
x
x

Como e es desconocido: S

2
y0 y 0

yi y i

T=
se . 1 +

( xi x )
1
+
n ( xi x ) 2
2

( x0 x ) 2
1
= S .1 + +
2
n ( xi x )
2
e

~ tn2

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

240

PROBABILIDAD Y ESTADSTICA - REGRESIN LINEAL SIMPLE

El intervalo de prediccin del 100(1-)% de confianza para


y0 es:

y x0 t n 2; / 2 S y0 y 0 y0 y x0 + t n 2; / 2 S y0 y 0
Ejemplo
Supongamos que deseamos estimar el tiempo de recarga
de la mquina si se colocan 20 latas de gaseosa, es decir, el
tiempo para x0 = 20.
20
El estimador puntual de y0 es:

y x0 = a + bx0 y x0 = 1,125 + 0,36 20 = 8,318

t13; 0,025 = 2,16


1 (20 15,86 )
= 0,924 1 + +
= 0,9558
15
4814
2

S y0 y 0

6,253 y0 10,382
Si se colocan 20 latas en la mquina el tiempo de
recarga estar entre 6,253 y 10,382 minutos con el 95%
de confianza.
UNIVERSIDAD NACIONAL DEL COMAHUE
Departamento de Estadstica - Prof. Luis Arenas

241

ESTADSTICA - REGRESIN LINEAL SIMPLE

Y/x0 como el
de prediccin tienen amplitud mnima cuando: x0 = x
Tanto el intervalo de confianza p
para la media

En este valor la variancia de ambos estimadores es mnima.

Variancia
estimada de la
recta

Variancia
estimada de una
observacin
futura

2
1
(
)
x
x

S y2 = S e2 + n 0

n ( xi x )2

i =1

2
y0 y 0

1
( x0 x ) 2
= S .1 + +
2
n ( xi x )
2
e

El intervalo de prediccin siempre es ms ancho que el


intervalo de confianza para la media Y/x0, porque
depende tanto de la variabilidad de la recta de regresin
muestral como de la variabilidad de una observacin y0 .

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

242

ESTADSTICA - REGRESIN LINEAL SIMPLE

Tiempo = 1,1246+0,3597*x
14

12

Franjas de
intervalos
de
confianza

0
2

10

12

14

16

18

20

22

24

26

28

30

32

Cant_Latas

Tiempo = 1,1246+0,3597*x
14

Franjas de
intervalos
de
prediccin

12

10

Tiempo

Tiempo

10

0
2

10

12

14

16

18

20

22

24

26

28

30

32

Cant Latas
Cant_Latas

UNIVERSIDAD NACIONAL DEL COMAHUE


Departamento de Estadstica - Prof. Luis Arenas

243

Вам также может понравиться