Вы находитесь на странице: 1из 13

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

ANALISIS DE REGRESION.
INTRODUCCION.
Muchos problemas se dan con dos o ms variables que estn relacionadas y ser interesante
modelar estas relaciones para predecir, optimizar y/o controlar el proceso.
Para una variable dependiente o de respuesta de k variables independientes o de regresin
( x1, x2, ..., xk ), la relacin se caracteriza para un modelo matemtico llamado regresin, el cual
se ajusta a un conjunto de datos mustrales.
Donde en la mayora de los casos la relacin funcional se desconoce y el investigador debe elegir
una funcin apropiada para aproximar.
y = ( x1, x2, ... , xk ).
Mediante polinomios se analiza el ajuste de datos.
El ANDEVA ( ANlisis DE VArianza ) ayuda a determinar que factores son importantes con
respecto a la respuesta en el experimento.
REGRESION LINEAL SIMPLE.
Determina la relacin entre una sola variable de regresin ( x ) y la respuesta ( y ).
Usualmente la variable de regresin es continua y controlable por el experimentador, entonces,
se eligen los valores de x y se observan los valores correspondientes de y.
Se supone que la relacin real entre x e y es una lnea recta y que la observacin y a cada
nivel de x es una variable aleatoria.
El valor esperado de y para cada valor de x es :
Donde los parmetros

E ( y / x ) = o +

son constantes desconocidas.

Cada observacin y se describe mediante y = o +


donde e : es un error aleatorio con
no correlacionadas.

1 x

=0

1 x

= 1, constituye un conjunto de variables aleatorias

El modelo que contiene una sola variable de regresin se conoce como:


MODELO DE REGRESIN LINEAL SIMPLE.
Los parmetros del modelo o y 1 pueden estimarse mediante mnimos cuadrados si se tienen
n pares de datos :
( y1, x1 ), ( y2, x2 ), ... , ( yn, xn )
por lo tanto
1

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

yi = o + 1 xi + ei

= 1, 2, ... , n:
n

Donde la funcin de mnimos cuadrados es:

L =

ei

i=1

( yi - o - 1 xi )

i=1

Despus de simplificar los estimadores de mnimos cuadrados de


ecuaciones normales de mnimos cuadrados.
n
_
yi ( xi - x )
1 n
_
i=1
'o = ---- yi = y
1 = ------------------n i=1
n
_
( xi - x )

se obtienen las

i=1

Donde o y 1 son los estimadores de mnimos cuadrados de la ordenada en el origen y la


pendiente de la recta respectivamente.
El modelo ajustado de regresin lineal simple
Y = 'o
donde

_
+ 1 (x - x )

_
o = 'o - 1 x es el modelo ajustado en la ordenada
Y = o +

El modelo ajustado es

Sxy
= --------- =
Sxx

1 x

Suma de cuadrados corregida de los productos x e y


------------------------------------------------------------------Suma de cuadrados corregida de x
n

(
_
Sxx = ( xi - x ) =
n

i=1

xi )

i=1

xi
i=1

- ------------n
n

xi ) ( yi )
n

Sxy =
i=1

_
yi ( xi - x ) =

xi yi i=1

i=1

i=1

---------------------n

Estimadores de .Este puede obtenerse usando los residuos

ei = yi - Yi

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

La suma de cuadrados de los residuos o suma de cuadrados del error es


SSe
SSe = ei = ( yi - Yi ) = SSt - 1 Sxy
= ------ MSe
i=1
i=1
n - 2
Donde MSe ( media de cuadrados del error residual ) es un estimador insesgado de .
n

Las relaciones de regresin tienen validez solo para valores de la variable de regresin dentro
del intervalo de los datos originales. Los modelos de regresin nunca deben utilizarse para
extrapolacin.
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE.
Para la pendiente ( 1 ) y la ordenada en el origen ( o ) del modelo de regresin.

Se supone que el error

esta normalmente distribuido

NID ( 0,

).

PRUEBA DE HIPOTESIS DE LA PENDIENTE.


Si

Ho : 1 =
H1 : 1

1.o
1.o

Ho : 1 = 1.o

si

to >

t (/2,

1.o

to = ----------------- MSe / Sxx

el estadstico

tiene una distribucin t con


Se rechaza

n - 2 g.l.

n-2)

PRUEBA DE HIPOTESIS DE LA ORDENADA EN EL ORIGEN


Si

Ho : o =
H1 :

o.o
o o.o

o
el estadstico

Se rechaza

o.o

to = -------------------------------------- MSe

tiene una distribucin

(1/n

_
+ x / Sxx )

con n - 2 g.l.

Ho : o = o.o

si

to >

t (/2,

n - 2 ).

Las hiptesis

Ho : 1 = 0

Aceptar

H1 : 1 0
se relacionan con la significancia de la regresin.
equivale a concluir que no existe una relacin lineal entre x e y.

Ho;

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

Para probar

Ho : 1 = 0

se usan dos enfoques:

Descomponer la suma total de cuadrados corregida de y.


_
( Yi - Y ) =

SSt

i=1

_
( Yi - Y ) +

( yi - Yi )

i=1

i=1

Los dos componentes miden respectivamente la variabilidad de Yi explicada por la recta de


regresin y la variacin residual no explicada por la recta de regresin.
SSe =

( yi - Yi )

se conoce como la suma de cuadrados del error

_
SSr = ( Yi - Yi )
_________________
SSt = SSe + SSr
De

se conoce como la suma de cuadrados de regresin


se conoce como la suma de cuadrados totales

SSt = SSe + SSr


SSe = SSt - 1 Sxy

SSr = SSt - SSt +

SSr = SSt - SSe


SSr = 1 Sxy

1 Sxy

ANDEVA
FUENTE DE
VARIACION

SUMA DE
CUADRADOS
(1)

REGRESION

SSr =

ERROR

SSe = SSt - 1 Sxy

n-2

TOTAL

SSt

n-1

1 Sxy

GRADOS DE
LIBERTAD
(2)

MEDIA DE
CUADRADOS
(1/2)

MSr
MSe =

R Ho

Fo

MSr / Mse

Fo >

f ( , 1, n - 2 )

ESTIMACION POR INTERVALO.


Adems de los estimadores puntuales de la pendiente y la ordenada en el origen, es posible obtener
estimaciones por intervalo de estos parmetros.
Si las

son independientes y normalmente distribuidas.

_
( 1 - b1 ) / MSe / Sxx
( o - bo ) / MSe ( 1 / n + x / Sxx )
tiene una distribucin t con n - 2 g.l.
El intervalo de confianza de 1 -
El intervalo de confianza de 1 -
sobre

es

sobre

es
4

TEMA 6

t ( / 2, n - 2) MSe / Sxx

ANALISIS DE REGRESION LINEAL SIMPLE

_
o t ( / 2, n - 2) MSe ( 1 / n + x / Sxx )

Se puede construir un intervalo de confianza para la respuesta media a un valor especifico x = xo,
conocido como I. de C. Para la recta de regresin.
_
Como E ( y / xo ) = 'o + 1 ( xo - x )
puede obtenerse un estimador puntual de E ( y / xo ) del modelo ajustado mediante
_
E ( y / xo ) Yo = 'o + 1 (xo - x).
Intervalo de confianza ( 1 - ) para la recta de regresin real x = xo
_
Yo t ( / 2, n - 2 ) MSe ( 1 / n + (xo - x ) / Sxx )

es

NOTA
La amplitud del I de C. ( 1 - ) para E ( y / xo ) esta en funcin de xo .
_
_
La amplitud es mnima en xo = x y se hace ms grande a medida que xo - x .
INTERVALO DE PREDICCION.
Es una estimacin por intervalo de promedio de
x = xo.

observaciones futuras a un valor particular de

Es inadecuado usar un intervalo de confianza porque hace referencia a la media real y no a futuras
observaciones de la variable aleatoria.
El intervalo de prediccin del ( 1 - ) para la media de k observaciones futuras en xo, es
_
Yo t ( / 2, n - 2) MSe ( 1 / k + 1 / n + (xo - x ) / Sxx )
El intervalo de prediccin
_
_
tiene una amplitud mnima en xo = x y aumenta a medida que xo - x se incrementa.
El intervalo de prediccin en xo es siempre ms ancho que el intervalo de confianza en xo , ya que
el intervalo de prediccin depende tanto del error del modelo ajustado como del error asociado con
las futuras observaciones.
COMPROBACION DE LA IDONEIDAD. ( Anlisis de residuos ).
Al ajustar cualquier modelo lineal, el anlisis de residuos del modelo de regresin es necesario para
determinar la idoneidad del ajuste.
5

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

Es til examinar la grfica de probabilidad normal, la grfica de los residuos vs los valores ajustados
y la grfica de los residuos vs cada variable de regresin.
xi
20
22
24
26
28
30
32
34
36
38
40
42

yi
8.4
9.5
11.8
10.4
13.3
14.8
13.2
14.7
16.4
16.5
18.9
18.5

Yi
8.8441
9.7573
10.6705
11.5837
12.4969
13.4101
14.3233
15.2365
16.1497
17.0629
17.9761
18.8893

ei
-0.4441
-0.2573
1.1295
-1.1837
0.8031
1.3899
-1.1233
-0.5365
0.2503
-0.5629
0.9239
-0.3893

donde: Yi = o + 1 x
Yi = - 0.2879 + 0.4566 x

ei = yi - Yi

i = 1, 2, .., 12

PRUEBA DE FALTA DE AJUSTE.


A menudo los modelos de regresin se adecuan a los datos cuando no se conoce la relacin
funcional.
Es importante saber si el orden del modelo tentativamente supuesto es correcto a travs de una
prueba para validar esta suposicin por medio de conocer, si hace falta ajuste al modelo de
regresin.
Hiptesis a probar Ho : El modelo se ajusta adecuadamente a los datos.
H1 : El modelo no se ajusta a los datos.
De

SSe

Este se descompone en sus dos componentes:

Donde

SSe = SSep + SSlof


SSep
Suma de cuadrados del error puro del experimento.
SSlof
Suma de cuadrados a la falta de ajuste del experimento.

Para calcular SSep se necesitan varias observaciones de


n observaciones tal que:
Y11,
Y12, ...
Y12,
Y22, ...
.
Ym1,
Ym2, ...

y para al menos un nivel de x y se tengan


,Y1n1 = observaciones repetidas en X1
,Y2n2 =

X2
,Ymnm =

Xm

Se observa m niveles distintos de x


La contribucin a la suma de cuadrados del error puro en Xi es
n
_
( Y1u - Y1 )
6

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE


u=1

La suma total de cuadrados del error puro se obtiene sumando la ecuacin anterior sobre todos los
niveles de x.
m ni
_
Hay n - m g.l. asociados a la suma
SSep = ( Yiu - Yi )
de cuadrados del error puro.
i=1 u=1

La suma de cuadrados de la falta de ajuste es:

SSlof = SSe - SSep


con
n - 2 - ( n - m ) = m - 2 g.l.

El estadstico para probar la falta de ajuste es:


SSlof
-------m - 2
Fo = -------- =
SSep
-------n - m

Se rechaza la hiptesis de idoneidad del


modelo Ho si Fo > f ( , m - 2, n - m ).,
MS lof
---------MSep

Esta prueba se introduce fcilmente en el Andeva


dirigida a la significancia de la regresin.

Si la hiptesis nula de la adecuacin del modelo se rechaza, el modelo debe ser abandonado y
buscarse otro que resulte ms apropiado.
Si Ho no se rechaza, no existe razn para dudar de la adecuacin del modelo.
A menudo, MSep y MSlof se combinan para estimar .
COEFICIENTE DE DETERMINACION.
Se usa para juzgar la adecuacin del modelo de regresin.

SSr

R Es la proporcin de variabilidad de los datos


_
explicada por el modelo de regresin.
( Yi - Y ) R Debe usarse con cuidado porque siempre es posible

R = ---- = ----------------_
SSt
( yi - Y )

hacerla igual a 1, agregando un nmero de trminos al


al modelo.
R Siempre aumenta si se agrega una variable al modelo.
R.- constituye la correlacin simple entre x e y.

EJEMC2P1
Se realizo un estudio para determinar el efecto que tiene la rapidez de mezclado sobre la cantidad de
impurezas en una pintura producida mediante un proceso qumico. El estudio arrojo los siguientes
datos.
Rapidez de agitacin ( x )
20
22
24
26
Impurezas

28

30

32

34

36

38

40

42

(y)
7

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5
a).Presentar el diagrama de dispersin.
b).Calcular los parmetros, as como el modelo de regresin.
c).Obtenga los valores ajustados ( Yi ) y los residuos (ei = yi - Yi ).
d).Construya el Andeva y pruebe la hiptesis de regresin.
e).Obtenga la estimacin por intervalo de la pendiente y la ordenada en el origen.
f).Estimar el I. De C. Para la recta de regresin.
g).Construir el intervalo de prediccin al 95% de las impurezas promedio de los siguientes 2
lotes producidos en xo = 34.
h).Determinar R y R.
RESPUESTAS.
a).Presentar el diagrama de dispersin.
El diagrama de dispersin es til para identificar la relacin entre las dos variables; x e y. Este
diagrama de dispersin sugiere que la relacin es apropiada

b).-

Calcular los parmetros, as como el modelo de regresin.


n

xy

1
2
3
4
5
6
7

20
22
24
26
28
30
32

8.4
9.5
11.8
10.4
13.3
14.8
13.2

400
484
576
676
784
900
1024

70.56
90.25
139.24
108.16
176.89
219.04
174.24

168
209
283.2
270.4
372.4
444
422.4
8

TEMA 6

8
9
10
11
12
n = 12

ANALISIS DE REGRESION LINEAL SIMPLE

34
36
38
40
42
_
xi = 372 x = 31

14.7
16.4
16.5
18.9
18.5

1156
1296
1444
1600
1764

216.09
268.96
272.25
357.21
342.25

_
yi = 166.4 y = 13.87

xi

499.8
590.4
627
756
777
12104

yi = 2435.14

xi yi = 5419.6
Obtenga los valores ajustados ( Yi ) y los residuos (ei = yi - Yi ).

c).-

( xi )

_
Sxx =

( xi

- x ) =

xi

- ---------- = 12104 - ---------- = 572


n
12

( xi ) ( yi )
Sxy =

xi yi

( 372 )

( 372 ) ( 166.4 )

- -------------------- = 5419.6 - -------------------- = 261.2


n
12

Sxy
261.2
= ----- = --------- = 0.4566
Sxx
572

_
'o = Y = 13.87
_
( x - x ) = 13.87 + 0.4566 ( x - 31 )

El modelo ajustado es : Y = 'o + 1


_
o = 'o - 1 x
= 13.87 - ( 0.4566 ) ( 31 ) = - 0.2879

El modelo en trminos de la interseccin

Y = o + 1 x = - 0.288 + 0.4566 x

Los valores ajustados ( Yi ) y los residuos ( ei = yi - Yi )


xi

yi

20
22
24
26
28
30

8.4
9.5
11.8
10.4
13.3
14.8

Yi = o + 1 x = -0.288 + 0.4566 x
8.8441
9.7573
10.6705
11.5837
12.4969
13.4101

ei = yi - Yi
-0.4441
-0.2573
1.1295
-1.1837
0.8031
1.3899
9

TEMA 6

32
34
36
38
40
42
d).-

ANALISIS DE REGRESION LINEAL SIMPLE

13.2
14.7
16.4
16.5
18.9
18.5

14.3233
15.2365
16.1497
17.0629
17.9761
18.8893

1.1233
0.5365
0.2503
-05629
0.9239
-0.3893

Construya el Andeva y pruebe la hiptesis de regresin.


De:

SSr = 1 Sxy = 0.4566 ( 261.2 ) = 119.26


SSt = ( yi ) - ( ( yi ) / n ) = 2435.14 - ( ( 166.4 ) / 12 ) = 127.73
SSe = SSt - SSr = 127.73 - 119.26 = 8.47

ANDEVA
F. De V.

S.S.

G.L

.M.S.

Fo

Regresin

119.26

119.26

119.26
-------- = 140.8
0.847

Error
total

8.47
127.73

10
11

0.847

ANALISIS:

f
f(

0.01, 1, 10)

= 10.04

Ho : no hay significancia en la variacin de la regresin.


H1 : si hay significancia en la variacin de la regresin.

R Ho si Fo > f
Fo > f ?
140.8 > 10.04 ?
Si
por lo tanto se rechaza Ho dado que la variacin de la regresin tiene significancia.

e).-

Obtenga la estimacin por intervalo de la pendiente y la ordenada en el origen,


respectivamente para 1 - = 1 - 0.05 = 95%.

De:

1 t ( /2, n - 2 ) MSe/Sxx
1 = 0.4566
o = -0.288
MSe = 0.847
Para

Sxx = 572
0.4566 2.228

_
o t ( /2, n - 2 ) MSe (1 /n+ x / Sxx)

t (0.05 / 2,

12 - 2)

= t (0.025, 10)

x = ( 31 )

n = 12
0.847 / 572
0.3709

= 2.228

0.4566 0.0857

0.5423

10

TEMA 6

Para

ANALISIS DE REGRESION LINEAL SIMPLE

-0.2879 2.228 0.847 ( 1 / 12 + ( 31 ) / 572 ) -0.2879 2.723


-3.0109

f).-

2.4351

Estimar el I. De C. Para la recta de regresin.

Para ( 1 - 0.05 ) de Yo = -0.288 + 0.4566 xo.


De:

Yo

t ( / 2,

Yo = 2.228

n - 2)

_
MSe ( 1 / n + (xo - x ) / Sxx )

0.847 ( 1 / 12 + (xo - 31 ) / 532 )


Donde:xo = xi
i = 1, 2, ..., 12

Xo

20

Yo

8.84 9.76 10.67 11.58 12.5 13.41 14.32 15.24 16.15 17.06 17.98 18.89

I.de C.

1.11 0.97 0.84 0.73 0.65 0.60 0.60 0.65 0.73 0.84 0.97 1.11

g).-

De:

22

24

28

30

32

34

36

38

40

42

Construir el intervalo de prediccin al 95% de las impurezas promedio de los siguientes k = 2


lotes producidos en Xo = 34.
_
Yo t ( / 2, n - 2 ) MSe ( 1 / k + 1 / n + (xo - x ) / Sxx )
15.2365 2.228

h).-

26

( 0.847 ) ( 1 / 2 + 1 / 12 + ( 34 - 31 ) / 572 )
15.2365 1.587
_
13.6495 Y 16.8235

Determinar R y R.

R = SSr / SSt = 119.26 / 127.73 = 0.9337 El modelo explica al 93.37% de los datos
R =

= 0.9337 = 0.9663

EJMC2P2
n

xy

1
2
3
4
5
6

1.0
1.0
2.0
3.3
3.3
4.0

1.0
1.0
4.0
10.89
10.89
16.0

2.3
1.8
2.8
1.8
3.7
2.6

5.29
3.24
7.84
3.24
13.69
6.76

2.3
1.8
5.6
5.94
12.21
10.4
11

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

7
8
9
10
11
12
13
14
15
16
17

4.0
4.0
4.7
5.0
5.6
5.6
5.6
6.0
6.0
6.5
6.9

x = 74.5

n = 17

x
xy

2.6
2.2
3.2
2.0
3.5
2.8
2.1
3.4
3.2
3.4
5.0

y = 48.4
_
x = 4.382

y = 148.76
Sxx =

16.0
16.0
22.0
25.0
31.36
31.36
31.36
36.0
36.0
42.2
47.61

6.76
4.84
10.24
4.0
12.25
7.84
4.41
11.56
10.24
11.56
25.0

10.4
8.8
15.04
10.0
19.6
15.68
11.76
20.4
19.2
22.1
34.5

x y = 225.73

x = 379.21

_
y = 2.847

- ( x ) / n = 379.21 - ( 74.5 ) / 17 = 52.7

- ( ( x ) ( y ) ) / n = 225.73 - ( ( 74.5 ) ( 48.4 ) ) / 17 = 13.6


_
1 = Sxy / Sxx = 13.6 / 52.7 = 0.258
'o = y = 2.847
_
o = 'o - 1 x = 2.847 - 0.258 ( 4.382 ) = 1.716
Sxy =

Y =

1 ( x )

= 1.716 + 0.258 x

SSr =

1 Sxy

SSt =

y - ( y ) / n

= 0.258 ( 13.6 ) = 3.5


= 148.76 - ( 48.4 ) / 17 = 10.96

SSe = SSt - SSr = 10.96 - 3.5 = 7.46

La suma del error puro se calcula como sigue:


_
_
Nivel de x
yi
( y - yi )

g.l.

1.0

2.05

( 2.3 - 2.05 ) + ( 1.8 - 2.05 )

= 0.125

3.3

2.75

( 1.8 - 2.75 ) + ( 3.7 - 2.75 )

= 1.805

4.0

2.47

( 2.6 - 2.47 ) + ( 2.6 - 2.47 ) + ( 2.2 - 2.47 ) = 0.1066

5.6

2.80

( 3.5 - 2.80 ) + ( 2.8 - 2.80 ) + ( 2.1 - 2.80 ) = 0.980

6.0

3.30

( 3.4 - 3.30 ) + ( 3.2 - 3.30 )

1
_____
7

= 0.02
______________
SSep = 3.0366

Error por falta de ajuste


12

TEMA 6

ANALISIS DE REGRESION LINEAL SIMPLE

SSlof = SSe SSep = 7.46 - 3.0366 = 4.423

g.l. = 8

Andeva
F. De V.

Fo

Regresin

S.S.

3.5

g.l.

M.S.

f( )

3.5

3.5
------- = 7.042
0.497

f( 0.01, 1, 1) = 8.68

0.553
-------- = 1.27
0.434

f( 0.01, 8, 7) = 6.84

Falta de A

4.423

0.553

Error puro
Error

3.036
7.459

7
15

0.434
0.497

total
10.959
Como f > Fo
se acepta Ho, es decir, no hay evidencia que el modelo sea conveniente.
R = SSr / SSt = 3.5 / 10.96 = 0.32
R = R = 0.32 = 0.655

13

Вам также может понравиться