Академический Документы
Профессиональный Документы
Культура Документы
ANALISIS DE REGRESION.
INTRODUCCION.
Muchos problemas se dan con dos o ms variables que estn relacionadas y ser interesante
modelar estas relaciones para predecir, optimizar y/o controlar el proceso.
Para una variable dependiente o de respuesta de k variables independientes o de regresin
( x1, x2, ..., xk ), la relacin se caracteriza para un modelo matemtico llamado regresin, el cual
se ajusta a un conjunto de datos mustrales.
Donde en la mayora de los casos la relacin funcional se desconoce y el investigador debe elegir
una funcin apropiada para aproximar.
y = ( x1, x2, ... , xk ).
Mediante polinomios se analiza el ajuste de datos.
El ANDEVA ( ANlisis DE VArianza ) ayuda a determinar que factores son importantes con
respecto a la respuesta en el experimento.
REGRESION LINEAL SIMPLE.
Determina la relacin entre una sola variable de regresin ( x ) y la respuesta ( y ).
Usualmente la variable de regresin es continua y controlable por el experimentador, entonces,
se eligen los valores de x y se observan los valores correspondientes de y.
Se supone que la relacin real entre x e y es una lnea recta y que la observacin y a cada
nivel de x es una variable aleatoria.
El valor esperado de y para cada valor de x es :
Donde los parmetros
E ( y / x ) = o +
1 x
=0
1 x
TEMA 6
yi = o + 1 xi + ei
= 1, 2, ... , n:
n
L =
ei
i=1
( yi - o - 1 xi )
i=1
se obtienen las
i=1
_
+ 1 (x - x )
_
o = 'o - 1 x es el modelo ajustado en la ordenada
Y = o +
El modelo ajustado es
Sxy
= --------- =
Sxx
1 x
(
_
Sxx = ( xi - x ) =
n
i=1
xi )
i=1
xi
i=1
- ------------n
n
xi ) ( yi )
n
Sxy =
i=1
_
yi ( xi - x ) =
xi yi i=1
i=1
i=1
---------------------n
ei = yi - Yi
TEMA 6
Las relaciones de regresin tienen validez solo para valores de la variable de regresin dentro
del intervalo de los datos originales. Los modelos de regresin nunca deben utilizarse para
extrapolacin.
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE.
Para la pendiente ( 1 ) y la ordenada en el origen ( o ) del modelo de regresin.
NID ( 0,
).
Ho : 1 =
H1 : 1
1.o
1.o
Ho : 1 = 1.o
si
to >
t (/2,
1.o
el estadstico
n - 2 g.l.
n-2)
Ho : o =
H1 :
o.o
o o.o
o
el estadstico
Se rechaza
o.o
to = -------------------------------------- MSe
(1/n
_
+ x / Sxx )
con n - 2 g.l.
Ho : o = o.o
si
to >
t (/2,
n - 2 ).
Las hiptesis
Ho : 1 = 0
Aceptar
H1 : 1 0
se relacionan con la significancia de la regresin.
equivale a concluir que no existe una relacin lineal entre x e y.
Ho;
TEMA 6
Para probar
Ho : 1 = 0
SSt
i=1
_
( Yi - Y ) +
( yi - Yi )
i=1
i=1
( yi - Yi )
_
SSr = ( Yi - Yi )
_________________
SSt = SSe + SSr
De
1 Sxy
ANDEVA
FUENTE DE
VARIACION
SUMA DE
CUADRADOS
(1)
REGRESION
SSr =
ERROR
n-2
TOTAL
SSt
n-1
1 Sxy
GRADOS DE
LIBERTAD
(2)
MEDIA DE
CUADRADOS
(1/2)
MSr
MSe =
R Ho
Fo
MSr / Mse
Fo >
f ( , 1, n - 2 )
_
( 1 - b1 ) / MSe / Sxx
( o - bo ) / MSe ( 1 / n + x / Sxx )
tiene una distribucin t con n - 2 g.l.
El intervalo de confianza de 1 -
El intervalo de confianza de 1 -
sobre
es
sobre
es
4
TEMA 6
t ( / 2, n - 2) MSe / Sxx
_
o t ( / 2, n - 2) MSe ( 1 / n + x / Sxx )
Se puede construir un intervalo de confianza para la respuesta media a un valor especifico x = xo,
conocido como I. de C. Para la recta de regresin.
_
Como E ( y / xo ) = 'o + 1 ( xo - x )
puede obtenerse un estimador puntual de E ( y / xo ) del modelo ajustado mediante
_
E ( y / xo ) Yo = 'o + 1 (xo - x).
Intervalo de confianza ( 1 - ) para la recta de regresin real x = xo
_
Yo t ( / 2, n - 2 ) MSe ( 1 / n + (xo - x ) / Sxx )
es
NOTA
La amplitud del I de C. ( 1 - ) para E ( y / xo ) esta en funcin de xo .
_
_
La amplitud es mnima en xo = x y se hace ms grande a medida que xo - x .
INTERVALO DE PREDICCION.
Es una estimacin por intervalo de promedio de
x = xo.
Es inadecuado usar un intervalo de confianza porque hace referencia a la media real y no a futuras
observaciones de la variable aleatoria.
El intervalo de prediccin del ( 1 - ) para la media de k observaciones futuras en xo, es
_
Yo t ( / 2, n - 2) MSe ( 1 / k + 1 / n + (xo - x ) / Sxx )
El intervalo de prediccin
_
_
tiene una amplitud mnima en xo = x y aumenta a medida que xo - x se incrementa.
El intervalo de prediccin en xo es siempre ms ancho que el intervalo de confianza en xo , ya que
el intervalo de prediccin depende tanto del error del modelo ajustado como del error asociado con
las futuras observaciones.
COMPROBACION DE LA IDONEIDAD. ( Anlisis de residuos ).
Al ajustar cualquier modelo lineal, el anlisis de residuos del modelo de regresin es necesario para
determinar la idoneidad del ajuste.
5
TEMA 6
Es til examinar la grfica de probabilidad normal, la grfica de los residuos vs los valores ajustados
y la grfica de los residuos vs cada variable de regresin.
xi
20
22
24
26
28
30
32
34
36
38
40
42
yi
8.4
9.5
11.8
10.4
13.3
14.8
13.2
14.7
16.4
16.5
18.9
18.5
Yi
8.8441
9.7573
10.6705
11.5837
12.4969
13.4101
14.3233
15.2365
16.1497
17.0629
17.9761
18.8893
ei
-0.4441
-0.2573
1.1295
-1.1837
0.8031
1.3899
-1.1233
-0.5365
0.2503
-0.5629
0.9239
-0.3893
donde: Yi = o + 1 x
Yi = - 0.2879 + 0.4566 x
ei = yi - Yi
i = 1, 2, .., 12
SSe
Donde
X2
,Ymnm =
Xm
TEMA 6
La suma total de cuadrados del error puro se obtiene sumando la ecuacin anterior sobre todos los
niveles de x.
m ni
_
Hay n - m g.l. asociados a la suma
SSep = ( Yiu - Yi )
de cuadrados del error puro.
i=1 u=1
Si la hiptesis nula de la adecuacin del modelo se rechaza, el modelo debe ser abandonado y
buscarse otro que resulte ms apropiado.
Si Ho no se rechaza, no existe razn para dudar de la adecuacin del modelo.
A menudo, MSep y MSlof se combinan para estimar .
COEFICIENTE DE DETERMINACION.
Se usa para juzgar la adecuacin del modelo de regresin.
SSr
R = ---- = ----------------_
SSt
( yi - Y )
EJEMC2P1
Se realizo un estudio para determinar el efecto que tiene la rapidez de mezclado sobre la cantidad de
impurezas en una pintura producida mediante un proceso qumico. El estudio arrojo los siguientes
datos.
Rapidez de agitacin ( x )
20
22
24
26
Impurezas
28
30
32
34
36
38
40
42
(y)
7
TEMA 6
8.4 9.5 11.8 10.4 13.3 14.8 13.2 14.7 16.4 16.5 18.9 18.5
a).Presentar el diagrama de dispersin.
b).Calcular los parmetros, as como el modelo de regresin.
c).Obtenga los valores ajustados ( Yi ) y los residuos (ei = yi - Yi ).
d).Construya el Andeva y pruebe la hiptesis de regresin.
e).Obtenga la estimacin por intervalo de la pendiente y la ordenada en el origen.
f).Estimar el I. De C. Para la recta de regresin.
g).Construir el intervalo de prediccin al 95% de las impurezas promedio de los siguientes 2
lotes producidos en xo = 34.
h).Determinar R y R.
RESPUESTAS.
a).Presentar el diagrama de dispersin.
El diagrama de dispersin es til para identificar la relacin entre las dos variables; x e y. Este
diagrama de dispersin sugiere que la relacin es apropiada
b).-
xy
1
2
3
4
5
6
7
20
22
24
26
28
30
32
8.4
9.5
11.8
10.4
13.3
14.8
13.2
400
484
576
676
784
900
1024
70.56
90.25
139.24
108.16
176.89
219.04
174.24
168
209
283.2
270.4
372.4
444
422.4
8
TEMA 6
8
9
10
11
12
n = 12
34
36
38
40
42
_
xi = 372 x = 31
14.7
16.4
16.5
18.9
18.5
1156
1296
1444
1600
1764
216.09
268.96
272.25
357.21
342.25
_
yi = 166.4 y = 13.87
xi
499.8
590.4
627
756
777
12104
yi = 2435.14
xi yi = 5419.6
Obtenga los valores ajustados ( Yi ) y los residuos (ei = yi - Yi ).
c).-
( xi )
_
Sxx =
( xi
- x ) =
xi
( xi ) ( yi )
Sxy =
xi yi
( 372 )
( 372 ) ( 166.4 )
Sxy
261.2
= ----- = --------- = 0.4566
Sxx
572
_
'o = Y = 13.87
_
( x - x ) = 13.87 + 0.4566 ( x - 31 )
Y = o + 1 x = - 0.288 + 0.4566 x
yi
20
22
24
26
28
30
8.4
9.5
11.8
10.4
13.3
14.8
Yi = o + 1 x = -0.288 + 0.4566 x
8.8441
9.7573
10.6705
11.5837
12.4969
13.4101
ei = yi - Yi
-0.4441
-0.2573
1.1295
-1.1837
0.8031
1.3899
9
TEMA 6
32
34
36
38
40
42
d).-
13.2
14.7
16.4
16.5
18.9
18.5
14.3233
15.2365
16.1497
17.0629
17.9761
18.8893
1.1233
0.5365
0.2503
-05629
0.9239
-0.3893
ANDEVA
F. De V.
S.S.
G.L
.M.S.
Fo
Regresin
119.26
119.26
119.26
-------- = 140.8
0.847
Error
total
8.47
127.73
10
11
0.847
ANALISIS:
f
f(
0.01, 1, 10)
= 10.04
R Ho si Fo > f
Fo > f ?
140.8 > 10.04 ?
Si
por lo tanto se rechaza Ho dado que la variacin de la regresin tiene significancia.
e).-
De:
1 t ( /2, n - 2 ) MSe/Sxx
1 = 0.4566
o = -0.288
MSe = 0.847
Para
Sxx = 572
0.4566 2.228
_
o t ( /2, n - 2 ) MSe (1 /n+ x / Sxx)
t (0.05 / 2,
12 - 2)
= t (0.025, 10)
x = ( 31 )
n = 12
0.847 / 572
0.3709
= 2.228
0.4566 0.0857
0.5423
10
TEMA 6
Para
f).-
2.4351
Yo
t ( / 2,
Yo = 2.228
n - 2)
_
MSe ( 1 / n + (xo - x ) / Sxx )
Xo
20
Yo
8.84 9.76 10.67 11.58 12.5 13.41 14.32 15.24 16.15 17.06 17.98 18.89
I.de C.
1.11 0.97 0.84 0.73 0.65 0.60 0.60 0.65 0.73 0.84 0.97 1.11
g).-
De:
22
24
28
30
32
34
36
38
40
42
h).-
26
( 0.847 ) ( 1 / 2 + 1 / 12 + ( 34 - 31 ) / 572 )
15.2365 1.587
_
13.6495 Y 16.8235
Determinar R y R.
R = SSr / SSt = 119.26 / 127.73 = 0.9337 El modelo explica al 93.37% de los datos
R =
= 0.9337 = 0.9663
EJMC2P2
n
xy
1
2
3
4
5
6
1.0
1.0
2.0
3.3
3.3
4.0
1.0
1.0
4.0
10.89
10.89
16.0
2.3
1.8
2.8
1.8
3.7
2.6
5.29
3.24
7.84
3.24
13.69
6.76
2.3
1.8
5.6
5.94
12.21
10.4
11
TEMA 6
7
8
9
10
11
12
13
14
15
16
17
4.0
4.0
4.7
5.0
5.6
5.6
5.6
6.0
6.0
6.5
6.9
x = 74.5
n = 17
x
xy
2.6
2.2
3.2
2.0
3.5
2.8
2.1
3.4
3.2
3.4
5.0
y = 48.4
_
x = 4.382
y = 148.76
Sxx =
16.0
16.0
22.0
25.0
31.36
31.36
31.36
36.0
36.0
42.2
47.61
6.76
4.84
10.24
4.0
12.25
7.84
4.41
11.56
10.24
11.56
25.0
10.4
8.8
15.04
10.0
19.6
15.68
11.76
20.4
19.2
22.1
34.5
x y = 225.73
x = 379.21
_
y = 2.847
Y =
1 ( x )
= 1.716 + 0.258 x
SSr =
1 Sxy
SSt =
y - ( y ) / n
g.l.
1.0
2.05
= 0.125
3.3
2.75
= 1.805
4.0
2.47
5.6
2.80
6.0
3.30
1
_____
7
= 0.02
______________
SSep = 3.0366
TEMA 6
g.l. = 8
Andeva
F. De V.
Fo
Regresin
S.S.
3.5
g.l.
M.S.
f( )
3.5
3.5
------- = 7.042
0.497
f( 0.01, 1, 1) = 8.68
0.553
-------- = 1.27
0.434
f( 0.01, 8, 7) = 6.84
Falta de A
4.423
0.553
Error puro
Error
3.036
7.459
7
15
0.434
0.497
total
10.959
Como f > Fo
se acepta Ho, es decir, no hay evidencia que el modelo sea conveniente.
R = SSr / SSt = 3.5 / 10.96 = 0.32
R = R = 0.32 = 0.655
13