2 Ana Reg Multiple Al

TEMA 7
ANALISIS DE REGRESION LINEAL MULTIPLE
REGRESION LINEAL MULTIPLE.

INTRODUCCION.
En la mayora de las aplicaciones intervienen ms de una variable de regresin para su anlisis y predecir
el comportamiento de la variable de respuesta.
Supongamos que tenemos k variables independientes: x1, x2, ..., xk donde el problema general
consiste en ajustar el modelo
Y (k) =
1 x1
2 x2
+ ... +
k xk
Mientras que la respuesta estimada se obtiene de la ecuacin de regresin muestral.

Y =
1 x1
Donde cada coeficiente de regresin

de mnimos cuadrados.
2 x2
+ ... +
k xk
se estima a partir de los datos de la muestra, usando el mtodo
Para hacer la estimacin se requiere que el componente aleatorio del error tenga:
E() = 0
V () = 1 y las no estn correlacionadas.
ESTIMACION DE LOS COEFICIENTES.
Utilizaremos la teora elemental de matrices para el clculo de los coeficientes del modelo.
Supongamos
Yi
variables independientes:
n observaciones;
1 x1i
2 x2i +
x1, x2, ..., xk, y

y1, y2, ... , yn las cuales se pueden expresar con
... +
k xki
i.
Para resolver estas ecuaciones usando matrices, introduzcamos un vector y Para las observaciones,
un vector b para las estimaciones y la matriz de diseo X .
y =
y1
y2
y3
b =
yn
bo
b1
b2
X =
bn
t
Escribiendo: A = X * X
1
1
1
x11
x12
x13
x21
x22
x23
...
...
...
xk1
xk2
xk3
x1n
x2n
...
xkn
g= X*Y
Las ecuaciones normales pueden ser escritas como: Ab = g.

Si la matriz A tiene inversa, podemos encontrar la solucin para el coeficiente de regresin de la
manera:
1
TEMA 7
-1
t
-1 t
b = A *g = ( X*X) X * Y
EJMC4P1
Obtenga un modelo lineal de dos variables para los siguientes datos:
y
x1
x2
Solucin:
1
1
1
1
X =
2 4
4 16
5 25
8 64
1
2
4
3
4
16
5
5
25
12
8
64
Matriz de diseo.
b =
bo
b1
b2
y =
1
5
25
1
8
64
1
3
5
12
1
2
4
1
4
16
4
19
109
19
109
709
Si
X =
1
5
25
1
8
64
A = X * X
A =
1
2
4
1
4
16
-1
7.6955
A = -3.2566
0.2944
-1 t
A X =
1
-----5400
-1 t
A X =
2.36
-0.826
0.066
-1
b
-3.2566
1.4983
-0.1416
= A* X * Y =
1
1
1
1
2
4
5
8
0.2944
-0.1416 =
0.0138
4
16
25
64
1
------ *
5400
41556 -17586 1590

-17586
8091 -765
1590
-765
75
-0.62
0.47
-0.05
0.486
-0.336
0.050
-1.226
0.693
-0.066
2.36 -0.62
-0.826 0.47
0.066 -0.05
bo
-1.226 0.486
0.693 -0.336
-0.066 0.050
b1
109
709
4993
41556
-17586
1590
-17586 1590
8091 -765
-765
75
1
2
4
1
5
25
1
4
16
1
3
5
12
1
8
64
0.207
0.010
0.183
b2
Y = 0.207 + 0.010 x1 + 0.183 x2
TEMA 7
yi
Yi
1
3
5
12
0.959
3.175
4.832
11.999
ei
= yi - Yi
0.041
-0.175
0.168
0.001
yi Valores observados
Yi Valores ajustados
ei Residuos del modelo
FALTA DE AJUSTE.
En algunos experimentos es posible obtener observaciones repetidas de la respuesta para cada valor de
x.
Tales observaciones permiten obtener informacin cuantitativa acerca de lo apropiado del
modelo.
Si existen observaciones repetidas es posible realizar una prueba de significancia que
ayude a decidir si el modelo es adecuado no.
Si se selecciona una muestra aleatoria de tamao n utilizando k diferentes valores de x, digamos
x1, x2, ..., xk, de tal forma que la muestra contenga n1 valores observados de la variable aleatoria y1
correspondiente a x1, n2 valores de y2 correspondientes a x2, y as para los restantes valores de xk
se tendra
k
n = ni
si
yij = es el
simo valor de la variable Yi
i=1
ni
yi. = Yij
entonces
Yi. = yi. / ni
j=1
Si por ejemplo: n4 = 3 mediciones de Y correspondientes a x4 las escribimos como y41, y42 y Y43
y4. = y41 + y42 + y43
As, el error de la suma de los cuadrados tiene dos partes:
a).b).-
La parte correspondiente a la variacin entre los valores de y en valores dados de x.

Una parte llamada falta de ajuste , la cual nos da una medida de la variacin aportada por
trminos de orden superior.
SSe
Supongamos que se tiene un modelo lineal, entonces:
s = -------- = MSe
(n-2)
Donde
MSe
es una estimacin insesgada de .
Cuando la falta de ajuste resulta estadsticamente significativa, el error de la suma de los cuadrados se
infla y produce una estimacin sesgada de .
Un procedimiento para separar el error de la suma de los cuadrados en los dos componentes que
representan el error puro y la falta de ajuste es:
TEMA 7
1.k
ni

i =1
( yij - yi. ) =
J=1
ni
yij -
i=1 J=1
( yi. / ni )
con n - k g.l.
i=1
2.Restar el error puro de la suma de cuadrados del error, con lo cual se obtiene la suma de cuadrados
debida a la falta de ajuste.
con ( n - 2 ) - ( n - k ) = k - 2 g.l.
ANDEVA
F. De V.
S.S.
G.L.
M.S.
Fo
SSR
SSR
-----MSE
Regresin
SSR
Error
SSE
n-2
SSE
------- = MSE
n - 2
Falta de
Ajuste
SSE - SSE puro
k-2
( SSE - SSE puro )

---------------------- = MS(FA)
k-2
Error Puro
SSE ( puro )
n-k
SSE (PURO)
---------------- = MSE (PURO)
n - k
Total
SST
n-1
MS(FA)
--------MSE(EP)
La suma de cuadrados se calcula con las siguientes frmulas:

k ni
k
ni
yij
SST =
i=1 J=1
y..
- ----- =
n
ni
yij
i=1
ni
i=1
yij )
n
SSE = SST - SSR
- ---------------
J=1
( ni * xi ) * (
k
SSR =
* Sxy
ni
yij )
i=1 j=1
TEMA 7
Sxy =
xi
yij
i=1 j=1
- --------------------------------n
k
( ni * xi )
k
Sxx =
i=1
ni
j=1
* xi - -------------------n
k
ni
( yij )
_
y =
b =
Sxy
----Sxx
i=1 j=1
------------n
_
_
a = y - b( x )
( ni * xi )
_
x =
EJMC3P2
Para los siguientes datos, estime el modelo lineal y pruebe la falta de ajuste.
1
2
3
4
5
6
7
8
9
10
11
12
150
150
150
200
200
200
250
250
250
300
300
300
___
2700
22500
22500
22500
40000
40000
40000
62500
62500
62500
90000
90000
90000
_____
644500
SST = (
i=1
---------------n
x*y
77.4
11610
76.7
11505
78.2
11730
84.1
16820
84.5
16900
83.7
16740
88.9
22225
89.2
22300
89.7
22425
94.8
28440
94.7
28410
95.9
28770
___ _____
1037.8 222875
5990.76
5882.89
6115.24
7072.81
7140.25
7005.69
7903.21
7956.64
8046.09
8987.04
8968.09
9196.81
_______
90265.52
i=1
=2
=3
=4
x
150
200
250
300
y
j=1
77.4
84.1
88.9
94.8
=2
76.7
84.5
89.2
94.7
=3
78.2
83.7
89.7
95.9
yij - ( ( yij ) / n )
i=1 j=1
= 90265.52 - ( 1037.8 / 12 ) = 513.12
i=1 j=1
TEMA 7
4
yij
= ( 77.4 ) + ( 76.7 ) + ( 78.2 ) + ( 84.1 ) + ( 84.5 ) + ( 83.7 ) + ( 88.9 )

+ ( 89.2 ) + ( 89.7 ) + ( 94.8 ) + ( 94.7 ) + ( 95.9 ) = 90265.52
i=1 j=1
yij )
= ( 77.4 + 76.7 + 78.2 + 84.1 + 84.5 + 83.7 + 88.9 + 89.2 + 89.7 + ... +
94.8 + 94.7 + 95.9 ) = 1037.8
ni
Sxx =
* xi - ( ( ni * xi ) / n ) = 645000 - 607500 = 37500
i=1
ni
i=1
* xi = ( 3 ) * ( 150 ) + ( 3 ) * ( 200 ) + ( 3 ) * ( 250 ) + ( 3 ) * ( 300 ) = 645000
( ni * xi ) / n = (( 3 ) * ( 150 )+ ( 3 ) * ( 200 )+ ( 3 ) * ( 250 ) + ( 3 ) * ( 300 ) ) / 12 = 607500

k
ni
Sxy =
xi yij
- (((
i=1 j=1
xi yij
ni xi
k ni
ni xi ) ( yij ) ) / n ) =
i=1
237875 - ( ( ( 2700 ) ( 1037.8 ) / 12 ) ) = 4370
i=1 j=1
= ( 150 ) ( 77.4 ) + ( 150 ) ( 76.7 ) + ( 150 ( 78.2 ) + ( 200 ) ( 84.1 ) + ( 200 ) ( 84.5 )
+ ( 200 ) 83.7 ) + ( 250 ) ( 88.9 ) + ( 250 ) ( 89.2 ) + ( 250 ) ( 89.7 ) + ( 300 ) ( 94.8 )
+ ... + ( 300 ) ( 94.7 ) + ( 300 ) ( 95.9 )= 237875
= ( 3 ) ( 150 ) + ( 3 ) ( 200 ) + ( 3 ) ( 250 ) + ( 3 ) ( 300 ) = 2700
yij
= 1037.8
b = Sxy / Sxx = 4370 / 37500 = 0.1166
_
_
a = y - b ( x ) = 86.483 - ( 0.1166 ) ( 225 ) = 60.248
Y = 60.248 + 0.1166 x
Para la tabla de Andeva
SST = 513.12
x1
y1.
SSR = bSxy = 509.542
Para el error puro se tiene:

= 150
x2 = 200
= 232.3
y2. = 252.3
SSE = 3.578
x3 = 250
y3. = 267.8
x4 = 300
y4. = 285.4
SSE puro = 90265.52 - ( ( 232.3 ) + ( 252.3 ) + ( 267.8 ) + ( 285.4 ) / 3 ) = 2.66
TEMA 7
ANDEVA
Fuente de Var. S.S.
g.l.
Regresin
509.542
Falta de ajuste
Error puro
Error
Total
0.918
2.660
______
3.578
513.120
M.S.
1
2
8
__
10
11
Fo
509.542
0.459
0.3325
f
1424.1
4.96
1.38
4.46
0.3578
INTERPRETACIN:
Anlisis del factor:
Ho: El factor no es significativo
H1: El factor es significativo
R Ho si Fo > f
A Ho si Fo < f
como Fo = 1424.1 > f = 4.96
El factor es significativo, es decir, el modelo es adecuado.
Anlisis de falta de ajuste:

Ho: falta ajuste
H1: no falta ajuste
como Fo = 1.38 < f = 4.46
R Ho si Fo > f
A Ho si Fo < f
Aceptamos que no hace falta ajuste, es decir,
el modelo es adecuado
ANALISIS DE RESIDUOS.
Los residuos o errores en el ajuste de regresin proporcionan informacin muy valiosa, a menudo dan
informacin acerca de violaciones a las suposiciones del modelo o de la existencia de puntos aberrantes
entre los datos.
El estudio de residuales debe ser una parte automtica del Andeva; si el modelo es adecuado, los
residuales no deben mostrar algn patrn, violaciones de normalidad y de varianza constante.
Una de las suposiciones que se pueden verificar a partir del anlisis de residuos es la de que stos se
deben distribuir con una normalidad de media = 0 y varianza = 1. Para hacer la prueba de
normalidad, se suele recurrir a graficar en papel de probabilidad, y el resultado de este proceso debe ser
una lnea recta para asegurar que existe normalidad. Cualquier comportamiento diferente indicara que
los residuos no se distribuyen normalmente.

2 Ana Reg Multiple Al

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

2 Ana Reg Multiple Al

Загружено:

Авторское право:

Доступные форматы

TEMA 7

ANALISIS DE REGRESION LINEAL MULTIPLE

REGRESION LINEAL MULTIPLE.

Mientras que la respuesta estimada se obtiene de la ecuacin de regresin muestral.

Donde cada coeficiente de regresin

se estima a partir de los datos de la muestra, usando el mtodo

x1, x2, ..., xk, y

Las ecuaciones normales pueden ser escritas como: Ab = g.

ANALISIS DE REGRESION LINEAL MULTIPLE

41556 -17586 1590

Y = 0.207 + 0.010 x1 + 0.183 x2

ANALISIS DE REGRESION LINEAL MULTIPLE

simo valor de la variable Yi

La parte correspondiente a la variacin entre los valores de y en valores dados de x.

es una estimacin insesgada de .

ANALISIS DE REGRESION LINEAL MULTIPLE

SSE - SSE puro

( SSE - SSE puro )

La suma de cuadrados se calcula con las siguientes frmulas:

SSE = SST - SSR

ANALISIS DE REGRESION LINEAL MULTIPLE

= 90265.52 - ( 1037.8 / 12 ) = 513.12

ANALISIS DE REGRESION LINEAL MULTIPLE

= ( 77.4 ) + ( 76.7 ) + ( 78.2 ) + ( 84.1 ) + ( 84.5 ) + ( 83.7 ) + ( 88.9 )

* xi - ( ( ni * xi ) / n ) = 645000 - 607500 = 37500

* xi = ( 3 ) * ( 150 ) + ( 3 ) * ( 200 ) + ( 3 ) * ( 250 ) + ( 3 ) * ( 300 ) = 645000

( ni * xi ) / n = (( 3 ) * ( 150 )+ ( 3 ) * ( 200 )+ ( 3 ) * ( 250 ) + ( 3 ) * ( 300 ) ) / 12 = 607500

237875 - ( ( ( 2700 ) ( 1037.8 ) / 12 ) ) = 4370

= ( 3 ) ( 150 ) + ( 3 ) ( 200 ) + ( 3 ) ( 250 ) + ( 3 ) ( 300 ) = 2700

b = Sxy / Sxx = 4370 / 37500 = 0.1166

SSR = bSxy = 509.542

Para el error puro se tiene:

SSE puro = 90265.52 - ( ( 232.3 ) + ( 252.3 ) + ( 267.8 ) + ( 285.4 ) / 3 ) = 2.66

ANALISIS DE REGRESION LINEAL MULTIPLE

como Fo = 1424.1 > f = 4.96

El factor es significativo, es decir, el modelo es adecuado.

Anlisis de falta de ajuste:

Вам также может понравиться