Вы находитесь на странице: 1из 7

TEMA 7

ANALISIS DE REGRESION LINEAL MULTIPLE

REGRESION LINEAL MULTIPLE.


INTRODUCCION.
En la mayora de las aplicaciones intervienen ms de una variable de regresin para su anlisis y predecir
el comportamiento de la variable de respuesta.
Supongamos que tenemos k variables independientes: x1, x2, ..., xk donde el problema general
consiste en ajustar el modelo
Y (k) =

1 x1

2 x2

+ ... +

k xk

Mientras que la respuesta estimada se obtiene de la ecuacin de regresin muestral.


Y =

1 x1

Donde cada coeficiente de regresin


de mnimos cuadrados.

2 x2

+ ... +

k xk

se estima a partir de los datos de la muestra, usando el mtodo

Para hacer la estimacin se requiere que el componente aleatorio del error tenga:
E() = 0
V () = 1 y las no estn correlacionadas.
ESTIMACION DE LOS COEFICIENTES.
Utilizaremos la teora elemental de matrices para el clculo de los coeficientes del modelo.
Supongamos

Yi

variables independientes:
n observaciones;

1 x1i

2 x2i +

x1, x2, ..., xk, y


y1, y2, ... , yn las cuales se pueden expresar con
... +

k xki

i.

Para resolver estas ecuaciones usando matrices, introduzcamos un vector y Para las observaciones,
un vector b para las estimaciones y la matriz de diseo X .

y =

y1
y2
y3

b =

yn

bo
b1
b2

X =

bn
t

Escribiendo: A = X * X

1
1
1

x11
x12
x13

x21
x22
x23

...
...
...

xk1
xk2
xk3

x1n

x2n

...

xkn

g= X*Y

Las ecuaciones normales pueden ser escritas como: Ab = g.


Si la matriz A tiene inversa, podemos encontrar la solucin para el coeficiente de regresin de la
manera:
1

TEMA 7

ANALISIS DE REGRESION LINEAL MULTIPLE

-1
t
-1 t
b = A *g = ( X*X) X * Y
EJMC4P1
Obtenga un modelo lineal de dos variables para los siguientes datos:
y
x1
x2
Solucin:
1
1
1
1

X =

2 4
4 16
5 25
8 64

1
2
4

3
4
16

5
5
25

12
8
64

Matriz de diseo.

b =

bo
b1
b2

y =

1
5
25

1
8
64

1
3
5
12

1
2
4

1
4
16

4
19
109

19
109
709

Si

X =

1
5
25

1
8
64

A = X * X
A =

1
2
4

1
4
16

-1
7.6955
A = -3.2566
0.2944
-1 t
A X =

1
-----5400

-1 t
A X =

2.36
-0.826
0.066

-1
b

-3.2566
1.4983
-0.1416

= A* X * Y =

1
1
1
1

2
4
5
8

0.2944
-0.1416 =
0.0138

4
16
25
64

1
------ *
5400

41556 -17586 1590


-17586
8091 -765
1590
-765
75

-0.62
0.47
-0.05

0.486
-0.336
0.050

-1.226
0.693
-0.066

2.36 -0.62
-0.826 0.47
0.066 -0.05
bo

-1.226 0.486
0.693 -0.336
-0.066 0.050
b1

109
709
4993

41556
-17586
1590

-17586 1590
8091 -765
-765
75

1
2
4

1
5
25

1
4
16

1
3
5
12

1
8
64

0.207
0.010
0.183

b2

Y = 0.207 + 0.010 x1 + 0.183 x2

TEMA 7

ANALISIS DE REGRESION LINEAL MULTIPLE

yi

Yi

1
3
5
12

0.959
3.175
4.832
11.999

ei

= yi - Yi
0.041
-0.175
0.168
0.001

yi Valores observados
Yi Valores ajustados
ei Residuos del modelo

FALTA DE AJUSTE.
En algunos experimentos es posible obtener observaciones repetidas de la respuesta para cada valor de
x.
Tales observaciones permiten obtener informacin cuantitativa acerca de lo apropiado del
modelo.
Si existen observaciones repetidas es posible realizar una prueba de significancia que
ayude a decidir si el modelo es adecuado no.
Si se selecciona una muestra aleatoria de tamao n utilizando k diferentes valores de x, digamos
x1, x2, ..., xk, de tal forma que la muestra contenga n1 valores observados de la variable aleatoria y1
correspondiente a x1, n2 valores de y2 correspondientes a x2, y as para los restantes valores de xk
se tendra
k

n = ni

si

yij = es el

simo valor de la variable Yi

i=1

ni
yi. = Yij

entonces

Yi. = yi. / ni

j=1

Si por ejemplo: n4 = 3 mediciones de Y correspondientes a x4 las escribimos como y41, y42 y Y43
y4. = y41 + y42 + y43
As, el error de la suma de los cuadrados tiene dos partes:
a).b).-

La parte correspondiente a la variacin entre los valores de y en valores dados de x.


Una parte llamada falta de ajuste , la cual nos da una medida de la variacin aportada por
trminos de orden superior.
SSe
Supongamos que se tiene un modelo lineal, entonces:
s = -------- = MSe
(n-2)
Donde

MSe

es una estimacin insesgada de .

Cuando la falta de ajuste resulta estadsticamente significativa, el error de la suma de los cuadrados se
infla y produce una estimacin sesgada de .
Un procedimiento para separar el error de la suma de los cuadrados en los dos componentes que
representan el error puro y la falta de ajuste es:

TEMA 7

ANALISIS DE REGRESION LINEAL MULTIPLE

1.k

ni


i =1

( yij - yi. ) =

J=1

ni

yij -

i=1 J=1

( yi. / ni )

con n - k g.l.

i=1

2.Restar el error puro de la suma de cuadrados del error, con lo cual se obtiene la suma de cuadrados
debida a la falta de ajuste.
con ( n - 2 ) - ( n - k ) = k - 2 g.l.
ANDEVA
F. De V.

S.S.

G.L.

M.S.

Fo

SSR

SSR
-----MSE

Regresin

SSR

Error

SSE

n-2

SSE
------- = MSE
n - 2

Falta de
Ajuste

SSE - SSE puro

k-2

( SSE - SSE puro )


---------------------- = MS(FA)
k-2

Error Puro

SSE ( puro )

n-k

SSE (PURO)
---------------- = MSE (PURO)
n - k

Total

SST

n-1

MS(FA)
--------MSE(EP)

La suma de cuadrados se calcula con las siguientes frmulas:


k ni
k

ni

yij

SST =

i=1 J=1

y..
- ----- =
n

ni

yij
i=1

ni

i=1

yij )
n

SSE = SST - SSR

- ---------------

J=1

( ni * xi ) * (
k

SSR =

* Sxy

ni

yij )

i=1 j=1

TEMA 7

Sxy =

ANALISIS DE REGRESION LINEAL MULTIPLE

xi

yij

i=1 j=1

- --------------------------------n
k

( ni * xi )
k

Sxx =

i=1

ni
j=1

* xi - -------------------n
k

ni

( yij )
_
y =
b =

Sxy
----Sxx

i=1 j=1

------------n

_
_
a = y - b( x )

( ni * xi )
_
x =
EJMC3P2

Para los siguientes datos, estime el modelo lineal y pruebe la falta de ajuste.

1
2
3
4
5
6
7
8
9
10
11
12

150
150
150
200
200
200
250
250
250
300
300
300
___
2700

22500
22500
22500
40000
40000
40000
62500
62500
62500
90000
90000
90000
_____
644500

SST = (

i=1

---------------n

x*y

77.4
11610
76.7
11505
78.2
11730
84.1
16820
84.5
16900
83.7
16740
88.9
22225
89.2
22300
89.7
22425
94.8
28440
94.7
28410
95.9
28770
___ _____
1037.8 222875

5990.76
5882.89
6115.24
7072.81
7140.25
7005.69
7903.21
7956.64
8046.09
8987.04
8968.09
9196.81
_______
90265.52

i=1
=2
=3
=4

x
150
200
250
300

y
j=1
77.4
84.1
88.9
94.8

=2
76.7
84.5
89.2
94.7

=3
78.2
83.7
89.7
95.9

yij - ( ( yij ) / n )
i=1 j=1

= 90265.52 - ( 1037.8 / 12 ) = 513.12

i=1 j=1

TEMA 7
4

ANALISIS DE REGRESION LINEAL MULTIPLE

yij

= ( 77.4 ) + ( 76.7 ) + ( 78.2 ) + ( 84.1 ) + ( 84.5 ) + ( 83.7 ) + ( 88.9 )


+ ( 89.2 ) + ( 89.7 ) + ( 94.8 ) + ( 94.7 ) + ( 95.9 ) = 90265.52

i=1 j=1

yij )

= ( 77.4 + 76.7 + 78.2 + 84.1 + 84.5 + 83.7 + 88.9 + 89.2 + 89.7 + ... +
94.8 + 94.7 + 95.9 ) = 1037.8

ni

Sxx =

* xi - ( ( ni * xi ) / n ) = 645000 - 607500 = 37500

i=1

ni

i=1

* xi = ( 3 ) * ( 150 ) + ( 3 ) * ( 200 ) + ( 3 ) * ( 250 ) + ( 3 ) * ( 300 ) = 645000

( ni * xi ) / n = (( 3 ) * ( 150 )+ ( 3 ) * ( 200 )+ ( 3 ) * ( 250 ) + ( 3 ) * ( 300 ) ) / 12 = 607500


k

ni

Sxy =

xi yij

- (((

i=1 j=1

xi yij

ni xi

k ni

ni xi ) ( yij ) ) / n ) =
i=1

237875 - ( ( ( 2700 ) ( 1037.8 ) / 12 ) ) = 4370

i=1 j=1

= ( 150 ) ( 77.4 ) + ( 150 ) ( 76.7 ) + ( 150 ( 78.2 ) + ( 200 ) ( 84.1 ) + ( 200 ) ( 84.5 )
+ ( 200 ) 83.7 ) + ( 250 ) ( 88.9 ) + ( 250 ) ( 89.2 ) + ( 250 ) ( 89.7 ) + ( 300 ) ( 94.8 )
+ ... + ( 300 ) ( 94.7 ) + ( 300 ) ( 95.9 )= 237875

= ( 3 ) ( 150 ) + ( 3 ) ( 200 ) + ( 3 ) ( 250 ) + ( 3 ) ( 300 ) = 2700

yij

= 1037.8

b = Sxy / Sxx = 4370 / 37500 = 0.1166

_
_
a = y - b ( x ) = 86.483 - ( 0.1166 ) ( 225 ) = 60.248

Y = 60.248 + 0.1166 x
Para la tabla de Andeva
SST = 513.12
x1
y1.

SSR = bSxy = 509.542

Para el error puro se tiene:


= 150
x2 = 200
= 232.3
y2. = 252.3

SSE = 3.578

x3 = 250
y3. = 267.8

x4 = 300
y4. = 285.4

SSE puro = 90265.52 - ( ( 232.3 ) + ( 252.3 ) + ( 267.8 ) + ( 285.4 ) / 3 ) = 2.66

TEMA 7

ANALISIS DE REGRESION LINEAL MULTIPLE

ANDEVA
Fuente de Var. S.S.
g.l.
Regresin
509.542
Falta de ajuste
Error puro
Error
Total

0.918
2.660
______
3.578
513.120

M.S.
1
2
8
__
10
11

Fo
509.542
0.459
0.3325

f
1424.1

4.96

1.38

4.46

0.3578

INTERPRETACIN:
Anlisis del factor:
Ho: El factor no es significativo
H1: El factor es significativo

R Ho si Fo > f
A Ho si Fo < f

como Fo = 1424.1 > f = 4.96

El factor es significativo, es decir, el modelo es adecuado.

Anlisis de falta de ajuste:


Ho: falta ajuste
H1: no falta ajuste
como Fo = 1.38 < f = 4.46

R Ho si Fo > f
A Ho si Fo < f
Aceptamos que no hace falta ajuste, es decir,
el modelo es adecuado

ANALISIS DE RESIDUOS.
Los residuos o errores en el ajuste de regresin proporcionan informacin muy valiosa, a menudo dan
informacin acerca de violaciones a las suposiciones del modelo o de la existencia de puntos aberrantes
entre los datos.
El estudio de residuales debe ser una parte automtica del Andeva; si el modelo es adecuado, los
residuales no deben mostrar algn patrn, violaciones de normalidad y de varianza constante.
Una de las suposiciones que se pueden verificar a partir del anlisis de residuos es la de que stos se
deben distribuir con una normalidad de media = 0 y varianza = 1. Para hacer la prueba de
normalidad, se suele recurrir a graficar en papel de probabilidad, y el resultado de este proceso debe ser
una lnea recta para asegurar que existe normalidad. Cualquier comportamiento diferente indicara que
los residuos no se distribuyen normalmente.

Вам также может понравиться