Вы находитесь на странице: 1из 19

Regresin mltiple

Muchos problemas de regresin involucran ms de una variable regresiva. Tales modelos se


denominan de regresin mltiple. La regresin mltiple es una de las tcnicas estadsticas mas
ampliamente utilizadas. Este captulo presenta las tcnicas bsicas de la estimacin de parmetros,
de la estimacin del intervalo de confianza y de la verificacin de la suficiencia del modelo para la
regresin mltiple. Presentamos tambin algunos problemas encontrados con frecuencia en el uso
prctico de la regresin mltiple, incluyendo la construccin del modelo y la seleccin de variables,
la autocorrelacin en los errores, y la multicolinearidad y la dependencia casi lineal entre los
regresores.
Variable independiente (regresiva
o regresora)
Variable dependiente (Respuesta)

15-1 Modelos de regresin mltiple


(Independi
El modelo de regresin que involucra ms de un variable regresadora se llama modelo de regresin
mltiple. Como un ejemplo, supngase la vida eficaz de una herramienta de corte depende de la
velocidad y del ngulo de corte. Un modelo de regresin mltiple que podr describir esta relacin
es
Y= vida de la
herramienta
X1= rapidez de

(15-1)

Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ngulo de corte. Este
es un modelo de regresin lineal mltiple con dos regresores. El trmino lineal se emplea debido
a que la ecuacin 15-1 es la funcin lineal de los parmetros desconocidos 0, 1 y 2. Ntese que
el modelo describe un plano en el espacio bidimensional x1, x2. Parmetro 0 define la ordenada al
origen del plano. Unas veces llamados a 1 y 2 coeficientes de regresin parciales,
Porque 1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene
constante, y 2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante.
En General la variable dependiente o respuesta y puede relacionarse con k variables independientes.
El modelo de regresin mltiple (lineal)
Coeficientes
de regresin

(15-2)

Se denomina modelos de regresin lineal mltiple con k variables independientes. Los parmetros
j, j= 0, 1, . . . , k, se llaman coeficientes de regresin . Este modelo describe un hiperplano en el
espacio k-dimensional de las variables regresoras {xj}. El parmetro j representa el cambio
esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj
(ij) se mantienen constantes. Los parmetros j, j = 1, 2, . . . , k, se denominan algunas veces
coeficientes de regresin parciales, porque ellos describen el efecto parcial de una variable
independiente cuando las otras variables independientes en el modelo se mantienen constantes.
Los modelos de regresin lineal mltiple se utilizan a menudo como funciones de aproximacin.
Esto es, la verdadera relacin funcional entre y y x1, x2,. Se desconoce, aunque sobre ciertos
intervalos de las variablwes independientes ..

En general, cualquier modelo de regresin que es lineal en los parmetros (los parmetros ) es un
modelo de regresin lineal, sin importar la forma de la superficie que genera.

15-2 Estimacin de parmetros


El mtodo de mnimos cuadrados puede utilizarse para estimar los coeficientes de regresin en la
ecuacin 15-2. Supngase que se disponen n > k observaciones, y dejese que xij denoten la
observacin isima o el nivel de la variable xj. Los datos aparecn en la tabla 15.1 suponemos que el
termino del error en el modelo tiene E()= 0, V()= y que las { j} son variable aleatorias no
correlacionadas
E(e)= valor esperado del
error= 0
Podemos describir el modelo, ecuacin 15-2, en trminos de las observaciones como
V(E)= varianza del
error=

(15-7)
La funcin de mnimos cuadrados es

(15.8)
La funcin L se minimizara con respecto a 0, 1, . . . , k. los estimadores de mnimos cuadrados
de 0, 1, . . . , k debe satisfacerse

(15-10)

Ecuaciones normales de mnimos


cuadrados

Ntese que hay p = k + 1 ecuaciones normales, una para cada una de los coeficientes de regresin
desconocidos. Las solucin para las ecuaciones normales sern los estimadores de mnimos
cuadrados de los coeficientes de regresin, 0, 1, . . . , k.
Es ms simple resolver las ecuaciones normales si ellas se expresan en notacin de matriz. Daremos
ahora un desarrollo matricial de las ecuaciones normales que es afin al desarrollo de la ecuacin 1510. El modelo en trminos de las observaciones, ecuaciones 15-7, puede expresarse en notacin
matricial como
K= numero de variables
Donde
Y= vector (n X
1) obs.
X=matriz (x X p)
de los niveles de
Filas
B= vector ( p x 1)
E= vector ( n x 1 )
E= errores
aleatorios

En general y es un vector (n X 1) de las observaciones, X es un matriz (x X p) de los niveles de las


variables independientes, es un vector (p X 1) de los coeficientes de regresin, y es un vector (n
X 1) de los errores aleatorios.
Deseamos encontrar el vector de los estimadores de mnimos cuadrados, , que minimice

Ntese que L puede expresarse como

(15-11)
Puesto Xy es una matriz de (1 X 1), o un escalar, y su transpuesta (Xy )= y X es el mismo
escalar. Los estimadores de mnimos cuadrados deben satisfacer

Que se simplifica a

Estas ec. Son las


ec. Normales de
mnimos cuadrados

(15-12)

Las ecuaciones 15-12 son las ecuaciones normales de mnimos cuadrados. Ellas son idnticas a las
ecuaciones 15-10. Para resolver las ecuaciones normales, multiplquense ambos lados de la
ecuacin 15-12 por la inversa de XX. De tal modo, el estimador de mnimos cuadrados de es
= Estimador de
mnimos cuadrados
Es fcil ver que la forma matricial de las ecuaciones normales es idntica a la de la forma escalar. Al
escribir completa loa ecuacin 15-12 obtenemos

Si se efecta la multiplicacin matricial indicada, resultara la forma escalar de las ecuaciones


normales (esto es, la ecuacin 15-10). En esta forma es fcil ver que XX es una matriz simtrica
(p X p) y Xy es un vector columna (p X 1). Advirtase la estructura especial de la matriz XX. los
elementos de la diagonal XX son las sumas de cuadrados de los elementos en las columnas de Xy
son las sumas de los productos cruzados de las columnas de X y las observaciones {yi}.
El modelo de regresin ajustado es

En notacin escalar, el modelo ajustado es

La diferencia entre la observacin yi y el valor ajustado yi es un residuo, digamos i=yi-yi. El


vector (n X 1) de los residuos se denota mediante
(15-15)
La diferencia entre las observaciones y1 y el valor ajustado I es un residuo digamos eI= y1-I . El
vector (nx1) de los residuos se denota mediante

Nuestro problema consiste en decidir cul de los planos posibles que podemos
dibujar ser el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el
criterio de mnimos cuadrados y localizaremos el plano que minimice la suma de los
cuadrados de los errores, es decir las distancias desde los puntos alrededor del
plano a los puntos correspondientes sobre el plano.
Ejemplo. A partir de un estudio experimental acerca de la estabilizacin de arcilla
muy plstica se observo que el contenido de agua para moldeo con densidad
optima dependa linealmente de los porcentajes de cal y puzolana mezclados con la
arcilla. Se tuvieron as los resultados de la siguiente tabla. Ajuste una ecuacin de
la forma
= 0+1X1+2X2 a los datos de dicha tabla

Estas Forma
tridimensional con
ejes Y, x1, x2
(plano)

Contenido de
% de agua (y)
27.5
28.0
28.8
29.1
30.0
31.0
32.0

Porcentaje de
porcentaje de
cal (X1)
puzolana (X2)
2.0
18.0
3.5
16.5
4.5
10.5
2.5
2.5
8.5
9.0
10.5
4.5
13.5
1.5

Grafica de 10 puntos
de una muestra y el
plano alrededor del
cual estos puntos
parecen ocuparse

x1

x2

Y=y-

X1= x1-x1

X2= x2-x2

YX1

YX2

X2 1

X2 2

X1 X2

27.5

18

-1.985

-4.428

9.072

8.789

-18.01

19.6

82.3

-40.17

28

3.5

16.5

-1.486

-2.929

7.572

4.352

-11.25

8.579

57.33

-22.178

28.8

4.5

10.5

-0.686

-1.929

1.571

1.323

-1.077

3.721

2.468

-3.03

29.1

2.5

2.5

-0.386

-3.928

-6.429

1.516

2.481

15.42

41.33

25.253

30

8.5

0.514

2.071

0.071

1.064

0.0364

4.289

0.005

0.147

31

10.5

4.5

1.514

4.071

-4.429

6.163

-6.705

16.57

19.61

-18.03

32

13.5

1.5

2.515

7.072

-7.428

17.186

-18.68

50.01

55.17

-52.53

206.4

45

62.5

40.996

-53.21

118.2

258.3

-110.54

Esta ecuacin se puede obtener por medio de la tabla con la sig. Formula

x 1 y = 1 x 2+ 2 x 1 x 2
x 2 y = 1 x 1 x 2+ 2 x 2 2
40.99563=118.2117 1110.54078 2

53.20647=110.54078 1+258.23270 2
por eliminacin se tiene: 1=0.257004
2=-0.096026

= 0+ 1 X 1+ 2 X 2

29.486= 0+(0.257004)(6.429)+(0.096026)(8.929)

0=28.691
=y /n=206.4/7=29.486

x 1= x 1 /n=45 /7=6.429

x 2= x 2 /n=62.5 /7=8.929
De este modo

= 0+ 1 X 1+ 2 X 2

=28.691+0.257 X 1+ 0.0960 X 2

Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el
porcentaje de agua
Ejemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para
relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una
maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del
vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseo de la ruta,
el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de
entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una
expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero
de latas almacenadas como regresor.)
Ajustaremos el modelo de regresin lineal mltiple:

= 0+ 1 X 1+ 2 X 2+

Tabla 15-2 Datos del tiempo de entrega para el ejemplo


Numero de
Tiempo de entrega
Numero de latas
observaciones
(min.)(y)
X1
1
9.95
2
2
24.45
8
3
31.75
11
4
35.00
10
5
25.02
8

Distancias (pies)
X2
50
110
120
550
295

6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

16.86
14.38
9.60
24.35
27.50
17.08
37.00
41.95
11.66
21.65
17.89
69.00
10.30
34.93
46.59
44.88
54.12
56.63
22.13
21.15

4
2
2
9
8
4
11
12
2
4
4
20
1
10
15
15
16
17
6
5

Los estimadores de minimos cuadrados se encuentra de la ecuacion


=(XX)-1XY
A estos datos. La matriz X y el vector y para este modelo son

X=

1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

2
8
11
10
8
4
2
2
9
8
4
11
12
2
4
4
20
1
10
15
15

50
110
120
550
295
200
375
52
100
300
412
400
500
360
205
400
600
585
540
250
290

y=

9.95
24.95
31.75
35.00
25.02
16.86
14.38
9.60
24.35
27.50
17.08
37.00
31.95
11.66
26.65
17.89
69.00
10.30
34.93
46.59
44.88

200
375
52
100
300
412
400
500
360
205
400
600
585
540
250
290
510
590
100
400

1
1
1
1

16
17
6
5

510
590
100
400

54.12
56.63
22.13
21.15

La matriz XX es
XX=

1
2
50

1
8
110

..
..
..

1
5
400

25
206
8294

206
8294
2396 77177
77177 3531848

y el vector Xy es
Xy=

1
2
50

1
8
110

-1
0
25
206
8294
752.82
1 = 206 2396 77177
8008.37
2
8294 77177 3531848
274811.31
.214653
-0.0007491
-0.000.340
= -0.00749
0.001671
-0.000019
-0.00340
-0.000019
0.0000015
2.26379143 0
= 2.74426964 1
0.01252781 2

1
5
400

1
1
.
.
.
1

9.95
24.45
.
.
.
21.15

752.82
8008.37
274811.31

2
8
.
.
.
5

50
110
.
.
.
400

725.82
8008.37
274811.31

Tabla 15-3 Observaciones, valores ajustados y residuos para el ejemplo


Numero de
Y1
Valores ajustados
Residuales
observaciones
de y1
= y1 - 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

9.95
24.45
31.75
35.00
25.02
16.86
14.38
9.60
24.35
27.50
17.08
37.00
41.95
11.66
21.65
17.89
69.00
10.30
34.93
46.59
44.88
54.12
56.63
22.13
21.15

8.38
25.60
33.95
36.60
27.91
15.75
12.45
8.40
28.21
27.98
18.40
37.46
41.46
12.26
15.81
18.25
64.67
12.34
36.47
46.56
47.06
52.56
56.31
19.98
21.00

1.57
-1.15
-2.20
-1.60
-2.89
1.11
1.93
1.20
-3.86
-0.48
-1.32
-0.46
0.49
-0.60
5.84
-0.36
4.33
-2.04
-1.54
0.03
-2.18
1.56
0.32
2.15
0.15

Por lo tanto el modelo de regresin ajustado es


= 2.26379+2.74427 X1+0.01253 X2+
Notese que hemos redondeado los coeficientes de regresin hasta cinco lugares. La tabla
15-3 muestra los valores ajustado de y y los residuales. Los valores ajustados y los
residuales se calculan con la misma precision que los datos originales. Calcular los
valores ajustado de y los residuales

b) Estimaremos la varianza del error (2) para el problema de la regresin mltiple en el ejemplo
15-3

MSE=SSE /n p

MSE= Media cuadratica para el error


SSE= Suma de cuadrados de los errores o residuos
n-p= Grados de libertad asociados

Puede mostrarse que

2=MSE

n= No. de elementos
p= No. de tratamientos (variables)

SSE= y y (X Y )
y y =25 i=1 y i 2=27.1779510

(XY)= 2.26379143

2.74426964

0.01252781

Por consiguiente la suma de cuadrados del error es

SSE= y y (X Y )=27177.951027062.7775
SSE=115.1735
La estimacin de 2 (la varianza del error) es:

2=SSE/n p=115.1735 /253=5.2352


Puede mostrarse que el valor esperado de MSE es 2

MSE=SSE /n p
2=MSE

725.82
80008.37
274811.31

= 27062.7775

Intervalos de confianza en regresin lineal mltiple


Con frecuencia es necesaria construir estimaciones de intervalos de confianza para los coeficientes
de regresin { j}, para esto se requiere que los errores {ej} se distribuyen de forma normal e
independiente con media cero y varianza
En consecuencia, un intervalo de confianza del 100(1-) % por ciento para el coeficiente de
regresin j= o, 1,. . . k es.

j t
2

,n p

C jj j j +t
2

,n p

C jj

Ejemplo c)
Construir un intervalo de confianza del 95% respecto al parmetro 1, para nuestro ejemplo, ntese
que la estimacin puntual es 1 es 1=2.14427, y que el element de la diagonal de

( XT X )

corresponde a 1 es cii=0.001671

2.74727t 0.025,22 ( 5.2351 ) (0.001671) 1 2.74727t 0.025,22 ( 5.2351 ) (0.001671)


2.55029 1 2.93825
Conclusin: el intervalo de confianza de 95% para el coeficiente de regresin de 1se encuentre
entre:2.55029 y 2.93825
Estimacin del intervalo de confianza de la respuesta media
Se puede establecer un intervalo de confianza para la respuesta media en determinado punto
particular, digamos X0, X01, . . . Xok
1
Xo

X01
X02
X03

La respuesta media estimada en ese punto es

y o= X o

La varianza de Yo (variable de respuesta)

V ( y o ) = X 0 ( X X ) X 0
Por lo tanto, un intervalo de confianza del 100(1-)% respecto a la respuesta media en el punto X0,
X01, . . . Xok es

y ot
2

,n p

X T0 ( X T X ) X 0 E ( y 0 ) y o +t
2

, np

X T0 ( X T X ) X 0

Ejemplo: el embotellador de refrescos en nuestro ejemplo le gustara construir un intervalo de


confianza del 95% respecto al tiempo de entrega media para una salida que requiere x1=8 latas y
donde la distancia X2=275 pies.
1
Xo

X01

1
Xo

X02

8
275

X03

Respuesta media esperada:

[ ]

2.26379
'
y o= [ 1 8 275 ] 2.74427 =27.66
0.01253

y o se estima mediante:

La varianza de

V ( y o ) = X 0 ( X X ) X 0

0.214653 0.007491 0.00034


V ( y o ) =5.23521 [ 1 8 275 ] 0.007491 0.001671 0.000019 =0.23266
0.000340 0.000019 0.0000015
Por lo tanto un intervalo de confianza del 95%en el tiempo de entrega media es.

27.66t 0.025,22 0.232666 E ( y 0 ) 27.66+ t 0.025,22 0.232666

26.66 E ( y 0 ) 28.66

Conclusin: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y
28.66 min. Con un nivel de confianza del 95%
Prediccin de nuevas observaciones
El modelo de regresin puede utilizar para predecir observaciones futuras respecto y que
corresponde a valores particulares de las variables independientes, digamos X0, X01, . . . Xok, una
estimacin puntual de la observacin futura Yo en el punto X0, X01, . . . Xok es

y o= X To
Un intervalo de prediccin del 100(1-) % para esta observacin futura es

y ot
2

,n p

( 1+ X T0 ( X T X )

X 0 ) y 0 yo+ t
2

,n p

(1+ X T0 ( X T X )

X 0)

Ejemplo:
Supngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de
prediccin del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies
Conclusin.El intervalo de prediccin en el tiempo con un nivel de confianza del 95% est entre 22.51 y
32.51min este intervalo es ms ancho ya que toma en cuenta tanto el error estndar del estimador
mas el error muestra.

Pruebas de hiptesis en la regresin lineal mltiple


En regresin lineal mltiple , ciertos tipos de hiptesis respecto a los parmetros del modelo son o
tipos de al medir la suficiencia del modelo, seguiremos requiriendo la suposicin normalidad en los
errores prueba de significacin de regresin, esta prueba es para determinar si hay una relacin
lineal entre la variable dependiente y un subconjunto de las variables dependientes

X 1 , X 2, X 3

X n las hiptesis apropiadas son:

H 0 : Bi=B2 = B k =0
Hi: B j 0

Al menos de las siguientes variables independientes el rechazo de

H 0 : B j=0

implica que el menos una de las variables independientes

Anlisis de la varianza para la significacin de la regresin en la regresin mltiple


fuente de
Suma de
Grados
Media
Fo
variabilidad
cuadrados
de
cuadrtica

regresin

libertad
K=

SSR=

MSR=
Error

SSE=

n-k-1=

MSR
MSE

MSE=
Total

SYY=

n-1=

SYY (suma total de los cuadrados)


SYY= SSR+SSE

El procedimiento prueba para

H 0 si

Se rechaza si

H 0 : B j=0

es calcular

SRR
K
MSR
Fo=
=
SSE
MSE
(nk1)

Fo> F , nk1

SSE=Y ' Y ^B X ' Y

( )
yi

'

SSE=Y Y

J =i

'
^B x y

( )
yi

J =i

SSE=SYY-SSR
2

SYY=

'

YY

( )
yi

J=i

Ejemplo:
Probaremos la significancia de la regresin de nuestro problema 15.1

H 0 : Bi=B2 =0

Hi: B j 0

Al menos para una de las variables independientes

( 725.82 )2
=6105.9447
SYY=27177.9515n 25
( 725.82 )2
=5990.7712
SSR=27062.7775n 25
SSE=SYY-SSR=6105.9447-5990.7712=115.1735

Fo=

Regin
aceptada

2995.3956
=572.17
5.2352

Puesto que si

H0

Conclusin.- se rechaza

Regin de
rechazo

Fo> F 0.05 , 2,22=3.44

H 0 ya que

Fo> F 0.05 , 2,22=3.44

Por lo tanto el tiempo de entrega se relaciona con el volumen de entrega o con la


distancia o con ambos, sin embargo notamos que esto no necesariamente implica que la
relacin encontrada, es apropiada para predecir. El tiempo de entrega con o con la
funcin del volumen y la distancia. Se requieren pruebas adicionales de la suficiencia del
modelo
Pruebas de coeficientes individuales de regresin.
Con frecuencia estamos interesados en probar hiptesis respecto a los coeficientes
individuales de regresin, tales pruebas serian tiles en la determinacin del valor de cada
una de las variables independientes en el modelo de regresin. Por ejemplo, el modelo
podra ser ms eficaz con la inclusin de variables adicionales, o quizs con la omisin de
una o mas variables ya en el modelo.
La adicin de una variable al modelo de regresin siempre ocasiona que SSR aumente y
que SSE disminuya, adems, aadir una variable sin importancia al modelo puede
incrementar el error de MSE aminorando de este la utilidad del modelo.
La hiptesis para probar la significacin de cualquier coeficiente de regresin individual,
Ho: Bj = 0 si Ho: Bj = 0 no se rechaza (se acepta), entonces esto indica que Xj puede ser
Bj, son
eliminada del modelo.
Hi: Bj0
La estadstica de prueba para esta hiptesis es

to= Bj/2 Cjj

La hiptesis nula Ho: Bj = 0 se rechaza si l to l> t /2, n-k-1

Ejemplo. Probar el coeficiente individual de regresin B2 con un nivel de confianza del 95%
Ho: B2= 0

to= Bj/2 C33 = 0.01253/(5.2352)(.000015) =4.4767

Hi: B20

si t .25, 22 = 2.074
Entonces 4.4767>2.074

Conclusin: concluimos que la variable X2 (distancia) contribuye de manera significativa al


modelo. Ntese que esta prueba mide la contribucin parcial de X2 dado que X1 esta en el
modelo.
15.6 MEDIDAS DE ADECUACION DEL MODELO
Es posible utilizar diversas tcnicas para medir la adecuacin del modelo de regresin
mltiple. Esta seccin presentara varias de estas tcnicas. La validacin del modelo es
una parte importante del proceso de construccin del modelo de regresin mltiple. Un
buen artculo respecto a este tema es Snee (1977). Vase tambin en Montgomery and
Peck (1982, capitulo 10).
15.6.1 coeficiente de determinacin mltiple
El coeficiente de determinacin mltiple R2 se define como

R 2=SSR/SYY =1SSE/SYY
R2 es una medida del grado de reduccin en la variabilidad de y obtenida mediante el
empleo de las variables regresivas X1, X2. Xk. Como en el caso de la regresin lineal
simple, debemos tener 0 R2 1. Sin embargo un valor grande de R2,
independientemente si la variable adicional es o no estadsticamente significativa. De tal
modo, es posible en modelos que tienen grandes valores de R2 producir predicciones
pobres de nuevas observaciones o estimaciones de la respuesta media.
La raz cuadrada positiva de R2 es el coeficiente de correlacin mltiple entre Y y el
conjunto de variables regresoras X1, X2. Xk. esto es R es una medida de la asociacin
lineal entre Y y X1, X2. Xk. cuando k=1, esto es vuelve la correlacion simple entre Y y x.
Ejemplo el coeficiente de determinacin mltiple para el modelo de regresin estimado en
el ejemplo 15.1 es

R 2=SSR/SYY =5990.7712/6105.9447=.981137
Esto alrededor del 98.11 porciento de la variabilidad en el tiempo de entrega y ha sido
explicada cuando se emplean las dos variables regresoras, esto es volumen de entrega
(x1) y distancia (x2). En el ejemplo 14.7 se desarrollo un modelo que relaciona y con x1. El
valor de R2 en este modelo es R2 =.963954. Observaciones 15 y 17. O cualquier otra razn
para descartar o modificar estos dos. Por tanto al aadir la variable x2 al modelo se
incremento R2 de .963954 a puntos.
15.6.2 ANALISIS RESIDUAL
Los residuos del modelo de regresin mltiple estimado. Definidos por yi - Yi, desempean
un importante papel al juzgar la suficiencia del modelo del mismo modo que lo hacen en

regresin lineal simple. Como se noto en la seccin 14.5.1. Hay varias graficas residuales
que son a menudo tiles. Estas se ilustran en el ejemplo 15.9. Tambin resulta til graficar
los residuos contra variables que no estn presentes en el modelo pero que son posibles
candidatas para incluirlas. Los patrones de estas graficas, similares a los de la figura 14.5,
indican que el modelo puede mejorarse agregando la variable candidata
Ejemplo 15.9 los residuos para el modelo estimado en el ejemplo 15.1 se muestran en la
tabla 15.3 estos residuos se grafican en papel de probabilidad normal en la figura 15.2.
No se manifiestan de manera evidente, desviaciones importantes con respecto a la
normalidad, aunque los dos residuos mas grandes
k

e
-3.9
-2.9
-2.2
-2.2
-2
-1.6
-1.5
-1.3
-1.2
-0.6

Fk=(k-.5)/
n
0.02
0.06
0.1
0.14
0.18
0.22
0.26
0.3
0.34
0.38

1
2
3
4
5
6
7
8
9
1
0
11
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2
5

%
2
6
10
14
18
22
26
30
34
38

-0.5
-0.5

0.42
0.46

42
46

-0.4

0.5

50

0.03

0.54

54

0.15

0.58

58

0.32

0.62

62

0.49

0.66

66

1.11

0.7

70

1.2

0.74

74

1.56

0.78

78

1.57

0.82

82

1.93

0.86

86

2.15

0.9

90

4.33

0.94

94

5.82

0.98

98

15-3 Grafica residual contra y


Los residuos se grafican contra y en la figura 15-3 y
contra x1 y x2 en las figuras 15-4 y 15-5 respectivamente. Los
dos residuos mas grandes e15 y e17 son evidentes. En la fiugra
15-4 hay cierta indicacion de que el modelo subpredice el
tiempo en las salidas con volumenes de entrega pequeos
(X16 latas) y volumenes de entrega grandes (X215 latas), y
sobre predice el tiempo en salidas con volumenes de entrega
intermedios (7x114 latas). La misma impresion se obtiene de
la figura 15-3. Es posible que la reaccin entre el tiempo y el
volumen de entrega no sea lineal (lo que requiere que un
trmino que involucra a x12 por ejemplo se agregue al modelo),
o que otras variables regresoras no presentes en el modelo
afecten la respuesta. Veremos mas adelante que una tercera
variable regresora se requiere para modelar en forma adecuada
estos datos.

Figura 15-4 Grafica residual contra x1

Figura 15-2 Grafica residual contra x2

Вам также может понравиться