Академический Документы
Профессиональный Документы
Культура Документы
(15-1)
Donde y representa la vida de la herramienta, x1, la rapidez de corte y, x2, el ngulo de corte. Este
es un modelo de regresin lineal mltiple con dos regresores. El trmino lineal se emplea debido
a que la ecuacin 15-1 es la funcin lineal de los parmetros desconocidos 0, 1 y 2. Ntese que
el modelo describe un plano en el espacio bidimensional x1, x2. Parmetro 0 define la ordenada al
origen del plano. Unas veces llamados a 1 y 2 coeficientes de regresin parciales,
Porque 1 mide el cambio esperado en y por un cambio unitario en x1 cuando x2 se mantiene
constante, y 2 cambio esperado en y por cambio unitario x2 cuando x1 se mantiene constante.
En General la variable dependiente o respuesta y puede relacionarse con k variables independientes.
El modelo de regresin mltiple (lineal)
Coeficientes
de regresin
(15-2)
Se denomina modelos de regresin lineal mltiple con k variables independientes. Los parmetros
j, j= 0, 1, . . . , k, se llaman coeficientes de regresin . Este modelo describe un hiperplano en el
espacio k-dimensional de las variables regresoras {xj}. El parmetro j representa el cambio
esperado en la respuesta y por cambio unitario en xj todas las variables independientes restantes xj
(ij) se mantienen constantes. Los parmetros j, j = 1, 2, . . . , k, se denominan algunas veces
coeficientes de regresin parciales, porque ellos describen el efecto parcial de una variable
independiente cuando las otras variables independientes en el modelo se mantienen constantes.
Los modelos de regresin lineal mltiple se utilizan a menudo como funciones de aproximacin.
Esto es, la verdadera relacin funcional entre y y x1, x2,. Se desconoce, aunque sobre ciertos
intervalos de las variablwes independientes ..
En general, cualquier modelo de regresin que es lineal en los parmetros (los parmetros ) es un
modelo de regresin lineal, sin importar la forma de la superficie que genera.
(15-7)
La funcin de mnimos cuadrados es
(15.8)
La funcin L se minimizara con respecto a 0, 1, . . . , k. los estimadores de mnimos cuadrados
de 0, 1, . . . , k debe satisfacerse
(15-10)
Ntese que hay p = k + 1 ecuaciones normales, una para cada una de los coeficientes de regresin
desconocidos. Las solucin para las ecuaciones normales sern los estimadores de mnimos
cuadrados de los coeficientes de regresin, 0, 1, . . . , k.
Es ms simple resolver las ecuaciones normales si ellas se expresan en notacin de matriz. Daremos
ahora un desarrollo matricial de las ecuaciones normales que es afin al desarrollo de la ecuacin 1510. El modelo en trminos de las observaciones, ecuaciones 15-7, puede expresarse en notacin
matricial como
K= numero de variables
Donde
Y= vector (n X
1) obs.
X=matriz (x X p)
de los niveles de
Filas
B= vector ( p x 1)
E= vector ( n x 1 )
E= errores
aleatorios
(15-11)
Puesto Xy es una matriz de (1 X 1), o un escalar, y su transpuesta (Xy )= y X es el mismo
escalar. Los estimadores de mnimos cuadrados deben satisfacer
Que se simplifica a
(15-12)
Las ecuaciones 15-12 son las ecuaciones normales de mnimos cuadrados. Ellas son idnticas a las
ecuaciones 15-10. Para resolver las ecuaciones normales, multiplquense ambos lados de la
ecuacin 15-12 por la inversa de XX. De tal modo, el estimador de mnimos cuadrados de es
= Estimador de
mnimos cuadrados
Es fcil ver que la forma matricial de las ecuaciones normales es idntica a la de la forma escalar. Al
escribir completa loa ecuacin 15-12 obtenemos
Nuestro problema consiste en decidir cul de los planos posibles que podemos
dibujar ser el que mejor se ajuste. Para hacer esto, de nuevo utilizaremos el
criterio de mnimos cuadrados y localizaremos el plano que minimice la suma de los
cuadrados de los errores, es decir las distancias desde los puntos alrededor del
plano a los puntos correspondientes sobre el plano.
Ejemplo. A partir de un estudio experimental acerca de la estabilizacin de arcilla
muy plstica se observo que el contenido de agua para moldeo con densidad
optima dependa linealmente de los porcentajes de cal y puzolana mezclados con la
arcilla. Se tuvieron as los resultados de la siguiente tabla. Ajuste una ecuacin de
la forma
= 0+1X1+2X2 a los datos de dicha tabla
Estas Forma
tridimensional con
ejes Y, x1, x2
(plano)
Contenido de
% de agua (y)
27.5
28.0
28.8
29.1
30.0
31.0
32.0
Porcentaje de
porcentaje de
cal (X1)
puzolana (X2)
2.0
18.0
3.5
16.5
4.5
10.5
2.5
2.5
8.5
9.0
10.5
4.5
13.5
1.5
Grafica de 10 puntos
de una muestra y el
plano alrededor del
cual estos puntos
parecen ocuparse
x1
x2
Y=y-
X1= x1-x1
X2= x2-x2
YX1
YX2
X2 1
X2 2
X1 X2
27.5
18
-1.985
-4.428
9.072
8.789
-18.01
19.6
82.3
-40.17
28
3.5
16.5
-1.486
-2.929
7.572
4.352
-11.25
8.579
57.33
-22.178
28.8
4.5
10.5
-0.686
-1.929
1.571
1.323
-1.077
3.721
2.468
-3.03
29.1
2.5
2.5
-0.386
-3.928
-6.429
1.516
2.481
15.42
41.33
25.253
30
8.5
0.514
2.071
0.071
1.064
0.0364
4.289
0.005
0.147
31
10.5
4.5
1.514
4.071
-4.429
6.163
-6.705
16.57
19.61
-18.03
32
13.5
1.5
2.515
7.072
-7.428
17.186
-18.68
50.01
55.17
-52.53
206.4
45
62.5
40.996
-53.21
118.2
258.3
-110.54
Esta ecuacin se puede obtener por medio de la tabla con la sig. Formula
x 1 y = 1 x 2+ 2 x 1 x 2
x 2 y = 1 x 1 x 2+ 2 x 2 2
40.99563=118.2117 1110.54078 2
53.20647=110.54078 1+258.23270 2
por eliminacin se tiene: 1=0.257004
2=-0.096026
= 0+ 1 X 1+ 2 X 2
29.486= 0+(0.257004)(6.429)+(0.096026)(8.929)
0=28.691
=y /n=206.4/7=29.486
x 1= x 1 /n=45 /7=6.429
x 2= x 2 /n=62.5 /7=8.929
De este modo
= 0+ 1 X 1+ 2 X 2
=28.691+0.257 X 1+ 0.0960 X 2
Esta ecuacion describe la relacion que existe entre el porcentaje de cal, porcentaje de puzolana y el
porcentaje de agua
Ejemplo 15.1 Montgomery y Peck (1982) describen el empleo de un modelo de regreseion para
relacionar la cantidad de tiempo requerido por un vendedor de ruta (chofer) para abastecer una
maquina vendedora de refrescos con el numero de latas que incluye la misma, y la distancia del
vehiculo de servicio a la ubicacion de la maquina. Este modelo se empleo para el diseo de la ruta,
el programa y el despacho de vehiculos. La tabla presenta 25 observaciones respecto al tiempo de
entrega tomadas del mismo estudio descrito por Montgomery y Peck.(Notese que esto es una
expansion del conjunto de datos empleados en el ejemplo anterior donde solo se empleo el numero
de latas almacenadas como regresor.)
Ajustaremos el modelo de regresin lineal mltiple:
= 0+ 1 X 1+ 2 X 2+
Distancias (pies)
X2
50
110
120
550
295
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
16.86
14.38
9.60
24.35
27.50
17.08
37.00
41.95
11.66
21.65
17.89
69.00
10.30
34.93
46.59
44.88
54.12
56.63
22.13
21.15
4
2
2
9
8
4
11
12
2
4
4
20
1
10
15
15
16
17
6
5
X=
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
8
11
10
8
4
2
2
9
8
4
11
12
2
4
4
20
1
10
15
15
50
110
120
550
295
200
375
52
100
300
412
400
500
360
205
400
600
585
540
250
290
y=
9.95
24.95
31.75
35.00
25.02
16.86
14.38
9.60
24.35
27.50
17.08
37.00
31.95
11.66
26.65
17.89
69.00
10.30
34.93
46.59
44.88
200
375
52
100
300
412
400
500
360
205
400
600
585
540
250
290
510
590
100
400
1
1
1
1
16
17
6
5
510
590
100
400
54.12
56.63
22.13
21.15
La matriz XX es
XX=
1
2
50
1
8
110
..
..
..
1
5
400
25
206
8294
206
8294
2396 77177
77177 3531848
y el vector Xy es
Xy=
1
2
50
1
8
110
-1
0
25
206
8294
752.82
1 = 206 2396 77177
8008.37
2
8294 77177 3531848
274811.31
.214653
-0.0007491
-0.000.340
= -0.00749
0.001671
-0.000019
-0.00340
-0.000019
0.0000015
2.26379143 0
= 2.74426964 1
0.01252781 2
1
5
400
1
1
.
.
.
1
9.95
24.45
.
.
.
21.15
752.82
8008.37
274811.31
2
8
.
.
.
5
50
110
.
.
.
400
725.82
8008.37
274811.31
9.95
24.45
31.75
35.00
25.02
16.86
14.38
9.60
24.35
27.50
17.08
37.00
41.95
11.66
21.65
17.89
69.00
10.30
34.93
46.59
44.88
54.12
56.63
22.13
21.15
8.38
25.60
33.95
36.60
27.91
15.75
12.45
8.40
28.21
27.98
18.40
37.46
41.46
12.26
15.81
18.25
64.67
12.34
36.47
46.56
47.06
52.56
56.31
19.98
21.00
1.57
-1.15
-2.20
-1.60
-2.89
1.11
1.93
1.20
-3.86
-0.48
-1.32
-0.46
0.49
-0.60
5.84
-0.36
4.33
-2.04
-1.54
0.03
-2.18
1.56
0.32
2.15
0.15
b) Estimaremos la varianza del error (2) para el problema de la regresin mltiple en el ejemplo
15-3
MSE=SSE /n p
2=MSE
n= No. de elementos
p= No. de tratamientos (variables)
SSE= y y (X Y )
y y =25 i=1 y i 2=27.1779510
(XY)= 2.26379143
2.74426964
0.01252781
SSE= y y (X Y )=27177.951027062.7775
SSE=115.1735
La estimacin de 2 (la varianza del error) es:
MSE=SSE /n p
2=MSE
725.82
80008.37
274811.31
= 27062.7775
j t
2
,n p
C jj j j +t
2
,n p
C jj
Ejemplo c)
Construir un intervalo de confianza del 95% respecto al parmetro 1, para nuestro ejemplo, ntese
que la estimacin puntual es 1 es 1=2.14427, y que el element de la diagonal de
( XT X )
corresponde a 1 es cii=0.001671
X01
X02
X03
y o= X o
V ( y o ) = X 0 ( X X ) X 0
Por lo tanto, un intervalo de confianza del 100(1-)% respecto a la respuesta media en el punto X0,
X01, . . . Xok es
y ot
2
,n p
X T0 ( X T X ) X 0 E ( y 0 ) y o +t
2
, np
X T0 ( X T X ) X 0
X01
1
Xo
X02
8
275
X03
[ ]
2.26379
'
y o= [ 1 8 275 ] 2.74427 =27.66
0.01253
y o se estima mediante:
La varianza de
V ( y o ) = X 0 ( X X ) X 0
26.66 E ( y 0 ) 28.66
Conclusin: se estima que el tiempo promedio de entrega para una salida se encuentra entre 26.66 y
28.66 min. Con un nivel de confianza del 95%
Prediccin de nuevas observaciones
El modelo de regresin puede utilizar para predecir observaciones futuras respecto y que
corresponde a valores particulares de las variables independientes, digamos X0, X01, . . . Xok, una
estimacin puntual de la observacin futura Yo en el punto X0, X01, . . . Xok es
y o= X To
Un intervalo de prediccin del 100(1-) % para esta observacin futura es
y ot
2
,n p
( 1+ X T0 ( X T X )
X 0 ) y 0 yo+ t
2
,n p
(1+ X T0 ( X T X )
X 0)
Ejemplo:
Supngase que el embotellador de refrescos de nuestro ejemplo desea construir un intervalo de
prediccin del 95% en el tiempo de entrega; X1=8 latas y X2= 275 pies
Conclusin.El intervalo de prediccin en el tiempo con un nivel de confianza del 95% est entre 22.51 y
32.51min este intervalo es ms ancho ya que toma en cuenta tanto el error estndar del estimador
mas el error muestra.
X 1 , X 2, X 3
H 0 : Bi=B2 = B k =0
Hi: B j 0
H 0 : B j=0
regresin
libertad
K=
SSR=
MSR=
Error
SSE=
n-k-1=
MSR
MSE
MSE=
Total
SYY=
n-1=
H 0 si
Se rechaza si
H 0 : B j=0
es calcular
SRR
K
MSR
Fo=
=
SSE
MSE
(nk1)
Fo> F , nk1
( )
yi
'
SSE=Y Y
J =i
'
^B x y
( )
yi
J =i
SSE=SYY-SSR
2
SYY=
'
YY
( )
yi
J=i
Ejemplo:
Probaremos la significancia de la regresin de nuestro problema 15.1
H 0 : Bi=B2 =0
Hi: B j 0
( 725.82 )2
=6105.9447
SYY=27177.9515n 25
( 725.82 )2
=5990.7712
SSR=27062.7775n 25
SSE=SYY-SSR=6105.9447-5990.7712=115.1735
Fo=
Regin
aceptada
2995.3956
=572.17
5.2352
Puesto que si
H0
Conclusin.- se rechaza
Regin de
rechazo
H 0 ya que
Ejemplo. Probar el coeficiente individual de regresin B2 con un nivel de confianza del 95%
Ho: B2= 0
Hi: B20
si t .25, 22 = 2.074
Entonces 4.4767>2.074
R 2=SSR/SYY =1SSE/SYY
R2 es una medida del grado de reduccin en la variabilidad de y obtenida mediante el
empleo de las variables regresivas X1, X2. Xk. Como en el caso de la regresin lineal
simple, debemos tener 0 R2 1. Sin embargo un valor grande de R2,
independientemente si la variable adicional es o no estadsticamente significativa. De tal
modo, es posible en modelos que tienen grandes valores de R2 producir predicciones
pobres de nuevas observaciones o estimaciones de la respuesta media.
La raz cuadrada positiva de R2 es el coeficiente de correlacin mltiple entre Y y el
conjunto de variables regresoras X1, X2. Xk. esto es R es una medida de la asociacin
lineal entre Y y X1, X2. Xk. cuando k=1, esto es vuelve la correlacion simple entre Y y x.
Ejemplo el coeficiente de determinacin mltiple para el modelo de regresin estimado en
el ejemplo 15.1 es
R 2=SSR/SYY =5990.7712/6105.9447=.981137
Esto alrededor del 98.11 porciento de la variabilidad en el tiempo de entrega y ha sido
explicada cuando se emplean las dos variables regresoras, esto es volumen de entrega
(x1) y distancia (x2). En el ejemplo 14.7 se desarrollo un modelo que relaciona y con x1. El
valor de R2 en este modelo es R2 =.963954. Observaciones 15 y 17. O cualquier otra razn
para descartar o modificar estos dos. Por tanto al aadir la variable x2 al modelo se
incremento R2 de .963954 a puntos.
15.6.2 ANALISIS RESIDUAL
Los residuos del modelo de regresin mltiple estimado. Definidos por yi - Yi, desempean
un importante papel al juzgar la suficiencia del modelo del mismo modo que lo hacen en
regresin lineal simple. Como se noto en la seccin 14.5.1. Hay varias graficas residuales
que son a menudo tiles. Estas se ilustran en el ejemplo 15.9. Tambin resulta til graficar
los residuos contra variables que no estn presentes en el modelo pero que son posibles
candidatas para incluirlas. Los patrones de estas graficas, similares a los de la figura 14.5,
indican que el modelo puede mejorarse agregando la variable candidata
Ejemplo 15.9 los residuos para el modelo estimado en el ejemplo 15.1 se muestran en la
tabla 15.3 estos residuos se grafican en papel de probabilidad normal en la figura 15.2.
No se manifiestan de manera evidente, desviaciones importantes con respecto a la
normalidad, aunque los dos residuos mas grandes
k
e
-3.9
-2.9
-2.2
-2.2
-2
-1.6
-1.5
-1.3
-1.2
-0.6
Fk=(k-.5)/
n
0.02
0.06
0.1
0.14
0.18
0.22
0.26
0.3
0.34
0.38
1
2
3
4
5
6
7
8
9
1
0
11
1
2
1
3
1
4
1
5
1
6
1
7
1
8
1
9
2
0
2
1
2
2
2
3
2
4
2
5
%
2
6
10
14
18
22
26
30
34
38
-0.5
-0.5
0.42
0.46
42
46
-0.4
0.5
50
0.03
0.54
54
0.15
0.58
58
0.32
0.62
62
0.49
0.66
66
1.11
0.7
70
1.2
0.74
74
1.56
0.78
78
1.57
0.82
82
1.93
0.86
86
2.15
0.9
90
4.33
0.94
94
5.82
0.98
98