Академический Документы
Профессиональный Документы
Культура Документы
es una variable
aleatoria.
ECUACIN DE REGRESIN MLTIPLE
Sea E(y) la media o valor esperado de y el cual define la ecuacin de regresin mltiple de la forma:
E ( y ) 0 1 x1 2 x 2 p x p
y 0 1 x1 1 x1 p x p
donde b0 , b1 , b2 , b p son las estimaciones de 0 , 1 , 2 , p y
dependiente.
SUPUESTOS DEL MODELO
Modelo de regresin mltiple es de la forma:
y 0 1 x1 2 x 2 p x p
Supuestos
acerca
del
trmino
y 0 1 x1 2 x 2 p x p :
de
error,
en
el
modelo
de
regresin
mltiple
1. El error es una variable aleatoria cuyo valor medio o esperado es cero; esto es, E()=0.
Implicacin: para los valores dados de x1 , x 2 , x 3 , x 4 , , x p el valor esperado o media de y es:
E ( y ) 0 1 x1 2 x 2 p x p
2. La varianza de se representa por 2 y es igual para todos los valores de las variables
independientes x1 , x 2 , x 3 , x 4 , , x p . Implicacin: la varianza de y es igual a 2 y es igual para
todos los valores de x1 , x 2 , x3 , x 4 , , x p .
H 0 : 1 2 3 p 0
MSR
MSR
MSE
SSR
SSE
; MSE
p
n p 1
Regla de rechazo
Con el estadstico de prueba: Rechazar H0 si F > F
Con el valor de p (p_value): Rechazar H0 si el valor de p <
donde F se basa en la distribucin F con p (n de variables independientes) grados de libertad en el
numerador y n-p-1 grados de libertad en el denominador.
Suma de cuadrados
SSR
Grados de libertad
P
Error
SSE
n-p-1
TOTAL
SST
n-1
Cuadrado medio
SSR
MSR
p
SSE
MSE
n p 1
F de Fisher
MSR
F
MSE
PRUEBA t
Si la prueba F ha mostrado que la relacin de regresin mltiple tiene significancia, se puede hacer
una prueba t para determinar la significancia de cada uno de los parmetros individuales. La prueba
t de significancia es la siguiente:
H 0 :i 0
H1 : i 0
Estadstico de prueba: t
bi
s bi
Regla de rechazo:
Con el estadstico de prueba: Rechazar H 0 si t t2 t t 2
Con el valor de p: Rechazar H 0 si el valor de p
Donde t se basa en una distribucin t con n-p-1 grados de libertad.
2
EJEMPLO
La compaa burtler Company es una empresa de transporte que realiza entregas en la zona de California.
Se desea estimar el tiempo diario total que viajan sus operadores. Plantee una ecuacin de regresin
mltiple.
Se deben capturar los datos en una hoja de trabajo de Minitab. En este caso se teclearon los datos de
millas recorridas en la columna C1, la cantidad de entrega en C2 y los tiempos de recorrido en la columna
C3.
Recorrido(i)
1
2
3
4
5
6
7
8
100
50
100
100
50
80
75
65
4
3
4
2
2
2
3
4
9.3
4.8
8.9
6.5
4.2
6.2
7.4
6.0
9
10
90
90
3
2
7.6
6.1
EN MINITAB
Paso1. Seleccione el men desplegable Estadsticas
Paso2. Seleccione el men desplegable Regresin
Paso3. Escoja la opcin Regresin
Paso4. Cuando aparezca el cuadro de dilogo Regresin:
Escriba TiempodeRecorrido-y en el cuadro de Respuesta
Escriba 'Millas recorridas-x1' 'Cantidad de entregas-x2' en el cuadro de Predictores
En el cuadro de resultados elija: ecuacin de regresin
Seleccione OK
La ecuacin de regresin es
TiempodeRecorrido-y = - 0.869 + 0.0611 Millas recorridas-x1 + 0.923 Cantidad de entregas-x2
Predictor
Constante
Millas recorridas-x1
Cantidad de entregas-x2
S = 0.573142
Coef
-0.8687
0.061135
0.9234
R-cuad. = 90.4%
PRESS = 4.59839
Coef. de EE
0.9515
0.009888
0.2211
T
-0.91
6.18
4.18
P
0.392
0.000
0.004
R-cuad.(ajustado) = 87.6%
R-cuad.(pred) = 80.76%
Anlisis de varianza
Fuente
Regresin
Error residual
Total
GL
2
7
9
SC
21.601
2.299
23.900
MC
10.800
0.328
F
32.88
P
0.000
GL
2
7
9
SC
21.601
2.299
23.900
MC
10.800= MSR
0.328= MSE
F (Fisher)
32.88
P
0.000
H 0 : 1 2 0
MSR 10.800
32.88
MSE
0.328
Grfica de distribucin
F, df1=2, df2=7
1.0
Densidad
0.8
0.6
0.005
Aceptacin
Rechazo
0.4
Rechazo
0.2
0.0
0.005016
0
0.005
12.40
t=32.88
Interpretacin
Como F 32.88 F 12.40 entonces rechazamos la hiptesis nula Ho y llegamos a la conclusin,
de que con un nivel de significancia de 1%, 1 no es igual a cero (0) ni 2 no es igual a cero (0). La
evidencia estadstica es suficiente para concluir que tenemos una relacin significativa entre el tiempo
de viaje, y, y las dos variables independientes, que son las millas recorridas y la cantidad de entregas.
El valor de p=0.000 < =0.01 de la ltima columna de la tabla de anlisis de varianza tambin indica
que podemos rechazar la hiptesis nula H 0 : 1 2 0 , porque el valor de p es menor que =0.01
X 1 , X 2 , X 3 ,K , X k y
un trmino de perturbacin
Yi 1 2 X 2i 3 X 3i K k X ki ui
u.
; i 1, 2,K , n
Y1 1 2 X 21 3 X 31 K k X k1 u1
Y X X K X u
1
2 22
3 32
k
k2
2
2
Y3 1 2 X 23 3 X 33 K k X k 3 u3
M
Yn 1 2 X 2 n 3 X 3n K k X kn un
1 X 21
Y1
1X
Y
22
2
Y3 1 X 23
M
M
1X
Y
2n
n
X 31 K X k1
X 32 K X k 2
X 33 K X k 3
X 3n K X kn
1
2
3
M
n
u1
u
2
u3
M
u
n
Y X . u
ESTIMADORES MINIMOCUADRTICO
Para calcular los valores de
1 , 2 , 3 ,L , n
de la forma:
7 DR. SORIA QUIJAITE JUAN JESS
Y X . e
Donde
X T . X . X T . y
Considerando
X 21
X
22
X 2 X 22
M
X 2n
X 31
X
32
X 3 X 32
M
X
3n
X 41
X
42
X 4 X 42
M
X 4n
X k1
X
k 2
. X X
k
k2
M
X
kn
Y n X
X Y X X
2
2
Y n X X
X Y X X X X
X Y X X X X
2
2
2
3
Una frmula ms simple para encontrar la ecuacin de regresin lineal mltiple para dos variables
independientes es:
j 1
j 1
j 1
nb0 b1 x1 j b2 x2 j y j
j 1
j 1
j 1
j 1
j 1
j 1
j 1
b0 x1 j b1 x b2 x1 j x2 j x1 j y j
2
1j
b0 x2 j b1 x1 j x2 j b2 x x2 j y j
2
2j
j 1
j 1
j 1
j 1
j 1
nb0 b1 x1 j b2 x2 j L bk xkj y j
j 1
j 1
j 1
j 1
j 1
j 1
j 1
j 1
j 1
j 1
2
b0 x1 j b1 x1 j b2 x1 j x2 j L bk x1 j xkj x1 j y j
2
b0 x2 j b1 x2 j x1 j b2 x2 j L bk x2 j xkj x2 j y j
j 1
j 1
j 1
j 1
j 1
E1) Calcular la ecuacin de regresin lineal mltiple en dos variables en forma algebraica
9 DR. SORIA QUIJAITE JUAN JESS
yj
Recorrido(i)
1
2
3
4
5
6
7
8
9
10
100
50
100
100
50
80
75
65
90
90
x1 j
9.3
4.8
8.9
6.5
4.2
6.2
7.4
6.0
7.6
6.1
=67
x2 j
100
50
100
100
50
80
75
65
90
90
4
3
4
2
2
2
3
4
3
2
=800
=29
4
3
4
2
2
2
3
4
3
2
x1 j x2 j
x1 j y j
400
150
400
200
100
160
225
260
270
180
=2345
930
240
890
650
210
496
555
390
684
549
=5594
j 1
j 1
j 1
nb0 b1 x1 j b2 x2 j y j
j 1
j 1
j 1
j 1
j 1
j 1
j 1
b0 x1 j b1 x b2 x1 j x2 j x1 j y j
2
1j
b0 x2 j b1 x1 j x2 j b2 x x2 j y j
2
2j
j 1
10 b0 800 b1 29b2 67
En forma matricial
9.3
4.8
8.9
6.5
4.2
6.2
7.4
6.0
7.6
6.1
x2 j y j
37.2
14.4
35.6
13.0
8.4
12.4
22.2
24.0
22.8
12.2
=202.2
x12j
10000
2500
10000
10000
2500
6400
5625
4225
8100
8100
=67450
x22 j
16
9
16
4
4
4
9
16
9
4
=91
y 2j
86.49
23.04
79.21
42.25
17.64
38.44
54.76
36.00
57.76
37.21
=472.8
29 b0
10 800
67
800 67450 2345 b 5594
29 2345 91 b2
202.2
Utilizando el software MATLAB tenemos nuestra solucin:
%SENTENCIA
A=[10 800 29;800 67450 2345;29 2345 91];
b=[67 5594 202.2]
format long
x=A\b'
%RESULTADOS
A=[10 800 29;800 67450 2345;29 2345 91]
b=[67 5594 202.2]
format long
x=A\b'
A = 10
800
29
800
67450
2345
29
2345
91
b = 1.0e+003 *
0.067000000000000 5.594000000000000 0.202200000000000
x=
-0.868701466781728
0.061134598792062
0.923425366695426
CS={(-0.868701466781728; 0.061134598792062 ; 0.923425366695426)}
Luego la ecuacin de regresin lineal de dos variables independientes es:
f(x1 ,x 2 )=-0.868701466781728+0.061134598792062x1 0.923425366695426x 2
Redondeando tenemos
f(x1 ,x 2 )=-0.869+0.0611x1 0.923x 2
%SENTENCIA DE MATLAB
xa=0:0.05:20;
ya=0:0.05:20;
[x1,x2]=meshgrid(xa,ya);
f=-0.869+0.0611*x1+0.923*x2;
mesh(x1,x2,f)
grid on
xlabel('millas recorridas')
ylabel('Cantidad de entregas')
EJERCICIOS
DE APLICACIN
1) Muchos colegios y universidades elaboran modelos de regresin para predecir el promedio de
calificacin (PC) de los alumnos de nuevo ingreso. Este promedio puede entonces ayudar a tomar
decisiones en la admisin. Aunque la mayor parte de los modelos emplean muchas variables
independientes para predecir el promedio de calificaciones, para ejemplo se escogen dos variables.
x1 =Calificacin de expresin oral (percentil) del examen de admisin.
x2 =Calificacin de matemticas del examen de admisin.
Se obtuvieron los datos de la tabla siguiente para una muestra aleatoria de cuarenta candidatos a
nuevo ingreso en un colegio.
Expresin oral(x1)
81
68
57
100
54
82
75
58
55
49
Matemticas(x2)
87
99
86
49
83
86
74
98
54
81
PC(Y)
3.49
2.89
2.73
1.54
2.56
3.43
3.59
2.86
1.46
2.11
Expresin oral(x1)
79
81
50
72
54
65
56
98
97
77
Matemticas(x2)
75
62
69
70
52
79
78
67
80
90
PC(Y)
3.45
2.76
1.90
3.01
1.48
2.98
2.58
2.73
3.27
3.47
64
66
80
100
83
64
83
93
74
51
a.
76
59
61
85
76
66
72
54
59
75
2.69
2.16
2.60
3.30
3.75
2.70
3.15
2.28
2.92
2.48
49
39
87
70
57
74
87
90
81
84
54
81
69
95
89
67
93
65
76
69
1.30
1.22
3.23
3.82
2.93
2.83
3.84
3.01
3.33
3.06
b.
predecir los promedios de calificaciones de los alumnos de nuevo ingreso. Emplear =5%
Hacer un esquema de la relacin entre los promedios de calificaciones predichos, y
$ , y las
calificaciones de expresin oral x1, para las siguientes calificaciones de matemticas: x 2=60, 75 y
90.
2) Mike Wilde es presidente de la unin de profesores para el distrito Escolar de Otsego. A fin de
prepararse para las negociaciones prximas, le gustara investigar la estructura salarial de los
profesores frente a grupo en el distrito. Wilde considera que existen tres factores que influyen en el
salario de profesor: los aos de experiencia, su calificacin en desempeo docente proporcionada por
el director y si el profesor cuenta con una maestra. Una muestra aleatoria de 20 profesores
proporcion la siguiente informacin:
Salario en miles de $ (Y)
21.1
23.6
19.3
33.0
28.6
35.0
32.0
26.8
38.6
21.7
15.7
20.6
41.8
36.7
28.4
23.6
31.8
20.7
22.8
32.8
8
5
2
15
11
14
9
7
22
3
1
5
23
17
12
14
8
4
2
8
35
43
51
60
73
80
76
54
55
90
30
44
84
76
68
25
90
62
80
72
Maestra (X3)
1=Si,
13 DR. SORIA QUIJAITE JUAN JESS
0
0
1
1
0
1
0
1
1
1
0
0
1
0
1
0
1
0
1
0
0=No
3) El departamento de hipotecas de un banco importante estudia sus prstamos recientes. Quiere saber
sobre todo de qu manera factores como el valor de la vivienda (en miles de dlares) , el nivel de
educacin del jefe de familia, la edad del jefe de familia (1=Masculino, 0=Femenino) se relacionan
con el ingreso familiar. Estas variables predicen de manera eficaz el ingreso del jefe de familia? Se
obtuvo una muestra aleatoria de 25 prstamos recientes.
Ingresos (miles $)
40.3
39.6
40.6
40.3
40.0
38.1
40.4
40.7
40.8
37.1
39.9
40.4
38.0
39.0
39.5
40.6
40.3
40.1
41.7
40.1
40.6
40.4
Valor (miles $)
190
121
161
161
179
99
114
202
184
90
181
143
132
127
153
145
174
177
188
153
150
173
Aos de educacin
14
15
14
14
14
14
15
14
13
14
14
15
14
14
14
14
15
15
15
15
16
13
Edad
53
49
44
39
53
46
42
49
37
43
48
54
44
37
50
50
52
47
49
53
58
42
Pago de hipoteca
Gnero
230
370
397
181
378
304
285
551
370
135
332
217
490
220
270
279
329
274
433
333
148
390
1
1
1
1
0
0
1
0
0
0
1
1
0
0
1
1
1
0
1
1
0
1
40.9
163
14
46
142
1
40.1
150
15
50
343
0
38.5
139
14
45
373
0
a. Determine la ecuacin de regresin
b. Cul es el valor de R2? Comente el valor
c. Realice una prueba global de hiptesis para determinar si alguna de las variables independientes
es diferente de cero.
d. Realice una prueba de hiptesis individual para determinar si se puede eliminar alguna variable
independiente.
e. Si se eliminan variables, vuelva a calcular la ecuacin de regresin y R2.