Вы находитесь на странице: 1из 15

UNIVERSIDAD PERUANA UNIN

ESCUELA DE POS GRADO DE INGENIERA


ESPECIALIDAD DE ESTADSTICA PARA LA INVESTIGCIN

PRUEBA DE SIGNIFICANCIA DE REGRESIN LINEAL CON MINITAB


MODELO DE REGRESIN MLTIPLE
El anlisis de regresin mltiple es el estudio de la forma en que una variable dependiente, y, se relaciona
con dos o ms variables independientes. En el caso general emplearemos p para representar la cantidad
de variables independientes.
MODELO DE REGRESIN Y ECUACIN DE REGRESIN
La forma en que la variable dependiente, y, se relaciona con las variables independientes
x1 , x 2 , x3 , x 4 , , x p y un trmino de error se llama modelo de regresin mltiple.
MODELO DE REGRESIN MLTIPLE
y 0 1 x1 2 x 2 p x p

En el modelo de regresin mltiple , , , , , son los parmetros, y


0
1
2
3
p

es una variable

aleatoria.
ECUACIN DE REGRESIN MLTIPLE
Sea E(y) la media o valor esperado de y el cual define la ecuacin de regresin mltiple de la forma:
E ( y ) 0 1 x1 2 x 2 p x p

ECUACIN DE REGRESIN MLTIPLE ESTIMADA


Como los valores de 0 , 1 , 2 , p no se conocen, entonces se usan sus estimadores puntuales
b0 , b1 , b2 , b p para calcular la ecuacin de regresin definida por:
^

y 0 1 x1 1 x1 p x p
donde b0 , b1 , b2 , b p son las estimaciones de 0 , 1 , 2 , p y

y =Valor estimado de la variable

dependiente.
SUPUESTOS DEL MODELO
Modelo de regresin mltiple es de la forma:

y 0 1 x1 2 x 2 p x p

Supuestos

acerca

del

trmino

y 0 1 x1 2 x 2 p x p :

de

error,

en

el

modelo

de

regresin

mltiple

1. El error es una variable aleatoria cuyo valor medio o esperado es cero; esto es, E()=0.
Implicacin: para los valores dados de x1 , x 2 , x 3 , x 4 , , x p el valor esperado o media de y es:
E ( y ) 0 1 x1 2 x 2 p x p
2. La varianza de se representa por 2 y es igual para todos los valores de las variables
independientes x1 , x 2 , x 3 , x 4 , , x p . Implicacin: la varianza de y es igual a 2 y es igual para
todos los valores de x1 , x 2 , x3 , x 4 , , x p .

1 DR. SORIA QUIJAITE JUAN JESS

3. Los valores de son independientes.


Implicacin: el tamao del error, para determinado conjunto de valores de las variables
independientes, no se relaciona con el tamao del error para cualquier otro conjunto de valores.
4. El error es una variable aleatoria con distribucin normal, que refleja la diferencia entre el valor de
y, y el valor esperado de y, de acuerdo con 0 1 x1 2 x 2 p x p
Implicacin: Como 0 , 1 , 2 , p son constantes, la variable dependiente y tambin es variable
aleatoria con distribucin normal, para los valores de x1 , x 2 , x 3 , x 4 , , x p .
PRUEBAS DE SIGNIFICANCIA
1. La prueba F se usa para determinar si hay una relacin significativa entre la variable dependiente y
el conjunto de todas las variables independientes. En estas condiciones, se le llama prueba de
significancia global.
2. Si la prueba F indica la significancia global, la prueba t se aplica para determinar si cada una de las
variables independientes tiene significancia. Se hace una prueba t por separado para cada variable
independiente en el modelo; a cada una de esas pruebas t se le llama prueba de significancia
individual.
PRUEBA F PARA SIGNIFICANCIA GENERAL
Planteamiento de hiptesis

H 0 : 1 2 3 p 0

H 1 :Uno o ms de los parmetros no es igual a cero


Estadstico de Prueba
F
donde

MSR

MSR
MSE

SSR
SSE
; MSE
p
n p 1

Regla de rechazo
Con el estadstico de prueba: Rechazar H0 si F > F
Con el valor de p (p_value): Rechazar H0 si el valor de p <
donde F se basa en la distribucin F con p (n de variables independientes) grados de libertad en el
numerador y n-p-1 grados de libertad en el denominador.

2 DR. SORIA QUIJAITE JUAN JESS

TABLA DE ANLISI DE VARIANZA PARA UN MODELO DE REGRESIN MLTIPLE CON p


VARIABLES INDEPENDIENTES
Fuente de variacin
Regresin

Suma de cuadrados
SSR

Grados de libertad
P

Error

SSE

n-p-1

TOTAL

SST

n-1

Cuadrado medio
SSR
MSR
p
SSE
MSE
n p 1

F de Fisher
MSR
F
MSE

PRUEBA t
Si la prueba F ha mostrado que la relacin de regresin mltiple tiene significancia, se puede hacer
una prueba t para determinar la significancia de cada uno de los parmetros individuales. La prueba
t de significancia es la siguiente:

PRUEBA t DE SIGNIFICANCIA INDIVIDUAL


Planteamiento de hiptesis para cualquier parmetro i

H 0 :i 0

H1 : i 0
Estadstico de prueba: t

bi
s bi

Regla de rechazo:
Con el estadstico de prueba: Rechazar H 0 si t t2 t t 2
Con el valor de p: Rechazar H 0 si el valor de p
Donde t se basa en una distribucin t con n-p-1 grados de libertad.
2

EJEMPLO
La compaa burtler Company es una empresa de transporte que realiza entregas en la zona de California.
Se desea estimar el tiempo diario total que viajan sus operadores. Plantee una ecuacin de regresin
mltiple.
Se deben capturar los datos en una hoja de trabajo de Minitab. En este caso se teclearon los datos de
millas recorridas en la columna C1, la cantidad de entrega en C2 y los tiempos de recorrido en la columna
C3.
Recorrido(i)

Millas recorridas (x1)

1
2
3
4
5
6
7
8

100
50
100
100
50
80
75
65

3 DR. SORIA QUIJAITE JUAN JESS

Cantidad de entrega (x2)

4
3
4
2
2
2
3
4

Tiempo de recorrido horas (y)

9.3
4.8
8.9
6.5
4.2
6.2
7.4
6.0

9
10

90
90

3
2

7.6
6.1

EN MINITAB
Paso1. Seleccione el men desplegable Estadsticas
Paso2. Seleccione el men desplegable Regresin
Paso3. Escoja la opcin Regresin
Paso4. Cuando aparezca el cuadro de dilogo Regresin:
Escriba TiempodeRecorrido-y en el cuadro de Respuesta
Escriba 'Millas recorridas-x1' 'Cantidad de entregas-x2' en el cuadro de Predictores
En el cuadro de resultados elija: ecuacin de regresin
Seleccione OK

Anlisis de regresin: TiempodeReco vs. Millas recor, Cantidad de

La ecuacin de regresin es
TiempodeRecorrido-y = - 0.869 + 0.0611 Millas recorridas-x1 + 0.923 Cantidad de entregas-x2
Predictor
Constante
Millas recorridas-x1
Cantidad de entregas-x2
S = 0.573142

Coef
-0.8687
0.061135
0.9234

R-cuad. = 90.4%

PRESS = 4.59839

Coef. de EE
0.9515
0.009888
0.2211

T
-0.91
6.18
4.18

P
0.392
0.000
0.004

R-cuad.(ajustado) = 87.6%

R-cuad.(pred) = 80.76%

Anlisis de varianza
Fuente
Regresin
Error residual
Total

GL
2
7
9

SC
21.601
2.299
23.900

MC
10.800
0.328

F
32.88

P
0.000

MATEMTICAMENTE LA ECUACIN QUEDA REPRESENTADA POR

y 0.869 0.0611 x1 0.923 x2


Analicemos los
resultados
resultados
de Minitab
del software MINITAB
Anlisis de varianza
Fuente
Regresin
Error residual
Total

GL
2
7
9

SC
21.601
2.299
23.900

MC
10.800= MSR
0.328= MSE

F (Fisher)
32.88

4 DR. SORIA QUIJAITE JUAN JESS

P
0.000

Grficas de residuos para TiempodeRecorrido-y

PRUEBA F PARA SIGNIFICANCIA GENERAL


Planteamiento de hiptesis

H 0 : 1 2 0

H 1 :Uno o ms de los parmetros no es igual a cero


Estadstico de Prueba
F

MSR 10.800

32.88
MSE
0.328

5 DR. SORIA QUIJAITE JUAN JESS

Grfica de distribucin
F, df1=2, df2=7
1.0

Densidad

0.8

0.6

0.005

Aceptacin

Rechazo

0.4

Rechazo
0.2

0.0

0.005016
0

0.005
12.40

t=32.88

Interpretacin
Como F 32.88 F 12.40 entonces rechazamos la hiptesis nula Ho y llegamos a la conclusin,
de que con un nivel de significancia de 1%, 1 no es igual a cero (0) ni 2 no es igual a cero (0). La
evidencia estadstica es suficiente para concluir que tenemos una relacin significativa entre el tiempo
de viaje, y, y las dos variables independientes, que son las millas recorridas y la cantidad de entregas.
El valor de p=0.000 < =0.01 de la ltima columna de la tabla de anlisis de varianza tambin indica
que podemos rechazar la hiptesis nula H 0 : 1 2 0 , porque el valor de p es menor que =0.01

6 DR. SORIA QUIJAITE JUAN JESS

COMPLEMENTO DE LA TEORA GENERAL

El modelo lineal general de k variables la definimos por:


Hiptesis
Supongamos que existe una relacin lineal entre una variable Y y k-1 variables explicativas

X 1 , X 2 , X 3 ,K , X k y

un trmino de perturbacin

observaciones de Y y X podemos escribir

Yi 1 2 X 2i 3 X 3i K k X ki ui

u.

Si se tiene una muestra de n

; i 1, 2,K , n

Haciendo variar a i=1,2,3, se tiene:

Y1 1 2 X 21 3 X 31 K k X k1 u1
Y X X K X u
1
2 22
3 32
k
k2
2
2

Y3 1 2 X 23 3 X 33 K k X k 3 u3
M

Yn 1 2 X 2 n 3 X 3n K k X kn un

Que en forma matricial se expresa por:

1 X 21
Y1
1X
Y
22

2
Y3 1 X 23


M
M
1X
Y
2n
n

X 31 K X k1
X 32 K X k 2
X 33 K X k 3

X 3n K X kn

1

2
3

M


n

u1
u
2

u3

M
u
n

En forma matricial se expresa de la forma:

Y X . u
ESTIMADORES MINIMOCUADRTICO
Para calcular los valores de

1 , 2 , 3 ,L , n

de la forma:
7 DR. SORIA QUIJAITE JUAN JESS

entonces se puede escribir la ecuacin

Y X . e
Donde

e representa al vector columna de los n residuos Y X .

Para hallar el valor de

que minimiza la suma de cuadrados de los residuos y se obtiene:

X T . X . X T . y
Considerando

X 21
X
22
X 2 X 22

M
X 2n

X 31
X
32
X 3 X 32

M
X
3n

X 41
X
42
X 4 X 42

M
X 4n

X k1
X
k 2
. X X
k
k2

M
X
kn

Obtenemos las ecuaciones normales para dos variables:

Y n X

X Y X X

2
2

Las ecuaciones normales para tres variables son:

Y n X X

X Y X X X X

X Y X X X X

2
2

2
3

Una frmula ms simple para encontrar la ecuacin de regresin lineal mltiple para dos variables
independientes es:

8 DR. SORIA QUIJAITE JUAN JESS

j 1

j 1

j 1

nb0 b1 x1 j b2 x2 j y j

j 1

j 1

j 1

j 1

j 1

j 1

j 1

b0 x1 j b1 x b2 x1 j x2 j x1 j y j

2
1j

b0 x2 j b1 x1 j x2 j b2 x x2 j y j

2
2j

j 1

En general las estimaciones b0 , b1 , b2 , b3 ... bk de los coeficientes de regresin se obtienen resolviendo


el conjunto siguiente de ecuaciones normales:

j 1

j 1

j 1

j 1

nb0 b1 x1 j b2 x2 j L bk xkj y j

j 1

j 1

j 1

j 1

j 1

j 1

j 1

j 1

j 1

j 1

2
b0 x1 j b1 x1 j b2 x1 j x2 j L bk x1 j xkj x1 j y j

2
b0 x2 j b1 x2 j x1 j b2 x2 j L bk x2 j xkj x2 j y j

j 1

j 1

j 1

j 1

b0 xkj b1 xkj x1 j b2 xkj x2 j L bk x xkj y j


2
kj

j 1

E1) Calcular la ecuacin de regresin lineal mltiple en dos variables en forma algebraica
9 DR. SORIA QUIJAITE JUAN JESS

yj

Recorrido(i)

Millas recorridas (x1)

1
2
3
4
5
6
7
8
9
10

100
50
100
100
50
80
75
65
90
90

x1 j
9.3
4.8
8.9
6.5
4.2
6.2
7.4
6.0
7.6
6.1

=67

x2 j

100
50
100
100
50
80
75
65
90
90

4
3
4
2
2
2
3
4
3
2

=800

=29

4
3
4
2
2
2
3
4
3
2

x1 j x2 j

x1 j y j

400
150
400
200
100
160
225
260
270
180

=2345

930
240
890
650
210
496
555
390
684
549

=5594

Reemplazando en las ecuaciones normales tenemos:

j 1

j 1

j 1

nb0 b1 x1 j b2 x2 j y j

j 1

j 1

j 1

j 1

j 1

j 1

j 1

b0 x1 j b1 x b2 x1 j x2 j x1 j y j

2
1j

b0 x2 j b1 x1 j x2 j b2 x x2 j y j

Tiempo de recorrido horas (y)

Cantidad de entrega (x2)

2
2j

j 1

Se forma el sistema de ecuaciones de la forma:

10 b0 800 b1 29b2 67

800 b0 67450 b1 2345b2 5594


29 b 2345 b 91b 202.2
0
1
2

En forma matricial

10 DR. SORIA QUIJAITE JUAN JESS

9.3
4.8
8.9
6.5
4.2
6.2
7.4
6.0
7.6
6.1

x2 j y j
37.2
14.4
35.6
13.0
8.4
12.4
22.2
24.0
22.8
12.2

=202.2

x12j
10000
2500
10000
10000
2500
6400
5625
4225
8100
8100

=67450

x22 j
16
9
16
4
4
4
9
16
9
4

=91

y 2j
86.49
23.04
79.21
42.25
17.64
38.44
54.76
36.00
57.76
37.21

=472.8

29 b0
10 800
67
800 67450 2345 b 5594

29 2345 91 b2

202.2
Utilizando el software MATLAB tenemos nuestra solucin:
%SENTENCIA
A=[10 800 29;800 67450 2345;29 2345 91];
b=[67 5594 202.2]
format long
x=A\b'

%RESULTADOS
A=[10 800 29;800 67450 2345;29 2345 91]
b=[67 5594 202.2]
format long
x=A\b'
A = 10
800
29
800
67450
2345
29
2345
91
b = 1.0e+003 *
0.067000000000000 5.594000000000000 0.202200000000000
x=
-0.868701466781728
0.061134598792062
0.923425366695426
CS={(-0.868701466781728; 0.061134598792062 ; 0.923425366695426)}
Luego la ecuacin de regresin lineal de dos variables independientes es:
f(x1 ,x 2 )=-0.868701466781728+0.061134598792062x1 0.923425366695426x 2

Redondeando tenemos
f(x1 ,x 2 )=-0.869+0.0611x1 0.923x 2

%SENTENCIA DE MATLAB
xa=0:0.05:20;
ya=0:0.05:20;
[x1,x2]=meshgrid(xa,ya);
f=-0.869+0.0611*x1+0.923*x2;
mesh(x1,x2,f)
grid on
xlabel('millas recorridas')
ylabel('Cantidad de entregas')

11 DR. SORIA QUIJAITE JUAN JESS

zlabel('Tiempo de rrecorrido en horas')


title('REGRESIN MLTIPLE- UAP-ICA')

EJERCICIOS
DE APLICACIN
1) Muchos colegios y universidades elaboran modelos de regresin para predecir el promedio de
calificacin (PC) de los alumnos de nuevo ingreso. Este promedio puede entonces ayudar a tomar
decisiones en la admisin. Aunque la mayor parte de los modelos emplean muchas variables
independientes para predecir el promedio de calificaciones, para ejemplo se escogen dos variables.
x1 =Calificacin de expresin oral (percentil) del examen de admisin.
x2 =Calificacin de matemticas del examen de admisin.
Se obtuvieron los datos de la tabla siguiente para una muestra aleatoria de cuarenta candidatos a
nuevo ingreso en un colegio.
Expresin oral(x1)
81
68
57
100
54
82
75
58
55
49

Matemticas(x2)
87
99
86
49
83
86
74
98
54
81

PC(Y)
3.49
2.89
2.73
1.54
2.56
3.43
3.59
2.86
1.46
2.11

12 DR. SORIA QUIJAITE JUAN JESS

Expresin oral(x1)
79
81
50
72
54
65
56
98
97
77

Matemticas(x2)
75
62
69
70
52
79
78
67
80
90

PC(Y)
3.45
2.76
1.90
3.01
1.48
2.98
2.58
2.73
3.27
3.47

64
66
80
100
83
64
83
93
74
51

a.

76
59
61
85
76
66
72
54
59
75

2.69
2.16
2.60
3.30
3.75
2.70
3.15
2.28
2.92
2.48

49
39
87
70
57
74
87
90
81
84

54
81
69
95
89
67
93
65
76
69

1.30
1.22
3.23
3.82
2.93
2.83
3.84
3.01
3.33
3.06

Ajustar el modelo de primer orden (sin trminos cuadrticos ni de interaccin)


Y=0+ 1 x1+ 2 x2+
Interpretar el valor de R2 y probar si los datos indican que los trminos del modelo son tiles para

b.

predecir los promedios de calificaciones de los alumnos de nuevo ingreso. Emplear =5%
Hacer un esquema de la relacin entre los promedios de calificaciones predichos, y
$ , y las
calificaciones de expresin oral x1, para las siguientes calificaciones de matemticas: x 2=60, 75 y

90.
2) Mike Wilde es presidente de la unin de profesores para el distrito Escolar de Otsego. A fin de
prepararse para las negociaciones prximas, le gustara investigar la estructura salarial de los
profesores frente a grupo en el distrito. Wilde considera que existen tres factores que influyen en el
salario de profesor: los aos de experiencia, su calificacin en desempeo docente proporcionada por
el director y si el profesor cuenta con una maestra. Una muestra aleatoria de 20 profesores
proporcion la siguiente informacin:
Salario en miles de $ (Y)

Aos de experiencia (X1)

Calificacin del director (X2)

21.1
23.6
19.3
33.0
28.6
35.0
32.0
26.8
38.6
21.7
15.7
20.6
41.8
36.7
28.4
23.6
31.8
20.7
22.8
32.8

8
5
2
15
11
14
9
7
22
3
1
5
23
17
12
14
8
4
2
8

35
43
51
60
73
80
76
54
55
90
30
44
84
76
68
25
90
62
80
72

Maestra (X3)

1=Si,
13 DR. SORIA QUIJAITE JUAN JESS

0
0
1
1
0
1
0
1
1
1
0
0
1
0
1
0
1
0
1
0
0=No

a. Desarrolle una matriz de correlacin. Qu variable independiente presenta una correlacin ms


fuerte con la variable dependiente? Al parecer habr problemas en lo que respecta a la
multicolinearidad?
b. Determine la ecuacin de regresin. Qu salario calculara para un profesor que tiene cinco aos
de experiencia, una calificacin del director de 60 y no tiene maestra?
c. Realice una prueba global de hiptesis para determinar si alguno de los coeficientes de regresin
es diferente de cero. Utilice un nivel de significancia 0.05.
d. Realice una prueba de hiptesis para cada una de las variables independientes. considerara la
posibilidad de eliminar alguna de las variables independientes? Utilice un nivel de significancia
del 5%.
e. Si su conclusin en el inciso (d) fue eliminar una o ms variables independientes, vuelve a realizar
el anlisis sin esas variables.

3) El departamento de hipotecas de un banco importante estudia sus prstamos recientes. Quiere saber
sobre todo de qu manera factores como el valor de la vivienda (en miles de dlares) , el nivel de
educacin del jefe de familia, la edad del jefe de familia (1=Masculino, 0=Femenino) se relacionan
con el ingreso familiar. Estas variables predicen de manera eficaz el ingreso del jefe de familia? Se
obtuvo una muestra aleatoria de 25 prstamos recientes.
Ingresos (miles $)

40.3
39.6
40.6
40.3
40.0
38.1
40.4
40.7
40.8
37.1
39.9
40.4
38.0
39.0
39.5
40.6
40.3
40.1
41.7
40.1
40.6
40.4

Valor (miles $)

190
121
161
161
179
99
114
202
184
90
181
143
132
127
153
145
174
177
188
153
150
173

14 DR. SORIA QUIJAITE JUAN JESS

Aos de educacin

14
15
14
14
14
14
15
14
13
14
14
15
14
14
14
14
15
15
15
15
16
13

Edad

53
49
44
39
53
46
42
49
37
43
48
54
44
37
50
50
52
47
49
53
58
42

Pago de hipoteca

Gnero

230
370
397
181
378
304
285
551
370
135
332
217
490
220
270
279
329
274
433
333
148
390

1
1
1
1
0
0
1
0
0
0
1
1
0
0
1
1
1
0
1
1
0
1

40.9
163
14
46
142
1
40.1
150
15
50
343
0
38.5
139
14
45
373
0
a. Determine la ecuacin de regresin
b. Cul es el valor de R2? Comente el valor
c. Realice una prueba global de hiptesis para determinar si alguna de las variables independientes
es diferente de cero.
d. Realice una prueba de hiptesis individual para determinar si se puede eliminar alguna variable
independiente.
e. Si se eliminan variables, vuelva a calcular la ecuacin de regresin y R2.

15 DR. SORIA QUIJAITE JUAN JESS

Вам также может понравиться