Вы находитесь на странице: 1из 10

TALLER DE ESTADISTICA II

REGRESIN LINEAL MLTIPLE





VILMA DORIA ESPITIA




LIC. MANUEL TRECO




UNIVERSIDAD DE CORDOBA
FACULTAD DE INGENIERAS
INGENIERA INDUSTRIAL
MONTERA CRDOBA
2013


TALLER REGRESIN LINEAL MLTIPLE
En muchas agencias gubernamentales y compaas privadas el problema de identificar aquellos factores que
son importantes para predecir la aptitud para el trabajo de los aspirantes a obtener un empleo constituye un
proceso continuo. El procedimiento usual es el de aplicar al solicitante un conjunto de pruebas apropiadas y
tomar las decisiones de contratarlos o no con base a los resultados de esta. El asunto clave es conocer a
priori que pruebas pueden predecir la aptitud para el trabajo de una persona. Supngase que el personal de
una compaa muy grande ha desarrollado cuatro pruebas para una determinada clasificacin con respecto al
trabajo. Estas pruebas se aplicaron a veinte individuos que fueron contratados por la compaa. Despus de
un periodo de dos aos, cada uno de estos empleados se clasifica de acuerdo con su aptitud para el trabajo.
La puntuacin para la aptitud hacia el trabajo Y y la correspondiente a cada una de las cuatro pruebas

se dan en la tabla:
Empleado Y X1 X2 X3 X4
1 94 122 121 96 89
2 71 108 115 98 78
3 82 120 115 95 90
4 76 118 117 93 95
5 111 113 102 109 109
6 64 112 96 90 88
7 109 109 129 102 108
8 104 112 119 106 105
9 80 115 101 95 88
10 73 111 95 95 84
11 127 119 118 107 110
12 88 112 110 100 87
13 99 120 89 105 97
14 80 117 108 99 100
15 99 109 125 108 95
16 116 116 122 116 102
17 100 104 83 100 102
18 96 110 101 103 103
19 126 117 120 113 108
20 58 120 77 80 74

a) Utilice la rutina para ajustar regresin lineal de Y sobre


b) Con base en el listado de la computadora que se obtiene en la parte a, preprese una tabla de
anlisis de varianza mostrando todas las posibles pruebas F parciales.
c) Interprete los coeficientes de regresin estimados y coeficientes de correlacin mltiple


d) Hallar los intervalos para los parmetros

(i= 0, 1, 2, 3, 4) al 95% e interprete.


e) Halle intervalos de prediccin en

al 95 % e interprete.
f) Hacer pruebas de hiptesis para los parmetros

VS

al 5% de significancia.
g) verifique los supuestos del modelo: Normalidad, Homocedasticidad, linealidad, no correlacin.
1 122 121 96 89
1 108 115 98 78
1 120 115 95 90
1 118 117 93 95
1 113 102 109 109
1 112 96 90 88
1 109 129 102 108
1 112 119 106 105
1 115 101 95 88
1 111 95 95 84
1 119 118 107 110
1 112 110 100 87
1 120 89 105 97
1 117 108 99 100
1 109 125 108 95
1 116 122 116 102
1 104 83 100 102
1 110 101 103 103
1 117 120 113 108
1 120 77 80 74
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
122 108 120 118 113 112 109 112 115 111 119 112 120 117 109 116 104 110 117 120
121 115 115 117 102 96 129 119 101 95 118 110 89 108 125 122 83 101 120 77
96 98 95 93 109 90 102 106 95 95 107 100 105 99 108 116 100 103 113 80
89 78 90 95 109 88 108 105 88 84 110 87 97 100 95 102 102 103 108 74

Solucin
a. Por medio del modelo de regresin lineal mltiple intentamos de explicar el comportamiento de la variable
(y) en funcin de un conjunto de variables explicativas (x1, x2, x3, x4) mediante una relacin de dependencia
lineal.

Planteamos la siguiente ecuacin de regresin lineal mltiple poblacional:



La ecuacin de regresin lineal mltiple estimada es:


Tenemos que la variable dependiente es el Y, es decir la puntuacin pala la aptitud del trabajo; y
las variables que vamos a utilizar para predecir la clasificacin segn la aptitud del trabajador as:
x1: Prueba 1.
x2: Prueba 2.
x3: Prueba 3
x4: Prueba 4.





Utilizaremos Excel para el clculo de las matrices, a partir de la formula

, calcularemos los estimados y


se trazara el modelo ajustado.





=










20 2284 2163 2010 1912
2284 261292 247092 229422 218256
2163 247092 237965 218580 207894
2010 229422 218580 203338 193440
1912 218256 207894 193440 184904
41,950301 -0,280088 0,0116538 -0,119453 0,0086868
-0,280088 0,0022928 -0,000144 0,0003963 -6,23E-05
0,0116538 -0,000144 0,0003473 -0,000345 2,055E-05
-0,119453 0,0003963 -0,000345 0,002176 -0,001121
0,0086868 -6,23E-05 2,055E-05 -0,001121 0,0011389
1853
211605
203005
188994
180553
-175,8844
0,4910803
0,020181
1,3021711
0,8305674






Entonces de la ecuacin

tenemos que

por tanto los estimadores para son:






Dnde:

=

Entonces as obtendremos El modelo ajustado de la regresin lineal de Y para cada una de las variables.


b. Para preparar la tabla de anlisis de varianza segn los datos obtenidos por medio del clculo en Excel tmenos:



ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de F
Regresin 4 6481,637339 1620,409335 28,76763616 7,03325E-07
Residuos 15 844,9126611 56,32751074
Total 19 7326,55
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95%
Intercepcin -175,8843951 48,61024611 -3,618257655 0,00252918 -279,494682 -72,2741081
Variable X 1 0,491080326 0,359372544 1,366493724 0,191919412 -0,27490412 1,257064771
Variable X 2 0,020181043 0,139866673 0,144287714 0,887194009 -0,277937714 0,318299799
Variable X 3 1,302171128 0,350097233 3,719455641 0,002055538 0,55595654 2,048385715
Variable X 4 0,830567404 0,253278501 3,279265322 0,00506991 0,290717059 1,370417749

c. Para interpretacin de los coeficientes de regresin estimados y coeficientes de correlacin mltiple R
2
Tenemos.


Entonces el R
2
(coeficiente de determinacin) explica en un 88.47% la variacin de la variable dependiente Y
respecto a la variables independientes Xi, entonces podemos concluir que el modelo de regresin es bueno, y
afirmar que si existe una relacin lineal entre la variable Y y los predictores.
d. los intervalos de confianza al 95% son:





e. Calculemos los intervalos de prediccin de nuevas observaciones.
Empleado Y X1 X2 X3 X4 Min valor Max valor


del
1 94 122 121 96 89
67,44198 103,35450
2 71 108 115 98 78
52,67401 91,06625
3 82 120 115 95 90
66,53779 101,10898
4 76 118 117 93 95
66,64120 102,21897
5 111 113 102 109 109
96,63111 131,63819
6 64 112 96 90 88
54,08506 88,59357
7 109 109 129 102 108
83,68344 121,85545
8 104 112 119 106 105
89,86309 123,65263
9 80 115 101 95 88
62,79124 96,05739
10 73 111 95 95 84
56,76465 91,26863
11 127 119 118 107 110
97,96948 133,29102
12 88 112 110 100 87
66,75478 100,87121
13 99 120 89 105 97
83,22820 121,04053
14 80 117 108 99 100
78,90899 112,53748
15 99 109 125 108 95
81,82009 117,58867
16 116 116 122 116 102
100,79486 137,83062
17 100 104 83 100 102
72,30183 111,29412
18 96 110 101 103 103
82,76691 116,92268
19 126 117 120 113 108
103,30233 138,37836
20 58 120 77 80 74
30,78940 69,68033
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,94057321
Coeficiente de determinacin R^2 0,884677964
R^2 ajustado 0,853925421
Error tpico 7,505165604
Observaciones 20
f. Prueba de hiptesis

-

Vs

con


Dado


Cii = es el elemento de la diagonal de


Entonces:


Como |

se acepta HO, el estimador para la medida de la aptitud del trabajador, es significativo.


-

Vs

con


Dado


Entonces:


Como |

se acepta HO, por tanto el estimador para la medida de la prueba 1, es significativo.


-

Vs

con


Dado


Entonces:


Como |

se acepta HO, por tanto el estimador para la medida de la prueba 2, es significativo.


-

Vs

con


Dado


Entonces:


Como |

se rechaza HO, por tanto el estimador para la medida de la prueba 3, no es significativo.


-

Vs

con


Dado


Entonces:


Como |

se rechaza HO, por tanto el estimador para la medida de la prueba 4, no es significativo.



g. Normalidad.

Teniendo en cuenta que los puntos no estn alineados sobre la diagonal del grfico, podemos concluir un
posible incumplimiento del supuesto de normalidad.








Homocedasticidad

Con respecto a el diagrama de dispersin podemos observamos, que a pesar que los residuos y los pronsticos
parecen ser independientes (dado que los puntos no siguen una asociacin clara, ni lineal ni de otro tipo),
concluimos, que no est claro que las varianzas sean homogneas, as incumpliendo el supuesto de
homocedasticidad.























Linealidad.






0
50
100
150
100 105 110 115 120 125
Y

Variable X 1
Variable X 1 Curva de regresin
ajustada
0
50
100
150
0 20 40 60 80 100 120 140
Y

Variable X 2
Variable X 2 Curva de regresin
ajustada
0
50
100
150
0 20 40 60 80 100 120 140
Y

Variable X 3
Variable X 3 Curva de regresin
ajustada


En los diagramas anteriores es posible formarse una idea ms o menos clara de la forma que adopta una
relacin. En el contexto del anlisis de regresin, nos dan la posibilidad de examinar entre la variable
dependiente y cada una de las variables independientes incluidas en el anlisis.
Podemos analizar detalladamente la relacin entre la aptitud para el trabajo y cada prueba realizada de manera
independiente y nos es posible concluir claramente lineal y positiva.
Correlacin

Resumen del modelo
b

Modelo R R cuadrado R cuadrado
corregida
Error tp. de la
estimacin
Durbin-Watson
1 ,941
a
,885 ,854 7,5051656 1,744

Como se puede observar el R es de 0.941 se concluye que el modelo tiene una relacin del 94.1% para las variables.

0
50
100
150
0 20 40 60 80 100 120
Y

Variable X 4
Variable X 4 Curva de regresin
ajustada