You are on page 1of 37

Universidad Nacional Mayor de San Marcos

Facultad de Ingeniera Industrial

INFORME III: REGRESION MULTIPLE-


DATOS ENUMERATIVOS-METODOS NO
PARAMETRICOS

Curso:
Estadstica Industrial

Asesor(a):
Mayta Huatuco, Rosmeri

Integrantes:
Apaza Zapata, Jess 13170004
Rosas Beran, Xiomara 13170201
Tern Sotelo, Rosa 13170053

2015
NDICE

REGRESIN MLTIPLE

Regresin mltiple ............................................................................................ 5

Modelo curvilneo ........................................................................................... 22

Variables cualitativas independientes........................................................ 34

DATOS ENUMERATIVOS

Frecuencias esperadas iguales.................................................................... 38

Frecuencias esperadas desiguales ............................................................. 41

Prueba de bondad de ajuste para probar la normalidad .................... 45

Prueba de bondad de ajuste: una poblacin multinomial ................... 51

Prueba de contingencia ............................................................................... 56


MTODOS NO PARAMTRICOS

Prueba de signo ............................................................................................. 62

Muestra pequea ................................................................................... 62

Muestra grande....................................................................................... 66

Prueba con respecto a la mediana ........................................................... 69

Prueba de los rangos con signo de Wilcoxon ........................................... 73

Prueba de Mann-Whitney-Wilcoxon ........................................................... 77

Muestra pequea ................................................................................... 77

Muestra grande....................................................................................... 79

Prueba de Kruskal-Wallis ............................................................................... 81

Correlacin de rangos ................................................................................. 85


REGRESIN MLTIPLE

Contenido

Error estndar mltiple


Anlisis de correlacin mltiple
Coeficiente de correlacin mltiple
Coeficiente de determinacin mltiple
Coeficiente de no determinacin
Prueba global (F)
Prueba individual (t)
Estimacin del intervalo de confianza
Modelo curvilneo
Prueba de significancia del modelo curvilneo
Prueba de hiptesis para probar el efecto
curvilneo
Prueba de hiptesis para probar el efecto lineal
Contribucin de una variable explicatoria
Variables cualitativas independientes
Matriz de correlacin
Intervalo de confianza para la media condicional de Y
Intervalo de prediccin para una observacin individual
de Y
Anlisis de influencias
REGRESIN MLTIPLE
Problema 1
Se tiene los siguientes datos

De los cuales sacamos la siguiente informacin:

a) Hallar el error estndar mltiple


b) Hallar el coeficiente de correlacin mltiple, el coeficiente de determinacin
mltiple y el coeficiente de no determinacin.
c) Realizar la prueba global a un nivel de significancia de 0.05
d) Realizar la prueba individual a un nivel de significancia de 0.05
e) Realizar la contribucin de una variable explicatoria.
f) Hallar el anlisis de influencias.

5
Resolucin

()2
A) S=
(+1)

Reemplazando en la frmula:

18304
S= = 51.14 %
7

INTERPRETACIN: El 51.41% de la dispersin estar alrededor del plano.


B)
COEFCIENTE DE DETERMINACIN:

90548
2 = = = 0.83
108852

INTERPRETACIN: El 83% de la variacin del precio puede ser explicado por la


variacin en el confort y la calidad
COEFCIENTE DE CORRELACIN

= 0.83 = 0.91

COEFCIENTE DE NO DETERMINACIN:
1 2 = 0.17
INTERPRETACIN: El 17% de la variacin del precio no puede ser explicado por la
variacin en el confort y la capacidad
C)
PRUEBA GLOBAL:
Ho = 1 = 2= 0
Ha = No todos los betas son iguales a 0
= 0.05
G.Ln = 2; G.Ld = 7

6
R.A = <-; 4.737]
R.C = <4.737; +>

= 17.31 ( )
Entonces . , por lo tanto acepto Ha y rechazo Ho. No todos los betas son
iguales a

D)
PRUEBA INDIVIDUAL:
Ho =1 = 0; 2= 0
Ha =1 0; 2 0
= 0.05
t ; G.L =7

R.A = [-2.365; 2.365]


R.C = <-; 2.365 > U
<2.365; +>

Reemplazando en la frmula:

7
1 1 0.099
1 = = = -2.15 1 . ; 1 = 0
1 0.046

2 2 122.9
2 = = = 5.64 2 . ; 2 0
2 21.8

Entonces solo la variable de CAPACIDAD debe ser tomada en cuenta para poder
hallar la ecuacin que se ajuste a los datos.
E)
VARIABLE EXPLICATORIA:

Ho= variable CAPACIDAD no mejora en forma significativa el modelo


Ha: La variable CAPACIDAD mejora en forma significativa el modelo
= 0.05
F G.Ln=1; G.Ld= 7

R.A = <-; 5.591]


R.C = <5.591; +>

= 17.31 ( )
Entonces . , por lo tanto acepto Ha y rechazo Ho. La variable
CAPACIDAD mejora en forma significativa el modelo

8
F)
ANLISIS DE INFLUENCIA:

1) MATRIZ SOMBRERO

2( + 1)
>

Reemplazando en la frmula:

2(2+1)
> =0.6
10

Ninguna de las variables es mayor que 0.6

2) T RESIDUALES

| | > (0.05;2

Reemplazando en la frmula:
> (0.05;1022) = 2.447

Ninguna de las variables en valor absoluto es mayor 2.477

9
3) DISTANCIA DE COOK

> (0.5;+1;1)

Reemplazando en la frmula:

> (0.5;3;1021) = 0.86


Ninguna de las variables es mayor que 0.86
Por lo tanto, ninguna de las observaciones debe ser eliminada

10
Problema 2
Con los siguientes datos:

Se obtiene la siguiente informacin:

a) Hallar el error estndar mltiple


b) Hallar el coeficiente de correlacin mltiple, el coeficiente de determinacin
mltiple y el coeficiente de no determinacin.
c) Hallar el intervalo de confianza
d) Realizar la prueba global a un nivel de significancia de 0.05
e) Realizar la prueba individual a un nivel de significancia de 0.05

11
Resolucin
A)
()2
S=
(+1)

Reemplazando en la frmula:

25.74
S= = 2.071 %
6

INTERPRETACIN: El 2.071% de la dispersin estar alrededor del plano.

B)
COEFCIENTE DE DETERMINACIN:

1577.15
2 = = = 0.98
1602.89

INTERPRETACIN: El 98% de la variacin de la venta puede ser explicado por la


variacin en las variables tienda, ingreso y automviles.

COEFCIENTE DE CORRELACIN

= 0.98 = 0.99

COEFCIENTE DE NO DETERMINACIN:
1 2 = 0.02
INTERPRETACIN: El 2% de la variacin de la venta no puede ser explicado por la
variacin en las variables tienda, ingreso y automviles.

C) 1 x
Para cada variable

1 (005;6 x 1 ; < -0.008;0006>


2 (005;6 x 2 ; <0.154;3.041>

12
3 (005;6 x 3 ; <0.278;0.542>
D)
PRUEBA GLOBAL:

Ho = 1 = 2= 3= 0
Ha = No todos los betas son iguales a 0
= 0.05
G.Ln = 3; G.Ld = 6

R.A = <-; 4.737]


R.C = <4.737; +>

= 122.54 ( )
Entonces . , por lo tanto acepto Ha y rechazo Ho. No todos los betas son
iguales a

F)
PRUEBA INDIVIDUAL:
Ho =1 = 0; 2= 0; 3= 0
Ha =1 0; 2 0; 3 0
= 0.05
t ; G.L =6

13
R.A = [-2.447; 2.447]
R.C = <-; 2.447 > U <2.447; +>

Reemplazando en la frmula:
1 1 0.001
1 = = = -0.33 1 . ; 1 = 0
1 0.003

2 2 1.598
2 = = = 2.71 2 . ; 2 0
2 0.59

3 3 0.41
3 = = = 7.59 2 . ; 2 0
3 0.054

Entonces las variables de AUTOMOVILES E INGRESOS deben ser tomadas en cuenta


para poder hallar la ecuacin que se ajuste a los datos.

14
Problema 3
Una Empresa de desarrollo de software establece relacionar sus Ventas en funcin del
nmero de pedidos de los tipos de software que desarrolla (Sistemas, Educativos y
Automatizaciones Empresariales), para atender 10 proyectos en el presente ao. En la
Tabla representa Y (Ventas miles de S/.) e X (N pedidos de sistemas), W (N de pedidos
de Aplicaciones Educativas) y Z (N de pedidos de Automatizaciones
empresariales).teniendo la siguiente tabla y con un nivel de significancia de 0.25 se
pide lo siguiente:
y x W z
440 70 105 75
455 60 140 68
470 85 110 70
510 95 130 64
506 71 125 67
480 95 115 72
460 73 100 70
500 88 103 73
490 68 118 69
450 84 98 74

1. Error estndar mltiple


2. Anlisis de correlacin mltiple
i. coeficiente de correlacin mltiple
ii. coeficiente de determinacin mltiple
iii. coeficiente de no determinacin
3. Prueba global (F)
4. Prueba individual (t)
5. Estimacin del intervalo de confianza
6. Intervalo de confianza para la media condicional de y
7. Intervalo de prediccin para una observacin individual de y
8. Anlisis de influencias

15
Resolucin

y = 768 + 0.836 x 0.097 w 4.93 z

b0 = Sin considerar las otras variables las ventas de miles de s./ ser 768
b1= por cada unidad que aumenta, el N pedidos de sistemas la venta de miles
de s./ aumentara 0.836 considerando las dems variables constantes
b2 = por cada unidad que vari el N de pedidos de Aplicaciones Educativas,
la venta de miles de s./ disminuir 0.097 considerando las dems variables
constantes

16
b3= por cada unidad que vari el N de pedidos de Automatizaciones
empresariales, la venta de miles de s./ disminuir 4.93 considerando las dems
variables constantes

y ( )2
440 446,585 43,362
455 469,340 205,636
470 483,290 176,624
510 519,290 86,304
506 484,921 444,324
480 481,305 1,703
460 474,228 202,436
500 471,687 801,626
490 473,232 281,166
450 463,898 193,154

)
( 2436.34

Error estndar mltiple

()2 2436.34
= = =20.13
(+1) 10(3+1)

Anlisis de correlacin mltiple

Coeficiente de correlacin mltiple

3117.16
12 = = = 0.56176
5548.9

Coeficiente de determinacin mltiple

2 =0.31557

17
Coeficiente de no determinacin
1 2 =0.6844

Prueba global (f)

1. 0 1 = 2 = 3 =0
1
2. =0.25
3. f(0.05;3;6)=1.784

4. calculo f :

Fv Gl Ss Ms F
Regresin 3 3117.16 1039.05 2.56
Error 6 2431.74 405.29
total 9 5548.9

F pertenece a la regin critica entonces se acepta la hiptesis nula y se rechaza la


hiptesis alternativa.

Prueba individual (t)

1. 0 1 = 0 ; 2 = 0 ; 3 =0
1 1 0 ; 2 0 ; 3 0
2. =0.25
3. t (0.25 ;6 )

4. calculo de t :

18
1 1 0.8360
I. 1 = = =1.4
1 0.597
2 2 0.0970
II. 2 = = = 0.1197
2 0.81
3 3 4.930
III. 3 = = = 1.5358
3 3.21

I. 1 = 1.4 E a la regin critica entonces se rechaza la hiptesis nula y se acepta


la hiptesis alternativa, es decir que es diferente a cero.

II. 2 =-0.1 E a la regin de aceptacin entonces se rechaza la hiptesis alternativa


y se acepta la hiptesis nula, es decir que es igual a cero.

III. 3 = -1.5 E a la regin critica entonces se rechaza la hiptesis nula y se acepta


la hiptesis alternativa, es decir que es diferente a cero.

Entonces el nuevo modelo es:

y = 768 + 0.836 x 4.93 z

19
Estimacin del intervalo de confianza
y = 768 + 0.836 x 0.097 w 4.93 z

I. 0.836 1.273 0.597= < 0.0778 ; 1.59>


II. 0.097 1.273 0.81 =<-1.128 0.934 >
III. 4.93 1.273 3.21=<-9.01 -0.844>

Intervalo de confianza para la media condicional de y


(, 1)

20.13
476.1 1.273 = <467.996; 484.2035>
10

Intervalo de prediccin para una observacin individual de y

(, 1)

476.1 1.273 20.13= <450.47; 501.725>

Anlisis de influencias

20
i. MTODO DE LA MATRIZ SOMBRERO
Sus elementos estn dados por hi, donde cada hi refleja la influencia de cada xi
sobre el modelo de regresin ajustada

4 4
Si > = = 0.4
10

es un punto de influencia y que se puede considerar candidato a ser retirado


del modelo

1,2,4,6,7> 0.4 entonces puede ser candidatos a ser retirado del modelo.

ii. LOS RESIDUALES DE STUDENT ELIMINADOS

Si | | > (0.1;3) = (0.1;7) = 1.895


Entonces el es un punto de influencia y que se puede considerar candidato a
ser retirado del modelo.
8> 1.895 entonces puede ser candidatos a ser retirado del modelo.

iii. DISTANCIA DE COOK

Si > (0.05;2;2) = (0.05;2;8) = 4.46


Entonces el es un punto de influencia y que se puede considerar candidato a
ser retirado del modelo ; viendo la tabla ningun valos de di cumple qe sea mayor
de 4.46 entonces ni hay ningun candidato a ser eliminado del modelo.

21
MODELO CURVILNEO
Problema 1
Muchos fondos internacionales ofrecen tasas ms razonables que en Estados Unidos.
Como los mercados internacionales suelen moverse en direcciones distintas a los
mercados de Estados Unidos, las inversiones en mercados extranjeros pueden reducir
el riesgo de un inversionista. En la tabla siguiente se presentan 20 fondos
internacionales dando coeficiente de gastos (%), seguridad (0=la ms riesgosa, 10=la
ms segura) y su desempeo en un ao al 10 de diciembre del 2014.Utilice un nivel de
significancia de 0.05.

Resolucin

22
Prueba de significancia del modelo curvilneo

1. Plantear las hiptesis nula y alternativa.

0 : 1 = 2 = 0

1 : 1 2 0

2. Seleccionar el nivel de significancia. El nivel de significancia es 0.05.

3. Estadstico de prueba. El estadstico a utilizar es F.

4. Clculo del valor crtico.

Se tiene:
= 0.05
=2
= 20

23
El valor de (0.05,2,2021) = 3.59

5. Clculo de y toma de decisin.

Con la ayuda de Minitab el valor de es:


2998.4
= = 15.56
192.7
El valor calculado para =15.56 es mayor al valor critico de 3.59, por lo tanto
se rechaza 0 y se acepta 1 .Se concluye que si existe relacin entre las
variables.

Prueba de hiptesis para probar el efecto curvilneo

1. Plantear las hiptesis nula y alternativa.

0 : 2 = 0 (
)

1 : 2 0 (
)

2. Seleccionar el nivel de significancia. El nivel de significancia es 0.05.

24
3. Estadstico de prueba. El estadstico a utilizar es t.

4. Calculo del valor crtico.

Se tiene:
= 0.05
=2
= 20

El valor de (0.05,2021) = 2.110

5. Clculo de y toma de decisin.

Con la ayuda de Minitab el valor de es:

2 2 48 0
= = = 3.81
2 12.6

El valor calculado para =-3.81 ,el cual est fuera de la zona comprendida entre
-2.110 y +2.110, por lo tanto se rechaza 0 y se acepta 1 .Se concluye que la
inclusin del efecto curvilneo mejora de modo significativo el modelo.

25
Prueba de hiptesis para probar el efecto lineal

1. Plantear las hiptesis nula y alternativa.

0 : 1 = 0 (
)

1 : 1 0 (
)

2. Seleccionar el nivel de significancia. El nivel de significancia es 0.05.

3. Estadstico de prueba. El estadstico a utilizar es t.

4. Clculo del valor crtico.

Se tiene:
= 0.05
=2
= 20

El valor de (0.05,2021) = 2.110

26
5. Calculo de y toma de decisin.

Con la ayuda de Minitab el valor de es:

1 1 23.4 0
= = = 1.84
1 12.7

El valor calculado para =1.84 est en la regin comprendida entre -2.110 y


+2.110, por lo tanto no se rechaza 0 .Se concluye que la inclusin del efecto
lineal no mejora de forma significativa el modelo curvilneo.

27
Problema 2
La firma terry and associates es un centro especializado es pruebas mediacas ubicado
es denver ,colorado .Una de sus fuentes principales de ingreso es un equipo utilizado
para medir cantidades elevadas de plomo en la sangre .Las personas que trabajan en
talleres automecanicos , las que trabajan en en la industria delown , y los pintores de
casas comerciles estan expuestos a cantidades elevadas de plomo , por lo que deben
ser sometidos en forma aleatoria a esta prueba .Estas pruebas tienen un costo elevado
, por lo que los equipos se entregan a diversos sitios , en toda la regin de denver ,
conforme los requeridos .

Se tiene los datos del costo , preparacion y entrega de 20 entregas realizadas realizar
con un nivel de significancia de 0.05 :

1. Prueba de significancia del modelo curvilneo


2. Prueba de hiptesis para probar el efecto curvilneo
3. Prueba de hiptesis para probar el efecto lineal
Resolucin

28
Prueba de significancia del modelo curvilneo

1. .

0 : 1 = 2 = 0

1 : 1 2 0

2. nivel de significancia es 0.05.

3. estadstico a utilizar es F.

4. .

Se tiene:
= 0.05
=2
= 20

29
El valor de (0.05,2,2021) = 3.59

5. Clculo de y toma de decisin.

Fv Gl Ss Ms F

Regresin 2 236.410 118.205 12.46

Error 17 161.313 9.489

total 19

118.205
= = 12.46
9.489
E a la regin crtica entonces se rechaza la hiptesis nula y se acepta la hiptesis
alternativa. Se concluye que no existe relacin entre las variables.

30
Prueba de hiptesis para probar el efecto curvilneo

1. .

0 : 2 = 0 (
)

1 : 2 0 (
)

2. nivel de significancia es 0.05.

3. estadstico a utilizar es t.

4. .

Se tiene:
= 0.05
=2
= 20

El valor de (0.05,2021) = 2.110

31
5. Clculo de y toma de decisin.

2 2 0.1833 0
= = = 4.223
2 0.0434

E a la regin critica entonces rechazo la hiptesis nula y acepto la hiptesis


alternativa, es decir que la inclusin del efecto curvilneo mejora de modo
significativo el modelo.

Prueba de hiptesis para probar el efecto lineal

1. .

0 : 1 = 0 (
)

1 : 1 0 (
)

2. nivel de significancia es 0.05.

3. estadstico a utilizar es t.

4. Clculo del valor crtico.

Se tiene:
= 0.05
=2
= 20

El valor de (0.05,2021) = 2.110

32
5. Calculo de y toma de decisin.

1 1 0.295 0
= = = 1.01
1 0.293

E a la regin de aceptacin entonces se acepta la hiptesis nula y se rechaza


la hiptesis alternativa, es decir que la inclusin del efecto lineal mejora de
forma significativa el modelo curvilneo.

33
VARIABLES CUALITATIVAS INDEPENDIENTES
Problema 1
Un estudio realizado a lo largo de 10 aos por la American Heart Association
proporcion datos sobre la relacin que tienen la edad, la presin sangunea y el fumar
sobre el riesgo de sufrir un infarto. Los datos que se dan a continuacin se obtuvieron
como parte de este estudio. El riesgo se interpreta como la probabilidad (multiplicada
por 100) de que el paciente sufra un infarto en los prximos 10 aos. Para fumar, defina
una variable ficticia que tome el valor 1 si la persona es fumadora y el valor 0 si no es
fumadora.

Obtenga la ecuacin de regresin estimada que relaciona el riesgo de infarto con la


edad, la presin sangunea y el fumar o no fumar.
Es el fumar un factor significativo para el riesgo de infarto? Explique. Use = 0.05.
Cul es la probabilidad de que Art Apeen sufra un infarto en los prximos 10 aos, si
tiene 68 aos, fuma y su presin sangunea es 175? Qu recomendar el mdico hacer
a este paciente?

Resolucin
Con la ayuda de Minitab, obtenemos la ecuacin:
a. Obtenga la ecuacin de regresin estimada que relaciona el riesgo de infarto
con la edad, la presin sangunea y el fumar o no fumar.

34
35
b. Es el fumar un factor significativo para el riesgo de infarto? Explique. Use =
0.05.

Realizando la prueba de hiptesis:

0 : 3 = 0

1 : 3 0

La informacin necesaria para responder a la pregunta, lo encontramos en la pantalla


de resultados del Minitab.

3 3 8.74 0
= = = 2.91
3 3

En el anlisis tenemos tres variables independientes, por lo que hay ( + 1) =


20 (3 + 1) = 16 grados de libertad. El valor crtico encontrado en tablas es 2.120.La
regla de decisin usando una prueba de dos colas y el nivel de significancia 0.05, es
rechazar 0 si el valor calculado para se encuentra a la izquierda de -2.120, o a la
derecha de +2.120.Como el valor calculado, que es 2.91, est a la derecha de 2.120, se
rechaza la hiptesis nula. Se concluye que el coeficiente de regresin no es cero. La
variable independiente Fumador debe incluirse en el anlisis.

c. Cul es la probabilidad de que Art Apeen sufra un infarto en los prximos 10


aos, si tiene 68 aos, fuma y su presin sangunea es 175? Qu recomendar el
mdico hacer a este paciente?

Haciendo uso de la ecuacin de regresin:

Riesgo = -91.8 + 1.077 Edad + 0.2518 Presin + 8.74 Fumador


Riesgo = -91.8 + 1.077 (68) + 0.2518 (175) + 8.74 (1)

Riesgo = 34.2434

El mdico recomendar dejar de fumar y empezar algn tipo de tratamiento para


reducir la presin sangunea.

36