Вы находитесь на странице: 1из 88

“Año del Buen Servicio al Ciudadano”

UNIVERSIDAD NACIONAL MAYOR DE SAN


MARCOS (Universidad del Perú, DECANA DE AMÉRICA)
FACULTAD DE INGENIERÍA INDUSTRIAL

ESTADÍSTICA INDUSTRIAL
ESCUELA PROFESIONAL: Ingeniería Industrial
CURSO: Estadística Industrial

DOCENTE: Ing. Víctor Pérez


GRUPO: Nº 5
INTEGRANTES:
● Chambi Chamorro Jose Carlos 10170057
● Pezo Suarez, Gian Roger 15170158
● Quispe Solano, María Belén 15170161
● Perez Claudio
● Condori Marquez Ruth

FECHA ENTREGA: 23 de febrero del 2018


LUGAR: Lima, Perú.
SEMANA 1: PRUEBA DE HIPÓTESIS

PRUEBA Z (MUESTRAS GRANDES)

PROBLEMA 1:
Un fabricante de tinas calientes anuncia que con su equipo de calefacción se
puede alcanzar una temperatura de 100 °F en 15 minutos en forma aproximada.
Se selecciona una muestra aleatoria de 42 tinas y se determina el tiempo
necesario para alcanzar una temperatura de 100 °F con cada tina. El tiempo
promedio y la desviación estándar poblacional son de 16.5 y 2.2 min
respectivamente. ¿Evidencian estos datos alguna duda sobre la afirmación de la
compañía? Utilice un nivel de significancia de 5%.
Probabilidad y estadística para ingeniería y ciencia- Devore Jay L. pag 344-
prob.81
SOLUCIÓN
Prueba de hipótesis bilateral
H0: µ=15 (El tiempo en el que su equipo de calefacción alcanza los 100°F es 15)
H1: µ≠15 (El tiempo en el que su equipo de calefacción alcanza los 100°F no es
15)
 n=42 tinas (tamaño de la muestra)
 𝑥=16.5
 σ = 2.2
Debido a que n>30 (muestra grande) se usará la prueba Z
Método clásico
Cálculo del z estadístico:
16.5 − 15
𝑧=
2.2/√42
𝑧 = 4.419
Cálculo del z crítico

𝑧0.475 = 1.96
𝑅𝑒𝑔𝑖𝑜𝑛 𝑅𝑒𝑐ℎ𝑎𝑧𝑜: {𝑧 < −1.96 y z > 1.96}
4.419 ∈ Regio Rechazo Entonces SE RECHAZA H0
Método valor p
Dado
𝑧 = 4.419
𝑝 < 0.5 − 0.49998
𝑝 < 0.00002
𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠: 𝛼 > 𝑝
Entonces SE RECHAZA H0
Método intervalo de confianza
𝟐. 𝟐
𝟏𝟔. 𝟓 ± 𝒁𝟎.𝟎𝟐𝟓 ∗
√𝟒𝟐

𝟐. 𝟐
𝟏𝟔. 𝟓 ± 𝟏. 𝟗𝟔 ∗
√𝟒𝟐

𝟏𝟔. 𝟓 ± 𝟎. 𝟔𝟔𝟓

𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑜𝑛𝑓𝑖𝑎𝑛𝑧𝑎: {15.834; 17.165}


15 no pertenece al intervalo de confianza; entonces SE RECHAZA H0
MINITAB

Conclusion: A un nivel de significancia de 5% no existe suficiente evidencia


sobre lo afirmado por la compañía por lo que la media del tiempo en el que su
equipo de calefacción alcanza los 100°F no es igual a 15 minutos.
PROBLEMA 2:
Diferencia de medias
Se realiza un estudio entre auditores sobre la actividad de las mujeres en su
profesión. A los encuestados se les pide que den su opinión con un valor entre
uno (muy en desacuerdo) y cinco (muy de acuerdo) sobre la afirmación “En
auditoria se asignan los mismos trabajos a las mujeres y a los hombres”.
De una muestra de 186 auditores (varones) se obtuvo una respuesta promedio
de 4.059 con una desviación típica de 0.839. Para una muestra independiente
de 172 mujeres auditoras la respuesta promedio fue de 3.680 con una
desviación ́típica de 0.966. Contraste la hipótesis nula (paraα=0.1) de que las
medias de las dos poblaciones son iguales, frente a la alternativa de que la media
de la población es diferente para auditores varones.

SOLUCION:

Prueba de hipótesis bilateral:


H0: µ1 = µ2 (La media auditores varones es igual a la de mujeres)
H1: µ1≠ µ2 (La media auditores varones no es igual a la de mujeres)

Método clásico

Cálculo del z estadístico:


(4.059 − 3.680) − (0)
𝑧=
2 2
√0.839 + 0.966
186 172
𝑧 = 3.949
Valor crítico:

Zcrít= + -1.645
Como el valor de z
es 3.95 y es mayor
que z critico se
Rechaza Ho aun
nivel de confianza
del 90%
Entonces la media
de la población de
auditores varones
es diferente que a
la de mujeres.
Intervalo de confianza :

𝑆12 𝑆22
(𝑥1 − 𝑥2) ± 𝑧 ∗ √ + =
𝑛1 𝑛2

0.8392 0.9662
(4.059 − 3.680) ± 1.645 ∗ √ +
186 172

Ic : ( 0.221 ; 0.536)
Como el valor de cero no pertenece al intervalo Ho se rechaza

MINITAB

Como el valor de z es 3.97 y es mayor que zcrit 1.645 se rechaza Ho


Entonces la media de la población de auditores varones es diferente que a la de
mujeres
PROPORCIONES
PROBLEMA 3

La familia Prado posee grandes viñedos. Al principio de la estación hay que


protegerlos contra varios insectos y enfermedades, mediante la aplicación de
insecticidas. Hay dos nuevos insecticidas, A y B. Para probar su eficiencia, se
rociaron tres hileras largas de viñas con el insecticida A y otras tres con
insecticida B. Cuando las uvas maduraron se tomaron 400 plantas tratadas con
el insecticida A y 400 tratadas con el insecticida B, para verificar si tenían alguna
infección. Los resultados fueron:

Tamaño Viñas
Insecticida
muestral afectadas
A 400 24
B 400 40

Al nivel de significancia 0.05. ¿Puede concluirse que hay diferencia entre las
proporciones de viñas afectadas usando el insecticida A, y usando el
insecticida B?

SOLUCIÓN:

METODO CLASICO

1. Plantear la hipótesis nula y la hipótesis alternativa

Ho: PA = PB

Ha: PA ≠ PB

Alfa = 0.05

2. Regla de decisión:
ZK
3. Tomamos una decisión:

De los datos del problema:

Insecticida Insecticida
A B
𝐧𝐀 = 𝟒𝟎𝟎 nB = 400
𝐗 𝐀 = 𝟐𝟒 XB = 40

𝑋𝐴 24 𝑋𝐵 40
𝑃𝐴 = = = 0.06 𝑃𝐵 = = = 0.1
𝑛𝐴 400 𝑛𝐵 400

𝑋𝐴 +𝑋𝐵 24 + 40
𝑃𝑐 = = = 0.08
𝑛𝐴 + 𝑛𝐵 400 + 400

𝑃𝐴 − 𝑃𝐵 0.06 − 0.1
𝑍= = = −2.085
1 1
√𝑃𝑐(1 − 𝑃𝑐 ) ( + ) √0.08(1 − 0.08) ( 1 + 1 )
𝑛𝐴 𝑛𝐵 400 400

Entonces ZK = -2.085
ZK ϵ RC → Rechazo HO y acepto la Ha, Por lo tanto la proporción de viñas
afectadas es diferente por el tipo de insecticida

METODO DEL VALOR P

P<α
0.037 < 0.05
Rechazo Ho y acepto la Ha

0.5 – 0.4815 = 0.0185


Entonces: P = 2(0.0185) =
0.037
INTERVALO DE CONFIANZA
1 1
IC: 𝑃𝐴 − 𝑃𝐵 ± Z ∗ √𝑃𝑐(1 − 𝑃𝑐 ) ( + )
𝑛𝐴 𝑛𝐵
1 1
0.06 − 0.1 ± 1.96 ∗ √0.08(1 − 0.08) ( + )
400 400

IC: <-0.0775,-0.0025>
Como el 0 no pertenece al intervalo se rechaza la Ho

MINITAB

Como mediante los tres métodos se rechaza la Ho, entonces decimos que la
proporción de viñas afectadas es diferente por el tipo de insecticida
PROBLEMA 4:
Una compañía de seguros afirma que 90% de sus reclamos son atendidos en un
plazo de 30 dias. Para probar esta aseveración, un grupo de usuarios seleccionó
una muestra aleatoria de 75 reclamaciones hechas a la compañía. Si el grupo
encontró que 55 de estas fueron atendidas en plazo indicado, ¿Es esta evidencia
suficiente para apoyar la apreciación de que menos del 90 de las reclamaciones
se atienden dentro del plazo señalado? Use alfa = 0.01
SOLUCION:
METODO CLASICO
Plantear la hipótesis nula y la hipótesis alternativa

Ho: PA = 90

Ha: PA < 90
Alfa=0.01
Hallamos el Zcritico: Zc=-2.326

Hallo es Z estadístico:
55
𝑃̅= = 0.73
75

𝑃̅ −𝑃 0.73−0.9
𝑧= 𝑃∗𝑄
=> 𝑧= 0.9∗0.1
= −4.81
√ √
𝑛 75

Como el Zestadistico esta en la zona de rechazo decimos que la Ho se rechaza


INTERVALO DE CONFIANZA

𝑃∗𝑄
Ic: 𝑷 ± 𝒁𝜶 ∗ √ 𝑛

0.73∗0.27
Ic: 𝟎. 𝟕𝟑 ± 𝟐. 𝟑𝟐𝟔 ∗ √ 75

IC: < 0.614,0.852>

Como el 0.9 no esta en el intervalo de confianza se rechaza la Ho

MINITAB

CONCLUSION: Mediante los dos métodos vemos que la Ho se rechaza por


tanto es evidencia suficiente para apoyar la apreciación de que menos del 90 de
las reclamaciones se atienden dentro del plazo señalado.
SEMANA 2: PRUEBA T DE STUDENT Y ANÁLISIS
DE VARIANZA
MUESTRAS PEQUEÑAS (PRUEBA T DE STUDENT)

PROBLEMA 1:
“Análisis y propuesta de mejora para una línea de producción de parabrisas
usando herramientas de manufactura esbelta”
La industria automotriz se divide en varios procesos de manufactura, dentro de
los cuales se encuentra la producción de parabrisas para autos, Cuya actividad
no es muy conocida en el país.
La demanda de parabrisas se ha incrementado en los últimos años por lo cual la
empresa busca innovar y desarrollar nuevos productos para cumplir con los
requerimientos del mercado.
La empresa cuenta con una nueva planta, en la cual se han hecho análisis de
los procesos y tiempos de producción.
Se evaluará si los tiempos de producción no son los adecuados y se buscará
implementar herramientas de manufactura esbelta, para mejorar los tiempos de
entrega y los costos de producción.
Uno de los métodos para evaluar esto es hallando el balance del proceso
productivo, para ello se tendrá el tiempo promedio por mes del año 2015 para
elaborar un parabrisas.
El tiempo ideal para producir un parabrisas de acuerdo a la antigua planta de
producción es de 349.2 segundos
2015
Enero 376
Febrero 371
Marzo 376
Abril 371
Mayo 376
Junio 391
Julio 384
Agosto 391
Septiembre 379
Octubre 391
Noviembre 384
Figura 1.1 Centro de valor agregado
Diciembre 376

Tabla1.1 Tiempo en segundos de


producción de parabrisas

SOLUCIÓN:

Formulación de la hipótesis:

El tiempo promedio mensual para producir un parabrisas


µ
Ho: =349.2 es 349.2 segundos

El tiempo promedio mensual para producir un parabrisas


µ
Ha: >349.2 es mayor a 349.2 segundos

METODO CLASICO

Grados de libertad (gl) y Nivel de significancia (α):

Como se trata de una muestra pequeña con n= 12 y se asume que los datos
siguen un comportamiento normal, por lo cual se empleará la distribución t d
student.
Gl = 11

Alfa = 0.05
Por lo tanto de la tabla se tiene:

Tcrit = 1.7959
Si el Tdat es mayor que 1.7959 se rechaza la Hipótesis nula.

Calculo del estadístico:

Utilizando las fórmulas adecuadas hallamos la media muestral, la varianza y su


desviación estándar

x (X-Media)^2
376 20.25
371 90.25
376 20.25
371 90.25
376 20.25
391 110.25
384 12.25
391 110.25
379 2.25
391 110.25
384 12.25
376 20.25

∑𝑛
𝑖=1 𝑥𝑖 ∑𝑛
𝑖=1(𝑥𝑖−𝑀𝑒𝑑𝑖𝑎)
2
𝑀𝑒𝑑𝑖𝑎 𝑀𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝑉𝑎𝑟(𝑥 ) = 𝐷𝑒𝑠𝑣. 𝐸𝑠𝑡𝑎𝑛𝑑 =
𝑛 𝑛−1
√𝑉𝑎𝑟(𝑥)

n 12
Suma Total 4566

Media 380.5
Muestral
Var(x) 56.2727273

Desv Estand 7.501515

Para calcular el Tdat usaremos la siguiente ecuación:

380.5 − 349.2
𝑇𝑑𝑎𝑡 = = 14.45
7.501515
√12

Como el Tdatos es 14.45 y es mayor a 1.79 se rechaza la Ho.


INTERVALO DE CONFIANZA
𝑺
𝒙 ± 𝑻𝟐𝜶 ∗
√𝒏

𝟕. 𝟓𝟎𝟏𝟓𝟏𝟓
𝟑𝟖𝟎. 𝟓 ± 𝟏. 𝟕𝟗𝟔 ∗
√𝟏𝟐
IC: <376.611,384.389>

Como 349.2 no pertenece al intervalo se rechaza la Ho.


MINITAB

CONCLUSION

Tanto en el método clásico como por intervalo de confianza se rechaza la


Ho(hipótesis nula), entonces se puede afirmar con un nivel de significancia del
5% que el tiempo promedia mensual para producir un parabrisas es mayor a
349.2 segundos, lo que significa que la empresa requiere mejoras en el
proceso de producción.
PROBLEMA 2:
Un gimnasio lanza un programa de acondicionamiento físico que consiste en
que después de un mes el participante promedio podrá realizar mas planchas
en dos minutos de lo que antes podría realizar.
Se pide confirmar la efectividad del programa para ello se toma una muestra
aleatoria de 10 participantes .Utilice un nivel de significancia del 0.05

Participante 1 2 3 4 5 6 7 8 9 10
N p antes 38 11 34 25 17 38 12 27 32 29
N p desp 45 24 41 39 30 44 30 39 40 41

Solución:
Planteo de hipótesis
Ho: d= 0
Ha: d <>0 La diferencia antes y después es diferente
Valor critico
N= 10; gl =9; alfa = 0.05
Tα/2= 2.262

Se rechaza Ho si el
estadístico de prueba
es mayo que 2.262 o
menor que -2.262
Calculo del Testadistico:

Participante 1 2 3 4 5 6 7 8 9 10
N p antes 38 11 34 25 17 38 12 27 32 29
N p desp 45 24 41 39 30 44 30 39 40 41
diferencia -7 -13 -7 -14 -13 -6 -18 -12 -8 -12

(di-
dprom)^2 16 4 16 9 4 25 49 1 9 1

𝑑𝑖 ∑(𝑑𝑖−𝑑̅)^2
𝑑̅ = ∑ 𝑛 = −11 𝑆𝑑 = √ = 3.8586
𝑛−1

𝑑̅ − 𝐷 −11 − 0
𝑡= = = −9.014
𝑆𝑑 3.8586
√𝑛 √10

Como el valor de t es -9.017 y este es menor que tcrit ( -2.262) se rechaza Ho

Intervalo de confianza:
𝑆𝑑 3.8586
𝑑±𝑡∗ = −11 ± 2.262 ∗
√𝑛 √10

Ic: < -13.760; -8.239 >

Como el valor de “0” no pertenece al intervalo se rechaza Ho


MINITAB

CONCLUSION: En ambos métodos se rechaza la Ho (Hipótesis nula) ,


entonces decimos que el programa es efectivo ya que si podría aumentar el
número de planchas hechas
PROBLEMA 3.

Para analizar cómo afecta la dieta sobre el padecimiento de una enfermedad


diverticular, se sometieron a estudio a 20 vegetarianos, 6 de los cuales tenían
la enfermedad. Se determinó el total de fibra consumida diariamente por cada
uno de los individuos, con los resultados siguientes:

Con la enfermedad Sin la enfermedad


n =6 m = 14
X= 26.8 Y= 42.5
S=9.2 S=9.5

Contraste la hipótesis de que su consumo de fibra diaria es igual para la


población de vegetarianos que sufren la enfermedad diverticular que para
los que no la padecen. Use un nivel de significancia igual al 5%.
SOLUCION:

 Paso 1: Establecer la hipótesis nula y la hipótesis alternativa

𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦

 Paso 2: Nivel de significancia:



∝= 0.05 𝑒𝑛𝑡𝑜𝑛𝑐𝑒𝑠 = 0.025
2

 Paso 3: Calculamos el estadístico de prueba:

𝒕 = −𝟑. 𝟒𝟐
Insertamos los valores en Minitab:
- En la Barra de Menús seleccionamos la viñeta Estadísticas
- Seleccionamos la opción Estadística Básica
- Entramos a la operación T de 2 Muestras

Se observa que P = 0.007 < 0.05


Decisión:
Rechazamos la hipótesis nula.
Conclusión:
A un nivel de significancia del 5%, el consumo de fibra diaria entre los
vegetarianos que padecen la enfermedad y los que no la padecen presenta una
diferencia significativa, no es igual

ANOVA

PROBLEMA 4
1. La siguiente información es muestral. Pruebe la hipótesis de que las
medias de tratamiento son iguales. Utilice el nivel de significancia 0.05.

Tratamiento 1 Tratamiento 2 Tratamiento 3


9 13 10
7 20 9
11 14 15
9 13 14
12 15
10

a) Establezca las hipótesis nula y alternativa.


b) ¿Cuál es la regla de decisión?
c) Calcule SST, SSE y SS total.
d) Elabore una tabla ANOVA.
e) Exprese su decisión acerca de la hipótesis nula.
Se seguirá el procedimiento usual de cinco pasos para la prueba de hipótesis.
Paso 1: Plantear la hipótesis nula y la hipótesis alternativa
𝐻0 : µ1 = µ2 = µ3
𝐻1 : 𝐿𝑜𝑠 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑡𝑜𝑑𝑜𝑠 𝑖𝑔𝑢𝑎𝑙𝑒𝑠.
Paso2: Establecer nivel de significancia.
α = 0.05
Paso 3: Determinar el estadístico de prueba. Estamos ante una distribución
F, ANOVA.
Paso 4: Establecer la regla de decisión.
Grados de libertad para el numerador = k – 1 = 3 – 1 = 2
Grados de libertad para el numerador = n - k = 15 – 3 = 12
Intersectando en la tabla, encontramos el valor de 3.89. Así que la regla de
decisión es rechazar la 𝐻0 si el valor calculado para F es mayor que 3.89.
Paso 5: Seleccionar muestra, realizar los cálculos y tomar una decisión.

Tratamient Tratamient Tratamiento Total


o1 o2 3
𝑋 𝑋2 𝑋 𝑋2 𝑋 𝑋2
9 81 13 169 10 100
7 49 20 400 9 81
11 121 14 196 15 225
9 81 13 169 14 196
12 144 15 225
10 100
𝑇𝑐 58 60 63 181
𝑛𝑐 6 4 5 15
𝑋2 576 934 827 2337

Las entradas para la tabla ANOVA se calculan como sigue.


(∑ 𝑋)2 1812
SS total = ∑ 𝑋 2 − = 2337 − = 𝟏𝟓𝟐. 𝟗𝟑𝟑
𝑛 15

𝑇2 (∑ 𝑋)2 582 602 632 1812


SST = ∑ ( 𝑛𝑐 ) − = + + − = 𝟕𝟎. 𝟒
𝑐 𝑛 6 4 5 15

SSE = SS total – SST = 152.933 – 70.4 = 82.533


Al insertar estos valores en una tabla ANOVA y calcular el valor de F se tiene:
Tabla ANOVA
Fuente de Suma de Grados de Cuadrado F
variación cuadrados libertad medio
Tratamientos SST = 70.4 k-1 = 3- SST/(k- MST/MSE=5.12
Error SSE = 82.533 1=2 1)=35.2
Total SStotal = n-k=15- SSE/(n-
152.933 3=12 k)=6.878
n-1=14

El valor calculado para F es 5.12, que es mayor que el valor crítico 3.89, por
tanto se rechaza la hipótesis nula. Se concluye que las medias poblacionales
no son iguales. Los tratamientos promedio no son iguales en los tres grupos de
evaluación. Por ahora sólo se puede concluir que hay una diferencia entre las
medias de tratamiento.
EJERCICIO
Una compañía de desarrollos inmobiliarios considera la inversión en un centro
comercial en las afueras de Atlanta, Georgia. Se evalúan tres terrenos. El
ingreso de los pobladores de la zona aledaña al centro comercial es de
especial importancia. Se selecciona una muestra aleatoria de cuatro familias
que viven cerca de cada terreno. A continuación se presentan los resultados
muestrales. Al nivel de significancia de 0.05, ¿ puede concluir la compañía que
hay diferencia en los ingresos promedio? Utilice el procedimiento usual de
cinco pasos para prueba de hipótesis.

Southwyck Parque Franklin Old Orchard


(miles US$) (miles US$) (miles US$)
64 74 75
68 71 80
70 69 76
60 70 78

Se seguira el procedimiento usual de cinco pasos para la prueba de hipótesis.


Paso 1: Plantear la hipótesis nula y la hipótesis alternativa
𝐻0 : µ1 = µ2 = µ3
𝐻1 : 𝐿𝑜𝑠 𝑖𝑛𝑔𝑟𝑒𝑠𝑜𝑠 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜 𝑛𝑜 𝑠𝑜𝑛 𝑡𝑜𝑑𝑜𝑠 𝑖𝑔𝑢𝑎𝑙𝑒𝑠.
Paso 2:
Establecer nivel de significancia.
α = 0.05
Paso 3: Determinar el estadístico de prueba. Estamos ante una distribucion
F, ANOVA.
Paso 4: Establecer la regla de decisión.
Grados de libertad para el numerador = k – 1 = 3 – 1 = 2
Grados de libertad para el numerador = n - k = 12 – 3 = 9
Intersectando en la tabla, encontramos el valor de 4.26. Así que la regla de
decisión es rechazar la 𝐻0 si el valor calculado para F es mayor que 4.26.
Paso 5: Seleccionar muestra, realizar los cálculos y tomar una decisión.

Southwyck Parque Old Total


Franklin Orchard
(miles US$)
(miles US$) (miles US$)
𝑋 𝑋2 𝑋 𝑋2 𝑋 𝑋2
64 4096 74 5476 75 5625
68 4624 71 5041 80 6400
70 4900 69 4761 76 5776
60 3600 70 4900 78 6084

𝑇𝑐 262 284 309 855


𝑛𝑐 4 4 4 12
𝑋2 1722 2017 2388 61283
0 8 5

Las entradas para la tabla ANOVA se calculan como sigue.


(∑ 𝑋)2 8552
SS total = ∑ 𝑋 2 − = 61283 − = 𝟑𝟔𝟒. 𝟐𝟓
𝑛 12

𝑇𝑐 2 (∑ 𝑋)2 2622 2842 3092 8552


SST = ∑ ( )− = + + − = 𝟐𝟕𝟔. 𝟓
𝑛𝑐 𝑛 4 4 4 12

SSE = SS total – SST = 364.25 – 276.5 = 87.75


Al insertar estos valores en una tabla ANOVA y calcular el valor de F se tiene:
Tabla ANOVA
Fuente de Suma de Grados de Cuadrado F
variación cuadrados libertad medio
Tratamientos SST = 276.5 k-1 = 3- SST/(k- MST/MSE=14.18
1=2 1)=138.25
Error SSE = 87.75
n-k=12- SSE/(n-
Total SStotal =
3=9 k)=9.75
364.25
n-1=12-
1=11

El valor calculado para F es 14.18, que es mayor que el valor crítico 4.26, por
tanto se rechaza la hipótesis nula. Se concluye que las medias poblacionales
no son iguales. Los ingresos promedio no son iguales en los tres grupos de
evaluación. Por ahora sólo se puede concluir que hay una diferencia entre las
medias de tratamiento.
SEMANA 3: REGRESIÓN LINEAL SIMPLE

PROBLEMA 1.-
Un ciudadano está estudiando compañías que se harán públicas por primera
vez. Tiene interés particular en la relación entre le importe de una oferta y el
precio por acción. Una muestra de 15 empresas que recientemente se hicieron
públicas presento la siguiente información.
Compañía Tamaño(millones de Precio por acción, Y
dólares), X
1 9.0 10.8
2 94.4 11.3
3 27.3 11.2
4 179.2 11.1
5 71.9 11.1
6 97.9 11.2
7 93.5 11.0
8 70.0 10.7
9 160.7 11.3
10 96.5 10.6
11 83.0 10.5
12 23.5 10.3
13 58.7 10.7
14 93.8 11.0
15 34.4 10.8

a) Construir el diagrama de dispersión.


b) Calcular b0 y b1.
c) Interpretar b0 y b1
d) Predecir ara un valor particular.
e) Calcular el error de estimación.
f) Calcular el coeficiente de estimación 𝑟 2 e interprete.
g) Calcular el coeficiente de estimación r e interprete.
h) Haga un análisis residual.
i) Cree un intervalo de confianza.
j) Cree un intervalo de predicción.
SOLUCIÓN:
a) Construir el diagrama de dispersión.

b) Calcular b0 y b1.
𝑛(∑ 𝑋𝑌) − (∑ 𝑋)(∑ 𝑌) 15(13114,64) − (1193,8)(163,6)
𝑏1 = = = 0.00302
𝑛 (∑ 𝑋 2 ) − (∑ 𝑋)2 15(126252,04) − (1193,8)2
𝑏0 = 𝑦̅ − 𝑏1 ∗ 𝑥̅ = 10.906 − 0.00302 ∗ 79.5867 = 10.665 = 10.7

c) Interpretar b0 y b1

Por lo tanto la ecuación de regresión es:


𝑌 = 10.7 + 0.00302 ∗ 𝑋

El valor de b1= 0.00302 significa que para cada tamaño de oferta se


puede esperar aumentar 0.00302 el precio por acción. Es decir que por
cada 10 ofertas aumentara 0.0302 el precio por acción.
El valor de b0= 10.7 es el punto donde la ecuación cruza al eje y. si no
hay oferta, es decir si x=0, el precio por acción será de 10.7. Pero x=0
está fuera del intervalo de valores incluidos en la muestra.
d) Predecir para un valor particular.
Para 100:
𝑌 = 10.7 + 0.00302 ∗ 𝑋 = 10.7 + 0.00302*100=11,002

Si el tamaño de una oferta es 100 millones de dólares, se obtendrá un precio


por acción de 11.002.

e) Calcular el error estándar de estimación.

∑(𝑦 − 𝑦′)2
𝑠𝑦.𝑥 = √
𝑛−2

Compañí Tamaño(millone Precio Y’ Desviació Desviació


a s de dólares), X por Calculad n (Y-Y’) n (Y-Y’)^2
acción o
,Y
1 9.0 10.8 10.72718 0.07282 0.00530275
2 94.4 11.3 10.985088 0.314912 0.09916957
3 27.3 11.2 10.782446 0.417554 0.17435134
4 179.2 11.1 11.241184 -0.141184 0.01993292
5 71.9 11.1 10.917138 0.182862 0.03343851
6 97.9 11.2 10.995658 0.204342 0.04175565
7 93.5 11.0 10.98237 0.01763 0.00031082
8 70.0 10.7 10.9114 -0.2114 0.04468996
9 160.7 11.3 11.185314 0.114686 0.01315288
10 96.5 10.6 10.99143 -0.39143 0.15321744
11 83.0 10.5 10.95066 -0.45066 0.20309444
12 23.5 10.3 10.77097 -0.47097 0.22181274
13 58.7 10.7 10.877274 -0.177274 0.03142607
14 93.8 11.0 10.983276 0.016724 0.00027969
15 34.4 10.8 10.803888 -0.003888 1.5117E-05

1.04
𝑠𝑦.𝑥 = √ = 0.28
15 − 2
f) Calcular el coeficiente de estimación 𝑟 2 e interprete.
Compañía Tamaño Precio Y’ Desviació Desviació ̅
Y-𝒀 ̅ )^2
(Y-𝒀
(millones por Calculado n (Y-Y’) n (Y-Y’)^2
de acción
dólares), ,Y
X
1 9.0 10.8 10.72718 0.07282 0.00530275 -0.10666667 0.011377
2 94.4 11.3 10.985088 0.314912 0.09916957 0.39333333 0.154711
3 27.3 11.2 10.782446 0.417554 0.17435134 0.29333333 0.086044
4 179.2 11.1 11.241184 -0.141184 0.01993292 0.19333333 0.037377
5 71.9 11.1 10.917138 0.182862 0.03343851 0.19333333 0.037377
6 97.9 11.2 10.995658 0.204342 0.04175565 0.29333333 0.086044
7 93.5 11.0 10.98237 0.01763 0.00031082 0.09333333 0.008711
8 70.0 10.7 10.9114 -0.2114 0.04468996 -0.20666667 0.042711
9 160.7 11.3 11.185314 0.114686 0.01315288 0.39333333 0.154711
10 96.5 10.6 10.99143 -0.39143 0.15321744 -0.30666667 0.094044
11 83.0 10.5 10.95066 -0.45066 0.20309444 -0.40666667 0.165377
12 23.5 10.3 10.77097 -0.47097 0.22181274 -0.60666667 0.368044
13 58.7 10.7 10.877274 -0.177274 0.03142607 -0.20666667 0.042711
14 93.8 11.0 10.983276 0.016724 0.00027969 0.09333333 0.008711
15 34.4 10.8 10.803888 -0.003888 1.5117E-05 -0.10666667 0.011377

∑(𝑌 − 𝑌̅ )2 − ∑(𝑌 − 𝑌 ′ )2 1.31 − 1.04


𝑟2 = = = 0.2061
∑(𝑌 − 𝑌̅) 2 1.31

𝑆𝑆𝑅 𝑆(𝑌 ′ − 𝑌̅ )2 0.30


𝑟2 = = = = 0.229
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 𝑆(𝑌 − 𝑌̅ )2 1.31
En minitab debido a los decimales calculados tenemos 21.7% lo que nos indica
que el 21.7% del precio por acción está determinado por su relación lineal con
X (tamaño de la oferta).

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 6786.04809 6786.04809 3.6073227 0.07994066
Residuos 13 24455.4292 1881.18687
Total 14 31241.4773

𝑆𝑆𝑅 6786.04809
𝑟2 = = = 0.2172
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 31241.4773

Calcular el coeficiente de estimación r e interprete.


𝑟 = √𝑟 2 = √0.217 = 0.466
La pendiente de la ecuación de regresión es positiva esta entre -1 y +1.

𝑆𝑆𝐸
𝑠=√ = 43.37
𝑛−2

g) Haga un análisis residual.


Análisis de los residuales

Pronóstico Tamaño(millones de dólares), Residuos


Observación X Residuos estándares
-
1 71.9075356 62.9075356 -1.50514744
-
2 107.903462 13.5034623 -0.32308851
3 100.704277 -73.404277 -1.7562961
4 93.5050916 85.6949084 2.050366
-
5 93.5050916 21.6050916 -0.51693089
-
6 100.704277 2.80427699 -0.0670961
7 86.3059063 7.19409369 0.17212837
8 64.7083503 5.29164969 0.12660984
9 107.903462 52.7965377 1.26322821
10 57.509165 38.990835 0.9329082
11 50.3099796 32.6900204 0.78215273
12 35.911609 -12.411609 -0.29696445
-
13 64.7083503 6.00835031 -0.14375787
14 86.3059063 7.49409369 0.17930628
-
15 71.9075356 37.5075356 -0.89741826

h) Cree un intervalo de confianza.


Para b1
43.37 43.37
𝑠𝑏1= = = 0.245
√∑(𝑥 − 𝑥̅ )2 √31241,4773

𝑏1 ± 𝑡𝛼/2 ∗ 𝑠𝑏1 = 0.00302 ± 1.9 ∗ 0.245

(-0.46248, 0.46852)
Para y
10.7 ± 73.19 ∗ 0.004
(10.4111, 10.9823)
i) Cree un intervalo de predicción.
𝑠𝑦 = 0.009

10.7 ± 73.19 ∗ 0.009


(10.0262, 11.3672)
Minitab

Regression Analysis: Precio versus Tamaño

The regression equation is


Precio = 10.7 + 0.00302 Tamaño

Predictor Coef SE Coef T P


Constant 10.6665 0.1457 73.19 0.000
Tamaño 0.003017 0.001589 1.90 0.080

S = 0.280786 R-Sq = 21.7% R-Sq(adj) = 15.7%

Analysis of Variance

Source DF SS MS F P
Regression 1 0.28440 0.28440 3.61 0.080
Residual Error 13 1.02493 0.07884
Total 14 1.30933

Predicted Values for New Observations

New Obs Fit SE Fit 95% CI 95% PI


1 10.6967 0.1322 (10.4111, 10.9823) (10.0262, 11.3672)

PROBLEMA 2.
Se quiere estudiar la relación entre la pureza del oxígeno (Y) producido en un proceso
químico de destilación y el nivel de hidrocarburos(X) presentes en el condensador
principal de la unidad de destilación

Nivel de Pureza del


Hidrocarburos Oxígeno
(%) (%)

0,99 90,01
1,02 89,05
1,15 91,43
1,29 93,74
1,46 96,73
1,36 94,45
0,87 87,59
1,23 91,77
1,55 99,42
1,4 93,65
1,19 93,54
1,15 92,52
0,98 90,56
1,01 89,54
1,11 89,85
1,2 90,39
1,26 93,25
1,32 93,41
1,43 94,98
0,95 87,33

a) Realizar un análisis de varianza, utilizando un nivel de significancia de 0.05


b) Realizar un análisis residual

Solución:

a)
X Y X2 Y2 XY
0.99 90.01 0.9801 8101.8001 89.11
1.02 89.05 1.0404 7929.9025 90.83
1.15 91.43 1.3225 8359.4449 105.14
1.29 93.74 1.6641 8787.1876 120.92
1.46 96.73 2.1316 9356.6929 141.23
1.36 94.45 1.8496 8920.8025 128.45
0.87 87.59 0.7569 7672.0081 76.20
1.23 91.77 1.5129 8421.7329 112.88
1.55 99.42 2.4025 9884.3364 154.10
1.4 9365 1.96 8770.3225 131.11
1.19 93.54 1.4161 8749.7316 111.31
1.15 92.52 1.3225 8559.9504 106.40
0.98 90.56 0.9604 8201.1136 88.75
1.01 89.54 1.0201 8017.4116 90.44
1.11 89.85 1.2321 8073.0225 99.73
1.2 90.39 1.44 8170.3521 108.47
1.26 93.25 1.5876 8695.5625 117.50
1.32 93.41 1.7424 8725.4281 123.30
1.43 94.98 2.0449 9021.2004 135.82
0.95 87.33 0.9025 7626.5289 82.96
23.92 1843.21 29.2892 170044.5321 2214.6566

𝒏 ∑ 𝒙𝒚 − ∑ 𝒙 ∑ 𝒚 20(2214.6566) − (23.92)(1843.21)
𝒃= 𝟐 =
𝒏 ∑ 𝒙𝟐 − (∑ 𝒙) 20(29.2892) − 23.922

b = 14.947

∑𝒚 ∑𝒙 1843.21 − 14.947(23.92)
𝒂= −𝒃 =
𝒏 𝒏 20

a = 74.283

(∑ 𝑌)2 1843.212
𝑆𝑆𝑇 = ∑ 𝑌 2 − = 170044.5321 − = 173.377
𝑛 20
(∑ 𝑌)2 1843.212
𝑆𝑆𝑅 = 𝑎 ∑ 𝑌 + 𝑏 ∑ 𝑋𝑌 − = 74.283(1843.21) + 14.947(2214.6566) +
𝑛 20
𝑆𝑆𝑅 = 152.13

𝑆𝑆𝑇 = 𝑆𝑅𝑅 + 𝑆𝑆𝐸


𝑆𝑆𝐸 = 21.247

1. Plantearemos nuestra hipótesis nula y alterna:

Ho: 𝛽1 = 0
Ha: 𝛽1 ≠ 0
2. Determinar el nivel de significancia:
𝛼 = 0.05
3. Identificar el estadístico de prueba:
𝐹

4. Formular una regla de decisión: F(0.05,1,18)


5. Cálculo del ANOVA

FV GL SC CM F
Regresion 1 152.13 152.13 128.92
Error 18 21.247 1.18
Total 19

FK = 128.92
Fk ϵ RC → Rechazo HO y Acepto la Ha

Interpretación:
El coeficiente de regresión es diferente de 0, por lo tanto la ecuación no es una
constante. Por cada unidad en el nivel de hidrocarburo que se incrementa, la pureza
del oxígeno aumenta en 14.97.
b) Como vamos a hacer un análisis residual, veremos que observación de las 20 que
tenemos, debemos eliminar ya que hace que nuestro estudio y desarrollo del modelo
salga erróneo.

Utilizaremos los 3 métodos o técnicas de análisis de influencias:

1) Matriz Sombrero:
1 (𝑥𝑖 − 𝑥𝑝𝑟𝑜𝑚)2
ℎ𝑖 = [ + ]
𝑛 ∑ 2 (∑ 𝑥)2
𝑥 − 𝑛

2) Residuales Eliminados t-student,ti:

𝑒𝑖
𝑡𝑖 ∗= √1 − ℎ𝑖
𝑆𝑖
3) Estadístico de la distancia de Cook:
𝑆𝑟𝑖 2 ℎ𝑖
𝐷𝑖 =
2(1 − ℎ𝑖)
REGRESIÓN MÚLTIPLE

PROBLEMA 1.

En los datos siguientes se presenta peso en vacío, caballos de fuerza y velocidad


en 1/4 de milla de 10 automóviles deportivos y GT. Supóngase que se tiene
también el precio de cada uno de estos automóviles. Todo el conjunto de datos
es el siguiente:

Automóvil deportivo y GT Precio Peso en Caballos Velocidad


(miles de $) vacío (lb) de fuerza en ¼ de
(lb) milla (mph)
Accura Integra Type R 25035 2577 195 90.7
Accura NSX-T 93758 3066 290 108.0
BMW Z3 2.8 40900 2844 189 93.2
Chevrolet Camaro Z28 24865 3439 305 103.2
Chevrolet Corvette 50144 3246 345 102.1
Convertible
Dodge Viper RT/10 69742 3319 450 116.2
Ford Mustang GT 23200 3227 225 91.7
Honda Prelude Type SH 26382 3042 195 89.7
Mercedes-Benz CLK320 44988 3240 215 93.0
Mercedes-Benz SLK230 42762 3025 185 92.3
Mitsubishi 3000GT VR-4 47518 3737 320 99.0
Nissan 240SX SE 25066 2862 155 84.6
Pontiac Firebird Trans Am 27770 3455 305 103.2
Porsche Boxster 45560 2822 201 93.2
Toyota Supra Turbo 40989 3505 320 105.0
Volvo C70 41120 3285 236 97.0

Obtenga la ecuación de regresión estimada para predecir la velocidad en ¼ de


milla
Solución
Regression Analysis: Velocidad en versus Precio (mile, Peso en vací, ...

The regression equation is


Velocidad en ¼ de milla (mph) = 72.9 + 0.000104 Precio (miles de $)
- 0.00060 Peso en vacío (lb)
+ 0.0863 Caballos de fuerza (lb)

Predictor Coef SE Coef T P


Constant 72.876 8.407 8.67 0.000
Precio (miles de $) 0.00010445 0.00004315 2.42 0.032
Peso en vacío (lb) -0.000603 0.003147 -0.19 0.851
Caballos de fuerza (lb) 0.08634 0.01366 6.32 0.000

S = 2.58286 R-Sq = 92.0% R-Sq(adj) = 90.0%


Analysis of Variance

Source DF SS MS F P
Regression 3 915.90 305.30 45.76 0.000
Residual Error 12 80.05 6.67
Total 15 995.95

Source DF Seq SS
Precio (miles de $) 1 406.39
Peso en vacío (lb) 1 242.90
Caballos de fuerza (lb) 1 266.61

Unusual Observations

Velocidad
Precio en ¼ de
(miles milla
Obs de $) (mph) Fit SE Fit Residual St Resid
11 47518 99.000 103.216 1.523 -4.216 -2.02R

R denotes an observation with a large standardized residual.

a) Ecuación de regresión múltiple es:

Y’ = 72.9 + 0.000104 𝑋1 - 0.00060 𝑋2 + 0.0863 𝑋3

𝑋1 = Precio (miles de $)
𝑋2 = Peso en vacío (lb)
𝑋3 = Caballos de fuerza (lb)

El valor de intersección es 72.9. este el punto donde la ecuación de


regresión cruza el eje y, la variable precio tiene una relación directa:
conforme aumenta el precio aumenta la velocidad, por cada millón de
dólares la velocidad aumenta 0.000104 mph, la variable peso en vacío
tiene una relación inversa: conforme aumenta el peso en vacío disminuye
la velocidad, por cada libra de peso en vacío la velocidad disminuye
0.00060 mph, la variable caballo de fuerza tiene una relación directa:
conforme aumentan los caballos de fuerza aumenta la velocidad, por
cada libra de caballo de fuerza la velocidad aumenta 0.0863mph.
Automóvil deportivo y GT Velocidad Y’ Y-Y’ (Y-Y’)2 ̅
Y-𝒀 ̅ )2
(Y-𝒀
en ¼ de
milla (mph)
Accura Integra Type R 90.7 90.78594 -0.08594 0.00738568 -6.93125 48.0422266
Accura NSX-T 108.0 105.838232 2.161768 4.67324089 10.36875 107.510977
BMW Z3 2.8 93.2 91.7579 1.4421 2.07965241 -4.43125 19.6359766
Chevrolet Camaro Z28 103.2 99.74406 3.45594 11.9435213 5.56875 31.0109766
Chevrolet Corvette 102.1 105.940876 -3.840876 14.7523284 4.46875 19.9697266
Convertible
Dodge Viper RT/10 116.2 116.996768 -0.796768 0.63483925 18.56875 344.798477
Ford Mustang GT 91.7 92.7941 -1.0941 1.19705481 -5.93125 35.1797266
Honda Prelude Type SH 89.7 90.647028 -0.947028 0.89686203 -7.93125 62.9047266
Mercedes-Benz CLK320 93.0 94.189252 -1.189252 1.41432032 -4.63125 21.4484766
Mercedes-Benz SLK230 92.3 91.497748 0.802252 0.64360827 -5.33125 28.4222266
Mitsubishi 3000GT VR-4 99.0 103.215672 -4.215672 17.7718904 1.36875 1.87347656
Nissan 240SX SE 84.6 87.166164 -2.566164 6.58519767 -13.03125 169.813477
Pontiac Firebird Trans 103.2 100.03658 3.16342 10.0072261 5.56875 31.0109766
Am
Porsche Boxster 93.2 93.29134 -0.09134 0.008343 -4.43125 19.6359766
Toyota Supra Turbo 105.0 102.675856 2.324144 5.40164533 7.36875 54.2984766
Volvo C70 97.0 95.57228 1.42772 2.0383844 -0.63125 0.39847656
Total 1562.1 1562.1498 -0.049796 80.0555003 9.9476E-14 995.954375

Tabla ANOVA
Fuente Gl SS MS F
Regresión 3 915.8989 305.2996 45.7632
Error 16-(3+1)=12 80.0555 6.6713
Total 15 995.9544

b) Coeficiente de determinación múltiple:

2
𝑆𝑆𝑅 915.8989
𝑟𝑦.123 = = = 0.9196
𝑆𝑆𝑇 995.9544
Este coeficiente de determinación múltiple, calculado como 0.9196, puede
interpretarse diciendo que, de la muestra, 91.96% de la variación en la velocidad
para ¼ de milla puede ser explicada por la variación en el peso , por la variación
del precio y por la variación en los caballo de fuerza.

c) Coeficiente r2 ajustado:
𝑛−1 16−1
𝑟 2 𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1 − 𝑛−(𝑘+1)
∗ (1 − 𝑟 2 ) = 1 − 16−(3+1)
∗ (1 − 0.9196) =0.8995
En consecuencia, 90% de la variación en la velocidad por ¼ de milla puede ser
explicada por nuestro modelo de regresión múltiple: ajustado para el número de
variables de predicción y el tamaño de muestra.

d) Matriz de correlación:
Precio Peso en Caballos de Velocidad en ¼
(miles de vacío (lb) fuerza (lb) de milla (mph)
$)
Precio (miles de 1
$)
Peso en vacío 0.1044459 1
(lb) 71
Caballos de 0.4816115 0.665777 1
fuerza (lb) 15
Velocidad en ¼ 0.6387804 0.557862 0.93432631 1
de milla (mph) 81 558 9

En la tabla podemos observar que la correlación entre la cantidad de Velocidad


en ¼ de milla (mph) y Caballos de fuerza (lb) es de 0.934326319, lo cual indica
que existe una fuerte asociación negativa entre las variables. También
podemos observar que la correlación entre la Velocidad en ¼ de milla (mph) y
el Peso en vacío (lb) es de 0.557862558, lo cual indica que existe una
correlación moderada entre estas variables. Además, observamos también
que virtualmente no existe correlación alguna (0.10444) entre las dos variables
explicativas, Precio (miles de $) y el Peso en vacío (lb). Finalmente, podemos
observar que los coeficientes de correlación situados en la diagonal principal de
la matriz tienen valor de 1.0, puesto que habrá una correlación perfecta entre la
variable y ella misma.

e) Graficas de residuos para velocidad en ¼ de milla

La ultima gráfica de residuos sirve para examinar el patrón de residuos para


los valores predichos de Y. Si los residuos estandarizados parecen variar
para diferentes niveles del valor predicho de Y, esto nos proporciona
evidencia de un posible efecto curvilíneo en al menos una variable
explicativa y/o de la necesidad de transformar la variable dependiente. La
primera, segunda y tercera gráficas de residuos implican a las variables
explicativas. La aparición de patrones en la gráfica de los residuos
estandarizados contra una variable explicativa puede ser una indicación de
la existencia de un efecto curvilíneo y, por consiguiente, nos llevaría a la
posible transformación de dicha variable independiente. En estas figuras
podemos observar que parece haber un patrón muy pequeño o no haberlo
en la relación entre los residuos estandarizados y cualquiera de los valores
predichos de Y, X1, X2 o X3. Así pues, podemos llegar a la conclusión de
que el modelo de regresión lineal múltiple es apropiado para predecir
velocidad para ¼ de milla.
f) Prueba de la Importancia de la Relación entre la Variable Dependiente y
las Variables Explicativas
H 0 : 1   2   3  0 (No existe relación lineal entre la variable
dependiente y las variables explicativas).
H1 : Al menos una  j  0 (Al menos un coeficiente de regresión no es
igual a cero)
Esta hipótesis nula puede probarse utilizando una prueba F.

La regla de decisión es:

Rechace H0 al nivel de significación  si F  FU ( p , n  p 1) ; en


cualquier otro caso, no rechace H0.
Para los datos correspondientes al problema de la velocidad por ¼ de
milla, presentado en la Tabla Anova, es:
𝑀𝑆𝑅 305.2996
𝐹= = = 45.7632
𝑀𝑆𝐸 6.6713
Si se elige un nivel de significación de 0.05, determinamos que el valor
crítico en la distribución F (con 3 y 12 grados de libertad) es 3.49. Puesto que
F = 45.7632 > FU(2,12)= 3.49, podemos rechazar H0 y llegar a la conclusión de
que al menos una de las variables explicativas (precio, peso, caballos de
fuerza) está relacionada con la velocidad para ¼ de milla.

g) Error estándar multiple:

𝑆𝑆𝐸 80.0555
𝑠𝑦.123 = √ =√ = 2.5829
𝑛 − (𝑘 + 1) 16 − (3 + 1)

h) Inferencias Relativas a los Coeficientes de Regresión de Población:


Para probar la hipótesis de que la pendiente de población  k , es cero, para
la regresión múltiple se utiliza la ecuación siguiente:
𝑏1 − 0
𝑡=
𝑠𝑏1

Por ejemplo para la variable precio:


0.00010445 − 0
𝑡= = 2.4206
0.00004315

F crítico: 2.179
Tenemos que 2.4206> 2.179 por lo tanto no se rechaza Ho. Y llegamos a la
conclusión de que existe una relación significativa entre la variable X 1 (precio) y
la velocidad, tomando en cuenta las otras variables.

i) Estimación del Intervalo de Confianza


Por ejemplo, si deseáramos obtener una estimación de intervalo de confianza
de 95% de la pendiente de población, 1 (esto es, el efecto del precio, X1,
sobre la velocidad, Y, dejando constante X2 y X3), tendríamos, la ecuación:
b1  t12 Sb1

Como el valor crítico de t al nivel de confianza de 95%, con 12 grados de libertad,


es 2.1788, tenemos:

0.000104 ± (2.179)(0.00004315)
0.000104 ± 0.000009402
0.000094598 ≤ 𝛽1 ≤ 0.0001134
PROBLEMA 2

La siguiente Tabla contiene 25 observaciones por año de estas variables.


Utilizaremos estos datos para desarrollar un modelo lineal que prediga el
margen anual de beneficios en función de los ingresos por dólar depositado y
del número de oficinas.

Año Ingreso por Número de Margen de


dólar Oficinas beneficios
1 3.92 7298 0.75
2 3.61 6855 0.71
3 3.32 6636 0.66
4 3.07 6506 0.7
5 3.06 6450 0.61
6 3.11 6402 0.72
7 3.21 6368 0.77
8 3.26 6340 0.74
9 3.42 6349 0.90
10 3.42 6352 0.82
11 3.42 6352 0.75
12 3.45 6364 0.77
13 3.58 6546 0.78
14 3.66 6672 0.84
15 3.78 6890 0.79
16 3.82 7115 0.79
17 4.07 7234 0.70
18 3.97 7931 0.68
19 4.70 8097 0.55
20 4.96 8468 0.63
21 4.58 8717 0.56
22 4.69 8991 0.41
23 4.71 9179 0.47
24 4.78 9318 0.32
25 3.72 6352 0.72
a) Construir el diagrama de dispersión.
b) Calcular b0 y b1, b2.
c) Interpretar b0 y b1, b2.
d) Predecir para un valor particular.
e) Calcular el error estándar múltiple de estimación.
f) Calcular el coeficiente de determinación múltiple 𝑅2 .
g) Calcular el coeficiente de determinación múltiple 𝑅.
h) Haga un análisis residual.
i) Cree un intervalo de confianza.
j) Cree un intervalo de predicción.
SOLUCIÓN:

a) Diagramas de dispersión

Scatterplot of Margen de beneficios vs Numero de oficinas

0,9

0,8
Margen de beneficios

0,7

0,6

0,5

0,4

0,3
6000 6500 7000 7500 8000 8500 9000 9500
Numero de oficinas

b) Calcular b0 y b1, b2.


De los datos obtenemos los la ecuación de la regresión múltiple:
Regression Analysis: Margen de be versus Ingreso por ; Numero de of

The regression equation is


Margen de beneficios = 1,51 + 0,148 Ingreso por dolar
- 0,000194 Numero de oficinas

Predictor Coef SE Coef T P


Constant 1,5143 0,1010 14,99 0,000
Ingreso por dolar 0,14849 0,06397 2,32 0,030
Numero de oficinas -0,00019395 0,00003756 -5,16 0,000

S = 0,0691125 R-Sq = 76,5% R-Sq(adj) = 74,4%

Analysis of Variance

Source DF SS MS F P
Regression 2 0,34213 0,17107 35,81 0,000
Residual Error 22 0,10508 0,00478
Total 24 0,44722

Source DF Seq SS
Ingreso por dolar 1 0,21475
Numero de oficinas 1 0,12738

Y cuyos coeficientes son los siguientes:

𝑏0 = 1.51 =>Representa el punto de intersección con el eje Y.

𝑏1 = 0.148 => Representa la pendiente entre el eje Y y la variable número de


oficinas.

𝑏2 = −0.000194 => Representa la pendiente entre el eje Y y la variable


ingreso por dólar.

Y con respecto a al valor de los errores estandarizados se puede concluir que


los errores son mínimos, es decir es un buen ajuste.

La ecuación de regresión múltiple es:


𝑌 = 1.51 + 0.148𝑋1 − 0.000194𝑋2
c) Interpretar b0 y b1, b2.
El valor de b0=1.51. Este es el punto donde la ecuación de regresión cruza
el eje Y. Si 𝑋1 = 0 y 𝑋2 = 0, el margen de beneficios será 1.51.
El valor de b1= 0.148, quiere decir que por cada aumento del ingreso por
dólar, el margen de beneficios aumentará en 0.148, es decir que por cada
10 ingresos, aumentará 1.48 el margen de beneficios.
El valor de b2 = -0.000194. Primero, es negativo, de manera que por cada
grado de aumento del numero de oficinas, el margen de beneficios
disminuirá en 0.000194.
d) Predecir para un valor particular.
Tomamos 𝑋1 = 3.50, 𝑋2 = 6400.
𝑌 = 1.51 + 0.148(3.50) − 0.000194(6400) = 0.7864
Esto quiere decir, que si el ingreso por dólar es 3.50, y el numero de
oficinas es 6400, se obtendrá un margen de beneficios de 0.7864.
e) Calcular el error estándar múltiple de estimación.
Año Ingreso Numero de Margen Y’ Desviación Desviación
por Oficinas de Calculado (Y-Y’) (Y-Y’)^2
dólar beneficio
s
(Y)
1 3.92 7298 0.75 0.0053027
0.674348 0.075652 5
2 3.61 6855 0.71 0.0991695
0.71441 -0.00441 7
3 3.32 6636 0.66 0.1743513
0.713976 -0.053976 4
4 3.07 6506 0.7 0.0199329
0.702196 -0.002196 2
5 3.06 6450 0.61 0.0334385
0.71158 0.10158 1
6 3.11 6402 0.72 0.0000687
0.728292 -0.008292 57
7 3.21 6368 0.77 0.0004125
0.749688 0.020312 77
8 3.26 6340 0.74 0.0005071
0.76252 -0.02252 5
9 3.42 6349 0.90 0.0131528
0.784454 0.115546 8
10 3.42 6352 0.82 0.0013052
0.783872 0.036128 32
11 3.42 6352 0.75 0.0011473
0.783872 -0.033872 12
12 3.45 6364 0.77 0.0002554
0.785984 -0.015984 88
13 3.58 6546 0.78 0.0001016
0.769916 0.010084 87
14 3.66 6672 0.84 0.0068273
0.757312 0.082688 86
15 3.78 6890 0.79 0.0032741
0.73278 0.05722 28
16 3.82 7115 0.79 0.0090155
0.69505 0.09495 02
17 4.07 7234 0.70 0.0000803
0.708964 -0.008964 53
18 3.97 7931 0.68 0.0146540
0.558946 0.121054 70
19 4.70 8097 0.55 0.0071879
0.634782 -0.084782 87
20 4.96 8468 0.63 0.0008243
0.601288 0.028712 78
21 4.58 8717 0.56 0.0040015
0.496742 0.063258 74
22 4.69 8991 0.41 0.0024866
0.459866 -0.049866 17
23 4.71 9179 0.47 0.0019049
0.426354 0.043646 73
24 4.78 9318 0.32 0.0080548
0.409748 -0.089749 83
25 3.72 6352 0.72
0.828272 -0.108277 0.0117239

∑(𝑌 − 𝑌′)2 0.419181924


𝑠𝑦.12…𝑘 = √ =√ = 0.1380352267
𝑛 − (𝑘 + 1) 25 − (2 + 1)

f) Calcular el coeficiente determinación múltiple 𝑹𝟐 .


𝑆𝑆𝑅 0.34213
𝑅2 = = = 0.765
𝑆𝑆𝑇𝑜𝑡𝑎𝑙 0.44722
g) Calcular el coeficiente determinación múltiple 𝑹
𝑟 = √𝑟 2 = √0.765 = 0.87464

h) Haga un análisis residual.


i) Cree un intervalo de confianza y un intervalo de predicción.

Deseamos predecir cuál será mi margen de beneficios, cuando mi


ingreso por dólar es 5.00 y el número de oficinas es 5000.
Nos da como intervalo de confianza (0.9633, 1.6108), por ello De los datos
arrojados por el programa podemos concluir que mi margen de beneficios oscila
entre 0.9633 y 1.6108. Como intervalo de predicción tenemos (0.930,1.6411).
PROBLEMA 3.
El señor Mike Wilde es presidente del sindicato de profesores del distrito
escolar de Otsego, como preparación para las futuras negociaciones, a Mike le
gustaría investigar la estructura de los sueldos del personal docente en el
distrito. Considera que existen tres factores que afectan al salario de un
profesor: los años de experiencia, una calificación de la efectividad en la
enseñanza- asignada por el director – y si tiene o no el grado de maestría. Una
muestra aleatoria de 20 profesores dio como resultado los datos siguientes:
SUELDO(MILES DE AÑOS DE CALIFICACION DEL GRADO DE
DOLARES) EXPERIENCIA DIRECTOR MAESTRIA
Y X1 X2 X3
21.1 8 35 0

23.6 5 43 0

19.3 2 51 1

33.0 15 60 1

28.6 11 73 0

35.0 14 80 1

32.0 9 76 0

26.8 7 54 1

38.6 22 55 1

21.7 3 90 1

15.7 1 30 0

20.6 5 44 0

41.8 23 84 1

36.7 17 76 0

28.4 12 68 1

23.6 14 25 0

31.8 8 90 1

20.7 4 62 0

22.8 2 80 1

32.8 8 72 0

SOLUCIÓN:
 ANÁLISIS DE REGRESIÓN:

Análisis de regresión: Sueldo vs. años exp.. calf. dir..


maestria

La ecuación de regresión es
Sueldo = 9,92 + 0,899 años exp. + 0,154 calf. dir. - 0,67
maestria

Esta ecuación nos indica que por un cambio en una unidad en los años de experiencia, la
variación del sueldo será de 0.899 miles de dólares manteniendo las demás variables
independientes como constantes. De igual modo con la variación en una unidad en la
calificación se producirá una variación en el sueldo de o.154 miles de dólares con las
condiciones anteriores. Por último una variación en el grado de maestría de una unidad
provocará un cambio en -0.67 miles de dólares en el sueldo manteniendo las demás variables
constantes.
Además observamos que con las variables años de experiencia y calificación existe una
relación directa, mientras que con el grado de maestría una relación inversa

Predictor Coef SE Coef T P


Constante 9,915 1,916 5.17 0.000
años exp 0,89938 0.08768 10.26 0.000
calf. dir. 0,15392 0.03144 4.90 0.000
maestria -0,667 1.214 -0.55 0.000

La columna “Coef” nos indica los valores de los coeficientes correspondientes a la ecuación.
La segunda columna nos indica la variabilidad de estos coeficientes pues se trata de una
muestra aleatoria. La tercera columna nos muestra la razón “t” con la que podemos verificar
mediante la prueba “t de student”, o también con el valor p, si es que la hipótesis nula de que
los coeficientes sean iguales a cero se rechaza o no se rechaza en una prueba de dos colas
a un nivel de 0.05 de significancia. Analizando con “el valor p” nos dirigimos en análisis a la
variable maestría. Pues su valor es superior al nivel de significancia por lo que no
rechazaríamos la hipótesis nula de que este coeficiente sea “0”. Es una variable que se puede
eliminar del análisis.
S = 2,38967 R-cuad. = 90,8% R-cuad.(ajustado) =
89,1%

Observando el R_cuadrado, podemos ver que el 89.1% de la variación de la variable


dependiente es explicada por la regresión que estamos trabajando. A rasgos generales es un
buen ajuste de datos. Sin embargo en el análisis previo observamos que es posible eliminar
una de las variables independientes del análisis.

 GRAFICA:

Gráfica de dispersión de Sueldo vs. años exp.


45

40

35
Sueldo

30

25

20

15
0 5 10 15 20 25
años exp.

Observamos una relación directa con los datos bien concentrados hacia una recta con
pendiente positiva entre el sueldo y los años de experiencia.
Observamos que no nos permite visualizar fácilmente si relacionamos el sueldo con el grado
de maestría. Sin embargo en la ecuación nos señaló que hay una relación inversa en la
asociación.

 ANÁLISIS RESIDUALES:

Observamos que los datos están muy dispersos relacionando el sueldo con la calificación del
director. Sin embargo a rasgo general se visualiza una tendencia positiva en la correlación.
 GRAFICA:

Los datos escapan más allá de las 2 desviaciones estándares, pero de modo ligero. Sin
embargo se puede observar que el 95% de los datos al menos está dentro de las 2 desviaciones
por lo que es un ajuste a la recta posiblemente respetable.
 PRUEBA DE HIPÓTESIS:

Análisis de varianza

Fuente GL SC CM F P
Regresión 3 903,19 301,06 52,72 0,000
Error residual 16 91,37 5,71
Total 19 994,56

Fuente GL SC Sec.
años exp. 1 748,63
calf. dir. 1 152,84
maestria 1 1,73

El valor f que observamos por la regresión es superior al valor crítico 3.239 por lo que se puede
rechazar la hipótesis nula de que todos los coeficientes son “0”.

Si analizamos el segundo cuadro vemos que es maestría el que cae dentro de la región de no
rechazo, por lo que es posible que este sea el coeficiente que pueda ser eliminado en el
análisis.
JI CUADRADO: INDEPENDENCIA

PROBLEMA 4.

Se realizó una encuesta por parte de una sucursal, situada en Canadá, de una
cadena de que opera a nivel nacional oficinas de corretaje inmobiliario, con el
propósito de conseguir un perfil de las casas de una sola familia en algunas
comunidades vecinas. Se desea saber si existe una alguna relación entre el
estilo arquitectónico y la localización geográfica. Utilizando los archivos de un
Censo canadiense, se selecciona una muestra de 233 casas de una sola
familia y se obtiene un registro de una dirección para cada combinación de
estilo arquitectónico y localización geográfica. La tabla de contingencia de 5x3
se presenta a continuación:

SOLUCIÓN

Estilo Localización Geográfica


East Farmingdale Lewittown Totales
Meadow
Casa de campo 31 14 52 97
Rancho 2 1 12 15
ampliado
Colonial 6 8 9 23
Rancho 16 20 24 60
Niveles 19 17 2 38
divididos
Total 74 60 99 233

Se seguirá el mismo procedimiento sistemático de cinco pasos para prueba de


hipótesis, seguido en los capítulos anteriores.
Se establece las hipótesis nula y alternativa.

𝑯𝟎 : No existe relación entre el estilo arquitectónico y la localización geográfica.

𝑯𝟏 : Existe relación entre el estilo arquitectónico y la localización geográfica.

Se establece el nivel de significancia:

𝛼 = 0.05

Se escoje el estadístico de prueba. El estadístico de prueba es la


distribución chi cuadrada, que se denota por 𝑋 2 .

Se formula la regla de decisión.

Hallamos los grados de libertad: (𝑟 − 1)𝑥(𝑐 − 1) = (5 − 1)𝑥(3 − 1) = 8

𝑋 2 (0.05,8) = 15.507.

Así que la regla de decisión dice que: Se rechaza la 𝑯𝟎 , si el valor estadístico


es mayor a 15.507.

Paso 5: Calculamos estadístico de prueba, Resultados, toma de decisión.

Calculamos el estadístico de prueba chi-cuadrada.

𝒇𝟎 𝒇𝒆 𝒇𝟎 − 𝒇𝒆 (𝒇𝟎 − 𝒇𝒆 )𝟐 (𝒇𝟎 − 𝒇𝒆 )𝟐 /𝒇𝒆


31 30.8 +0.2 0.04 0.00013
14 25 -11 121 4.84
52 41.2 +10.8 116.64 2.8311
2 4.8 -2.8 7.84 1.6333
1 3.9 -2.9 8.41 2.1564
12 6.4 +5.6 31.36 4.9
6 7.3 -1.3 1.69 2.3151
8 5.9 +2.1 4.41 0.7475
9 9.8 -0.8 0.64 0.0653
16 19.1 -3.1 9.61 0.5031
20 15.5 +4.5 20.25 1.3065
24 25.5 -1.5 2.25 0.0882
19 12.1 +6.9 47.61 3.9347
17 9.8 +7.2 51.84 5.2898
2 16.1 -14.1 198.81 12.3484
-- -- -- -- 40.975

Vemos que el valor estadístico X2 = 40.975, es mayor que el valor crítico X2


(0.05,8) = 15.507, por lo tanto se rechaza la hipótesis nula.
(Resulta: 40.975 > 15.507)
Es decir, sí existe relación entre el estilo arquitectónico y la localización
geográfica.

DESARROLLO CON EL PAQUETE MINITAB:


CONCLUSION:
Se observa que el valor estadístico X2 = 40.975, es mayor que el valor
crítico 15.507, por lo tanto se rechaza la hipótesis nula.
Por lo tanto se tomara en cuenta la ubicación geográfica para la construcción
de edificios y su estilo arquitectónico.
PROBLEMA 2.

Pruebe la hipótesis de que la distribución de frecuencia de las duraciones de baterías dadas en


la siguiente tabla, se puede aproximar mediante una distribución normal con media µ = 3.5 y
desviación estándar σ=0.7. Utilice un α= 0.05.

Límites de clase Frecuencias


observadas
1.45-1.95 2
1.95-2.45 1
2.45-2.95 4
2.95-3.45 15
3.45-3.95 10
3.95-4.45 5
4.45-4.95 3

Solución

1) Se formulan las hipótesis:


Ho: La frecuencia de las duraciones de baterías dadas tiene un comportamiento normal.
H1: La frecuencia de las duraciones de baterías dadas no tiene un comportamiento
normal.
2) Obtención de los parámetros:

Li Ls zi zs P(Z<=zi) P(Z<=zs) P(Z<=zs)-P(Z<=zi) fe fe`


1.45 1.95 - - 0.002 0.013 0.012 0.468 2.604
2.929 2.214
1.95 2.45 - - 0.013 0.067 0.053 2.136
2.214 1.500
2.45 2.95 - - 0.067 0.216 0.149 5.968
1.500 0.786
2.95 3.45 - - 0.216 0.472 0.256 10.220
0.786 0.071
3.45 3.95 - 0.643 0.472 0.740 0.268 10.733
0.071
3.95 4.45 0.643 1.357 0.740 0.913 0.173 6.912
4.45 4.96 1.357 2.086 0.913 0.981 0.069 2.755
39.192

fo fe` Chi 2
3 2.604 0.060
4 5.968 0.649
15 10.22 2.236
10 10.733 0.050
5 6.912 0.529
3 2.755 0.022
40 39.192 3.546
3) Calculamos el Chi2 crítico:

Chi2(6-1-1; 0.05) critico= 9.49


Chi2critico=9.49

4) Conclusión:

Como el estadístico Chi2=3.546 es menor al Chi critico=9.49 NO se rechaza la Ho. Por lo


tanto, NO se puede afirmar con un nivel de significancia del 5% que la frecuencia de las
duraciones de baterías dadas no tiene un comportamiento normal.
MÉTODOS NO PARAMÉTRICOS

PRUEBA DE SIGNO

PROBLEMA 1 (Prueba de signo para muestra grande)

La empresa Nielson Media Research identifico a American Idol y a Dancing with


the Stars como los dos programas de televisión de mayor rating en febrero de 2006.
En un estudio local acerca del programa de televisión preferido, de 750
encuentados 330 votaron por American Idol, 270 por Dancing with the Stars y 150
por otro programa de televisión. Con 0.05 como nivel de significancia pruebe la
hipótesis de que American Idol y a Dancing with the Stars tiene el mismo nivel de
preferencia. ¿A qué conclusión llega?
Estadística para Administración y Economía 10ª Edición
(Anderson – Sweeney – Williams). Página 819. Problema 5

0,

0,

0,

0,
0,0 0,0
0, - 1,9
Interpretación: American Idol y a Dancing with the Stars no tienen el mismo

nivel de preferencia.

PROBLEMA 2 (Prueba de signo para mediana)

El año pasado, en una determinada ciudad, la mediana del número de empleados


de tiempo parcial en un restaurante de comida rápida era 15. Es posible que esta
cantidad esté aumentando. En una muestra de nueve restaurantes de comida rápida
se encontró que en siete de ellos trabajaban más de 15 empleados de tiempo
parcial, en uno había exactamente 15 empleados que trabajaban de tiempo parcial
y en otro más había menos de 15 empleados que trabajaban de tiempo parcial.
Realice una prueba con α=0.05 para determinar si el número mediano de
empleados que trabaja de tiempo parcial ha aumentado.

Estadística para Administración y Economía 10ª Edición (Anderson – Sweeney – Williams). Página
820. Problema 9

Gráfica de distribución
Normal; Media=0; Desv.Est.=1
0,4

0,3

0,2

0,1

0,05
0,0
1,645
Conclusión: El número mediano de empleados que trabaja de tiempo parcial ha
aumentado.

KRUSKALL WALLIS
PROBLEMA 1
La revista Conde Nast Traveler realiza cada año un estudio para evaluar los 80
principales barcos cruceros del mundo (Conde Nast Traveler, febrero de 2006).

A continuación se dan las evaluaciones dadas a los cruceros de una muestra de las
líneas Holland America, Princess y Royal Caribbean; la evaluación máxima es
100. Use la prueba de Kruskal-Wallis con α= 0.05 para determinar si hay
diferencia significativa en las evaluaciones de los barcos de las tres líneas.

Holland America Princess Royal Caribbean


Embarcación Evaluación Embarcación Evaluación Embarcación Evaluación
Amsterdam 84,50 Coral 85,10 Adventure 84,80
Maasdam 81,40 Dawn 79,00 Jewel 81,80
Ooterdam 84,00 Island 83,90 Mariner 84,00
Volendam 78,50 Pricess 81,10 Navigator 85,90
Westerdam 80,90 Star 83,70 Serenade 87,40

Estadística para Administración y Economía 10ª Edición (Anderson – Sweeney – Williams).


Página 836. Problema 29

1. 𝐻0 : Son iguales las distribuciones de las evaluaciones de los barcos de las


tres líneas.

𝐻𝑎 : No todas iguales las distribuciones de las evaluaciones de los barcos


de las tres líneas son iguales.
Gráfica de distribución

Chi-cuadrada; df=2

0,5

0,4

0,3

0,05
0,0
0 5,991
X

5.

Holland America Princess Royal Caribbean


84,50 11 85,10 13 84,80 12
81,40 5 79,00 2 81,80 6
84,00 9,5 83,90 8 84,00 9,5
78,50 1 81,10 4 85,90 14
80,90 3 83,70 7 87,40 15
29,5 34 56,5

Conclusión: No existe diferencia en las evaluaciones de los barcos de las tres


líneas.
PROBLEMA 2
Los siguientes datos muéstrales se obtuvieron de tres poblaciones que no eran
necesariamente normales.

MUESTRA 1 MUESTRA 2 MUESTRA 3


50 48 39
54 49 41
59 49 44
59 52 47
65 56 51
57

¿Cuál es la decisión acerca de los datos? Utilice α=0.05.

Pasos:
1. 𝐻0 : Son iguales las distribuciones de las tres muestras.
𝐻𝑎 : No son iguales todas las distribuciones de las tres muestras.

2. 𝛼 = 0.05
3. 𝐾𝑟𝑢𝑠𝑘𝑎𝑙 𝑊𝑎𝑙𝑙𝑖𝑠; 𝑋 2
MUESTRA 1 MUESTRA 2 MUESTRA 3
Datos Lugar Datos Lugar Datos Lugar
50 8 48 5 39 1
54 11 49 6.5 41 2
59 14.5 49 6.5 44 3
59 14.5 52 10 47 4
65 16 56 12 51 9
57 13
∑ 𝑹𝟏 64 ∑ 𝑅2 53 ∑ 𝑅3 19

4. Cálculo
12 ∑ 𝑟1 2 ∑ 𝑟2 2 ∑ 𝑟3 2
𝐻= [ + + ] − 3(𝑛 + 1)
𝑛(𝑛 + 1) 𝑛1 𝑛2 𝑛3

𝟏𝟐 𝟔𝟒𝟐 𝟓𝟑𝟐 𝟏𝟗𝟐


𝑯= [ + + ] − 𝟑(𝟏𝟔 + 𝟏)
𝟏𝟔(𝟏𝟔 + 𝟏) 𝟓 𝟔 𝟓

𝑯 = 𝟖. 𝟗𝟖

Conclusión: Hk pertenece a la R.C. acepto la Ha. Se rechaza la hipótesis nula y se acepta


la Hipótesis alternativa, No son iguales las distribuciones de las tres muestras.
PRUEBA DE RANGO CON SIGNO DE WILCOXON

PROBLEMA 1
Con objeto de determinar su efecto en el rendimiento de la gasolina en millas por
galón en los automóviles de pasajeros, se prueban dos aditivos para gasolina.
Acontinuación aparecen los resultados de esta prueba en 12 automóviles; en cada
automóvil se probaron los dos aditivos. Use α = 0.05 y la prueba de los rangos
con signo de Wilcoxon para determinar si existe una diferencia significativa
entre estos dos aditivos.
Estadística para Administración y Economía 13ª Edición (Anderson – Sweeney – Williams).
Pagina 825. Problema 12

Aditivo Aditivo
Automóvil 1 2 Automóvil 1 2
1 20.12 18.05 7 16.16 17.20
2 23.56 21.77 8 18.55 14.98
3 22.03 22.57 9 21.87 20.03
4 19.15 17.06 10 24.23 21.15
5 21.23 21.22 11 23.21 22.78
6 24.77 23.80 12 25.02 23.70

Paso 1: Establecer la hipótesis nula y hipótesis alternativa.

H0 : el rendimiento de la gasolina en millas por galon usando el aditivo 1 es igual


a el rendimiento de la gasolina en millas por galon usando el aditivo 2.
Ha : el rendimiento de la gasolina en millas por galon usando el aditivo 1 es
diferente al rendimiento de la gasolina en millas por galon usando el aditivo 2.

Paso 2: Seleccionar el nivel de significancia.

α =0.05

Paso 3: Seleccionar el estadístico de T.


Paso 4: Formular la regla de decisión.

Gráfica de distribución

Normal, Media=0, Desv.Est.=1


0.4

0.3

0.2

0.0
-1.960 1.960
Paso 5:
Automóvil Aditivo diferencia Valor lugar Rango
1 2 absoluto con signo
1 20.12 18.05 2.07 2.07 9 9
2 23.56 21.77 1.79 1.79 7 7
3 22.03 22.57 -0.54 0.54 3 -3
4 19.15 17.06 2.09 2.09 10 10
5 21.23 21.22 0.01 0.01 1 1
6 24.77 23.80 0.97 0.97 4 4
7 16.16 17.20 - 1.04 1.04 5 -5
8 18.55 14.98 3.57 3.57 12 12
9 21.87 20.03 1.84 1.84 8 8
10 24.23 21.15 3.08 3.08 11 11
11 23.21 22.78 0.43 0.43 2 2
12 25.02 23.70 1.32 1.32 6 6

Suma de rangos con signo

T = 9+7-3+10+1+4-5+12+8+11+2+6
T = 62

µT = 0

𝞼T = 25.495

Z= 2.4318

CONCLUSIÓN: Como Z pertenece a región crítica entonces se rechaza la


hipótesis nula y se acepta la hipótesis alternativa.

El rendimiento de la gasolina en millas por galón usando el aditivo 1 es diferente


al rendimiento de la gasolina en millas por galón usando el aditivo.
2. MINITAB
PROBLEMA 2
El PGA Players Championship se llevó a cabo en el Sedgefield Country Club en
Greensboro, California del Norte, del 11 al 17 de agosto de 2008. Aquí se
muestran los resultados de la primera (1st Round) y segunda (2nd Round) rondas
de una muestra aleatoria de 11 golfistas (Golfer). Utilice un nivel de significancia
de 0.05 para determinar si los promedios medianos de los golfistas para la
primera y segunda rondas en el Players Championship difirieron de forma
significativa. ¿Cuál es su conclusión?

Pasos:
Planteamos nuestra hipótesis:
𝐻0 : 𝐿𝑜𝑠 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜𝑠 𝑚𝑒𝑑𝑖𝑎𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑜𝑙𝑓𝑖𝑠𝑡𝑎𝑠 𝑛𝑜 𝑠𝑜𝑛 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎𝑠
𝐻1 : 𝐿𝑜𝑠 𝑝𝑟𝑜𝑚𝑒𝑑𝑖𝑜𝑠 𝑚𝑒𝑑𝑖𝑎𝑛𝑜 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑜𝑙𝑓𝑖𝑠𝑡𝑎𝑠 𝑠𝑜𝑛 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎𝑠
Nivel de Significancia = 0.05

Hallamos nuestro estadístico de prueba de Wilcoxon. Establecemos las


diferencias.
Usamos MINITAB para hallar nuestro estadístico

Prueba de clasificación con signos de Wilcoxon: DIFERENCIA


Prueba de la mediana = 0.000000 vs. la mediana no = 0.00000

Número

de Estadística Mediana

N prueba de Wilcoxon P estimada

DIFERENCIA 11 10 12.5 0.139 -1.500

Conclusión:
Observamos que el valor 0.139 es mayor que 0.05. No se la hipótesis nula.
Concluimos que los promedios medianos de los golfistas son significativos.
PRUEBA DE MAN WHITNEY WILCOXON

PROBLEMA 1(muestra pequeña N ≤ 10)

A continuación se presentan los datos muestrales de los salarios iniciales de


contadores públicos y planificadores financieros. Los salarios anuales están
dados en miles de dólares.

Contador Planificador Contador Planificador


Público financiero Público financiero
45.2 44 50 48.6
53.8 44.2 45.9 44.7
51.3 48.1 54.5 48.9
53.2 50.9 52 46.8
49.2 46.9 46.9 43.9

Use α = 0.05 como nivel de significancia y pruebe la hipótesis de que no hay


diferencia entre los salarios anuales iniciales de los contadores públicos y de los
planificadores financieros.
Estadística para Administración y Economía 13ª Edición (Anderson – Sweeney – Williams)
Pagina 825. Problema 19

Paso 1: Establecer la hipótesis nula y hipótesis alternativa.

H0 : los salarios iniciales de contadores públicos identico al salario de los


planificadores financieros

Ha : los salarios iniciales de contadores públicos es diferente al salario de los


planificadores financieros

Paso 2: Seleccionar el nivel de significancia.

α =0.05
Paso 3: Seleccionar el estadístico MAN WHITNEY-WILCOXON.

Paso 4: Fornular la regla de desición.


TL = (0.05,10,10)

TL = 79 TU = n1(n1+n2+1)- TL

TU = 10(10+10+1)-79
TU= 131

La región de aceptación esta entre (79 y 131)


Paso 5:
Contad Rango Planificador Rango
or financiero
Público
45.2 5 44 1
53.8 19 44.2 3
51.3 16 48.1 10
53.2 18 50.9 15
49.2 13 46.9 8.5
50 14 48.6 11
45.9 6 44.7 4
54.5 20 48.9 12
52 17 46.8 7
46.9 8.5 43.9 2

Suma de rangos Contador Público T= 136.5

Suma de rangos Planificador financiero T = 73.5

136.5 y 73.5 caen en región crítica

Conclusión

Se rechaza la hipótesis nula y se acepta la Hipótesis alternativa, los salarios


iniciales de contadores públicos es diferente al salario de los planificadores
financieros
MINITAB
PROBLEMA 2 (muestra grande N >=10)
Cada año, en diciembre, NRF/BIG Research realiza un estudio sobre el
gasto que hacen las personas en las vacaciones de invierno. A
continuación se presentan los datos muestrales sobre el gasto en las
vacaciones de invierno de 2004 y 2005
( USA Today, 20 de diciembre de 2005)

2004 623 687 748 638 713 645 726 700 794 662 814 674
2005 752 582 781 805 723 728 674 766 908 737 796 724

Use α = 0.05 y realice una prueba para determinar si en 2005 hubo un


incremento en comparación con 2004 ¿Cuál es su conclusión?
Estadística para Administración y Economía 13ª Edición (Anderson – Sweeney –
Williams). Pagina 825. Problema 21

Paso 1: Establecer la hipótesis nula y hipótesis alternativa.

H0 : El gasto que hacen las personas en la vacaciones de invierno en el


2004 es idéntico a el gasto que hacen las personas en la vacaciones de
invierno en el 2005

Ha : El gasto que hacen las personas en la vacaciones de invierno en el


2004 no es idéntico a el gasto que hacen las personas en la vacaciones
de invierno en el 2005

Paso 2: Seleccionar el nivel de significancia.

α =0.05
Paso 3: Seleccionar el estadístico MAN WHITNEY-WILCOXON.

Paso 4: Formular la regla de decisión.

Gráfica de distribución

0.4
Paso 5:
2004 Rango 2005 Rango
623 2 752 17
687 8 582 1
748 16 781 19
638 3 805 22
713 10 723 11
645 4 728 14
726 13 674 6.5
700 9 766 18
794 20 908 24
662 5 737 15
814 23 796 21
674 6.5 724 12

∑R1 = 119.5

∑R2 = 180.5

µT = 150

𝞼T = 17.32

Z = -1.76
Conclusión

Como Z pertenece a región de aceptación, se rechaza la hipótesis alternativa y


se acepta la Hipótesis nula

El gasto que hacen las personas en las vacaciones de invierno en el 2004 es


idéntico al gasto que hacen las personas en las vacaciones de invierno en el
2005.

MINITAB
PRUEBA DE COEFICIENTE DE CORRELACIÓN DE SPEARMAN

PROBLEMA 1
Un estudio nacional de Harris Interactive, Evaluó las empresa de alta tecnología
y su reputación. La tabla siguiente muestra cómo se clasifica la reputación de
las 10 empresas de alta tecnóloga y como se la clasifica en el porcentaje de
encuestados que dijeron compartir acciones de la empresa .Se prevé una
correlación positiva, ya que parezca razonable esperara que una empresa con
una reputación más grande, tenga las acciones más cotizadas o las acciones más
grandes.

Estadística para Administración y Economía 11ª Edición (Anderson – Sweeney –


Williams). Página 819. Problema 35

STOCK
COMPANY REPUTATION PURCHASE
Microsoff 1 3
Intel 2 4
Dell 3 1
Lucent 4 2
Texas Ins. 5 9
Cisco Systems 6 5
Hewlett-Packard 7 10
IBM 8 6
Motorola 9 7
Yahoo 10 8

SOLUCION:
STOCK
COMPANY REPUTATION PURCHASE
Microsoff 1 3 -2 4
Intel 2 4 -2 4
Dell 3 1 2 4
Lucent 4 2 2 4
Texas Ins. 5 9 4 16
Cisco Systems 6 5 1 1
Hewlett-Packard 7 10 -3 9
IBM 8 6 2 4
Motorola 9 7 2 4
Yahoo 10 8 2 4
8 54
1. Formular las hipótesis:

2. Nivel de significancia

3. Estadístico: z

4. Formular regla de decisión

5. Calculando estadístico.
Interpretación: Con un nivel de confianza de 95 % podemos afirmar que la
correlación de rangos en la población es mayor que 0.
PROBLEMA 2

Nuevos representantes comerciales de la empresa John Ford Metal & Wheel


Co., asisten a un programa de capacitación antes de ser asignados a una
oficina regional. Al término de uno de estos programas, cada representante
fue clasificado con respecto a su futura potencialidad en ventas. Al final del
primer año en ventas, sus clasificaciones se compararon con sus ventas
anuales:
El dilema estadístico consiste en determinar si habrá concordancia entre la
calificación en el programa de capacitación y la basada en el desempeño real
como vendedor durante el primer año. Al nivel de significancia 0.05 ¿la
correlación de rangos en la población es mayor que 0?
Estadística para Administración y Economía 10ª Edición (Anderson – Sweeney –

Williams). Página 819. Problema 42

Calificación en el
Ventas Anuales
Representante programa de
(miles US$)
capacitación
Kitchen 319 3
Bond 150 9
Gross 175 6
Arbuckle 460 1
Greene 348 4
Arden 300 10
Crane 280 5
Arthur 200 2
Keene 190 7
Knopf 300 8

SOLUCIÓN
Lugar
Ventas
Calificación en según
Anuales
Representante el programa de ventas en di di2
(miles
capacitación el primer
US$)
año
Kitchen 3 319 3 0 0
Bond 9 150 10 -1 1
Gross 6 175 9 -3 9
Arbuckle 1 460 1 0 0
Greene 4 348 2 2 4
Arden 10 300 4.5 5.5 30.25
Crane 5 280 6 -1 1
Arthur 2 200 7 -5 25
Keene 7 190 8 -1 1
Knopf 8 300 4.5 3.5 12.25
∑ 83.5
1) Formular las hipótesis:

2) Nivel de significancia

3) Estadístico: Z

4) Formular regla de decisión

5) Calculo del estadístico


Interpretación: Con un nivel de confianza de 95 % podemos afirmar que la correlación
de rangos en la población no es mayor que 0.

Вам также может понравиться