Вы находитесь на странице: 1из 31

Universidad de los Andes

Departamento de Ingeniería Industrial


Probabilidad y Estadística I (IIND2106)
Profesores: Astrid Bernal, Fabio A. Lagos, y María Alejandra López.
Periodo Intersemestral 2016

Tarea 3

Normas para la presentación de la Tarea

• La tarea puede realizarse en parejas de cualquier sección.

• La presente tarea debe ser realizada en computador. Deben tener en cuenta que la
presentación del informe puede influir en la calificación final.

• El informe debe ser presentado en hojas blancas, numeradas, impresión por ambos lados y
en la parte superior de cada hoja se debe especificar el nombre y código de cada estudiante.

• La primera hoja de su tarea debe contener el formato que se presenta en la siguiente página.

• Es responsabilidad de los integrantes del grupo verificar el contenido de la tarea antes de la


entrega. Luego de entregado el documento, no se recibirán adiciones por motivos de
problemas de impresión en fórmulas o ecuaciones, entre otros.

• Debe respetar el horario y el lugar de entrega de las tareas. Las tareas entregadas
después del plazo establecido no serán recibidas y su calificación será de cero (0).

• Por ningún motivo la tarea será recibida por correo electrónico.

• Las tareas que incumplan alguna de las normas de formato tendrán una penalización de
cero punto cinco (0.5) sobre la nota final de la tarea.

• Cualquier sospecha de fraude será tratada de acuerdo con el reglamento de la Universidad.


1
• Si usted encuentra algún GAZAPO en la solución correspondiente a esta tarea por favor
comuníquelo a equipopye@uniandes.edu.co. Si su observación es válida, se verá
recompensado con un incremento del 5% en la nota de la tarea.

Forma de entrega

• El informe de la tarea debe ser entregado en los casilleros de Ingeniería Industrial, en el


séptimo piso del ML, antes de la fecha límite de entrega. El casillero será habilitado el día
anterior a la entrega de la tarea.

• Adicionalmente, el informe de la tarea y los archivos de soporte deberán ser colgados en el


link habilitado en Sicua Plus, antes de la fecha límite de entrega.

Fecha de entrega

La fecha límite de entrega es el viernes 22 de julio de 2016, antes de las 2:00 p.m.


1
Yerro que por inadvertencia deja escapar quien escribe o habla. (Definición según La Real Academia de la Lengua Española)
Integrante 1: Código: Sección:
Integrante 2: Código: Sección:

Numeral Puntos Numeral Puntos


a. /4 a. /3
b. /4 b. /3
1
c. /2 6 c. /3
d. /4 d. /4
a. /2 e. /4
2 b. /2 a. /2
c. /2 b. /4
3 a. /6 7 c. /2
a. /2 d. /2
b. /3 e. /3
4
c. /3 a. /1
d. /3 b. /4
a. /2 8 c. /5
5 b. /2 d. /3
c. /2 e. /5

TOTAL /91

NOTA /5
Punto 1.

Un grupo de inversionistas extranjeros está evaluando la posibilidad de invertir parte de su capital


en activos que se transan en la Bolsa de Valores de Colombia (BVC). Con el fin de conocer un poco
más sobre las diferentes opciones de inversión, se obtuvo información de las acciones de 35
empresas que transan actualmente en bolsa, la cual se encuentra disponible en el archivo de Excel
“InformaciónEmpresas.xls”.

A continuación se muestra una breve descripción de las variables que fueron recolectadas para cada
una de las empresas:

• Precio: corresponde al precio histórico promedio de la acción, en pesos colombianos, de


cada compañía registrado entre los años 2010 y 2014.
• Sector: corresponde al sector empresarial en el que se desempeña la compañía.
• Dividendo: corresponde al valor total en pesos colombianos del dividendo que un
accionista espera recibir durante el año 2016.
• Merco: corresponde a la posición que obtuvo la compañía en la encuesta Merco Empresas
2014, donde se listan las mejores 100 empresas para trabajar en Colombia (aquellas
empresas que tienen un “-”, son empresas que no están en dicho listado de 100 empresas).

De acuerdo con la información presentada en el archivo, de solución a los siguientes literales:

a. (4 puntos) Construya un histograma de frecuencias de las 35 empresas de acuerdo con el


sector al que pertenece cada una. Muestre la tabla de frecuencias y la gráfica del histograma.
¿Cuáles son los 3 sectores de mayor frecuencia? ¿Qué porcentaje de la muestra es
representado por las empresas que pertenecen a ese sector?
¿Cuáles son los sectores de menor frecuencia? ¿Qué porcentaje de la muestra es
representado por las empresas que pertenecen a estos sectores?

Para construir un histograma de frecuencias mediante la herramienta “Análisis de Datos” de


Microsoft Excel, se le asigna un valor numérico a cada sector, ej. Aeronáutico = 1, de manera que
se crea una nueva columna con estos valores. Por otro lado, se crea una columna de clases, las
cuales irían de 1 a 13, de esta manera se crea un histograma utilizando la herramienta “Análisis
de Datos”. La tabla de frecuencias obtenida, ordenada de mayor a menor, es la siguiente:

Clases Frecuencia
Financiero 8
Energético 6
Petrolero 5
Cemento 3
Inversiones 3
Construcción 2
Empaques 2
Aeronáutico 1
Alimentación 1
Comercio 1
Comunicación 1
Minero 1
Textil 1
Empresas por Sector
9
8
Frecuencia 7
6
5
4
3
2
1
0

De acuerdo con el histograma obtenido, los tres sectores con mayor frecuencia en la muestra de
empresas que transan en la Bolsa de Valores de Colombia son: financiero, energético y petrolero.
Estos tres sectores comprenden 19 empresas de las 35 evaluadas en la muestra. Esto
corresponde a un porcentaje aproximado de participación del 54.3%. Por otra parte, los sectores
con menor frecuencia son el aeronáutico, alimentación, comercio, comunicación, minero y textil.
Estos sectores representan 6 empresas de las 35 de la muestra, lo que corresponde a un
porcentaje aproximado de 17.1%.

b. (4 puntos) Construya un diagrama de caja que represente la distribución del precio promedio
de la acción de las 35 empresas de la muestra. Comente sobre todos los elementos que
representa el diagrama de caja.

Opción 1:

Se realiza el diagrama de caja utilizando en software SPSS:


Opción 2:

Se realiza el diagrama de caja utilizando Microsoft Excel:

70,000

60,000

50,000

40,000

30,000

20,000

10,000

-
19/07/16
Q1 MIN MAX Q3



El diagrama de caja muestra los valores mínimo y máximo de la muestra, además de los cuartiles
25, 50, 75 y lo que se podrían considerar como datos atípicos. En este caso, se puede observar
que el rango de la muestra de precios es bastante amplio. Desde empresas con precios bastante
bajos, como Acerías Paz del Río y Fabricato ($7.5 y $14.3 respectivamente), hasta empresas con
precios altos como PREC y Corficol ($38,580 y $38,200 respectivamente). Esto se representa en
los bigotes del gráfico. Por otra parte, el gráfico muestra que, el 75% de los precios están por
debajo de los $25,000, el 50% por debajo de los $5,000 pesos y finalmente el 25% por debajo de
los $1,500. Esto ayuda a entender que, a pesar del rango tan amplio de precios, la mitad de estas
empresas tienen un precio menor a los $4,550 pesos. Finalmente, el gráfico también identifica
un dato atípico, representado por la observación 24. Este dato de precio corresponde al Banco
de Bogotá, cuyo precio según la muestra es de $59,880, el cual está muy por encima de los precios
de las otras empresas.

c. (2 puntos) Los inversionistas están interesados en conocer cuáles son los tres sectores que
prometen, en promedio, mayores dividendos. Para ello construya y presente una tabla
dinámica que le permita comparar cada sector en términos de sus dividendos promedio.

A continuación se presenta la tabla dinámica que relaciona el promedio de dividendos por sector.

Sector Promedio de Dividendo


Aeronáutico 50,00
Alimentación 396,00
Cemento 123,73
Comercio 531,00
Comunicación 19,00
Construcción 24,87
Empaques 229,43
Energético 138,44
Financiero 326,93
Inversiones 289,38
Minero 170,00
Petrolero 165,11
Textil 45,00
Total general 206,59

Los sectores que prometen mayores dividendos en promedio son: el sector comercial, el
alimenticio y el financiero.

d. (4 puntos) Presente la tabla de percentiles del precio promedio de las acciones de las 35
empresas.

A continuación se presenta la tala de percentiles generada con la ayuda del complemento


“Análisis de Datos” de Microsoft Excel:

Posición Precio Jerarquía Porcentaje


24 59880 1 100,00%
30 38580 2 97,00%
18 38200 3 94,10%
21 38000 4 91,10%
26 36200 5 88,20%
32 35780 6 85,20%
22 25300 7 82,30%
20 24280 8 79,40%
2 21040 9 76,40%
6 14400 10 73,50%
3 11480 11 70,50%
5 9500 12 67,60%
27 9170 13 64,70%
14 9000 14 61,70%
31 7220 15 58,80%
15 7080 16 55,80%
34 7000 17 52,90%
11 4550 18 50,00%
1 4340 19 47,00%
16 3350 20 44,10%
17 3035 21 41,10%
12 2600 22 38,20%
29 1955 23 35,20%
13 1720 24 32,30%
10 1600 25 29,40%
8 1480 26 26,40%
33 1460 27 23,50%
23 1400 28 20,50%
9 1220 29 17,60%
25 1190 30 14,70%
7 600 31 11,70%
19 505 32 8,80%
28 469 33 5,80%
35 14,3 34 2,90%
4 7,5 35 0,00%
i. ¿A qué compañía pertenece el percentil 50?

El percentil 50 pertenece a la observación 11, es decir a la empresa Cartón de Colombia.

ii. ¿Cuál es el precio de la acción y los dividendos asociados con esta compañía?

El precio de la acción es de $4,550 con dividendos de $323.65.



Punto 2.

Con el propósito de establecer su próxima campaña publicitaria, el área de mercadeo de cierta


compañía requiere analizar algunas características demográficas de la población objetivo para la
cual están diseñados los productos que venden. Uno de los factores de interés para la compañía es
el tiempo promedio durante el cual sus clientes han sido fieles a la marca. Para realizar el análisis
estadístico sobre este factor, se toma una muestra aleatoria de tamaño n de la VA Y; se sabe que la
2
población de la cual se toma esta muestra aleatoria tiene media µ y varianza σ . La persona
encargada de realizar el análisis propone que se utilicen los siguientes estimadores de µ:

yg + yi
µg =
2

µi = Y

Para determinar cuál es el estimador que se debe utilizar, entre los dos anteriores, la persona
encargada propone que se realicen los siguientes análisis sobre los estimadores.

a. (2 puntos) Para cada estimador, determine si es sesgado.



El sesgo de un estimador se calcula como la diferencia entre el valor esperado del estimador
menos el parámetro estimado:

Sesgo de µjg
1 1
Sesgo(µjg ) = E(µjg ) − µ = E l (yg + yi )m − µ = nE(yg ) + E(yi)o − µ
2 2

Según el enunciado, yg, yi pertenecen a la misma muestra de la VA Y, la cual tiene media µ, por
lo tanto:

1 2µ
Sesgo(µjg ) = nE(yg ) + E(yi )o − µ = − µ = 0
2 2

Dado que el Sesgo es igual a 0, el estimador µjg es insesgado.


Sesgo de µji
s s
∑srtg Yr 1 1 nµ
p
Sesgo(µji ) = E(µji ) − µ = E(Y) − µ = E l m = u E(Yr ) = u µ = − µ = 0
n n n n
rtg rtg

El estimador µji es insesgado.

Los estimadores µjg y µji son insesgados con respecto a la media.

b. (2 puntos) Para cada estimador, determine si es consistente.



Un estimador es consistente si:

lim E(µj) = µ y lim Var(µj) = 0
s→x s→x



En primer lugar se calcula la varianza de los estimadores, se tienen en cuenta las propiedades de
la varianza y que yg , yi pertenecen a la misma muestra de la VA Y, la cual tiene varianza de σi .
Los valores esperados, por su parte, se calcularon en el literal anterior:

1 1 1 1
Var(µjg ) = Var l (yg + yi)m = nVar(yg) + Var(yi )o = (σi + σi ) = σi
2 4 4 2

s s
∑srtg Yr 1 1 σi
) p)
Var(µji = Var(Y = Var l m = i u Var(Yr ) = i u σi =
n n n n
rtg rtg

En segundo lugar, se comprueban las dos condiciones de consistencia:

lim E(µjg ) = lim µ = µ
s→x s→x

1 i 1 i
lim Var(µjg ) = lim σ = σ
s→x s→x 2 2

El estimador µjg no es consistente, dado que no cumple con la segunda condición, la cual
especifica que: cuando el tamaño de la muestra tiende a infinito la varianza es 0, en este caso, la
g
varianza no depende de n, por lo tanto seguirá siendo σi a medida que el tamaño muestral
i
aumente, esto lo hace inconsistente.

lim E(µji ) = lim µ = µ
s→x s→x

σi
lim Var(µji ) = lim = 0
s→x s→x n

El estimador µji es consistente, es decir, a medida que el tamaño de la muestra de clientes crece,
el valor de este estimador tiende a ser el valor del parámetro, en este caso la media, puesto que
su varianza tiende a ser 0.

c. (2 puntos) Determine cuál de los dos estimadores es el más eficiente.

Para determinar cuál estimador es el más eficiente se comparar sus varianzas, aquel que tenga
menor varianza será el más eficiente:

σi 1 i
< σ para n mayores a 2.
n 2
1 i σi
σ < para n menores a 2.
2 n

Para tamaños muestrales mayores a 2, el estimador µji tiene menor varianza, es decir, es más
eficiente que el estimador µjg , en el caso en donde el tamaño de la muestra sea menor a 2, se
considera que el estimador µjg tiene menor varianza, por lo tanto será más eficiente.
Punto 3.

La variable aleatoria X se distribuye normal con parámetros µ y σi , y con la siguiente función de


densidad de probabilidad:

1 ~
g •~€ ‚
f x; µ, σi = e i • −∞<x<∞
σ 2π

a. (6 puntos) Utilizando el método de máxima verosimilitud, encuentre un estimador para la


media µ y para la varianza σi .

1. Se plantea la función de verosimilitud:



s s
1 g • ~€ ‚
~ ‡ ˆ ‰ 1 g
~ ‚ ∑(•ˆ ~€)

L(xg , xi , … , xs ; µ, σi ) = … e i • =Š ‹ e i•
rtg
σ√2π σ√2π

2. Se halla el logaritmo natural de la función de verosimilitud:

s
n 1
ln[L(xg , xi , … , xs ; µ, σi )] = −n ln(σ) − ln(2π) − i u(xr − µ)i
2 2σ
rtg

3. Se deriva el resultado anterior respecto al parámetro correspondiente:

Se deriva con respecto a µ:

s
∂ ln[L(xg , xi , … , xs ; µ, σi )] 1
= i u(xr − µ)
∂µ σ
rtg

Se deriva con respecto a σi :

s
∂ ln[L(xg , xi , … , xs ; µ, σi )] n 1
= − + • u(xr − µ)i
∂σi σ σ
rtg

4. Se iguala cada derivada a cero para encontrar el estimador de máxima verosimilitud
para cada parámetro:

Se despeja el parámetro µ:

s
1
u(xr − µ) = 0
σi
rtg

s s

u(xr − µ) = u xr − nµ = 0
rtg rtg

∑srtg xr
µj = = X
n




Se despeja el parámetro σi :

s
n 1
− + • u(xr − µ)i = 0
σ σ
rtg

s
n 1
= u(xr − µ)i
σ σ•
rtg

σ• ∑srtg(xr − µ)i
=
σ n

∑srtg(xr − µj)i
•i =
σ
n
Punto 4.

Gocars es una empresa dedicada a la comercialización de automóviles en el país. El mes pasado,


la compañía realizó un experimento en el cual comparó el consumo de combustible de dos de los
automóviles más populares de la empresa (Volkswagen y Toyota).

El consumo de combustible de Volkswagen es una variable aleatoria X con distribución N(µ’ , σi’ ). El
consumo de combustible de Toyota es una variable aleatoria Y con distribución N(µ“ , σi“ ). X y Y son
variables aleatorias independientes entre sí. Se usaron 40 automóviles Volkswagen y 35 Toyota en
pruebas de ruta similares. El promedio de combustible de los 40 automóviles Volkswagen fue 14.3
kilómetros por litro, con una desviación estándar muestral de 1 kilómetro por litro; el promedio de
consumo de combustible de los 35 vehículos Toyota fue de 14 kilómetros por litro, con una desviación
estándar muestral de 1.5 kilómetros por litro.

Con base en la información anterior, resuelva los siguientes literales:

a. (2 puntos) Realice un intervalo de confianza del 90% para la media del consumo de
combustible de Volkswagen.

Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:

Variables Aleatorias:

X: Consumo de combustible de un automóvil Volkswagen en kilómetros por litro.

Supuestos:

X → Normal(µ’ , σi’ )
Varianza desconocida.

Información muestral:

n’ = 40 automóviles
p = 14.3 km/lt
X
S’i = 1 kmi/lt i

Puesto que la varianza poblacional es desconocida, se utilizaría un estadístico con distribución t,
sin embargo, dado que el tamaño muestral de las dos poblaciones es mayor a 30, por el Teorema
del Límite Central, se puede utilizar un estadístico con distribución normal estándar y la varianza
muestral. Por lo tanto, el intervalo de confianza adecuado es:

S
p±z š ’ ›
IC–—% (µ’ ) = ˜X ‡g~ ‰ n
i √ ’

1
IC–—% (µ’ ) = œ14.3 ± z‡g~—.g‰ • ž, donde z(—.–Ÿ) = 1.64
i 40

IC–—% (µ’ ) = [14.04; 14.56]

Con un 90% de confianza, el consumo promedio de combustible de los automóviles Volkswagen
se encuentra entre 14.04 y 14.56 km/lt.

b. (3 puntos) Realice un intervalo de confianza del 99% para la diferencia de las medias de
consumo de combustible de las dos marcas (µ’ − µ“ ). Asuma que las varianzas
poblacionales son iguales. De acuerdo con el IC construido, indique si el consumo de
combustible de los dos automóviles es el mismo, o si alguno de los dos presenta un mayor
consumo.

Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:

Variables Aleatorias:

X: Consumo de combustible de un automóvil Volkswagen en kilómetros por litro.
Y: Consumo de combustible de un automóvil Toyota en kilómetros por litro.

Supuestos:

X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
σi’ y σi“ Desconocidas pero se asumen iguales.

Información muestral:

n’ = 40 automóviles
p = 14.3 km/lt
X
S’i = 1 kmi/lt i

n“ = 35 automóviles
p = 14 km/lt
Y
S“i = 2.25 kmi /lt i

Puesto que la varianza poblacional es desconocida, se utilizaría un estadístico con distribución t,
sin embargo, dado que el tamaño muestral de las dos poblaciones es mayor a 30, por el Teorema
del Límite Central, se puede utilizar un estadístico con distribución normal estándar y la varianza
muestral. Por lo tanto, el intervalo de confianza adecuado es:


Si Si
p ± z š • ’ + “ž
p−Y
IC––% (µ’ − µ“ ) = œX ‡g~ ‰ n n“
i ’


1 2.25
IC––% (µ’ − µ“ ) = œ14.3 − 14 ± z‡g~—.—g‰ • + ž , donde z(—.––Ÿ) = 2.58
i 40 35

IC––% (µ’ − µ“ ) = [−0.47; 1.07]


Dado que el 0 se encuentra en el intervalo, se puede concluir que con un 99% de confianza, el
consumo promedio de combustible de los automóviles de las dos marcas (Volkswagen y Toyota),
es el mismo.

c. (3 puntos) La compañía está interesada en conocer si la varianza del consumo de
combustible de las dos marcas de automóvil es la misma. Realice un intervalo de confianza
del 95% para la razón de varianzas σi’ σi“ . Determine si el supuesto de igualdad de
varianzas se mantiene.

Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:

Variables Aleatorias:

X: Consumo de combustible de un automóvil Volkswagen en kilómetros por litro.
Y: Consumo de combustible de un automóvil Toyota en kilómetros por litro.

Supuestos:

X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )

Información muestral:

n’ = 40 automóviles
p = 14.3 km/lt
X
S’i = 1 kmi/lt i

n“ = 35 automóviles
p = 14 km/lt
Y
S“i = 2.25 kmi /lt i

Puesto que se quiere calcular el intervalo de confianza para el cociente de varianzas, el
estadístico que se utiliza y su distribución es:

S“i σi’
→ F(n“ − 1, n’ − 1)
S’i σi“

Por lo tanto, el intervalo de confianza apropiado es el siguiente:

σi’ S’i S’i
IC(–Ÿ%) l i m = i F š , iF š £
σ“ S“ Š i,(s¡ ~g),(s¢ ~g)‹ S“ Šg~ i,(s¡ ~g),(s¢ ~g)‹

Se calculan los valores de las F:

1 1
F(—.—iŸ,•¤,•–) = = = 0.513
F(—.–¥Ÿ,•–,•¤) 1.95

F(—.–¥Ÿ,•¤,•–) = 1.922

Se reemplazan los valores en el intervalo de confianza:

σi’ 1 1
IC(–Ÿ%) l i m = ˜ (0.513), (1.922)›
σ“ 2.25 2.25

σi’
IC(–Ÿ%) l i m = [0.228, 0.854]
σ“

Dado que el 1 no se encuentra en el intervalo de confianza, con una confianza del 95%, las
varianzas del consumo de combustible de los automóviles de las dos marcas no son iguales.

Gocars también está interesada en conocer la proporción de automóviles que presentan un consumo
de gasolina mayor a 14.6 kilómetros por litro. En el experimento realizado, se encontró que de los
40 automóviles Volkswagen, 14 presentaron un consumo mayor a 14.6 kilómetros por litro. De los
35 vehículos Toyota, 10 presentaron un consumo mayor a 14.6 kilómetros por litro.

d. (3 puntos) Realice un intervalo de confianza del 92% para la diferencia de las proporciones
en el consumo de gasolina entre las dos marcas de automóviles para un consumo mayor a
14.6 kilómetros por litro (p’ − p“ ). Determine si la proporción automóviles que presentan un
consumo mayor a 14.6 kilómetros es el mismo en las dos marcas de automóviles.

Para calcular el intervalo de confianza se tiene en cuenta la información que se puede extraer del
enunciado:

Variables Aleatorias:

X: 1 si el automóvil Volkswagen presenta un consumo mayor a 14.6 kilómetros por litro, 0 de lo
contrario.

Y: 1 si el automóvil Toyota presenta un consumo mayor a 14.6 kilómetros por litro, 0 de lo
contrario.

Supuestos:

X → Bernoulli(p’ )
Y → Bernoulli(p“ )

Información muestral:

n’ = 40 automóviles
x = 14 automóviles

n“ = 35 automóviles
y = 10 automóviles

Dado que los tamaños de las muestras son mayores a 30, por el TLC, se asume que la suma de las
variables Bernoulli da como resultado una variable con distribución Normal, tanto para X como
para Y, por lo tanto, el estadístico a utilizar tendrá una distribución Normal Estándar. Según lo
anterior, el intervalo de confianza apropiado es:

pj’ (1 − pj’ ) pj“ (1 − pj“ )
IC(–i%) (p’ − p“ ) = pj’ − pj“ ± Z‡g~š‰ • +
i n’ n“

En primer lugar, se calculan las proporciones de cada muestra, las cuales serán los estimadores:

14 10
pj’ = = 0.35, pj“ = = 0.286
40 35


Se obtiene el valor de Z‡g~§‰ :

Z(—.–¨) = 1.75


Reemplazando valores se obtiene:

0.35(1 − 0.35) 0.286(1 − 0.286)
IC(–i%) (p’ − p“ ) = 0.35 − 0.286 ± (1.75) ∗ • +
40 35


IC(––%)(p’ − p“ ) = [−0.124,0.252]

Dado que el 0 se encuentra en el intervalo, con una confianza del 92%, las proporciones del
consumo de combustible entre las dos marcas para un consumo mayor a 14.6 kilómetros son
iguales.
Punto 5.

Un contratista ordena habitualmente lotes de 110 vigas de acero. La longitud especificada a su


proveedor de cada viga es de 5 metros. Si la longitud de una viga es superior a los 5 metros el
contratista puede corregir su tamaño. Sin embargo, si la longitud de una viga es inferior a los 5 metros
ésta se considera como defectuosa y debe ser desechada. El contratista ha estimado que la
probabilidad de que la longitud de una viga sea inferior a los 5 metros es del 0.08, pero, en la última
orden recibida hubo un número de vigas defectuosas mayor al esperado. Para el ingeniero de calidad
es importante detectar un lote defectuoso para que este sea devuelto al proveedor. Un lote es
considerado como no defectuoso si la proporción de vigas defectuosas es menor o igual a 0.08. Para
ello él desea evaluar las siguientes hipótesis:

H— : p = 0.08 el lote no es defectuoso


Hg : p > 0.08 (el lote sí es defectuoso)

Para contrastar las dos hipótesis el ingeniero ha diseñado las siguientes pruebas:

• Prueba 1: tomar una muestra de 10 vigas, si hay una o menos vigas defectuosas no se
rechaza la hipótesis nula.
• Prueba 2: tomar una muestra de 12 vigas, si hay dos o menos vigas defectuosas no se
rechaza la hipótesis nula.

a. (2 puntos) Calcule la probabilidad de cometer error tipo I para las anteriores pruebas.

En primer lugar se definen las variables aleatorias, una relacionada con cada prueba:

X: número de vigas defectuosas en una muestra de diez.


X → Binomial(N = 10, p)

Y: número de vigas defectuosas en una muestra de doce.
Y → Binomial(N = 12, p)

Se calcula el error tipo I, teniendo en cuenta su definición: Probabilidad de rechazar la hipótesis
nula, dado que esta es cierta. Por lo tanto, es una probabilidad condicional, en donde el valor
condicionante define el valor del parámetro de la distribución de la variable aleatoria asociada a
cada prueba:

En el caso de la prueba 1, se rechaza la hipótesis nula cuando X es mayor a 1, puesto que X
representa la cantidad de vigas defectuosas en una muestra de 10, por lo tanto, como el error
tipo I asume que la hipótesis nula es cierta, se calcula la probabilidad de que X sea mayor a 1,
dado que el parámetro de la distribución binomial de la VA X es p=0.08.

αg = P(X > 1|p = 0.08) = 1 − P(X ≤ 1|p = 0.08) = 0.1878 ≈ 0.19


En el caso de la prueba 2, se rechaza la hipótesis nula cuando Y es mayor a 2, puesto que Y
representa la cantidad de vigas defectuosas en una muestra de 12, por lo tanto, como el error
tipo I asume que la hipótesis nula es cierta, se calcula la probabilidad de que Y sea mayor a 1,
dado que el parámetro de la distribución binomial de la VA Y es p=0.08.

αi = P(Y > 2|p = 0.08) = 1 − P(Y ≤ 2|p = 0.08) = 0.07
b. (2 puntos) Calcule la probabilidad de cometer error tipo II para las anteriores pruebas. Tome
como p igual a 0.12.


X: número de vigas defectuosas en una muestra de diez.
X → Binomial(N = 10, p)

Y: número de vigas defectuosas en una muestra de doce.
Y → Binomial(N = 12, p)

Se calcula el error tipo II, teniendo en cuenta su definición: Probabilidad de no rechazar la


hipótesis nula, dado que esta es falsa. Por lo tanto, es una probabilidad condicional, en donde el
valor condicionante define el valor del parámetro de la distribución de la variable aleatoria
asociada a cada prueba, en este caso, si se asume que la hipótesis nula es falsa, dado que la alterna
es excluyente, el parámetro estaría definido por la hipótesis alterna, es decir p>0.08, por lo tanto,
según el enunciado se asumirá p=0.12:

En el caso de la prueba 1, no se rechaza la hipótesis nula cuando X es menor o igual a 1, puesto


que X representa la cantidad de vigas defectuosas en una muestra de 10. Por lo tanto, la
probabilidad se calcula:

βg = P(X ≤ 1|p = 0.12) = 0.66



En el caso de la prueba 2, no se rechaza la hipótesis nula cuando Y es menor o igual a 2, puesto
que Y representa la cantidad de vigas defectuosas en una muestra de 12. Por lo tanto, la
probabilidad se calcula:

β i = P(Y ≤ 2|p = 0.12) = 0.83

c. (2 puntos) Si se desea que la probabilidad de cometer error tipo I sea máximo del 10% ¿cuál
prueba debe seleccionarse?

Se debe seleccionar la prueba dos, dado que el error tipo I de esta prueba no supera la restricción
del 10%.
Punto 6.

La compañía NY dedicada a la comercialización de productos alimenticios cuenta con dos sucursales


en la ciudad de Bogotá. De información histórica, se ha determinado que las ventas mensuales, en
miles de dólares, de las sucursales de la compañía se pueden representar por medio de una variable
aleatoria X para la sucursal 1 y una variable aleatoria Y para la sucursal 2. Las variables aleatorias X
y Y siguen una distribución Normal con media µ’ y µ“ y varianza σi’ y σi“ , respectivamente. Con el fin
de estimar el riesgo de sus inversiones, la junta directiva de la compañía ha tomado una muestra
aleatoria de las ventas en las dos sucursales, obteniendo los siguientes resultados:

Sucursal 1 Sucursal 2
Media 3.7 3.3
Desviación 1.2 1.5
Tamaño de
13 18
la muestra

Con base en esta información, resuelva los siguientes literales:

a. (3 puntos) Hasta el momento se asume que la sucursal 1 tiene una media de ventas de 3.9
miles de dólares. Plantee una prueba de hipótesis que le permita evaluar esta afirmación.
Para esto especifique la prueba de hipótesis nula y alterna, estadístico de prueba, región de
rechazo y concluya. Use un nivel de significancia del 1%.

Se plantea la hipótesis nula y alterna:



H— : µ’ = 3.9
Hg: µ’ ≠ 3.9

Supuestos:

X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
Varianzas poblacionales σi’ , σi“ desconocidas.

Se define el estadístico de prueba, dado que las varianzas poblacionales son desconocidas, y el
tamaño muestral es menor a 30 meses, se utiliza un estadístico de prueba con distribución t:

p − µ’ 3.7 − 3.9
X
Estadístico de Prueba (EP) = = = −0.60
S’ ⁄ √n 1.2⁄√13

Se calcula la región de rechazo teniendo en cuenta la distribución del estadístico de prueba, en
este caso, una t. Se rechazará la hipótesis nula si:


EP > t ‡g~š,s~g‰
i

EP < −t‡g~š,s~g‰
i

• t (—.––Ÿ,gi) = 3.05

• −t(—.––Ÿ,gi) = −3.05
Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que la media del volumen de ventas de la sucursal
1 es diferente de 3.9 con un nivel de confianza del 99%.

b. (3 puntos) La junta directiva afirmó en su último comité que la desviación estándar de la


sucursal 2 es inferior a 1.6 miles de dólares. Plantee una prueba de hipótesis que le permita
evaluar esta afirmación. Para esto especifique la prueba de hipótesis nula y alterna,
estadístico de prueba, región de rechazo y concluya. Use un nivel de significancia del 10%.

Se plantea la hipótesis nula y alterna, en este caso, dado que en cuanto a parámetros se trabaja
con la varianza, la hipótesis nula y alterna se realizarán con respecto a la varianza dada una
desviación de 1.6:

H— : σi“ = 2.56
Hg: σi“ < 2.56

Supuestos:

X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
Varianzas poblacionales σi’ , σi“ desconocidas.


Se define el estadístico de prueba, el cual, al ser relacionado con la varianza, se distribuirá chi-
cuadrado con n-1 grados de libertad:

(n“ − 1)S“i (18 − 1)1.5i
Estadístico de Prueba (EP) = = = 14.94
σi“ 2.56

Se construye la región de rechazo teniendo en cuenta la distribución del estadístico de prueba
(chi-cuadrado):

Se rechazará la hipótesis nula si: EP < χi(š,s~g)

EP < χi(—.g,g¥)

χiµ¶í·rµ¸ = χi (—.g,g¥) = 10.09

Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que la desviación estándar del volumen de ventas
de la sucursal 2 es inferior a 1.6 miles de dólares.

c. (3 puntos) La junta directiva asegura que la media de ventas de la sucursal 1 es mayor a la
media de ventas de la sucursal 2 en 0.2 miles. Plantee una prueba de hipótesis que le
permita evaluar esta afirmación. Para esto especifique la prueba de hipótesis nula y alterna,
estadístico de prueba, región de rechazo y concluya. Use un nivel de significancia del 5% y
suponga que las varianzas poblacionales son desconocidas pero iguales.

Se plantea la hipótesis nula y alterna:



H—: µ’ − µ“ = 0.2
Hg: µ’ − µ“ > 0.2

Supuestos:

X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
Varianzas poblacionales σi’ , σi“ desconocidas.

Dado que son desconocidas las varianzas poblacionales, el estadístico de prueba se distribuirá t:

p
X−p Y − (µ’ − µ“ )
Estadístico de Prueba (EP) = ,
1 1
S¹ º +
n’ n “

S’i (n’ − 1) + S“i (n“ − 1) (1.2)i (13 − 1) + (1.5)i (18 − 1)
donde S¹ = • =• = 1.384
n’ + n“ − 2 13 + 18 − 2


Reemplazando los valores se obtiene:

3.7 − 3.3 − (0.2)
Estadístico de Prueba (EP) = = 0.397
1 1
1.384 ∗ º +
13 18

Se rechazará la hipótesis nula si EP > t ‡g~š,ns
¢ »s¼ ~io‰

t(—.–Ÿ,i–) = 1.7

Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que la media de ventas de la sucursal 1 es mayor
a la media de ventas de la sucursal 2 en 0.2 miles de millones.
d. (4 puntos) La junta directiva esta interesada en conocer si existe diferencia en la varianza
de las ventas generadas por las dos sucursales σi“ σi’ . Plantee una prueba de hipótesis
que le permita evaluar esta afirmación. Para esto especifique la prueba de hipótesis nula y
alterna, estadístico de prueba, región de rechazo y concluya. Use un nivel de significancia
del 5%.

Se plantea la hipótesis nula y la alterna:

H— : σi“ ⁄σi’ = 1

Hg : σi“ ⁄σi’ ≠ 1
Supuestos:

X → Normal(µ’ , σi’ )
Y → Normal(µ“ , σi“ )
Varianzas poblacionales σi’ , σi“ desconocidas.

El estadístico de prueba para el cociente de varianzas tiene una distribución F y es el siguiente:

S“i 1.5i
Estadístico de Prueba (EP) = i = = 1.56
S’ 1.2i

Se rechazará la hipótesis nula si cumple alguna de las siguientes:

EP < F š , donde F(—.—iŸ,gi,g¥) = 0.32
Ši ,(s¢~g),(s¡ ~g)‹


EP > F š , donde F(—.–¥Ÿ,gi,g¥) = 2.825
Šg~ i ,(s¢ ~g),(s¡ ~g)‹






0.32 2.825


Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que las varianzas de las ventas generadas por las
dos sucursales son diferentes.

La compañía NY ha llevado un registro histórico mes a mes para analizar cuál de las dos sucursales
ha generado mayores ventas. La junta directiva está interesada en realizar un análisis sobre la
proporción de meses en los que una sucursal genera más ventas. Para esto tomó una muestra
aleatoria de 15 meses, obteniendo que en 10 de esos 15 meses, la sucursal 1 generó un mayor
volumen de ventas que la sucursal 2.
e. (4 puntos) La junta especificó que el 60% de las veces la sucursal que genera mayores
ingresos es la sucursal 1. Plantee una prueba de hipótesis que le permita evaluar esta
afirmación. Para esto especifique la prueba de hipótesis nula y alterna, estadístico de
prueba, región de rechazo y concluya. Use un nivel de significancia del 10%.

Dado que en este caso se realiza una afirmación sobre la proporción, se debe definir la variable
aleatoria adecuada, en este caso específico, se asume que cada mes, la variable aleatoria
representa si la sucursal 1 tuvo mayores ventas que la sucursal 2, o no, de esta manera, la
variable resultante sería la suma de 15 variables Bernoulli (una por cada mes), la cual, para este
caso específico, se asume que sigue una distribución Normal:

Por lo tanto, se establecen las hipótesis nula y alterna, para el parámetro p•

H— : p’ = 0.6
Hg: p’ ≠ 0.6

Se construye el estadístico adecuado para la hipótesis de una proporción, el cual tiene
distribución normal estándar:

pj − p’ x 10
Estadístico de Prueba (EP) = , donde pj = = = 0.67
p (1 − p’ ) n ’ 15
º ’
n’

0.67 − 0.6
Estadístico de Prueba (EP) = = 0.55
º0.6 ∗ (1 − 0.6)
15


Se rechazará la hipótesis nula si cumple alguna de las siguientes:

EP < −Z‡g~š‰ , donde − Z—.–Ÿ = −1.64
i

EP > Z‡g~š‰ , donde Z—.–Ÿ = 1.64
i




Dado que el estadístico de prueba no cae en la región de rechazo, se concluye que no hay
evidencia estadística suficiente para asegurar que la proporción de meses en las que la sucursal
1 genera mayores ingresos es diferente de 0.6 con un nivel de confianza del 90%.
Punto 7.

MiBanco es una entidad bancaria que actualmente desea realizar mejoras en la calidad del servicio
prestado a sus clientes. Para ello, se decidió iniciar un estudio en una de las sucursales, que se
caracteriza por las constantes quejas que realizan los usuarios por el tiempo que les toma realizar
sus operaciones financieras en el banco.
El ingeniero encargado de identificar las posibles mejoras ha definido, como primera tarea, identificar
la distribución del tiempo, en minutos, que le toma a un cajero atender la solicitud de un cliente. Para
lo anterior, el ingeniero cuenta con los registros de los últimos 100 clientes atendidos y de sus
respectivos tiempos de servicio. Estos datos están disponibles en el archivo de Excel que acompaña
la tarea en la hoja ‘Tiempos’.
A partir del histograma de datos que realizó el ingeniero, él piensa que la distribución del tiempo que
tarda un cliente en ser atendido por el cajero se asemeja a la de una distribución exponencial, sin
embargo, él sabe que es conveniente efectuar una prueba estadística para comprobar si esa es la
distribución más apropiada para representar los datos obtenidos.
De acuerdo a lo anterior, realice una prueba de bondad de ajuste Chi-Cuadrado que le permita al
ingeniero probar si el tiempo de atención de un cajero se distribuye como una variable aleatoria
exponencial. Para ello realice los siguientes literales.

a. (2 puntos) Plantee la hipótesis nula e hipótesis alterna de la prueba que debe realizar el
ingeniero.

Dado que el ingeniero desea probar si el tiempo de atención de un cajero se distribuye como una
variable aleatoria exponencial, las hipótesis nula y alterna son las siguientes:

H— : El tiempo de atención de un cajero sigue una distribución exponencial.
H½ : El tiempo de atención de un cajero no se distribuye como una exponencial.

b. (4 puntos) Utilizando inicialmente 8 clases equiprobables, calcule el valor del estadístico de


prueba. No olvide indicar cuál es la distribución del estadístico.


En primer lugar se debe estimar el parámetro λ de esta distribución. Se tiene en cuenta que λ es
una tasa, por lo tanto, sus unidades son (# de unidades/tiempo), dado que los datos relacionan
el tiempo de atención de un cajero por cliente, las unidades de λ serán (# de clientes/tiempo),
donde el # de clientes será 1, puesto que es por cada cliente, y el tiempo será el tiempo promedio
de atención de un cliente, el cual, obtenido de la muestra es de 4.82. Por lo tanto la tasa estimada
es igual a:

1
λÀ = = 0.207
4.82

Sea X el tiempo de atención de un cliente. X es una variable aleatoria exponencial, para la cual se
conoce que su función de probabilidad acumulada está dada por:

F’ (x) = 1 − e~Á•

Dado que son 8 clases equiprobables, la probabilidad de cada clase será 1/8. Teniendo en cuenta
lo anterior, se calculan los límites inferior y superior de cada clase despejando x de la función de
probabilidad acumulada:
ln(1 − p)
x= , donde p = F’ (x) y λ = λÀ = 0.207
−λ

Con esta última expresión se calculan los límites de las distintas clases, a manera de ejemplo se
presenta el cálculo detallado de los límites de la primera y segunda clase:

Dado que cada clase acumula una probabilidad de 1/8, dicha probabilidad se puede expresar
como:

1
PnxÂsÃĶr¸¶ ≤ X ≤ xÅƹĶr¸¶ o =
8

1
PnX ≤ xÅƹĶr¸¶ o − P(X ≤ xÂsÃĶr¸¶ ) =
8

Dado que X se distribuye exponencial, se despeja la x de la función de probabilidad acumulada:

ln(1 − p)
xÂsÃĶr¸¶ =
−λ

ln(1 − p)
xÅƹĶr¸¶ =
−λ

Teniendo en cuenta que es acumulada, en el límite superior habrá acumulado 1/8 de
probabilidad, y dado que es la primera clase, en el límite inferior habrá acumulado 0 de
probabilidad, esos serán los valores de p en cada uno:

ln(1 − 0)
xÂsÃĶr¸¶ = = 0
−2.07

ln(1 − 1/8)
xÅƹĶr¸¶ = = 0.644
−2.07

Para la segunda clase, el límite inferior habrá acumulado 1/8 de probabilidad y el superior 1/4
de probabilidad, se calculan los límites con dichos valores de p:

ln(1 − 1/8)
xÂsÃĶr¸¶ = = 0.644
−2.07

ln(1 − 1/4)
xÅƹĶr¸¶ = = 1.387
−2.07

Dada la información anterior se calculan los límites de las 8 clases, de manera que cada uno
acumule una probabilidad de 1/8. Una vez obtenidos los límites, se obtiene la frecuencia
observada, con ayuda de la herramienta “Histograma” del complemento “Análisis de Datos” de
Excel:
Clase Frecuencia
1 14
2 18
3 15
4 10
5 5
6 9
7 15
8 14

Dado lo anterior, se calcula la frecuencia esperada como npr en donde n será el tamaño muestral
(100) y pr será la probabilidad que acumula caca clase, en este caso 1/8 para cada una, por lo
tanto se obtendrá la misma frecuencia observada para cada clase:

1
npr = 100 ∗ = 12.5
8

A continuación se presenta la tabla donde se relaciona todo lo anteriormente calculado y se
construye el estadístico de prueba:

Probabilidad Límite Límite 𝑿𝒊 − 𝒏𝒑𝒊 𝟐
Clase 𝒑𝒊 𝑿𝒊 𝒏𝒑𝒊
Acumulada Inferior Superior 𝒏𝒑𝒊

1 0.125 0.125 0.000 0.644 14 12.5 0.18

2 0.125 0.25 0.644 1.387 18 12.5 2.42

3 0.125 0.375 1.387 2.265 15 12.5 0.50

4 0.125 0.5 2.265 3.341 10 12.5 0.50

5 0.125 0.625 3.341 4.728 5 12.5 4.50

6 0.125 0.75 4.728 6.682 9 12.5 0.98

7 0.125 0.875 6.682 10.023 15 12.5 0.50

8 0.125 1 10.023 ∞ 14 12.5 0.18


Ì
i
X r − npr
EP = 9.76
npr
rtg

(𝑿𝒊 ~𝒏𝒑𝒊 )𝟐
Estadístico de prueba (EP) se calcula como la sumatoria del factor obtenido para cada
𝒏𝒑𝒊
clase i, su distribución será chi-cuadrado con gl grados de libertad, en donde gl se calcula como
la diferencia entre k número de clases, r parámetros estimados en la distribución y 1:

Ì
(X r − npr )i i
EP = u ~χÎÏ
npr
rtg

Parámetros estimados (r): La distribución exponencial sólo tiene un parámetro (lambda):

g
λÀ = ¤.Ìi = 0.207

Por lo tanto, la cantidad de parámetros estimado será r=1.

Con lo anterior se calculan los grados de libertad:

Grados libertad = k − r − 1 = 8 − 1 − 1 = 6
c. (2 puntos) Si se ha definido un nivel de significancia del 10%, ¿cuál es la región critica de
esta prueba?

La región crítica de esta prueba estará determinada por una distribución Chi-Cuadrado con 6
grados de libertad y 10% de significancia, por lo tanto:

Se rechazar la hipótesis nula si:

EP > χi(g~š,ÎÏ)

EP > χi(—.–,¨)

EP > 10.645

d. (2 puntos) Concluya en términos del problema.

EP > 10.645

No cumple que 9.76 > 10.645, por lo tanto no se rechaza la hipótesis nula:

Debido a que el estadístico de prueba no cae en la región de rechazo, no se rechaza la hipótesis
nula. En consecuencia, se concluye que no existe evidencia estadística para afirmar que los datos
no posean una distribución exponencial con tasa 0.207 clientes/min.

e. (3 puntos) Utilice Crystal Ball para verificar los resultados obtenidos en el literal anterior.

Se puede observar que el p-value calculado por el software es mayor al nivel de significancia
especificado. Por lo tanto, no se rechaza la hipótesis nula y se concluye que no existe evidencia
estadística para afirmar que los datos no posean una distribución exponencial con tasa 0.207
clientes/min.
Punto 8.

Michael B., que es el gerente administrativo de la cadena de restaurantes Croq’Pain, tiene la tarea
de formular un modelo que sirva como apoyo para tomar la decisión de elegir la ubicación de las
nuevas sedes del restaurante. Para este propósito reunió información de las variables que se listan
a continuación, en cada una de las sedes que actualmente operan.

Variable Descripción
Utilidad (Y): Utilidades obtenidas en las sucursales de Croq’Pain, en miles de dólares.
Capital invertido en la tienda. Costo del local más el costo de los equipos,
Capital (X1):
en miles de dólares.
2
Tamaño (X2): Tamaño de la tienda en m .
nEmpl (X3): Número de empleados de la tienda.
PobTotal (X4): Población total en un radio de 3 km de la tienda.
Ingreso (X5): Ingreso promedio en el vecindario donde se ubica la tienda.
Número de establecimientos que se consideran competencia directa de
Comp. Dir. (X6):
Croq’Pain.
Número de establecimientos que no se consideran competencia directa de
Comp. No Dir. (X7):
Croq’Pain.
No Rest. (X8): Número de establecimientos que no son restaurantes.
Renta (X9): Costo mensual de la renta que paga Croq’Pain.
ICV (X10): Costo de vida promedio.

En el archivo adjunto ‘CroqPain.xlsx’ se encuentran los datos recolectados para las 60 sucursales
que operan actualmente. De acuerdo con la información anterior, resuelva cada uno de los literales
que se presentan a continuación:

a. (1 punto) Plantee un modelo de regresión lineal múltiple que le permita explicar la variable
Utilidad a partir de todas las variables mencionadas previamente, esto es, la ecuación del
modelo.

Se construye el modelo de regresión lineal múltiple teniendo en cuenta que cada variable tendrá
su coeficiente βÀr y el intercepto βÀ— :

yj = βÀ— + βÀgxg + βÀixi + βÀ•x• + βÀ¤x¤ + βÀŸxŸ + βÀ ¨x¨ + βÀ ¥x¥ + βÀÌ xÌ + βÀ– x– + βÀg—xg—

b. (4 puntos) Utilice SPSS para estimar los parámetros del modelo, mencione las variables
2
significativas individualmente que explican a la variable Utilidad e interprete el R . Utilice un nivel
de significancia del 5%.

A continuación se presentan los resultados obtenidos en el software SPSS:


Para identificar las variables significativas se toma como referencia el criterio del p-value. En
este caso, aquellas cuyo valor-p sea menor a la significancia dada (0.05), serán las significativas:

Las variables significativas son:
• Tamaño (Tamaño de la tienda en m2)
• PobTotal (Población total en un radio de 3 km de la tienda)
• Ingreso (Ingreso promedio en el vecindario donde se ubica la tienda)
• NoRest (Número de establecimientos que no son restaurantes)

El R2 es 0.852, esto quiere decir que las variables independientes explican el 85.2% de la Utilidad,
o que el 85.2% de la varianza de la variable Utilidad, es explicada por las variables
independientes.

c. (5 puntos) Realice una interpretación de cada uno de los coeficientes que resultaron significativos
en el literal anterior, en términos del problema.

• Por un incremento de 1 metro cuadrado, la utilidad se incrementará en 1.36 miles de


dólares.
• Por un incremento de una unidad poblacional en un radio de 3 km alrededor de la
tienda, la utilidad se incrementará en 8 dólares.
• Por el incremento de un dólar en el promedio de ingreso del vecindario, la utilidad se
incrementará en 10.85 miles de dólares.
• Por cada establecimiento comercial adicional que no sea restaurante, la utilidad se
incrementará en 1.49 miles de dólares.
d. (3 puntos) Para la prueba de significancia global, identifique la hipótesis nula y alterna, así
como el estadístico de prueba a utilizar. Reporte la tabla ANOVA e interprete sus resultados.

Hipótesis para la significancia global, se define como hipótesis nula cuando todos los betas son
iguales a 0, y como alterna, cuando por lo menos uno es diferente de 0:

H— : βr = 0, ∀ i ∈ {1, … ,10}
Hg : al menos un βr diferente de cero

Estadístico de prueba:

SCR/q 419341.1/10
Estadístico de prueba(EP) = = = 28.21
SCE/(n − 1 − q) 72831.53/(60 − 10 − 1)


Se obtiene la región de rechazo dado que la distribución del estadístico es F:

F(g~š,Õ,s~g~Õ) = F(—.–Ÿ,g—,¤–) = 2.03
Se rechaza la hipótesis nula si:

EP > F(g~š,Õ,s~g~Õ)
EP > 2.03

Dado que EP = 28.21 es mayor a 2.03, cae en la zona de rechazo, por lo tanto:

Con una significancia del 5%, se concluye que existe evidencia estadística suficiente para afirmar
que al menos una de las 10 variables escogidas por el gerente explica el comportamiento de la
utilidad.

e. (5 puntos) Se reunió información sobre 10 posibles ubicaciones para la nueva sucursal de


Croq’Pain. Con ayuda del modelo del literal anterior, determine cuál de las diez ubicaciones
debería ser la elegida.

Variable Ubic. 1 Ubic. 2 Ubic. 3 Ubic. 4 Ubic. 5 Ubic. 6 Ubic. 7 Ubic. 8 Ubic. 9 Ubic. 10

Capital 660 733 1050 836 784 925 1090 738 584 681

Tamaño 54 120 135 245 96 197 93 169 149 150

nEmpl 14 16 26 20 18 19 19 15 10 12
PobTotal 6710 11040 11910 11350 3500 12720 16660 9410 19020 12650

Ingreso 38 31 29 37 30 23 25 30 29 35

Comp Dir 4 7 1 5 12 1 2 4 4 3

Comp No dir 5 6 4 8 7 9 0 4 5 12

No Rest 18 21 13 62 38 41 5 11 26 54

Renta 22 13 22 13 18 12 33 9 13 15

ICV 131 115 135 136 130 136 133 126 128 128

Se utiliza el modelo de regresión estimado, es decir, cada beta estimado toma el valor obtenido
en SPSS para calcular la utilidad esperada en cada una de las 10 ubicaciones.

Cada uno de los valores que toman las variables en cada ubicación es reemplazado en el modelo,
de manera que se obtiene una utilidad estimada para cada ubicación:

yj = −449.34 − 0.17xg + 1.36xi − 1.6x• + 0.008x¤ + 10.85xŸ − 2.07x¨ − 0.42x¥ + 1.49xÌ
+ 0.58x– + 0.5xg—

En la tabla que sigue a continuación se presentan dichas utilidades estimadas:

Ubicación Utilidad estimada


1 50.18
2 67.64
3 19.97
4 356.2
5 -23.08
6 112.44
7 -45.08
8 106.47
9 204.73
10 242.55

Se observa que la mayor utilidad estimada corresponde a la ubicación número 4. Por este motivo
se debería seleccionar dicha ubicación para abrir la nueva sucursal.

Вам также может понравиться