Вы находитесь на странице: 1из 17

FACULTAD DE INGENIERÍA Y

CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

TRABAJO COLABORATIVO ESTADISTICA INFERENCIAL

SARA MUÑOZ ESPINOSA


OSCAR GIRALDO RÍOS
WILLIAM JAVIER OSPINA VERGARA

CORPORACIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

ESTADÍSTICA INFERENCIAL

BOGOTÁ- COLOMBIA

2019-II
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Trabajo Colaborativo Estadística Inferencial

Estudiantes:
Sara Muñoz Espinosa. Código: 1711027136
Oscar Giraldo Ríos. Código: 1711021970
William Javier Ospina Vergara. Código: 1821023031

Tutor:
Edwin Hernando Zapata Cifuentes

Corporación Universitaria Politécnico Grancolombiano


Estadística Inferencial
Bogotá- Colombia
2019-II
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Contenido

1. INTRODUCCIÓN ................................................................................................................... 4
2. OBJETIVOS ........................................................................................................................... 5
2.2 OBJETIVOS SECUNDARIOS ...................................................................................... 5
 Estudiar el análisis de los datos obtenidos mediante la realización de la actividad .... 5
 Conocer las características de los modelos estadísticos y sus aplicaciones en las
operaciones cotidianas a nivel personal y empresarial .......................................................... 5
3. DESARROLLO DE LA ACTIVIDAD .................................................................................... 6
A. Identificación del problema............................................................................................ 6
B. Solución del problema: ................................................................................................... 7
4 CONCLUSIONES .................................................................................................................16
5 BIBLIOGRAFIA ....................................................................................................................17
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

1. INTRODUCCIÓN

Como futuros profesionales nos enfrentaremos a diferentes retos logísticos y


presupuestales a los que deberemos darle solución de manera que se optimicen al
máximo los recursos propios o de la organización en la cual estemos desempeñando
nuestra profesión. Aquí radica la importancia de saber identificar el problema y las
posibles soluciones del mismo.
Se estudiará el área de la estadística inferencial y las implicaciones que tiene está a
la hora de consolidar la información obtenida mediante el muestreo realizado y
optimizar los resultados que permitan mayor información sobre clientes procesos o
variables requeridas por la empresa permitiéndole a esta obtener importantes
beneficios en materia de información y ahorros a los gastos en la recolección de
información.
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

2. OBJETIVOS

2.1 OBJETIVOS PRINCIPALES

 Conocer modelos y métodos asociados a las operaciones estadísticas de una


empresa y la utilización de herramientas para la optimización de los recursos.

 Comprender el procedimiento para construir intervalo de confianza para estimar


la diferencia de dos promedios poblacionales e interpretarlo.

 Valorar los conocimientos adquiridos como fundamentales para minimizar los


costos de una empresa, encontrar soluciones óptimas en este ámbito y mejorar
su producción.

2.2 OBJETIVOS SECUNDARIOS

 Estudiar el análisis de los datos obtenidos mediante la realización de la


actividad

 Conocer las características de los modelos estadísticos y sus aplicaciones


en las operaciones cotidianas a nivel personal y empresarial
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

3. DESARROLLO DE LA ACTIVIDAD

A. Identificación del problema

El conjunto de datos en el archivo “black-friday” (Dagdoug, 2019) es una muestra de


las transacciones realizadas en una tienda minorista. La tienda quiere conocer mejor
el comportamiento de compra del cliente frente a diferentes productos.
Específicamente, el problema que estamos tratando de predecir la variable
dependiente (el monto de la compra) con la ayuda de la información contenida en las
otras variables.

Las variables del archivo adjunto son las siguientes:

User_ID Identificador único del comprador

Product_ID Identificador único del producto.

Gender Sexo del comprador

Age Edad del comprador dividida en contenedores

Occupation Ocupación del comprador.

City_Category Lugar de residencia del comprador.

Stay_In_Current_City_Years Número de años en la ciudad actual.

Marital_Status Estado civil del comprador

Product_Category_1 Categoría de producto de compra

Product_Category_2 El producto puede pertenecer a otra categoría

Product_Category_3 El producto puede pertenecer a otra categoría

Purchase Valor de la compra en dólares

Utilizando la variable del valor de la compra (Purchase), realice lo siguiente:


FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

1. Realice un histograma y explique la forma y la curtosis según el contexto.


2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación
e interprete los resultados.

En relación con las variables dadas en la tabla anterior, responda y justifique los
resultados:

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?


3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?
3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?
3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?

Intervalos de confianza

4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error relativo


del 2% y un nivel de confianza del 95%

4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95%
para la diferencia de los gastos para los hombres y mujeres e interprete el resultado
obtenido.

B. Solución del problema:

1. Realice un histograma y explique la forma y la curtosis según el contexto.

Procedemos a separar el rango de edades para saber cuántos serán los grupos a los
que tendremos que enfocar el estudio estadístico y la variable a analizar, que es la
cantidad de dinero invertido en compras.
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Tabla 1. Grupos de compradores por rango de edad vs consumo en dólares

Figura 1. Grupos de compradores por rango de edad vs consumo en dólares

De la curtosis y lo investigado podemos decir que: al analizar el histograma y la


concentración en torno a su media, es de tipo platicúrtica, ya que la concentración
de dichos valores en torno a esta, es baja. Asimismo, podemos decir que la curtosis
es < 3 si es de este tipo. La misma puede ser hallada para:

 Datos sin agrupar


 Datos agrupados en tablas de frecuencias
 Datos agrupados en intervalos

2. Calcular: la media, mediana, moda, desviación estándar, coeficiente de variación e


interprete los resultados.

Media:

∑𝑋 5017668370
𝜇= = = 9333.8598
𝑁 537577
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

La Media de la población objeto de la muestra es de 28 años ubicados en el intervalo


de 26-35 con un gasto promedio en compras de 9333,86

Además, dando cumplimiento a la regla que nos habla de que la media muestral de
los datos agrupados, es igual a la media poblacional, comprobamos:

∑𝑋 9020 + 9235 + 9315 + 9401 + 9285 + 96219454


x̅ = =
𝑛 7
∑ 𝑋 65331
x̅ = = = 9333
𝑛 7
Mediana: Ordenamos los datos suministrados en la hoja de excel, para de esta
manera aplicar la siguiente fórmula:

(𝑛 + 1) (537577 + 1)
= = 268789
2 2
este valor nos indica la posición de la tabla de Excel en la que vamos a encontrar la
mediana, que corresponde al dato 8062, también correspondiente al rango de edades
de 26 a 35.

Desviación estándar:

Para hallar la desviación estándar es necesario que primero sea hallada la varianza,
así:
Σ (Xi−μ)2
𝜎2 = = 24810535,33
𝑛
Obtenido este resultado, procedemos a hallar la desviación estándar que no es más
que la raíz cuadrada del resultado obtenido al hallar la varianza poblacional.

Σ (Xi − μ)2
𝜎= √ = 4981,022
𝑛
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

En ambas fórmulas Xi representa cada dato de la variable Purchase, 𝛍 representa


la media poblacional y 𝒏 corresponde al tamaño de la población (537577)

Coeficiente de variación: para este cálculo usamos la formula

𝜎
𝐶𝑉 = . 100 %
𝜇
4981,022
𝐶𝑉 = = 0,53 = 53%
9333,86
Podremos interpretar de los datos arrojados que, de la población, el rango de edades
que más compra se ubica entre los 26 a los 35 años con un 53% de las compras
totales presentes en el Black Friday.
En relación con las variables dadas en la tabla anterior, responda y justifique los
resultados: Para dar respuesta a estos interrogantes, creamos una tabla dinámica en
Excel para conocer el monto exacto de los gastos de cada categoría de edades.

Categoria Edades Suma de Purchase

0-17 $ 132.659.006
18-25 $ 901.669.280
26-35 $ 1.999.749.106
36-45 $ 1.010.649.565
46-50 $ 413.418.223
51-55 $ 361.908.356
55+ $ 197.614.842
Total general $ 5017668378
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

3.1 ¿Cuál es la categoría de edades que más realiza compras en el black-friday?

La categoría de edades que más realiza compras en el Black- Friday es la que se


encuentra en los rangos de edades de 26 a 35 años, ya que el total en compras es
de $1.999.749.106, monto mayor a las compras realizadas por las demás categorías
de edades.

3.2 ¿Cuál es promedio de gatos de la categoría de la edad que más compra?

Para hallar el promedio de gastos de la categoría 26 a 35 años que fue la que más
compró, realizamos la siguiente operación:

𝑆𝑢𝑚𝑎 𝑡𝑜𝑡𝑎𝑙 𝑔𝑎𝑠𝑡𝑎𝑑𝑎 𝑝𝑜𝑟 𝑙𝑎 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎


𝑃𝑅𝑂𝑀𝐸𝐷𝐼𝑂 = =
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑒𝑟𝑠𝑜𝑛𝑎𝑠 𝑑𝑒 𝑙𝑎 𝑐𝑎𝑡𝑒𝑔𝑜𝑟í𝑎

1999749106
𝑃𝑅𝑂𝑀𝐸𝐷𝐼𝑂 = = 9314,546
214691

El promedio de gastos de la categoria fue de $ 9314,546

3.3 ¿La proporción de hombres que compran es mayor que la de mujeres?

Si, ya que segregando la información llegamos a la conclusión que:

Las mujeres gastan $1.164.624.021


Los hombres gastan $3.853.044.357, suma superior a la que gastan las mujeres .

3.4 ¿Cuánto es el promedio de gasto de los hombres y las mujeres?


Total, de personas dentro de la población: 537.577
Mujeres: 132.197 dentro de la población
Hombres: 405.380 dentro de la población
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

Promedio de gasto de los hombres:


𝑀𝑜𝑛𝑡𝑜 𝑡𝑜𝑡𝑎𝑙 𝑔𝑎𝑠𝑡𝑎𝑑𝑜 𝑝𝑜𝑟 𝑙𝑜𝑠 ℎ𝑜𝑚𝑏𝑟𝑒𝑠 3853044357
= = 9504,772
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 ℎ𝑜𝑚𝑏𝑟𝑒𝑠 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 405380

Gasto Hombres = $ 9504,772

Promedio de gasto de las Mujeres:


𝑀𝑜𝑛𝑡𝑜 𝑡𝑜𝑡𝑎𝑙 𝑔𝑎𝑠𝑡𝑎𝑑𝑜 𝑝𝑜𝑟 𝑙𝑎𝑠 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 1164624021
= = 8809,761
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑚𝑢𝑗𝑒𝑟𝑒𝑠 𝑑𝑒𝑛𝑡𝑟𝑜 𝑑𝑒 𝑙𝑎 𝑝𝑜𝑏𝑙𝑎𝑐𝑖ó𝑛 132197

Gasto Mujeres = $8809,761

4.1 ¿Cuál es el tamaño de la muestra que se requiere? Si se exige un error al calcular


la media del 2% y un nivel de confianza del 95%
Con un nivel de confianza del 95%

1−∝ = 0,95 → ∝= 1 − 0,95 = 0,05 → 𝑧 = 𝑍. 0,025 = 1,96
2

𝑁𝑐 95
∝ 1+ 1+
𝑃 (𝑍 ≤ 𝑍 ) = 100 = 100 = 1,95 = 0,975
2 2 2 2

Por lo tanto, al buscar dentro de la tabla de la distribución normal 0,975 se obtiene


1,96

Como no se conoce la proporción, se utiliza 𝑝̂ = 0,5 → 𝑞̂ = 0,5


El error máximo admisible para estimar la proporción " 𝑒 " se obtiene:
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

∝ 𝑝̂ . 𝑞̂
𝑒=𝑍 √ < 0,02
2 𝑛

De esta expresión se despeja " 𝑛 "

∝ 𝑝̂ . 𝑞̂ 0,5 . 0,5
𝑛 = 𝑍2 . 2 = 1,962 . = 2401
2 𝑛 0,022

El tamaño de la muestra que se requiere es de 2401


4.2 Asumiendo que los datos son normales, calcule un Intervalo de confianza al 95%
para la diferencia de los gastos para los hombres y mujeres e interprete el resultado
obtenido.
Para hallar este intervalo de confianza debemos trabajar con la teoría de intervalos
de confianza para diferencia de muestras 𝛍1- 𝛍2 . Para ello, debemos considerar la
desviación estándar s 2 de cada una de las muestras (muestra de hombres y muestra
de mujeres).

Datos para Mujeres:

𝐱̅ = 8809,761
𝒏 = 132,197
∑(xi − x̅)2 2946912729149,77
𝐬𝟐 = = = 22291826,57
n−1 132197 − 1

Datos para Hombres:

𝐱̅ = 9504,772
𝒏 = 405,380
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

∑(xi − x̅)2 10342507151980,70


𝐬𝟐 = = = 25513115,46
n−1 405380 − 1
Una vez estos datos son hallados, procedemos a hallar los grados de libertad, así:
2
𝑆2 𝑆22
( + )
𝑛1 𝑛2
𝑔𝑙𝑝 = 2 2
𝑆 21 𝑆22
( ) ( )
𝑛1 𝑛2
+
𝑛1 − 1 𝑛2 − 1
[ ] [ ]

(168,63 + 62,94)2 53621,01


𝑔𝑙𝑝 = = = 238457,84 ≈ 238458
0,22 + 0,01 0,23

Ahora que ya tenemos este valor procedemos a aplicarlo en la fórmula de grados de


confianza para diferencias muestrales:

∝ 𝜎1 2 𝜎2 2 ∝ 𝜎1 2 𝜎2 2
[(𝑥̅1 + 𝑥̅2 ) − 𝑍 √ + ; (𝑥̅1 + 𝑥̅2 ) + 𝑍 √ + ]
2 𝑛1 𝑛2 2 𝑛1 𝑛2

(22291826,57)2 (25513115,46)2
=[(8809,761 + 9504,772 ) − 1,96 √ + ]
132,197 405,380

=[(8809,761 + 9504,772 ) − 1,96 √3758,97 + 1,6055 ]

= [(8809,761 + 9504,772 ) − 1,96 √61,3235 ]

= [18314,533 − 120,194 ] = 18194,339


FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

(22291826,57)2 (25513115,46)2
= [(8809,761 + 9504,772 ) + 1,96 √ + ]
132,197 405,380

=[(8809,761 + 9504,772 ) + 1,96 √3758,97 + 1,6055 ]

= [(8809,761 + 9504,772 ) + 1,96 √61,3235 ]

= [18314,533 + 120,194 ]= 18434,727

Con un intervalo de confianza del 95 % la varianza en los gastos entre mujeres y hombres
esta entre $18194,339 y $18434,727.
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

4 CONCLUSIONES

Se puede decir que la estadística inferencial es importante para simular situaciones,


controlar procesos y verificar las posibles respuestas a condiciones controladas. En
una empresa puede reducir costos ya que puede anticipar lo que puede suceder y
tomar previsiones a esperar que pase y no estar preparado.
La Estadística es una ciencia matemática que se utiliza para describir, analizar e
interpretar ciertas características de un conjunto de individuos llamado población.
Cuando nos referimos a muestra y población hablamos de conceptos relativos, pero
estrechamente ligados. Una población es un todo y una muestra es una fracción o
segmento de ese todo.

Podemos dividir la estadística en dos ramas; la estadística descriptiva, que se


dedica a los métodos de recolección, descripción, visualización y resumen de datos
originados a partir de los fenómenos en estudio; y la estadística inferencial, que se
dedica a la generación de los modelos, inferencias y predicciones asociadas a los
fenómenos en cuestión.
FACULTAD DE INGENIERÍA Y
CIENCIAS BÁSICAS

PROYECTO GRUPAL Institución Universitaria Politécnico Grancolombiano

5 BIBLIOGRAFIA

I. https://poli.instructure.com/courses/10838/files/4891664?module_item_id=55
9478
II. http://www.fuenterrebollo.com/Economicas/TEORICA-II/3-problemas-
intervalos.pdf
III. http://www.ugr.es/~mvargas/Infe1.pdf
IV. https://www.youtube.com/watch?v=SsNTGI3q7Uc&list=PLLR2zln9-
LcWAXFoJoK29qoSETymw-jj4&index=2&t=189s
V. https://www.youtube.com/watch?v=SsNTGI3q7Uc&list=PLLR2zln9-
LcWAXFoJoK29qoSETymw-jj4&index=2&t=57s

Вам также может понравиться