Вы находитесь на странице: 1из 69

Estadística Aplicada

a los Procesos
Ing. MBA Miguel Ángel Patiño Antonioli

E-mail: mpatino@pucp.pe
WhatsApp: (+51) 977342458
Skype: mpatino23
Recordando la clase anterior…
¿Qué recuerdas?
Sesión 2:
“Estadística Sumaria y
KPI de procesos”
Objetivos
Al finalizar esta sesión, el alumno:
1. Conoce el cálculo de las Medidas de Tendencia
Central y comprende la aplicabilidad.
2. Conoce el cálculo de las Medidas de Dispersión y
comprende la aplicabilidad.
3. Conoce el cálculo de las Medidas de Asimetría y
comprende la aplicabilidad.
4. Es capaz de desarrollar un análisis de Regresión así
como de interpretar los resultados.
5. Domina las herramientas de Estadística Descriptiva y
reconoce cuándo emplear cada una en un contexto real.
Agenda
1) Resumen numérico de los datos
i. Medidas de Tendencia Central.
ii. Medidas de Dispersión
iii. La importancia de la “limpieza de datos”
iv. Medidas de Simetría y Curtosis
v. Medidas de Posición

2) Modelos de Regresión
i. Análisis bivariado de los Modelos de Regresión:
a. Modelo de Regresión Lineal Simple (MRLS).
b. Ecuación de la recta de Regresión de Mínimos Cuadrados
c. Teoría de las Variaciones
d. Coeficiente de Correlación de Pearson de Pearson
e. Coeficiente de Determinación
ii. Modelo de Regresión Lineal Múltiple (MRLM).
iii. KPI de ajuste y modelos
Control de lectura
Lecturas previas obligatoria

Puente, Viedma, Carlos de la (2018).


Estadística Descriptiva Univariable. En
Estadística
descriptiva e inferencial, Ediciones IDT.
ProQuest Ebook Central.

Recuperado de:
https://ebookcentral.proquest.com/lib/pucp
centrumsp/detail.action?docID=5486569#
“La Estadística
es una ciencia
que demuestra
que si mi vecino
tiene dos coches
y yo ninguno,
entonces…
los dos
George Bernard Shaw
(1856-1950) tenemos uno.”
“Un estadístico
podría meter su
cabeza en un
horno y sus
pies en hielo, y
decir que en
promedio …
Peter Drucker se encuentra
bien.”
Resumen numérico de los datos
Características clave de los Datos

Tendencia Central
(Posición)

Dispersión
(Variación)

Asimetría
Medidas de
Tendencia Central
Debate en equipos:
¿Por qué no existe una única
medida de tendencia central?
“The only certainty is
that nothing is certain”
Resumen numérico de los datos
Medidas de Tendencia Central
 Aquellas que nos indican cual podría ser el punto medio
o representativo de un conjunto de datos analizados.
 Llamados “Promedios”, buscan dar su “opinión” respecto
al valor central. Los principales son:

 Media Aritmética simple


 Media Ponderada
 Media Geométrica
 Media Armónica
 Mediana
 Moda
Resumen numérico de los datos
Medidas de Tendencia Central
Media Aritmética Simple
𝒏
 La suma de las desviaciones
de cualquier valor y la media
𝒙= 𝒙𝒊 𝒉𝒊
es cero.
 Es sesgada (afectada) por
𝒊=𝟏
valores extremos.
“A la Media no le importa
cuántos sean los datos,
sino cuánto valgan”
M.A.P.A.
Resumen numérico de los datos
Medidas de Tendencia Central
Media Ponderada

 Media aritmética incluyendo su importancia relativa


(peso específico, wi) en el grupo.
 No todos los elementos son igual de importantes.
k

w x i i

x p
 i 1
k

w
i 1
i
Resumen numérico de los datos
Medidas de Tendencia Central
Media Geométrica

 Sirve para promediar  G  N X 1 X 2 X 3 .. X n


porcentajes de
variación, índices y
cifras relativas.  N 1 Valoralfinal 
 G   Valoralinicio   1
 Determina el incremento
 
porcentual promedio en
ventas, producción,
tiempos, etc.
Resumen numérico de los datos
Medidas de Tendencia Central
Ejercicio 1:
La siguiente tabla muestra la variabilidad de los Lead Time de
entrega de un producto a un cliente determinado durante los
últimos meses:
En diciembre, el Lead Time fue de 15.03 días.
Meses Enero Febrero Marzo Abril Mayo
Lead Time (días) 15.42 7.60 9.29 12.69 10.19

1. Calcule e interprete la variación promedio mensual del Lead Time.


2. ¿Cómo impactaría que los Lead Time sean crecientes?
3. Si la promesa de tiempo al cliente es 15 días, qué tan bien estamos?
Resumen numérico de los datos
Medidas de Tendencia Central
Mediana

 0.5  H i 1 
 Punto medio de los Med  Li  A *  
valores después de
ordenarlos.
 hi 
 No es afectada por Intervalos
valores extremos.

“A la Mediana no le importa cuánto


valgan los datos, sino cuántos sean”
M.A.P.A.
Resumen numérico de los datos
Medidas de Tendencia Central
Mediana
Ejemplo:
Los siguientes datos se refieren al número de clientes atendidos
durante los últimos 11 días en una tienda de artefactos. Calcule
e interprete la mediana.
12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16
Primero se ordenan lo datos:
5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17
mediana
5 datos menores 5 datos mayores
Interpretación:
Durante 5 días se atendieron a menos de 11 clientes, y durante 5 días se
atendieron a más de 11 clientes.
Resumen numérico de los datos
Medidas de Tendencia Central
Moda

 d1 
 Valor que más se repite en Mo  Li   i
un conjunto de datos.  d 1  d 2
 No es afectada por valores DatosAgrupados
extremos.
 Para datos discretos es
fácil de calcular.
 No puede ser calculada
exactamente en una
distribución de frecuencias.
Resumen numérico de los datos
Medidas de Tendencia Central
Selección del promedio más adecuado

 La mediana siempre es la posición central.


 La moda se puede emplear cuando se requiere una
idea rápida de la tendencia central.
 La más usada es la media aritmética.
 La más representativa para datos de una distribución
asimétrica es la mediana.
 Media valor de equilibrio de Magnitud .
 Mediana valor de equilibrio de Cantidad.
 Moda valor con mayor frecuencia.
¿Cómo nos impactan los
Outliers
(datos atípicos/extremos)?
VOLATILIDAD
VARIABLIDAD
HETEROGENEIDAD
¿Cuántos zapatos tienes?
(incluye sandalias, etc.)
Récord a la fecha:
83 zapatos!!!
Medidas de
Dispersión
Resumen numérico de los datos
Medidas de Dispersión www.leansolutions.co
Resumen numérico de los datos
Medidas de Dispersión
Coeficiente de Variación (CV)

 Indica la magnitud relativa de la desviación estándar con


respecto a la media aritmética.
 Permite comparar varios conjuntos de datos para analizar:
 Homogeneidad
S
 Heterogeneidad CV    *100%
x
( Muestral )
Resumen numérico de los datos
Medidas de Dispersión
Coeficiente de Variación

CV Grado de Variabilidad
0% < CV < 10% Datos muy homogéneos
10% ≤ CV < 15% Datos regularmente homogéneos
15% ≤ CV < 20% Datos regularmente variables
20% ≤ CV < 25% Datos variables
CV ≥ 25% Datos muy variables
Resumen numérico de los datos
Medidas de Posición
Fractiles
F j  X  jn F  0.5
 Medidas de posición.
DatosNoAgrupados
 Dividen en:
 Cuartiles (Qj)  jn  faA
 Deciles (Dj)
   F i
 Centiles (Pj) F j Lij  f 
 Formulación semejante  ij 
a la mediana. DatosAgrupados

La mediana es el segundo cuartil, 5º Decil y 50º percentil:

Me = Q2 = D5 = P50
Resumen numérico de los datos
Medidas de Posición
Resumen numérico de los datos
Medidas de Posición
Cuartiles en el Diagrama de Cajas
Resumen numérico de los datos
Medidas de Posición
Resumen numérico de los datos
Medidas de Simetría y Curtosis
Coeficiente de Asimetría de Pearson

 Establece si una distribución es simétrica o no.


 No tiene unidades
 Valores entre -3 y 3, normalmente no mayor de -1 y 1.

3(𝜇 − 𝑀𝑒𝑑)
𝑆𝑘𝑝 =
𝜎
3(𝑥 − 𝑚𝑒𝑑)
𝑆𝑘𝑝 =
𝑠
𝑆𝑘𝑝 = 0
Resumen numérico de los datos
Medidas de Simetría y Curtosis
Sesgo de una distribución

Negativamente Positivamente
Simétrica Sesgada
Sesgada

Media < Mediana < Moda Media = Mediana = Moda Moda < Mediana < Media
Resumen numérico de los datos
Medidas de Simetría y Curtosis
Coeficiente de Curtosis

 Grado de concentración con relación a la media aritmética.


 Se emplea para distribuciones unimodales simétricas.
 Sin unidades.
 Valores (0, ½) 1 𝑄3 − 𝑄1
𝑘𝑢 =
2 𝐷9 − 𝐷1
Pregunta de reflexión inicial:

¿Para qué nos interesaría


calcular un Pronóstico?
“La Estadística
es el único
tribunal de
apelación para
juzgar el nuevo
P. C. Mahalonibis
conocimiento”
(1893-1972)
Reflexión inicial
¿Qué es mejor,
proyectar una
Serie de tiempo
o una Regresión
múltiple para
estimar las
ventas de una
empresa?
Introducción a la Regresión
Conceptos clave

 Modelo de Regresión
 Regresor
 Coeficiente de Regresión
 Intercepto
 Pronóstico
 Función de modelación
 Mínimos Cuadrados
Regresión
Asociación entre variables

 Variable Dependiente: variable a ser “explicada” y cuyo


comportamiento depende, presumiblemente, de los
efectos de las variables independientes.

 Variable Independiente: variable que, en teoría,


“explica” el comportamiento de la variable dependiente.

 El nivel de ingresos (dependiente) depende del nivel de


educación (independiente)

 Una variable puede ser definida como dependiente en


un análisis y como independiente en otro.
Introducción a la Regresión
Tipos de Regresión
Por el número de Regresores
Simple Múltiple
Por el tipo de función

Recta de Recta de
Lineal Regresión con Regresión con 2 o
1 Regresor más Regresores

Curva de Curva de
No Lineal Regresión con Regresión con 2 o
1 Regresor más Regresores
Regresión Lineal Simple
Ejemplos

 La demanda de un producto depende del


número de consumidores, o de su ingreso.
 El precio en el mercado depende del número
de competidores o de los costos.
 Una empresa que posee estaciones de
gasolina desea pronosticar sus ventas y utiliza
como variable explicativa el número de autos
en el distrito.
Modelos de Regresión lineal
Análisis de Regresión Simple
Recta de Regresión

14
Y
12 * Y’

10 Valor Y’=2.7+2.1X
Efectivo *
8 Valor
Estimado
6
4
2
0
0 1 2 3 4 5
Modelos de Regresión lineal
Análisis de Regresión
Variaciones

14
Y
* Variación no Y’
12
Explicada
10 Variación
8 Total *
Variación
6 Explicada

4
2
Y
0
0 1 2 3 4 5
Modelos de Regresión lineal
KPI de calidad de ajuste en la Regresión

 Buscan medir la performance del modelo.


 Existen tres coeficientes principales:
– Coef. de Correlación (r).
– Coef. de Determinación (R2).
– Coef. de Determinación Ajustado (Ra2).
NO HAY
FUERTE
RELACIÓN
FUERTE r
-1 - 0.7 0 0.7 1

0.7
FUERTE
1
R2
0
Medidas de Correlación
Análisis de Regresión Simple
Ejemplos de posibles correlaciones

(a) Lineal directamente proporcional (b) Lineal inversamente proporcional (c) Curvilínea directa
Y Y
(r > 0) • (r < 0) Y

• • • • ••
• •
• • • • •
• • • ••
• • X X
• • •
X

Y • Y Y
(r≈0)
• •• • • • ••
•• • • •• • • •
••
• •• • • • • ••
• • •
•• •• •• • • •
••• •
• •
X X X
(d) Curvilínea inversa (e) Lineal inversamente proporcional (d) Ninguna relación
con más dispersión
Medidas de Correlación
Análisis de Regresión Simple
Ejemplos de posibles correlaciones
Medidas de Correlación
Análisis de Regresión Simple
Coeficiente de Determinación (R2)
Y Y’ 𝑌 (Y- 𝑌 )2 (Y’- 𝑌 )2 (Y-Y’)2
9 9.0 9 0 0.0 0.0
5 4.8 9 16 0.2 0.04
7 6.9 9 4 0.1 0.01
14 13.2 9 25 0.8 0.64
10 11.1 9 1 -1.1 1.21
∑= 46 ∑= 44.10 ∑= 1.90
Variación Total = Variación Explicada + Variación No Explicada
46 = 44.10 + 1.90

Var.Explicada  (Y 'Y ) 2 96% de la variación del


r 
2
  0.96 Tiempo de entrega (Y) está
Var.Total  (Y  Y )
2

explicada por la variación del


tiempo de empaque (X).
Regresión Lineal Simple
Análisis de resultados en Minitab
Modelos de Regresión lineal
Análisis de Regresión Simple
Ej. 2:
Una empresa dedicada a la producción de cierto artículo perecible ZZ desea
evaluar la relación existente entre la distancia recorrida para transportar su
producto a los diferentes puntos de comercialización y las mermas producidas por
dicho transporte. Con este fin, se lleva a cabo un estudio en el que se observan,
entre otras variables, el porcentaje de carga útil final (luego del transporte) y la
distancia recorrida (decenas de kilómetros).
Muestra aleatoria de 12 recorridos con los siguientes resultados:
Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95
Distancia 33 12 18 3 4 8 66 5 37 29 15 10
Recorrida (x)

 Con la finalidad de establecer medidas preventivas, ¿Cuál será el


porcentaje de carga útil para un futuro transporte de 250 km.?
 ¿El modelo sirve?
Regresión
Lineal Múltiple
Regresión Lineal Múltiple
Matemáticamente, el Modelo de Regresión Lineal Múltiple (MRLM) se expresa:

𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + … + 𝜷𝒊 𝑿𝒊 + 𝜺𝒊
Donde, 𝜀𝑖 ~𝑁(0, 𝜎
2)

Supuestos:
 𝜺𝒊 representa la perturbación o error aleatorio, independiente, con
esperanza nula y distribución de probabilidad normal.
 Varios Regresores o variables independientes aportan una contribución
explicativa para el modelo que trata de estimar a la variable dependiente.
 Multi-Colinealidad entra las variables independientes y la dependiente.
 Homocedasticidad
ANOVA
 Análisis de Varianza
 Procedimiento para comparar varias medias poblacionales de forma simultánea.
 Se asume normalidad y es para variables en escala de Intervalos o Razón
 Se asume independencia.
 Se asume homocedasticidad

Tabla ANOVA para Regresión


 Formato de presentación de resultados con el que concluimos
 Sirve para análisis donde se quiera estudiar efectos en variables
endógenas o dependientes:
Fuente de Variación gl SC MC F0 P-value
Regresión k SCR MCR MCR/MCE

Error n-k-1 SCE MCE

Total n-1 SCT


Regresión Lineal Múltiple
Pruebas de significancia
 Analizar si la regresión es significativa y la podemos utilizar para la
predicción de los valores de Ŷ en función del cambio unitario en los
valores de X.
1) Prueba Global del Modelo

𝑯𝟎 : 𝜷𝟏 = 𝜷𝟐 =. . . = 𝜷𝒊 = 𝟎 (El modelo NO es útil)

𝑯𝟏 : ∃ 𝒊 /𝜷𝒊 ≠ 𝟎 (El modelo SÍ es útil)

Estadístico de Prueba:
𝑺𝑪𝑹
𝑴𝑪𝑹 𝒌
𝐅𝟎 = = ~ 𝒇(𝒌, 𝒏 − 𝒌 − 𝟏)
𝑴𝑪𝑬 𝑺𝑪𝑬
𝒏−𝒌−𝟏
Regresión Lineal Múltiple
Pruebas de significancia

2) Prueba de los Regresores

𝑯𝟎 : 𝜷𝒊 = 𝟎 (El regresor i-ésimo NO aporta al modelo)

𝑯𝟏 : 𝜷𝒊 ≠ 𝟎 (El regresor i-ésimo sí aporta al modelo)

Estadístico de Prueba:

𝒃𝒊
𝐓𝟎 = ~ 𝒕(𝒏 − 𝒌 − 𝟏)
𝑺𝒃
Regresión Lineal Múltiple
Pruebas de significancia

3) Prueba de la Correlación

𝑯𝟎 : 𝝆𝒙𝒚 = 𝟎 (No hay correlación a nivel poblacional)

𝑯𝟏 : 𝝆𝒙𝒚 ≠ 𝟎 (Sí existe correlación entre las variables, a nivel poblacional)

Estadístico de Prueba:

𝐫 𝒏−𝟐
𝐓𝟎 = ~ 𝒕(𝒏 − 𝒌 − 𝟏)
𝟏 − 𝒓𝟐
Regresión Lineal Múltiple
Análisis de resultados en Minitab
Regresión Lineal Múltiple
Análisis de resultados en Minitab
Ej. Regresión
Análisis de KPI de un proceso
Peter Drucker
¿Para qué son importantes los
modelos de Regresión?
“La
formulación
de un
problema es
más
importante
que su
solución”
Conclusiones finales:
1. Un buen análisis de datos
utiliza como mínimo Tendencia
central y Dispersión.

2. Los modelos de Regresión


permiten pronosticar en base
a variables independientes
relacionadas.
“Estudia el pasado si
quieres pronosticar el
futuro” (Confucio)
¿Qué aprendimos
hoy?
¡Gracias!
Ing. Miguel Ángel
Patiño Antonioli, MBA
mpatino@pucp.pe
+(51) 977342458
mpatino23 (Skype)

70
Estadística Aplicada
a los Procesos
Ing. MBA Miguel Ángel Patiño Antonioli

E-mail: mpatino@pucp.pe
WhatsApp: (+51) 977342458
Skype: mpatino23

Вам также может понравиться