Sesión 2 - Estadística Sumaria y KPI de Procesos

Estadística Aplicada
a los Procesos
Ing. MBA Miguel Ángel Patiño Antonioli
E-mail: mpatino@pucp.pe
WhatsApp: (+51) 977342458
Skype: mpatino23
Recordando la clase anterior…
¿Qué recuerdas?
Sesión 2:
“Estadística Sumaria y
KPI de procesos”
Objetivos
Al finalizar esta sesión, el alumno:
1. Conoce el cálculo de las Medidas de Tendencia
Central y comprende la aplicabilidad.
2. Conoce el cálculo de las Medidas de Dispersión y
comprende la aplicabilidad.
3. Conoce el cálculo de las Medidas de Asimetría y
comprende la aplicabilidad.
4. Es capaz de desarrollar un análisis de Regresión así
como de interpretar los resultados.
5. Domina las herramientas de Estadística Descriptiva y
reconoce cuándo emplear cada una en un contexto real.
Agenda
1) Resumen numérico de los datos
i. Medidas de Tendencia Central.
ii. Medidas de Dispersión
iii. La importancia de la “limpieza de datos”
iv. Medidas de Simetría y Curtosis
v. Medidas de Posición
2) Modelos de Regresión
i. Análisis bivariado de los Modelos de Regresión:
a. Modelo de Regresión Lineal Simple (MRLS).
b. Ecuación de la recta de Regresión de Mínimos Cuadrados
c. Teoría de las Variaciones
d. Coeficiente de Correlación de Pearson de Pearson
e. Coeficiente de Determinación
ii. Modelo de Regresión Lineal Múltiple (MRLM).
iii. KPI de ajuste y modelos
Control de lectura
Lecturas previas obligatoria
Puente, Viedma, Carlos de la (2018).

Estadística Descriptiva Univariable. En
Estadística
descriptiva e inferencial, Ediciones IDT.
ProQuest Ebook Central.
Recuperado de:
https://ebookcentral.proquest.com/lib/pucp
centrumsp/detail.action?docID=5486569#
“La Estadística
es una ciencia
que demuestra
que si mi vecino
tiene dos coches
y yo ninguno,
entonces…
los dos
George Bernard Shaw
(1856-1950) tenemos uno.”
“Un estadístico
podría meter su
cabeza en un
horno y sus
pies en hielo, y
decir que en
promedio …
Peter Drucker se encuentra
bien.”
Resumen numérico de los datos
Características clave de los Datos
Tendencia Central
(Posición)
Dispersión
(Variación)
Asimetría
Medidas de
Tendencia Central
Debate en equipos:
¿Por qué no existe una única
medida de tendencia central?
“The only certainty is
that nothing is certain”
Medidas de Tendencia Central
 Aquellas que nos indican cual podría ser el punto medio
o representativo de un conjunto de datos analizados.
 Llamados “Promedios”, buscan dar su “opinión” respecto
al valor central. Los principales son:
 Media Aritmética simple

 Media Ponderada
 Media Geométrica
 Media Armónica
 Mediana
 Moda
Media Aritmética Simple
𝒏
 La suma de las desviaciones
de cualquier valor y la media
𝒙= 𝒙𝒊 𝒉𝒊
es cero.
 Es sesgada (afectada) por
𝒊=𝟏
valores extremos.
“A la Media no le importa
cuántos sean los datos,
sino cuánto valgan”
M.A.P.A.
Media Ponderada
 Media aritmética incluyendo su importancia relativa

(peso específico, wi) en el grupo.
 No todos los elementos son igual de importantes.
k
w x i i
x p
 i 1
k
w
i 1
i
Media Geométrica
 Sirve para promediar  G  N X 1 X 2 X 3 .. X n

porcentajes de
variación, índices y
cifras relativas.  N 1 Valoralfinal 
 G   Valoralinicio   1
 Determina el incremento
 
porcentual promedio en
ventas, producción,
tiempos, etc.
Ejercicio 1:
La siguiente tabla muestra la variabilidad de los Lead Time de
entrega de un producto a un cliente determinado durante los
últimos meses:
En diciembre, el Lead Time fue de 15.03 días.
Meses Enero Febrero Marzo Abril Mayo
Lead Time (días) 15.42 7.60 9.29 12.69 10.19
1. Calcule e interprete la variación promedio mensual del Lead Time.

2. ¿Cómo impactaría que los Lead Time sean crecientes?
3. Si la promesa de tiempo al cliente es 15 días, qué tan bien estamos?
Mediana
 0.5  H i 1 
 Punto medio de los Med  Li  A *  
valores después de
ordenarlos.
 hi 
 No es afectada por Intervalos
valores extremos.
“A la Mediana no le importa cuánto

valgan los datos, sino cuántos sean”
M.A.P.A.
Mediana
Ejemplo:
Los siguientes datos se refieren al número de clientes atendidos
durante los últimos 11 días en una tienda de artefactos. Calcule
e interprete la mediana.
12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16
Primero se ordenan lo datos:
5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17
mediana
5 datos menores 5 datos mayores
Interpretación:
Durante 5 días se atendieron a menos de 11 clientes, y durante 5 días se
atendieron a más de 11 clientes.
Moda
 d1 
 Valor que más se repite en Mo  Li   i
un conjunto de datos.  d 1  d 2
 No es afectada por valores DatosAgrupados
extremos.
 Para datos discretos es
fácil de calcular.
 No puede ser calculada
exactamente en una
distribución de frecuencias.
Selección del promedio más adecuado
 La mediana siempre es la posición central.

 La moda se puede emplear cuando se requiere una
idea rápida de la tendencia central.
 La más usada es la media aritmética.
 La más representativa para datos de una distribución
asimétrica es la mediana.
 Media valor de equilibrio de Magnitud .
 Mediana valor de equilibrio de Cantidad.
 Moda valor con mayor frecuencia.
¿Cómo nos impactan los
Outliers
(datos atípicos/extremos)?
VOLATILIDAD
VARIABLIDAD
HETEROGENEIDAD
¿Cuántos zapatos tienes?
(incluye sandalias, etc.)
Récord a la fecha:
83 zapatos!!!
Medidas de
Dispersión
Medidas de Dispersión www.leansolutions.co
Medidas de Dispersión
Coeficiente de Variación (CV)
 Indica la magnitud relativa de la desviación estándar con

respecto a la media aritmética.
 Permite comparar varios conjuntos de datos para analizar:
 Homogeneidad
S
 Heterogeneidad CV    *100%
x
( Muestral )
Medidas de Dispersión
Coeficiente de Variación
CV Grado de Variabilidad
0% < CV < 10% Datos muy homogéneos
10% ≤ CV < 15% Datos regularmente homogéneos
15% ≤ CV < 20% Datos regularmente variables
20% ≤ CV < 25% Datos variables
CV ≥ 25% Datos muy variables
Medidas de Posición
Fractiles
F j  X  jn F  0.5
 Medidas de posición.
DatosNoAgrupados
 Dividen en:
 Cuartiles (Qj)  jn  faA
 Deciles (Dj)
   F i
 Centiles (Pj) F j Lij  f 
 Formulación semejante  ij 
a la mediana. DatosAgrupados
La mediana es el segundo cuartil, 5º Decil y 50º percentil:
Me = Q2 = D5 = P50
Cuartiles en el Diagrama de Cajas
Medidas de Simetría y Curtosis
Coeficiente de Asimetría de Pearson
 Establece si una distribución es simétrica o no.

 No tiene unidades
 Valores entre -3 y 3, normalmente no mayor de -1 y 1.
3(𝜇 − 𝑀𝑒𝑑)
𝑆𝑘𝑝 =
𝜎
3(𝑥 − 𝑚𝑒𝑑)
𝑆𝑘𝑝 =
𝑠
𝑆𝑘𝑝 = 0
Sesgo de una distribución
Negativamente Positivamente
Simétrica Sesgada
Sesgada
Media < Mediana < Moda Media = Mediana = Moda Moda < Mediana < Media
Coeficiente de Curtosis
 Grado de concentración con relación a la media aritmética.

 Se emplea para distribuciones unimodales simétricas.
 Sin unidades.
 Valores (0, ½) 1 𝑄3 − 𝑄1
𝑘𝑢 =
2 𝐷9 − 𝐷1
Pregunta de reflexión inicial:
¿Para qué nos interesaría

calcular un Pronóstico?
“La Estadística
es el único
tribunal de
apelación para
juzgar el nuevo
P. C. Mahalonibis
conocimiento”
(1893-1972)
Reflexión inicial
¿Qué es mejor,
proyectar una
Serie de tiempo
o una Regresión
múltiple para
estimar las
ventas de una
empresa?
Introducción a la Regresión
Conceptos clave
 Modelo de Regresión
 Regresor
 Coeficiente de Regresión
 Intercepto
 Pronóstico
 Función de modelación
 Mínimos Cuadrados
Regresión
Asociación entre variables
 Variable Dependiente: variable a ser “explicada” y cuyo

comportamiento depende, presumiblemente, de los
efectos de las variables independientes.
 Variable Independiente: variable que, en teoría,

“explica” el comportamiento de la variable dependiente.
 El nivel de ingresos (dependiente) depende del nivel de

educación (independiente)
 Una variable puede ser definida como dependiente en

un análisis y como independiente en otro.
Introducción a la Regresión
Tipos de Regresión
Por el número de Regresores
Simple Múltiple
Por el tipo de función
Recta de Recta de
Lineal Regresión con Regresión con 2 o
1 Regresor más Regresores
Curva de Curva de
No Lineal Regresión con Regresión con 2 o
1 Regresor más Regresores
Regresión Lineal Simple
Ejemplos
 La demanda de un producto depende del

número de consumidores, o de su ingreso.
 El precio en el mercado depende del número
de competidores o de los costos.
 Una empresa que posee estaciones de
gasolina desea pronosticar sus ventas y utiliza
como variable explicativa el número de autos
en el distrito.
Modelos de Regresión lineal
Análisis de Regresión Simple
Recta de Regresión
14
Y
12 * Y’
10 Valor Y’=2.7+2.1X
Efectivo *
8 Valor
Estimado
6
4
2
0
0 1 2 3 4 5
Análisis de Regresión
Variaciones
14
Y
* Variación no Y’
12
Explicada
10 Variación
8 Total *
Variación
6 Explicada
4
2
Y
0
0 1 2 3 4 5
KPI de calidad de ajuste en la Regresión
 Buscan medir la performance del modelo.

 Existen tres coeficientes principales:
– Coef. de Correlación (r).
– Coef. de Determinación (R2).
– Coef. de Determinación Ajustado (Ra2).
NO HAY
FUERTE
RELACIÓN
FUERTE r
-1 - 0.7 0 0.7 1
0.7
FUERTE
1
R2
0
Medidas de Correlación
Ejemplos de posibles correlaciones
(a) Lineal directamente proporcional (b) Lineal inversamente proporcional (c) Curvilínea directa
Y Y
(r > 0) • (r < 0) Y
•
• • • • ••
• •
• • • • •
• • • ••
• • X X
• • •
X
Y • Y Y
(r≈0)
• •• • • • ••
•• • • •• • • •
••
• •• • • • • ••
• • •
•• •• •• • • •
••• •
• •
X X X
(d) Curvilínea inversa (e) Lineal inversamente proporcional (d) Ninguna relación
con más dispersión
Ejemplos de posibles correlaciones
Coeficiente de Determinación (R2)
Y Y’ 𝑌 (Y- 𝑌 )2 (Y’- 𝑌 )2 (Y-Y’)2
9 9.0 9 0 0.0 0.0
5 4.8 9 16 0.2 0.04
7 6.9 9 4 0.1 0.01
14 13.2 9 25 0.8 0.64
10 11.1 9 1 -1.1 1.21
∑= 46 ∑= 44.10 ∑= 1.90
Variación Total = Variación Explicada + Variación No Explicada
46 = 44.10 + 1.90
Var.Explicada  (Y 'Y ) 2 96% de la variación del

r 
2
  0.96 Tiempo de entrega (Y) está
Var.Total  (Y  Y )
2
explicada por la variación del

tiempo de empaque (X).
Regresión Lineal Simple
Análisis de resultados en Minitab
Ej. 2:
Una empresa dedicada a la producción de cierto artículo perecible ZZ desea
evaluar la relación existente entre la distancia recorrida para transportar su
producto a los diferentes puntos de comercialización y las mermas producidas por
dicho transporte. Con este fin, se lleva a cabo un estudio en el que se observan,
entre otras variables, el porcentaje de carga útil final (luego del transporte) y la
distancia recorrida (decenas de kilómetros).
Muestra aleatoria de 12 recorridos con los siguientes resultados:
Carga Útil (y) 91 95 93 98 97 97 88 94 89 90 92 95
Distancia 33 12 18 3 4 8 66 5 37 29 15 10
Recorrida (x)
 Con la finalidad de establecer medidas preventivas, ¿Cuál será el

porcentaje de carga útil para un futuro transporte de 250 km.?
 ¿El modelo sirve?
Regresión
Lineal Múltiple
Regresión Lineal Múltiple
Matemáticamente, el Modelo de Regresión Lineal Múltiple (MRLM) se expresa:
𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + … + 𝜷𝒊 𝑿𝒊 + 𝜺𝒊
Donde, 𝜀𝑖 ~𝑁(0, 𝜎
2)
Supuestos:
 𝜺𝒊 representa la perturbación o error aleatorio, independiente, con
esperanza nula y distribución de probabilidad normal.
 Varios Regresores o variables independientes aportan una contribución
explicativa para el modelo que trata de estimar a la variable dependiente.
 Multi-Colinealidad entra las variables independientes y la dependiente.
 Homocedasticidad
ANOVA
 Análisis de Varianza
 Procedimiento para comparar varias medias poblacionales de forma simultánea.
 Se asume normalidad y es para variables en escala de Intervalos o Razón
 Se asume independencia.
 Se asume homocedasticidad
Tabla ANOVA para Regresión

 Formato de presentación de resultados con el que concluimos
 Sirve para análisis donde se quiera estudiar efectos en variables
endógenas o dependientes:
Fuente de Variación gl SC MC F0 P-value
Regresión k SCR MCR MCR/MCE
Error n-k-1 SCE MCE
Total n-1 SCT

Pruebas de significancia
 Analizar si la regresión es significativa y la podemos utilizar para la
predicción de los valores de Ŷ en función del cambio unitario en los
valores de X.
1) Prueba Global del Modelo
𝑯𝟎 : 𝜷𝟏 = 𝜷𝟐 =. . . = 𝜷𝒊 = 𝟎 (El modelo NO es útil)
𝑯𝟏 : ∃ 𝒊 /𝜷𝒊 ≠ 𝟎 (El modelo SÍ es útil)
Estadístico de Prueba:
𝑺𝑪𝑹
𝑴𝑪𝑹 𝒌
𝐅𝟎 = = ~ 𝒇(𝒌, 𝒏 − 𝒌 − 𝟏)
𝑴𝑪𝑬 𝑺𝑪𝑬
𝒏−𝒌−𝟏
2) Prueba de los Regresores
𝑯𝟎 : 𝜷𝒊 = 𝟎 (El regresor i-ésimo NO aporta al modelo)
𝑯𝟏 : 𝜷𝒊 ≠ 𝟎 (El regresor i-ésimo sí aporta al modelo)
𝒃𝒊
𝐓𝟎 = ~ 𝒕(𝒏 − 𝒌 − 𝟏)
𝑺𝒃
3) Prueba de la Correlación
𝑯𝟎 : 𝝆𝒙𝒚 = 𝟎 (No hay correlación a nivel poblacional)
𝑯𝟏 : 𝝆𝒙𝒚 ≠ 𝟎 (Sí existe correlación entre las variables, a nivel poblacional)
𝐫 𝒏−𝟐
𝐓𝟎 = ~ 𝒕(𝒏 − 𝒌 − 𝟏)
𝟏 − 𝒓𝟐
Ej. Regresión
Análisis de KPI de un proceso
Peter Drucker
¿Para qué son importantes los
modelos de Regresión?
“La
formulación
de un
problema es
más
importante
que su
solución”
Conclusiones finales:
1. Un buen análisis de datos
utiliza como mínimo Tendencia
central y Dispersión.
2. Los modelos de Regresión

permiten pronosticar en base
a variables independientes
relacionadas.
“Estudia el pasado si
quieres pronosticar el
futuro” (Confucio)
¿Qué aprendimos
hoy?
¡Gracias!
Ing. Miguel Ángel
Patiño Antonioli, MBA
mpatino@pucp.pe
+(51) 977342458
mpatino23 (Skype)
70
Estadística Aplicada
a los Procesos
Ing. MBA Miguel Ángel Patiño Antonioli
E-mail: mpatino@pucp.pe
WhatsApp: (+51) 977342458
Skype: mpatino23

Sesión 2 - Estadística Sumaria y KPI de Procesos

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Sesión 2 - Estadística Sumaria y KPI de Procesos

Загружено:

Авторское право:

Доступные форматы

Estadística Aplicada

Puente, Viedma, Carlos de la (2018).

 Media Aritmética simple

 Media aritmética incluyendo su importancia relativa

 Sirve para promediar  G  N X 1 X 2 X 3 .. X n

1. Calcule e interprete la variación promedio mensual del Lead Time.

“A la Mediana no le importa cuánto

 La mediana siempre es la posición central.

 Indica la magnitud relativa de la desviación estándar con

La mediana es el segundo cuartil, 5º Decil y 50º percentil:

 Establece si una distribución es simétrica o no.

 Grado de concentración con relación a la media aritmética.

¿Para qué nos interesaría

 Variable Dependiente: variable a ser “explicada” y cuyo

 Variable Independiente: variable que, en teoría,

 El nivel de ingresos (dependiente) depende del nivel de

 Una variable puede ser definida como dependiente en

 La demanda de un producto depende del

 Buscan medir la performance del modelo.

Var.Explicada  (Y 'Y ) 2 96% de la variación del

explicada por la variación del

 Con la finalidad de establecer medidas preventivas, ¿Cuál será el

Tabla ANOVA para Regresión

Error n-k-1 SCE MCE

Total n-1 SCT

𝑯𝟎 : 𝜷𝟏 = 𝜷𝟐 =. . . = 𝜷𝒊 = 𝟎 (El modelo NO es útil)

𝑯𝟏 : ∃ 𝒊 /𝜷𝒊 ≠ 𝟎 (El modelo SÍ es útil)

2) Prueba de los Regresores

𝑯𝟎 : 𝜷𝒊 = 𝟎 (El regresor i-ésimo NO aporta al modelo)

𝑯𝟏 : 𝜷𝒊 ≠ 𝟎 (El regresor i-ésimo sí aporta al modelo)

𝑯𝟎 : 𝝆𝒙𝒚 = 𝟎 (No hay correlación a nivel poblacional)

𝑯𝟏 : 𝝆𝒙𝒚 ≠ 𝟎 (Sí existe correlación entre las variables, a nivel poblacional)

2. Los modelos de Regresión

Вам также может понравиться