Вы находитесь на странице: 1из 5

Revista de la Escuela de Estudios de Postgrado, Vol. 8 No. 1, año 2017.

ISSN 2518-4725.

ANALISIS EXPLORATORIO DE DATOS COMO HERRAMIENTA DE SOLUCIÓN DE


PROBLEMAS

Ing. M Sc. PMP José Antonio Medrano García


Mtro. En Análisis y Administración de la Confiabilidad
jamedrano@uvg.edu.gt

Resumen
Abstract
El análisis exploratorio de datos es una de las etapas
más importantes de un proyecto de mejora bajo el
Exploratory Data Analysis (EDA) is one of he most
modelo DMAIC (Define, Measure, Analyze &
important stages in a continuous improvement
Control) de la metodología Six Sigma.
project using the DMAIC (Define, Measure, Analyse,
Improve, Control) models for Six Sigma
En este artículo se presenta una breve reseña del
methodology.
análisis exploratorio de datos (AED) como una
poderosa herramienta para identificar y solucionar
This article presents a brief review of EDA as a
problemas de calidad en los procesos de cualquier
powerful tool to pinpoint and solve quality issues in
tipo.
any type of process.
Se utilizó para tal efecto un software estadístico de
For this purpose, an open source statistical tool was
código abierto que es uno de los más utilizados a
used, which is one of the most used statistical
nivel mundial, R y su interfase RStudio para
software worldwide, R and the RStudio IDE in
realizar un análisis exploratorio de un problema
order to analyze a fictitious problem. Based on the
ficticio. En base a los resultados obtenidos se pudo
results of the analysis, it was possible to identify
identificar el problema subyacente y proponer
the underlying problem and to propose some
algunas soluciones al mismo.
solutions.
Palabras clave
Keywords
Análisis Estadístico, Calidad, Procesos, Mejora
Statistical Analysis, Quality, Process, Continuous
Continua, Six Sigma, Software Estadístico.
Improvement, Six Sigma, Statistical Software.
Revista de la Escuela de Estudios de Postgrado, Vol. 8 No. 1, año 2017.
ISSN 2518-4725.

Introducción Uno de los pilares fundamentales del AED es la


En la enseñanza tradicional de la metodología visualización de los datos utilizando una amplia gama
estadística se utiliza comúnmente el paradigma de representaciones gráficas. La frase “una imagen
confirmatorio. Este paradigma parte de una pregunta dice más que mil palabras” adquiere un sentido cuasi
de investigación predefinida y a partir de ahí se literal en este caso, ya que visualizando los datos con
desarrolla un plan de recolección de datos, un análisis una o dos gráficas se puede obtener un mayor
orientado a confirmar la hipótesis inicial y finalmente entendimiento del problema que con una descripción
la respuesta del análisis. En la práctica del análisis de detallada y muchos números.
datos dentro del contexto de la mejora continua, Entre las gráficas más utilizadas en el AED están:
usualmente se generan muchos datos durante la
 Histogramas
operación de los procesos, ya sea productivos o
 Gráficos de Cajas
transaccionales, pero estos datos no necesariamente
 Gráficos de Dispersión
fueron recolectados con un fin específico.
 Gráficos de Comportamiento o Tendencia
El Análisis Exploratorio de Datos permite, como su
Desarrollo del tema
nombre sugiere, iniciar con una exploración
preliminar de los datos para generar, a partir de esto, El presente ensayo muestra la forma como se aplica
una serie de preguntas que después pueden ser la metodología del AED a un problema ficticio muy
respondidas a profundidad. También permite, de una sencillo en un entorno de manufactura. Supóngase
forma simple y rápida, identificar comportamientos o que una planta que envasa un producto líquido en
relaciones entre variables que pueden ayudar a botellas y cuyo contenido debe ser 350 ml., está
explicar fenómenos o problemas que se dan dentro recibiendo quejas constantes de sus clientes sobre la
del proceso. cantidad de producto que cada envase lleva.
El análisis exploratorio puede clasificarse según la El proceso de envasado se lleva a cabo en dos líneas
cantidad y el tipo de variables involucradas en de producción, cada una de las cuales tiene una
Univariado, Bivariado y Multivariado y según el tipo máquina llenadora.
de herramientas utilizadas en Gráfico y Analítico.
Se cuenta con datos del área de calidad que muestrea
en forma continua ambas líneas de llenado. Al tomar
una muestra de 100 datos que contiene el volumen de
cada envase y el número de máquina de llenado.
Si se hiciera un simple análisis descriptivo de los
datos se obtendría lo siguiente:

Figura 1. Taxonomía del AED


Fuente: elaboración propia.
Revista de la Escuela de Estudios de Postgrado, Vol. 8 No. 1, año 2017.
ISSN 2518-4725.

Tabla I. cualquier desviación de esta distribución debe ser


Estadísticas Descriptivas para la muestra completa analizada para identificar sus causas posibles.

Medida Valor El otro diagrama que puede ser útil es el gráfico de


Media 347.14 cajas o boxplot que muestra en una sola gráfica cosas
Mediana 343 como:
Rango 69
 Tendencia central
Desv. Est. 14.23
 Dispersión
Fuente: elaboración propia  Simetría
Aunque estas son medidas estadísticas muy comunes,  Datos Atípicos
pocas personas en realidad son capaces de entender e
interpretar correctamente estos resultados y poder
llegar a conclusiones importantes. Un hallazgo
interesante es el hecho que la media y la mediana no
son iguales, siendo la media mayor. Esto es un
indicio de un sesgo positivo o sesgo hacia la derecha.
Lo más recomendable quizá sería visualizar los datos
de alguna forma. Para datos continuos, un
histograma es una representación apropiada.

Figura 3. Boxplot de la muestra de 100 datos de llenado


Fuente: elaboración propia
Nuevamente, el gráfico muestra algunos hallazgos
que pueden ser útiles, como el hecho que existe un
sesgo lo cual se puede ver al notar que la línea central
de la caja (mediana) no se encuentra justo en medio y
que existe una cantidad de datos atípicos o outliers
que se muestran como puntos arriba de la pata
superior.
Figura 2. Histograma de la muestra de 100 datos de llenado En el análisis de causa raíz de problemas, una de las
Fuente: elaboración propia técnicas mas utilizadas es la identificación de los
Nuevamente, el histograma muestra un sesgo hacia la factores (variables generalmente cualitativas o
derecha (sesgo positivo). En un proceso industrial, se cuantitativas discretas) que inciden en la variación de
esperaría que el resultado de una característica de la característica de calidad de interés.
calidad se distribuya normalmente, por lo que
Revista de la Escuela de Estudios de Postgrado, Vol. 8 No. 1, año 2017.
ISSN 2518-4725.

En este caso, por tratarse de un ejemplo ficticio, Aquí puede observarse en un solo vistazo claramente
solamente se incluyó un factor posible, la máquina la diferencia entre lo que está produciendo la
llenadora. Los factores generalmente son utilizados máquina 1 y lo que produce la máquina 2. Aunque
para segmentar o estratificar los datos, de manera que la máquina 1 tiene una mejor tendencia central, ya
puedan analizarse por separado para identificar las que su mediana se encuentra justo en el valor de la
diferencias que existen en la variable respuesta según especificación (350 ml), su dispersión es casi 4
el nivel del factor. En este caso se procede a calcular veces la de la máquina 2, cuya tendencia central
nuevamente las estadísticas descriptivas pero está por debajo de lo requerido pero cuya dispersión
segmentadas por máquina: es bastante menor.
Tabla II. Es claro que ambas máquinas tienen problemas que
Estadísticas Descriptivas por máquina. inciden negativamente en la calidad del producto
que está llegando al cliente y de ahí surgen los
Medida Maq 1 Maq 2
Media
reclamos que la empresa ha estado recibiendo. Se
353.36 340.92
Mediana 350 340 debe recordar una máxima atribuida al Dr. Edwards
Desv. Est. 17.52 4.83 Deming: “La variabilidad es el enemigo de la
Rango 69 22 calidad” lo cual aplica muy bien en este caso. Los
clientes perciben un problema de calidad al
Fuente: elaboración propia observar que muchas veces el producto contiene
Aquí ya se puede observar una diferencia significativa menos de lo que ellos esperan. En realidad algunas
entre los resultados producidos por cada una de las veces el producto contiene más de lo requerido,
máquinas. Se pueden obtener conclusiones pero eso generalmente no es percibido por el cliente
interesantes de los resultados numéricos, pero vale sino solamente los casos en los cuales el contenido
la pena tener una visualización de los mismos es menor. Esto genera una percepción de que se
utilizando un boxplot. está entregando menos producto que lo que el
cliente está pagando por lo que existe una sensación
de engaño.
Los problemas de ambas máquinas en realidad son
diferentes. El caso de la máquina 1 se puede ver
que su localización (tendencia central) está bien
pero su dispersión es muy grande, lo cual puede ser
atribuido a un problema mecánico, un desajuste,
desgaste de piezas u otras causas. La acción a toma
en este caso es una revisión profunda de la máquina
para identificar esa causa y corregirla.

Figura 4. Boxplot del volumen de llenado por máquina


Fuente: elaboración propia
Revista de la Escuela de Estudios de Postgrado, Vol. 8 No. 1, año 2017.
ISSN 2518-4725.

En el caso de la máquina 2, su tendencia central está


por debajo de lo esperado por casi 10 ml. pero su Magister Scientae en Análisis y Administración de la
dispersión es bastante baja, lo cual sugiere que con Confiabilidad, FISICC, Universidad Francisco
un ajuste del setting o una recalibración del Marroquín, 1998.
volumen de llenado se puede corregir el problema
sin necesidad de recurrir a una reparación más
profunda.
Para llegar a esta conclusión era suficiente haber visto
el gráfico de cajas separado por máquina, lo cual
demuestra lo poderoso que puede ser el análisis
exploratorio gráfico.

Síntesis conclusiva
En este trabajo se pudo ejemplificar cómo un sencillo
análisis exploratorio de datos puede ayudar a obtener
información muy valiosa de posibles causas raíz de
problemas. La visualización de datos utilizando
gráficos sencillos es de suma utilidad para llegar a
conclusiones importantes para la solución de
problemas.
Existen herramientas de software disponibles en
forma gratuita que permiten el análisis de datos y su
representación gráfica y que están al alcance de
cualquier persona u organización.

Referencias bibliográficas

1. Parra Olivares, Javier; (2002). Análisis


exploratorio y análisis confirmatorio de
datos. Espacio Abierto, enero-marzo
2. NIST/SEMATECH e-Handbook of Statistical
Methods,
http://www.itl.nist.gov/div898/handbook/,
Julio 2017.

Información del autor


Ingeniero Químico José Antonio Medrano García,
Facultad de Ingeniería, Universidad de San Carlos de
Guatemala, 1995.

Вам также может понравиться