Академический Документы
Профессиональный Документы
Культура Документы
DOCENTE:
ING. MARLENY PERALTA ASCUE
ALUMNO:
GIANCARLOS CRISTIAN CRUZ HUAMAN
APLICACIÓN DE TÉCNICAS DE MINERÍA DE DATOS
PARA MEJORAR EL PROCESO DE CONTROL DE
GESTIÓN EN ENTEL
CLEMENTE ANTONIO MARTÍNEZ ÁLVAREZ
TESIS PARA OPTAR AL GRADO DE MAGÍSTER EN GESTIÓN DE
OPERACIONES MEMORIA PARA OPTAR AL TÍTULO DE INGENIERO
CIVIL INDUSTRIAL
UNIVERSIDAD DE CHILE FACULTAD DE CIENCIAS FÍSICAS Y
MATEMÁTICAS DEPARTAMENTO DE INGENIERÍA INDUSTRIAL
SANTIAGO DE CHILE OCTUBRE, 2012
Introducción
Reducir el tiempo de
cálculo de indicadores de
servicios privados,
utilizados para la gestión
de ingresos de ENTEL, y
mejorar la oportunidad de
la información a través
del uso de modelamiento
multidimensional y la
aplicación de técnicas de
minería de datos.
Metodología: CRISP-DM (Cross
Industry Standard Process for Data
Mining)
Pretende estandarizar los
proyectos de minería de
datos, cuyo enfoque es
obtener el mejor provecho
del uso de Data Mining al
entender de la manera más
completa posible el
negocio y el problema que
se desea resolver.
Comprensión del negocio
Lo primero es comprender o
definir el problema del
negocio, lo cual es quizás el
paso más importante de la
metodología pues permite
entender los objetivos y
requisitos que tendrá el
proyecto.
Comprensión de los datos
Teniendo definido el
problema y el
proceso de negocio,
se comienza la
búsqueda de los
datos a los cuales
aplicar minería de
datos.
Preparación de los datos
Selección de atributos
Tecnicas Usadas
CLUSTERING
Los datos fueron los mismos del experimento anterior (3718 registros), que ahora
contaban con una “etiqueta” indicando el cluster de pertenencia.
Para aplicar los algoritmos
de clasificación, se realizó
un tratamiento de los
datos con la herramienta
RapidMiner (ver diagramas
en anexo 2),
transformando las
variables nominales a
binominales con valores
numéricos (0 y 1). Se
usaron 13 atributos
regulares para clasificar,
además del
CODIGO_SERVICIO que
identifica los registros.
El primer modelo se
construyó con un árbol de
decisión J4.8, el cual utiliza
medidas de información
para ir separando los
elementos. El segundo
modelo utilizó como
clasificador el algoritmo
SVM. Los parámetros
escogidos para cada uno
de ellos se muestran.
Tercer experimento: Asignación de
precios
El último experimento
consistió en valorizar los
códigos de servicio que
fueron clasificados en el
experimento anterior. El
último experimento consistió
en valorizar los códigos de
servicio que fueron
clasificados en el
experimento anterior. Para
ello, se tuvo que buscar
dentro de un mismo cluster
aquellos elementos que se
asemejaban más en sus
atributos al elemento
clasificado, es decir, se utilizó
una medida de similitud.
Lo primero que se hizo en esta etapa
fue asociarle un peso a los atributos,
revisando para ello los gráficos de
importancia de cada uno, los cuales
se obtuvieron en el experimento 1. El
resumen de estas relevancias se
muestra en la Tabla , donde 1
significa que el atributo es el más
importante, y 13 el menos.
Para llevar este ranking de variables a
pesos, se aplicó una función monótona
decreciente f(x) y luego se
normalizaron los valores. Sea Xij la
importancia del atributo i en el cluster j
, entonces el peso W asociado a ese
atributo se calcula como sigue: