Вы находитесь на странице: 1из 4

TCNICAS DE MINERA DE DATOS Y SUS APLICACIONES EN EL

ANLISIS DE CHURN CLIENTES


En las ltimas dcadas se han producido mejoras significativas y
cambios en los volmenes de datos almacenados en archivos,
bases de datos, Y otros repositorios. Para ayudar en el proceso de
toma de decisiones, es necesariamente vital desarrollar tcnicas
poderosas de anlisis e interpretacin de datos, as como
desarrollar herramientas que pueden ser importantes en la
extraccin de interesantes patrones ocultos y
Conocimiento [16]. El algoritmo de minera de datos tiene la
capacidad de desvelar estos patrones y sus relaciones ocultas, y es
un componente integral de un proceso complejo que comnmente
se conoce como Knowledge Discovery in Databases (KDD), que
explica los pasos que deben tomarse para asegurar que los datos
completos Anlisis [17]. De acuerdo con Shearer [18], CRISP-DM
modelo es sinnimo de Cross-Industry Standard Process para el
modelo de minera de datos. Es principalmente para la realizacin
de un proceso de minera de datos, cuyo ciclo de vida consta de
seis fases, como se muestra en la Fig. 1.Fig 1: Las fases del modelo
de minera de datos CRISP El primer paso es entender los datos
que sirve a los valores comerciales. La preparacin de los datos
implica el preprocesamiento de los datos brutos que contienen
informacin limitada. Esto a veces puede implicar la eliminacin de
los valores perdidos, la cuantificacin, la conversin de las
variables categricas en numricas. El proceso de modelado
implica la construccin de un modelo adecuado utilizado para
extraer la informacin y tambin evaluar la informacin para servir
a los propsitos de negocio y aceptar el mismo modelo despus de
la comprobacin de los atributos importantes como
performanceand precisin. La etapa final involucra la generacin
de un informe o la implementacin de un proceso de minera de
datos repetible en toda la empresa involucrada como un
despliegue y la ltima fase [18]. La aplicacin del anlisis de datos
al churn se dirige hacia la prediccin de si un cliente individual se
churn, Que se espera que se produzca churn y las razones por las
que se produce el churn. A travs de la prediccin de los clientes
que son ms propensos a churn, las empresas de
telecomunicaciones son capaces de reducir la tasa de churn a
travs de ofrecer a los clientes alternativas y mejores incentivos o
paquetes para encontrar razones para quedarse [19]. Para manejar
con xito el desafo de prediccin de churn, diferentes
investigadores han puesto en uso diferentes algoritmos de
aprendizaje de mquina adems de herramientas de minera de
datos. Esta seccin presenta los principales mtodos de minera de
datos (redes neuronales, tcnicas basadas en estadsticas, rboles
de decisin y algoritmos de cobertura) y su uso en el contexto del
Anlisis de Churn de los clientes.
REDES NEURONALES es una tcnica de minera de datos que tiene
la capacidad de aprender de los errores [11]. Las redes neuronales
son motivadas por el cerebro. Esto sucede en el sentido de que el
cerebro aprende algunas cosas nuevas que luego se transmitirn a
travs de las neuronas. Igualmente, la neurona de la red neuronal
con algoritmos de aprendizaje es capaz de aprender de los datos
de entrenamiento; Esto hace que se conozca como Redes
Neuronales Artificiales (ANN) [20]. Los resultados de Lazarov y
Capota [21] trabajo mostr que las RNA dio los mejores resultados
en comparacin con otros algoritmos conocidos. Adems,
argumentaron que un modelo de prediccin apropiado requiere
actualizacin constante, y debera poner en aplicacin una
variedad de algoritmos de minera de datos. Au et al. [22] creen
que la mayor limitacin de las redes neuronales es que difcilmente
descubrir patrones de una manera fcilmente comprensible. Su
estudio tambin ha demostrado que las redes neuronales superan
los rboles de decisin para la prediccin del churn a travs de la
identificacin de ms churners en comparacin con los rboles de
decisin C4.5. Esto est en lnea con la investigacin
proporcionada por Mozer et al. En [23] que muestra que la red
neural no lineal supera el rbol de decisin y la regresin logstica.
En su artculo, Sharma y Panigrahi [24] proponen un enfoque
basado en redes neuronales en la prediccin de la rotacin de
clientes en lnea con los servicios inalmbricos celulares. Los
resultados de los experimentos en un conjunto de datos de churn
del repositorio UCI indican que el enfoque basado en redes
neuronales puede predecir el churn del cliente con una precisin
de ms del 92%. La precisin que se logra por las redes neuronales
supera ampliamente la limitacin de que necesitan grandes
volmenes de conjuntos de datos y mucho tiempo para calcular
una carga considerable para los atributos predictores [21].
TCNICA ESTADSTICA BASE Las tcnicas estadsticas son una
coleccin de mtodos aplicados en la minera de datos utilizados
para procesar grandes volmenes de datos. Se utilizan en enlaces
de aprendizaje entre los atributos dependientes e independientes.
Esta seccin presenta las principales tcnicas de minera de datos
basadas en datos estadsticos (regresin lineal, regresin logstica,
clasificador Naive Bayes y algoritmo K-viz. Ms cercano) y su uso
en el contexto del anlisis de churn de clientes. Las tcnicas
basadas en regresin se han asociado con buenos resultados en la
prediccin Y la estimacin del churn. En el problema del churn del
Cliente, a menudo hay un resultado categrico de dos decisiones.
El resultado es S o No, verdadero o falso, o churns o no churns.
Las variables restantes son en su mayora de naturaleza continua
debido a que la regresin logstica parece ser la mejor opcin [20].
Lazarov & Capota [21] discutieron el algoritmo de minera de datos
de uso comn en el anlisis y prediccin de churn de clientes. Las
tcnicas de rbol de regresin se discutieron junto con otros
mtodos de minera de datos populares como
rboles de decisin, aprendizaje basado en reglas y redes
neuronales. La conclusin fue que los buenos modelos de
prediccin tienen que ser desarrollados constantemente y una
combinacin de las tcnicas propuestas debe ser usada. Qureshi et
al. [20] tambin aplic tcnicas de regresin logstica en datos de
la industria de telecomunicaciones para identificar churners. No
funcion bien, ya que slo el 45% del nmero total de churners se
identific correctamente, que es un porcentaje muy bajo. Por el
contrario, la regresin logstica hizo un buen trabajo al identificar el
78% del nmero total de usuarios activos correctamente. Otra
aplicacin es realizada por Nie et al. [25] que utilizaron dos
algoritmos de minera de datos; rboles de decisin y regresin
logstica para construir un modelo de prediccin de churn.
Utilizaron datos de tarjetas de crdito de un banco chino real. El
resultado de la prueba clasific la regresin por delante de los
rboles de decisin. Bayes Naive es un mdulo de aprendizaje
supervisado que hace predicciones sobre datos no vistos basados
en el teorema bayesiano [21]. Nath & Behara [26] ide un modelo
de prediccin del churn de los clientes. Esto se bas en el
algoritmo de Bayes Naive en datos de clientes inalmbricos.
Obtuvo un 68% de precisin en el primer pase que se bas en el
modelo bayesiano.

El algoritmo K-Nearest Neighbors es uno de los enfoques de clasificacin


estadstica tradicional bsica. La asignacin de etiqueta de clase de la
instancia invisible se basa en la etiqueta de clase dominante de las k
instancias vecinas. Este clasificador considera slo las k entradas ms
cercanas en el conjunto de entrenamiento [4]. Zhang et al. [27] que present
en su investigacin un enfoque hbrido del k-vecino ms cercano algoritmo y
tambin el mtodo de regresin logstica para la construccin de un
clasificador binario llamado KNN-LR. Se realiz una comparacin entre
KNN-LR con regresin logstica, C4.5 y la funcin de base radial (RBF) de la
red. El resultado fue que KNN-LR super a RBF en los cuatro conjuntos de
datos de referencia. Adems, tambin super la regresin logstica en estos
conjuntos de datos de referencia, slo que tienen un rendimiento muy
cercano en el conjunto de datos de cncer de mama de Wisconsin. El
resultado tambin indic su superioridad sobre RBF y C4.5, pero C4.5
acaba de superar KNN-LR en el conjunto de datos de telecomunicaciones.
El modelo de novela presentado por Huang & Kechadi [28] indica un modelo
hbrido que une un algoritmo de agrupacin de k-means modificado con una
tcnica inductiva de regla clsica (FOIL) para predecir el comportamiento
del churn del cliente. Se realiz una comparacin con el modelo basado en
seis tcnicas. Estos fueron k-means original, rbol de decisin, regresin
logstica, PART, SVM, KNN, y OneR y otras tcnicas hbridas como k-NN-
LR, SePI. De estos seis clasificadores, modelos hbridos y conjuntos de
datos de referencia, el sistema propuesto fue 12 veces mejor. A
continuacin se calcul el promedio de los valores de AUC (medicin de
precisin de prediccin) para cada tcnica de clasificacin, y el modelo
hbrido todava tiene el valor promedio mximo.

Вам также может понравиться