TCNICAS DE MINERA DE DATOS Y SUS APLICACIONES EN EL
ANLISIS DE CHURN CLIENTES
En las ltimas dcadas se han producido mejoras significativas y cambios en los volmenes de datos almacenados en archivos, bases de datos, Y otros repositorios. Para ayudar en el proceso de toma de decisiones, es necesariamente vital desarrollar tcnicas poderosas de anlisis e interpretacin de datos, as como desarrollar herramientas que pueden ser importantes en la extraccin de interesantes patrones ocultos y Conocimiento [16]. El algoritmo de minera de datos tiene la capacidad de desvelar estos patrones y sus relaciones ocultas, y es un componente integral de un proceso complejo que comnmente se conoce como Knowledge Discovery in Databases (KDD), que explica los pasos que deben tomarse para asegurar que los datos completos Anlisis [17]. De acuerdo con Shearer [18], CRISP-DM modelo es sinnimo de Cross-Industry Standard Process para el modelo de minera de datos. Es principalmente para la realizacin de un proceso de minera de datos, cuyo ciclo de vida consta de seis fases, como se muestra en la Fig. 1.Fig 1: Las fases del modelo de minera de datos CRISP El primer paso es entender los datos que sirve a los valores comerciales. La preparacin de los datos implica el preprocesamiento de los datos brutos que contienen informacin limitada. Esto a veces puede implicar la eliminacin de los valores perdidos, la cuantificacin, la conversin de las variables categricas en numricas. El proceso de modelado implica la construccin de un modelo adecuado utilizado para extraer la informacin y tambin evaluar la informacin para servir a los propsitos de negocio y aceptar el mismo modelo despus de la comprobacin de los atributos importantes como performanceand precisin. La etapa final involucra la generacin de un informe o la implementacin de un proceso de minera de datos repetible en toda la empresa involucrada como un despliegue y la ltima fase [18]. La aplicacin del anlisis de datos al churn se dirige hacia la prediccin de si un cliente individual se churn, Que se espera que se produzca churn y las razones por las que se produce el churn. A travs de la prediccin de los clientes que son ms propensos a churn, las empresas de telecomunicaciones son capaces de reducir la tasa de churn a travs de ofrecer a los clientes alternativas y mejores incentivos o paquetes para encontrar razones para quedarse [19]. Para manejar con xito el desafo de prediccin de churn, diferentes investigadores han puesto en uso diferentes algoritmos de aprendizaje de mquina adems de herramientas de minera de datos. Esta seccin presenta los principales mtodos de minera de datos (redes neuronales, tcnicas basadas en estadsticas, rboles de decisin y algoritmos de cobertura) y su uso en el contexto del Anlisis de Churn de los clientes. REDES NEURONALES es una tcnica de minera de datos que tiene la capacidad de aprender de los errores [11]. Las redes neuronales son motivadas por el cerebro. Esto sucede en el sentido de que el cerebro aprende algunas cosas nuevas que luego se transmitirn a travs de las neuronas. Igualmente, la neurona de la red neuronal con algoritmos de aprendizaje es capaz de aprender de los datos de entrenamiento; Esto hace que se conozca como Redes Neuronales Artificiales (ANN) [20]. Los resultados de Lazarov y Capota [21] trabajo mostr que las RNA dio los mejores resultados en comparacin con otros algoritmos conocidos. Adems, argumentaron que un modelo de prediccin apropiado requiere actualizacin constante, y debera poner en aplicacin una variedad de algoritmos de minera de datos. Au et al. [22] creen que la mayor limitacin de las redes neuronales es que difcilmente descubrir patrones de una manera fcilmente comprensible. Su estudio tambin ha demostrado que las redes neuronales superan los rboles de decisin para la prediccin del churn a travs de la identificacin de ms churners en comparacin con los rboles de decisin C4.5. Esto est en lnea con la investigacin proporcionada por Mozer et al. En [23] que muestra que la red neural no lineal supera el rbol de decisin y la regresin logstica. En su artculo, Sharma y Panigrahi [24] proponen un enfoque basado en redes neuronales en la prediccin de la rotacin de clientes en lnea con los servicios inalmbricos celulares. Los resultados de los experimentos en un conjunto de datos de churn del repositorio UCI indican que el enfoque basado en redes neuronales puede predecir el churn del cliente con una precisin de ms del 92%. La precisin que se logra por las redes neuronales supera ampliamente la limitacin de que necesitan grandes volmenes de conjuntos de datos y mucho tiempo para calcular una carga considerable para los atributos predictores [21]. TCNICA ESTADSTICA BASE Las tcnicas estadsticas son una coleccin de mtodos aplicados en la minera de datos utilizados para procesar grandes volmenes de datos. Se utilizan en enlaces de aprendizaje entre los atributos dependientes e independientes. Esta seccin presenta las principales tcnicas de minera de datos basadas en datos estadsticos (regresin lineal, regresin logstica, clasificador Naive Bayes y algoritmo K-viz. Ms cercano) y su uso en el contexto del anlisis de churn de clientes. Las tcnicas basadas en regresin se han asociado con buenos resultados en la prediccin Y la estimacin del churn. En el problema del churn del Cliente, a menudo hay un resultado categrico de dos decisiones. El resultado es S o No, verdadero o falso, o churns o no churns. Las variables restantes son en su mayora de naturaleza continua debido a que la regresin logstica parece ser la mejor opcin [20]. Lazarov & Capota [21] discutieron el algoritmo de minera de datos de uso comn en el anlisis y prediccin de churn de clientes. Las tcnicas de rbol de regresin se discutieron junto con otros mtodos de minera de datos populares como rboles de decisin, aprendizaje basado en reglas y redes neuronales. La conclusin fue que los buenos modelos de prediccin tienen que ser desarrollados constantemente y una combinacin de las tcnicas propuestas debe ser usada. Qureshi et al. [20] tambin aplic tcnicas de regresin logstica en datos de la industria de telecomunicaciones para identificar churners. No funcion bien, ya que slo el 45% del nmero total de churners se identific correctamente, que es un porcentaje muy bajo. Por el contrario, la regresin logstica hizo un buen trabajo al identificar el 78% del nmero total de usuarios activos correctamente. Otra aplicacin es realizada por Nie et al. [25] que utilizaron dos algoritmos de minera de datos; rboles de decisin y regresin logstica para construir un modelo de prediccin de churn. Utilizaron datos de tarjetas de crdito de un banco chino real. El resultado de la prueba clasific la regresin por delante de los rboles de decisin. Bayes Naive es un mdulo de aprendizaje supervisado que hace predicciones sobre datos no vistos basados en el teorema bayesiano [21]. Nath & Behara [26] ide un modelo de prediccin del churn de los clientes. Esto se bas en el algoritmo de Bayes Naive en datos de clientes inalmbricos. Obtuvo un 68% de precisin en el primer pase que se bas en el modelo bayesiano.
El algoritmo K-Nearest Neighbors es uno de los enfoques de clasificacin
estadstica tradicional bsica. La asignacin de etiqueta de clase de la instancia invisible se basa en la etiqueta de clase dominante de las k instancias vecinas. Este clasificador considera slo las k entradas ms cercanas en el conjunto de entrenamiento [4]. Zhang et al. [27] que present en su investigacin un enfoque hbrido del k-vecino ms cercano algoritmo y tambin el mtodo de regresin logstica para la construccin de un clasificador binario llamado KNN-LR. Se realiz una comparacin entre KNN-LR con regresin logstica, C4.5 y la funcin de base radial (RBF) de la red. El resultado fue que KNN-LR super a RBF en los cuatro conjuntos de datos de referencia. Adems, tambin super la regresin logstica en estos conjuntos de datos de referencia, slo que tienen un rendimiento muy cercano en el conjunto de datos de cncer de mama de Wisconsin. El resultado tambin indic su superioridad sobre RBF y C4.5, pero C4.5 acaba de superar KNN-LR en el conjunto de datos de telecomunicaciones. El modelo de novela presentado por Huang & Kechadi [28] indica un modelo hbrido que une un algoritmo de agrupacin de k-means modificado con una tcnica inductiva de regla clsica (FOIL) para predecir el comportamiento del churn del cliente. Se realiz una comparacin con el modelo basado en seis tcnicas. Estos fueron k-means original, rbol de decisin, regresin logstica, PART, SVM, KNN, y OneR y otras tcnicas hbridas como k-NN- LR, SePI. De estos seis clasificadores, modelos hbridos y conjuntos de datos de referencia, el sistema propuesto fue 12 veces mejor. A continuacin se calcul el promedio de los valores de AUC (medicin de precisin de prediccin) para cada tcnica de clasificacin, y el modelo hbrido todava tiene el valor promedio mximo.