Вы находитесь на странице: 1из 9

UNIVERSIDAD NACIONAL DE INGENIERIA

FACULTAD DE INGENIERA INDUSTRIAL Y DE SISTEMAS

GESTIN DE LA PRODUCCIN

PROYECTO DE TESIS I

Informe de Paper

Clasificacin de gestin de relaciones con los clientes -Uso de


tcnicas de minera de datos

Ing. Sotelo Villena, Juan Carlos

Alumno: Urbina Quispe Jaime

2017 2
Propsito del Paper

La obsolescencia de los modelos de clasificacin de CRM debido a datos


ruidosos y desequilibrados.

Antecedentes

Una aplicacin de tcnicas de minera de datos en CRM es una tendencia


emergente en la industria del marketing. Ha atrado ms la atencin de
investigadores y profesionales en los ltimos aos. La minera de datos, como la
confluencia de mltiples disciplinas, incluyendo el aprendizaje automtico,
estadsticas, sistemas de bases de datos,ciencia de la informacin, visualizacin y
muchas aplicacionesha avanzado mucho en la ltima dcada.

J.Han and M. Kamber, Data Mining: Concepts and Techniques (2 nd ed.). Morgan Kaufmann, 2006.

El desarrollo tecnolgico ha permitidoenfoques de minera que se aplicarn para


encontrar el mejor CRMestrategias, donde la minera de datos puede desempear
unanalizando datos de clientes.

Ngai, E. W. T., Xiu, L., & Chau, D. C. K., Application of data mining techniques in customer relationship management:
A literature review and classification, Expert Systems with Applications, 2009 , 2, 2592 2602.

Los estudiosos se han dedicado desde hace tiempo a la aplicacin de los datos
minera en el campo del CRM. Basndose en y, las cuatro dimensiones CRM
son:

Atraccin al cliente que depende marketing directo ,Identificacin del


Cliente incluyen el anlisis de clientes objetivo ysegmentacin de clientes , la
retencin del cliente, que esbasado en la satisfaccin de los clientes y de
desarrollo de atencin al clienteincluye el anlisis del valor de vida del cliente,
up/crosselling y anlisis de la cesta de mercado.
Shu-hsien Liao, Yin-ju Chen, Hsin-huaHsieh,Mining customer knowledge for direct selling and marketing , Expert
Systems with Applications, 2011, 38, 60596069.

Roung-Shiunn Wu, Po-Hsuan Chou., Customer segmentation of

multiple category data in e-commerce using a soft-clustering approach Electronic Commerce Research and
Applications, Volume10, Issue 3, MayJune 2011, Pages 331-341.

Kim, Y. H., & Moon, B. R., Multicampaign assignment problem. IEEE Transactions on Knowledge and Data
Engineering, 2006,18, 405414.

Aunque se proponen muchos mtodos para abordar la cuestin de laclasificacin


desequilibrada, pero an as las soluciones son problemadependiente.

HyeaKyeong Kim, Jae Kyeong Kim, Qiu Yi Chen A product network analysis for extending the market basket
analysis, Expert Systems with Applications, Volume 39, Issue 8, 15 June 2012, Pages 7403-7410Garca, V., Snchez, J. S.,
&Mollineda, R. A., On the effectiveness of preprocessing methods when dealing with different levels of class imbalance,
Knowledge-Based Systems, 2012,1, 1321.

En este trabajo la clasificacin se basa en C4.5 DecisinTree, NaveBayes


clasificador, SVM clasificador y KNN clasificador.

Quinlan, J. R. C4.5 : Programs for machine learning, Morgan Kaufmann, 1993.

Russell, Stuart; Norvig, Peter Artificial Intelligence:A Modern Approach (2nd ed.). Prentice Hall. 2003.

Vladimir N. Vapnik, The Statistical Learning Theory. Springer, 1998.

D.W.Aha,D.Kibler, K.Albert,Instance-based learning algorithms , Machine Learning,1991, 6, 37-66.

Hallazgos y Propuestas

A. Conjunto de datos desequilibrados

Los conjuntos de datos desequilibrados son un caso especial para la


clasificacindonde la distribucin de clase no es uniforme. Sea X = (x i, y i) donde
i = 1,. . . , n, ser un desequilibrado de datos de clasificacin binariaestablecer
donde x i EZd es d-dimensional vector de caractersticas, y yi esetiqueta binaria:
y i E {-1, 1}. X y Z es un vector de columna.

Si P + y P - representan conjunto de instancias con positivo yclase negativa


respectivamente, entonces la cardinalidad de P + es muchomenor que el de P -:

B. Reduccin Nominal

Despus de realizar la secuencia de pasos de preprocesamiento comoeliminando


los atributos que tienen ms de 90% de desaparecidosvalores y atributos vacos
en el conjunto de datos desequilibrados,las caractersticas nominales se reducen
con esta nueva tcnica propuesta.En el cual, la clase positiva y la clase negativa
son instanciasrespectivamente. Caracterstica nominal que est teniendolas
instancias positivas de clase se agrupan y se reemplazan porrespectivo valor de
modo. Similarmente, las instancias de clase negativas sonagrupados y
reemplazados por valores de modo correspondientes. Losvalores de caracterstica
utilizados tanto por clase positiva como negativalas instancias no se cambian.En
el nuevo conjunto de datos, las caractersticas nominales de todas las instanciasse
sustituyen por valores de modo utilizando el siguiente mtodo:

Dnde

x i es el valor de la caracterstica nominal


x m es caracterstica nominal reemplazado con valor de modo

xi+es caracterstica nominal con etiqueta de clase positiva

xi- es caracterstica nominal con etiqueta de clase negativa

Una vez completada la reduccin de la caracterstica nominal,los valores se


sustituyen para todas las caractersticas nominales y numricas.Ahora se aplica la
discretizacin para suavizar los nuevos datos conjunto. Entonces las
caractersticas nominales se convierten en funciones binarias para la seleccin de
funciones.

C.Seleccin de funciones

Las propiedades se clasifican utilizando los valores de ganancia de informacin.

La ganancia de informacin (GI) mide la cantidad de informacindividido sobre


una caracterstica.

Dnde

IG es ganancia de informacin de D usando la funcin F

D es el conjunto de datos de entrenamiento


E (D) es la entropa

E (Dj) es la entropa de un subconjunto de D en j

m y k son valores posibles de F

p i es la probabilidad de que una instancia arbitraria en D

pertenece a la clase Ci

log 2 es la funcin de registro en la base 2

Las funciones de ganancia mxima de informacin se clasifican.

D. Clasificacin

Despus de la seleccin de funciones, la clasificacin de un nuevo conjunto de


datos por los siguientes clasificadores diferentes como J48,NaveBayes, SVM y
KNN con parmetros por defecto y se realiza 10 veces la validacin cruzada

J48: El clasificador J48 utiliza C4.5 de Quinlan, que es una extensin del
algoritmo ID3 anterior de Quinlan. Esogenera un rbol de decisin que puede ser
utilizado para la clasificacin. J48genera rboles de decisin a partir de un
conjunto de datos deel concepto de ganancia de informacin y entropa. Cada
atributo delos datos se pueden utilizar para tomar una decisin dividiendo los
datosen subconjuntos ms pequeos. El atributo con la informacin ms
altaganancia se utiliza para tomar una decisin. Entonces el algoritmo se repite
en los subconjuntos ms pequeos. El procedimiento de divisin se detiene si
todoslas instancias de un subconjunto pertenecen a la misma clase.
1) NaveBayes: El clasificador NaveBayes se basa enTeorema de Bayes. El
teorema de Bayes trata una forma de calcular elprobabilidad posterior. Se supone
que el efecto del valor deun predictor de una clase dada es independiente de los
valores deotros predictores.

2) SVM: Una mquina de vectores de soporte o SVM es unalgoritmo que utiliza


un mapeo no lineal para transformar los datos de entrenamiento originales en una
dimensin ms alta. Dentro de esta nueva dimensin, busca un lmite de decisin
que separalas tuplas de una clase de otra. El SVM encuentra este lmite de
decisin utilizando vectores de soporte y mrgenes.

3) KNN: Los clasificadores del vecino ms cercano comparan dada una tupla de
prueba con tuplas de entrenamiento que son similares a ella. Las tuplas de
entrenamiento son descritas por 100 atributos. La semejanza esdefinido
utilizando la distancia euclidiana.

E. 10 Validacin Cruzada

Se utiliza para validar la robustez de un modelo de minera de datos.

Aqu el conjunto de datos se divide en 10 partes o pliegues, mantenga cada


unoparte a su vez, y el promedio de los resultados. As, cada punto de datos en
elconjunto de datos se utiliza una vez para la prueba y 9 veces para la
formacin. Eso esValidacin cruzada de 10 veces.

Entre los cuatro algoritmos de clasificacin anteriores SVMproduce una mejor


clasificacin con la caracterstica propuestamtodo de seleccin para conjuntos
de datos ruidosos y desequilibrados.
Resultados
Conclusiones

El nuevo mtodo de seleccin de caractersticas propuesto resuelve los problemas


de clasificacin de CRM del mundo real con un conjunto de datos ruidosos y
altamente desequilibrados. Los distintos clasificadores se utilizan para la
clasificacin. A partir de la Tabla IX se observa que la SVM tiene la mayor
precisin y sensibilidad, Nave Bayes tiene la ms alta ROC y Especificidad, J48
tiene los valores ms altos de Sensibilidad, Precisin y Recuperacin.

Apreciacin Crtica

En este paper se puede observar que el autor trata de comparar los distintos
modelos de agrupacin de existe, en este caso 4 de ellos, para ver cual tiene
un mejor desempeo para el caso de datos extremos y desequilibrados.

Realizando distintas pruebas de efectividad de modelo el cual hace que su


aporte sea ms efectivo y preciso al momento de seleccin el mejor modelo.

Вам также может понравиться