Topicos 1er Paper

UNIVERSIDAD NACIONAL DE INGENIERIA
FACULTAD DE INGENIERA INDUSTRIAL Y DE SISTEMAS
GESTIN DE LA PRODUCCIN
PROYECTO DE TESIS I
Informe de Paper
Clasificacin de gestin de relaciones con los clientes -Uso de

tcnicas de minera de datos
Ing. Sotelo Villena, Juan Carlos
Alumno: Urbina Quispe Jaime
2017 2
Propsito del Paper
La obsolescencia de los modelos de clasificacin de CRM debido a datos

ruidosos y desequilibrados.
Antecedentes
Una aplicacin de tcnicas de minera de datos en CRM es una tendencia

emergente en la industria del marketing. Ha atrado ms la atencin de
investigadores y profesionales en los ltimos aos. La minera de datos, como la
confluencia de mltiples disciplinas, incluyendo el aprendizaje automtico,
estadsticas, sistemas de bases de datos,ciencia de la informacin, visualizacin y
muchas aplicacionesha avanzado mucho en la ltima dcada.
J.Han and M. Kamber, Data Mining: Concepts and Techniques (2 nd ed.). Morgan Kaufmann, 2006.
El desarrollo tecnolgico ha permitidoenfoques de minera que se aplicarn para

encontrar el mejor CRMestrategias, donde la minera de datos puede desempear
unanalizando datos de clientes.
Ngai, E. W. T., Xiu, L., & Chau, D. C. K., Application of data mining techniques in customer relationship management:
A literature review and classification, Expert Systems with Applications, 2009 , 2, 2592 2602.
Los estudiosos se han dedicado desde hace tiempo a la aplicacin de los datos
minera en el campo del CRM. Basndose en y, las cuatro dimensiones CRM
son:
Atraccin al cliente que depende marketing directo ,Identificacin del

Cliente incluyen el anlisis de clientes objetivo ysegmentacin de clientes , la
retencin del cliente, que esbasado en la satisfaccin de los clientes y de
desarrollo de atencin al clienteincluye el anlisis del valor de vida del cliente,
up/crosselling y anlisis de la cesta de mercado.
Shu-hsien Liao, Yin-ju Chen, Hsin-huaHsieh,Mining customer knowledge for direct selling and marketing , Expert
Systems with Applications, 2011, 38, 60596069.
Roung-Shiunn Wu, Po-Hsuan Chou., Customer segmentation of
multiple category data in e-commerce using a soft-clustering approach Electronic Commerce Research and
Applications, Volume10, Issue 3, MayJune 2011, Pages 331-341.
Kim, Y. H., & Moon, B. R., Multicampaign assignment problem. IEEE Transactions on Knowledge and Data
Engineering, 2006,18, 405414.
Aunque se proponen muchos mtodos para abordar la cuestin de laclasificacin

desequilibrada, pero an as las soluciones son problemadependiente.
HyeaKyeong Kim, Jae Kyeong Kim, Qiu Yi Chen A product network analysis for extending the market basket
analysis, Expert Systems with Applications, Volume 39, Issue 8, 15 June 2012, Pages 7403-7410Garca, V., Snchez, J. S.,
&Mollineda, R. A., On the effectiveness of preprocessing methods when dealing with different levels of class imbalance,
Knowledge-Based Systems, 2012,1, 1321.
En este trabajo la clasificacin se basa en C4.5 DecisinTree, NaveBayes

clasificador, SVM clasificador y KNN clasificador.
Quinlan, J. R. C4.5 : Programs for machine learning, Morgan Kaufmann, 1993.
Russell, Stuart; Norvig, Peter Artificial Intelligence:A Modern Approach (2nd ed.). Prentice Hall. 2003.
Vladimir N. Vapnik, The Statistical Learning Theory. Springer, 1998.
D.W.Aha,D.Kibler, K.Albert,Instance-based learning algorithms , Machine Learning,1991, 6, 37-66.
Hallazgos y Propuestas
A. Conjunto de datos desequilibrados
Los conjuntos de datos desequilibrados son un caso especial para la

clasificacindonde la distribucin de clase no es uniforme. Sea X = (x i, y i) donde
i = 1,. . . , n, ser un desequilibrado de datos de clasificacin binariaestablecer
donde x i EZd es d-dimensional vector de caractersticas, y yi esetiqueta binaria:
y i E {-1, 1}. X y Z es un vector de columna.
Si P + y P - representan conjunto de instancias con positivo yclase negativa

respectivamente, entonces la cardinalidad de P + es muchomenor que el de P -:
B. Reduccin Nominal
Despus de realizar la secuencia de pasos de preprocesamiento comoeliminando

los atributos que tienen ms de 90% de desaparecidosvalores y atributos vacos
en el conjunto de datos desequilibrados,las caractersticas nominales se reducen
con esta nueva tcnica propuesta.En el cual, la clase positiva y la clase negativa
son instanciasrespectivamente. Caracterstica nominal que est teniendolas
instancias positivas de clase se agrupan y se reemplazan porrespectivo valor de
modo. Similarmente, las instancias de clase negativas sonagrupados y
reemplazados por valores de modo correspondientes. Losvalores de caracterstica
utilizados tanto por clase positiva como negativalas instancias no se cambian.En
el nuevo conjunto de datos, las caractersticas nominales de todas las instanciasse
sustituyen por valores de modo utilizando el siguiente mtodo:
Dnde
x i es el valor de la caracterstica nominal

x m es caracterstica nominal reemplazado con valor de modo
xi+es caracterstica nominal con etiqueta de clase positiva
xi- es caracterstica nominal con etiqueta de clase negativa
Una vez completada la reduccin de la caracterstica nominal,los valores se

sustituyen para todas las caractersticas nominales y numricas.Ahora se aplica la
discretizacin para suavizar los nuevos datos conjunto. Entonces las
caractersticas nominales se convierten en funciones binarias para la seleccin de
funciones.
C.Seleccin de funciones
Las propiedades se clasifican utilizando los valores de ganancia de informacin.
La ganancia de informacin (GI) mide la cantidad de informacindividido sobre

una caracterstica.
Dnde
IG es ganancia de informacin de D usando la funcin F
D es el conjunto de datos de entrenamiento

E (D) es la entropa
E (Dj) es la entropa de un subconjunto de D en j
m y k son valores posibles de F
p i es la probabilidad de que una instancia arbitraria en D
pertenece a la clase Ci
log 2 es la funcin de registro en la base 2
Las funciones de ganancia mxima de informacin se clasifican.
D. Clasificacin
Despus de la seleccin de funciones, la clasificacin de un nuevo conjunto de

datos por los siguientes clasificadores diferentes como J48,NaveBayes, SVM y
KNN con parmetros por defecto y se realiza 10 veces la validacin cruzada
J48: El clasificador J48 utiliza C4.5 de Quinlan, que es una extensin del
algoritmo ID3 anterior de Quinlan. Esogenera un rbol de decisin que puede ser
utilizado para la clasificacin. J48genera rboles de decisin a partir de un
conjunto de datos deel concepto de ganancia de informacin y entropa. Cada
atributo delos datos se pueden utilizar para tomar una decisin dividiendo los
datosen subconjuntos ms pequeos. El atributo con la informacin ms
altaganancia se utiliza para tomar una decisin. Entonces el algoritmo se repite
en los subconjuntos ms pequeos. El procedimiento de divisin se detiene si
todoslas instancias de un subconjunto pertenecen a la misma clase.
1) NaveBayes: El clasificador NaveBayes se basa enTeorema de Bayes. El
teorema de Bayes trata una forma de calcular elprobabilidad posterior. Se supone
que el efecto del valor deun predictor de una clase dada es independiente de los
valores deotros predictores.
2) SVM: Una mquina de vectores de soporte o SVM es unalgoritmo que utiliza

un mapeo no lineal para transformar los datos de entrenamiento originales en una
dimensin ms alta. Dentro de esta nueva dimensin, busca un lmite de decisin
que separalas tuplas de una clase de otra. El SVM encuentra este lmite de
decisin utilizando vectores de soporte y mrgenes.
3) KNN: Los clasificadores del vecino ms cercano comparan dada una tupla de
prueba con tuplas de entrenamiento que son similares a ella. Las tuplas de
entrenamiento son descritas por 100 atributos. La semejanza esdefinido
utilizando la distancia euclidiana.
E. 10 Validacin Cruzada
Se utiliza para validar la robustez de un modelo de minera de datos.
Aqu el conjunto de datos se divide en 10 partes o pliegues, mantenga cada

unoparte a su vez, y el promedio de los resultados. As, cada punto de datos en
elconjunto de datos se utiliza una vez para la prueba y 9 veces para la
formacin. Eso esValidacin cruzada de 10 veces.
Entre los cuatro algoritmos de clasificacin anteriores SVMproduce una mejor

clasificacin con la caracterstica propuestamtodo de seleccin para conjuntos
de datos ruidosos y desequilibrados.
Resultados
Conclusiones
El nuevo mtodo de seleccin de caractersticas propuesto resuelve los problemas

de clasificacin de CRM del mundo real con un conjunto de datos ruidosos y
altamente desequilibrados. Los distintos clasificadores se utilizan para la
clasificacin. A partir de la Tabla IX se observa que la SVM tiene la mayor
precisin y sensibilidad, Nave Bayes tiene la ms alta ROC y Especificidad, J48
tiene los valores ms altos de Sensibilidad, Precisin y Recuperacin.
Apreciacin Crtica
En este paper se puede observar que el autor trata de comparar los distintos
modelos de agrupacin de existe, en este caso 4 de ellos, para ver cual tiene
un mejor desempeo para el caso de datos extremos y desequilibrados.
Realizando distintas pruebas de efectividad de modelo el cual hace que su

aporte sea ms efectivo y preciso al momento de seleccin el mejor modelo.

Topicos 1er Paper

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Topicos 1er Paper

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD NACIONAL DE INGENIERIA

FACULTAD DE INGENIERA INDUSTRIAL Y DE SISTEMAS

Clasificacin de gestin de relaciones con los clientes -Uso de

Ing. Sotelo Villena, Juan Carlos

Alumno: Urbina Quispe Jaime

La obsolescencia de los modelos de clasificacin de CRM debido a datos

Una aplicacin de tcnicas de minera de datos en CRM es una tendencia

El desarrollo tecnolgico ha permitidoenfoques de minera que se aplicarn para

Atraccin al cliente que depende marketing directo ,Identificacin del

Roung-Shiunn Wu, Po-Hsuan Chou., Customer segmentation of

Aunque se proponen muchos mtodos para abordar la cuestin de laclasificacin

En este trabajo la clasificacin se basa en C4.5 DecisinTree, NaveBayes

Quinlan, J. R. C4.5 : Programs for machine learning, Morgan Kaufmann, 1993.

Vladimir N. Vapnik, The Statistical Learning Theory. Springer, 1998.

D.W.Aha,D.Kibler, K.Albert,Instance-based learning algorithms , Machine Learning,1991, 6, 37-66.

A. Conjunto de datos desequilibrados

Los conjuntos de datos desequilibrados son un caso especial para la

Si P + y P - representan conjunto de instancias con positivo yclase negativa

Despus de realizar la secuencia de pasos de preprocesamiento comoeliminando

x i es el valor de la caracterstica nominal

xi+es caracterstica nominal con etiqueta de clase positiva

xi- es caracterstica nominal con etiqueta de clase negativa

Una vez completada la reduccin de la caracterstica nominal,los valores se

Las propiedades se clasifican utilizando los valores de ganancia de informacin.

La ganancia de informacin (GI) mide la cantidad de informacindividido sobre

IG es ganancia de informacin de D usando la funcin F

D es el conjunto de datos de entrenamiento

E (Dj) es la entropa de un subconjunto de D en j

m y k son valores posibles de F

p i es la probabilidad de que una instancia arbitraria en D

log 2 es la funcin de registro en la base 2

Las funciones de ganancia mxima de informacin se clasifican.

Despus de la seleccin de funciones, la clasificacin de un nuevo conjunto de

2) SVM: Una mquina de vectores de soporte o SVM es unalgoritmo que utiliza

Se utiliza para validar la robustez de un modelo de minera de datos.

Aqu el conjunto de datos se divide en 10 partes o pliegues, mantenga cada

Entre los cuatro algoritmos de clasificacin anteriores SVMproduce una mejor

El nuevo mtodo de seleccin de caractersticas propuesto resuelve los problemas

Realizando distintas pruebas de efectividad de modelo el cual hace que su

Вам также может понравиться