Академический Документы
Профессиональный Документы
Культура Документы
1.
Introducci
on
Los problemas de aprendizaje supervisado y no supervisado, pueden entenderse como problemas de clasificacion, de un conjunto de objetos de entrada,
con naturalezas un poco distintas: en el primero, se conoce el conjunto de etiquetas (clases) que pueden ser asignadas a los objetos y el problema consiste en
asignar la etiqueta adecuada a cada objeto; en el segundo, debe encontrase un
n
umero razonable de etiquetas (grupos) en los que pueda ser dividido el conjunto total de objetos, de tal forma que un nuevo objeto pueda ser ubicado dentro
del grupo m
as adecuado. El criterio general para asignar la etiqueta adecuada
a un nuevo objeto consite en ubicar el conjunto de objetos que comparten una
misma etiqueta y que son mas parecidos al nuevo objeto. De forma similar, el
criterio general para encontrar el n
umero razonable de grupos para dividir el
conjunto total de objetos, consiste en poner juntos aquellos objetos que sean
m
as parecidos entre s, definiendo as los lmites entre los grupos.
Dentro de la literatura concerniente a las tecnicas de aprendizaje supervisado
y no supervisado, usualmente esta presente una nocion de distancia entre los
objetos del problema, la cual se contruye frecuentemente sobre la base de un
espacio de caractersticas que describen a esos objetos. Puede notarse que esa
noci
on de cercana modela, de una u otra forma, un grado de (di)similitud entre
los objetos del problema, que es utilizado como criterio para resolver el problema
de aprendizaje. Sin embargo, el concepto de similitud es mas general que el de
distancia ya que puede mostrarse que el primero no necesariamente satisface
ciertas propiedades del segundo. Mas a
un, aunque parece natural describir los
objetos mediante caractersticas, esto no siempre resuta facil y en tal caso una
definici
on de similitud en terminos de distancia en un espacio de caractersticas
no es posible. Los siguientes ejemplos pueden ayudar a aclarar esta afirmacion:
Considere el problema de indentificar una persona: si alguien le pregunta
conoce usted a Eduardo?, y su la respuesta es negativa, la persona intentara
ayudarle a recordar describiendo a Eduardo diciendo cosas tales como aquel
que mide m
as o menos 1.65 m, tiene cabello liso y negro, piel trigue
na, etc, es
decir, la persona le dar
a un listado de cartactersticas con el fin de que usted
recuerde a Eduardo. A partir de esto, usted puede imaginarse un sistema que
contenga un conjunto de fotos de personas y le muestre aquellas que mas se
2.
2.1.
[11]. La justificaci
on m
as clara para este enfoque, es el soporte matematico con
que se cuenta al transformar X en un espacio euclidiano.
2.2.
Por qu
e resulta u
til el enfoque basdo en similitud?
Una de las razones para considerar este enfoque es que el proceso de representaci
on puede resultar, en ciertos dominios, difcil e incluso innatural. Esto
ocurre principalmente en problemas en los que los datos del problema no son
numericos y tienen una estructura compleja. Por ejemplo, en problemas de personalizaci
on web, los objetos del espacio X son sesiones web; una transformacion
m
posible es considerar F = {0, 1} donde m es el n
umero de paginas del sitio
web. De esta forma, cada elemento de F es un vector de m componentes, donde
cada componente est
a asociada a una pagina, un 1 indica que la pagina fue accedida en una sesi
on particular, y el 0 indica que no. Esta representacion, tiene
el problema de que m puede ser muy grande, dependiendo del tama
no del sitio
[16]. Con esta representaci
on, el concepto de similitud entre sesiones se limita a
contabilizar el n
umero de paginas en que las dos sesiones coinciden. Sin embargo, tal contabilizaci
on, difcilmente puede dar informacion acerca del contenido
de las p
aginas y el orden en que fueron accedidas en cada una de las sesiones,
lo cual podra utilizarse para describir el comportamiento de los usuarios que
navegan a traves del sitio [18]. Dentro de los dominios con objetos estructurados,
se encuentran tambien los documentos XML si se quiere realizar reconocimiento de diferentes fuentes con el mismo tipo de informacion [6]. Aqu, la medida
de similitud debera reflejar una semejanza en cuanto al tipo de informacion
descrita por dos documentos XML.
Otros casos en los que la extraccion de caractersticas resulta innatural son
los de las reglas de asociaci
on (minera de datos) [7] y datos que utilizan representaci
on de primer orden [10]. Sobre las primeras, es deseable hacer un proceso
de agrupamiento, con el fin de reducir el n
umero de reglas dentro de un sistema,
sin embargo no parece natural extraer un conjunto de caractersticas del espcio de las posibles reglas de tal forma que la medida de similitud entre reglas
corresponda a una distancia en tal espacio.
Un ejemplo m
as en el que no parece natural la transformacion de X en F se
presenta en [1], en donde se plantea el problema de hacer clasificacion de olores.
En este caso, los autores argumentan la dificultad de representar los olores mediante caractersticas, sin entrar en detalles, basicamente porque corresponde
a la extracci
on de caractersticas de compuestos qumicos con estructuras heterogenas y complejas.
3.
En esta subsecci
on, se describen las principales estrategias utilizadas para
realizar aprendizaje, ya sea supervisado o no supervisado, tomando como informaci
on una matriz de (di)similitud. Dentro de este grupo se evidencia la potencialidad de estos metodos dada por la independencia de la medida de similitud.
trees
[?] [Documentos XML] correspondencia estructural entre arboles
de tags. [6]
web sessions
[Conjunto de paginas visitadas, teniendo en cuenta el orden y
el tiempo empleado en cada una. Secuencias que contienen accesos a un sitio web] dos nivels: similitud entre paginas y entre
sesiones. El sitio web se abstrae como un grafo. El algoritmo esta
basado en un metodo de particionmiento de grafos. El considerar la secuencia de visitas tiene que ver con el comportamiento
entre los usuarios. La similitud entre paginas toma en cuenta si
pueden considerarse sinonimas tanto desde el punto de vista de
contenido como del de uso. [14]
[conjunto de paginas visitadas junto con la estructura del sitio
web. No es metrica] [16]
En
areas como la minera web, donde el problema es aprender a partir de la
informaci
on interesante para los usuarios, es necesario definir medidas que capturen la similitud de intereses entre usuarios, para esto, la forma m
as simple es
representar los intereses de un usuario como el conjunto de paginas visitadas en
una sesi
on [16], de tal forma que dos usuarios tendran intereses similares si el
conjunto intersecci
on de las paginas visitadas es grande. Sin embargo, dado que
usualmente se quiere clasificar los usuarios mediante la definicion de ciertos perfiles con el fin de hacer recomendaciones o personalizaciones en la navegacion,
se hace necesario agregarle a la medida de similitud informacion acerca de la
estructura del sitio, lo cual puede interpretarse como una categorizacion del sitio
desde el punto de vista del usuario que esta accediendo [16].
En [14], los autores plantean la estrategia de mejorar la calidad de las sugerencias realizadas por un sitio web al usuario en sesion, mediante el aprendizaje
de su comportamiento. Aseguran que el comportamiento no puede ser descubierto u
nicamente con la informacion acerca de los intereses del usuario, sino
que es necesario obtener informacion acerca del orden en que los recursos son
solicitados. As que, se hace necesaria una medida de (di)similitud que considere
la secuencia de p
aginas accedidas por el usuario [14].
documents
[Documentos XML] correspondencia estructural entre arboles de tags.
[6]
El problema de agrupar y/o clasificar documentos es otro campo en el cual la
definici
on de la medida de (di)similitud es crucial y no trivial. En este caso, la
forma natural de agrupar tales objetos es mediante alg
un grado de sinonimia.
Tal enfoque es adoptado en [6] en el que se pretende agrupar documentos XML
mediante el significado, el cual pretende ser extrado de la estructura particular
de tags.
6
strings
strategies for calculation and learning of (dis)similarities
[Secuencias] C
alculo mediante Modelos Ocultos de Markov [2]
Aprendida a traves de un sistema TS (reglas difusas) [nterpretacion
ling
ustica de disimilitud] [3]
inferencia estadstica de modelos graficos para calcular el corte de
los metodos basados en particion de grafos. y para aprender una
medida apropiada de afinidad entre los datos, como alternativa a la
estimacion mediante cadenas de Markov utilizada por los metodos
espectrales. [20].
4.
Una revisi
on de algoritmos de aprendizaje
basados en similitud
[explanatory figures]
Its not a new idea in machine learning
algorithms such as k-nn (consultar Jain)
[C (basada en prototipos)] [EA S (sobre los metodos de clasificci
on por prototipos) Estudio experimental de tecnicas antiguas
y nuevas de seleccion de prototipos] [13]
4.1.
[A (relacional difuso)]. agrupamiento como problema de optimizacion, funcion objetivo incluye terminos de la medida de distancia, un parametro
fuzziness y el grado de pertenecia. RFC-MDE (Relational Fuzzy C-Maximal
Density Estimator) y FCMdd (Relational Fuzzy c Medoids). el procedimiento encuentra un prototipo para cada grupo [15]
4.2.
Algoritmos jer
arquicos
La estrategia m
as utilizada dentro del area corresponde con los algoritmos
jer
arquicos, tanto aglomerativos como divisivos (para una descripcion detallada
de estos mecanismos ver [9]). La diferencia principal entre estas dos estrategias
consiste en el punto de inicio: mientras en los aglomerativos el punto de arranque
consiste en considerar N grupos, cada uno con un objeto y cada objeto en un
grupo, en los divisivos, el punto de arranque consiste en considerar un grupo, el
cual contiene a todos los objetos. En ambas estrategias, se construye un arbol de
jerarquas a partir de la medida de similitud (en los aglomerativos) o disimilitud
(en los divisivos) en el cual cada nivel representa un cierto n
umero de grupos,
cada uno con un cierto n
umero de objetos [9]. Notese que en ambas estrategias
existen dos puntos extremos: uno en el que cada objeto forma un grupo, y otro
en el que todos los objetos pertenecen a un u
nico grupo. El problema consiste
entonces en encontrar el nivel en el arbol que mejor describe la estructura de
los datos. Por tanto, los trabajos en esta area consisten justamente en definir
criterios de selecci
on de tal nivel. Dentro de estos se encuentra los trabajos
presentados en [4], [6], [7] y [16].
[A] validaci
on cruzada (particion significativa). particionamiento determinista operaciones sobre la matriz para extraer los dos grupos mas representativos del conjunto de datos. matriz de similitudes o disimilitudes.
no parametrico jer
arquico divisivo [4].
[A (algomerativo)]. [Reglas de asociacion] multi-dimensional scaling para
embeber reglas en vectores con el fin de combinar los resultados del aglomerativo con el SOM [7].
[A (obtienen
arbol de jerarqua)] como un problema de asignacion en donde
debe minimizarse una funcion de costo. Variacion de Simulated annealing.
matriz de similitud. se minimiza una funcion de costo que mide la no homogeneidad para cada grupo Los primeros niveles del arbol dan informacion
de la matriz de similitud [8]
[A (aglomerativo)] RDBC (Relational Distance-Based Clustering). Tambien, algoritmo para extraer grupos a partir del arbol sin asumir como
par
ametro el n
umero de grupos. usualmente el problema es enfrentado utilizando una tecnica llamada agrupamiento conceptual. (resultados
obtenidos similares al enfoque conceptual) [10]
A (aglomeraci
on competitiva). Adaptacion al paradigma relacional de una
tecnica de los autores. Cuando un grupo crece, otro disminuye. evaluacion
9
de la parici
on va promedios de distancias de los elementos dentro de un
grupo (altos) y promedios de distancias entre elementos de distintos grupos
(bajos). Al final del proceso, las sesiones son caracterizadas por vectores
de probabilidad donde cada componente da un valor de importancia a la
correspondiente pagina en el correspodiente perfil. [16]
4.3.
Prototipos
[A] Secuencias. Algoritmo de agrupamiento basado en puntos. secuencias
representativas. [2]
[A] Documentos XML. Construir un arbol de correspondencia de tags
comunes (prototipos) Esto es lo que se hace [6].
[C (basada en prototipos)] metodo de condesamiento para encontrar prototipos. Entrenamiento de un clasificador en el espacio de disimilitud.
Puede escogerse el n
umero de prototipos. plantea alternativas al uso de
k-nn. Muestran que el uso de clasificadoresmas generales basados en
disimilitudes puede ser benefico. Aseguran que la combinacion entre las
tecnicas de condensamiento y clasificadores lineales basados en disimilitud provee el mejor balance entre peque
nos conjuntos condensados y alta
precisi
on de clasificacion [13]
4.4.
Espectrales
[A] agrupamiento de vectores propios de la matriz de kernel.
[A] inferencia estadstica de modelos graficos para calcular el corte de
los metodos basados en particion de grafos. y para aprender una medida
apropiada de afinidad entre los datos, como alternativa a la estimacion
mediante cadenas de Markov utilizada por los metodos espectrales. Metodos de agrupamiento espectral tienen la ventaja de poder dividir grupos
de formas arbitrarias y estan basados en calculos eficientes de vectores
propios.
4.5.
Adaptaciones
A (aglomeraci
on competitiva). sesiones web. Adaptacion al paradigma
relacional de una tecnica de los autores. Cuando un grupo crece, otro
disminuye [16]
A (basado en prototipos). version no lineal de un algoritmo lineal conocido.
Los prototipos encontrados por metodos kernel pertenecen al espacio de
caractersticas lo cual conduce a una carencia de interpretacion en los
grupos encontrados. Los metodos utilizan algunas tecnicas de poryeccion.
Versi
on kernel de Fuzzy C-Means. el modelo propuesto tiene la ventaja
sobre otros metodos basados en funciones kernel, de proveer un significado,
10
4.6.
4.7.
Otras estrategias
11
5.
Aplicaciones
Vale la pena mencionar que la estrategia particular de aprendizaje esta usualmente motivada por una aplicacion especfica, as por ejemplo, se encuentran
estrategias basadas en similitud para segmentacion de imagenes [5], para la
clasificaci
on de olores [1] y para minera de datos en la web [15].
experimentos sobre secuencias de protenas [8].
clasificaci
on de olores [1].
personalizaci
on. [14],[16],[15]
6.
Lneas de investigaci
on y problemas abiertos
Aunque el
area de aprendizaje basado en similitud tiene aplicacion en muchas
reas facilitando la definicion del modelo, de la exposicion presentada en la
a
Secci
on 3 puede verse que el trabajo apunta basicamente en tres direcciones:
definiciones de medidas de (di)similitud, definicion de nuevos algoritmos cuyo
desempe
no depende u
nicamente de la informacion de la (di)similitud entre los
objetos y adaptaci
on de algoritmos al paradigma, esto es, hacer que estos algoritmos se desempe
nen independientemente de la representacion adoptada para
el espacio de entrada.
Dentro de las preocupaciones dentro de los investigadores en el area se encuentra por ejemplo el manejo de la dimensionalidad de los espacios de (di)similitud.
Ya que en aplicaciones reales, es usual que haya un n
umero mayor de datos que
de dimensiones (para el caso de datos vectoriales), y en el enfoque directo, cada objeto, es representado mediante su (di)similitud con cada uno de los demas
objetos, y entonces aplicar alg
un algoritmo tradicional de clasificacion en ese
espacio, as que puede presentarse el problema conocido como la maldicion de
la dimensionalidad. Este problema se ha enfrentado mediante el uso de metodos combinados con metodos basados en prototipos, en los que el espacio de
(di)similitud se construye sobre un n
umero reducido de ejemplos, de tal forma
que la dimensi
on de ese nuevo espacio resulta manejable.
Vale la pena mencionar que la participacion de metodos bioinspirados en esta
area es poco, s
12
Referencias
[1] Manuele Bicego. Odor classification using similarity-based representation.
Sensors and Actuators B: Chemical, 110(2):225230, October 2005.
[2] Manuele Bicego, Vittorio Murino, and Mario Figueiredo. Similarity-based
clustering of sequences using hidden markov models. Pattern Recognition,
37(12):22812291, 2004.
[3] Mario G.C.A. Cimino, Beatrice Lazzerini, and Francesco Marcelloni. A
novel approach to fuzzy clustering based on a dissimilarity relation extracted from data using a ts system. Pattern Recognition, 39(11):20772091,
November 2006.
[4] Shlomo Dubnov, Ran El-Yaniv, Yoram Gdalyahu, Elad Schneidman, Naftali Tishby, and Golan Yona. A new nonparametric pairwise clustering algorithm based on iterative estimation of distance profiles. Machine Learning,
47(1):3561, April 2002.
[5] Bernd Fischer, Thomas Zoller, and Joachim M. Buhmann. Path based
pairwise data clustering with application to texture segmentation. Lecture
Notes in Computer Science, 2134:235250, 2001.
[6] F. De Francesca, G. Gordano, R. Ortale, and A. Tagarelli. Distance-based
clustering of xml documents. In Luc De RaedtTakashi Washio, editor,
MGTS03, pages 7578. ECML/PKDD03 workshop proceedings, September 2003.
[7] Gunjan K. Gupta, Alexander Strehl, and Joydeep Ghosh. Distance based
clustering of association rules. In Proceedings of the Artificial Neural Networks in Engineering Conference (ANNIE), volume 9 of Intelligent Engineering Systems Through Articial Neural Networks, pages 759764. ASME
Press, November 1999.
[8] Thomas Hofmann and Joachim M. Buhmann. Hierarchical pairwise data
clustering by meanfield annealing. In Proceedings of ICANN95, NEURON
IMES95, volume II, pages 197202. EC2 & Cie, 1995., 1995.
[9] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM
Computing Surveys (CSUR), 31(3):264 323, September 1999.
[10] Mathias Kirsten and Stefan Wrobel. Relational distance-based clustering. In Fritz Wysotzki, Peter Geibel, and Christina Schadler, editors, Proc.
Fachgruppentreffen Maschinelles Lernen (FGML-98), pages 119124, 10587
Berlin, 1998. Techn. Univ. Berlin, Technischer Bericht 98/11.
[11] Edwin M. Knorr, Raymond T. Ng, and Ruben H. Zamar. Robust space
transformations for distance-based operations. In Proceedings of the Seventh ACM International Conference on Knowledge Discovery and Data
Mining (SICKDD), pages 126135, 2001.
13
14
[23] Dao-Qiang Zhang and Song-Can Chen. Clustering incomplete data using
kernel-based fuzzy c-means algorithm. Neural Processing Letters, 18(3):155
162, December 2003.
15