Вы находитесь на странице: 1из 15

Aprendizaje Basado en Similitud

Juan Carlos Galeano Huertas


Departamento de Ingeniera de Sistemas e Industrial
Universidad Nacional de Colombia - Bogota

1.

Introducci
on

Los problemas de aprendizaje supervisado y no supervisado, pueden entenderse como problemas de clasificacion, de un conjunto de objetos de entrada,
con naturalezas un poco distintas: en el primero, se conoce el conjunto de etiquetas (clases) que pueden ser asignadas a los objetos y el problema consiste en
asignar la etiqueta adecuada a cada objeto; en el segundo, debe encontrase un
n
umero razonable de etiquetas (grupos) en los que pueda ser dividido el conjunto total de objetos, de tal forma que un nuevo objeto pueda ser ubicado dentro
del grupo m
as adecuado. El criterio general para asignar la etiqueta adecuada
a un nuevo objeto consite en ubicar el conjunto de objetos que comparten una
misma etiqueta y que son mas parecidos al nuevo objeto. De forma similar, el
criterio general para encontrar el n
umero razonable de grupos para dividir el
conjunto total de objetos, consiste en poner juntos aquellos objetos que sean
m
as parecidos entre s, definiendo as los lmites entre los grupos.
Dentro de la literatura concerniente a las tecnicas de aprendizaje supervisado
y no supervisado, usualmente esta presente una nocion de distancia entre los
objetos del problema, la cual se contruye frecuentemente sobre la base de un
espacio de caractersticas que describen a esos objetos. Puede notarse que esa
noci
on de cercana modela, de una u otra forma, un grado de (di)similitud entre
los objetos del problema, que es utilizado como criterio para resolver el problema
de aprendizaje. Sin embargo, el concepto de similitud es mas general que el de
distancia ya que puede mostrarse que el primero no necesariamente satisface
ciertas propiedades del segundo. Mas a
un, aunque parece natural describir los
objetos mediante caractersticas, esto no siempre resuta facil y en tal caso una
definici
on de similitud en terminos de distancia en un espacio de caractersticas
no es posible. Los siguientes ejemplos pueden ayudar a aclarar esta afirmacion:
Considere el problema de indentificar una persona: si alguien le pregunta
conoce usted a Eduardo?, y su la respuesta es negativa, la persona intentara
ayudarle a recordar describiendo a Eduardo diciendo cosas tales como aquel
que mide m
as o menos 1.65 m, tiene cabello liso y negro, piel trigue
na, etc, es
decir, la persona le dar
a un listado de cartactersticas con el fin de que usted
recuerde a Eduardo. A partir de esto, usted puede imaginarse un sistema que
contenga un conjunto de fotos de personas y le muestre aquellas que mas se

parecen a una que usted describe mediante caractersticas.


Ahora bien, considere el problema de identificar un olor: si alguien le pregunta reconoce usted el perfume de Stella?, y de nuevo, su respuesta es negativa,
cu
al sera la estrategia utilizada por la persona para ayudarle a recordar?, seguramente intentara decir cosas tales como es un olor que esta entre naranja
y lim
on, se parece m
as al de la naranja, pero no es exactamente naranja, es
decir, la persona le da un marco de referencia relativo a olores que usted conoce
y que son similares al del perfume de Stella. A partir de esto, suponga que
existe un sistema que es capaz de generar olores; si usted quiere que el sistema
reproduza un olor particular, la forma quiza mas natural en que usted quisiera
dar las intrucciones sera en forma de expresiones tales como parecido al olor
de la naraja, parecido al olor del limon y mas parecido al olor de la naranja
que al del lim
on.
Desde el punto de vista computacional, los problemas antes planteados,
pueden verse como problemas de clasificacion, pero de naturalezas un poco
diferentes: en el primero, usted recibe un conjunto de caractersticas o atributos
(caractersticas fsicas que tiene Eduardo) de un objeto y usted debe encontrar
(dentro del conjunto de sus recuerdos) el elemento que mejor se ajusta a la descripci
on para asignarle la etiqueta apropiada (Eduardo); en el segundo, usted
recibe un conjunto de elementos (naranja, limon) que se parecen en distintas
proporciones (m
as a naranja que a limon) a un cierto objeto y usted debe encontrar (dentro del conjunto de sus recuerdos), el elemento que mejor se ajusta
a las descripci
on para asignarle la etiqueta apropiada (perfume de Stella).
A partir de la discusi
on anterior, puede verse que el proceso de aprendizaje
est
a soportado por una nocion de (di)similitud, en vez de por un conjunto de
caractersticas descriptoras. En este artculo, se pretende hacer una revision de
aquellas tecnicas de aprendizaje que se basan, en mayor proporcion, en una
noci
on de (di)similitud en vez de hacerlo en un espacio de caractersticas; para
ello, se hablar
a del enfoque basado en similitud de aprendizaje para referirse a
la naturaleza del primer las primeras, y se hablara del enfoque tradicional para
referirse a la naturaleza de las segundas.
El artculo est
a organizado de la siguiente forma: la Seccion 2 describe de
manera m
as precisa las diferencias entre los enfoques basado en similitud y
basado en caractersticas; la Seccion 3 hace una revision de las relaciones entre
(di)similitud y distancia y muestra algunas de estas medidas; la Seccion 4 presenta una revisi
on de algoritmos de aprendizaje basados en similitud; la Seccion
5 enuncia algunas aplicaciones en que ha sido aplicado el enfoque basado en
similitud; la Secci
on 6 presenta algunas lneas de investigacion y problemas que
resultan de la aplicaci
on del enfoque basado en similitud; y finalmente la Seccion
7 presenta algunas conclusiones y algunas lneas de trabajo futuro.

2.

Aprendizaje basado en similitud frente a aprendizaje basado en caractersticas


[explanatory figures]
The traditional approach in machine learning, pattern recognition featurebased

En el proceso de aprendizaje se consideran dos elementos basicos: un espacio de


entrada X que define el dominio del problema y un algoritmo de aprendizaje
A. El objetivo de A es construir un modelo f de X a partir de una muestra
Xn del espacio de entrada, donde n es el tama
no de la muestra. El modelo f
no es m
as que una funci
on que asigna una etiqueta a cada objeto de X, para el
caso de aprendizaje supervisado; o divide a X en un cierto n
umero de grupos,
para el caso de aprendizaje no supervisado, de tal forma que cada objeto de X
pertenezca a un grupo. De esta forma, la diferencia entre los enfoques basado en
caractersticas y basado en similitud radicara en la forma en que la informacion
contenida en X (posibles patrones) es transmitida a A para la construccion de
f.

2.1.

El enfoque tradicional en aprendizaje de m


aquina y
reconocimiento de patrones

Como se dijo anteriormente, el enfoque tradicional se basa en la transformaci


on del espacio X en un espacio de caractersticas F en el que cada objeto
es identificado mediante un vector de atributos (v1 , . . . , vn ). Esta transformaci
on es usualmente denominada representaci
on y puede denotarse mediante la
funci
on : X F .
Dado que el proceso de aprendizaje esta soportado por una nocion de similitud, sobre los elementos de X puede definirse una medida de similitud, que
denota el grado de semejanza entre cada par de objetos, tal funcion se denota
mediante d : X X R. Sin embargo, en este caso, el algoritmo A toma como
entrada el espacio F y por tanto, es deseable que d tenga una medida correspondiente en F , tal medida se denota como dF : F F R. Usualmente, dF es una
funci
on de la distancia definida sobre F , y as, la correspondencia deseable debe
ser tal que d (xi , xj ) dF ( (xi ) , (xj )), donde el smbolo indica que puntos
en el espacio F que esten cerca, deben ser imagenes de objetos en el espacio X
que sean similares.
Aunque se considere la definicion de la medida de similitud en X, tradicionalmente el proceso consiste en definir directamente una funcion de (di)similitud
dF como una funcion de la distancia (metrica) entre vectores de F . Sin embargo,
el proceso de representaci
on no siempre es facil de realizar debido a la naturaleza
de los objetos en X y, por otro lado, la funcion dF , definida en terminos de distancia, no necesariamente preserva la nocion de similitud sobre X. Puede decirse
entonces que este enfoque considera la transformacion del espacio del problema
a un espacio de caratersticas, como paso previo para la definicion de similitud
3

[11]. La justificaci
on m
as clara para este enfoque, es el soporte matematico con
que se cuenta al transformar X en un espacio euclidiano.

2.2.

Por qu
e resulta u
til el enfoque basdo en similitud?

Una de las razones para considerar este enfoque es que el proceso de representaci
on puede resultar, en ciertos dominios, difcil e incluso innatural. Esto
ocurre principalmente en problemas en los que los datos del problema no son
numericos y tienen una estructura compleja. Por ejemplo, en problemas de personalizaci
on web, los objetos del espacio X son sesiones web; una transformacion
m
posible es considerar F = {0, 1} donde m es el n
umero de paginas del sitio
web. De esta forma, cada elemento de F es un vector de m componentes, donde
cada componente est
a asociada a una pagina, un 1 indica que la pagina fue accedida en una sesi
on particular, y el 0 indica que no. Esta representacion, tiene
el problema de que m puede ser muy grande, dependiendo del tama
no del sitio
[16]. Con esta representaci
on, el concepto de similitud entre sesiones se limita a
contabilizar el n
umero de paginas en que las dos sesiones coinciden. Sin embargo, tal contabilizaci
on, difcilmente puede dar informacion acerca del contenido
de las p
aginas y el orden en que fueron accedidas en cada una de las sesiones,
lo cual podra utilizarse para describir el comportamiento de los usuarios que
navegan a traves del sitio [18]. Dentro de los dominios con objetos estructurados,
se encuentran tambien los documentos XML si se quiere realizar reconocimiento de diferentes fuentes con el mismo tipo de informacion [6]. Aqu, la medida
de similitud debera reflejar una semejanza en cuanto al tipo de informacion
descrita por dos documentos XML.
Otros casos en los que la extraccion de caractersticas resulta innatural son
los de las reglas de asociaci
on (minera de datos) [7] y datos que utilizan representaci
on de primer orden [10]. Sobre las primeras, es deseable hacer un proceso
de agrupamiento, con el fin de reducir el n
umero de reglas dentro de un sistema,
sin embargo no parece natural extraer un conjunto de caractersticas del espcio de las posibles reglas de tal forma que la medida de similitud entre reglas
corresponda a una distancia en tal espacio.
Un ejemplo m
as en el que no parece natural la transformacion de X en F se
presenta en [1], en donde se plantea el problema de hacer clasificacion de olores.
En este caso, los autores argumentan la dificultad de representar los olores mediante caractersticas, sin entrar en detalles, basicamente porque corresponde
a la extracci
on de caractersticas de compuestos qumicos con estructuras heterogenas y complejas.

3.

Medidas de (di)similitud y de distancia

En esta subsecci
on, se describen las principales estrategias utilizadas para
realizar aprendizaje, ya sea supervisado o no supervisado, tomando como informaci
on una matriz de (di)similitud. Dentro de este grupo se evidencia la potencialidad de estos metodos dada por la independencia de la medida de similitud.

Aqu, se supone que el algoritmo tiene acceso a la medidad de similitud entre


cada par de objetos pero no a la forma de calcularla.
[explanatory figures]
general definition
Dentro de los trabajos en esta direccion, se ecuentran tambien [12], [17] en
los cuales el objeto de estudio es justamente la informacion capturada por las
medidas de similitud. B
asicamente, pueden distinguirse dos grandes grupos de
medidas: Euclidianas y No Euclidianas. Dentro de las primeras, se argumenta
la limitaci
on de capturar solo estructuras esfericas mientras que las segundas
pueden aportar informaci
on relevante acerca de la estructura de los datos que
las medidas Euclidianas ignoran [12]. Dentro de esta categora de trabajos, es
usual que se hable, en forma general, de metricas y no metricas.
primeros en demostrar que relaciones no euclidianas efectivamente pueden
aportar informacion estructural que las medidas euclidianas desconocen. Aunque
no es posible encontrar vectores que satisfagan una relacion de similitud que viola la metrica euclidiana, es posible encontrar vectores que conservan la estructura
de los grupos [12]
distance dissimilarity
[EA] (representacion dual de similitud con distancias si satisface la
desigualdad del triangulo. Si no, puede corregirse, cuando aparecen
valores negativos mediante una transformacion) [16]
dissimilarity similarity
Feature-based (dis)similarity/distance
euclidean family
Binary data
cosine
Structured objects (dis)similarity/distance
La exploraci
on en este grupo esta fuertemente relacionada con la representacion
de los objetos en el espacio de entrada, seg
un el dominio particular y el significado que quiere d
arsele al concepto de semejanza.
images
[Im
agenes (segmentacion de texturas)] existe un camino de baja disimilitud entre los dos objetos
graphs

trees
[?] [Documentos XML] correspondencia estructural entre arboles
de tags. [6]
web sessions
[Conjunto de paginas visitadas, teniendo en cuenta el orden y
el tiempo empleado en cada una. Secuencias que contienen accesos a un sitio web] dos nivels: similitud entre paginas y entre
sesiones. El sitio web se abstrae como un grafo. El algoritmo esta
basado en un metodo de particionmiento de grafos. El considerar la secuencia de visitas tiene que ver con el comportamiento
entre los usuarios. La similitud entre paginas toma en cuenta si
pueden considerarse sinonimas tanto desde el punto de vista de
contenido como del de uso. [14]
[conjunto de paginas visitadas junto con la estructura del sitio
web. No es metrica] [16]
En
areas como la minera web, donde el problema es aprender a partir de la
informaci
on interesante para los usuarios, es necesario definir medidas que capturen la similitud de intereses entre usuarios, para esto, la forma m
as simple es
representar los intereses de un usuario como el conjunto de paginas visitadas en
una sesi
on [16], de tal forma que dos usuarios tendran intereses similares si el
conjunto intersecci
on de las paginas visitadas es grande. Sin embargo, dado que
usualmente se quiere clasificar los usuarios mediante la definicion de ciertos perfiles con el fin de hacer recomendaciones o personalizaciones en la navegacion,
se hace necesario agregarle a la medida de similitud informacion acerca de la
estructura del sitio, lo cual puede interpretarse como una categorizacion del sitio
desde el punto de vista del usuario que esta accediendo [16].
En [14], los autores plantean la estrategia de mejorar la calidad de las sugerencias realizadas por un sitio web al usuario en sesion, mediante el aprendizaje
de su comportamiento. Aseguran que el comportamiento no puede ser descubierto u
nicamente con la informacion acerca de los intereses del usuario, sino
que es necesario obtener informacion acerca del orden en que los recursos son
solicitados. As que, se hace necesaria una medida de (di)similitud que considere
la secuencia de p
aginas accedidas por el usuario [14].
documents
[Documentos XML] correspondencia estructural entre arboles de tags.
[6]
El problema de agrupar y/o clasificar documentos es otro campo en el cual la
definici
on de la medida de (di)similitud es crucial y no trivial. En este caso, la
forma natural de agrupar tales objetos es mediante alg
un grado de sinonimia.
Tal enfoque es adoptado en [6] en el que se pretende agrupar documentos XML
mediante el significado, el cual pretende ser extrado de la estructura particular
de tags.
6

strings
strategies for calculation and learning of (dis)similarities
[Secuencias] C
alculo mediante Modelos Ocultos de Markov [2]
Aprendida a traves de un sistema TS (reglas difusas) [nterpretacion
ling
ustica de disimilitud] [3]
inferencia estadstica de modelos graficos para calcular el corte de
los metodos basados en particion de grafos. y para aprender una
medida apropiada de afinidad entre los datos, como alternativa a la
estimacion mediante cadenas de Markov utilizada por los metodos
espectrales. [20].

4.

Una revisi
on de algoritmos de aprendizaje
basados en similitud
[explanatory figures]
Its not a new idea in machine learning
algorithms such as k-nn (consultar Jain)
[C (basada en prototipos)] [EA S (sobre los metodos de clasificci
on por prototipos) Estudio experimental de tecnicas antiguas
y nuevas de seleccion de prototipos] [13]

El siguiente grupo a considerar es el llamado basado en prototipos. En este caso,


el objetivo es seleccionar un conjunto de objetos del conjunto de entrenamiento, o
generar uno a partir de ellos, que represente una version compacta del conjunto
de datos, los elementos de ese conjunto se denominan prototipos [9]. De esta
forma, cada grupo es representado por un prototipo y el proceso de clasificacion
consiste en asignar un objeto a un grupo basado en el grado de similitud con los
prototipos. Para esto pueden adoptarse diferentes estrategias dependiendo de
si cada objeto puede pertenecer a un u
nico grupo (particion rgida) o si puede
tenerse grados de pertenencia (pariticion difusa) [2]. Dentro de estas estrategias
se encuentran tecnicas como la de los k vecinos mas cercanos (KNN, por sus
iniciales en ingles), k medias, k medoides con las correspondientes versiones
difusas [9].
clustering
el proceso de aprendizaje esta basado principlamente en la definicion de relaciones entre los objetos, usualmente medidas de cuan semejantes o diferentes
son.
Otros trabajos no realizan una definicion propiamente dicha de la medida de
similitud, en vez de eso, utilizan un peque
no conjunto de datos para los cuales

se conocen sus (di)similitudes, como conjunto de entrenamiento de un algoritmo


de aprendizaje, con el fin de estimar la medida de similitud y a partir de ese
modelo aprendido, estimar los valores de similitud para los demas objetos en el
conjunto de entrenamiento.
Not a new idea in statistics
multi dimensional scaling
[A (algomerativo)] [Reglas de asociacion] multi-dimensional scaling para embeber reglas en vectores con el fin de combinar los resultados del aglomerativo con el SOM. mecanismo para embeber
el espacio de reglas en un espacio de caracteristicaspreservando
relaciones de distancia (para generar una representacion visual
de grupos) [7]
new trend in machine learning: kernels
Un gran grupo de trabajo que cuenta con gran interes en la comunidad academica es el de los metodos basados en kernels [19]. La idea principal de los metodos
consiste en realizar el proceso de representacion vectorial mencionado en la Secci
on 2 pero de forma implcita. De forma general, una funcion kernel es una
funci
on : X X R que calcula el producto punto de los objetos en el
espacio F sin utilizar de forma explcita el mapeo (). En estos metodos, el
espacio F es, en general, de dimension mayor que la del espacio X y la estrategia
consiste en encontrar una funcion kernel que corresponda a un espacio F en el
que las relaciones que se buscan entre los datos correspondan a patrones lineales
[19]. N
otese que desde este enfoque, una vez definida la funcion kernel, puede
utilizarse cualquier metodo de aprendizaje cuyo mecanismo utilice como u
nica
informaci
on, la medida de similitud definida en el espacio de entrada. Por tanto,
pueden encontrarse versiones kernel de varias tecnicas conocidas, (ver [19] para
una descripci
on m
as detallada).
taxonomy
subsection for each item

4.1.

Agrupamiento como proceso de optimizaci


on
[A, optimizaci
on. Funcion objetivo incluye disimilitud intra-grupo] [Imagenes (segmentaci
on de texturas)] conectividad en vez de compacidad [5]
[A (obtienen
arbol de jerarqua)] [experimentos sobre secuencias de protenas] como un problema de asignacion en donde debe minimizarse una
funci
on de costo. Variacion de Simulated annealing. se minimiza una funci
on de costo que mide la no homogeneidad para cada grupo Los primeros
niveles del
arbol dan informacion de la matriz de similitud [8]

[A (relacional difuso)]. agrupamiento como problema de optimizacion, funcion objetivo incluye terminos de la medida de distancia, un parametro
fuzziness y el grado de pertenecia. RFC-MDE (Relational Fuzzy C-Maximal
Density Estimator) y FCMdd (Relational Fuzzy c Medoids). el procedimiento encuentra un prototipo para cada grupo [15]

4.2.

Algoritmos jer
arquicos

La estrategia m
as utilizada dentro del area corresponde con los algoritmos
jer
arquicos, tanto aglomerativos como divisivos (para una descripcion detallada
de estos mecanismos ver [9]). La diferencia principal entre estas dos estrategias
consiste en el punto de inicio: mientras en los aglomerativos el punto de arranque
consiste en considerar N grupos, cada uno con un objeto y cada objeto en un
grupo, en los divisivos, el punto de arranque consiste en considerar un grupo, el
cual contiene a todos los objetos. En ambas estrategias, se construye un arbol de
jerarquas a partir de la medida de similitud (en los aglomerativos) o disimilitud
(en los divisivos) en el cual cada nivel representa un cierto n
umero de grupos,
cada uno con un cierto n
umero de objetos [9]. Notese que en ambas estrategias
existen dos puntos extremos: uno en el que cada objeto forma un grupo, y otro
en el que todos los objetos pertenecen a un u
nico grupo. El problema consiste
entonces en encontrar el nivel en el arbol que mejor describe la estructura de
los datos. Por tanto, los trabajos en esta area consisten justamente en definir
criterios de selecci
on de tal nivel. Dentro de estos se encuentra los trabajos
presentados en [4], [6], [7] y [16].
[A] validaci
on cruzada (particion significativa). particionamiento determinista operaciones sobre la matriz para extraer los dos grupos mas representativos del conjunto de datos. matriz de similitudes o disimilitudes.
no parametrico jer
arquico divisivo [4].
[A (algomerativo)]. [Reglas de asociacion] multi-dimensional scaling para
embeber reglas en vectores con el fin de combinar los resultados del aglomerativo con el SOM [7].
[A (obtienen
arbol de jerarqua)] como un problema de asignacion en donde
debe minimizarse una funcion de costo. Variacion de Simulated annealing.
matriz de similitud. se minimiza una funcion de costo que mide la no homogeneidad para cada grupo Los primeros niveles del arbol dan informacion
de la matriz de similitud [8]
[A (aglomerativo)] RDBC (Relational Distance-Based Clustering). Tambien, algoritmo para extraer grupos a partir del arbol sin asumir como
par
ametro el n
umero de grupos. usualmente el problema es enfrentado utilizando una tecnica llamada agrupamiento conceptual. (resultados
obtenidos similares al enfoque conceptual) [10]
A (aglomeraci
on competitiva). Adaptacion al paradigma relacional de una
tecnica de los autores. Cuando un grupo crece, otro disminuye. evaluacion
9

de la parici
on va promedios de distancias de los elementos dentro de un
grupo (altos) y promedios de distancias entre elementos de distintos grupos
(bajos). Al final del proceso, las sesiones son caracterizadas por vectores
de probabilidad donde cada componente da un valor de importancia a la
correspondiente pagina en el correspodiente perfil. [16]

4.3.

Prototipos
[A] Secuencias. Algoritmo de agrupamiento basado en puntos. secuencias
representativas. [2]
[A] Documentos XML. Construir un arbol de correspondencia de tags
comunes (prototipos) Esto es lo que se hace [6].
[C (basada en prototipos)] metodo de condesamiento para encontrar prototipos. Entrenamiento de un clasificador en el espacio de disimilitud.
Puede escogerse el n
umero de prototipos. plantea alternativas al uso de
k-nn. Muestran que el uso de clasificadoresmas generales basados en
disimilitudes puede ser benefico. Aseguran que la combinacion entre las
tecnicas de condensamiento y clasificadores lineales basados en disimilitud provee el mejor balance entre peque
nos conjuntos condensados y alta
precisi
on de clasificacion [13]

4.4.

Espectrales
[A] agrupamiento de vectores propios de la matriz de kernel.
[A] inferencia estadstica de modelos graficos para calcular el corte de
los metodos basados en particion de grafos. y para aprender una medida
apropiada de afinidad entre los datos, como alternativa a la estimacion
mediante cadenas de Markov utilizada por los metodos espectrales. Metodos de agrupamiento espectral tienen la ventaja de poder dividir grupos
de formas arbitrarias y estan basados en calculos eficientes de vectores
propios.

4.5.

Adaptaciones
A (aglomeraci
on competitiva). sesiones web. Adaptacion al paradigma
relacional de una tecnica de los autores. Cuando un grupo crece, otro
disminuye [16]
A (basado en prototipos). version no lineal de un algoritmo lineal conocido.
Los prototipos encontrados por metodos kernel pertenecen al espacio de
caractersticas lo cual conduce a una carencia de interpretacion en los
grupos encontrados. Los metodos utilizan algunas tecnicas de poryeccion.
Versi
on kernel de Fuzzy C-Means. el modelo propuesto tiene la ventaja
sobre otros metodos basados en funciones kernel, de proveer un significado,

10

en el espacio de entrada, de los prototipos encontrados en el espacio de


caracteristicas y ademas que es capaz de trabajar con datos incompletos
[23].

4.6.

Estrategias para embeber el espacio de entrada en


uno de caractersticas
[A (algomerativo)] multi-dimensional scaling para embeber reglas en vectores con el fin de combinar los resultados del aglomerativo con el SOM.
mecanismo para embeber el espacio de reglas en un espacio de caracteristicaspreservando relaciones de distancia (para generar una representacion
visual de grupos) [7].
Transformaci
on del espacio del problema a un espacio de caratersticas,
donde las medidas de similitud no se ven demasiado afectadas por cuestiones de variabilidad y escala. plantea el proceso de representacion vectorial como una transformacion del espacio del problema a un espacio
euclidiano [11].

4.7.

Otras estrategias

Dentro de la categora de Otras estrategias se encuentran trabajos como el de


[21] en donde se presenta una tecnica de agrupamiento que utiliza la matriz de
similitud para definir una Cadena de Markov donde cada objeto representa un
estado y algunas estructuras estables, cuya estabilidad depende de una distancia
entre distribuciones de probabilidad, emergen durante la ejecucion de la cadena.
Otro trabajo relevante para destacar en este grupo de trabajos es el presentado
en [3] en el cual se utiliza ua estrategia supervisada para aprender la medida
de disimilitud entre los datos y entonces utilizar esa medida aprendida para
entrenar el algoritmo Fuzzy C-Means.
[A] [Dada. Distancia entre distribuciones de probabilidad?] . Observacion
de la cadena (erg
odica) en el camino hacia la distribucion estacionaria.
Combina un metodo basado en distancias (pairwise) y un metodo de
cuantizaci
on vectorial (vector-quantization). matriz de distancias. perdida de informaci
on mutua para detectar estabilidad en grupos Bottleneck
Method para extraer los grupos. definicion de cadena de Markov a partir
de la matriz de distancias estabilidad de grupos mediante distancias entre distribuciones de probabilidad durante el proceso de agrupamiento, no
se utiliza explicitamente la geometria del espacio que se esta explorando
cuantizaci
on para interpretar grupos El metodo puede agrupoar datos
sin sesgo geometrico y no hace suposiciones acerca de la distribucion de
probabilidad [22].

11

5.

Aplicaciones

Vale la pena mencionar que la estrategia particular de aprendizaje esta usualmente motivada por una aplicacion especfica, as por ejemplo, se encuentran
estrategias basadas en similitud para segmentacion de imagenes [5], para la
clasificaci
on de olores [1] y para minera de datos en la web [15].
experimentos sobre secuencias de protenas [8].
clasificaci
on de olores [1].
personalizaci
on. [14],[16],[15]

6.

Lneas de investigaci
on y problemas abiertos

Aunque el
area de aprendizaje basado en similitud tiene aplicacion en muchas
reas facilitando la definicion del modelo, de la exposicion presentada en la
a
Secci
on 3 puede verse que el trabajo apunta basicamente en tres direcciones:
definiciones de medidas de (di)similitud, definicion de nuevos algoritmos cuyo
desempe
no depende u
nicamente de la informacion de la (di)similitud entre los
objetos y adaptaci
on de algoritmos al paradigma, esto es, hacer que estos algoritmos se desempe
nen independientemente de la representacion adoptada para
el espacio de entrada.
Dentro de las preocupaciones dentro de los investigadores en el area se encuentra por ejemplo el manejo de la dimensionalidad de los espacios de (di)similitud.
Ya que en aplicaciones reales, es usual que haya un n
umero mayor de datos que
de dimensiones (para el caso de datos vectoriales), y en el enfoque directo, cada objeto, es representado mediante su (di)similitud con cada uno de los demas
objetos, y entonces aplicar alg
un algoritmo tradicional de clasificacion en ese
espacio, as que puede presentarse el problema conocido como la maldicion de
la dimensionalidad. Este problema se ha enfrentado mediante el uso de metodos combinados con metodos basados en prototipos, en los que el espacio de
(di)similitud se construye sobre un n
umero reducido de ejemplos, de tal forma
que la dimensi
on de ese nuevo espacio resulta manejable.
Vale la pena mencionar que la participacion de metodos bioinspirados en esta
area es poco, s

olo se cuenta con el hecho de que ciertas medidas de (di)similitud


pueden ser aprendidas mediante el uso de redes neuronales [3]. Sin embargo, dada la estrategia general del paradigma de definir una relacion de (di)similitud,
hace natural pensar que ciertos modelos bioinspirados como los sistemas inmunol
ogicos artificiales pueden representar un campo fertil para explotar esta
idea, ya que el elemento clave en tales modelos es el concepto de afinidad o
reconocimiento entre celulas que usualemente ha sido representado como una
funci
on de la distancia de elementos en espacios vectoriales.
dimensi
on espacio de similitud. [1]

12

Referencias
[1] Manuele Bicego. Odor classification using similarity-based representation.
Sensors and Actuators B: Chemical, 110(2):225230, October 2005.
[2] Manuele Bicego, Vittorio Murino, and Mario Figueiredo. Similarity-based
clustering of sequences using hidden markov models. Pattern Recognition,
37(12):22812291, 2004.
[3] Mario G.C.A. Cimino, Beatrice Lazzerini, and Francesco Marcelloni. A
novel approach to fuzzy clustering based on a dissimilarity relation extracted from data using a ts system. Pattern Recognition, 39(11):20772091,
November 2006.
[4] Shlomo Dubnov, Ran El-Yaniv, Yoram Gdalyahu, Elad Schneidman, Naftali Tishby, and Golan Yona. A new nonparametric pairwise clustering algorithm based on iterative estimation of distance profiles. Machine Learning,
47(1):3561, April 2002.
[5] Bernd Fischer, Thomas Zoller, and Joachim M. Buhmann. Path based
pairwise data clustering with application to texture segmentation. Lecture
Notes in Computer Science, 2134:235250, 2001.
[6] F. De Francesca, G. Gordano, R. Ortale, and A. Tagarelli. Distance-based
clustering of xml documents. In Luc De RaedtTakashi Washio, editor,
MGTS03, pages 7578. ECML/PKDD03 workshop proceedings, September 2003.
[7] Gunjan K. Gupta, Alexander Strehl, and Joydeep Ghosh. Distance based
clustering of association rules. In Proceedings of the Artificial Neural Networks in Engineering Conference (ANNIE), volume 9 of Intelligent Engineering Systems Through Articial Neural Networks, pages 759764. ASME
Press, November 1999.
[8] Thomas Hofmann and Joachim M. Buhmann. Hierarchical pairwise data
clustering by meanfield annealing. In Proceedings of ICANN95, NEURON
IMES95, volume II, pages 197202. EC2 & Cie, 1995., 1995.
[9] A. K. Jain, M. N. Murty, and P. J. Flynn. Data clustering: a review. ACM
Computing Surveys (CSUR), 31(3):264 323, September 1999.
[10] Mathias Kirsten and Stefan Wrobel. Relational distance-based clustering. In Fritz Wysotzki, Peter Geibel, and Christina Schadler, editors, Proc.
Fachgruppentreffen Maschinelles Lernen (FGML-98), pages 119124, 10587
Berlin, 1998. Techn. Univ. Berlin, Technischer Bericht 98/11.
[11] Edwin M. Knorr, Raymond T. Ng, and Ruben H. Zamar. Robust space
transformations for distance-based operations. In Proceedings of the Seventh ACM International Conference on Knowledge Discovery and Data
Mining (SICKDD), pages 126135, 2001.
13

[12] Julian Laub, Volker Roth, Joachim M. Buhmann, and Klaus-Robert M


uller.
On the information and representation of non-euclidean pairwise data. Pattern Recognition, 39(10):18151826, October 2006.
[13] M. Lozano, J.M. Sotoca, J.S. Sanchez, F. Pla, E. Pekalska, and R.P.W.
Duin. Experimental study on prototype optimisation algorithms for
prototype-based classification in vector spaces. Pattern Recognition,
39(10):18271838, October 2006.
[14] Giuseppe Manco, Riccardo Ortale, and Domenico Sacc`a. Similarity-based
clustering of web transactions. In Proceedings of the 2003 ACM symposium
on Applied computing, pages 1212 1216, New York, NY, USA, 2003. ACM
Press.
[15] O. Nasraoui, R. Krishnapuram, A. Joshi, and T. Kamdar. Automatic web
user profiling and personalization using robust fuzzy relational clustering.
In Javier Segovia, Piotr S. Szczepaniak, and Marian Niedzwiedzinski, editors, E-Commerce and Intelligent Methods, volume 105 of Studies in Fuzziness and Soft Computing, pages 233261. Springer-Verlag, j. kacprzyk edition, 2002.
[16] Olfa Nasraoui, Hichem Frigui, Anupam Joshi, and Raghu Krishnapuram.
Mining web access logs using relational competitive fuzzy clustering. In
Proc. Eight International Fuzzy Systems Association World Congress - IFSA 99, August 1999.
[17] Jan Puzicha, Thomas Hofmann, and Joachim M. Buhmann. A theory of
proximity based clustering: structure detection by optimization. Pattern
Recognition, 33(4):617634, April 2000.
[18] T. A. Runkler and J. C. Bezdek. Web mining with relational clustering. International Journal of Approximate Reasoning, 32(2-3):217236, February
2003.
[19] John Shawe-Taylor and Nello Cristianini. Kernel Methods for Pattern Analysis. Cambridge University Press, 2004.
[20] N. Shental, A. Zomet, T. Hertz, and Y. Weiss. Pairwise clustering and
graphical models. In Proceedings of the Neural Information Processing Systems Conference (NIPS), 2003.
[21] Ben Taskar, Eran Segal, and Daphne Koller. Probabilistic classification and
clustering in relational data. In Proceeding of IJCAI-01, 17th International
Joint Conference on Artificial Intelligence, 2001.
[22] Naftali Tishby and Noam Slonim. Data clustering by markovian relaxation and the information bottleneck method. In Proceedings of the Neural
Information Processing Systems Conference (NIPS), pages 640646, 2000.

14

[23] Dao-Qiang Zhang and Song-Can Chen. Clustering incomplete data using
kernel-based fuzzy c-means algorithm. Neural Processing Letters, 18(3):155
162, December 2003.

15

Вам также может понравиться