Вы находитесь на странице: 1из 38

Computacion inteligente

Clustering Fuzzy
2
Contenido
Conceptos basicos
Tipos de clustering
Tipos de Clusters
La tarea del clustering
Nociones basicas en el clustering particional
Clustering Fuzzy de las c-medias
El algoritmo
Parametros del algoritmo
Algoritmo de Gustafson-Kessel
Validacion de los clusters
Ejemplo de aplicacin
Clustering Fuzzy de las
c-medias
El algoritmo de clustering
El clustering de las c-medias es un
proceso de optimizacion. Dada la matriz Z,
encontrar:

el numero de clusters K,
La matriz de particion U,
la matriz de prototipos V,

basado en, la minimizacion de una
funcion objetivo, (Dunn, 1974; Bezdek,
1981):
El proceso de optimizacion
Minimizar:




Sujeto a las restricciones impuestas a la
matriz U.
Optimizacion: condiciones sobre U
Los elementos de U fuzzy satisfacen
Medida de la distancia
La norma de la distancia es distinta para
cada direccion





La matriz A es comun a todos los clusters
La norma influye en el criterio de agrupamiento
Optimizacion de la funcion objetivo
Definiendo




Hacer cero los gradientes de J con
respecto a U, V, y

: Multiplicadores de Lagrange
El algoritmo FCM (fuzzy c-means)
Se puede demostrar que, si m>1, en el
optimo:

Un prototipo es la media pesada de los miembros
del cluster
El algoritmo FCM (fuzzy c-means)
Se puede demostrar que, si m>1, en el
optimo:
El grado de pertenencia es mayor para el cluster del
prototipo ms cercano
El algoritmo FCM (fuzzy c-means)
El algoritmo busca iterativamente encontrar
El algoritmo
Pasos del algoritmo c-means
After King, 2000
El algoritmo FCM (fuzzy c-means)
Paso 1: inicializacion

Escoger el numero de clusters c < N
Escoger el exponente m,
Escoger la matriz A,
Selccionar la tolerancia para terminar la
iteracion
Inicializar la matriz de particion U
aleatoriamente.

El algoritmo FCM (fuzzy c-means)
Paso 2:calcular los prototipos





Paso 3:calcular las distancias
El algoritmo FCM (fuzzy c-means)
Paso 4: actualizar la matriz de particion




Paso 5: verificar

Parametros del
algoritmo
El Parametro de Fuzificacion m
Influye significativamente en la
fuzificacion de la particion resultante

m=1 particion hard
m , particion completamente
fuzzy


m=2 valor tipico
Estas propiedades son independientes del metodo
de optimizacion
1
ik
c
=
Medidas de las Distancias: la matriz A
Teniendo en cuenta las varianzas en las
diferentes direcciones
Medidas de las Distancias: la matriz A
Teniendo en cuenta la
matriz de covarianza






Esta es la Norma de
Mahalanobis
Diferentes medidas de la distancias
La norma influye en el criterio de agrupamiento
Algoritmo de
Gustafson-Kessel
Algoritmo de Gustafson-Kessel (1979)
La norma de la distancia es distinta para
cada cluster




Cada cluster tiene su propia matriz A
i

Norma del algoritmo de Gustafson-
Kessel
Validacion de los
clusters
Validacion de los clusters
La validez del agrupamiento se refiere al
problema si una particin fuzzy dada se
ajusta a los datos.

El algoritmo de clustering siempre intenta
encontrar el mejor ajuste para un nmero fijo
de clusters y las formas parametrizada de los
clusters.
Sin embargo, esto no significa que aun el mejor
ajuste sea significativo.
Validacion de los clusters
El nmero de clusters podra estar
equivocado, o

la forma de los clusters podra no
corresponder al de los grupos en los
datos.
Si es que los datos pueden agruparse de una
manera significativa
Validacion del numero de clusters
Cmo determinar el numero apropiado
de clusters?

Coeficiente de particion, F maximizar
Entropia de la particion, H minimizar
Exponente de proporcion, P maximizar
Estas medidas se calculan despues de completar el clustering
Validacion: coeficiente de particion
1
1

1 1
2
s s =

= =
F
c n
F
n
k
c
i
ik

F=1 es crisp
F=1/c significa que cada observacion tiene
grado de pertenencia igual a 1/c a cada
cluster
Validacion: entropia de la particion
H=0 es crisp
H=ln(c) significa que cada observacion tiene
grado de pertenencia igual a 1/c a cada
cluster
c H
n
H
ik
n
k
c
i
ik
ln 0 ln
1
1 1
s s =

= =

Validacion: exponente de proporcion
)! ( !
!
j c j
c
j
c

=
|
|
.
|

\
|
P= is crisp
P=0 significa que cada observacion tiene
grado de pertenencia igual a cada cluster
{ }
max
k ik
c

=
Xie-Beni index (1991)
Minimizar
De los resultados de la validacion
Ningn ndice de validacion es fiable por si
solo

y el ptimo puede descubrirse slo en
comparacin con los resultados de otros.

Los resultados dependen de la estructura de
los datos
De los resultados de la validacion
Se considera que particiones con menos
clusters son mejores,

cuando las diferencias entre los valores de
un ndice de validacion son menores.
En general los indices son monotonicamente
decrecientes con c y no relacionados directamente con
los datos.
Ejemplo de aplicacion
Extraccion de las reglas fuzzy por
clustering: Modelo directo
After Babuska
Extraccion de las reglas fuzzy por
clustering: Modelo inverso
After Babuska
38
Fuentes
Robert Babuska. Course Fuzzy and Neural
Control, 2001/2002.
Kevin M. Passino, Stephen Yurkovich, Fuzzy
Control. Addison Wesley Longman, Inc. 1998
Jonathan R. King, New Applications of Fuzzy
Logic. University of East Anglia, Norwich England.
PHD thesis, december 2000
Otras . . .

Вам также может понравиться