Ja02 002

Algoritmos de clustering en la identificacin de modelos borrosos
Jos L. Dez , Jos L. Navarro and Antonio Sala
Resumen---La aplicacin de las tcnicas de clustering borroso para la identificacin de modelos borrosos se est extendiendo cada vez ms. Sin embargo, y dado que su origen es bien distinto a la ingeniera de control, aparecen numerosos problemas en su aplicacin. En este trabajo se definen las caractersticas de un algoritmo de clustering ideal para su aplicacin a la construccin de modelos locales de sistemas complejos no lineales para control. Posteriormente se desarrolla una nueva familia de algoritmos de clustering llamada AFCRC (Adaptive Fuzzy C-Regresssion models with Convex membership functions) que permite desarrollar modelos con esas caractersticas ideales, mejorando (respecto a algoritmos previamente existentes) la interpretabilidad de los modelos borrosos obtenidos y el descubrimiento de estructuras (hiper-)lineales en los mismos. Palabras claveclustering borroso, identificacin de sistemas complejos, sistemas borrosos
1 Introduccin Para tratar de modelar sistemas complejos se puede recurrir a su descomposicin en un conjunto ms o menos grande de submodelos con un rango de validez limitado, que denominamos modelos locales. El modelo global del sistema se puede obtener a travs de la integracin de los modelos locales utilizando, por ejemplo, una base de reglas borrosa que permite la seleccin de los modelos adecuados a la situacin en que se encuentra el sistema [9]. Con este enfoque se dispone de una tcnica simple e intuitiva para el modelado de procesos complejos, adems de una herramienta muy til para el diseo de sistemas de control. Los problemas que surgen a la hora de utilizar esta tcnica son la seleccin del nmero de modelos locales que se deben emplear y la identificacin de los distintos modelos locales utilizados. Una de las alternativas es la utilizacin de datos experimentales y extraer a partir de stos la estructura del sistema de reglas borrosas (extraccin de reglas) y los parmetros de los modelos locales (identificacin paramtrica). Existen diversos mtodos para resolver este problema y se basan en algoritmos genticos, redes neuronales, plantillas o tcnicas de agrupamiento (clustering) [1]. Los algoritmos de agrupamiento borroso son los ms adecuados para la identificacin borrosa ([12], [5], [1]). Los ms utilizados en este tipo de aplicaciones son el mtodo de Fuzzy C-Means (FCM) [2] y el mtodo de Gustafson-Kessel (GK) [6].
2 Algoritmo de clustering fuzzy c-means La mayora de las tcnicas analticas de clustering borroso se basan en la optimizacin de la funcin objetivo c-means [2] o alguna modificacin de sta. 2.1 Funcin objetivo c-means La funcin objetivo base de una gran familia de algoritmos de clustering borroso es la siguiente:
J ( Z ; U , C ) = ( ik ) m z k ci
i =1 k =1
2 B
(1)
donde Z = {z1, z2, ..., zN} (2)
son los datos que deben ser clasificados, U = [ik] Mfc es una matriz particin borrosa de Z, C = [c1, c2, ..., cc], es el vector de centros (centroides, prototipos) a determinar,
2 Dik B = z k ci 2 B
(3)
ci
(4)
= ( z k ci )T B ( z k ci )
(5)
es una norma, y m [1,) (6)
es un exponente que determina la "borrosidad" de los clusters resultantes. El valor de la funcin de coste (1) es una medida ponderada del error cuadrtico que se comete al representar los c clusters por los prototipos ci. 2.2 Algoritmo fuzzy c-means (FCM) La minimizacin de la funcin objetivo (1) es un problema de optimizacin no lineal que puede ser resuelto de muchas formas, pero la ms habitual es la conocida como algoritmo fuzzy c-means. Los puntos estacionarios de la funcin objetivo (1) se encuentran aadiendo la condicin de que la suma de las pertenencias de un punto a todos los clusters debe ser igual a uno a J mediante los multiplicadores de Lagrange [13]:
c N N c 2 + J ( Z ; U , C , ) = ( ik ) m Dik B k ik 1 i =1 k =1 k =1 i=1
(7)
Igualando a cero las derivadas parciales de que (1) alcance su mnimo son:
J con respecto a U, C y , las condiciones necesarias para

, 1 i c 1 k N
2 /( m 1)
ik =
( Dik B / D jk B )
j =1
(8)
ci =
(
k =1 N k =1
ik
)m zk
ik
, 1 i c
(9)
)m
La ecuacin (9) nos da un valor para ci como la media ponderada de los datos que pertenecen a un cluster, donde los pesos son las funciones de pertenencia. El problema ms importante con el que nos enfrentamos al emplear el algoritmo FCM para la identificacin de modelos borrosos, es que los clusters identificados tienen forma hiper-elipsoidal, cuando lo deseable para una posterior aplicacin a control es que, como se ha dicho, dichos clusters tengan una estructura afn o lineal. Existen muchas extensiones y modificaciones al algoritmo bsico c-means que se ha descrito. Estos nuevos mtodos pueden ser clasificados en tres grandes grupos:
Algoritmos que utilizan una medida de la distancia adaptativa (una norma diferente para cada cluster). Esto posibilita la deteccin de clusters de datos con estructuras (tamaos y formas) diferentes. Algoritmos basados en prototipos lineales (norma constante y prototipos variables). Es una alternativa a la solucin anterior de las restricciones de FCM. Algoritmos basados en prototipos no lineales. Este tipo de algoritmos no tienen aplicacin al caso que nos ocupa (clusters huecos).
De entre los algoritmos con distancia adaptativa, cabe destacar el de Gustafson-Kessel (GK), algoritmo que extiende el algoritmo bsico fuzzy c-means eligiendo una norma diferente Bi para cada cluster. Este algoritmo, aunque no tanto como el FCM, se usa bastante en la bibliografa para la obtencin de modelos borrosos, dado que los clusters hiperlipsoidales que busca, detectan de forma bastante correcta los comportamientos quasi-lineales de los diversos regmenes de funcionamiento que pueden existir en un conjunto de datos. 3 Algoritmo de Gustafson-Kessel (GK) Este algoritmo, al extender el algoritmo bsico fuzzy c-means eligiendo una norma diferente Bi para cada cluster, convierte (5) en [6]:
2 Dik Bi = z k ci 2 Bi
= ( z k ci )T Bi ( z k ci )
(10)
Estas matrices son ahora tomadas como posibles variables para la optimizacin de la funcin (1), con lo que se adaptar la norma a cada cluster segn sus caractersticas. Sea B = {B1, B2, ..., Bc} el vector que contiene las c normas. La nueva funcin a minimizar ser:
2 J ( Z ; U , C , B ) = ( ik ) m Dik Bi i =1 k =1 c N
(11)
cumpliendo (3), (4) y (6). Para obtener una solucin viable, Bi debe ser limitada de alguna forma. La forma ms habitual es fijar el determinante de Bi, lo que es equivalente a optimizar la forma del cluster manteniendo su volumen constante:
Bi = i ,
>0
(12)
con i constante para cada cluster. La expresin que se obtiene mediante los multiplicadores de Lagrange es:
Bi = [ i det( Fi )] Fi
1/ n
(13)
siendo Fi la matriz de covarianzas de cluster i definida por:
Fi =
(
k =1
ik
) m ( z k ci )( z k ci )T
(14)
(
k =1
ik
)m
Una vez determinados los clusters hiperlipsoidales, si lo que se desea es conseguir un modelo borroso de Takagi-Sugeno, se debern ajustar dichos clusters a estructuras lineales siguiendo la informacin proporcionada por el eje mayor de dicho cluster y mediante el uso de, por ejemplo, el algoritmo de mnimos cuadrados. El algoritmo GK es bastante adecuado para el propsito de la identificacin, ya que tiene las siguientes propiedades:
La dimensin de los clusters viene limitada por la medida de la distancia y por la definicin del prototipo de los clusters como un punto. En comparacin con otros algoritmos, GK es relativamente insensible a la inicializacin de la matriz de particin. Como el algoritmo est basado en una norma adaptativa, no es sensible al escalado de los datos, con lo que se hace innecesaria la normalizacin previa de los mismos.
Por todas estas caractersticas es bastante empleado en la identificacin de los sistemas que no ocupan. Sin embargo, tambin tiene sus desventajas: La carga computacional es bastante elevada, sobre todo en el caso de grandes cantidades de datos. El algoritmo GK puede detectar clusters de diferentes formas, no solo subespacios lineales que son los que en principio nos interesan (en realidad busca clusters hiperelipsoidales). Cuando el nmero de datos disponibles es pequeo, o cuando los datos son linealmente dependientes, pueden aparecer problemas numricos ya que la matriz de covarianzas se hace casi singular. El algoritmo GK no podr ser aplicado a problemas puramente lineales en el caso ideal de no existir ruido. Si no hay informacin al respecto, los volmenes de los clusters se inicializan a valores todos iguales. De esta forma, no se podrn detectar clusters con grandes diferencias en tamao.
Por otra parte, es una caracterstica comn de la identificacin de modelos borrosos por clustering olvidar el fin (el modelo borroso) en la etapa de agrupacin de los datos. Siempre es un paso posterior derivar reglas en alguno de los tipos de modelo borroso existentes (Takagi-Sugeno en nuestro caso). Para ello, la solucin ms sencilla es proyectar la pertenencia a los clusters obtenidos en el espacio deseado, obteniendo as funciones de pertenencia que definirn conjuntos borrosos en los espacios que se proyecten. Otra opcin en conservar en el espacio n-dimensional la funcin de perteneca obtenida. Si no se realiza la proyeccin en el espacio de salida (modelo Mandami), se emplea un mtodo alternativo de ajuste apropiado para la determinacin del consecuente (mnimos cuadrados, algoritmos genticos, ...). Adems, se suele perder la interpretabilidad de las reglas a cambio de un bajo error de modelado. El objetivo primordial de este trabajo es buscar tcnicas de clustering que desarrollan clusters lineales o hiperplanos (consecuente deseado), manteniendo la interpretabilidad de las reglas (antecedente deseado) y todo ello con resultados de error de modelado al menos tan buenos como el algoritmo GK, de forma que se pueda facilitar el uso posterior de dichos modelos para el control del sistema que est siendo modelado. Como se ver, esto se consigue por medio de la implementacin de lo que se ha llamado funcin de coste mixta. 4. Algoritmos con prototipos lineales Existen diferentes algoritmos que eliminan el problema de la limitacin de forma y tamao de los clusters impuesta por FCM manteniendo la norma constante pero definiendo prototipos r-dimensionales (0 r n-1), lineales o no lineales, en subespacios del espacio de datos. Esta opcin es opuesta a la idea de GK de emplear normas variables, pero tambin obtiene buenos resultados. Los algoritmos de este tipo y que pueden ser de nuestro inters, referentes a espacios o subespacios lineales, son el algoritmo fuzzy c-varieties [2] (FCV) y el algoritmo fuzzy c-regression models [8] (FCRM). De entre todos estos algoritmos, el que en un principio parece ms interesante es el FCRM, ya que ajusta los parmetros de la clasificacin a un modelo de regresin genrico:
yk = f i ( zk ; i )
(15)
con las funciones fi parametrizadas por i Rpi. El grado de pertenencia ik U se interpreta en este caso como la cercana existente entre el valor predicho por el modelo (15) e yk. El error de prediccin suele calcularse como:
Eik ( i ) = ( y k f i ( z k ; i )) 2
(16)
Las funciones objetivo a minimizar con el mtodo que se presenta, son definidas por U Mfc y (1, ...,c) Rp1 x Rp2 x ... x Rpc para
Em (U , { i }) = ( ik ) m Eik ( i )
i =1 k =1
(17)
Una posibilidad para minimizar (17) se presenta en [7] . A pesar de lo interesante que en un principio parece el algoritmo, tan solo Kim [10] sugiere emplearlo para el modelado borroso. Adems, los resultados que obtiene no son muy prometedores, y se considera que solo debe ser empleado como una primera aproximacin y el ajuste fino del modelo final se har posteriormente, por ejemplo, con el mtodo del gradiente. En cuanto al antecedente de las reglas lo obtiene en un paso tambin posterior al clustering, mediante un ajuste de U a funciones exponenciales. El comportamiento de FCRM cuando en los datos no hay estrictamente clusters lineales, sino que lo que se pretende es obtener modelos lineales que aproximen a un sistema que no es lineal (ni siquiera a tramos) se puede comprobar buscando modelos lineales con alguna curva, por ejemplo, una parbola. Las soluciones que obtiene FCRM para este caso se muestran en la figura 1.
1 1 0.9 0.5 0.8 0.7 0 0.6 0.5 -0.5 0.4 0.3 -1 0.2 0.1 -1.5 -1 0 -1
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
-0.8
-0.6
-0.4
-0.2
0.2
0.4
0.6
0.8
a) b) Figura 1. FCRM en la deteccin de datos sin estructura lineal (azul: datos, verde: simulacin, rojo: modelos lineales identificados). El problema del que adolece el algoritmo es que aunque el error entre los datos de salida y los del modelo se minimiza, los modelos lineales obtenidos no son nada parecidos a lo esperado (aproximar la funcin a modelar con modelos lineales en el entorno de un punto de funcionamiento), tal y como se muestra especialmente en la figura 1.b.
1 1
0.5
0.5
0 0 Output1 -0.5 -1 -1 -1.5 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -0.5
-1.5
-2 -1
-0.8
-0.6
-0.4
-0.2
0 Input
0.2
0.4
0.6
0.8
a) b) Figura 2. a) FCRM en la deteccin de datos sin estructura lineal con U dada (azul: datos, verde: simulacin, rojo: modelos lineales), b) GK en el mismo caso (azul: datos, rojo: simulacin, verde: modelos lineales).
Una inicializacin de la matriz de particin U ms cercana al resultado deseado lleva a resultados como los mostrados es la figura a, pero nunca comparables a los que se obtienen con el algoritmo GK (figura 2.b). Por tanto, este algoritmo no consigue los objetivos deseados aunque su filosofa no sea desechable. Existe una familia de algoritmos que combina ventajas de uno y otro enfoque y que se presenta a continuacin. 5 Algoritmos con prototipos mixtos Existe un tercer tipo de algoritmos (adems de los que tienen norma adaptativa o los que emplean prototipos lineales) que intentan superar los problemas de los algoritmos con prototipos lineales mediante la combinacin de stos con los de norma adaptativa. Estos algoritmos son el algoritmo fuzzy celliptotypes [2] (FCE) y el algoritmo adaptive fuzzy c-regression models [11] (AFCR), y a los que podramos llamar algoritmos con prototipos mixtos. Con FCE se pretenden superar algunos de los problemas del FCV. Se toma un criterio genrico,
J ( Z ;U ) = ( ik ) m Deik
i =1 k =1
(18)
se fuerza a cada cluster a tener un centro de gravedad cdgi y se mide la distancia como combinacin de las distancias de FCM (Dik) y FCV (Drik):
Deik = Dik + (1 ) Drik

con [0,1]. El problema en este algoritmo es la eleccin del correcto para cada cluster.
(19)
El algoritmo AFCR (del que tan solo se han encontrado referencias en la literatura japonesa) intenta proporcionar un tratamiento similar a FCRM del que hace FCE con FCV. En este caso el criterio queda:
J ( Z ;U , 1 ,, c , c1 , cc ) = ( ik ) m Daik
i =1 k =1
(20)
y se toma la distancia como combinacin de las distancias de FCRM (Eik) y FCM (Dik):
Daik = k Eik ( i ) + (1 k )Dik
(21)
con [0,1]. El primer trmino proporciona el mismo criterio que FCRM y el segundo incrementa la capacidad de particin en el espacio de las variables ya que tiene en cuenta la distancia de los datos al prototipo de los clusters. La eleccin del se hace de forma dinmica en este algoritmo y se acerca a 1 segn la estructura descubierta en el cluster es ms lineal. Su determinacin se basa en
k = 1
min{kl }
l l
max{kl }
, k = 1,2,c
(22)
con kl los autovalores de la matriz de covarianzas definida en (14) para GK. De este modo se conjuga en un solo algoritmo ventajas de FCRM, FCM y GK. El parmetro sirve de balance entre los trminos cuando su tamao medio es muy diferente y no hay ningn estudio respecto a su determinacin. Los resultados que obtiene AFCR para el mismo ejemplo planteado en las figuras 1 y 2 se pueden observar en la figura 3 y se pueden comparar con el resultado obtenido por GK en la figura 4 y FCRM en la figura
1 0.5 0
0.5
0 -0.5 -0.5 -1 -1 -1.5 -1.5 -2 -2.5 -1
-2 -1
-0.5
0.5
-0.5
0.5
a) b) Figura 3. AFCR en la deteccin de datos sin estructura lineal (azul: datos, verde: simulacin, rojo: modelos lineales) para 3 clusters (a) y 5 clusters (b).
1 1.5 1 0.5 0.5 0 0 Output1 -0.5 Output1 -0.8 -0.6 -0.4 -0.2 0 Input 0.2 0.4 0.6 0.8 1 -0.5 -1 -1 -1.5 -1.5 -2 -2 -1 -2.5 -1
-0.8
-0.6
-0.4
-0.2
0 Input
0.2
0.4
0.6
0.8
a) b) Figura 4. GK la deteccin de datos sin estructura lineal con U dada (azul: datos, rojo: simulacin, verde: modelos lineales) para 3 clusters (a) y 5 clusters (b). Los resultados se corresponden con la mejora indicada en [11] respecto a FCRM, igualando resultados de algoritmos como el GK y obteniendo, al tiempo de realizacin del clustering, una serie de modelos locales lineales que se ajustan perfectamente a la funcin en estudio e incluyendo el error de modelado en la funcin de coste. Adems, la capacidad de deteccin de estructuras lineales no se ha perdido en AFCR, obteniendo resultados idnticos a FCRM con diferentes conjuntos de datos en lo que ste funcionaba correctamente. A continuacin, y dados los buenos resultados obtenidos, se estudi el campo en el que GK se comporta mejor y que es, por otra parte, el que ms interesa: el mapeado de funciones estticas y dinmicas, como nos vamos a encontrar en control. Para ello, se ha tomado en primer lugar una serie de datos reales de un biorreactor [3], ejemplo que se muestra en la figura 5.
6 5 4
2 3
2.5
3
1.5
2 1 0 -1 -2
1
0.5
10
20
30
40
50
60
70
-0.5
10
20
30
40
50
60
70
a) b) Figura 5. AFCR (a) y FCRM (b) detectando estructuras lineales en datos reales (azul: datos, rojo: simulacin, verde: modelos lineales).
Claramente AFCR supera FCRM (figura 5) e iguala GK (figura 6). Cabe destacar que en ambos casos de resultado positivo (AFCR y GK) las funciones de pertenencia borrosas obtenidas pierden parte de su interpretabilidad (convexidad), como se muestra en la parte inferior de la figura 6.
Function approximation 2 1.5 y 1 0.5 0 0 1 0.8 Membership 0.6 0.4 0.2 0 0 10 20 30 x 40 50 60 70 10 20 30 40 x Membership functions 50 60
Figura 6. GK detectando estructuras lineales en datos reales (azul: datos, rojo: simulacin, verde: modelos lineales). Este efecto (el de la prdida de la interpretabilidad) se hace mucho ms claro en sistemas ms "complejos".
Function approximation
8
8
7 6 5 4 3 2 1 0 -1
6 4 2 0 -2 0 1
Membership y
20
40 60 x functions Membership
80
100
0.5
0
0 20 40 60 80 100
20
40 x
60
80
100
a) b) Figura 8. AFCR (a) y GK (b) en la deteccin de datos dinmicos. Los resultados mostrados en 8 no son demasiado buenos al fijarnos en las funciones de pertenencia y, aunque nuevas ejecuciones de AFCR (variando el valor de ) o GK dan clusters que aproximan mejor (localmente) la funcin en estudio, las funciones de pertenencia han perdido su interpretabiblidad a cambio de un bajo error de modelado. Una inspeccin de la matriz U definitiva a la que llevan AFCR o GK, nos indica que se minimiza el error no por cercana del modelo obtenido, sino por la ponderacin de varios modelos. Sin embargo, lo que nosotros pretendemos buscando modelos cuyo fin es un posterior control, son modelos locales lineales que se aproximen lo ms posible al modelo del sistema: se pretende aproximar la funcin desconocida que representa al sistema con hiperplanos en el entorno del prototipo del cluster que representar un punto de funcionamiento. La idea que se persigue a partir de este momento es incluir en el proceso de clustering alguna condicin que favorezca la pertenencia a clusters concretos: entradas de U (pertenencias) cercanas a 1 si estamos cerca del prototipo del cluster y cercanas a 0 si estamos lejos del prototipo. Se pretende, por tanto, conseguir la convexidad de las funciones de pertenencia borrosas suministradas en el proceso de identificacin, pues es lo que se necesita para una posterior interpretacin y validacin y ni el algoritmo AFCR ni el GK lo consiguen. A pesar de esto, con los algoritmos propuestos hasta el momento, ya se puede decir que el funcionamiento de AFCR supera a GK, dado que para los mismos
conjuntos de datos se obtienen resultados finales similares y siempre con la ventaja de que el consecuente afn de las reglas borrosas identificadas forma parte del propio proceso de clustering. 6 Algoritmos que favorecen la convexidad Aprovechando, como ya se ha comentado, la demostracin de [2] en la que se indica que la nica condicin para la convergencia del ndice J de los algoritmos de clustering es que la distancia sea siempre positiva, se van a aadir nuevos trminos a la distancia (21) empleada en AFCR para mejorar la convexidad de las funciones de pertenencia y manteniendo lo positivo de este algoritmo. Para un criterio como el mostrado en (23)
J ( Z ;U , 1 , m , c , c1 m , cc ) = ( ik ) m DC ik
i =1 k =1
(23)
se incluir en DC ik un trmino para penalizar la alta pertenencia de los puntos lejanos a un prototipo (Dlejos ik) y otro para penalizar la baja pertenencia de puntos cercanos al prototipo (Dcerca ik), manteniendo tambin las distancias de FCRM (Eik) y FCM (Dik). La nueva distancia global que se emplear ser:
DC ik =
k Eik ( i ) + k 1 Dlejos ik + k 2 Dcerca ik + (1 k )Dik 3 3 3
(24)
con [0,1] siguiendo para su determinacin el criterio (22). El parmetro se mantiene para el balance entre los trminos cuando su tamao medio es muy diferente y se incluyen 1 y 2 con el mismo fin. Para determinar los valores de Dlejos ik y Dcerca ik se identifica en (25) y (26), respectivamente, el criterio de distancia que es necesario incluir en un ndice para expresar la penalizacin por alta pertenencia de puntos lejanos a un prototipo (25) y baja pertenencia de puntos cercanos al prototipo (26). Se ha utilizado una penalizacin exponencial en ambos casos, lo que llevar a una preferencia por la generacin de funciones de pertenencia exponenciales, aunque dicho criterio puede ser modificado segn el criterio que pueda interesar en cada caso.
2 2 Dik Dik m 1 exp( ) 1 exp( ) J lejos ik = ik D = lejos ik 1 1
(25)
2 (1 ik ) m D2 Dik exp( ) (26) J cerca ik = (1 ik ) m exp( ik ) Dcerca ik = m ik 2 2
Este nuevo algoritmo, denominado AFCRC (adaptive fuzzy c-regression models with convex membership functions), ha sido programado y, aunque se pretende realizar en el futuro un estudio terico para la determinacin ms adecuada de 1 y 2, numerosas simulaciones se han llevado a cabo con resultados muy interesantes. Para el mismo conjunto de datos empleados en el ejemplo de la figura 8, el nuevo algoritmo se comporta para diferentes valores de 1 (no se han incluido en este caso variaciones del trmino 2) como se observa en las figuras 9 a 11.
8 7 6 5 4
1 0.9 0.8 0.7 0.6 0.5
3 0.4 2 1 0 -1 0.3 0.2 0.1 0
20
40
60
80
100
20
40
60
80
100
a) b) Figura 9. Clusters (a) y funciones de pertenencia (b) con AFCRC (1 = 105).

8 7 6 5 4 0.5 3 0.4 2 1 0 -1 0.3 0.2 0.1 0 1 0.9 0.8 0.7 0.6
20
40
60
80
100
20
40
60
80
100
a) b) Figura 10. Clusters (a) y funciones de pertenencia (b) con AFCRC (1 = 103).
9 8 7 6 5 4 3 2 1 0 -1 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
20
40
60
80
100
20
40
60
80
100
a) b) Figura 11. Clusters (a) y funciones de pertenencia (b) con AFCRC (1 = 102). El efecto del trmino generado en (25) en el proceso de clustering es muy claro en lo que respecta a modificar la forma de las funciones de pertenencia y mejorar su convexidad con una correcta eleccin de parmetros, tal y como muestras las ltimas figuras. El efecto de (26), aunque no tan espectacular, tampoco es despreciable. La combinacin de ambos trminos lleva a resultados como el de la figura 12,
donde se ha tomado el mejor de los valores observados para 1 en las simulaciones anteriores y se han probado distintos valores de 2 hasta obtener los resultados mostrados en la figura.
8 7 6 5 4 0.5 3 0.4 2 1 0 -1 0.3 0.2 0.1 0 1 0.9 0.8 0.7 0.6
20
40
60
80
100
20
40
60
80
100
a) b) Figura 1 Clusters (a) y funciones de pertenencia (b) con AFCRC (1 = 103 y 2 = 10-2). Con este segundo trmino se aprecia una mejora en las pertenencias de los puntos centrales de los clusters, pero muy ligera. Por tanto, parece que ambos trminos cumplen su cometido y ayudan a conseguir unas funciones de pertenencia ms interpretables y unos clusters ms ajustados a lo deseado. Sin embargo, para el ejemplo anterior el ajuste de 1 y 2 se ha hecho de forma manual. Como ya se ha dicho, es un trabajo para el futuro determinar algn criterio para que fuese el propio proceso de clustering el que determinase el apropiado en cada caso. Una primera aproximacin sencilla se ha determinado viendo que los trminos sigma estn situados en el denominador de un trmino exponencial, cuyo numerador es la distancia al cuadrado del punto que se est evaluando. Es por ello que se intuye una dependencia del adecuado con las distancias, el rango mximo de las variables (universo de discurso) y el nmero de clusters que se pretende emplear para explicar el sistema. Como regla sencilla se ha empleado en este artculo 1=DM/(clusters/2) y 2=Dm/(clusters/2). Los resultados con esta estimacin y permitiendo que los valores de DM (Distancia Mxima) y Dm (Distancia mnima) sean dinmicos (recalculados en cada iteracin), se obtienen los resultados de la figura 13 para 4 y 6 clusters.
8 6 4 2 0 -2 0 20 40 60 80 100 8 6 4 2 0 -2 0 20 40 60 80 100
1 0.8 0.6 0.4 0.2 0 0 20 40 60 80 100
1 0.8 0.6 0.4 0.2 0 0 20 40 60 80 100
Figura 13. Clusters y funciones de pertenencia con AFCRC y asignacin automtica de . Los resultados en este caso son buenos para todo nmero de clusters y se puede comprobar una clara mejora respecto al algoritmo GK en el caso concreto de tomar 6 clusters (figura 8.b). En el caso de volver a tomar los datos del biorreactor (como en las figuras 5 y 6) y aplicar AFCRC con este criterio, el algoritmo tambin llega a resultados correctos, tanto en modelado con funciones lineales (consecuentes de las reglas borrosas) como en la interpretabilidad de las funciones de pertenencia (antecedentes de las reglas borrosas). Los resultados de AFCRC se pueden observar en las figuras 14.a a 16.a y son fcilmente comparables con el algoritmo GK en las figuras 14.b a 16.b, siendo la mejora muy clara.
Function approximation 2 1.5 1 0.5 0 -0.5 0 10 20 30 40 50 60 70 1 0.8 Membership 0.6 0.4 0.2 0 10 20 30 40 50 60 70 0 0 10 20 30 x 40 50 60 70 y 2 1.5 1 0.5 0 0 10 20 30 40 x Membership functions 50 60
1 0.8 0.6 0.4 0.2 0
a) b) Figura 14. Deteccin de 3 clusters y funciones de pertenencia con AFCRC de asignacin automtica de (a) y GK (b).
1 0.8 0.6 0.4 0.2 0
a) b) Figura 15. Deteccin de 4 clusters y funciones de pertenencia con AFCRC de asignacin automtica de (a) y GK (b).
1 0.8 0.6 0.4 0.2 0
a) b) Figura 16. Deteccin de 5 clusters y funciones de pertenencia con AFCRC de asignacin automtica de (a) y GK (b). En combinaciones de datos ms sencillas, como el caso de la parbola empleada en las figuras 2 a 5, AFCRC no pierde sus capacidades. Esto queda claramente mostrado en la figura 17 para 2, 3, 4 y 8 clusters.
0.5
0.5
-0.5 -1 1 0.8 0.6 0.4 0.2 0 -1
-0.5
0.5
-0.5 -1 1 0.8 0.6 0.4 0.2
-0.5
0.5
-0.5
0.5
0 -1
-0.5
0.5
0.5
0.5
-0.5 -1 1 0.8 0.6 0.4 0.2 0 -1
-0.5
0.5
-0.5 -1 1 0.8 0.6 0.4 0.2
-0.5
0.5
-0.5
0.5
0 -1
-0.5
0.5
Figura 17. Deteccin de diferentes nmeros de clusters y sus funciones de pertenencia con AFCRC de asignacin automtica de . 7 Conclusiones En este artculo se han revisado las principales tcnicas de clustering para la identificacin de modelos borrosos. En el artculo se propone la definicin e implementacin de un nuevo algoritmo que mejora la interpretabilidad de las reglas borrosas de forma muy clara, adems de generar en el proceso de clustering los consecuentes afines de las reglas borrosas de tipo Takagi-Sugeno. Este algoritmo de clustering (especialmente diseado para identificar modelos borrosos para control) se espera que proporcione modelos que experimenten en su funcionamiento para simulacin mejoras importantes, tanto por la facilidad de implementacin de los antecedentes del modelo basado en reglas como distancias (ponderadas exponencialmente) al prototipo (gracias a la convexidad de las funciones de pertenencia), como por la generacin del consecuente en el proceso de clustering teniendo en cuenta el error de modelado en cada paso de la iteracin. Igualmente se observa mejora respecto al efecto del ruido en el proceso de identificacin, pues la tendencia a la convexidad de las funciones de pertenencia hace disminuir la importancia de aquellos puntos que se salgan del comportamiento ms comn, no obligando al modelo a tener un error nulo en los mismos. Referencias [1] Babuska R. Fuzzy Modeling and Identification. PhD dissertation, Delft University of Technology, Delft, The Netherlands, 1996. [2] Bezdek J. C. Pattern recognition with Fuzzy Objective Function Algorithms. Ed. Plenum Press, 1987. [3] Carbonell P., Dez J. L., Navarro J. L. Aplicaciones de tcnicas de modelos locales en sistemas complejos. Revista de la Asociacin Espaola para la Inteligencia Artifical, n 10, pp. 111-118, 2000. [4] Dez J. L., Navarro J. L. Fuzzy Models of Complex Systems by means of Clustering Techniques. Proc. 2nd Intelligent Systems in Control and Measurement, pp.147-153,1999.
[5] Emami M. R., Trksen I. B., Goldenberg A. A. Developement of a Systematic Methodology of Fuzzy Logic Modeling, Transactions on Fuzzy Systems, vol. 6, n3, pp. 346-36, 1998. [6] Gustafson E. E., Kessel W. C. Fuzzy Clustering with a Fuzzy Covariance Matrix, IEEE CDC, San Diego, California, pp. 761-766. 1979. [7] Hathaway R. J., Bezdek J. C. Grouped Coordinate Minimization Using Newton's Method for Inexact Minimization in One Vector Coordinate. Journal of Optimization Theory and Applications, vol. 71, n 3, p. 503-516. 1991. [8] Hathaway R. J., Bezdek J. C. Switching Regression Models and Fuzzy Clustering, Transactions on Fuzzy Systems, vol. 1, n3, pp. 195-204, 1993. [9] Johansen, T.A., Murray-Smith, R. The operating regime approach to nonlinear modelling and control, en Multiple Model Approaches to Modelling and Control. Ed. R. Murray-Smith and T.A. Johansen, London: Taylor & Francis, 1997. [10] Kim E., Park M., Ji S., Park M. A New Approach to Fuzzy Modeling. Transactions on Fuzzy Systems, vol. 5, n3, pp. 328-337, 1997. [11] Ryoke M., Nakamori Y. Simultaneous Analysis of Classification and Regression by Adaptive Fuzzy Clustering. Japanese Journal of Fuzzy Theory and Systems, vol. 8, n1, pp. 99-113, 1996. [12] Sugeno M., Yasukawa T. A Fuzzy-Logic-Based Approach to Qualitative Modeling. Transactions on Fuzzy Systems, vol. 1, n1, pp. 7-31, 1993.

Ja02 002

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Ja02 002

Загружено:

Авторское право:

Доступные форматы

Algoritmos de clustering en la identificacin de modelos borrosos

Jos L. Dez , Jos L. Navarro and Antonio Sala

donde Z = {z1, z2, ..., zN} (2)

es una norma, y m [1,) (6)

J con respecto a U, C y , las condiciones necesarias para

siendo Fi la matriz de covarianzas de cluster i definida por:

Deik = Dik + (1 ) Drik

Daik = k Eik ( i ) + (1 k )Dik

0 -0.5 -0.5 -1 -1 -1.5 -1.5 -2 -2.5 -1

k Eik ( i ) + k 1 Dlejos ik + k 2 Dcerca ik + (1 k )Dik 3 3 3

2 (1 ik ) m D2 Dik exp( ) (26) J cerca ik = (1 ik ) m exp( ik ) Dcerca ik = m ik 2 2

1 0.9 0.8 0.7 0.6 0.5

3 0.4 2 1 0 -1 0.3 0.2 0.1 0

a) b) Figura 9. Clusters (a) y funciones de pertenencia (b) con AFCRC (1 = 105).

1 0.8 0.6 0.4 0.2 0 0 20 40 60 80 100

1 0.8 0.6 0.4 0.2 0 0 20 40 60 80 100

1 0.8 0.6 0.4 0.2 0

1 0.8 0.6 0.4 0.2 0

1 0.8 0.6 0.4 0.2 0

-0.5 -1 1 0.8 0.6 0.4 0.2 0 -1

-0.5 -1 1 0.8 0.6 0.4 0.2

-0.5 -1 1 0.8 0.6 0.4 0.2 0 -1

-0.5 -1 1 0.8 0.6 0.4 0.2

Вам также может понравиться