Академический Документы
Профессиональный Документы
Культура Документы
2003/05042-1.
Aos colegas do LASI da PUC-MG, em especial ao Daniel e ao Lucas, pelo incentivo.
Ao Departamento de Engenharia de Computao e Automao Industrial da Faculdade de Engenharia
Eltrica da Universidade Estadual de Campinas (DCA-FEEC-UNICAMP) e a todos os professores,
colegas e funcionrios que de alguma forma contriburam para este trabalho.
Aos meus pais, Amilton e Lizete, que sempre me apoiaram e acreditaram nos meus ideais e que
sempre foram o exemplo de carter e honestidade que nortearam minhas aes. A eles dedico meu
eterno amor.
Aos meus irmos Charles e Milena, Eliana e aos meus sobrinhos, Charlinhos e Mariana, que mesmo
a mais de 1.000 quilmetros de distncia, todos sempre me deram muita fora para que eu atingisse
meus objetivos.
Ao Arnaldo e Neuza, verdadeiros pais que, alm de me presentear com a coisa que mais amo na
vida, sempre me apoiaram e incentivaram para que eu chegasse at aqui.
Isabela, ao Marcelo e ao Luiz Felipe, pelos inmeros momentos de distrao e pelas cavalgadas
que sem dvida contribuiram para que fosse possvel concluir este trabalho.
Aos meus amigos Alessandro e Juliana pelos muitos momentos felizes que ajudaram a amenizar as
diculdades e muito ajudaram nesta caminhada.
E mais uma vez Rafa, companheira de todas as horas, pelo amor e compreenso que me dedicou
durante todos estes anos. Por suportar as ausncias e por caminhar ao meu lado, superando juntos
todas as diculdades. Agradeo ela tambm pelas valiosas discusses na rea de neurocincia.
ix
Resumo
Este trabalho prope um procedimento sistemtico para obteno de modelos de sistemas dinmicos
no-lineares complexos utilizando redes neurais nebulosas. As redes neurais nebulosas aplicadas em
modelagem so capazes de extrair conhecimento de dados entrada/sada e representar este
conhecimento na forma de regras nebulosas do tipo se-ento, gerando modelos lingsticos
convenientes para compreenso humana. Duas novas classes de redes neurais nebulosas so propostas
a partir de generalizaes dos neurnios lgicos AND e OR. Estas generalizaes, denominadas
unineurons e nullneurons, implementam, alm da plasticidade sinptica, outra importante caracterstica
dos neurnios biolgicos, a plasticidade neuronal. Desta forma, os neurnios propostos neste trabalho
so capazes de modificar parmetros internos em resposta alteraes, permitindo que unineurons e
nullneurons variem individualmente de um neurnio AND para um neurnio OR (e vice-e-versa),
dependendo da necessidade do problema. Conseqentemente, uma rede neural nebulosa composta por
unineurons e nullneurons mais geral do que as redes neurais nebulosas similares sugeridas na
literatura. Alm da introduo de redes neurais com unineurons e nullneurons, um novo algoritmo de
treinamento para obteno de modelos nebulosos de sistemas dinmicos proposto utilizando
aprendizado participativo. Neste algoritmo, uma nova informao fornecida rede por meio de um
dado entrada/sada comparada com o conhecimento que j se tem a respeito do sistema. A nova
informao s tem influncia na atualizao do conhecimento se no entrar em conflito com o
conhecimento adquirido anteriormente. Como conseqncia, redes neurais nebulosas que utilizam este
novo algoritmo de treinamento so mais robustas a dados de treinamento com valores que
correspondem a comportamentos anmalos ou mesmo a erros durante a obteno destes dados. As
abordagens propostas foram utilizadas para desenvolver modelos para previso de sries temporais e
modelagem trmica de transformadores de potncia. Os resultados experimentais mostram que os
modelos aqui propostos so mais robustos e apresentam os melhores desempenhos, tanto em termos de
preciso quanto em termos de custos computacionais, quando comparados com abordagens
alternativas sugeridas na literatura.
Palavras-chave: Modelagem, sistemas dinmicos, redes neurais, sistemas nebulosos, redes neurais
nebulosas, unineurons, nullneurons, aprendizado participativo.
xi
Abstract
This work suggests a systematic procedure to develop models of complex nonlinear dynamical
systems using neural fuzzy networks. The neural fuzzy networks are able to extract knowledge from
input/output data and to encode it explicitly in the form of if-then rules. Therefore, linguistic models
are obtained in a form suitable for human understanding. Two new classes of fuzzy neurons are
introduced to generalize AND and OR logic neurons. These generalized login neurons, called
unineurons and nullneurons, provide a mechanism to implement synaptic plasticity and an important
characteristic of biological neurons, the neuronal plasticity. Unineurons and nullneurons achieve
synaptic and neuronal plasticity modifying their internal parameters in response to external changes.
Thus, unineurons and nullneurons may individually vary from a AND neuron to a OR neuron (and
vice-versa), depending upon the necessity of the modeling task. Neural fuzzy networks constructed
with unineurons and nullneurons are more general than similar fuzzy neural approaches suggested in
literature. Training algorithms for neural fuzzy networks with unineurons and nullneurons are also
studied. In particular, a new training algorithm based on the participatory learning is introduced to
develop fuzzy models of dynamical systems. In the participatory learning algorithm, a new
information brought to the network through an input/output data is first compared with the knowledge
that the network already has about the model. The new information influences the update of the
knowledge only if it does not conflict with the current knowledge. As a result, neural fuzzy networks
trained with participatory learning show greater robustness to training data with anomalous values than
their counterparts. The neural fuzzy network and training algorithms suggested herein are used to
develop time series forecast models and thermal models of power transformers. Experimental results
show that the models proposed here are more robust and perform best in terms of accuracy and
computational costs when compared against alternative approaches suggested in the literature.
Keywords: Modeling, dynamical systems, neural networks, fuzzy systems, neural fuzzy networks,
unineurons, nullneurons, participatory learning.
xiii
Sumrio
Lista de Figuras xvii
Lista de Tabelas xix
Lista de Smbolos xxi
Lista de Siglas e Abreviaes xxiii
Trabalhos Publicados Pelo Autor xxiv
1 Introduo 1
1.1 Motivao e Relevncia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Organizao do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Fundamentos Tericos 7
2.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Modelagem Matemtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Classicaes de um Modelo Matemtico . . . . . . . . . . . . . . . . . . . 8
2.2.2 Abordagens Baseadas em Inteligncia Computacional . . . . . . . . . . . . 9
2.3 Conceitos de Teoria de Conjuntos Nebulosos . . . . . . . . . . . . . . . . . . . . . 11
2.3.1 Conjuntos Nebulosos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Normas Triangulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.3 Uninormas e Nullnormas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.4 Operador de Compromisso . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.5 Relaes Nebulosas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.6 Composio de Relaes Nebulosas . . . . . . . . . . . . . . . . . . . . . . 17
2.3.7 Equaes Relacionais Nebulosas . . . . . . . . . . . . . . . . . . . . . . . . 19
2.3.8 Soluo do Problema de Estimao (SPE) . . . . . . . . . . . . . . . . . . . 20
2.4 Neurnios e Redes Neurais Nebulosas . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Neurnios Nebulosos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2 Redes Neurais Nebulosas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 O Espao Neural Multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 Aprendizado Participativo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.7 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
xv
xvi SUMRIO
3 Redes Neurais Nebulosas com Aprendizado Participativo 39
3.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Anlise de Convergncia do Aprendizado Participativo . . . . . . . . . . . . . . . . 42
3.3 Estrutura da Rede Neural Nebulosa . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4 Treinamento de Redes Neurais Nebulosas com AP . . . . . . . . . . . . . . . . . . 51
3.4.1 Gerao das Funes de Pertinncia . . . . . . . . . . . . . . . . . . . . . . 52
3.4.2 Atualizao dos Pesos Associados Rede Neural de Agregao . . . . . . . 53
3.4.3 Atualizao dos Pesos Associados ao Sistema de Inferncia Nebuloso . . . . 53
3.4.4 Procedimentos de Treinamento com AP . . . . . . . . . . . . . . . . . . . . 55
3.5 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4 Generalizao de Neurnios Nebulosos 61
4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2 Neurnio Nebuloso Baseado em Uninormas: O Unineuron . . . . . . . . . . . . . . 63
4.3 Neurnio Nebuloso Baseado em Nullnormas: O Nullneuron . . . . . . . . . . . . . 67
4.4 Redes Neurais Nebulosas baseadas em Nullneurons e Unineurons . . . . . . . . . . 76
4.5 Aprendizado para Redes Baseadas em Unineurons e Nullneurons . . . . . . . . . . . 78
4.6 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5 Resultados Experimentais e Aplicaes 85
5.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2 Predio de Sries Temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2.1 Previso de Carga de Curto Prazo . . . . . . . . . . . . . . . . . . . . . . . 87
5.3 Aplicaes a Problemas de Identicao de Sistemas . . . . . . . . . . . . . . . . . 96
5.3.1 Problema do Forno a Gs de Box&Jenkins . . . . . . . . . . . . . . . . . . 97
5.3.2 Modelagem Trmica de Transformadores de Potncia . . . . . . . . . . . . . 98
5.4 Resumo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
6 Concluso 111
Referncias bibliogrcas 114
Lista de Figuras
2.1 Conjunto nebuloso F em um universo de discurso X . . . . . . . . . . . . . . . . . 13
2.2 Realizaes alternativas de uma uninorma: (a) and-dominada, (b) or-dominada . . . 15
2.3 Sistema relacional nebuloso de uma entrada - uma sada . . . . . . . . . . . . . . . . 19
2.4 Neurnio nebuloso do tipo I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.5 Neurnio nebuloso do tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6 Neurnio nebuloso do tipo III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Neurnio nebuloso lgico do tipo AND . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.8 Neurnio nebuloso lgico do tipo OR . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.9 Processador lgico do tipo Soma de Mintermos . . . . . . . . . . . . . . . . . . . . 30
2.10 Processador lgico do tipo Produto de Maxitermos . . . . . . . . . . . . . . . . . . 31
2.11 Modelo de rede neural nebulosa para classicao de padres . . . . . . . . . . . . . 32
2.12 Modelo de rede neural nebulosa recorrente . . . . . . . . . . . . . . . . . . . . . . . 33
2.13 Comportamento da aprendizagem participativa . . . . . . . . . . . . . . . . . . . . 36
2.14 Aprendizado participativo com alerta . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.15 Comportamento do ndice de alerta e da variao das convices: (a) ndice de com-
patibilidade (b) ndice de alerta (c) Variao das convices. . . . . . . . . . . . . . 37
3.1 Exemplo de Rede Neural Clssica de 3 entradas e 2 sadas. . . . . . . . . . . . . . . 40
3.2 Exemplo de Rede Neural Nebulosa de 3 entradas e 2 sadas. . . . . . . . . . . . . . 41
3.3 Convergncia do Aprendizado Participativo para Varivel Aleatria com Distribuio
Normal: (a) Valor inicial v
0
= 0, (b) Valor inicial v
0
= 1. . . . . . . . . . . . . . . . 47
3.4 Convergncia do Aprendizado Participativo para Varivel Aleatria com Distribuio
Diamtrica No-Central: (a) Valor inicial v
0
= 0, (b) Valor inicial v
0
= 1. . . . . . . 48
3.5 Modelo de rede neural nebulosa . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.6 Exemplo de Gerao das Funes de Pertinncia para x R
2
e y [0, 1]. . . . . . . 52
4.1 Unineuron Aplicado a um Problema Bi-dimensional. . . . . . . . . . . . . . . . . . 67
4.2 Superfce de Deciso do Unineuron para w=[0.3 0.8], t-norma = min, s-norma = max
e: (a) g = 0, (b) g = 0.1, (c) g = 0.3, (d) g = 0.4, (e) g = 0.5, (f) g = 0.7, (g)
g = 0.8, (h) g = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3 Superfce de Deciso do Unineuron para w=[0.3 0.8], t-norma = produto algbrico,
s-norma = soma probabilstica e: (a) g = 0, (b) g = 0.1, (c) g = 0.3, (d) g = 0.4, (e)
g = 0.5, (f) g = 0.7, (g) g = 0.8, (h) g = 1 . . . . . . . . . . . . . . . . . . . . . . 69
xvii
xviii LISTA DE FIGURAS
4.4 Superfce de Deciso do Unineuron para w=[0.3 0.8], t-norma = produto limitado,
s-norma = soma limitada e: (a) g = 0, (b) g = 0.1, (c) g = 0.3, (d) g = 0.4, (e)
g = 0.5, (f) g = 0.7, (g) g = 0.8, (h) g = 1 . . . . . . . . . . . . . . . . . . . . . . 70
4.5 Nullneuron Aplicado Problema Bi-dimensional. . . . . . . . . . . . . . . . . . . . 72
4.6 Superfce de Deciso do nullneuron para w=[0.3 0.8], t-norma = min, s-norma = max
e: (a) u = 0, (b) u = 0.1, (c) u = 0.3, (d) u = 0.4, (e) u = 0.5, (f) u = 0.7, (g)
u = 0.8, (h) u = 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.7 Superfce de Deciso do nullneuron para w=[0.3 0.8], t-norma = produto algbrico,
s-norma = soma probabilstica e: (a) u = 0, (b) u = 0.1, (c) u = 0.3, (d) u = 0.4, (e)
u = 0.5, (f) u = 0.7, (g) u = 0.8, (h) u = 1 . . . . . . . . . . . . . . . . . . . . . . 74
4.8 Superfce de Deciso do nullneuron para w=[0.3 0.8], t-norma = produto limitado,
s-norma = soma limitada e: (a) u = 0, (b) u = 0.1, (c) u = 0.3, (d) u = 0.4, (e)
u = 0.5, (f) u = 0.7, (g) u = 0.8, (h) u = 1 . . . . . . . . . . . . . . . . . . . . . . 75
4.9 Modelo de rede neural nebulosa recorrente com unineurons e nullneurons . . . . . . 76
5.1 Curva de carga para o perodo de 13 a 19 de abril de 2001. . . . . . . . . . . . . . . 88
5.2 Curva de carga para o perodo de 13 a 19 de maio de 2001. . . . . . . . . . . . . . . 89
5.3 Curva de carga com pers anmalos. . . . . . . . . . . . . . . . . . . . . . . . . . . 91
5.4 Resultados para previso de carga - Caso 1: (a) MLP, (b) ANFIS, (c) NN-AND, (d)
NN-OR, (e) AND-AP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.5 Resultados para previso de carga - Caso 1: (f) OR-AP, (g) UNI-R, (h) NULL-R, (i)
NULL-G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.6 Resultados para previso de carga - Caso 2: (a) MLP, (b) ANFIS, (c) NN-AND, (d)
NN-OR, (e) AND-AP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.7 Resultados para previso de carga - Caso 2: (f) OR-AP, (g) UNI-R, (h) NULL-R, (i)
NULL-G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
5.8 Resultados obtidos para o forno a gs de Box e Jenkins: (a) MLP, (b) ANFIS, (c)
NN-AND, (d) NN-OR, (e) AND-AP . . . . . . . . . . . . . . . . . . . . . . . . . . 99
5.9 Resultados obtidos para o forno a gs de Box e Jenkins: (f) OR-AP, (g) UNI-R, (h)
NULL-R, (i) NULL-G . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.10 Dados de treinamento - Caso 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.11 Resultados da modelagem trmica de transformadores de potncia (Dados de Teste 1
- DT1): (f) OR-AP, (g) UNI-R, (h) NULL-R, (i) NULL-G . . . . . . . . . . . . . 105
5.12 Resultados da modelagem trmica de transformadores de potncia (Dados de Teste 2
- DT2): (a) MLP, (b) ANFIS, (c) NN-AND, (d) NN-OR, (e) AND-AP . . . . . . . 106
5.13 Resultados da modelagem trmica de transformadores de potncia (Dados de Teste 2
- DT2): (f) OR-AP, (g) UNI-R, (h) NULL-R, (i) NULL-G . . . . . . . . . . . . . 107
5.14 Dados de treinamento - Caso 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Lista de Tabelas
5.1 Parmetros Estruturais dos Modelos Implementados - Previso de Carga . . . . . . . 90
5.2 Resultados para Previso de Carga - Caso 1 . . . . . . . . . . . . . . . . . . . . . . 96
5.3 Resultados para Previso de Carga - Caso 2 . . . . . . . . . . . . . . . . . . . . . . 96
5.4 Resultados para o Forno a Gs de Box&Jenkins . . . . . . . . . . . . . . . . . . . . 98
5.5 Resultados da Literatura para o Forno a Gs de Box&Jenkins . . . . . . . . . . . . . 98
5.6 Principais Caractersticas do Transformador a ser Modelado . . . . . . . . . . . . . . . . 102
5.7 Resultados da Modelagem da Transformadores - Caso 1 . . . . . . . . . . . . . . . . 103
5.8 Resultados da Modelagem de Transformadores - Caso 2 . . . . . . . . . . . . . . . . 108
xix
Lista de Smbolos
R - Conjunto dos nmeros reais
C - Conjunto dos nmeros complexos
A
i
i
-
i
-simo conjunto nebuloso da entrada i
(x t y) - Norma triangular (t-norma) entre x e y
T(x, y) - Norma triangular (t-norma) entre x e y
(x s y) - Conorma triangular (s-norma) entre x e y
S(x, y) - Conorma triangular (s-norma) entre x e y
U(x, y; g) - Uninorma entre x e y com elemento identidade g
C
u
() - Operador de compromisso parametrizado por u
sup
xX
{} - Operador supremo sobre o conjunto X
inf
xX
{} - Operador nmo sobre o conjunto X
X Y - Produto cartesiando entre os espaos X e Y
[0, 1]
n
- Hipercubo unitrio de dimenso n, i.e.,
n
[0, 1] [0, 1] . . . [0, 1]
[x
k
, y
k
] - k-simo dado de treinamento
y
k
- Sada obtida no instante k
w
g T
_
x
g
,
y
g
_
, se x, y [0, g]
g + (1 g) S
_
xg
1g
,
yg
1g
_
, se x, y [g, 1]
min(x, y) ou max(x, y), caso contrrio.
(2.3)
2.3 Conceitos de Teoria de Conjuntos Nebulosos 15
onde t e s so normas triangulares. Esta construo no requer nenhum tipo de dualidade entre as t-
normas e s-normas especcas. A Figura 2.2 mostra uma representao grca para as duas variaes
fundamentais da uninorma apresentada em (2.3), baseadas nos operadores max e min.
x x
y y
0 0
1
1
1
1
g
g
g
g
(a) (b)
min
min
max
max
t-norma t-norma
s-norma s-norma
and
or
dominncia
dominncia
Figura 2.2: Realizaes alternativas de uma uninorma: (a) and-dominada, (b) or-dominada
possvel vericar em (2.3) que realizaes especcas por meio da escolha dos operadores
mximo e mnimo fornecem um certo tipo de exibilidade para as regies intermedirias (denotadas
por na Figura 2.2). Conforme discutido em (Pedrycz, 2006), a unimorma U pode ser and-dominada
se for escolhido o operador mnimo (maior das t-normas) para as regies intermedirias , ou ento
or-dominada, caso seja escolhido o operador mximo (menor das s-normas) para estas regies.
Denio 2.5 (Nullnorma) Uma nullnorma um operador binrio N : [0, 1] [0, 1] [0, 1] que
comutativo, monotnico, associativo, e tal que existe um elemento u [0, 1] chamado elemento de
absoro, que satisfaz N(u, x; u) = u, para todo x [0, 1] e tambm:
_
N(0, x; u) = x, x u
N(1, x; u) = x, x u
Da mesma forma que para as uninormas, o elemento de absoro u correspondente a uma null-
norma N nico. Note que uma nullnorma tambm uma generalizao de t-normas e s-normas,
pois, por denio, quando u = 0 a funo N uma t-norma, enquanto que u = 1 faz de N uma
s-norma.
Uma realizao especca de nullnorma apresentada em(Calvo et al., 2001), e pode ser traduzida
na seguinte famlia de construtores:
N(x, y; u) =
u S
_
x
u
,
y
u
_
, se x, y [0, u]
u + (1 u) T
_
xu
1u
,
yu
1u
_
, se x, y [u, 1]
u, caso contrrio.
(2.4)
Note que (2.4) apresenta grande similaridade com (2.3) e tambm no requer nenhum tipo de
relao de dualidade entre as t-normas e s-normas usadas nesta construo.
16 Fundamentos Tericos
2.3.4 Operador de Compromisso
Alguns dos temas deste trabalho empregam em seu desenvolvimento o conceito de Operador de
Compromisso. Este conceito denido da seguinte forma (Klement et al., 2000):
Denio 2.6 (Operador de Compromisso) Uma funo
C
u
: [0, 1] [0, 1] dada por
C
u
(a) = (1 u)C(a) + uC(C(a))
= (1 u)C(a) + ua
(2.5)
chamada de operador de compromisso, onde u [0, 1] e
C
0
(a) = C(a) = 1 a.
Note que
C
1u
(a) =
C
u
(1 a) = 1
C
u
(a) e
C
u
(a) =
C(a) para u = 0
1
2
para u =
1
2
a para u = 1
(2.6)
A funo
C uma negao forte para u = 0 (Gomide & Pedrycz, 2007).
2.3.5 Relaes Nebulosas
Uma relao nebulosa Rexpande a noo de conjuntos nebulosos para umuniverso multi-dimensi-
onal e representa a noo de associao parcial entre os elementos dos universos. Por exemplo, um
grau de pertinncia R(x, y) representa o grau de associao entre o elemento x X e y Y (Go-
mide & Pedrycz, 2007). Formalmente, para um universo bidimensional, uma relao nebulosa pode
ser denida da seguinte forma:
Denio 2.7 (Relao Nebulosa) Sejam X e Y dois universos. Uma relao nebulosa R um
subconjunto nebuloso do produto cartesiano X Y
R : X Y [0, 1]
onde x X, y Y e R(x, y) o grau com que (x, y) so compatveis com a relao R.
Para exemplicar o conceito de relao nebulosa, considere d
fs
, d
nf
, d
ns
, d
gf
como sendo artigos
cientcos cujo assunto principal so sistemas nebulosos, sistemas neuro-nebulosos, sistemas neurais
e algoritmos genticos, com palavras-chave w
f
, w
n
e w
g
, respectivamente. Assim sendo, a relao R
2.3 Conceitos de Teoria de Conjuntos Nebulosos 17
em D W, D = d
fs
, d
nf
, d
ns
, d
gf
e W = w
f
, w
n
, w
g
pode, por exemplo, assumir a seguinte
forma matricial:
R =
1 0 0.6
0.8 1 0
0 1 0
0.8 0 1
Uma vez que os universos D and W so nitos e discretos, R pode ser representada por uma matriz
43 (4 artigos e 3 palavras-chave). Neste exemplo R(d
fs
, w
f
) = 1 signica que o contedo do artigo
d
fs
totalmente compatvel coma palavra-chave w
f
enquanto que R(d
fs
, w
n
) = 0 e R(d
fs
, w
g
) = 0.6
indicam que o artigo d
fs
no trata de sistemas neurais, mas parte de seu contedo est relacionado
com algoritmos genticos.
Relaes entre variveis podem ser denidas usando regras nebulosas na forma:
SE x
1
F
1
E x
2
F
2
E . . . E x
n
F
n
ENTO, z Z
. (2.7)
Regras nebulosas denem uma relao entre antecedentes (x
1
, x
2
, . . ., x
n
) e conseqentes (z) em
termos dos conjuntos nebulosos F
1
, F
2
, . . ., F
n
e Z
W =
0.6 0.1
0.5 0.7
0.7 0.8
0.3 0.6
(2.9)
Neste caso, como se trata de universos nitos, o procedimento de se obter a composio das
relaes nebulosas G e W similar ao processo de multiplicao de matrizes, apenas substituindo-se
o somatrio pela funo mximo (uma vez que os universos so nitos, encontrar o mximo signica
tambm encontrar o supremo) e o produto algbrico pela t-norma correspondente. Tambm de forma
similar multiplicao de matrizes, a composio denida apenas quando o nmero de colunas da
primeira relao nebulosa o mesmo que o nmero de linhas da segunda relao. Assim, se G uma
relao mn e W uma relao np, a composio destas duas relaes R ser uma relao mp.
Por exemplo, tomando-se (2.8) e escolhendo o mnimo como t-norma, a composio sup-min
R = G W, R = [r
ij
] calculada da seguinte forma:
r
11
= sup(1.0 t 0.6, 0.6 t 0.5, 0.5 t 0.7, 0.5 t 0.3) = 0.6
r
21
= sup(0.6 t 0.6, 0.8 t 0.5, 1.0 t 0.7, 0.2 t 0.3) = 0.7
. . .
r
32
= sup(0.1 t 0.8, 0.3 t 0.7, 0.4 t 0.8, 0.3 t 0.6) = 0.4
R =
0.6 0.6
0.7 0.8
0.6 0.4
Denio 2.9 (Composio inf-s) A composio inf-s das relaes nebulosas G : X Z [0, 1] e
W : Z Y [0, 1] uma relao nebulosa R : X Y [0, 1] cuja funo de pertinncia R(x, y)
dada por:
R(x, y) = inf
zZ
G(x, z) s W(z, y) x X and y Y (2.10)
onde s uma s-norma. A composio inf-s de G e W denotada simbolicamente por R = G W.
O procedimento para se obter a composio inf-s o mesmo daquele utilizado para a composio
sup-t, substituindo-se o supremo pelo nmo e a t-norma por uma s-norma. Assim sendo, usando-se
(2.10) e escolhendo-se o mximo como s-norma, a composio inf-s R = G W, R = [r
ij
] para as
2.3 Conceitos de Teoria de Conjuntos Nebulosos 19
reles G e W denidas em (2.9) obtida da seguinte forma:
r
11
= inf(1.0 s 0.6, 0.6 s 0.5, 0.5 s 0.7, 0.5 s 0.3) = 0.5
r
21
= inf(0.6 s 0.6, 0.8 s 0.5, 1.0 s 0.7, 0.2 s 0.3) = 0.3
. . .
r
32
= inf(0.1 s 0.8, 0.3 s 0.7, 0.4 s 0.8, 0.3 s 0.6) = 0.6
R =
0.5 0.6
0.3 0.6
0.3 0.6
) = sup
xX
F(x). Se os valores de pertinncia da matriz
relacional R forem denidos de tal forma que R(x
, y) = H(y) y Y e R(x, y) = 0 x X
2
A Altura h de um conjunto nebuloso F corresponde ao seu maior grau de pertinncia, entre todos os elementos do
conjunto, isto , h(F) = sup
xX
F(x).
2.3 Conceitos de Teoria de Conjuntos Nebulosos 21
e x ,= x
R = F
denota a transposta de F.
Como exemplo, considere F = (0.3, 0.8, 0.5) e H = (0.6, 0.3) como sendo dois conjuntos nebu-
losos discretos. possvel vericar que sup
xX
F(x) = 0.8 H(y) y Y e, portanto, existe SPE.
Assumindo uma composio sup-min (mnimo como t-norma) e usando (2.16), a relao
R = [ r
ij
],
tal que H = F
R, calculada como se segue.
r
11
= f
1
h
1
= sup (c [0, 1][ min(0.3, c) 0.6) = 1.0
r
21
= f
2
h
1
= sup (c [0, 1][ min(0.8, c) 0.6) = 0.6
. . .
r
32
= f
3
h
2
= sup (c [0, 1][ min(0.5, c) 0.3) = 0.3
R =
1.0 1.0
0.6 0.3
1.0 0.3
R = F
R = [ r
ij
] tal que H = F
R pode ser calculada da seguinte forma:
r
11
= f
1
h
1
= inf (c [0, 1][ max(0.3, c) 0.6) = 0.6
r
21
= f
2
h
1
= inf (c [0, 1][ max(0.8, c) 0.6) = 0
. . .
r
32
= f
3
h
2
= inf (c [0, 1][ max(0.5, c) 0.3) = 0
2.4 Neurnios e Redes Neurais Nebulosas 23
R =
0.6 0
0 0
0.6 0
R =
0.6 0.3
1.0 1.0
0.6 1.0
Calculando-se a composio F
R, tambm obtm-se o conjunto nebuloso H. Portanto, uma
vez encontrada a soluo atravs das equaes (2.16) e (2.20) ainda possvel fazer uso de outras
tcnicas de forma a se obter uma soluo mais adequada ao que se deseja, caso esta exista. Este
resultado tambm ser empregado mais adiante na formulao do algoritmo de treinamento proposto
neste trabalho.
2.4 Neurnios e Redes Neurais Nebulosas
Conforme mencionado anteriormente, a integrao entre redes neurais e teoria de conjuntos nebu-
losos atrativa na modelagem de sistemas dinmicos. Em particular, redes neurais nebulosas herdam
as caractersticas computacionais das redes neurais, suas arquiteturas e seus mtodos de aprendizagem
e adquirem dos sistemas nebulosos a capacidade de representao e processamento de conhecimento
lingstico, assim como os demais recursos oferecidos pela teoria de conjuntos nebulosos.
Sob esta perspectiva, trs categorias de combinaes foram propostas na literatura (Lin & Lee,
1996), traduzindo-se, cada uma delas, em:
Redes neurais baseadas em neurnios nebulosos;
Modelos neurais fuzzicados;
Redes neurais clssicas com treinamento nebuloso.
Os modelos propostos neste trabalho so englobados pela primeira categoria, o das redes neurais
baseadas em neurnios nebulosos e, portanto, esta ser discutida com mais detalhes a seguir.
24 Fundamentos Tericos
2.4.1 Neurnios Nebulosos
Um neurnio nebuloso um neurnio articial muito semelhante ao modelo clssico proposto
por McCulloch-Pitts que reete a natureza nebulosa de um neurnio biolgico (Rocha, 1987). Este
neurnio possui a habilidade de tratar informaes imprecisas e/ou incertas pois sua formulao
baseada na teoria de conjuntos nebulosos.
Apesar de um grande nmero de neurnios nebulosos j terem sido propostos, estes podem ser
classicados em trs tipos distintos (Lin & Lee, 1996): (a) neurnios nebulosos com entradas no-
nebulosas combinadas com pesos nebulosos (Tipo I), (b) neurnios nebulosos com entradas nebu-
losas que so combinadas com os pesos nebulosos (Tipo II) e (c) neurnios nebulosos descritos por
equaes lgicas nebulosas (Tipo III). A seguir, estes trs tipos de neurnios nebulosos so breve-
mente apresentados.
Neurnios Nebulosos do Tipo I
O neurnio nebuloso do tipo I, apresentado na Figura 2.4, aquele no qual as entradas so no-
nebulosas, ou seja, as entradas so nmeros reais e os pesos de conexo conjuntos nebulosos chama-
dos de pesos nebulosos.
Assim, para n entradas no nebulosas x
1
, x
2
, . . . , x
n
existem n, conjuntos nebulosos A
i
, i =
1, . . . , n, sendo que as operaes de ponderao atravs dos pesos so substitudas por operaes
com funes de pertinncia, tambm conhecidas como operaes de fuzzicao. O resultado de
cada operao de fuzzicao, denotado por A
i
(x
i
), o grau de pertinncia (ou valor de associao)
da entrada x
i
no conjunto nebuloso A
i
.
Formalmente, um neurnio nebuloso do tipo I um mapeamento N
1
: R
n
[0, 1] denido da
seguinte forma:
N
1
(x
1
, x
2
, . . . , x
n
) = A
1
(x
1
) A
2
(x
2
) . . . A
n
(x
n
) (2.21)
onde o operador de agregao pode ser qualquer mecanismo de agregao tais como os operadores
min, max ou qualquer outra t-norma ou s-norma discutidas anteriormente.
Neurnios Nebulosos do Tipo II
Este tipo de neurnio nebuloso, denotado por N
2
e apresentado na Figura 2.5, similar aos do
tipo I, exceto pelo fato de que todas as entradas e sadas so conjuntos nebulosos ao invs de val-
ores no-nebulosos. Cada uma das entradas no nebulosas X
i
composta com seu respectivo peso
nebuloso A
i
atravs de umoperador de ponderao , que pode ser, por exemplo, a multiplicao en-
tre dois conjuntos nebulosos, composies nebulosas, entre outros (veja (Gomide & Pedrycz, 2007)
2.4 Neurnios e Redes Neurais Nebulosas 25
x
1
x
2
x
n
A
1
A
2
A
n
N
1
A
1
(x
1
)
A
2
(x
2
)
A
n
(x
n
)
.
.
.
y = N
1
(x
1
, x
2
, . . . , x
n
)
Figura 2.4: Neurnio nebuloso do tipo I
para mais detalhes). O resultado desta ponderao um outro conjunto nebuloso X
i
= A
i
X
i
,
i = 1, . . . , n. Todos os conjuntos nebulosos X
i
so ento agregados atravs de um operador de
agregao para produzir o conjunto nebuloso de sada Y .
X
1
X
2
X
n
A
1
A
2
A
n
N
2
X
1
X
2
X
n
.
.
.
Y
Figura 2.5: Neurnio nebuloso do tipo II
Este neurnio produz um mapeamento N
2
: [0, 1]
n
[0, 1], e pode ser matematicamente
descrito da seguinte forma:
X
i
= A
i
X
i
, i = 1, 2, . . . , n
Y = N
2
(X
1
, X
2
, . . . , X
n
) = X
1
X
2
. . . X
n
. (2.22)
Neurnios Nebulosos do Tipo III
A relao de entrada/sada de neurnio nebuloso do tipo III, apresentado na Figura 2.6, repre-
sentada por uma regra nebulosa se-ento da forma:
SE X
1
E X
2
E . . . E X
n
, ENTO Y (2.23)
onde X
1
, X
2
, . . . , X
n
so as entradas e Y a sada. Um neurnio nebuloso do tipo III pode tambm
ser descrito por uma relao nebulosa R, por exemplo:
26 Fundamentos Tericos
R = X
1
X
2
. . . X
n
Y, (2.24)
ou, no caso geral,
R = f(X
1
, X
2
, . . . , X
n
, Y ), (2.25)
onde f() representa uma funo de implicao. Assim, a partir das entradas x
1
, x
2
, . . . , x
n
(nebulosas
ou no), e de acordo com a regra de inferncia composicional adotada, o neurnio nebuloso do tipo
III fornece uma sada da forma:
Y = x
1
(x
2
(. . . (x
n
R) . . .) . . .), (2.26)
onde representa um tipo de composio nebulosa como, por exemplo, uma composio sup-t ou
inf-s. Para este neurnio, as entradas podem ser tanto nebulosas quanto no-nebulosas, sendo que
um neurnio nebuloso do tipo III com entradas no-nebulosas pode ser visto como um caso especial
deste neurnio com entradas nebulosas. Uma rede neural nebulosa composta por neurnios do tipo
III aparece como uma excelente arquitetura para extrao de regras a partir de dados de treinamento.
X
1
X
2
X
n
.
.
.
Y R
Figura 2.6: Neurnio nebuloso do tipo III
H ainda uma variao do neurnio nebuloso do tipo III, chamado de neurnio lgico, proposto
em (Pedrycz & Rocha, 1993), que pode ser visto como uma combinao dos neurnios do tipo II
e III. A estrutura deste neurnio muito similar apresentada para os neurnios nebulosos do tipo
III, exceto pelo fato de que pesos de conexo w
i
so associados a cada uma das entradas x
i
. Desta
forma, um neurnio lgico executa um mapeamento do espao formado pelo produto cartesiano entre
o espao de entrada e o espao dos pesos no intervalo unitrio, isto , X W [0, 1].
Aforma comque entradas e pesos so agregados denemdois tipos de neurnios lgicos: neurnios
lgicos do tipo AND e neurnios lgicos do tipo OR. De fato, o nome neurnio lgico est associado
s operaes lgicas de disjuno (or) e conjuno (and) executadas por estes neurnios, e que, aqui,
2.4 Neurnios e Redes Neurais Nebulosas 27
conforme mencionado anteriormente, so implementadas atravs de suas generalizaes nebulosas,
as t-normas e s-normas. As implementaes para os dois tipos de neurnios lgicos so apresentadas
a seguir.
Neurnio Lgico AND
O neurnio lgico do tipo AND obtido escolhendo-se uma s-norma como operador de ponder-
ao * na expresso (2.22), enquanto o operador de agregao implementado atravs de uma
t-norma. Isto faz com que, para este caso particular, a equao (2.22) possa ser reescrita da seguinte
forma:
X
i
= A
i
s X
i
, i = 1, 2, . . . , n
Y = X
1
t X
2
t . . . t X
n
, (2.27)
ou, de uma forma mais concisa
y = and(x, w) =
n
T
i=1
(x
i
s w
i
) (2.28)
onde x = [x
1
, x
2
, . . . , x
n
] o vetor de entradas, w = [w
1
, w
2
, . . . , w
n
] o vetor de pesos, y [0, 1]
o valor de sada e
n
T
i=1
() representa uma t-norma, ou seja,
n
T
i=1
(z
i
) = z
1
t z
2
t . . . t z
n
.
Sob a tica do neurnio nebuloso do tipo III, o neurnio lgico AND tambm pode ser visto
como uma relao nebulosa entre entradas e sada. Em particular, se o operador min for escolhido
para implementar a t-norma na equao (2.28), a sada deste neurnio pode ser vista como uma
composio min-s (inf-s) entre entradas e pesos, ou seja:
y = x w
Conseqentemente, cada neurnio lgico do tipo AND representa uma regra nebulosa da forma:
SE (x
1
OU w
1
) E (x
2
OU w
2
) E . . . E (x
n
OU w
n
), ENTO Y (2.29)
A gura 2.7 apresenta a estrutura para o neurnio lgico do tipo AND.
Em geral, associada sada deste neurnio uma funo de ativao
and
(), tomada como sendo
um mapeamento no-linear monotonicamente crescente. Entretanto, neste trabalho, esta funo foi
escolhida como sendo a funo identidade, isto ,
and
(y) = y.
28 Fundamentos Tericos
x
1
x
2
x
n
w
1
w
2
w
n
.
.
.
y
and
Figura 2.7: Neurnio nebuloso lgico do tipo AND
Neurnio Lgico OR
A obteno do neurnio lgico do tipo OR feita escolhendo-se uma t-norma como operador de
ponderao e uma s-norma como operador de agregao. Assim, a sada deste tipo de neurnio
calculada da seguinte forma:
y = or(x, w) =
n
S
i=1
(x
i
t w
i
), (2.30)
onde
n
S
i=1
() representa uma s-norma, ou seja,
n
S
i=1
(z
i
) = z
1
s z
2
s . . . s z
n
.
Da mesma forma que para o neurnio lgico do tipo AND, o neurnio lgico do tipo OR tambm
pode ser visto como uma relao nebulosa entre entradas e sada. Aqui, o caso particular aquele em
que se escolhe o operador max para implementar a t-norma em (2.30), o que faz com que a sada y
possa ser vista como uma composio max-t (sup-t) entre entradas e pesos, ou seja:
y = x w
Portanto, cada neurnio lgico do tipo OR representa uma regra nebulosa da forma:
SE (x
1
E w
1
) OU (x
2
E w
2
) OU . . . OU (x
n
E w
n
), ENTO Y (2.31)
A gura 2.8 apresenta a estrutura do neurnio lgico do tipo OR.
Da mesma forma que para o neurnio AND, neste neurnio a funo de ativao associada sada
do neurnio (
or
()) tambm foi escolhida como sendo a identidade, isto ,
or
(y) = y.
possvel vericar que os neurnios lgicos dos tipos AND e OR realizam operaes lgicas
puras entre os valores de pertinncia, sendo que o propsito dos pesos de conexo diferenciar os
diferentes nveis de impacto que cada entrada individual deve ter no resultado nal da agregao.
Este tipo de neurnio apresenta uma forte semelhana com os modelos clssicos de neurnio, o
que os torna particularmente atrativos para a construo de redes neurais nebulosas que herdem as
2.4 Neurnios e Redes Neurais Nebulosas 29
x
1
x
2
x
n
w
1
w
2
w
n
.
.
.
y
or
Figura 2.8: Neurnio nebuloso lgico do tipo OR
capacidades de treinamento das redes neurais clssicas. Alm disso fornecem uma forma intuitiva
para a extrao de regras nebulosas a partir dos modelos treinados, tornando-os lingisticamente
interpretveis.
Na seo a seguir, so apresentadas as principais estruturas de redes neurais nebulosas baseadas
nos neurnios lgicos dos tipos AND e OR, e que serviro de base para os modelos propostos neste
trabalho.
2.4.2 Redes Neurais Nebulosas
Diversas estruturas de rede neurais nebulosas foram propostas na literatura (Buckley & Hayashi,
1994; Lin & Lee, 1996). Em particular, esta seo trata das redes formadas por neurnios lgicos
AND e OR (Pedrycz, 1993), apresentando algumas das estruturas de redes j propostas na literatura
(Pedrycz et al., 1995; Caminhas et al., 1999; Ballini & Gomide, 2002; Figueiredo et al., 2004) nas
quais ser fundamentada a estrutura utilizada neste trabalho.
As primeiras estruturas a utilizar os neurnios AND e OR foram propostas por Pedrycz em 1995
(Pedrycz et al., 1995). Estas estruturas, denominadas de processadores lgicos, demonstram certas
analogias com as funes Booleanas da lgica clssica.
Oprimeiro tipo de processador lgico, ilustrado na Figura 2.9, formado por h neurnios ANDem
sua camada intermediria e por um nico neurnio OR na camada de sada. A funo dos neurnios
AND fornecer uma seqncia de mintermos generalizados dos sinais de entrada. Esses mintermos
generalizados so ento combinados atravs da unio lgica fornecida pelo neurnio OR situado na
camada de sada. Desta forma, a rede resultante fornece um tipo de aproximao lgica das relaes
entre o vetor de entrada e sua respectiva sada conhecida, como soma de mintermos.
O segundo tipo de processador lgico proposto por Pedrycz, apresentado na Figura 2.10, fornece
uma estrutura dual apresentada anteriormente e fornece uma relao lgica conhecida como pro-
duto de maxitermos. Nesta topologia, a camada intermediria fornece uma famlia de maxitermos
30 Fundamentos Tericos
x
1
x
2
x
i
x
n
x
1
x
2
x
n
y
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
V
ji
W
j
Z
1
Z
j
Z
j+1
Z
h
and
and
and
and
or
Mintermos
Soma de Mintermos
Figura 2.9: Processador lgico do tipo Soma de Mintermos
generalizados das entradas. A camada de sada, composta por um nico neurnio AND, tem a funo
de agregar os maxitermos generalizados fornecidos pela camada anterior.
Para ambas as redes, as entradas x
i
so entradas nebulosas, sendo que as entradas x
i
representam o
complemento das entradas x
i
. Os pesos de conexo dados por V
ji
[0, 1] representam a importncia
individual da entrada x
i
no processamento do j-simo neurnio da camada intermediria, enquanto
os pesos de conexo W
j
[0, 1] representam a importncia individual da sada do j-simo neurnio
da camada intermediria na composio nal da sada.
Outra importante estrutura de rede neural nebulosa composta por neurnios lgicos AND e OR
foi proposta por Caminhas et. al. em 1999 para resolver o problema de classicao de padres
(Caminhas et al., 1999). Esta estrutura, ilustrada na Figura 2.11, possui a caracterstica de representar
o conhecimento de forma explcita, apresentando duas diferenas importantes com relao classe
anterior. Alm de possibilitarem a insero e/ou extrao de conhecimento na forma de regras nebu-
losas do tipo se-ento, so tambm capazes de projetar sistemas nebulosos denindo seus parmetros
medida que adquirem conhecimento durante o perodo de aprendizagem.
Nesta arquitetura, as entradas x
i
so variveis no-nebulosas que so fuzzicadas na primeira
camada da rede, onde cada neurnio representa um conjunto nebuloso, sendo que A
i
i
representa o
i
-simo conjunto nebuloso da i-sima entrada. Estes neurnios podem ser vistos como neurnios
nebulosos do tipo I que possuem apenas uma entrada.
As sadas dos neurnios da primeira camada so combinadas com seus respectivos pesos w
ki
2.4 Neurnios e Redes Neurais Nebulosas 31
x
1
x
2
x
i
x
n
x
1
x
2
x
n
y
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
V
ji
W
j
Z
1
Z
j
Z
j+1
Z
h
or
or
or
or
and
Maxitermos
Produto de Maxitermos
Figura 2.10: Processador lgico do tipo Produto de Maxitermos
[0, 1] pelos neurnios AND que formam a primeira camada intermediria da rede. A sada de cada
um destes neurnios AND y
k
pode ser vista como a sada de uma regra nebulosa do tipo se-ento. A
segunda camada intermediria da rede executa a agregao das regras nebulosas representadas pela
primeira camada intermediria. Desta forma, as sadas y
k
da regras nebulosas so agregadas com seus
respectivos pesos v
j
[0, 1] atravs dos neurnios OR.
A sada de cada um destes neurnios OR representam o grau de certeza com que a entrada x =
[x
i
], i = 1, . . . , n pertence a uma determinada classe, isto , Z
. A sada nal da rede dada por uma funo competitiva MAX, sendo que a classe a qual
pertence a entrada x ser aquela que apresentar o maior valor de Z
associado a ela.
Por m, pode-se ainda apresentar a estrutura de rede neural nebulosa recorrente proposta em
(Ballini & Gomide, 2002). Nesta estrutura, a funo de agregao das sadas das regras nebu-
losas feita atravs de uma rede neural clssica, formando assim a estrutura hbrida apresentada
na Figura 2.12.
Esta estrutura apresenta duas partes distintas. A primeira delas formada por duas camadas de
neurnios nebulosos e representa um sistema de inferncia nebuloso. A primeira destas duas camadas
formada pelos mesmos neurnios de fuzzicao usados na estrutura da Figura 2.11. A segunda
camada desta parte da rede pode ser formada por neurnios AND ou neurnios OR. O processamento
nas duas primeiras camadas desta rede muito similar ao da estrutura anterior. Entretanto, aqui so
associadas recorrncias locais e globais aos neurnios AND/OR, fazendo com que a entrada destes
neurnios seja acrescida das sadas dos prprios neurnios AND/OR no instante anterior, sendo estas
32 Fundamentos Tericos
x
1
x
i
x
n
A
1
1
A
1
1
A
1
1
A
1
i
A
i
i
A
i
i
A
1
n
A
n
n
A
n
n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a
11
a
1
a
L1
a
1i
a
ki
a
Li
a
1n
a
kn
a
Ln
w
11
w
k1
w
L1
w
1i
w
ki
w
Li
w
1n
w
kn
w
Ln
and
and
and
or
or
or
v
11
v
1
v
j1
v
1L
v
j
v
m1
v
jL
v
m
v
mL
y
1
y
k
y
L
Z
1
Z
Z
N
C
1
C
C
N
Zq
Cq
MAX
Fuzzicao
Agregao dos
Antecedentes
Agregao dos Regras Defuzzicao
Figura 2.11: Modelo de rede neural nebulosa para classicao de padres
sadas ponderadas pelos pesos de conexo r
k
(peso de recorrncia entre os neurnios lgicos k, k =
1, . . . , L e , = 1, . . . , L na segunda camada da rede).
A segunda parte formada por uma rede neural clssica de uma camada e funciona como um
agregador no-linear, agregando a sada das regras nebulosas da primeira parte da rede e fornecendo
uma sada global para a rede. A sada desta parte da rede dada por y
j
= f
_
L
k=1
v
jk
z
k
_
, onde
f() uma funo de ativao monotnica contnua.
O aprendizado desta rede feita em trs etapas. Na primeira etapa, um algoritmo de agrupamento
utilizado para granularizar o espao de entrada. Na segunda etapa o mtodo do gradiente utilizado
para corrigir os pesos relacionados aos neurnios clssicos na camada de sada. Por m, na terceira
etapa aplica-se uma regra de reforo associativo para corrigir os pesos relacionados aos neurnios
nebulosos na camada intermediria. Maiores detalhes so apresentados em (Ballini & Gomide, 2002).
Da mesma forma que a estrutura anterior, esta rede permite a representao do conhecimento na
forma de regras se-ento. Alm disso, a incorporao das recorrncias nos neurnios nebulosos na
camada intermediria da rede faz com que esta seja capaz de capturar as relaes temporais entre
entradas/sadas distintas, tornando-se assim uma alternativa na modelagem de sistemas dinmicos.
2.5 O Espao Neural Multidimensional 33
x
1
x
i
x
n
A
1
1
A
1
1
A
1
1
A
1
i
A
i
i
A
i
i
A
1
n
A
n
n
A
n
n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a
11
a
1
a
L1
a
1i
a
ki
a
Li
a
1n
a
kn
a
Ln
w
11
w
k1
w
L1
w
1i
w
ki
w
Li
w
1n
w
kn
w
Ln
and/or
and/or
and/or v
11
v
1k
v
j1
v
1L
v
jk
v
m1
v
jL
v
mk
v
mL
r
11
r
k1 r
1k
r
kk
r
Lk
r
kL
r
LL
r
L1
r
1L
f()
f()
f()
z
1
z
k
z
L
y
1
y
j
ym
Sistema de Inferncia Nebuloso
Rede Neural de Agregao
Figura 2.12: Modelo de rede neural nebulosa recorrente
2.5 O Espao Neural Multidimensional
O espao neural multidimensional ^ proposto por Figueiredo surge como uma forma de se
obter uma realizao estrutural e paramtrica para uma classe de modelos qualitativos implemen-
tados atravs de redes neurais clssicas (Figueiredo, 2003).
Este espao denido como sendo um espao separvel de Hilbert de mapeamentos no-lineares
f, que mapeiam um dado vetor x a partir de um espao de dados X (o qual tambm um espao
separvel de Hilbert ou um espao Euclidiano) para um vetor m-dimensional y composto por m
sadas da forma y
j
= f
j
(x), onde f
j
() so funcionais analticos expressos como sries funcionais de
Volterra em X (Volterra, 1959). Os funcionais f
j
pertencem a um espao de Hilbert apropriadamente
construdo, denotado por F, tambm introduzido por De Figueiredo (Figueiredo & DwyerIII, 1980),
como uma generalizao de um espao de Fock simtrico. Uma vez denido o espao F possvel
denir o Espao Neural ^ como um produto direto do espao F, isto :
34 Fundamentos Tericos
^ =
m
..
F F . . . F, (2.32)
o que faz com que os membros de ^ tenham um domnio comum (X). De Figueiredo mostra que os
membros de ^ so otimamente implementados como uma rede neural. Portanto, o produto escalar
em^ mede a similaridade entre duas redes neurais que representam os mapeamentos f e g, e a norma
em ^, quando usada como |f g|
N
expressa a distncia mtrica entre essas duas redes.
Estes conceitos se apresentaram como altamente promissores na modelagem de sistemas dinmi-
cos e inspiraram estudos no sentido de estender estas idias para tratar tambm redes neurais nebu-
losas, tornando-se inicialmente um dos principais objetivos deste trabalho. Entretanto, anlises exper-
imentais demonstraram que para fornecer uma realizao estrutural e paramtrica para um problema
especco, a abordagem de De Figueiredo exige que os vetores que formam o conjunto de dados de
treinamento sejam todos linearmente independentes entre si, sendo que o nmero de neurnios na
camada intermediria das redes geradas por este mtodo exatamente igual ao nmero destes vetores
de treinamento.
Estas anlises levaram a crer que, apesar de fornecer uma formulao matemtica adequada
implementao de redes neurais clssicas, o espao ^ possui desvantagens com relao complexi-
dade dos algoritmos utilizados se comparado s redes neurais nebulosas apresentadas anteriormente,
fazendo com que esta abordagem no fosse considerada neste trabalho.
2.6 Aprendizado Participativo
A caracterstica principal do aprendizado participativo que o impacto de uma observao no
aprendizado ou na reviso das convices depende de sua compatibilidade com as convices atuais.
Em particular, uma observao conitante com as convices atuais desconsiderada (Yager, 1990).
Este modelo de aprendizado captura muitas das caractersticas inerentes ao aprendizado humano,
uma vez que, quando j possuem algum conhecimento a respeito de determinado assunto, os seres
humanos tendem a no aceitar de imediato novos conceitos que no estejam de acordo com aquilo
que j aprenderam sobre tal assunto at o presente momento.
Para exemplicar este conceito, considere v como sendo uma varivel que representa o que j se
aprendeu a respeito de um determinado ambiente. O objetivo do aprendizado participativo estimar o
valor desta varivel baseado em uma seqncia de observaes x
k
[0, 1], k = 1, 2, . . . , que codi-
cam o conhecimento a respeito do valor da varivel v [0, 1]. Neste sentido, x
k
uma manifestao
do valor de v na k-sima observao. Assim, usa-se o vetor x
k
como um meio para "aprender"o
valor de v. O processo de aprendizado participativo se a contribuio de cada observao x
k
para
2.6 Aprendizado Participativo 35
o processo de aprendizado depende de sua aceitao pelos valores correntes de v (Yager, 1990). Isto
signica que, para ser relevante para o processo de aprendizagem, x
k
deve estar prximo de v. Um
mecanismo para atualizao dos valores de v (chamados genericamente de crenas ou convices,
por Yager) :
v
k+1
= v
k
+
k
k
(x
k
v
k
) (2.33)
onde k = 1, . . . , P e P o nmero de observaes; v
k+1
[0, 1] a nova convico a respeito
do sistema; v
k
[0, 1] a convico corrente; x
k
a observao corrente;
k
[0, 1] a taxa de
aprendizado (que pode ser constante ou varivel); e
k
[0, 1] o grau de compatibilidade entre x
k
e
v
k
. Uma das formas de se calcular
k
:
k
= 1
1
n
n
i=1
d
k
i
(2.34)
sendo d
k
i
=
x
k
i
v
k
i
. Quando
k
= 0, tem-se que a observao muito diferente da convico
corrente pois, como d
k
i
[0, 1] para que
k
seja igual a zero necessrio que cada uma dos elementos
x
k
i
e v
k
i
devem estar em extremos opostos, ou seja, se x
k
i
= 0 ento v
k
i
= 1 ou se x
k
i
= 1 ento v
k
i
= 0
para todo i = 1, . . . , n. Neste caso tem-se que, a partir de (2.33) que v
k+1
= v
k
e o sistema est
totalmente fechado para o aprendizado.
Por outro lado, se
k
= 1 tem-se a partir de (2.33) que v
k+1
= v
k
+
k
(x
k
v
k
), e portanto o
sistema est totalmente aberto para o aprendizado. Entretanto, para que
k
seja igual a 1 preciso
que x
k
i
k
i
= 0 para todo i. Esta condio implica que v
k
= x
k
e assim tem-se que v
k+1
= v
k
, o
que implica que no ocorre nenhum aprendizado (Yager & Filev, 1993a).
Estes fatos implicam que quando uma nova observao muito distinta do que j se sabe a re-
speito do ambiente ela considerada como incompatvel e no entra no processo de aprendizado.
Por outro lado, quando uma nova observao igual ao conhecimento que j se tem a respeito do
ambiente, no necessrio mais aprender j que esta observao no contribui com o aprendizado.
Assim, o comportamento da atualizao das convices se d de acordo com um compromisso entre
observaes muito prximas da convico atual e de observaes conitantes com tal convico. Esta
idia pode ser visualizada na Figura 2.13, que apresenta um exemplo deste comportamento para um
espao bidimensional, onde a convico atual se encontra no centro do espao.
Um ponto que pode ser levantado a respeito do processo de treinamento descrito que este ignora
a situao em que uma seqncia de baixos valores de
k
s so observados durante um longo perodo
de tempo. Neste caso, o sistema deve se tornar mais aberto para aprender com as novas observaes,
uma vez que para este caso a convico que se tem a respeito do sistema que pode estar errada e
no as novas observaes. Esta situao pode ser traduzida em um ndice de alerta, usado para
36 Fundamentos Tericos
convico ()
x
1
x
2
0
00
0.25
0.25
0.50
0.50
0.50
0.75
0.75
1.00
1.00
0.10
0.20
0.30
0.40
(a)
0
convico ()
x
1
x
2
0
0.25
0.25
0.50
0.50
0.75
0.75
1.00
1.00
(b)
Figura 2.13: Comportamento da aprendizagem participativa
inuenciar o processo de aprendizado, como mostra a Figura 2.14. Quanto maior o ndice de alerta,
menor a conana que se tem a respeito da convico atual do sistema e observaes conitantes se
tornam importantes no processo de atualizao das convices.
Processo de
Aprendizado
Mecanismo de
Alerta
Observaes (x
k
)
Convices ()
Figura 2.14: Aprendizado participativo com alerta
Assim, considere
k
[0, 1] como sendo o ndice de alerta. Quanto mais alto for o valor de
k
mais alerta esta o sistema. Um mecanismo para determinar o ndice de alerta :
k+1
=
k
+ ((1
k+1
)
k
) (2.35)
onde [0, 1] uma constante que controla a taxa com a qual o ndice de alerta ajustado; quanto
mais prximo est de 1, mais sensvel ca o sistema variaes de compatibilidade. O ndice
de alerta pode ser visto como o complemento da conana na convico atualmente presente no
sistema. A Figura 2.15 ilustra o comportamento do ndice de alerta e da atualizao das convices
para diferentes seqncias de ndices de compatibilidade.
2.6 Aprendizado Participativo 37
0
0
0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
1.0
1.0
20
20
20
40
40
40
60
60
60
80
80
80
100
100
100
120
120
120
(a)
(b)
(c)
Figura 2.15: Comportamento do ndice de alerta e da variao das convices: (a) ndice de compat-
ibilidade (b) ndice de alerta (c) Variao das convices.
A expresso (2.33) pode ento ser reescrita de forma a incorporar o mecanismo de alerta da
seguinte forma:
v
k+1
= v
k
+
k
1
k
k
(x
k
v
k
) (2.36)
ou na forma completa:
v
k+1
= x
k
+
k
_
1
1
n
n
i=1
x
k
i
v
k
i
_
1
k
(x
k
v
k
) (2.37)
Como pode ser vericado em (2.36) e (2.37), enquanto
k
mede o quanto o sistema muda sua
credibilidade em suas prprias convices, o ndice de alerta
k
atua como um crtico que avisa
quanto uma convico deve ser modicada frente a novas evidncias.
Este paradigma de aprendizado pode ser visto como uma base para o desenvolvimento de algorit-
mos de treinamento para sistemas baseados em inteligncia computacional, tais como redes neurais,
sistemas fuzzy e suas hibridizaes. De fato, o aprendizado participativo foi utilizado para desen-
volver um eciente algoritmo de agrupamento fuzzy no supervisionado (Silva et al., 2005) e, tam-
bm, para encontrar estruturas de base de regras em procedimentos de modelagem fuzzy evolutiva
38 Fundamentos Tericos
(Lima et al., 2006).
Uma das propostas deste trabalho a utilizao do aprendizado participativo na sntese de um
algoritmo de treinamento para uma classe de redes neurofuzzy, conforme apresentado no prximo
captulo.
2.7 Resumo
O objetivo deste captulo foi descrever em linhas gerais o contexto de modelagem de sistemas
dinmicos, foco do presente trabalho. Inicialmente apresentou-se as principais propriedades de mod-
elos matemticos, apontando quais destas propriedades esto presentes nos modelos propostos nesta
tese. Em suma, os modelos aqui propostos podem ser classicados como modelos no-lineares, dis-
cretos, determinsticos, a parmetros concentrados, no autnomos e paramtricos.
Alm disso, foram descritos neste captulo os conceitos gerais da teoria de conjuntos nebulosos,
com nfase nas equaes relacionais nebulosas e as solues para o problema de estimao nebuloso.
Redes neurais nebulosas baseadas em neurnios lgicos do tipo AND/OR tambm foram introduzi-
dos para servir de motivao para uma nova classe de redes neurais nebulosas que ser objeto do
captulo 4.
Por m, este captulo apresentou os conceitos bsicos a respeito do paradigma do aprendizado
participativo, com a nalidade de facilitar a compreenso do algoritmo de treinamento para redes
neurais nebulosas proposto no captulo seguinte.
Captulo 3
Redes Neurais Nebulosas com Aprendizado
Participativo
3.1 Introduo
Neste captulo prope-se um novo procedimento para se treinar redes neurais nebulosas, tomando-
se como base o paradigma do aprendizado participativo (AP) apresentado no captulo anterior.
Conforme mencionado, os mtodos de treinamento existentes, tanto para redes neurais clssicas
quanto para redes neurais nebulosas, apresentam uma forte dependncia no que diz respeito quali-
dade da base de dados utilizada para o treinamento. De fato, possvel obter bons resultados com os
mtodos de treinamento apenas nos casos em que os dados de treinamento sejam representativos do
comportamento que se deseja aprender (Yager, 1990).
Apesar de o AP apresentar claros indcios de que sua aplicao seria vantajosa para se melhorar
tais caractersticas dos processos de treinamento existentes, at o momento nenhum algoritmo ecaz
baseado nesse paradigma foi proposto na literatura. A vantagem do AP se deve, em parte, ao fato de
que uma das suas principais caractersticas a comparao entre a informao que chega ao sistema
e o conhecimento j armazenado, a m de se calcular o quanto essa nova informao compatvel
com as convices atuais e, assim, atualizar ou no o conhecimento (Seo 2.6).
Na maioria das redes neurais, nebulosas ou no, o conhecimento que j se tem a respeito do
meio ou do processo sob estudo ca armazenado nos pesos de conexo, ou, mais especicamente,
nas matrizes onde so armazenados tais pesos. Portanto, para aplicar o AP a estas redes, torna-se
necessrio traduzir a nova informao (em geral na forma de um par de treinamento entrada/sada)
para um formato matricial que possa ser comparado com as matrizes de pesos.
Para se entender melhor este problema, considere a rede neural clssica de 3 entradas e 2 sadas
apresentada na Figura 3.1.
39
40 Redes Neurais Nebulosas com Aprendizado Participativo
x
1
x
2
x
3
y
1
y
2
w
11
w
12
w
13
w
21
w
22
w
23
f()
f()
Figura 3.1: Exemplo de Rede Neural Clssica de 3 entradas e 2 sadas.
Para esta rede tem-se que o vetor de entrada x R
3
, o vetor de sada y [0, 1]
2
e a matriz de
peso W = [w
ij
] (onde est armazenado o conhecimento que esta rede j possui) pertence ao R
23
. De
forma geral, pode-se obter uma sada y = [ y
i
], i = 1, 2, para esta rede a partir de uma determinada
entrada x, da seguinte forma:
y
i
= f
_
3
j=1
x
j
w
ij
_
, i = 1, 2. (3.1)
Considere agora um par formado por uma entrada e uma sada na forma [x, y]. Para que o AP
possa ser aplicado no treinamento desta rede, seria necessrio encontrar, a partir de um par [x, y] uma
matriz G = [g
ij
]i = 1, 2, j = 1, 2, 3, de tal forma que, substituindo-se w
ij
na equao (3.1) por g
ij
, o
resultado obtido fosse exatamente o vetor y, ou seja:
y
i
= f
_
3
j=1
x
j
g
ij
_
, i = 1, 2. (3.2)
Desta forma, a matriz G = [g
ij
] representaria a informao que est sendo trazida para a rede
atravs do par entrada/sada [x,y] e, portanto, poderia ser utilizada no clculo do ndice de compati-
bilidade para o AP, conforme mencionado no captulo anterior.
Apesar de existirem alguns mtodos (Stewart, 1973; Bjrck, 1996) que permitem encontrar a
matriz G para o exemplo da Figura 3.1, estes mtodos so, em geral, computacionalmente onerosos,
o que inviabilizaria a aplicao do AP para problemas com dimenses mais elevadas. Por outro
lado, considere a rede neural nebulosa apresentada na Figura 3.2, onde representa ou a funo and
3.1 Introduo 41
denida em (2.28) ou a funo or denida em (2.30).
A
1
1
A
1
2
A
1
3
x
1
x
2
x
3
y
1
y
2
a
1
a
2
a
3
w
11
w
12
w
13
w
21
w
22
w
23
1
1
(x
1
)) o vetor que armazena as sadas dos neurnios nebulosos da primeira
camada da rede (que podem ser vistos como neurnios nebulosos do tipo I com uma nica entrada) e
o operador representa uma composio inf-s (para o caso em que = and e a t-norma = min) ou
uma composio sup-t (para o caso em que = or e a s-norma = max).
Considere novamente o par entrada/sada dado por [x, y]. Como o vetor a pode ser facilmente
obtido atravs da propagao de x atravs da primeira camada de neurnios nebulosos (N
1
), a matriz
G que representa a informao trazida pelo par [x, y] deve ser tal que:
y = a G. (3.4)
Neste caso, G pode ser obtida a partir da soluo do problema de estimao nebuloso, conforme
seo 2.3.8 do captulo anterior. Este mtodo fornece uma forma simples e rpida de se obter a
informao que est sendo trazida pela nova observao que chega rede, viabilizando, assim, o uso
do aprendizado participativo para esta classe de redes neurais nebulosas.
Umdos objetivos deste trabalho justamente utilizar esta idia para a formulao de umalgoritmo
42 Redes Neurais Nebulosas com Aprendizado Participativo
de aprendizado para redes neurais nebulosas baseado no AP. Antes, porm, torna-se necessria uma
anlise da estabilidade e convergncia do AP.
3.2 Anlise de Convergncia do Aprendizado Participativo
Para que um algoritmo seja considerado como um potencial candidato ao treinamento de sistemas
baseados em inteligncia computacional, ele deve ser, antes de mais nada, um mtodo estvel (o que
garante que, se o valor inicial do problema sucientemente prximo da soluo, ento o algoritmo
converge para algum ponto tambm prximo da soluo) e convergente (o que garante que, se o valor
inicial do problema sucientemente prximo da soluo, ento o algoritmo caminha para a soluo).
Tanto o conceito de estabilidade quanto o de convergncia, quando demonstrados para um mtodo
numrico, mostram que este mtodo converge para uma determinada soluo aps um determinado
nmero de iteraes. Desta forma, possvel vericar que o AP um mtodo convergente analisando-
se o seguinte lema (Yager & Filev, 1993b), que os autores chamam de lema de estabilidade do AP:
Lema 3.1 (Estabilidade do Aprendizado Participativo) Considere o algoritmo do aprendizado par-
ticipativo
1
:
v
k+1
= v
k
+
k
k
(x
k
v
k
) (3.5)
onde
k
[0, 1] a taxa de aprendizado (que pode ser constante
k
= ou varivel). Se o ndice de
compatibilidade
k
for denido de tal forma que este pertena ao intervalo [0, 1], ento o algoritmo
(3.5) estvel.
Demonstrao:
A expresso(3.5) pode ser vista como um sistema dinmico e re-escrita como:
v
k+1
= (1
k
k
)v
k
+ (
k
k
)x
k
. (3.6)
Se o termo
k
k
uma constante, i.e.,
k
k
= , ento o sistema (3.6) estacionrio e ser
estvel se e somente se todos os seus plos forem localizados no crculo unitrio, ou seja:
[1 [ < 1,
ou ento 1 < 1 < 1. Assim, para ser estvel o termo deve satisfazer a seguinte condio:
0 < < 2.
1
Note que a equao (3.5) apenas uma transcrio da equao (2.33).
3.2 Anlise de Convergncia do Aprendizado Participativo 43
Como, por denio, a taxa de aprendizado pertence ao intervalo [0, 1], para garantir estabil-
idade o ndice de compatibilidade deve pertencer ao intervalo:
0 < < 2,
o que torna o sistema estvel se denido como pertencente ao intervalo [0, 1]. Entretanto, o
aprendizado participativo um processo dinmico, e o ndice de compatibilidade, em geral, no
uma constante, mas sim uma varivel. Para o caso em que o ndice de compatibilidade no
considerado como uma constante, possvel se utilizar a recurso na expresso (3.6) para se obter:
v
k+1
=
k
i=0
_
(1
i
i
)v
0
_
+ f(
0
, . . . ,
k
,
0
, . . . ,
k
, x
0
, . . . , x
k
) (3.7)
onde f() uma funo no-linear. Pode-se vericar em (3.7) que a condio 0 <
k
< 2 para cada
k tambm implica na estabilidade do sistema (3.6) para qualquer condio inicial
0
no caso em que
no uma constante.
Portanto, denindo o ndice de compatibilidade
k
no intervalo [0, 1], garante que o algoritmo
estvel.
O lema 3.1 demonstra que o algoritmo AP converge para alguma soluo prxima soluo
desejada (denio de estabilidade), apesar de no dizer nada a respeito da soluo encontrada. Para
que se possa analisar o algoritmo AP no sentido de dizer onde se encontra a soluo obtida por ele,
necessrio demonstrar o conceito de convergncia para este algoritmo. Este conceito ainda no foi
demonstrado na literatura, porm isso pode ser feito analisando-o como um mtodo de aproximao
estocstica (Robbins & Monro, 1951).
Oproblema de aproximao estocstica originalmente trata da estimao das razes de uma funo
desconhecida atravs de aproximaes sucessivas baseadas em observaes com rudo (Kushner &
Yin, 2003). A aproximao estocstica pode ser interpretada como uma equao a diferenas es-
tocstica onde ajustes recursivos nos parmetros, dadas algumas condies, fazem com que o sistema
apresente uma convergncia assinttica. Esta abordagem utilizada na anlise de convergncia de
algoritmos recursivos, como o caso do AP.
Considere o seguinte lema (Dvoretzky, 1956; Saridis, 1970):
Lema 3.2 (Aproximao Estocstica) Considere o algoritmo de aproximao estocstica:
v
k+1
= v
k
+
k
_
z
k
v
k
_
, (3.8)
onde
k
uma seqncia de ganhos e z
k
a observao da varivel v (que se deseja aproximar)
corrompida por um rudo nito de mdia zero e
k
, no instante k, isto :
44 Redes Neurais Nebulosas com Aprendizado Participativo
z
k
= v + e
k
. (3.9)
Re-escrevendo-se a equao (3.8) utilizando (3.9), obtm-se:
v
k+1
= v
k
+
k
(F
k
+ e
k
) , (3.10)
onde F
k
= v v
k
um termo de correo e e
k
o termo associado ao rudo. Se a seqncia de
ganho
k
em (3.10) satisfaz
lim
k
k
= 0,
k=1
k
= ,
k=1
2
k
< (3.11)
e a seqncia de correo F
k
satisfaz
E
_
_
_
v
k+1
+
k+1
(F
k
+ e
k
)
_
_
2
/v
k+1
_
< E
_
_
_
v
k+1
+
k+1
F
k
_
_
2
/v
k+1
_
+
2
k+1
E
_
|e
k
|
2
/v
k+1
_
E
_
|v
0
|
2
_
< ; E
_
|e
k
|
2
_
2
< 0,
(3.12)
onde E representa o valor. Ento:
Pr
_
lim
k
_
_
v
k
v
_
_
= 0
_
= 1 (3.13)
onde Pr a funo probabilidade, e
lim
k
E
_
_
_
v
k
v
_
_
2
_
= 0. (3.14)
Ademonstrao deste lema pode ser obtido em(Dvoretzky, 1956). A condio (3.11), sob o ponto
de vista prtico, a mais relevante (Spall, 2003). Esta condio fornece um balanceamento cuidadoso
no decaimento do ganho
k
, fazendo com que este no decaia nem muito rpido nem muito devagar.
A primeira parte desta condio (lim
k
k
= 0) pode ser interpretada com um efeito suave no termo
de correo aleatrio. A segunda parte (
k=1
k
= ) fornece um esforo de correo ilimitada e a
terceira parte (
k=1
2
k
< ) garante cancelamento mtuo de erros individuais para grandes nmeros
de iteraes (Saridis, 1974).
Em particular, a primeira e a segunda partes da condio (3.11) garantem que o ganho se aproxime
de zero sucientemente rpido para eliminar os efeitos do rudo quando as iteraes se aproximam da
soluo v, enquanto a terceira parte garante que esta aproximao sucientemente lenta para evitar
convergncias prematuras (falsas) do algoritmo (Spall, 2003). A condio (3.12) signica que no
3.2 Anlise de Convergncia do Aprendizado Participativo 45
existe acoplamento cruzado ente F
k
e e
k
e que a busca no inicializada em uma incerteza innita
sobre os parmetros (Saridis, 1974).
As expresses (3.13) e (3.14) do lema 3.2 implicam que a seqncia v
k
converge em mdia
quadrtica e com probabilidade 1 para v quando k .
Utilizando o Lema 3.2 possvel obter o seguinte resultado:
Teorema 3.1 (Convergncia do Aprendizado Participativo) Considere o algoritmo de aprendizado
participativo:
v
k+1
= v
k
+
k
k
(x
k
v
k
), (3.15)
onde
k
[0, 1] e
k
tal que:
k
=
k + 1
, (3.16)
onde > 0 uma constante.
Se x
k
em (3.15) uma observao de v em um determinado instante k tal que:
x
k
= v + e
k
, (3.17)
onde e
k
um rudo aleatrio nito de mdia zero independente de v, ento v
k
converge em mdia
quadrtica e com probabilidade 1 para v quando k .
Demonstrao:
possvel vericar que o mecanismo de ajuste de crenas dado em (3.15) possui todas as car-
actersticas da forma analtica de um algoritmo de aproximao estocstica apresentada em (3.8).
Alm disso, a seqncia de ganhos
k
k
, com
k
dado por (3.16) atende s condies (3.11)
do Lema 3.2, pois conforme citado em (Spall, 2003), seqncias harmnicas da forma l/(k +
c), (l, c) > 0 satisfazem estas condies.
Verica-se ainda que os termos e
k
e v v
k
so, por hiptese, totalmente desacoplados, o que
implica que (3.15) corresponde a um caso particular do teorema de aproximao estocstica de
Dvoretzky (Dvoretzky, 1956) e portanto
Pr
_
lim
k
_
_
v
k
v
_
_
= 0
_
= 1
lim
k
E
_
_
_
v
k
v
_
_
2
_
= 0
, (3.18)
o que conclui a prova.
46 Redes Neurais Nebulosas com Aprendizado Participativo
Colorrio 3.2 (Caso Particular de Convergncia do AP) Seja X uma varivel aleatria comfuno
de distribuio dada por P[X x] = H(x) tal que:
EX =
_
xdH(x) = , (3.19)
onde EX o valor esperado de X e um valor constante. Suponha que exista uma constante
positiva C tal que
Pr[[X[ C] =
_
C
C
dH(x) = 1. (3.20)
Seja x
k
uma seqncia de observaes de X. De acordo com (3.19) (que garante que o valor
esperado de X um valor xo nito ) e (3.20) (que mostra que existem limitantes superior e inferior
para os valores das observaes de X), cada observao x
k
pode ser vista como:
x
k
= EX +
k
= +
k
, (3.21)
onde
k
pode ser visto como um rudo aleatrio nito, com a mesma distribuio de X e com valor
esperado igual a zero.
Se a seqncia x
k
processada pelo algoritmo de aprendizado participativo (3.15), com
k
denido por (3.16), tem-se que v
k
converge em em mdia quadrtica e com probabilidade para o
valor esperado de X, i.e.,
Pr
_
lim
k
_
_
v
k
EX
_
_
= 0
_
= 1
lim
k
E
_
_
_
v
k
EX
_
_
2
_
= 0.
(3.22)
Demonstrao:
A partir de (3.21), a expresso (3.15) pode ser re-escrita da seguinte forma:
v
k+1
= v
k
+
k
k
_
EX +
k
v
k
_
= v
k
+
k
k
_
[EX v
k
] +
k
_
(3.23)
A expresso (3.23) pode ser vista como um mtodo de aproximao estocstica, onde o termo de
correo F
k
= EX v
k
, a seqncia de ganho
k
=
k
k
e o termo que representa o erro
estocstico e
k
=
k
.
Como j foi mencionado, o termo de ganho
k
=
k
k
, com
k
denido em (3.16), atende a
todas as condies impostas em (3.12). Tambm possvel vericar que no existe termo cruzado
entre F
k
= v v
k
com v = EX e e
k
=
k
satisfazendo, portanto, a condio (3.13).
Conforme demonstrado no Teorema 3.1, as crenas v
k
convergem em mdia quadrtica e com
3.2 Anlise de Convergncia do Aprendizado Participativo 47
probabilidade 1 para um valor v quando k . Como, para este caso em particular, tem-se que
v = EX, pode-se concluir que, se x
k
so observaes de uma varivel aleatria X conforme
denida em (3.19) e (3.20), ento v
k
converge para o valor esperado de X, em mdia quadrtica e
com probabilidade 1, quando k , concluindo assim a demonstrao do teorema.
Para ilustrar os resultados do Colorrio 3.2 so apresentados a seguir dois experimentos feitos
com variveis aleatrias com diferentes funes de distribuio e valores iniciais. No primeiro deles,
uma seqncia de valores x
k
foi gerada a partir de observaes de uma varivel aleatria X, com
distribuio normal e valor esperado EX = = 0.5. A seqncia x
k
foi apresentada ao AP,
para dois valores iniciais distintos, com a nalidade de mostrar que a dinmica do processo independe
do valor inicial. O resultado deste experimento mostrado na Figura 3.3.
0.0
0.0
0.2
0.2
0.4
0.4
0.5
0.5
0.6
0.6
0.8
0.8
1.0
1.0
50
50
100
100
150
150
200
200
250
250
300
300
v
k
v
k
observaes
observaes
(a)
(b)
k
k
Comportamento de v
k
Comportamento de v
k
Valor Esperado E{X}
Valor Esperado E{X}
Figura 3.3: Convergncia do Aprendizado Participativo para Varivel Aleatria com Distribuio
Normal: (a) Valor inicial v
0
= 0, (b) Valor inicial v
0
= 1.
No segundo experimento a seqncia x
k
foi gerada a partir de observaes de uma varivel
aleatria X, comdistribuio diamtrica no-central (noncentral chi-square) e valor esperado EX =
= 0.3, para vericar que o Teorema 3.2 vale para qualquer tipo de distribuio, inclusive as as-
simtricas. A seqncia x
k
foi novamente apresentada ao AP, para dois valores iniciais distintos.
O resultado deste experimento mostrado na Figura 3.4.
48 Redes Neurais Nebulosas com Aprendizado Participativo
0.0
0.0
0.2
0.2
0.3
0.3
0.4
0.4
0.6
0.6
0.8
0.8
1.0
1.0
50
50
100
100
150
150
200
200
v
k
v
k
observaes
observaes
(a)
(b)
k
k
Comportamento de v
k
Comportamento de v
k
Valor Esperado E{X}
Valor Esperado E{X}
Figura 3.4: Convergncia do Aprendizado Participativo para Varivel Aleatria com Distribuio
Diamtrica No-Central: (a) Valor inicial v
0
= 0, (b) Valor inicial v
0
= 1.
Uma vez demonstradas as propriedades de estabilidade e convergncia para o aprendizado partic-
ipativo, j possvel introduzir o procedimento de treinamento para redes neurais nebulosas baseado
neste paradigma. Antes, porm, necessrio apresentar a estrutura da rede neural utilizada neste
trabalho. Esta tarefa delegada prxima seo.
3.3 Estrutura da Rede Neural Nebulosa
Neste trabalho ser considerada uma verso esttica da estrutura recorrente proposta em (Ballini
& Gomide, 2002) e apresentada na seo 2.4 do Captulo 2, onde as recorrncias locais e globais so
desconsideradas.
Esta escolha faz com que a rede utilizada neste trabalho seja tambm um modelo hbrido, cuja
estrutura apresentada na gura 3.5.
A estrutura da rede da gura 3.5 composta por duas partes. A primeira parte possui duas ca-
madas de neurnios nebulosos e representa um sistema de inferncia nebuloso. A primeira destas
camadas formada por neurnios cujas funes de ativao so as funes de pertinncia dos con-
juntos nebulosos que formam uma partio do espao de entrada. Estes neurnios tambm podem
3.3 Estrutura da Rede Neural Nebulosa 49
x
1
x
i
x
n
A
1
1
A
1
1
A
1
1
A
1
i
A
i
i
A
i
i
A
1
n
A
n
n
A
n
n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a
11
a
1
a
L1
a
1i
a
ki
a
Li
a
1n
a
kn
a
Ln
w
11
w
k1
w
L1
w
1i
w
ki
w
Li
w
1n
w
kn
w
Ln
and/or
and/or
and/or v
11
v
1k
v
j1
v
1L
v
jk
v
m1
v
jL
v
mk
v
mL
f()
f()
f()
z
1
z
k
z
L
y
1
y
j
ym
Sistema de Inferncia Nebuloso
Rede Neural de Agregao
Figura 3.5: Modelo de rede neural nebulosa
ser vistos como neurnios nebulosos do tipo I, sendo que cada um deles possui apenas uma entrada
e, portanto, a sada deste neurnio ser o grau de pertinncia da entrada no conjunto nebuloso que
representa o peso.
Para cada dimenso x
i
de um vetor de entrada n-dimensional x existem
i
neurnios nebu-
losos do tipo I, sendo que o peso nebuloso associado a esta entrada dado pelo conjunto nebuloso
A
i
i
,
i
= 1, . . . ,
i
cujas funes de pertinncia correspondem granularizao da varivel x
i
. As-
sim, as sadas da primeira camada intermediria so os graus de pertinncia associados aos valores
das entradas, isto , a
i
= A
i
i
(x
i
), i = 1, . . . , n e = 1, . . . , L; onde L o nmero de neurnios
na segunda camada de neurnios nebulosos.
Os neurnios nebulosos da segunda camada podem ser escolhidos como sendo um dos dois tipos
de neurnios lgicos apresentados na seo anterior. Caso sejam escolhidos neurnios lgicos do
tipo AND, a funo implementada nesta camada passa a ser a funo and e computada segundo a
expresso (2.28).
possvel vericar que, para esta escolha, a estrutura da rede codica um conjunto de regras
50 Redes Neurais Nebulosas com Aprendizado Participativo
nebulosas se-ento R = R
, = 1, . . . , L da forma:
R
: SE (x
1
A
1
1
OU w
1
) . . . E (x
i
A
i
i
OU w
i
) . . . E (x
n
A
n
i
OU w
n
) ENTO, z is z
.
(3.24)
J para o caso em que neurnios lgicos do tipo OR so escolhidos para implementar a segunda
camada da rede, a funo implementada a funo or, sendo que sada de cada um destes neurnios
passa a ser computada segundo a expresso (2.30). Desta forma, a rede passa a codicar o seguinte
conjunto de regras nebulosas se-ento R = R
, = 1, . . . , L:
R
: SE (x
1
A
1
1
E w
1
) . . . OU (x
i
A
i
i
E w
i
) . . . OU (x
n
A
n
i
E w
n
) ENTO, z is z
.
(3.25)
possvel vericar que existe uma forte correspondncia entre a estrutura da primeira parte da
rede neurofuzzy e um conjunto de regras fuzzy, ou alternativamente, uma base de regras fuzzy. Alm
disto, o processamento do esquema induzido pela estrutura da rede est de acordo com os princpios
da teoria de conjuntos fuzzy e de raciocnio aproximado (Gomide & Pedrycz, 2007), sendo que a
interpretao para este tipo de modelo amplamente conhecida e pode ser encontrada em (Lin &
Lee, 1996).
A segunda parte formada por uma rede neural clssica de apenas uma camada que, conforme
mencionado anteriormente, tem o propsito de agregar as sadas do sistema de inferncia nebuloso,
fornecendo uma sada para a rede. Assim, a sada do j-simo neurnio de sada dada por:
y
j
= f
_
L
=1
z
v
j
_
, (3.26)
onde f() uma funo de ativao monotnica contnua. Neste trabalho tomou-se como funo de
ativao dos neurnios da camada de sada a funo sigmoidal, i.e., f() = (1 + exp())
1
.
Assim sendo, a dinmica da rede neural nebulosa apresentada na Figura 3.5 pode ser resumida da
seguinte forma:
Passo 1: Calcula-se a matriz A = [a
i
], = 1, . . . , L, i = 1, . . . , n, onde a
i
= A
i
i
(x
i
) a sada
do
i
-simo neurnio nebuloso do tipo I da entrada x
i
que vai na direo do -simo neurnio
lgico na segunda camada;
3.4 Treinamento de Redes Neurais Nebulosas com AP 51
Passo 2: Calcule-se o vetor z = [z
], = 1, . . . , L da seguinte forma:
z
=
n
T
i=1
(a
i
s w
i
) Para neurnios do tipo AND, ou (3.27)
z
=
n
S
i=1
(a
i
t w
i
) para neurnios do tipo OR; (3.28)
Passo 3: Finalmente calcula-se o vetor de sada y = [y
j
], j = 1, . . . , m atravs da expresso (3.26).
Para o caso especial, onde se escolhe a funo min para representar a t-norma na expresso (3.27),
esta pode ser re-escrita na forma:
z
= a
w
T
, (3.29)
onde a
= [a
1
, . . . , a
n
] o vetor contendo a -sima linha da matriz A, w
= [w
1
, . . . , w
n
] o vetor
contendo a -sima linha da matriz W e w
T
denota o transposto de w
= a
w
T
. (3.30)
A prxima seo apresenta o algoritmo de treinamento com aprendizado participativo para a
classe de redes neurais nebulosas apresentadas nesta seo.
3.4 Treinamento de Redes Neurais Nebulosas com AP
Esta seo prope um novo algoritmo de treinamento baseado no aprendizado participativo (AP)
para a classe de redes neurais nebulosas hbridas da Figura 3.5, apresentadas na seo anterior. Vale
ressaltar que o algoritmo aqui apresentado pode ser estendido para uma grande variedade de classes
de redes neurais nebulosas, bem como para alguns sistemas neuro-nebulosos.
O algoritmo proposto dividido em trs etapas:
Fase 1: Gerao das funes de pertinncia que representamos pesos nebulosos associados primeira
camada de neurnios;
Fase 2: Atualizao dos pesos associados rede neural clssica que representa o agregador no-
linear de sada;
Fase 3: Atualizao dos pesos relacionados aos neurnios lgicos AND/OR que representam o sis-
tema de inferncia nebuloso da rede.
Cada uma destas etapas descrita nas sees a seguir.
52 Redes Neurais Nebulosas com Aprendizado Participativo
3.4.1 Gerao das Funes de Pertinncia
A gerao das funes de pertinncia que implementam os pesos dos neurnios nebulosos do
tipo I na primeira camada da rede apresentada na Figura 3.5 se d por meio do uso do algoritmo
de agrupamento nebuloso fuzzy c-means (Bezdek, 1981), sendo que tanto informaes relativas ao
espao de entrada quanto ao espao de sada so includas neste agrupamento. De forma geral, se
o espao de entrada tem dimenso n e o espao de sada tem dimenso m, o agrupamento feito
no espao n + m-dimensional, sendo que cada um dos centros de grupo encontrados neste espao
projetado no espao de entrada. O resultado desta projeo o valor modal das funes de pertinncia
nos seus respectivos universos de discurso.
Um exemplo da gerao das funes de pertinncia para um problema onde o espao de entrada
bidimensional, x = [x
1
, x
2
] R
2
, e o espao de sada unidimensional, y = y [0, 1], com funes
de pertinncia Gaussianas apresentado na Figura 3.6. As disperses das Gaussianas so ajustadas
de forma a se obter um quadro cognitivo no espao de entrada.
1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
x
1
x
2
y
Centros dos Grupos
Funes de Pertinncia Geradas
Figura 3.6: Exemplo de Gerao das Funes de Pertinncia para x R
2
e y [0, 1].
3.4 Treinamento de Redes Neurais Nebulosas com AP 53
3.4.2 Atualizao dos Pesos Associados Rede Neural de Agregao
Assim como no captulo anterior, aqui os pesos associados rede neural de agregao (uma rede
neural clssica que faz a agregao ponderada das sadas do sistema de inferncia nebuloso repre-
sentado pela primeira parte da rede) so ajustados atravs do mtodo do gradiente. Assim sendo, a
variao dos pesos v
k
j
associados esta camada para um dado par de treinamento [x
k
, y
k
] em um
determinado instante k, pode ser calculada da seguinte forma:
v
k
j
=
1
(y
k
j
y
k
j
)f
(
k
j
)z
k
(3.31)
onde y
k
j
a sada obtida para o j-simo neurnio na camada de sada, y
k
j
a sada desejada para este
mesmo neurnio, z
k
(
k
j
) = f(
k
j
)(1 f(
k
j
)) a derivada da funo de ativao
dos neurnios na camada de sada avaliada em
k
j
,
k
j
=
L
=1
(v
k
j
z
k
), e
1
[0, 1] a taxa de
aprendizado relativa a esta rede.
Assim, a atualizao dos pesos calculada utilizando v
k
j
para o instante k + 1 de acordo com a
seguinte expresso:
v
k+1
j
= v
k
j
+ v
k
j
(3.32)
3.4.3 Atualizao dos Pesos Associados ao Sistema de Inferncia Nebuloso
Um aspecto importante no desenvolvimento do algoritmo de treinamento proposto neste trabalho
est relacionado com a forma de se ajustar os pesos referentes aos neurnios lgicos AND/OR na
parte da rede que representa o sistema de inferncia nebuloso da rede da Figura 3.5. Nesta seo,
desenvolve-se uma forma alternativa s propostas da literatura para se proceder os ajustes dos pesos
w
i
s, utilizando-se o aprendizado participativo.
Considerando-se as idias apresentadas no incio deste captulo, para que o AP possa ser aplicado
no ajuste dos pesos w
i
s, necessrio encontrar inicialmente uma matriz G
k
= [g
k
i
], associada a
um par de treinamento [x
k
, y
k
], de tal forma que, propagando-se a entrada x
k
atravs da rede, a sada
obtida y
k
para esta rede seja exatamente o vetor y
k
.
Conforme mencionado anteriormente, quando o operador min escolhido para implementar a
t-norma nos neurnios AND ou o operador max utilizado como s-norma nos neurnios OR, a
matriz G
k
pode ser vista como uma matriz relacional (expresses (3.29) e (3.30), respectivamente),
e possvel encontr-la utilizando-se para isso a soluo do problema de estimao apresentada na
seo 2.3.8.
54 Redes Neurais Nebulosas com Aprendizado Participativo
Para isso, necessrio inicialmente se obter os valores de sada z
k
_
1
2
_
_
_
_
V
k+1
_
T
z
k
f
1
(y
k
)
_
_
_
2
_
sujeito a 0 z
k
1 (3.33)
onde
_
V
k+1
_
T
denota a transposta de V
k+1
e f
1
() a inversa da funo f em (3.26).
A matriz G
k
pode ento ser calculada atravs da soluo do problema de estimao visto anterior-
mente. Este clculo depende da escolha do tipo de neurnio lgico que ir compor a segunda camada
da rede. Assim, se neurnios lgicos do tipo AND forem escolhidos para implementar esta camada, a
matriz G
k
calculada da seguinte forma:
g
k
=
_
a
k
z
k
_
= inf
_
c [0, 1][ a
k
s c z
k
_
, (3.34)
onde a
k
= [a
k
1
, . . . , a
k
n
] a -sima linha da matriz A
k
(obtida atravs da propagao do vetor de
entrada x
k
atravs da primeira camada de neurnios nebulosos) e g
k
= [g
k
1
, . . . , g
k
n
] a -sima linha
da matriz G
k
. O operador denido em (2.19).
Vale relembrar que a soluo dada por (3.34) uma soluo minimal. Isto implica que quando a
equao (3.34) associa um valor igual a zero para um dos elementos da matriz G
k
, isto , g
k
i
= 0, este
elemento pode ser substitudo por qualquer valor no intervalo [0, 1] que o resultado da composio
inf-s a
k
g
k
=
_
a
k
z
k
_
= sup
_
c [0, 1][ a
k
t c z
k
_
, (3.36)
onde o operador denido em (2.15).
Para este caso, a soluo obtida em (3.36) maximal e, portanto, quando g
k
i
= 1 o peso associado
a este elemento no precisa ser ajustado. A matriz
G
k
pode ento ser calculada da seguinte forma:
g
k
i
=
_
w
k
i
, se g
k
i
= 1
g
k
i
, caso contrrio
(3.37)
possvel vericar que, se a matriz de pesos W
k
= [w
k
i
], = 1, . . . , L, i = 1, . . . , n for sub-
stituda pela matriz
G
k
calculada conforme apresentado e o vetor de entrada x
k
for propagado por
toda a rede, a sada obtida y
k
ser exatamente igual a sada desejada y
k
, o que indica que a matriz
G
k
tambm codica a informao que o par de treinamento [x
k
, y
k
] fornece para a rede. Assim, o grau
de compatibilidade
k
associado observao [x
k
, y
k
] pode ser calculado da seguinte forma:
k
=
1
L n
L
=1
n
i=1
[ g
k
i
w
k
i
[. (3.38)
Aps ser calculado o ndice de compatibilidade
k
associado ao par de treinamento [x
k
, y
k
], pode-
se calcular a variao dos pesos relacionados ao sistema de inferncia nebuloso representado pela
primeira parte da rede, de acordo com a seguinte regra:
w
k
i
=
2
(
k
)
1
k
( g
k
i
w
k
i
), (3.39)
onde
k
o ndice de alerta calculado conforme a expresso (2.35) e
2
a taxa de aprendizado.
Por m, a atualizao dos pesos desta parte da rede feita utilizando-se w
k
i
de acordo com:
w
k+1
i
= w
k
i
+ w
k
i
. (3.40)
A prxima seo fornece uma viso geral dos procedimentos de treinamento propostos, tanto para
redes com neurnios lgicos do tipo AND quanto do tipo OR na segunda camada.
3.4.4 Procedimentos de Treinamento com AP
Considere uma seqncia de pares de treinamento da por [x
k
, y
k
], k = 1, . . . , P, onde P o
nmero total de pares. A seguir, so apresentados os procedimentos gerais para o processo de treina-
mento proposto neste trabalho, para os dois tipos de neurnios lgicos apresentados anteriormente.
Vale ressaltar que, para ser possvel a aplicao do AP a este tipo de rede, necessrio utilizar-se
56 Redes Neurais Nebulosas com Aprendizado Participativo
a funo min para implementar a t-norma nos neurnios AND e a funo max para implementar a
s-norma nos neurnios OR.
Algoritmo de treinamento baseado no AP para redes baseadas em neurnios lgicos do tipo
AND
Oprocedimento completo baseado no aprendizado participativo para redes onde neurnios lgicos
do tipo AND utilizados para implementar a segunda camada de neurnios nebulosos o seguinte:
1. Granularizar o espao de entrada e obter as funes de pertinncia conforme seo 3.4.1;
2. Inicializar os pesos w
i
= 1, . . . , L, i = 1, . . . , n aleatoriamente, no intervalo [0, 1] ;
3. Inicializar os pesos v
j
, j = 1, . . . , m aleatoriamente, no intervalo [0.1, 0.1]
2
;
4. Inicializar o ndice de alerta em
k
= 1
1
;
5. Para cada um dos pares de treinamento [x
k
, y
k
] fazer:
5.1. Calcular os valores a
k
i
, = 1, . . . , L, i = 1, . . . , n propagando-se o vetor de entrada x
k
atravs da primeira camada de neurnios nebulosos;
5.2. Obter o vetor z
k
= [ z
k
= a
k
_
w
k
_
T
; (3.41)
onde w
k
=1
z
k
v
k
j
_
, j = 1, . . . , m.; (3.42)
2
A inicializao dos pesos no intervalo [0.1, 0.1] tem o propsito de evitar o problema de paralisia da rede neural,
pois caso o resultado da ponderao entre pesos e entradas seja um valor muito alto, este coincide com a regio linear da
funo de transferncia do neurnio. Como nesta regio a derivada em qualquer ponto igual a zero, o gradiente tambm
torna-se nulo e conseqentemente no h ajuste de pesos
1
Como a rede ainda no possui crenas a respeito do ambiente, a inicializao de
k
em 1 faz com que esta aprenda
com tudo que lhe ensinado, at que um conhecimento seja obtido.
3.4 Treinamento de Redes Neurais Nebulosas com AP 57
5.4. Calcular o erro de aproximao e
k
= [e
k
j
] j = 1, . . . , m, de acordo com:
e
k
j
= y
k
j
y
k
j
, (3.43)
onde y
k
j
a j-sima componente do vetor de sadas desejadas y
k
;
5.5. Calcular o vetor gradiente de erro da seguinte forma:
k
j
= e
k
j
f
(
k
j
), j = 1, . . . , m, = 1, . . . , L, (3.44)
onde f
(
k
j
) a derivada de f() em
k
j
=
m
j=1
(v
k
j
z
k
);
5.6. Calcular a variao dos pesos relacionados camada de sada v
k
j
de acordo com:
v
k
j
=
1
k
j
z
k
, j = 1, . . . , m, = 1, . . . , L, (3.45)
onde
1
a taxa de treinamento para a camada de sada;
5.7. Atualizar os pesos da camada de sada de acordo com:
v
k+1
j
= v
k
j
+ v
k
j
; (3.46)
5.8. Calcular a sada desejada para os neurnios lgicos AND z
k
= [z
k
], = 1, . . . , L rela-
cionada com a sada desejada desejada da rede y
k
= [y
k
j
], j = 1, . . . , m resolvendo o
seguinte problema de otimizao:
min
z
k
_
1
2
_
_
_
_
V
k+1
_
T
z
k
f
1
(y
k
)
_
_
_
2
_
sujeito a 0 z
k
1, (3.47)
onde V
k+1
= [v
k+1
j
], j = 1, . . . , m, = 1, . . . , L;
5.9. Calcular a matriz G
k
encontrando a soluo do problema de estimao dado por:
g
k
= a
k
z
k
; (3.48)
5.10. Determinar a matriz
G
k
que representa a informao que chega na rede trazida pela obser-
vao [x
k
, y
k
] de acordo com:
g
k
i
=
_
w
k
i
, se g
k
i
= 0
g
k
i
, caso contrrio
, = 1, . . . , L, i = 1, . . . , n; (3.49)
58 Redes Neurais Nebulosas com Aprendizado Participativo
5.11. Calcular o ndice de compatibilidade
k
entre as matrizes W
k
= [w
k
i
] e
G
k
= [ g
k
i
], =
1, . . . , L, i = 1, . . . , n, de acordo com:
k
=
1
L n
L
=1
n
i=1
[ g
k
i
w
k
i
[; (3.50)
5.12. Calcular a variao dos pesos relacionados segunda camada da rede w
k
i
de acordo com:
w
k
i
=
2
(
k
)
1
k
( g
k
i
w
k
i
), (3.51)
onde
2
a taxa de treinamento para esta camada, = 1, . . . , L, i = 1, . . . , n;
5.13. Atualizar os pesos relacionados ao sistema de inferncia nebuloso de acordo com a regra:
w
k+1
i
= w
k
i
+ w
k
i
, = 1, . . . , L, i = 1, . . . , n; (3.52)
5.14. Atualizar o ndice de alerta
k
de acordo com a expresso (3.53) ,onde [0, 1] uma
constante que controla a taxa com a qual a alerta ajustada,
k+1
=
k
+ ((1
k+1
)
k
); (3.53)
6. Repetir os passos 5.1 - 5.14 at que uma tolerncia de erro ou um nmero mximo de iteraes
seja atingido.
Algoritmo de treinamento baseado no AP para redes baseadas em neurnios lgicos do tipo OR
O procedimento baseado no aprendizado participativo para redes compostas por neurnios lgicos
do tipo OR muito similar ao apresentado anteriormente para redes com neurnios AND, sendo que
para obter-se este novo algoritmo necessrio apenas proceder as seguintes alteraes:
1. Substituir a equao utilizada no clculo de z
k
(3.41) por:
z
k
= a
k
_
w
k
_
T
; (3.54)
2. Substituir a equao utilizada para calcular os elementos da matriz G (3.48) por:
g
k
= a
k
z
k
; (3.55)
3.5 Resumo 59
3. Substituir a equao condicional utilizada na determinao da matriz G (3.49) por:
g
k
i
=
_
w
k
i
, se g
k
i
= 1
g
k
i
, caso contrrio
, = 1, . . . , L, i = 1, . . . , n; (3.56)
possvel vericar que nos algoritmos apresentados nesta seo o conhecimento que j se tem a
respeito do problema que est sendo tratado (armazenado nos pesos w
i
) levado em considerao
no ajuste dos pesos da rede da Figura 3.5. Assim, quando um par de treinamento [x, y] fornece rede
uma informao conitante com o conhecimento j armazenado, estes dados tero pouca inuncia
no ajuste dos pesos w
i
. Por outro lado, se o conhecimento fornecido por [x, y] (codicado pela matriz
G) for prxima o suciente do conhecimento j adquirido, ento os dados [x, y] tero forte inuncia
no ajuste dos pesos w
i
. Estes algoritmos podem ser, portanto, classicados como algoritmos de
aprendizado participativo.
Para vericar a eccia dos algoritmos propostos estes foram utilizados no treinamento de redes
neurais nebulosas da Figura 3.5 com o intuito de resolver problemas de modelagem de sistemas
dinmicos no-lineares, bem como de previso de sries temporais. As vantagens da caracterstica
participativa do algoritmo foram vericadas atravs da utilizao de dados no-ideais no treinamento
e posterior anlise de estudos comparativos desta abordagem com mtodos alternativos propostos na
literatura. Os resultados destas anlises so apresentados no Captulo 5.
3.5 Resumo
Este captulo apresentou o procedimento de treinamento proposto neste trabalho, o qual baseado
no aprendizado participativo para uma classe de redes hbridas neurais nebulosas. Inicialmente foi
feita uma anlise sobre os critrios de estabilidade do aprendizado participativo para, em seguida,
se discutir a respeito da convergncia do mtodo. Os algoritmos propostos para redes baseadas em
neurnios lgicos do tipo AND quanto do tipo OR foram detalhados e discutidos.
Captulo 4
Generalizao de Neurnios Nebulosos
4.1 Introduo
Este captulo apresenta o desenvolvimento estrutural para uma nova classe de redes neurais nebu-
losas baseada em generalizaes dos neurnios lgicos apresentados no Captulo 2. O objetivo destas
generalizaes dotar os neurnios nebulosos propostos neste trabalho de uma importante caracters-
tica anloga a dos neurnios biolgicos, a plasticidade neuronal. Esta caracterstica, muito til ao
sistema nervoso, permite o desenvolvimento de alteraes funcionais e estruturais em resposta ex-
perincia e de adaptao a condies mutantes e a estmulos repetidos. Com isso o neurnio biolgico
capaz modicar a forma de processamento de seus circuitos internos dependendo da necessidade
ou da situao em que se encontra (Kandel et al., 2000).
At onde vai o conhecimento do autor, a literatura no sugere um tipo de neurnio articial capaz
de emular esta caracterstica do neurnio biolgico. Assim, os desenvolvimentos propostos neste
captulo visam gerar neurnios nebulosos que possam assumir diferentes formas de processar sinais
de entrada e adaptar seus pesos de conexo, dependendo da necessidade do problema. Estes novos
neurnios podem ser vistos como generalizaes dos neurnios lgicos AND e OR onde a insero de
mais um parmetro, ajustado pelo algoritmo de treinamento, faz com o tipo de processamento interno
do neurnio possa variar de um neurnio puramente AND a um neurnio puramente OR, incluindo
realizaes entre estes dois extremos, a m de melhor se adaptar aos dados de treinamento.
Conforme foi visto na seo 2.4 do captulo 2, os neurnios lgicos AND e OR podem ser
vistos como transformaes no-lineares multivariveis entre hipercubos unitrios, i.e., [0, 1]
n
[0, 1], onde o processamento ocorre em dois nveis. No primeiro nvel, os sinais de entrada (graus
de pertinncia) a = [a
1
, a
2
, . . . , a
n
] so individualmente combinados com os pesos de conexo
w = [w
1
, w
2
, . . . , w
n
], a,w [0, 1]
n
, ou seja, no primeiro nvel so realizadas transformaes
L
1
: (a
i
, w
i
) [0, 1], i = 1, . . . , n. No segundo nvel, uma gerao de agregao global L
2
61
62 Generalizao de Neurnios Nebulosos
feita sobre todos os resultados da combinao das transformaes do primeiro nvel, isto :
z = L
2
[L
1
(a
1
, w
1
), L
1
(a
2
, w
2
), . . . , L
1
(a
n
, w
n
)] . (4.1)
Em um neurnio lgico do tipo AND L
1
executada atravs da realizao do operador lgico or
atravs de uma s-norma, L
1
= or enquanto L
2
executada atravs da realizao do operador lgico
and atravs de uma t-norma, L
2
= and. J a estrutura do neurnio lgico do tipo OR possui uma
estrutura dual ao do neurnio AND, ou seja, para um neurnio OR tem-se que L
1
= and e L
2
= or.
Neste captulo, sugerem-se neurnios nebulosos utilizando os conceitos de uninormas e nullnor-
mas na implementao das transformaes L
1
e/ou L
2
, a m de que uma rede neural nebulosa que
utilize este tipo de neurnio seja mais geral do que quelas que os utilizem neurnios clssicos e
lgicos discutidos anteriormente.
Conforme ser apresentado, estes novos neurnios so capazes de se comportar como qualquer
um dos dois tipos de neurnios lgicos AND e OR, dependendo da necessidade do problema a ser
tratado, a partir do ajuste de um parmetro adicional que controla o tipo que o neurnio assume na
rede. Isto faz com que, para uma rede formada por estes novos tipos de neurnios, o conhecimento
a respeito do problema que se deseja tratar seja armazenado no somente nos pesos de conexo, mas
tambm na prpria forma dos neurnios e, conseqentemente, na estrutura da rede.
Os neurnios nebulosos propostos neste trabalho so mais gerais que os neurnios nebulosos
alternativos discutidos na literatura. A rede neural considerada espelha em sua estrutura um conjunto
de regras se-ento que usam diferentes conectivos em seus antecedentes, diferentemente de todas
as abordagens propostas at o momento, em que s possvel representar um sistema de inferncia
nebuloso que utilize apenas um tipo de conectivo nos antecedentes (Rutkowski & Cpalka, 2005; Hell
et al., 2007b, 2008a).
Nas duas prximas sees deste captulo, desenvolvem-se os procedimentos atravs dos quais
possvel construir as duas unidades de processamento propostas neste trabalho: os Unineurons e os
Nullneurons. Como o prprio nome j diz, os unineurons so baseados no conceito de uninorma
enquanto os nullneurons no conceito de nullnorma. Aps o detalhamento dos processos construtivos,
as sees seguintes se encarregam de sugerir estruturas de redes baseadas nos unineurons e null-
neurons, assim como algoritmos de treinamento para estas redes, provendo assim um novo tipo de
sistema baseado em inteligncia computacional para modelagem de sistemas dinmicos no-lineares,
principal foco deste trabalho.
4.2 Neurnio Nebuloso Baseado em Uninormas: O Unineuron 63
4.2 Neurnio Nebuloso Baseado em Uninormas: O Unineuron
Conforme discutido anteriormente, as uninormas apresentadas na denio 2.4 podem ser uti-
lizadas para implementar a transformao local L
1
e/ou a agregao global L
2
em (4.1). Dependendo
da escolha dos operadores na implementao de L
1
e L
2
, possvel ressaltar trs tipos de possveis
realizaes para um neurnio lgico baseado em uninormas:
I. Agregao baseada em normas triangulares e transformao baseada em uninorma em nvel
local L
1
;
II. Agregao baseada em uninorma em nvel global L
2
e transformao local baseada em normas
triangulares;
III. Transformao e agregao baseada em uninorma em ambos os nveis L
1
e L
2
;
Os casos I e II so discutidos em (Pedrycz, 2006), onde duas categorias de processamento (tipo-
and e tipo-or) so denidas para cada caso, de acordo com o mecanismo de agregao usado no nvel
global no caso I e local no caso II. No caso I, o neurnio tipo-and gerado chamado de neurnio
AND-UNI enquanto que o tipo-or chamado de neurnio OR-UNI. J para o caso II, os neurnios
tipo-and e tipo-or so chamados de neurnio UNI-AND e neurnio UNI-OR, respectivamente.
O caso III no foi discutido na literatura, pois, apesar de seu alto nvel de exibilidade, a inter-
pretao deste tipo de neurnio pode ser extremamente complexa, dada a semntica das uninormas.
Alm disso, segundo (Pedrycz, 2006), o desenvolvimento de algoritmos de treinamento para este tipo
de sistema poderia trazer grandes diculdades. Assim sendo, o objetivo desta seo desenvolver um
neurnio nebuloso baseado na implementao do caso III, de tal forma a preservar a interpretabili-
dade de um modelo nebuloso baseado neste neurnio alm de tornar possvel o desenvolvimento de
um algoritmo de treinamento.
Para construir este neurnio, que pela nomenclatura dada em(Pedrycz, 2006) poderia ser chamado
de neurnio UNI-UNI, mas que aqui ser chamado simplesmente de Unineuron, necessrio ini-
cialmente propor-se uma pequena modicao na uninorma apresentada em (2.3) da seguinte forma:
U(x, y; g) =
g T
_
x
g
,
y
g
_
, se x, y [0, g]
g + (1 g) S
_
xg
1g
,
yg
1g
_
, se x, y [g, 1]
(x, y), caso contrrio.
(4.2)
onde a funo () denida como:
(x, y) =
_
max(x, y) se g [0, 0.5)
min(x, y) se g [0.5, 1]
64 Generalizao de Neurnios Nebulosos
possvel observar em (4.2) que a dominncia da uninorma
U controlada pelo valor do elemento
identidade g.
O processamento do unineuron dado pela funo uni(x, w; g), onde x [0, 1]
n
e w [0, 1]
n
,
assim denido:
uni(a, w; g) =
U
_
U(a
1
, w
1
; (1 g)),
U(a
2
, w
2
; (1 g)), . . . ,
U(a
n
, w
n
; (1 g)); g
_
=
n
U
i=1
_
U(a
i
, w
i
; (1 g)); g
_
(4.3)
Uma caracterstica importante a se observar em (4.3) que a utilizao do termo 1 g como ele-
mento de identidade da uninorma que implementa as transformaes locais L
1
associado utilizao
da varivel g como elemento de identidade da uninorma que representa L
2
faz com que exista uma
espcie de dualidade entre estes operadores, exatamente como acontece com os neurnios lgicos
AND e OR.
De fato possvel demonstrar que, se T e S em (4.2) so duais no sentido de De Morgan (Gomide
& Pedrycz, 2007), ento duas uninormas com elemento de identidade g e 1 g tambm so duais.
Para isso, considere seguinte resultado:
Teorema 4.1 (Dualidade de Uninormas:) Duas uninormas denidas conforme (4.2), onde T e S
so normas triangulares duais no sentido de De Morgan, e com elementos de identidade g e 1 g,
respectivamente, tambm so duais no sentido de De Morgan, isto :
U(x, y; g) = 1
_
U(x, y; g) = g T
_
x
g
,
y
g
_
. (4.5)
Por outro lado, se x g e y g, tem-se que (1 x) (1 g) e (1 y) (1 g) e portanto
(1x), (1y) [(1g), 1]. Assim, a uninorma
U((1x), (1y); (1g)) calculada da seguinte
forma:
U(x, y; g) = 1
_
U(x, y; g) = g + (1 g)S
_
x g
1 g
,
x g
1 g
_
. (4.9)
Neste caso, tem-se que (1x) (1g) e (1y) (1g) e portanto (1x), (1y) [0, (1g)].
A uninorma
U((1 x), (1 y); (1 g)) ento computada como:
U(x, y; g) = 1
_
N(x, y; u) =
C
u
_
S
_
C
u
(x),
C
u
(y)
__
=
C
1u
_
T
_
C
1u
(x),
C
1u
(y)
__
(4.13)
A expresso (4.13) fornece uma realizao contnua para uma famlia de nullnormas. Entretanto,
nesta construo, h uma necessidade de que T e S sejam duas normas triangulares duais com relao
ao complemento nebuloso clssico C(x) = 1 x.
fcil vericar que
N uma nullnorma, pois tem-se que:
N(x, y; u) =
Tx, y para u = 0
1
2
para u =
1
2
Sx, y para u = 1
(4.14)
Alm disso, tem-se tambm que para 0 < u < 0.5, a funo
N se assemelha a uma t-norma,
enquanto, para 0.5 < u < 1, esta funo se assemelha a uma s-norma. Estas semelhanas so mais
visveis quando o parmetro u est mais prximo de 0 ou de 1, respectivamente.
Assim, utilizando-se a expresso (4.13) para implementar os nveis de transformao e agregao
do neurnio, de forma similar ao apresentado para o unineuron, denem-se os nullneurons pela funo
null(x, w; u) da seguinte forma:
null(a, w; u) =
N
_
N(a
1
, w
1
; (1 u)),
N(a
2
, w
2
; (1 u)), . . . ,
N(a
n
, w
n
; (1 u)); u
_
=
n
N
i=1
_
N(a
i
, w
i
; (1 u)); u
_
(4.15)
A principal caracterstica do nullneuron em (4.15) a habilidade de mudar suavemente de um
neurnio lgico do tipo AND para um neurnio lgico do tipo OR. De fato, a caracterstica contnua
e a ausncia de dominnica na funo
N fazem com que as mudanas impostas pela variao do
72 Generalizao de Neurnios Nebulosos
elemento de absoro u ocorra de forma suave. Alm disso, fcil vericar que, quando u = 0, o
nullneuron equivale a um neurnio lgico AND, ou seja, null(x, w; 0) and(x; w), enquanto, para
u = 1, o nullneuron equivale a um neurnio lgico OR, isto , uni(x, w; 1) or(x; w).
Com relao dualidade, possvel vericar diretamente em (4.13) que duas nullnormas que
utilizem elementos de abosoro u e 1 u so duais no sentido de De Morgan, e portanto, de forma
similar ao que ocorre para os unineurons, dois nullneurons com elementos de abosoro u e 1u so
duais, da mesma forma que para os neurnios AND e OR.
Para ilustrar estas propriedades, considere o nullneuron com x, w [0, 1]
2
conforme Figura 4.5,
onde xou-se os valores dos pesos em w
1
= 0.3 e w
2
= 0.8 e variou-se o valor do elemento de
absoro u para 3 diferentes realizaes do nullneuron.
x
1
x
2
w
1
w
2
y = null(x, w; u) null
Figura 4.5: Nullneuron Aplicado Problema Bi-dimensional.
As Figuras 4.6, 4.7 e 4.8 mostam as superfcies de deciso do nullneuron. Em particular, a
Figura 4.6 mostra as superfcies de deciso do nullneuron para valores distintos de u e quando os
operadores min e max so escolhidos para implementar a t-norma e a s-norma em (4.15), respecti-
vamente. Na Figura 4.7 a funo escolhida como t-norma foi o produto algbrico e como s-norma a
soma probabilstica. Por m, na Figura 4.8, a escolha recaiu sobre o produto limitado como t-norma
e a soma limitada como s-norma.
Note que, apesar de, nos pontos extremos u = 0 (g = 1) e u = 1 (g = 0), as superfcies de deciso
serem idnticas para ambos os neurnios, entre estes dois pontos a variao da superfcie dada pelo
nullneuron se d de uma forma mais suave quando comparada com quela dada pelo unineuron.
Conforme pde ser vericado nas duas ltimas sees, unineurons e nullneurons so unidades
de processamento altamente no-lineares que, da mesma forma que os neurnios lgicos AND e
OR, dependem das realizaes especcas dos conectivos utilizados em sua construo, ou seja, das
t-normas e s-normas escolhidas. Estes novos neurnios apresentam tambm um alto potencial de
plasticidade que pode se tornar extremamente til no treinamento de redes neurais nebulosas que
envolvem este tipo de neurnio em sua estrutura.
4.3 Neurnio Nebuloso Baseado em Nullnormas: O Nullneuron 73
Neurnio AND
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(a)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(b)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(c)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(d)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(e)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(f)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(g)
Neurnio OR
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(h)
Figura 4.6: Superfce de Deciso do nullneuron para w=[0.3 0.8], t-norma = min, s-norma = max e:
(a) u = 0, (b) u = 0.1, (c) u = 0.3, (d) u = 0.4, (e) u = 0.5, (f) u = 0.7, (g) u = 0.8, (h) u = 1
74 Generalizao de Neurnios Nebulosos
Neurnio AND
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(a)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(b)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(c)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(d)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(e)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(f)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(g)
Neurnio OR
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(h)
Figura 4.7: Superfce de Deciso do nullneuron para w=[0.3 0.8], t-norma = produto algbrico, s-
norma = soma probabilstica e: (a) u = 0, (b) u = 0.1, (c) u = 0.3, (d) u = 0.4, (e) u = 0.5, (f)
u = 0.7, (g) u = 0.8, (h) u = 1
4.3 Neurnio Nebuloso Baseado em Nullnormas: O Nullneuron 75
Neurnio AND
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(a)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(b)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(c)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(d)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(e)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(f)
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(g)
Neurnio OR
0.0
0.0
0.2
0.2
0.2
0.4
0.4
0.4
0.6
0.6
0.6
0.8
0.8
0.8
1.0
1.0
1.0
x
1
x
2
y
=
n
u
l
l
(
x
,
w
;
u
)
(h)
Figura 4.8: Superfce de Deciso do nullneuron para w=[0.3 0.8], t-norma = produto limitado, s-
norma = soma limitada e: (a) u = 0, (b) u = 0.1, (c) u = 0.3, (d) u = 0.4, (e) u = 0.5, (f) u = 0.7,
(g) u = 0.8, (h) u = 1
76 Generalizao de Neurnios Nebulosos
4.4 Redes Neurais Nebulosas baseadas emNullneurons e Unineu-
rons
Os dois neurnios propostos nas sees anteriores podem ser utilizados nos mais diversos tipos
de estruturas neurais nebulosas existentes. Em particular, todas as estruturas que utilizam neurnios
lgicos em sua composio tambm podem ser construdas utilizando-se unineurons e nullneurons,
em substituio aos neurnios AND e OR. Exemplos destas estruturas podem ser encontrados em
(Pedrycz, 1993; Lin & Lee, 1996; Figueiredo et al., 2004) entre outros.
Neste trabalho, a estrutura escolhida para vericar a aplicao destes novos neurnios lgicos
foi a classe de redes hbridas apresentadas na seo 2.4.2 do Captulo 2. Desta forma, tomou-se a
estrutura mostrada na Figura 3.5, reproduzida na Figura 4.9, e substituiu-se os nernios lgicos na
segunda camada de neurnios nebulosos ora por unineurons ora por nullneurons, obtendo-se assim
dois novos tipos de redes neurais nebulosas a serem aplicadas modelagem de sistemas dinmicos
no lineares.
x
1
x
i
x
n
A
1
1
A
1
1
A
1
1
A
1
i
A
i
i
A
i
i
A
1
n
A
n
n
A
n
n
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
a
11
a
1
a
L1
a
1i
a
ki
a
Li
a
1n
a
kn
a
Ln
w
11
w
k1
w
L1
w
1i
w
ki
w
Li
w
1n
w
kn
w
Ln
uni/null
uni/null
uni/null v
11
v
1k
v
j1
v
1L
v
jk
v
m1
v
jL
v
mk
v
mL
f()
f()
f()
z
1
z
k
z
L
y
1
y
j
ym
Sistema de Inferncia Nebuloso
Rede Neural de Agregao
Figura 4.9: Modelo de rede neural nebulosa recorrente com unineurons e nullneurons
4.4 Redes Neurais Nebulosas baseadas em Nullneurons e Unineurons 77
O processamento para cada uma destas novas redes pode ser resumido conforme apresentado a
seguir.
Processamento da Rede Neural Nebulosa baseada em Unineurons
Passo 1: Calcula-se a matriz A = [a
i
], = 1, . . . , L, i = 1, . . . , n, onde a
i
= A
i
i
(x
i
) a sada
do
i
-simo neurnio nebuloso do tipo I da entrada x
i
que vai na direo do -simo neurnio
lgico na segunda camada;
Passo 2: Calcule-se o vetor z = [z
], = 1, . . . , L da seguinte forma:
z
= uni(a
, w
; g
) =
n
U
i=1
_
U(a
i
, w
i
; (1 g
)); g
_
(4.16)
onde a
=1
z
v
j
_
, (4.17)
onde f() a funo de ativao dos neurnios da camada de sada. Aqui tambm utilizou-se a
funo sigmoidal, i.e., f() = (1 + exp())
1
.
Processamento da Rede Neural Nebulosa baseada em nullneurons
Passo 1: Calcula-se a matriz A = [a
i
], = 1, . . . , L, i = 1, . . . , n, onde a
i
= A
i
i
(x
i
) a sada
do
i
-simo neurnio nebuloso do tipo I da entrada x
i
que vai na direo do -simo neurnio
lgico na segunda camada;
Passo 2: Calcule-se o vetor z = [z
], = 1, . . . , L da seguinte forma:
z
= null(a
, w
; g
) =
n
N
i=1
_
N(a
i
, w
i
; (1 g
)); g
_
(4.18)
onde a
=1
z
v
j
_
. (4.19)
78 Generalizao de Neurnios Nebulosos
Vale notar que cada umdos unineurons e nullneurons da rede proposta possui seu prprio parmetro
de plasticidade (elemento de identidade g para unineurons e elemento de absoro u para nullneu-
rons). Este fato, aliado um processo de treinamento que ajuste tais elementos de forma individual,
faz com que cada um dos neurnios que compe a rede possa processar entradas e pesos de conexo
de sua prpria maneira, independente do estado dos demais neurnios.
Em particular, se restries forem impostas de tal forma que, aps o trmino do processo de
treinamento, o valor nal do parmetro de plasticidade pertena ao conjunto 0, 1, tem-se que cada
um dos neurnios na segunda camada de neurnios nebulosos da rede ter se transformado ou em um
neurnio lgico do tipo AND ou em um neurnio lgico do tipo OR.
Tanto o caso em que os parmetros de plasticidade pertencem ao conjunto 0, 1 quanto para
os casos em que estes pertenam ao intervalo [0, 1], a primeira parte da rede hbrida sob estudo
possa representar um sistema de inferncia nebuloso que utiliza mais de um conectivo no antecedente
das regras nebulosas, diferentemente de todos os modelos existentes na literatura, onde apenas um
conectivo pode ser utilizado em cada sistema.
Desta forma, cada um dos neurnios na segunda camada de neurnios nebulosos da rede codi-
caria uma regra nebulosa da forma:
R
: SE (x
1
A
1
1
OU/E w
1
) E/OU (x
2
A
2
2
OU/E w
2
) . . .
. . . E/OU (x
n
A
n
i
OU/E w
n
) ENTO, z is z
,
(4.20)
sendo que a forma exata de cada regra denida pelo processo de treinamento, conforme ser apre-
sentado na seo a seguir.
4.5 Aprendizado para Redes Baseadas em Unineurons e Null-
neurons
Aps a denio da estrutura, o prximo passo se denir a forma com que ser feito o ajuste dos
parmetros dos neurnios que formam a rede. Especial ateno deve ser dada aos novos neurnios
nebulosos propostos neste captulo, pois cada um deles equipado com um signicante grau de
exibilidade paramtrica, que reside tanto em seus pesos de conexo w
i
quanto nos parmetro de
plasticidade g ou u.
Diversos paradigmas de aprendizado podem ser usados no processo de ajuste dos parmetros da
rede. Entre eles, podemos citar, por exemplo, mtodos baseados no gradiente, otimizao por exames
de partculas, algoritmos genticos e regras reforo associativo. O procedimento proposto neste tra-
balho um mtodo hbrido que se baseia no gradiente descendente para fazer o ajuste dos pesos na
camada de sada da rede e em uma regra de reforo associativo para ajustar os pesos associados ao
4.5 Aprendizado para Redes Baseadas em Unineurons e Nullneurons 79
sistema de inferncia nebuloso na primeira parte da rede, bem como os parmetros de plasticidade dos
unineurons e nullneurons. Este procedimento pode ser visto como uma extenso daquele apresentado
em (Ballini & Gomide, 2002), onde uma nova equao baseada na regra de reforo adicionada ao
procedimento para a correo individual dos parmetros g e u.
Neste trabalho, a m de se manter a interpretabilidade do modelo nal, que uma das principais
vantagens da estrutura neural nebulosa proposta, implementou-se ainda uma funo que faz com que
os parmetros de plasticidade g e u convirjam ou para 0 ou para 1, dependendo da necessidade do
problema. Esta convergncia se faz de forma individual nos parmetros, ou seja, no nal da fase
de treinamento, cada um dos neurnios nebulosos na segunda camada da rede ter o valor de seu
parmetro de plasticidade ajustado para 0 ou 1, independentemente do valor dos demais neurnios.
Esta funo dada por:
f
z
(g
) =
1
1 + exp((p
1
g
p
2
))
para unineurons, (4.21)
e
f
z
(u
) =
1
1 + exp((p
1
u
p
2
))
para nullneurons, (4.22)
onde p
1
e p
2
so parmetros da funo. Aqui assumiu-se que p
1
= 10 e p
2
= 5.
O algoritmo de treinamento detalhado a seguir. Para tanto, considere uma seqncia de pares de
treinamento da por [x
k
, y
k
], k = 1, . . . , P, onde P o nmero total de pares.
Aprendizado da Rede Neural Nebulosa baseada em Unineurons
O algoritmo para o aprendizado de redes onde unineurons so utilizados para implementar a
segunda camada de neurnios nebulosos descrito a seguir:
1. Granularizar o espao de entrada, gerando as funes de pertinncia conforme apresentado na
seo 3.4.1 do Captulo 3;
2. Inicializar os pesos w
i
, = 1, . . . , L, i = 1, . . . , n aleatoriamente, no intervalo [0, 1] ;
3. Inicializar os elementos identidade g
= uni(a
, w
; g
) =
n
U
i=1
_
U(a
i
, w
i
; (1 g
)); g
_
; (4.23)
5.3. Calcular o vetor de sada obtida da rede y
k
= [y
k
j
], j = 1, . . . , m, utilizando a expresso:
y
k
j
= f
_
L
=1
z
k
v
k
j
_
; (4.24)
5.4. Determinar o vetor com o erro de aproximao e
k
= [e
k
j
], j = 1, . . . , m, de acordo com:
e
k
j
= y
k
j
y
k
j
, (4.25)
onde y
k
j
a j-sima componente do vetor de sadas desejadas y
k
;
5.5. Determinar o vetor gradiente de erro da seguinte forma:
k
j
= e
k
j
f
(
k
j
), (4.26)
onde f
(
k
j
) a derivada de f() em
k
j
=
m
j=1
(v
k
j
z
k
);
5.6. Calcular a variao dos pesos relacionados camada de sada v
k
j
de acordo com:
v
k
j
=
s
k
j
z
k
, (4.27)
onde
s
a taxa de treinamento para a camada de sada;
5.7. Atualizar os pesos da camada de sada de acordo com a regra:
v
k+1
j
= v
k
j
+ v
k
j
; (4.28)
5.8. Calcular a variao dos pesos relacionados segunda camada da rede w
k
i
de acordo com:
w
i
=
1
[1 w
i
] (1 )
2
w
i
, (4.29)
onde 0 <
1
<<
2
< 1 so taxas de aprendizado para os pesos desta camada e o
4.5 Aprendizado para Redes Baseadas em Unineurons e Nullneurons 81
sinal de reforo dado por = 1 , o erro que se deseja minimizar, calculado como:
=
1
2
m
j=0
(y
k
j
y
k
j
)
2
(4.30)
5.9. Atualizar os pesos relacionados ao sistema de inferncia nebuloso de acordo com a regra:
w
k+1
i
= w
k
i
+ w
k
i
; (4.31)
5.10. Calcular a variao dos elementos identidade g
k
de acordo com:
g
=
3
[1 g
] (1 )
4
g
, (4.32)
onde 0 <
3
<<
4
< 1 so taxas de aprendizado para os elementos identidade;
5.11. Atualizar os valores dos elementos identidade de acordo com a regra:
g
k+1
= g
k
+ g
k
; (4.33)
5.12. Aplica-se a funo dada em (4.21) para obter a interpretabilidade;
6. Repetir os passos 5.1 - 5.12 at que uma tolerncia de erro ou um nmero mximo de iteraes
seja atingido.
Treinamento da Rede Neural Nebulosa baseada em nullneurons
O algoritmo para o treinamento de redes onde nullneurons so utilizados para implementar a
segunda camada de neurnios nebulosos muito similar quele apresentado para redes com unineu-
rons, sendo que para obter-se este novo algoritmo necessrio apenas substituir a equao (4.23) pela
seguinte expresso:
z
= null(a
, w
; u
) =
n
N
i=1
_
N(a
i
, w
i
; (1 u
)); u
_
; (4.34)
Alm dos dois algoritmos apresentados, possvel ainda propor um outro processo de treinamento
para redes neurais nebulosas compostas por nullneurons, onde aproveita-se da caracterstica de con-
tinuidade do nullneuron, conforme discutido anteriormente, para se propor um novo procedimento
baseado inteiramente no mtodo do gradiente descendente.
Neste novo procedimento, a variao dos pesos relacionados segunda camada da rede passa
ento a ser calculada com base no gradiente, da seguinte forma:
82 Generalizao de Neurnios Nebulosos
w
i
=
w
i
[null(a
, w
; u
)]
m
j=1
v
j
(y
j
y
j
)f
(
j
) a
i
(4.35)
onde [null(a
, w
; u
)]/ w
i
a derivada parcial da funo null(a
, w
; u
w
i
[null(a
, w
; u
)] = (1 2u
)
4
c=1
N
u
(a
c
)
n
=1
=c
_
1
N
u
(
c
)
_
(4.36)
onde
c
=
C
u
(
C
u
(a
c
)
C
u
(w
c
)).
Alm da variao dos pesos w
i
, a variao dos elementos de absoro u
tambm calculada
com base no mtodo do gradiente. Assim, de forma similar ao apresentado para os pesos, a variao
dos elementos de absoro calculada da seguinte forma:
u
=
u
[null(a
, w
; u
)]
m
j=1
v
j
(y
j
y
j
)f
(
j
) (4.37)
Uma vez que se utilizou a equao 4.22 para se manter a interpretabilidade do modelo, o operador
de compromisso dado em (2.5) toma a seguinte forma:
C
fz(u
)
(a) = (1 f
z
(u
))C(a) + f
z
(u
)a (4.38)
e a equao (4.36) pode ser re-escrita como
w
i
[null(a
, w
; u
)] = (1 2f
z
(u
))
4
c=1
C
fz(u
)
(a
c
)
n
=1
=c
_
1
C
fz(u
)
(
)
_
.
(4.39)
Desta forma, a derivada [null(a
, w
; u
)]/ u
k
pode ser calculada da seguinte forma:
4.6 Resumo 83
[null(a
, w
; u
)] = (1 2f
z
(u
))
u
f
z
(u
)
_
n
c=1
_
u
h(a
c
, w
c
, f
z
(u
))
=1
=c
(h(a
, w
, f
z
(u
))
+
u
f
z
(u
)
_
1 2
n
c=1
h(a
c
, w
c
, f
z
(u
))
_
(4.40)
onde
h(a
c
, w
c
, f
z
(u
)) = 1
C
fz(u
)
(q(a
c
, w
c
, f
z
(u
))) (4.41)
q(a
c
, w
c
, f
z
(u
)) =
C
fz(u
)
((a
c
, w
c
, f
z
(u
))) (4.42)
(a
c
, w
c
, f
z
(u
)) =
C
fz(u
)
(a
c
)
C
fz(u
)
(w
c
) (4.43)
e as derivadas das equaes (4.41)-(4.43) podem ser facilmente obtidas.
Note mais uma vez que, em todos os procedimentos apresentados, o ajuste dos parmetros de
plasticidade feito individualmente, permitindo assim que o modelo obtido no nal do processo de
treinamento seja mais geral do que se a rede neural nebulosa que o implementa fosse composta apenas
por neurnios do tipo AND ou OR.
Para vericar esta armao, as redes e procedimentos propostos neste captulo foram empre-
gadas na modelagem de sistemas dinmicos no-lineares, sendo que os resultados obtidos foram
comparados com os diversos tipos de modelos baseados em inteligncia computacional propostos na
literatura. Estes resultados so apresentados no prximo captulo.
4.6 Resumo
Neste captulo, introduziram-se duas novas classes de neurnios nebulosos baseadas nos conceitos
de uninormas e nullnormas. Estes neurnios, chamados respectivamente de unineurons e nullneu-
rons, apresentam uma importante caracterstica dos neurnios biolgicos, chamada de plasticidade
neuronal, atravs da qual um neurnio capaz de alterar seus mecanismos internos de processamento
dependendo da situao ou da necessidade de aprendizagem em que este se encontre.
Esta caracterstica, associada a um algoritmo de treinamento que ajusta individualmente a forma
com que cada neurnio processa os sinais de entrada e pesos de conexo, faz com que uma rede neural
nebulosa composta por estes novos tipos de neurnios se adapte melhor a um conjunto de dados de
84 Generalizao de Neurnios Nebulosos
treinamento, se tornando, assim, mais geral do que as alternativas propostas na literatura.
Alm disso, se algumas restries forem impostas durante o treinamento o modelo nal obtido,
alm de apresentar um alto grau de interpretabilidade, pode representar um sistema de inferncia
nebuloso que emprega mais de um conectivo lgico no antecedente das regras nebulosas, sendo que
o tipo de conectivo decidido pelo processo de treinamento.
Captulo 5
Resultados Experimentais e Aplicaes
5.1 Introduo
Este captulo apresenta resultados de simulaes e aplicaes a problemas de modelagem de sis-
temas dinmicos no-lineares. Coma nalidade de mostrar a abrangncia de aplicao dos algoritmos
propostos neste trabalho, foram abordadas duas classes de problemas, predio de sries temporais e
identicao de sistemas.
Para a primeira destas classes, considerou-se previso de carga de curto prazo, onde o objetivo
prever, com base em dados histricos, o consumo de energia eltrica para a prxima hora de operao
em uma determinada regio durante um perodo de 24 horas.
A segunda classe considera dois problemas. O primeiro deles o problema clssico do forno a
gs de Box & Jenkins (Box & Jenkins, 1994), onde, a partir de dados relativos ao uxo de metano
utilizado no forno, deseja-se estimar a concentrao de CO
2
na sada do forno. O segundo problema
consiste na modelagem do comportamento trmico de transformadores de potncia, sendo que, a
partir de dados relativos ao carregamento eltrico (em termos da corrente de carga) e da temperatura
externa, pretende-se inferir as temperaturas internas do equipamento.
Os algoritmos desenvolvidos neste trabalho foram empregados para construir os modelos de pre-
viso e do comportamento trmico de transformadores. Em particular, cinco modelos foram desen-
volvidos a partir dos algoritmos propostos neste trabalho, conforme descrito a seguir:
1. Rede neural nebulosa composta por neurnios AND na segunda camada da rede e treinada com
o aprendizado participativo (AND-AP);
2. Rede Neural Nebulosa composta por neurnios OR na segunda camada da rede e treinada acom
o aprendizado participativo (OR-AP);
85
86 Resultados Experimentais e Aplicaes
3. Rede Neural Nebulosa composta por unineurons na segunda camada da rede e treinada com o
algoritmo baseado no reforo associativo (UNI-R);
4. Rede Neural Nebulosa composta por nullneurons na segunda camada da rede e treinada com o
algoritmo baseado no reforo associativo (NULL-R);
5. Rede Neural Nebulosa composta por nullneurons na segunda camada da rede e treinada com o
mtodo do gradiente (NULL-G);
Para avaliar os cinco modelos desenvolvidos, estabeleceram-se as quatro mtricas de desempenho
que, geralmente, so empregadas na literatura para este tipo de avaliao. Estas mtricas so o Erro
Quadrtico Mdio (MSE
1
), a Raiz Quadrada do EQM (RMSE
2
), o ndice de Erro No-Dimensional
(NDEI
3
) e o erro percentual mdio (MAPE
4
). Estas mtricas so calculadas atravs das seguintes
expresses:
MSE =
1
P
P
k=1
(y
k
y
k
)
2
(5.1)
RMSE =
_
1
P
P
k=1
(y
k
y
k
)
2
(5.2)
NDEI =
RMSE
std(y
k
)
, k = 1, . . . , P (5.3)
MAPE =
1
P
P
k=1
[y
k
y
k
[
100
y
k
(5.4)
onde y
k
e y
k
so respectivamente a sada desejada e a sada obtida pela rede para a k-sima entrada,
std(y
k
) o desvio padro para os valores y
k
e P o nmero total de pares de treinamento considera-
dos.
Em todos os casos foram, feitas diversas realizaes de cada um dos modelos implementados,
incluindo os modelos de comparao MLP e ANFIS. Assim, os procedimentos de inicializao,
treinamento e teste foram executados dez vezes para cada um dos modelos em cada um dos problemas
apresentados, a m de se reduzir o efeito da aleatoriedade da inicializao. Os resultados obtidos por
1
do ingls Mean Square Error
2
do ingls Root Mean Square Error
3
do ingls Non-dimentional Error Index
4
do ingls Mean Average Percentage Error
5.2 Predio de Sries Temporais 87
este modelos com base nas mtricas estabelecidas acima para as melhores realizaes de cada modelo
so apresentados nas sees a seguir.
5.2 Predio de Sries Temporais
H, atualmente, uma vasta literatura que mostra a relevncia da previso de sries temporais
em diversos contextos, com exemplos que abrangem desde aplicaes em medicina, medindo as
irregularidade das batidas do corao; passam pelas pesquisas em hidrologia, prevendo variveis
de recursos hdricos; e chegam at as aplicaes em economia, observando o comportamento da
volatilidade do mercado nanceiro (Ballini et al., 2000). A predio de sries temporais permite que
valores futuros de uma varivel sejam previstos tomando-se por base apenas seus valores presentes e
passados.
Para vericar a eccia dos modelos propostos para esta classe de problemas, estes foram em-
pregados na previso de carga de curto prazo, que constitui um dos mais importantes problemas no
contexto do planejamento energtico brasileiro. Os resultados obtidos so apresentados a seguir.
5.2.1 Previso de Carga de Curto Prazo
Na operao de um sistema de energia eltrica, uma etapa importante a determinao da pro-
gramao da operao diria, a qual determina um plano de produo de energia eltrica para o(s)
prximos(s) dia(s) para cada uma das unidades geradoras do sistema, geralmente em base horria.
Esta operao feita a partir de previses de como ser o comportamento da consumo do sistema,
analisando-se umconjunto de dados que contmo histrico deste comportamento emumdeterminado
perodo de tempo.
Especicamente, no contexto do planejamento da operao de curto prazo de sistemas de energia
eltrica, a previso da carga importante na elaborao do programa de operao diria, em anlises
de segurana e estabilidade, pois erros na previso da carga podem ter conseqncias srias emtermos
da ecincia e segurana do sistema, como aumento de custos e no atendimento da demanda. Assim,
uma previso de boa qualidade essencial, pois melhora o atendimento da demanda, aumentando a
ecincia e a conabilidade do sistema (Gross & Galiana, 1987).
Diversos trabalhos na literatura sugerem que redes neurais nebulosas so alternativas promissoras
para obter modelos preditivos de curto prazo para previso de carga em sistemas eltricos de potncia
(Ling et al., 2003; Chauhan et al., 2005). Neste contexto, os algoritmos propostos neste trabalho foram
empregados a este problema e os resultados dos modelos so comparados entre si e com abordagens
alternativas sugeridas na literatura.
88 Resultados Experimentais e Aplicaes
Para realizar o treinamento de todos os modelos implementados, utilizou-se uma base de dados
composta por medies horrias do consumo de energia em uma regio residencial da cidade de So
Paulo, fornecida pela empresa Eletropaulo Metropolitana Eletricidade de So Paulo S.A., no perodo
compreendido entre abril de 2000 a abril de 2001. A Figura 5.1 ilustra um perodo da base de dados
de treinamento compreendido entre os dias 13/04/2001 e 19/04/2001.
20 40 60 80 100 120 140 160
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
Tempo (horas)
C
o
n
s
u
m
o
(
G
W
h
)
Figura 5.1: Curva de carga para o perodo de 13 a 19 de abril de 2001.
J a base de dados utilizada nos testes foi composta por medies horrias feitas para o dia 16 de
maio de 2001. A Figura 5.2 apresenta a curva de carga para a semana compreendida entre os dias 13
e 19 de maio de 2001, na qual esto inseridas as 24 horas que se deseja prever (16/05/2001).
Utilizando-se funes de auto-correlao parciais Ballini et al. (2000), foram adotadas duas var-
iveis de entrada para todos os modelos testados, sendo elas o valor da carga C com um e dois passos
atrs (uma e duas horas anteriores), ou seja, x = [q
1
C, q
2
C], onde q
s
o operador de atraso em
s passos. O valor da carga no instante atual C foi tomado como sendo a sada desejada de todas os
modelos implementados. Os dados de entrada e sada foram normalizados no intervalo [0,1].
Alm dos modelos de redes neurais nebulosas propostos neste trabalho, foram implementados
modelos de redes neurais propostos na literatura. A nalidade comparar os resultados aqui obti-
dos com abordagens alternativas que j se mostraram, em termos de performance de erro e custos
computacionais, superiores maioria dos modelos clssicos empregados para o mesmo m. Entre
os modelos propostos na literatura considerou-se uma rede Perceptron de mltiplas camadas (MLP)
(Haykin, 1998), um sistema de inferncia nebuloso neuro-adaptativo (ANFIS) (Jang, 1993) e duas
5.2 Predio de Sries Temporais 89
0 20 40 60 73 80 96 120 140 160
2.5
3.0
3.5
4.0
4.5
5.0
5.5
6.0
6.5
7.0
7.5
16/05/2001
Tempo (horas)
C
o
n
s
u
m
o
(
G
W
h
)
Figura 5.2: Curva de carga para o perodo de 13 a 19 de maio de 2001.
verses da rede neural nebulosa apresentada na seo 3.3, sendo que a primeira delas implementada
utlizando-se apenas neurnios AND na segunda camada da rede (NN-AND) e a segunda verso
implementada utilizando-se apenas neurnios OR nesta camada (NN-OR) (Hell et al., 2007a, 2008a).
Ambas as verses so treinadas atravs de uma regra de reforo associativo.
A previso feita aqui do tipo um passo a frente, na qual o valor estimado pelo modelo no instante
anterior no utilizado na previso do instante seguinte. A Tabela 5.1 apresenta a estrutura de cada
um dos modelos empregados ao problema de previso de carga, bem como o tipo de treinamento
utilizado com cada um deles.
Note que o modelo MLP o nico que tem uma estrutura diferenciada. Isto se deve ao fato
deste modelo tambm ser o nico a possuir uma estrutura totalmente conectada, o que faz com que,
mesmo com um nmero menor de neurnios por camada, este apresente o mesmo nmero de pesos de
conexo que os dos demais modelos. J o modelo ANFIS foi implementado com 64 regras nebulosas,
o que tambmfornece o mesmo nmero de parmetros a seremajustados, se comparado comos outros
modelos.
Com a nalidade de avaliar as caractersticas de todos os modelos, dois casos de previso so con-
siderados nesta seo. No primeiro caso (Caso 1), os dados utilizados durante a fase de treinamento
no contm nenhum dia especial presente nos pers de carga. Isto quer dizer que, em todo o perodo
no qual foram coletadas as informaes presentes na base de dados de treinamento (01/04/2000 a
01/04/2001), no ocorreu nenhum tipo de evento especial que pudesse modicar a caracterstica
90 Resultados Experimentais e Aplicaes
Tabela 5.1: Parmetros Estruturais dos Modelos Implementados - Previso de Carga
Modelo N
o
d
e
C
O
2
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(b)
Sada Desejada
Sada ANFIS
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(c)
Sada Desejada
Sada NN-AND
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(d)
Sada Desejada
Sada NN-OR
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(e)
Sada Desejada
Sada AND-AP
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
Figura 5.8: Resultados obtidos para o forno a gs de Box e Jenkins: (a) MLP, (b) ANFIS, (c) NN-
AND, (d) NN-OR, (e) AND-AP
100 Resultados Experimentais e Aplicaes
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(f)
Sada Desejada
Sada OR-AP
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(g)
Sada Desejada
Sada UNI-R
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(h)
Sada Desejada
Sada NULL-R
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
0 10 20 30 40 70 80 90
45
50
50
55
60
60
65
(i)
Sada Desejada
Sada NULL-G
Amostras
C
o
n
c
e
n
t
r
a
o
d
e
C
O
2
Figura 5.9: Resultados obtidos para o forno a gs de Box e Jenkins: (f) OR-AP, (g) UNI-R, (h)
NULL-R, (i) NULL-G
5.3 Aplicaes a Problemas de Identicao de Sistemas 101
estratgica pode ter um grande impacto na segurana, na conabilidade e no custo do fornecimento
de energia.
Um dos principais fatores na operao dos transformadores de potncia a temperatura de tra-
balho, mais especicamente a temperatura do ponto mais quente, ou temperatura de hot-spot, no topo
ou no centro dos enrolamentos de alta ou baixa tenso. Esta temperatura tem uma importante inun-
cia no envelhecimento do isolamento e, conseqentemente, na vida til do equipamento (Hell et al.,
2007c).
O valor desta temperatura pode ser calculado utilizando modelos derivados das equaes de trans-
ferncia de calor e caractersticas trmicas especcas do transformador. Um dos principais modelos
o seguinte (Swift, 2001):
TO
d
TO
dt
= [
TO,U
+
A
]
TO
H
d
H
dt
=
H,U
H
TO,U
=
TO,R
_
K
2
R+1
R+1
_
n
H,U
=
H,R
K
2m
H
=
TO
+
H
(5.6)
onde
TO
a constante de tempo da temperatura de topo de leo,
TO
a temperatura de topo de leo,
TO,U
a elevao mxima da temperatura de topo de leo,
A
a temperatura ambiente,
H
a
constante de tempo da temperatura de hot-spot,
H
a elevao da temperatura de hot-spot acima
da temperatura de topo de leo,
H,U
a elevao mxima da temperatura de hot-spot,
TO,R
a elevao nominal da temperatura de topo de leo acima da temperatura ambiente, K a corrente
de carga, R a razo entre perda de carga em relao a carga nominal e carga no perdida para
uma determinada posio de tap,
H,R
a elevao nominal da temperatura de hot-spot acima da
temperatura de topo de leo,
H
a temperatura de hot-spot no enrolamento e m e n so constantes
obtidas empiricamente que dependem do mtodo de refrigerao do equipamento.
A execuo destes clculos no apenas uma tarefa de grande complexidade, como tambm leva a
estimaes conservativas baseadas em algumas suposies das condies de operao. Neste clculo
so adotados fatores de segurana extremamente conservadores, visando proteger o equipamento,
fazendo com que a transferncia mxima de potncia seja de 20 a 30% menor que a sua capacidade
nominal, com a nalidade de se aumentar a sua vida til e reduzir os riscos durante a operao (Galdi
et al., 2000).
Neste sentido, a obteno de modelos mais precisos para simular o comportamento trmico destes
importantes equipamentos pode trazer grandes vantagens, tanto para a reduo de custos de operao,
quanto para o aumento da conabilidade do sistema. Assim, as redes neurais nebulosas propostas
102 Resultados Experimentais e Aplicaes
Tabela 5.6: Principais Caractersticas do Transformador a ser Modelado
Potncia Nominal 25 kVA
Vprimria / Vsecundria 10 kV / 380 V
Perdas no Ferro 195 W
Perdas no Cobre 776 W
Temp. de Topo de leo a Plena Carga 73.1 C
Comprimento x Largura x Profun- 64 x 16 x 80 cm
didade do tanque
Tipo de Refrigerao ONAN
Fabricante / ano MACE/87
neste trabalho foram empregadas com o intuito de modelar o comportamento da temperatura de hot-
spot
H
.
Diferentes estudos (Galdi et al., 2000; Villaci et al., 2005) e testes experimentais de tentativa e erro
indicamque as entradas mais relevantes para os modelos so a corrente de carga (K), a temperatura de
topo de leo (
TO
) e a corrente de carga atrasada em um passo (K q
1
). Esta escolha tem mostrado
uma reduo da sensibilidade dos modelos com relao a utuaes nos parmetros trmicos, que
podem variar consideravelmente de um transformador para outro.
Os dados utilizados em nossos experimentos so os mesmos reportados em (Galdi et al., 2000).
Estes dados foram coletados a partir de medies realizadas em um transformador experimental de
potncia, com enrolamentos em disco. As medies de temperatura utilizam sensores de bra tica
inseridos nos espaadores localizados entre os discos dos enrolamentos de alta e de baixa tenso bem
como no topo do tanque onde estes enrolamentos esto imersos. O sistema de aquisio de dados
coleta os valores de todos os sensores em intervalos de 5 minutos. Maiores informaes a respeito
da forma de aquisio dos dados podem ser encontradas em (Villaci et al., 2005). As principais
caractersticas do transformador utilizado neste trabalho so apresentadas na Tabela 5.6.
Da mesma forma que feito anteriormente, os sistemas so inicialmente treinados para um con-
junto de dados onde nenhum tipo de anomalia afeta os dados amostrados (Caso 1), isto , onde no
ocorrem erros de medio durante a aquisio de dados. Estes dados descrevem o comportamento da
temperatura de hot-spot do equipamento para um carregamento de 24 horas, com amostras registradas
a cada 5 minutos, como mostrado na Figura 5.10.
Aps o treinamento, os modelos neurais nebulosos so utilizados para estimar a temperatura de
hot-spot para dois conjuntos de dados (dados de teste), descrevendo duas situaes diferentes de
carregamento a que o transformador est sujeito durante operao normal. Na primeira situao
(DT1), as condies de carga no ultrapassam os valores nominais do transformador, ou seja, uma
condio sem sobrecargas. Na segunda situao (DT2), uma sobrecarga de 30% do valor nominal
5.3 Aplicaes a Problemas de Identicao de Sistemas 103
0 4 8 12 16 20 24
0.2
0.4
0.6
0.8
1.0
1.2
1.4
Corrente de Carga K
Temp. de Topo de leo
TO
Temp. de Hot-Spot
H
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
(
p
.
u
.
)
,
C
o
r
r
e
n
t
e
(
p
.
u
.
)
Figura 5.10: Dados de treinamento - Caso 1.
observada durante um perodo de 4 horas. Os resultados para este caso (Caso 1) em ambas as
situaes de carregamento, so apresentados na Tabela 5.7. O resultado do modelo analtico descrito
por (5.6) tambm includo para comparao.
Tabela 5.7: Resultados da Modelagem da Transformadores - Caso 1
Modelo N
H
Desejada
H
- Analtico
H
- Predito
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(a)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(b)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(c)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(d)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(e)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
caption Resultados da modelagem trmica de transformadores de potncia (Dados de Teste 1 - DT1):
(a) MLP, (b) ANFIS, (c) NN-AND, (d) NN-OR, (e) AND-AP, (f) OR-AP
5.3 Aplicaes a Problemas de Identicao de Sistemas 105
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(f)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(g)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(h)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
30
35
40
45
50
55
60
65
(i)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
Figura 5.11: Resultados da modelagem trmica de transformadores de potncia (Dados de Teste 1 -
DT1): (f) OR-AP, (g) UNI-R, (h) NULL-R, (i) NULL-G
106 Resultados Experimentais e Aplicaes
H
Desejada
H
- Analtico
H
- Predito
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(a)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(b)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(c)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(d)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(e)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
Figura 5.12: Resultados da modelagem trmica de transformadores de potncia (Dados de Teste 2 -
DT2): (a) MLP, (b) ANFIS, (c) NN-AND, (d) NN-OR, (e) AND-AP
5.3 Aplicaes a Problemas de Identicao de Sistemas 107
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(f)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(g)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(h)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
0 4 8 12 16 20 24
35
40
45
50
55
60
65
70
75
80
85
90
95
100
(i)
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
C
Figura 5.13: Resultados da modelagem trmica de transformadores de potncia (Dados de Teste 2 -
DT2): (f) OR-AP, (g) UNI-R, (h) NULL-R, (i) NULL-G
108 Resultados Experimentais e Aplicaes
tica que coletam as temperaturas internas do transformador. A partir desta premissa foram gerados
os dados mostrados na Figura 5.14.
0 4 8 12 16 20 24
0.2
0.4
0.6
0.8
1.0
1.2
1.4
Corrente de Carga K
Temp. de Topo de leo
TO
Temp. de Hot-Spot
H
Tempo (horas)
T
e
m
p
e
r
a
t
u
r
a
(
p
.
u
.
)
,
C
o
r
r
e
n
t
e
(
p
.
u
.
)
Figura 5.14: Dados de treinamento - Caso 2.
Os modelos MLP, ANFIS, NN-AND, NN-OR, AND-AP, OR-AP, UNI-R, NULL-R e NULL-
G so ento treinados com essa nova base de dados e posteriormente aplicados para estimar a temper-
atura de hot-spot para as mesmas duas situaes de carregamento (nominal e de sobrecarga) discutidas
anteriormente. Os resultados so apresentados na Tabela 5.8.
Tabela 5.8: Resultados da Modelagem de Transformadores - Caso 2
Modelo N