Академический Документы
Профессиональный Документы
Культура Документы
Aldous Huxley
As redes de função de base radial vêm sendo seriamente consideradas como uma
alternativa de modelo não linear para problemas de regressão e classificação de padrões.
Grande parte desse interesse é proveniente do fato de essa arquitetura contar com um
forte embasamento estatístico, podendo ser considerada como um aproximador universal.
Além disso, a estrutura das redes de função de base radial permite que a configuração
de suas camadas seja desacoplada em duas fases, o que lhe confere um desempenho na
aprendizagem sensivelmente superior ao de outras arquiteturas conhecidas atualmente.
Finalmente, a natureza desse tipo de rede permite uma interpretação de suas unidades
ocultas que lhe atribui um papel fundamental como uma intrigante metáfora para o sistema
neuronal biológico.
Esse trabalho trata dos principais aspectos referentes às redes de função de base radial.
Partindo de uma nova interpretação para a idéia de aprendizagem (seção1), discute-se nas
seções 2, 3 e 4 conceitos fundamentais para o estudo dessa arquitetura de rede, que é
efetivamente apresentada na seção 5. Grande parte do trabalho é dedicada à descrição
de diferentes possibilidades de treinamento das redes de função de base radial (seção 7).
Algumas aplicações desse modelo de rede são apresentadas na seção 8, com três exem-
plos interessantes descritos em detalhes. Finalmente, a seção 9 discute a plausibilidade e
possíveis implicações biológicas desse tipo de rede neural.
tores da experiência, por exemplo, foram configurados de tal forma a mapear um padrão
específico de atividade neuronal em uma saída contínua que ativava a alavanca.
Mas se o mapeamento havia sido corretamente absorvido, por que nos primeiros mo-
mentos os sinais emitidos pelos neurônios do rato não ativaram a alavanca? Porque,
embora muitíssimo parecidos, os padrões emitidos pelo cérebro do pequeno animal a
cada vez que ele empurrava a barra não eram idênticos. A posição do rato em relação à
alavanca ou a força exercida pelos seus músculos, por exemplo, poderiam distorcer mi-
nimamente os sinais. Isso significa que um conhecimento limitado armazenado na forma
de uma tabela de consultai pode não ser muito útil.
O mundo em que vivemos é —considerando o nível de abstração adequado— re-
dundante [56, 57]. Isso significa que existem padrões que se repetem no tempo e que
apresentam alguma coerência no espaço. Se não fosse dessa forma, seria impossível ex-
traírmos qualquer conhecimento da experiência. Como exemplo, Poggio e Girosi citam
em [56] o caso de um catálogo telefônico: pode-se decorar uma quantidade infinitamente
grande de números de telefones, que isso em nada ajudaria na estimativa do telefone de
uma pessoa que não constasse na lista.
Felizmente, os eventos não são totalmente locais: padrões parecidos tendem a gerar
respostas parecidas. De certa forma, pode-se dizer que é possível extrair um mapeamento
suave que descreva porções da realidade. Esse é na verdade o verdadeiro objetivo da
aprendizagem: como os padrões raramente se repetem de forma idêntica, ao invés de
armazenar um número limitado desses, deve-se desenvolver um mapeamento tal que seja
possível inferir o valor de padrões nunca vistos. Isso é o que costuma-se chamar de
generalização.
Talvez seja por isso que o rato da experiência de Nicolelis e Chapine não tenha conse-
guido mover a alavanca em um primeiro momento. Como o mapeamento do seu padrão
neuronal em um movimento estava sendo feito de maneira artificial (através dos resisto-
res), pode-se supor que não existia flexibilidade suficiente para a detecção de movimentos
muito diferentes dos originais. No início, como o objetivo era empurrar o bastão e não
repetir o padrão mental, ele pode ter tentado fazê-lo de uma maneira nova. Depois de
algum tempo ele “percebeu” que a maneira como ele a empurrava, mesmo não sendo uma
cópia perfeita de nenhuma das anteriores, era fundamental para o sucesso da operação.
Evidentemente, essas são apenas suposições. O objetivo aqui não é discutir a fundo a
experiência com o rato, mas usá-la como forma de ilustração do assunto em questão 1 .
Talvez esse ponto da discussão seja adequado para se relacionar algumas idéias apre-
sentadas com conceitos matemáticos. Até agora, o termo “mapeamento” foi utilizado para
descrever as associações envolvidas no processo de aprendizagem. Matematicamente, a
idéia de mapeamento pode ser modelada através do conceito de função. Voltando à expe-
riência, a relação entre o estado de ativação dos 46 neurônios e a saída analógica poderia
i
Lookup-table (ao longo do trabalho, os termos cujos correspondentes em inglês mereçam ser apresen-
tados serão destacados com o símbolo “i”, diferenciando a tradução das notas de rodapé convencionais. As
siglas serão sempre derivadas dos nomes em inglês, a fim de manter a homogeneidade com a terminologia
comumente utilizada na literatura).
1
Para uma discussão mais detalhada e o relato de outras experiências do mesmo tipo, aconselha-se a
consulta do trabalho [49] e das referências nele contidas.
(1)
onde os valores de representariam os movimentos do braço do animal, dos quais um
valor específico ativaria a alavanca para liberar a água.
Pode-se considerar a função como sendo uma hipersuperfície [9, 29]. A
superfície é um gráfico multidimensional da saída em função das entradas. Essa super-
fície foi construída a partir de alguns pontos de exemplo (obtidos enquanto os cientistas
gravavam os níveis de ativação neuronal do rato). A motivação dessa postura é a idéia
de que existe uma hipersuperfície, provavelmente suave, que descreve o fenômeno real
perfeitamente. Os padrões de exemplo são pontos —possivelmente contaminados com
ruído— que pertencem a . Dessa forma, “a aprendizagem é vista como um problema de
reconstrução de uma hipersuperfície, dado um conjunto de pontos que podem ser espar-
sos” [29]. Essa é a idéia fundamental por trás das redes de função de base radial, e será
detalhada na próxima seção.
2 A teoria da regularização
Para discutir o assunto dessa seção, deixemos o rato na gaiola por algum tempo para
que um outro exemplo possa ser apresentado. Suponha uma situação tão simples quanto
inusitada: pretende-se criar um modelo que preveja a distância percorrida por um corpo
em queda livre em função do tempo de queda. Embora essa questão possa parecer inve-
rossímil, ela constitui um dos principais assuntos estudados pelos sábios da Antigüidade
e, mais tarde, pelo notável Galileo Galilei [41]. Sabe-se que —desprezando a resistên-
cia do ar— a posição de um corpo em queda livre em função do tempo é dada pela
seguinte expressão:
500
450
400
350
300
s (metros)
250
200
150
100
50
0
0 2 4 6 8 10
t (segundos)
aproxime a função original geradora dos pontos2 .
Em primeiro lugar, pode-se observar que trata-se de um problema inverso. Além disso,
sob uma perspectiva matemática, pode-se dizer que o problema é mal-formulado. Isso
porque os dados disponíveis não são suficientes para que o mapeamento seja reconstruído
de maneira única [56]. Outras características que impõe ao problema essa classificação
são o fato de não existir necessariamente uma saída distinta para cada entrada e essas
últimas poderem estar —e provavelmente estarão— contaminadas com ruído [29].
Para lidar com problemas mal-formulados, o teórico russo Andre Tikhonov propôs
uma técnica matemática conhecida como regularização [52, 29, 56]. A idéia da regulari-
zação é tentar incorporar alguma informação prévia à solução do problema. No contexto
de reconstrução de hipersuperfícies, supõe-se, em geral, que a função do mapeamento de
entrada-saída seja suave3 . Essa é uma das restrições mais fracas que torna a aproximação
possível. Outras restrições mais fortes podem ser consideradas, como por exemplo: a
função ser linear, estar restrita a um determinado intervalo ou ser invariável em relação
a algum grupo de transformações. Evidentemente, deve-se levar em consideração toda
informação de que se tenha conhecimento a priori.
De qualquer maneira, a informação prévia é incorporada ao problema através de al-
gum funcional não negativo. Basicamente, a teoria de Tikhonov envolve dois termos:
entre o padrão desejado ;
Termo de erro padrão Este termo, representado por
e a resposta obtida
K ; K . ,Omede o erro (ou distância)
termo de erro padrão seria
definido no exemplo dado da seguinte maneira:
2
É importante observar que a função foi escolhida de forma a facilitar aexposição,
e todas as obser-
vações podem ser facilmente estendidas para o caso de mapeamentos do tipo .
3
De acordo com [56], se nenhuma informação sobre uma função de alta dimensionalidade está dispo-
nível, a única opção pode ser assumir um alto grau de suavidade. Caso contrário, o número de exemplos
necessários para reconstruir o mapeamento seria proibitivamente grande.
500
Dados
450
400
350
300
s (metros)
250
200
150
100
50
0
0 2 4 6 8 10
t (segundos)
K >; K >; *
;
(3)
Termo de regularização Este segundo termo, representado por , depende das pro-
K
priedades “geométricas” da função aproximativa . Especificamente, pode-se defini- K
lo como:
K
(4) K *
onde é um operador diferencial linear. A informação prévia sobre a forma da
solução é incorporada nesse operador.
O problema passa a ser, então, encontrar a função que minimiza o chamado funcional K
de Tikhonov:
K K K
K
; >; K >; *
K *
(5)
500 600
Dados Dados
s(t) s(t)
400 500
300 400
200 300
100 200
0 100
-100 0
0 2 4 6 8 10 0 2 4 6 8 10
K ; ; =1%>;
(6)
expansão e os pesos ; são os coeficientes da expansão. Pode-se dizer, então, que a so-
do espaço de funções suaves, e o conjunto de funções de Green =1%%; centradas em ; ,
lução para esse problema de regularização se encontra em um subespaço 10-dimensional
D E 1 )GFIFHF E- formam uma base para esse subespaço. Observando a forma da solução 6,
nota-se uma relação direta com uma importante técnica de aproximação conhecida como
funções de base radial. Esse é o assunto da próxima seção.
As funções de base radiali —ou simplesmente RBF’s— são funções em geral não-
lineares cujo valor cresce ou decresce monotonicamente à medida que a distância a um
ponto central aumenta. A esse ponto costuma-se chamar de centro da função de base
radial.
O uso das RBF’s no contexto de aproximação de funções tem sua origem na teoria
da interpolação multivariada [58, 59]. No seu sentido estrito, o problema de interpolação
pode ser formulado da seguinte maneira:
A técnica das RBF’s consiste em escolher uma função de aproximação K que tem a
seguinte forma:
K
$; =B B
; B B
;
; (8)
BIB F B B representa uma norma (em geral euclidiana) e 8; são as funções de base radial
cujos centros coincidem com os pontos ; dados. A semelhança com a equação 6 é
onde
aparente.
Com os parâmetros das RBF’s definidos, basta determinar os coeficientes . Inse- ;
rindo as condições de interpolação da equação 7 em 8, obtém-se o seguinte conjunto de
4
Para a definição formal de uma função de Green, aconselha-se a leitura de [29] e das referências
pertinentes nele contidas. Vale observar que essa definição não é indispensável para a presente discussão.
i
Radial basis functions
equações lineares:
*
*
..*
..*>*
.. ..
.. *
..*
. . . . . . (9)
*
onde
; $;
, é a chamada matriz de interpolação e e correspondem, respec-
tivamente, ao vetor de pesos lineares e ao vetor de respostas desejadas.
Assumindo que seja não-singular, o vetor de pesos lineares
pode ser obtido da
seguinte forma:
(10)
;*
(11)
;
B B
; B B *
Função multiquadrática
;* (12)
;
onde, em todos os casos, representa o centro da função de base radial e é a sua ;
BIB
; BIB * ;
largura. O parâmetro pode ser interpretado como um fator de escala para a distância
. No caso da função gaussiana, por exemplo, o valor de 8;
; -
descresce mais
rapidamente quando . A definição das larguras tem um forte impacto sobre as ;
características da função de aproximação [24, 10, 53].
A função gaussiana e a multiquadrática inversa são funções locais, ou seja, fornecem
uma resposta significativa apenas na vizinhança do centro . A função multiquadrática,
;
por sua vez, é global, uma vez que o seu valor torna-se ilimitado quando a distância /;
; (E
ao centro tende ao infinito. A figura 4 ilustra essa diferença para o caso unidimensional
com centro na origem e .
As funções locais, especialmente a gaussiana, são mais comumente usadas do que as
que apresentam respostas globais [52]. Uma característica que as torna particularmente
3.5
Multiquadratica inversa
Multiquadratica
Gaussiana
3
2.5
1.5
0.5
0
-3 -2 -1 0 1 2 3
Figura 4: Funções de base radial que são cobertas pelo Teorema de Micchelli
; G) F 3
ções gaussianas centradas nos pontos de exemplo mostrados na figura 2 e com larguras
.
600
500
400
300
200
100
-100
-200
-300
-400
0 2 4 6 8 10
Figura 5: Aproximação de utilizando-se E- funções gaussianas
Como bem observado em [56], é possível estruturar quase todos os esquemas de apro-
ximação como algum tipo de rede que pode ser considerada uma rede neural. As redes
neurais, afinal de contas, podem ser interpretadas como sendo uma notação gráfica para
uma grande classe de algoritmos. Na próxima seção, será apresentada uma arquitetura de
rede que pode ser sugerida como um método de implementação da teoria da regularização
discutida na seção 2.
4 Redes de regularização
Muitos dos conceitos utilizados por teóricos e praticantes de redes neurais parecem ser
uma releitura de conceitos estatísticos [67, 52]. Como, então, explicar a verdadeira explo-
são que ocorreu nessa área, especialmente na década de 80 [29]? A diferença fundamental
é que as redes neurais oferecem um arcabouço gráfico e, possivelmente mais importante
do que isso, uma analogia biológica para esses conceitos. Parece, portanto, justificável
tentar encontrar tais sustentações para a teoria da regularização (seção 2). Nessa seção, é
apresentada uma rede que implementa essa teoria. Na seção 9 sua plausibilidade biológica
é discutida.
A rede de regularização é uma rede neural alimentada adiante i com apenas uma ca-
mada oculta, como mostrado na figura 6. A primeira camada da rede consiste de unidades
de entrada (ou nós-fonte) cujo número é igual à quantidade de variáveis independentes do
problema —em outras palavras, igual à dimensão do vetor de entrada .
G1
w1
x1
G2 w2
w3 n f
x2 G3
wp
xn
Gp
A segunda camada —ou camada oculta— é composta por unidades não-lineares to-
; ; 1 ; 1 FHFHF ;
;
talmente conectadas aos nós de entrada. Existe uma unidade oculta para cada ponto dado
. O ponto corresponde ao centro da i-ésima unidade oculta, e suas
*
coordenadas estão representadas na rede através de suas conexões com os nós de entrada.
Isso significa que a conexão entre a i-ésima unidade oculta e o j-ésimo nó-fonte representa
i
Feedforward neural network
;
a coordenada
. As funções de ativação [29, 17] de cada unidade oculta correspondem
às funções de Green da expansão6, ou seja, a saída da i-ésima unidade oculta é .
1
;
Finalmente, a camada de saída, também totalmente conectada à camada oculta, con-
siste de uma ou mais unidades lineares. Por “linearidade” entenda-se que a resposta da
rede é uma soma linearmente ponderada das ativações das unidades ocultas. Os “pesos”
; da camada de saída são os coeficientes desconhecidos da equação 6.
É interessante observar que a arquitetura da rede de regularização é totalmente defi-
nida pelo problema de aprendizagem (ou aproximação). Além disso, ao contrário do que
acontece com a maioria das arquiteturas de redes atuais, todos os pesos entre a camada de
entrada e a camada oculta são conhecidos. Do ponto de vista da teoria de aproximação,
as redes de regularização apresentam três propriedades altamente desejáveis [56, 26, 29]:
Em [26], Girosi e Poggio mostram que uma rede de regularização pode aproximar
arbitrariamente bem qualquer função multivariada contínua em um domínio com-
pacto, dado um número suficientemente grande de unidades na camada oculta.
A solução computada pela rede de regularização é ótima no sentido que ela mini-
miza um funcional que mede o quanto ela oscila. Isso elimina soluções que inter-
polam perfeitamente os pontos dados mas oscilam excessivamente em regiões onde
não há dados conhecidos (como no exemplo da figura 3(b)).
5 Redes RBF
As redes de função de base radial (ou redes RBF) podem ser interpretadas como sendo
uma aproximação da solução regularizada. Especificamente, a exigência de uma corres-
pondência de um-para-um entre os dados de entrada e os nós da camada oculta é relaxada.
A abordagem se baseia na busca por uma solução sub-ótima que aproxime . A K
solução aproximada tem a seguinte forma:
!
; ;
B D ; (14)
onde : $; E 1
) FIFHF 5 J é um conjunto de 5 funções de base radial linearmente inde-
diferente daquela obtida controlando-se o número de unidades ocultas da rede. Ele afirma, inclusive, que
para alguns casos, quando a solução encontrada é sempre sub-ótima.
+1
w0
q1
w1
q2 w2
x1
w3 3 f
x2 q3
wm
xn
qm
Figura 7: Rede RBF
5
Além do número de funções na camada oculta, essa nova estrutura de rede depende
da determinação de um outro parâmetro que antes estava definido pelo problema: a posi-
ção dos centros das RBF’s. Ao contrário do que acontecia com a rede de regularização,
nas redes RBF os centros das unidades ocultas não são coincidentes com os pontos de
exemplo. Sua definição passa então a ser parte do problema e deve ser feita de maneira tal
que os centros sejam uma amostra representativa da distribuição dos dados conhecidos.
Pode-se, ainda, acrescentar mais um grau de liberdade ao modelo, permitindo que as
larguras das funções de base radial façam parte do processo de aprendizagem. Isso signi-
;
fica que os parâmetros podem ser ajustados às peculiaridades do problema, de maneira
conjunta —em que todas as RBF’s têm a mesma largura— ou de forma independente, em
;
que cada uma tem um valor específico.
Em [56], Poggio e Girosi apresentam a possibilidadde de, ao invés de se utilizar na
equação 14 uma norma euclidiana convencional, utilizar-se uma norma ponderada gené-
rica, cuja forma quadrática é dada por:
B B
; B B *
;
;
(15)
600
400
200
-200
-400
-600
0 2 4 6 8 10
Figura 8: Aproximação de utilizando-se uma rede RBF com unidades ocultas
Terminada a descrição das redes RBF, pode-se dizer que trata-se de uma arquitetura
altamente flexível e poderosa. Resumindo, pode-se enumerar os seguintes parâmetros
ajustáveis em uma rede desse tipo:
5
Número de RBF’s O número de funções de base radial na camada oculta está direta-
mente ligado à complexidade da função computada pela rede, e pode ser inter-
pretado como uma maneira de se controlar o nível de suavidade da aproximação.
Posição dos centros Os centros das funções de base radial são determinados como parte
do processo de aprendizagem, ao invés de estarem restritos à posição dos dados
conhecidos. O número e posição dos centros deve compor um conjunto que seja
representativo da amostra de pontos dada.
;
Largura das RBF’s Os parâmetros também podem ser adaptados, permitindo que a
função aproximativa se adeqüe às peculiaridades do problema, como por exemplo
níveis de suavidade diferentes em regiões distintas.
Pode-se mostrar que a flexibilidade adicionada à rede pela mobilidade dos centros
é suficiente para torná-la um aproximador universal para funções contínuas [26]. Isso
significa que ela pode aproximar arbitrariamente bem qualquer função desse tipo, desde
que possua um número adequado de unidades na camada oculta. Esse teorema é de suma
importância ao fornecer as bases teóricas sobre as quais se fundamentarão as aplicações
reais. Ele não oferece, no entanto, um procedimento prático para a construção de tais
aproximadores. Esse assunto é discutido na seção 7.
6 Reconhecimento de padrões
Como foi visto, toda a teoria sobre redes RBF é fundamentada em conceitos prove-
nientes da teoria de aproximação. No entanto, uma boa parte dos problemas em que as
redes neurais têm sido aplicadas com sucesso pode ser caracterizada como tarefas de re-
conhecimento de padrões. O reconhecimento de padrões pode ser formalmente definido
como sendo o processo pelo qual um ponto (ou padrão) recebido é atribuído a uma classe
dentre um número pré-determinado dessas [29].
Felizmente, o problema de classificação pode ser visto como um caso particular de
um mapeamento real contínuo, do tipo que as redes RBF foram projetadas para reali-
zar [47]. No reconhecimento de padrões, cada ponto é associado a uma classe deter-
minada. Dessa forma, a saída do problema é discreta —tomada dentre um número de
@
. Em um
Pode-se dizer que a rede RBF realiza dois mapeamentos. O primeiro, do espaço de
entrada para o espaço oculto, pode ser representado como
problema de reconhecimento de padrões, o segundo mapeamento é do tipo
,
8
e mapeia as ativações das RBF’s em um vetor contínuo que indica a probabilidade de o
ponto de entrada pertencer a cada categoria considerada.
Não é difícil perceber que a função computada pela camada de saída da rede é linear.
;
Logo, o mapeamento realizado por cada unidade de saída —correspondente às classes
;
— pode ser interpretado como um hiperplano de dimensão 5 E
. Essa superfície separa
;
o espaço de entrada em dois conjuntos: pontos que pertencem à classe e pontos que não
pertencem a essa classe6 .
ou de uma reta em .
O poder de separação de um hiperplano é claramente limitado. Para visualizar essa
observação, basta imaginar o caso de um plano pertencente a
*
Quando um conjunto de pontos representando duas categorias distintas pode ser separado
*
por um hiperplano ele é dito linearmente separável. A figura 9 ilustra dois conjuntos de
pontos pertencentes a , um linearmente separável e outro não.
6
De fato, no caso em que , a superfície de separação é definida pela interseção desse hiperplano
com os demais hiperplanos definidos pelas outras unidades de saída. Esse nível de detalhes não é, no
entanto, necessário para a presente discussão.
para um espaço
A estratégia das redes RBF em problemas de classificação complexos é baseada nesse
, de forma que os padrões se tornem linearmente se-
teorema: a rede realiza a transformação não-linear de um espaço
de dimensionalidade mais alta
paráveis e possam ser classificados pela camada de saída. A figura 10 ilustra uma pos-
sível transformação do espaço
*
da figura 9(b) —onde o conjunto de dados não era
linearmente separável— para , onde a separação pode ser feita através de um plano
separador .
Talvez esse seja um bom momento de se tirar da gaiola o rato da experiência de Ni-
colelis e Chapine para utilizá-lo como metáfora para a presente discussão. Como descrito
na seção 1, um dos primeiros passos da experiência era ensinar o pequeno animal a em-
purrar uma barra quando estivesse com sede. Através desse processo ele deveria criar um
mapeamento interno que associasse o movimento de sua pata dianteira com a recompensa.
A questão que surge nesse caso é: como ensinar-lhe esse mapeamento? Evidente-
mente, pode-se pensar em diferentes estratégias, que vão desde métodos mais ortodoxos
por uma reta em
*
Figura 10: Conjunto de pontos linearmente separável em que não podia ser separado
e hoje condenados —como o choque nos cães de Pavlov— até técnicas de premiação
(quem não se lembra do golfinho Fliper?). Pode-se chamar essa estratégia de aprendiza-
gem, seja ela qual for, de treinamento.
Como já discutido, a aprendizagem pode ser encarada como sendo o problema inverso
de reconstrução de uma hipersuperfície, da qual se conhece apenas alguns pontos. A idéia
é encontrar um mapa —ou função— que aproxime essa superfície tão bem quanto seja
possível. As redes RBF, como aproximadores universais, oferecem um arcabouço para a
função aproximativa. O treinamento de uma rede RBF significa, então, o processo pelo
qual os parâmetros da rede são ajustados de forma que ela possa sintetizar o mapeamento
original.
Já foi mencionado anteriormente que quando se treina uma rede neural o objetivo não
é simplesmente “armazenar” em sua estrutura os dados conhecidos. A idéia é, na verdade,
criar um mapeamento suave que seja capaz de interpolar coerentemente em regiões onde
não existam dados. Independentemente da estratégia de treinamento considerada, é alta-
mente desejável que a rede treinada seja validada, a fim de que se tenha uma estimativa
do seu comportamento quando submetida a dados desconhecidos.
Dessa forma, é comum dividir-se o conjunto de pontos conhecidos em dois sub-
grupos, chamados de conjunto de treinamento e conjunto de teste. Os pontos de trei-
namento são utilizados para se ajustar os parâmetros da rede. O conjunto de teste, por
sua vez, só é visto pelo modelo já treinado —ou seja, não influencia a configuração da
rede—, e serve como um indicador da sua qualidade. Caso haja um excesso de ajuste aos
dados de treinamento, espera-se que o desempenho do modelo nos dados de teste acuse
essa situação.
pela rede. Uma escolha comum é a soma dos erros quadráticos i ou SSE, dada por:
;
; !
; *
(16)
cada par
; 1 ;
Uma outra opção é adotar como função de custo o erro médio cometido pela rede para
. Essa medida constitui o erro quadrático médioi ou simplesmente MSE:
E
;
;
; *
(17)
Quando se adota simplesmente o SSE ou o MSE como função de custo, sua minimi-
zação pode levar a um excesso de ajuste do modelo, que pode, por exemplo, incorporar
ruídos contidos nos dados de treinamento. Para evitar que esse ajuste excessivo ocorra,
pode-se adotar diferentes posturas. Uma delas é supor que o mapeamento original é suave
e incorporar à função um termo para balancear o erro de treinamento com o nível de
suavidade da função aproximativa . Uma opção seria adotar como função de custo o
funcional de Tikhonov, discutido na seção 2:
;
;
; !
; *
* (18)
Uma outra forma de se evitar o excesso de ajuste é adotar alguma medida que for-
neça uma estimativa do erro de generalização, ao invés de simplesmente medir o erro
de treinamento. Uma abordagem bastante utilizada para esse fim é a chamada validação
cruzada [29]. Nela, particiona-se a amostra de treinamento em dois subconjuntos, um
chamado de subconjunto de treinamento e o outro de subconjunto de validação.
Apenas os dados do subconjunto de treinamento são utilizados para configurar os pa-
râmetros da rede. Como os pontos de validação não fazem parte do treinamento, espera-se
que eles forneçam uma estimativa razoável do comportamento da rede quando submetida
a dados não vistos. O treinamento pára quando o erro no conjunto de validação atinge
o seu mínimo. É interessante observar que, embora o MSE ou SSE no conjunto de trei-
namento sejam utilizados durante a aprendizagem, a função de custo que se pretende
minimizar de fato são esses valores sobre o conjunto de validação.
É importante mencionar que, caso se utilize um conjunto de teste, na validação cru-
zada a massa de dados original fica particionada em três conjuntos: subconjunto de trei-
namento, subconjunto de validação e conjunto de teste. Vale fazer uma distinção entre
o conjunto de teste e o subconjunto de validação. Enquanto o primeiro não participa em
nenhum momento do treinamento, o segundo —embora não utilizado diretamente para
se estimar o valor dos parâmetros da rede— fornece uma informação crucial durante o
processo (ou seja, influencia a aprendizagem).
i
Sum squared error
i
Mean square error
;
; *
5 * ;
(19)
& E 5
;
; *
5
;
(20)
É interessante notar que, como o cálculo dos critérios de seleção envolve uma me-
dida da complexidade da rede, só tem sentido adotá-los quando a arquitetura do modelo
também está submetida ao processo de otimização (daí o seu nome). Pode-se, inclusive,
adotá-los com outras funções de custo. Um caso típico seria gerar diferentes arquitetu-
ras de rede, treiná-las segundo a minimização de ou e depois compará-las
considerando ou .
É possível, ainda, se utilizar os critérios de seleção de modelo conjuntamente com a
regularização (como por exemplo em [50]), uma vez que os dois métodos podem promo-
ver diferentes qualidades de suavidade da função aproximativa [25] 7 .
Se o número de funções de base radial, bem como seus centros e larguras, forem man-
tidos fixos durante o processo de treinamento, a rede RBF pode ser vista como um modelo
linear [52]. Desse modo, o treinamento fica reduzido à determinação dos coeficientes da
camada de saída . ;
Pode-se pensar a princípio em se realizar simplesmente uma inversão de matriz. Se a
regularização for adotada, no entanto, torna-se necessário definir uma estratégia para se
estimar um valor razoável para o parâmetro de regularização , a fim de introduzir o nível
adequado de suavidade na função aproximativa.
Orr apresenta em [52] uma maneira de se estimar o parâmetro de regularização .
Como o próprio autor observa, não se trata de uma solução para o problema de otimização,
i
Generalized cross-validation
i
Schwarz’s bayesian criterion
7
No caso de se adotar a regularização, as expressões para o cálculo dos critérios de seleção de modelo
são um pouco diferentes [52].
mas de uma fórmula que permite estimativas sucessivas cada vez melhores através de sua
iteração. A fórmula é derivada de maneira a se tentar minimizar o GCV (seção 7.1).
Partindo de um valor inicial , pode-se utilizá-la para calcular uma nova estimativa e
assim por diante, até a convergência.
Do mesmo autor, o trabalho [53] pode ser considerado como uma extensão do ante-
rior. Partindo do mesmo pressuposto de que a rede é um modelo linear (centros e larguras
das RBF’s fixos), desenvolve-se uma fórmula computacionalmente muito eficiente para
se estimar o parâmetro de regularização global . A grande diferença em relaçao à abor-
dagem anterior é que essa nova fórmula não exige uma inversão de matriz, como era o
caso. Isso permite, por exemplo, que vários valores iniciais possam ser tentados com
um custo computacional razoável. O autor vai ainda mais longe: com os centros fixos,
ele tenta diferentes valores para a largura das RBF’s —que no caso é a mesma para
todas as funções—, executando o processo de otimização de para cada uma. De acordo
com Orr [53], se uma quantidade razoável de larguras for tentada (dentro de uma faixa de
valores sensata), pode-e encontrar o mínimo global para o GCV em relação à .
Finalmente, Orr apresenta em [51] uma maneira de se otimizar uma rede RBF com
regularização local, em que cada coeficiente ;
da camada de saída está associado com
;
um parâmetro de regularização . De uma maneira similar aos outros trabalhos, o autor
;
apresenta uma fórmula para se estimar cada parâmetro local com o objetivo de minimi-
zar o GCV. No entanto, como nesse caso a otimização simultânea de todos os parâmetros
não é possível, é sugerida uma abordagem iterativa em que um
específico é otimizado
enquanto os demais são mantidos fixos. Orr afirma que essa técnica tende a gerar modelos
sensivelmente superiores àqueles gerados por métodos com regularização global, a não
ser que a função-alvo a ser aproximada apresente uma suavidade uniforme em todo o seu
domínio.
Quando os centros e as larguras das funções de base radial da camada oculta não são
fixados, a configuração dos parâmetros de uma rede RBF pode ser vista como sendo um
problema de otimização não-linear. Nada mais natural do que se considerar um método
que trate desse tipo de problema, como por exemplo um procedimento de descida pelo
gradiente [60]. Nesse caso, o primeiro passo seria definir a função de custo. A seção 7.1
apresenta várias alternativas para essa escolha.
A estratégia se baseia em ajustes sucessivos nos parâmetros da rede, aplicados no
sentido da descida mais íngreme, ou, em outras palavras, na direção em que a função de
custo descresce mais. Sabe-se que essa direção é a mesma do vetor gradiente, mas no
sentido oposto [29]. O próximo passo seria, então, definir os termos de atualização. Para
um parâmetro genérico , pode-se fazer 8 :
(21)
8
Ghosh e Nag apresentam em [24] os termos de atualização explícitos para o caso da função gaussiana.
E (22)
Essa estratégia é a base para o algoritmo do mínimo quadrado médio i —ou LMS [29]—
adotado em perceptrons de uma única camada, cuja generalização resultou no conhecido
algoritmo de retropropagação do erro para os perceptrons de múltiplas camadas.
Uma possibilidade que se abre nesse tipo de treinamento é a adoção da validação
cruzada (seção 7.1). Nesse caso, a atualização dos parâmetros seria feita com o conjunto
de treinamento, e o processo seria interrompido no momento em que o SSE ou MSE
do conjunto de validação começasse a crescer. Essa abordagem é muito adotada por
praticantes de redes neurais e é conhecida como parada antecipada i [66].
Como o procedimento depende diretamente da diferenciação da função de custo , e o
valor dessa função depende por sua vez dos valores-alvo , pode-se dizer que esse tipo de
;
aprendizagem depende intrinsecamente da apresentação de uma resposta desejada. É pos-
sível fazer uma analogia com a situação em que um professor que conhece a resposta cor-
reta supervisiona a aprendizagem do aluno, informando-lhe, inclusive, sobre a magnitude
do erro cometido. Por causa dessa analogia, esse tipo de treinamento é conhecido como
treinamento com um professor ou simplesmente treinamento supervisionado [52, 29].
Wettschereck e Dietterich realizaram em [70] uma série de experimentos em que sub-
meteram os diversos parâmetros das redes RBF —inclusive a matriz de ponderação de
norma— à aprendizagem supervisionada descrita. Como principal resultado, eles chega-
ram à conclusão de que as redes RBF com o posicionamento supervisionado de centros
são capazes de superar substancialmente o desempenho de generalização dos perceptrons
de múltiplas camadas. Esses resultados estão de acordo com aqueles encontrados por
Moody e Darken em [47] em um problema de aproximação quadrático.
Embora o treinamento supervisionado possa gerar bons resultados, existem algumas
desvantagens associadas com essa escolha [47, 24]. Em primeiro lugar, trata-se de um
método de otimização não-linear computacionalmente caro, cuja convergência pode ser
muito lenta. Além disso, esse tipo de otimização não impõe nenhuma restrição arqui-
tetural nos parâmetros da rede. Uma conseqüência disso é que dois centros podem ser
posicionados muito próximos um do outro, ou mesmo coincidirem 9 . Particularmente, no
;
caso de RBF’s locais, as larguras não ficam confinadas a valores pequenos e perde-se
a propriedade da localidade.
A natureza das redes RBF permite uma estratégia de treinamento não-usual e que
oferece algumas vantagens quando comparada com a aprendizagem supervisionada. Esse
é o assunto da seção seguinte.
i
Least mean square
i
Early stopping
9
Pode-se tentar impedir essa conseqüência indesejável acrescentado-se ao processo de otimização um
termo a mais, que penalize centros muito próximos uns dos outros. Veja detalhes em [56].
Quando utilizando funções locais, a arquitetura das redes RBF possibilita uma forma
de aprendizagem híbrida que apresenta muitos atrativos. A idéia principal por trás dessa
estratégia é desacoplar o treinamento em duas fases, uma supervisionada e outra não-
supervisionada ou auto-organizada.
Na fase não-supervisionada, a posição dos centros e as larguras das RBF’s são
; ;
determinadas. Com a camada oculta da rede totalmente definida, pode-se calcular o valor
dos coeficientes ;
através de uma inversão de matriz, como no caso das rede de regula-
rização.
Uma das principais vantagens desse tipo de treinamento é o seu baixo custo compu-
tacional. De acordo com [47], o treinamento semi-supervisionado é centenas ou milhares
de vezes mais rápido do que o algoritmo de retropropagação. Nesse mesmo trabalho, os
autores relatam um caso em que simplesmente não conseguiram treinar um perceptron
com o algoritmo de retropropagação, dado o tempo de máquina necessário.
Evidentemente, o posicionamento não-supervisionado dos centros leva a uma con-
figuração sub-ótima, que pode ser muito inferior àquela alcançada por um treinamento
supervisionado [47, 70]. Mesmo assim —de acordo com [24]— em muitas situações prá-
ticas, em que se dispõe de dados de treinamento e recursos computacionais limitados, o
treinamento semi-supervisionado pode gerar resultados melhores do que aqueles obtidos
ao se tentar otimizar simultaneamente os dois conjuntos de parâmetros.
Uma vez definidas a posição dos centros e as larguras das RBF’s, pode-se adotar um
método de descida pelo gradiente, como o algoritmo LMS (seção 7.3), para se determinar
os pesos ;
da camada de saída. Uma outra opção talvez mais interessante é considerar
o modelo como sendo linear e resolver a camada de saída através de uma inversão de
matriz [52].
É interessante notar, no entanto, que nas redes RBF o número de unidades ocultas
não coincide necessariamente com o número de pontos do problema. Isso significa que
o sistema de equações resultante difere ligeiramente daquele descrito para a interpolação
estrita na seção 3. Especificamente, pode-se escrever:
*
*
..*
..*>*
.. ..
.. *
..*
. . . . . . (23)
*
(24)
onde é a pseudo-inversa de , obtida através da seguinte expressão:
(25)
Seleção aleatória dos centros A abordagem mais simples para se definir a posição
dos centros é simplesmente escolher ao acaso alguns pontos da amostra de treina-
mento para cumprirem esse papel. Essa abordagem é considerada sensata desde
que os dados de treinamento estejam distribuídos de uma forma representativa para
o problema considerado [9]. O interessante a se notar nessa estratégia é que expe-
rimentos com a seleção aleatória de centros indicam que ela é relativamente insen-
sível à regularização; esse tipo de conclusão sugere que o método em si já é uma
forma de regularização.
Agrupamento dos centros Uma outra opção que pode ser mais interessante é agru-
par —ou, utilizando um neologismo, “clusterizar”— os pontos de entrada [47,
38]. Um dos algoritmos de agrupamento mais conhecidos é o das k-médias i [17,
10
No caso de uma função de custo regularizada, a expressão para ótimo é um pouco diferente. Para
uma excelente exposição sobre o processo de obtenção de no caso da regularização, recomenda-se a
leitura do apêndice A4 de [52].
i
Singular value decomposition
i
K-means
B B
5
; B B *
;
(26)
5
;
5
;
onde é o centro de gravidade (média aritmética) dos pontos pertencentes ao
;
agrupamento . Uma vez definidos os subgrupos , o centro de cada um ;
deles se torna o centro de uma RBF da rede.
A idéia de se agrupar os dados de entrada foi apresentada inicialmente por Moody
e Darken em [47]. Evidentemente, o algoritmo das k-médias não é o único que pode
ser adotado para se realizar o agrupamento dos dados. Na literatura é possível encontrar
propostas que adotam outros métodos de clusterização [38]. No entanto, a qualidade dos
resultados encontrados parece ser insensível à técnica de agrupamento utilizada [7, 8].
Assim como o posicionamento dos centros, a definição das larguras das RBF’s pode
ser feita de várias maneiras. Uma opção é simplesmente adotar a mesma largura para
todas as funções. Nesse caso, pode-se defini-la da seguinte forma [9]:
D
)
D 5 (27)
onde é a distância máxima entre os centros previamente definidos. Essa fórmula
garante que as funções de base radial não sejam “pontiagudas” ou “planas” demais.
Um outra alternativa seria a adoção de centros escalados individualmente para cada
RBF. Funções posicionadas em regiões com menor densidade de dados receberiam lar-
guras maiores, ao passo que aquelas posicionadas em áreas mais “povoadas” receberiam
larguras menores.
Várias heurísticas podem ser adotadas de forma a se alcançar um nível de sobre-
posição adequado entre as respostas das RBF’s vizinhas. A idéia é que se forme uma
aproximação contínua e suave sobre toda a região de interesse no espaço de entrada. Uma
possibilidade apresentada em [47] é simplesmente fazer da largura um múltiplo da
; ;
distância média do centro aos vizinhos mais próximos, ou seja:
E
; "
D >;
(28)
é um conjunto contendo os " pontos mais próximos de ; .
E1
onde
ou
) Tipicamente
, embora seja possível encontrar relatos em que valores mais altos foram
adotados [38].
Pode-se pensar em se utilizar o treinamento semi-supervisionado conjuntamente com
o treinamento totalmente supervisionado (seção 7.3). Essa é a proposta apresentada
em [15]. Nesse trabalho, a rede RBF é submetida primeiramente ao treinamento semi-
supervisionado e, a seguir, todos os parâmetros sofrem um “ajuste fino” através do método
—existem
) @E
Para problemas reais, encontrar o melhor subconjunto possível é geralmente intratável
subconjuntos em um universo de candidatos. Dessa forma, deve-se
adotar algum procedimento heurístico para se analisar de maneira racional uma porção
desse espaço de busca. O algoritmo 7.1 apresenta uma proposta nesse sentido.
O procedimento começa com dois conjuntos, e . O conjunto —inicialmente
vazio— contém as RBF’s “eleitas” para formarem a camada oculta da rede. O conjunto
é composto pelas RBF’s “candidatas” a cumprirem o papel de futuras unidades ocul-
tas. Uma postura geralmente adotada é utilizar os pontos de treinamento para inicializar
; cada ponto se torna o centro de uma RBF candidata e suas larguras são definidas por
alguma heurística apropriada, como por exemplo as descritas na seção 7.4.2. Outras es-
tratégias para se definir o conjunto podem ser adotadas. Uma idéia nesse sentido é
Retorna: {Conjunto com as RBF’s eleitas para constituirem a camada oculta da rede}
início
;
repita
;
selecione o candidato que mais reduza a função de custo
;
; ;
; ;
até critério de parada satisfeito;
fim;
A cada passo do algoritmo, uma nova RBF é adicionada à rede. A escolha da função
de base radial a ser adicionada é feita segundo uma regra simples: escolhe-se a RBF que
promova a maior redução na função de custo . O processo continua até que algum
critério de parada seja satisfeito. Uma alternativa razoável para se interromper o processo
é considerar o ponto em que algum critério de seleção de modelo (seção 7.1) começar
a crescer. Outra idéia é adotar a validação cruzada e parar o processo quando o erro de
validação for mínimo.
Uma questão que surge naturalmente é sobre como escolher a função de base ra-
dial que promova a maior redução do SSE. Uma possibilidade seria adicionar as funções
candidatas, uma de cada vez, calcular os coeficientes da camada de saída da rede e com-
parar o seu desempenho com as diferentes configurações. Essa abordagem, no entanto,
é impraticável. Como já mencionado anteriormente, o cálculo dos pesos da camada de
saída envolve uma inversão de matriz, que —implementada de uma maneira muito efici-
ente [60]— cresce com
Como já discutido, a seleção de modelo pode ser adotada conjuntamente com a regu-
larização. Dessa forma, é possível se pensar tanto no algoritmo de seleção adiante [50]
quanto no OLS [12, 11] em suas formas regularizadas. Em [50], Orr propõe uma fórmula
para se calcular iterativamente um valor adequado para o parâmetro de regularização
(seguindo as idéias dos trabalhos descritos na seção 7.2). A cada nova RBF adicionada à
rede, um novo valor para é estimado. Em [11], por outro lado, utiliza-se no algoritmo
;
OLS um parâmetro de regularização local para cada coeficiente da camada de saída, o
que resulta no que o autor chama de LROLS (algoritmo dos mínimos quadrados ortogonal
localmente regularizadoi ).
Além dos algoritmos de seleção adiante e OLS, pode-se encontrar em [73] uma al-
ternativa em que o SVD é adotado para a seleção de subconjunto. Os autores propõem
que os dados de entrada sejam primeiramente submetidos a um processo de clusterização
—que no caso deles é feito através de um algoritmo k-médias modificado— e os centros
dos clusters resultantes sejam interpretados como candidatos a centros das RBF’s.
Evidentemente, pode-se imaginar a estratégia oposta da dos algoritmos construtivos:
ao invés de ir “crescendo” a rede incrementalmente, é possível inicializá-la com todas as
RBF’s candidatas, das quais as menos importantes seriam sucessivamente removidas do
modelo.
Mais uma vez, é necessário definir um procedimento que seja computacionalmente
viável, já que retreinar a rede para cada função retirada seria completamente inviável.
Uma proposta muito interessante nesse sentido é apresentada em [30]. Nesse mesmo
trabalho, os autores propõem uma solução híbrida: a rede RBF é inicializada com um
grande número de RBF’s e treinada através de um algoritmo semi-supervisionado. Uma
vez terminado o treinamento, a rede é submetida ao processo de “poda” das unidades que
menos contribuíam para o modelo.
Em [55], Platt propõe uma arquitetura de rede que ele chama de rede de alocação
de recursosi ou RAN. Essencialmente, a RAN é uma rede RBF com funções de ativação
locais e um algoritmo de treinamento construtivo seqüencial. A principal característica do
algoritmo de treinamento da RAN é que os parâmetros e a arquitetura da rede vão sendo
i
Locally regularised orthogonal least squares algorithm
i
Resource allocating network
ajustados sucessivamente, à medida que novos pontos vão sendo apresentados. Isso o
torna particularmente adequado a aplicações em que não se dispõe de uma só vez de
todos os dados de treinamento.
Assim como os algoritmos construtivos descritos na seção 7.5, o treinamento da RAN
inicia-se com uma rede sem unidades ocultas, à qual novas funções de base radial vão
sendo sucessivamente adicionadas. Quando um novo ponto é apresentado à rede, o algo-
ritmo decide se uma nova unidade deve ser adicionada ou se os parâmetros das unidades
pré-existentes serão ajustados. Essa decisão é tomada levando-se em conta dois critérios:
a distância do novo ponto aos centros da rede e a diferença entre a saída desejada e a
resposta da rede quando alimentada com aquele ponto. Se ambos os critérios estiverem
acima de um limiar previamente definido, uma nova unidade é adicionada à rede. Caso
um dos critérios não seja satisfeito, os parâmetros da rede são ajustados utilizando-se o
algoritmo LMS (seção 7.3).
Quando uma nova RBF é adicionada, ela é inicializada da seguinte maneira: o seu
centro coincide com o ponto recém-apresentado e sua largura é configurada como sendo
uma fração da distância do ponto ao centro mais próximo. O coeficiente ;
da camada de
Uma outra classe de algoritmos que pode ser adotada para aplicações em tempo real é
aquela baseada no trabalho original de Fritzke [22], em que ele apresenta uma abordagem
chamada de estruturas celulares crescentesi ou GCS. No GCS, as posições dos centros
são continuamente atualizadas através de um processo muito semelhante aos mapas auto-
organizáveis de Kohonen [29, 17]. Para tal, utiliza-se o conceito de vizinhança entre as
funções de base radial, que ficam estruturadas como um grafo não-orientado. Nesse tipo
de estrutura, cada vértice representa uma RBF (que o autor chama de célula), e cada arco
representa uma relação de vizinhança topológica, com o seu comprimento indicando a
distância entre os centros das funções.
Quando um novo ponto é apresentado à rede, a RBF que gerou a maior ativação como
resposta tem o seu centro “atraído” em direção a esse ponto. Os vizinhos imediatos dessa
função também são atraídos, mas com menor intensidade. Além disso, o erro cometido
pela rede nesse ponto é atribuído à função com ativação máxima (essa informação será
usada pela política de inclusão de novas unidades, como será descrito). As larguras das
RBF’s são definidas como sendo a média aritmética do comprimento de todos os arcos
incidentes a essa função. A idéia dessa estratégia é promover um nível de sobreposição
adequado entre as funções de base radial. Os coeficientes da camada de saída são atuali-
zados através do método de descida pelo gradiente (seção 7.3). Esse processo de ajuste é
repetido até que o erro fique estagnado em um determinado patamar.
Inicia-se então a fase de crescimento da rede. Cada RBF tem associada a si um erro
acumulado no processo de ajuste. Pode-se inferir que esse erro é um indicativo da qua-
lidade da aproximação realizada pelo modelo na região daquela RBF. Isso porque o erro
cometido pela rede quando alimentada com um determinado ponto é associado à função
que gerou a maior ativação em resposta a esse “estímulo” (indicando que o ponto apresen-
tado encontrava-se mais próximo daquela função do que de qualquer outra). Desse modo,
parece sensato que a nova função a ser adicionada esteja centrada nas proximidades da
RBF com maior erro acumulado. Uma nova unidade é, então, acrescentada à rede entre
a função com maior erro e uma de suas vizinhas. A escolha da função vizinha pode ser
feita de duas maneiras: escolhe-se a RBF com o maior erro acumulado ou simplesmente
aquela cujo centro esteja mais distante da função original.
É interessante notar que, embora o posicionamento dos centros seja feito através de
um processo auto-organizado, o treinamento da rede RBF nesse caso não é totalmente
desacoplado —como acontece no treinamento semi-supervisionado (seção 7.4). Isso fica
claro quando se observa que o erro cometido pela rede é associado a cada RBF, signifi-
cando que a resposta desejada também é utilizada na definição das unidades ocultas.
;
Além disso, nesse algoritmo as otimizações da camada oculta e da camada de saída são
feitas de maneira paralela.
Assim como no caso da rede de alocação de recursos de Platt, muitas extensões foram
propostas para a abordagem de Fritzke. O próprio autor do trabalho original apresenta
em [23] uma melhoria no GCS. Enquanto em [22] o número de vizinhos de cada função
é fixo, nessa nova proposta a estrutura de vizinhança das funções de base radial é irres-
i
Growing cell structures
Além dos algoritmos já apresentados, podem ser encontradas na literatura várias ou-
tras propostas de treinamento de redes RBF. Embora uma descrição detalhada de cada
uma delas fuja ao escopo desse trabalho, pode-se mencionar algumas que se destacam
por uma ou outra razão.
Na seção 7.4 foi discutida uma possibilidade de treinamento das redes RBF em que
os dados de entrada são agrupados formando clusters cujos centros se tornam os centros
das funções de base radial da camada oculta. Uma das desvantagens associadas com esse
método é que o número de agrupamentos —e portanto de unidades ocultas— tem que ser
definido a priori, o que impõe à rede uma arquitetura fixa, possivelmente incoerente com
o problema.
Uma possibilidade para se resolver essa questão é adotar um algoritmo de agrupa-
mento hierárquico [17]. Nesse tipo de algoritmo, o número de clusters não é previamente
definido, e se torna parte do problema. A principal característica da dinâmica desse tipo
de procedimento é que um agrupamento de uma etapa é formado pela “fusão” de dois
agrupamentos de outra etapa, resultando em um gráfico de árvore chamado dendograma.
A figura 11 mostra um exemplo de dendograma. Os segmentos verticais representam
a fusão de dois agrupamentos. O comprimento das linhas horizontais que conectam dois
segmentos verticais indica a distância entre os centros dos clusters correspondentes. Li-
nhas mais curtas indicam menores distâncias e, portanto, agrupamentos mais “autênticos”.
A análise do dendograma permite se estimar qual seria o nível certo de clusterização.
Os métodos hierárquicos se dividem em duas categorias: algoritmos aglomerativos
e divisivos. As técnicas aglomerativas iniciam-se com cada ponto constituindo um clus-
ter. A cada iteração, os dois agrupamentos mais próximos são combinados formando um
único agrupamento, até que todos os pontos pertençam ao mesmo grupo. Nos algoritmos
divisivos ocorre o contrário: o processo inicia-se com um único cluster que vai sendo di-
vidido até que se tenha agrupamentos, cada um contendo apenas um ponto. Observando
a figura 11, pode-se afirmar que os métodos aglomerativos formam grupos da esquerda
para a direita, enquanto que os métodos divisivos funcionam no sentido oposto.
Uma forma de agrupamento que está intimamente relacionada com os métodos hie-
rárquicos aglomerativos é a chamada clusterização baseada em escala i [71, 64]. De uma
maneira geral, a idéia por trás desse tipo de algoritmo é realizar a clusterização dos da-
dos em várias “escalas” e observar o comportamento dos agrupamentos formados. Os
agrupamentos que se mostrarem estáveis sobre uma larga faixa de valores de escala são
considerados clusters verdadeiros.
Chakravarthy e Ghosh apresentam em [10] a possibilidade de se aplicar a clusterização
baseada em escala ao treinamento de redes RBF. Nesse contexto, a noção de “escala” está
obviamente associada com a largura das funções de base radial. Fixando os coeficientes
;, as respostas desejadas e a largura global das RBF’s , os autores utilizam o termo
;
de atualização (treinamento supervisionado, seção 7.3) para encontrar a posição dos
centros. A cada iteração, as posições dos centros são atualizadas, até a convergência.
Partindo de valores iniciais pequenos para , a clusterização é executada várias vezes,
com valores crescentes para a largura. Imagine o caso extremo em que o processo fosse
sempre iniciado com um número de RBF’s igual ao tamanho do conjunto de treinamento.
Quando o valor de fosse muito pequeno, os centros das RBF’s tenderiam a convergir
para uma configuração coincidente com a amostra de treinamento. À medida que fosse
adquirindo valores maiores, alguns centros iriam se fundir durante o processo de ajuste,
formando um novo agrupamento. Na situação limite em que a largura das RBF’s fosse
muito grande, os centros terminariam todos na mesma posição do espaço de entrada,
formando um único cluster.
i
Scale-based clustering
Analisando o comportamento dos clusters em função dos diferentes valores para a lar-
gura , é possível identificar quais seriam os agrupamentos verdadeiros e, portanto, qual
seria a escala adequada. Dessa forma, essa estratégia de treinamento define, em um só
procedimento, a posição, largura e número das RBF’s. Uma vez definida a camada oculta,
os coeficientes da camada de saída podem ser determinados através de uma inversão de
matriz ou, no caso de se adotar a regularização, através de um dos algoritmos descritos na
seção 7.2.
Kubat apresenta em [44] a possibilidade de se utilizar árvores de decisão [6, 61] para
inicializar uma rede de função de base radial. A idéia básica de uma árvore de decisão
é particionar recursivamente o espaço de entrada em dois e aproximar a função-alvo em
cada metade pela média aritmética dos valores de saída que cada amostra contém. Cada
partição é paralela a um eixo, e por isso pode ser expressa através de uma inequação
envolvendo uma das variáveis de entrada (por exemplo,
'
). O espaço de entrada
é, dessa forma, dividido em hiper-retângulos organizados em uma árvore binária em que
cada ramificação é determinada pela dimensão e o limite associado , que conjunta-
mente minimizam o erro residual entre o modelo e os dados do problema. Em geral, o
'
processo de particionamento do espaço de entrada pára quando não é mais possível dividir
a amostra sem que algum dos hiper-retângulos gerados apresente um número de pontos
;
menor do que um limiar pré-definido.
A idéia nesse contexto é utilizar cada nó terminal11 da árvore de decisão para iniciali-
zar uma RBF da camada oculta da rede. O centro da função de base radial é definido como
;
sendo o centro do hiper-retângulo associado e suas larguras em cada dimensão12 podem
ser determinadas como uma escala do comprimento da i-ésima aresta desse mesmo hiper-
retângulo. Dessa forma, a árvore de decisão determina de uma só vez o número de RBF’s
na camada oculta, bem como seu posicionamento e sua largura em cada dimensão. Os
coeficientes ;
da camada de saída podem ser determinados da mesma forma que seriam
no método de agrupamento hierárquico (seção 7.7.1).
Evidentemente, o tamanho da árvore de decisão (e portanto da rede RBF) vai depender
diretamente de algum parâmetro do algoritmo responsável pela sua geração. Um parâme-
tro particularmente importante nesse caso é aquele que determina o número mínimo de
;
pontos por hiper-retângulo, . A escolha de um valor inadequado para pode ;
resultar em um modelo super ou subestimado. Nota-se claramente que trata-se do dilema
bias-variância tratado na seção 2.
;
Para evitar a determinação de a priori, Orr propôs em [54] uma abordagem
um pouco diferente. Ao invés de simplesmente se utilizar os nós terminais da árvore,
é possível interpretar todos os nós da árvore como sendo unidades ocultas potenciais e
utilizá-las como candidatas para o algoritmo de seleção adiante ou OLS, discutidos na
seção 7.5.
11
Que não contém nós-filhos.
12
Dizer que a função tem uma largura diferente em cada dimensão é o mesmo que dizer que ela tem uma
largura comum escalada por uma matriz diagonal de ponderação de norma, como discutido na seção 5.
Além disso, o autor de [54] nota que uma das características positivas das árvores de
decisão é que a própria dinâmica de partição dos dados em subgrupos fornece algumas
informações importantes sobre a relevência de cada variável do problema. Como cada
divisão da massa de dados é feita de modo a minimizar uma função de custo, não é difícil
perceber que as componentes que contêm mais informação sobre o problema tendem a
ser particionadas primeira e mais freqüentemente.
Dessa forma, além do algoritmo OLS, Orr propõe uma maneira sistemática de se
explorar o espaço de RBF’s em que os nós da árvore são visitados ordenadamente, da raiz
para os nós terminais. Isso permite uma solução hierárquica para o problema, partindo de
uma aproximação “grosseria” da função para uma resolução mais precisa.
Existe ainda na literatura uma série de outras propostas para o treinamento de redes
RBF. Entre elas, pode-se destacar um grande número de trabalhos que aplicam algum
método estocástico de otimização global —como os Algoritmos Genéticos [27] ou o Re-
cozimento Simuladoi [43]— à determinação dos parâmetros e/ou topologia da rede.
O objetivo dessa seção não é, no entanto, fazer uma enumeração exaustiva de todas as
técnicas de treinamento presentes na literatura. A idéia é que os métodos de treinamento
descritos —selecionados por sua importância histórica ou grau de inovação— forneçam
um panorama das possibilidades e tendências do treinamento de redes RBF.
8 Aplicações
Costuma-se dizer que as redes neurais são sempre a segunda melhor solução para
qualquer problema. Isso porque as redes como aproximadores universais podem ser ado-
tadas com sucesso em uma enorme gama de aplicações, sendo consideradas quase sempre
como uma escolha sensata (uma possível exceção seria o caso em que existissem métodos
desenhados especificamente para o contexto, daí a afirmação inicial).
De fato, as redes RBF podem ser aplicadas a praticamente qualquer domínio que
envolva a aproximação de funções
um mapeamento do tipo
reais contínuas ou contínuas por partes que realizem
. Como foi visto na seção 6, essa classe de funções
inclui problemas de classificação como um caso particular [47].
Exemplos e testes de aplicações são vários: aproximação de funções não-lineares
arbitrárias [50, 52, 73, 1] ou descrevendo algum fenômeno físico [53, 54], problemas de
classificação de padrões gerados artificialmente [23, 19, 40] ou reais [2, 39] e previsão de
séries temporais artificiais [47, 25, 55, 42, 3, 5, 30] ou reais [18]. Entre os problemas de
classificação de padrões, destacam-se aqueles voltados para o reconhecimento visual [48,
56] e para o reconhecimento de padrões de fala [70, 15] e escrita [38].
Muitos outros exemplos poderiam ser mencionados. No entanto, uma enumeração
extensa e superficial de várias possibilidades de aplicação não parece ser uma alterna-
tiva muito atraente para se exemplificar o uso das redes RBF. Melhor seria descrever em
maiores detalhes um ou dois casos reais. Isso é feito nas próximas seções.
i
Simulated annealing
O termo “biométrica” tem sido usado para designar o estudo de métodos automáticos
para a identificação de indivíduos através de suas características físicas ou comportamen-
tais. Técnicas como reconhecimento de face e de voz e análise de íris e de impressões
digitais podem ser combinadas para produzir aplicações muito úteis. Existe um grande
interesse comercial nesse tipo de aplicação, que poderia ser adotado na área de segurança
comercial e doméstica ou na personalização de aparatos como computadores, televisores
e telefones, por exemplo.
Dentre essas técnicas, o reconhecimento facial automático se destaca por não ser in-
vasivo e requerer pouca cooperação ou modificação no comportamento dos usuários no
processo de coleta de informações. Os artigos [34, 35, 36, 31, 37, 32] descrevem o de-
senvolvimento de um trabalho muito interessante nesse sentido, que culminou na tese de
Howell [33].
O trabalho de Howell aplica as redes RBF à tarefa de reconhecimento de faces sem
restrições. Nessa qualidade do problema, deve-se ser capaz de identificar uma pessoa
através da imagem de seu rosto sob diferentes circunstâncias, como variações de escala,
rotações e condições de iluminação. Trata-se de uma tarefa muito difícil, portanto.
O autor introduz a idéia de unidades faciaisi , que nada mais são do que redes de função
de base radial especializadas no reconhecimento de uma pessoa específica. Um sistema de
reconhecimento completo contaria com várias dessas “unidades”, cada uma responsável
pela identificação de uma face em especial. Quando submetida à rede, a imagem de uma
pessoa geraria uma resposta indicando se se trata do indivíduo que ela representa ou não.
Um dos grandes avanços nas taxas de classificação, segundo o autor, se deveu à in-
clusão de “casos negativos” na fase de treinamento. Isso significa que, ao invés de a rede
ser treinada apenas com as imagens faciais do indivíduo que ela representa, utiliza-se
imagens de outros indivíduos para melhorar o seu poder de discernimento. Os contra-
exemplos foram escolhidos como sendo aquelas imagens mais similares (no sentido da
distância euclidiana) às imagens da pessoa que a rede deveria identificar.
Curiosamente, a arquitetura do modelo é aquela proposta originalmente para as redes
de regularização (seção 4): o número e posicionamento das unidades ocultas correspon-
dem à amostra de treinamento. Isso significa que cada imagem —representada como
i
Face units.
sendo um vetor de pixels— define uma RBF. Foram feitos experimentos com diferentes
proporções entre o número de exemplos positivos e negativos (o que resultou em diferen-
tes toplogias). A largura das funções foi definida através de heurítica semelhante àquelas
descritas na seção 7.4 e a camada de saída foi resolvida utilizando-se o SVD. Em alguns
casos, a taxa de classificação correta chegou a 96% em um conjunto de teste não visto
durante a fase de treinamento [36].
9 Plausibilidade biológica
ria
B B
BIB *
em espaços de dimensões superiores. Existe uma propriedade da função
gaussiana, no entanto, que permite uma extensão muito interessante dessa abordagem.
podegaussiana
Pode-se mostrar facilmente que a função
é fatorável. Isso significa que uma
função desse tipo com domínio em
poderia ser escrita como um
ser decomposta em funções gaussianas de
dimensões inferiores. Por exemplo, uma gaussiana em
produto de duas outras, como mostrado na equação 29.
(29)
onde é o centro da função e a largura foi omitida por conveniência.
Observando a equação 29, pode-se pensar em um aninhamento hierárquico de cam-
pos receptivos de uma ou duas dimensões. A figura 13 mostra o caso de uma estrutura
formada pela combinação de dois campos receptivos, um em e outro em . Nesse
*
caso, as funções gaussianas de ordem inferior são sintetizadas diretamente através dos
“pesos” sinápticos dos mapas sensitivos, enquanto que as funções de ordens mais altas
são o resultado da combinação das primeiras.
A multiplicação requerida para a composição das funções multidimensionais (no caso
da figura 13, a função ) não é tão implausível do ponto de vista fisiológico. Ela poderia
ser realizada por uma série de mecanismos biofísicos diretamente na árvore dendrítica do
neurônio representando a função de base radial correspondente [56].
É interessante notar que, diferentemente do que ocorre com os campos receptivos,
nas funções de ordem superior a noção de centro não guarda necessariamente uma rela-
ção com uma posição espacial. Isso é particularmente verdade quando se observa que o
número de campos receptivos combinados pode ser arbitrariamente estendido, levando a
dimensões que não permitem uma interpretação espacial.
Pode-se pensar, portanto, nos centros das funções de dimensões mais altas como sendo
protótipos de atividades neuronais. Tais protótipos seriam formados pela combinação
dos padrões de estímulos capturados pelos campos receptivos. Esses padrões podem ser
f2
f1
f3
multidimensional.
Evidentemente, essas são apenas especulações. O fato de o aninhamento hierárquico
de campos receptivos ser biologicamente plausível não significa que os processos neuro-
nais ocorram efetivamente dessa maneira. Espera-se, no entanto, que esse tipo de discus-
são não seja em vão. A expectativa é que a troca de metáforas e analogias entre a Biologia
e a Inteligência Artificial —e de muitas outras áreas, como a Lingüística, por exemplo—
possa promover uma evolução no sentido de se explicar a mente humana. A expectativa é
que essa soma de esforços torne possível emular em um futuro não muito distante algum
tipo de inteligência, mesmo que seja primitiva como a do rato da experiência de Nicolelis
e Chapine.
Referências
[2] B ELLOIR , F., FACHE , A., E B ILLAT, A. A general approach to construct RBF net-
based classifier. In Proceedings of The European Symposium on Artificial Neural
Networks (ESANN’99) (Bruges, Belgium, April 1999), pp. 399–404.
[4] B LANZIERI , E. Learning Algorithms for Radial Basis Function Networks: Synthe-
sis, Experiments and Cognitive Modelling. PhD thesis, Center of Cognitive Science
–University and Polytechnic of Turin, 1998.
[6] B REIMAN , L., F RIEDMAN , J., O LSHEN , R., E S TONE , C. Classification and
Regression Trees. Wadsworth & Books, Pacific Grove, CA, 1984.
[10] C HAKRAVARTHY, S. V., E G HOSH , J. Scale-based clustering using the radial basis
function network. IEEE Transactions on Neural Networks 7, 5 (September 1996),
1250–1261.
[12] C HEN , S., C HANG , E. S., E A LKADHIMI , K. Regularized orthogonal least squares
algorithm for constructing radial basis function networks. International Journal of
Control 64, 5 (1996), 829–837.
[13] C HEN , S., C OWAN , C. F. N., E G RANT, P. M. Orthogonal least squares learning
algorithm for radial basis function networks. IEEE Trans. on Neural Networks 2, 2
(março de 1991), 302–309.
[14] C HEN , S., C OWAN , C. F. N., E G RANT, P. M. Orthogonal least squares algo-
rithm for training multi-output radial basis function networks. In IEEE Proceedings
(1992), vol. Part F 139, pp. 378–384.
[16] DARKEN , C., E M OODY, J. Fast adaptive k-means clustering: Some empirical
results. In Proc. IJCNN (1990), I. N. N. Council, Ed., vol. II, pp. 233–238.
[23] F RITZKE , B. Fast learning with incremental RBF networks. Neural Processing
Letters 1, 1 (1994), 2–5.
[24] G HOSH , J., E NAG , A. An overview of radial basis function networks. Relató-
rio técnico, Department of Electrical and Computer Engineering, The University of
Texas, Austin, Texas, USA- TX 78712.
[25] G IROSI , F. Some extensions of radial basis functions and their applications in arti-
fical intelligence. Computers Math. Applic. 24, 12 (1992), 61–80.
[26] G IROSI , F., E P OGGIO , T. Networks and the best approximation property. Rela-
tório Técnico AIM-1164, Massachusetts Institute of Technology Artificial Intelli-
gence Laboratory and Center for Biological Information Processing Whitaker Col-
lege, 1989.
[29] H AYKIN , S. Redes Neurais: Princípios e Prática, 2nd ed. Bookman, Av. Jerônimo
de Ornellas, 670 – Porto Alegre, RS, Brasil, 2001. Tradução: Paulo Martins Engel.
[30] H ONG , X., E B ILLINGS , S. A. Givens rotation based fast backward elimination
algorithm for RBF neural network pruning. IEE Proc D, Control Theory and Appli-
cations 5, 144 (1997), 381–384.
[31] H OWELL , A., E B UXTON , H. Face recognition using radial basis function neural
networks. In Proceedings of British Machine Vision Conference (BMVA, Edinburgh,
1996), pp. 455–464.
[34] H OWELL , A. J., E B UXTON , H. Invariance in radial basis function neural networks
in human face classification. Neural Processing Letters 2, 3 (1995), 26–30.
[35] H OWELL , A. J., E B UXTON , H. Receptive field functions for face recognition. In
Proc. 2nd International Workshop on Parallel Modelling of Neural Operators for
Pattern Recognition (PAMONOP) (Faro, Portugal, November 1995), pp. 83–92.
[38] H WANG , Y., E BANG , S. An efficient method to construct a radial basis function
neural network classifier. Neural Networks 10, 8 (1997), 1495–1503.
[44] K UBAT, M. Decision trees can initialize radial-basis function networks. IEEE-NN
9, 5 (September 1998), 813.
[45] L E C UN , Y., D ENKER , J., S OLLA , S., H OWARD , R. E., E JACKEL , L. D. Opti-
mal brain damage. In Advances in Neural Information Processing Systems II (San
Mateo, CA, 1990), D. S. Touretzky, Ed., Morgan Kauffman.
[49] N ICOLELIS , M., E C HAPIN , J. Controlando robôs com a mente. Scientific American
Brasil, 6 (2002), 49–55.
[56] P OGGIO , T., E G IROSI , F. A theory of networks for approximation and learning.
Relatório Técnico AIM-1140 CBIP-31, Massachusetts Institute of Technology Ar-
tificial Intelligence Laboratory and Center for Biological Information Processing,
Whitaker College, 1989.
[57] P OGGIO , T., E G IROSI , F. Network for approximation and learning. Proc. IEEE
78, 9 (setembro de 1990), 1481–1497.
[61] Q UINLAN , J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann, San
Francisco, CA, 1993.
[62] R AWLINGS , J. O. Applied Regression Analysis. Wadsworth & Brooks, Cole, Pacific
Grove, CA –USA, 1988.
[63] REZENDE , S. O., Ed. Sistemas Inteligentes: Fundamentos e Aplicações, 1 ed. Edi-
tora Manole LTDA, Barueri/ SP – Brasi, 2003.
[66] S ARLE , W. Stopped training and other remedies for overfitting. In Proceedings of
the 27th Symposium on Interface (1995).
[67] S ARLE , W. S. Neural networks and statistical models. In Proceedings of the Nine-
teenth Annual SAS Users Group International Conference, April, 1994 (Cary, NC,
1994), SAS Institute, pp. 1538–1550.
[69] WASSERMAN , P. D. Neural Computing: Theory and Practice, 1 ed. Van Nostrand
Reinhold, 115 Fifth Avenue, New York, NY – 10003, 1989.
[73] Z HANG , Y., L I , X. R., Z HU , Z., E Z HANG , H. A new clustering and training
method for radial basis function networks. In Proceedings of International Confe-
rence on Neural Networks (Washington, DC, USA, June 1996), IEEE.