Apostila Redes RBF

Uma Introdução às Redes RBF
André da Motta Salles Barreto

andremsb@lncc.br
“Experience is not what happens to a man; it is what a

man does with what happens to him.”
Aldous Huxley
As redes de função de base radial vêm sendo seriamente consideradas como uma
alternativa de modelo não linear para problemas de regressão e classificação de padrões.
Grande parte desse interesse é proveniente do fato de essa arquitetura contar com um
forte embasamento estatístico, podendo ser considerada como um aproximador universal.
Além disso, a estrutura das redes de função de base radial permite que a configuração
de suas camadas seja desacoplada em duas fases, o que lhe confere um desempenho na
aprendizagem sensivelmente superior ao de outras arquiteturas conhecidas atualmente.
Finalmente, a natureza desse tipo de rede permite uma interpretação de suas unidades
ocultas que lhe atribui um papel fundamental como uma intrigante metáfora para o sistema
neuronal biológico.
Esse trabalho trata dos principais aspectos referentes às redes de função de base radial.
Partindo de uma nova interpretação para a idéia de aprendizagem (seção1), discute-se nas
seções 2, 3 e 4 conceitos fundamentais para o estudo dessa arquitetura de rede, que é
efetivamente apresentada na seção 5. Grande parte do trabalho é dedicada à descrição
de diferentes possibilidades de treinamento das redes de função de base radial (seção 7).
Algumas aplicações desse modelo de rede são apresentadas na seção 8, com três exem-
plos interessantes descritos em detalhes. Finalmente, a seção 9 discute a plausibilidade e
possíveis implicações biológicas desse tipo de rede neural.
1 A aprendizagem vista como um problema de recons-

trução de hipersuperfície
Quando se fala em redes neurais artificiais, a aprendizagem é invariavelmente menci-

onada, direta [69, 29, 63] ou indiretamente [46, 17]. Mas o que é, de fato, essa capacidade
de “aprender”, tão festejada pelos entusiastas da neurocomputação?
Uma discussão aprofundada sobre a natureza da aprendizagem é deveras pretensiosa

e foge ao escopo desse trabalho. Não custa, porém, tentar delimitar o conceito nesse
contexto. Para tal, o relato de uma experiência realizada na Hahnemann University pode
ser interessante. Se não servir para esclarecer a idéia, que sirva para entreter o leitor.
A experiência citada acima foi desenvolvida em 1990 pelos professores Miguel Nico-
lelis e John Chapine [49]. Pesquisando sobre a possibilidade de aplicação das interfaces
homem-máquina (ICM ou neuropróteses) na restauração de funções motoras, os cientis-
tas realizaram o seguinte experimento: primeiramente, eles treinaram um rato, colocado
dentro de uma gaiola, para empurrar uma barra com uma das patas dianteiras. A barra es-
tava ligada eletricamente a uma alavanca situada fora da caixa. Quando o rato empurrava
a barra, a alavanca acionava um dispositivo que liberava uma gota d’água para o animal.
Depois, eles conectaram uma série de microfios a diversas regiões do córtex motor do
rato, o tecido do cérebro que planeja os movimentos e envia instruções para as células
nervosas da espinha. Cada um dos microfios —mais finos que um fio de cabelo— estava
colocado junto a um neurônio motor e era capaz de capturar a sua descarga elétrica (ou
“potencial de ação”). Durante um certo tempo, toda vez que o animal comandava sua pata
dianteira para empurrar a barra, os pesquisadores gravavam simultaneamente os potenci-
ais de ação gerados por 46 neurônios. Programaram então uma série de resistores para
pesar e processar os dados desses neurônios, a fim de gerar uma saída analógica única que
descreveria muito bem o movimento de sua pata.
O próximo passo é previsível: os cientistas simplesmente desligaram a barra da ala-
vanca. Em um primeiro momento, o rato ficou frustado ao perceber que o movimento tão
arduamente aprendido não lhe rendia mais a recompensa. Porém, após alguma insistên-
cia, a alavanca surpreendentemente voltou a se inclinar e liberou a água. O rato não fazia
a menor idéia disso, mas os seus 46 neurônios geraram o mesmo padrão de acionamento
usado antes, o que levou os resistores a ativarem a alavanca.
A próxima etapa da experiência é, sem dúvida, a mais surpreendente: após algumas
horas, o rato percebeu que não precisava de fato empurrar a barra. Bastava olhar para ela
e imaginar sua pata dianteira empurrando-a. Dessa forma, seus neurônios exprimiriam o
mesmo padrão e a alavanca seria ativada. A conclusão extraordinária é que o rato havia
aprendido a mover a alavanca com a força da mente!
Essa experiência interessantíssima ilustra duas categorias de aprendizagem diferentes.
A primeira, mais óbvia, se refere ao desempenho do rato: primeiramente, associando o
movimento de sua pata dianteira com o bônus e, posteriormente, percebendo que um sim-
ples pensamento poderia lhe render o mesmo benefício. A segunda categoria de aprendi-
zagem é um pouco mais sutil, mas essencial para o sucesso da experiência: a detecção do
padrão de sinais gerados pelos 46 neurônios quando o rato fazia o movimento desejado.
Embora diferentes, ambos os exemplos de aprendizagem envolvem um fator comum:
algum tipo de associação. No primeiro caso, o animal aprendeu a associar um movimento
—ou um pensamento— com uma recompensa, no caso, uma gota d’água. No segundo
caso, um conjunto de 46 níveis potenciais de ação específicos é relacionado a uma única
saída analógica. Pode-se, portanto, definir conhecimento nesse contexto como sendo uma
representação interna de uma porção da realiadade através de um mapeamento. Os resis-
2 c André da Motta Salles Barreto

tores da experiência, por exemplo, foram configurados de tal forma a mapear um padrão
específico de atividade neuronal em uma saída contínua que ativava a alavanca.
Mas se o mapeamento havia sido corretamente absorvido, por que nos primeiros mo-
mentos os sinais emitidos pelos neurônios do rato não ativaram a alavanca? Porque,
embora muitíssimo parecidos, os padrões emitidos pelo cérebro do pequeno animal a
cada vez que ele empurrava a barra não eram idênticos. A posição do rato em relação à
alavanca ou a força exercida pelos seus músculos, por exemplo, poderiam distorcer mi-
nimamente os sinais. Isso significa que um conhecimento limitado armazenado na forma
de uma tabela de consultai pode não ser muito útil.
O mundo em que vivemos é —considerando o nível de abstração adequado— re-
dundante [56, 57]. Isso significa que existem padrões que se repetem no tempo e que
apresentam alguma coerência no espaço. Se não fosse dessa forma, seria impossível ex-
traírmos qualquer conhecimento da experiência. Como exemplo, Poggio e Girosi citam
em [56] o caso de um catálogo telefônico: pode-se decorar uma quantidade infinitamente
grande de números de telefones, que isso em nada ajudaria na estimativa do telefone de
uma pessoa que não constasse na lista.
Felizmente, os eventos não são totalmente locais: padrões parecidos tendem a gerar
respostas parecidas. De certa forma, pode-se dizer que é possível extrair um mapeamento
suave que descreva porções da realidade. Esse é na verdade o verdadeiro objetivo da
aprendizagem: como os padrões raramente se repetem de forma idêntica, ao invés de
armazenar um número limitado desses, deve-se desenvolver um mapeamento tal que seja
possível inferir o valor de padrões nunca vistos. Isso é o que costuma-se chamar de
generalização.
Talvez seja por isso que o rato da experiência de Nicolelis e Chapine não tenha conse-
guido mover a alavanca em um primeiro momento. Como o mapeamento do seu padrão
neuronal em um movimento estava sendo feito de maneira artificial (através dos resisto-
res), pode-se supor que não existia flexibilidade suficiente para a detecção de movimentos
muito diferentes dos originais. No início, como o objetivo era empurrar o bastão e não
repetir o padrão mental, ele pode ter tentado fazê-lo de uma maneira nova. Depois de
algum tempo ele “percebeu” que a maneira como ele a empurrava, mesmo não sendo uma
cópia perfeita de nenhuma das anteriores, era fundamental para o sucesso da operação.
Evidentemente, essas são apenas suposições. O objetivo aqui não é discutir a fundo a
experiência com o rato, mas usá-la como forma de ilustração do assunto em questão 1 .
Talvez esse ponto da discussão seja adequado para se relacionar algumas idéias apre-
sentadas com conceitos matemáticos. Até agora, o termo “mapeamento” foi utilizado para
descrever as associações envolvidas no processo de aprendizagem. Matematicamente, a
idéia de mapeamento pode ser modelada através do conceito de função. Voltando à expe-
riência, a relação entre o estado de ativação dos 46 neurônios e a saída analógica poderia
i
Lookup-table (ao longo do trabalho, os termos cujos correspondentes em inglês mereçam ser apresen-
tados serão destacados com o símbolo “i”, diferenciando a tradução das notas de rodapé convencionais. As
siglas serão sempre derivadas dos nomes em inglês, a fim de manter a homogeneidade com a terminologia
comumente utilizada na literatura).
1
Para uma discussão mais detalhada e o relato de outras experiências do mesmo tipo, aconselha-se a
consulta do trabalho [49] e das referências nele contidas.

ser descrita por uma função , da seguinte forma:

(1)

onde os valores de representariam os movimentos do braço do animal, dos quais um
valor específico ativaria a alavanca para liberar a água.
Pode-se considerar a função como sendo uma hipersuperfície [9, 29]. A

superfície é um gráfico multidimensional da saída em função das entradas. Essa super-
fície foi construída a partir de alguns pontos de exemplo (obtidos enquanto os cientistas
gravavam os níveis de ativação neuronal do rato). A motivação dessa postura é a idéia
de que existe uma hipersuperfície, provavelmente suave, que descreve o fenômeno real
perfeitamente. Os padrões de exemplo são pontos —possivelmente contaminados com

ruído— que pertencem a . Dessa forma, “a aprendizagem é vista como um problema de
reconstrução de uma hipersuperfície, dado um conjunto de pontos que podem ser espar-
sos” [29]. Essa é a idéia fundamental por trás das redes de função de base radial, e será
detalhada na próxima seção.
2 A teoria da regularização
Para discutir o assunto dessa seção, deixemos o rato na gaiola por algum tempo para
que um outro exemplo possa ser apresentado. Suponha uma situação tão simples quanto
inusitada: pretende-se criar um modelo que preveja a distância percorrida por um corpo
em queda livre em função do tempo de queda. Embora essa questão possa parecer inve-
rossímil, ela constitui um dos principais assuntos estudados pelos sábios da Antigüidade
e, mais tarde, pelo notável Galileo Galilei [41]. Sabe-se que —desprezando a resistên-

cia do ar— a posição de um corpo em queda livre em função do tempo é dada pela
seguinte expressão:
!#"$%&(')* (2)

onde é a posição inicial, "+ é a velocidade escalar inicial e
' é a aceleração.
Considera-se que o corpo parte do repouso ( ", .-
) e, como deseja-se determinar
a distância percorrida, orienta-se a trajetória no sentido da queda e com origem em . /
Sabendo que a aceleração é constante e positiva (aproximadamente ), conclui-se 02143/5768 *
que o gráfico dessa função seria aquele mostrado na figura 1.
Na situação hipotética apresentada, essa função é desconhecida e deve ser estimada.
Imagine, por exemplo, que os únicos dados disponíveis são provenientes de 10 observa-
ções ruidosas, como mostrado na figura 2.
9 (: ;<1= >; % @?ACB D (

E 1 )GFHFIF E-GJ
O problema pode ser formulado, então, da seguinte maneira: dado o conjunto de
pontos , deve-se encontrar a função que melhor K

500
450
400
350
300
s (metros)
250
200
150
100
50
0
0 2 4 6 8 10
t (segundos)
Figura 1: Gráfico da função

aproxime a função original geradora dos pontos2 .
Em primeiro lugar, pode-se observar que trata-se de um problema inverso. Além disso,
sob uma perspectiva matemática, pode-se dizer que o problema é mal-formulado. Isso
porque os dados disponíveis não são suficientes para que o mapeamento seja reconstruído
de maneira única [56]. Outras características que impõe ao problema essa classificação
são o fato de não existir necessariamente uma saída distinta para cada entrada e essas
últimas poderem estar —e provavelmente estarão— contaminadas com ruído [29].
Para lidar com problemas mal-formulados, o teórico russo Andre Tikhonov propôs
uma técnica matemática conhecida como regularização [52, 29, 56]. A idéia da regulari-
zação é tentar incorporar alguma informação prévia à solução do problema. No contexto
de reconstrução de hipersuperfícies, supõe-se, em geral, que a função do mapeamento de
entrada-saída seja suave3 . Essa é uma das restrições mais fracas que torna a aproximação
possível. Outras restrições mais fortes podem ser consideradas, como por exemplo: a
função ser linear, estar restrita a um determinado intervalo ou ser invariável em relação
a algum grupo de transformações. Evidentemente, deve-se levar em consideração toda
informação de que se tenha conhecimento a priori.
De qualquer maneira, a informação prévia é incorporada ao problema através de al-
gum funcional não negativo. Basicamente, a teoria de Tikhonov envolve dois termos:

entre o padrão desejado ;
Termo de erro padrão Este termo, representado por
e a resposta obtida
K ; K . ,Omede o erro (ou distância)
termo de erro padrão seria
definido no exemplo dado da seguinte maneira:
2
É importante observar que a função foi escolhida de forma a facilitar aexposição,

e todas as obser-
vações podem ser facilmente estendidas para o caso de mapeamentos do tipo .
3
De acordo com [56], se nenhuma informação sobre uma função de alta dimensionalidade está dispo-
nível, a única opção pode ser assumir um alto grau de suavidade. Caso contrário, o número de exemplos
necessários para reconstruir o mapeamento seria proibitivamente grande.

500
Dados
450
400
350
300
s (metros)
250
200
150
100
50
0
0 2 4 6 8 10
t (segundos)
Figura 2: Informação disponível sobre
K >; K >; *

;

(3)
Termo de regularização Este segundo termo, representado por , depende das pro-
K
priedades “geométricas” da função aproximativa . Especificamente, pode-se defini- K
lo como:

K
(4) K *
onde é um operador diferencial linear. A informação prévia sobre a forma da
solução é incorporada nesse operador.
O problema passa a ser, então, encontrar a função que minimiza o chamado funcional K
de Tikhonov:
K K K
K

; >; K >; *

K *
(5)

onde é o parâmetro de regularização.

O parâmetro de regularização controla o compromisso entre o grau de suavidade
K
da solução e a sua distância aos pontos dados. Um valor pequeno para implica que o
ajuste aos pontos pode ser muito preciso, sem que isso gere uma penalização muito severa.
Por outro lado, quando assume um valor muito grande, o ajuste deve ser sacrificado em
detrimento de uma função mais simples. O parâmetro de regularização está, dessa forma,
diretamente relacionado com o grau de generalização que será alcançado pela solução . K
A figura 3 ilustra dois casos extremos. No primeiro deles (figura 3(a)), o valor de foi
superestimado, e o resultado é uma função linear que mal se ajusta aos dados conhecidos.
A figura 3(b), por outro lado, apresenta a situação oposta: observe que embora a função
de aproximação passe por todos os pontos dados, ela não generalizaria bem em algumas

500 600
Dados Dados
s(t) s(t)
400 500
300 400
200 300
100 200
0 100
-100 0
0 2 4 6 8 10 0 2 4 6 8 10
(a) grande (b) pequeno
Figura 3: Efeitos do parâmetro de regularização
regiões do intervalo. Essa situação é geralmente referenciada na literatura de redes neu-

rais como excesso de ajustei . Ela ocorre quando o modelo é excessivamente sensível às
peculiaridades do conjunto de dados (como ruído ou a escolha dos pontos de exemplo).
Evidentemente, o valor adequado de encontra-se entre os dois valores extremos
mostrados na figura 3. Aliás, se o valor ótimo para o parâmetro de regularização puder
ser definido, pode-se interpretá-lo como sendo um indicador da suficiência do conjunto de
dados fornecidos como exemplos. Explica-se: no caso extremo em que , poderia- -
se afirmar que trata-se de um problema irrestrito e que a solução estaria totalmente
determinada pelos dados. O outro caso limite ocorreria quando

, o que implicaria
K

que a informação prévia incorporada pelo operador já seria suficiente para resolver o
problema, que equivale a dizer que os dados não fornecem nenhuma informação para sua
solução.
Uma outra maneira interessante de se analisar o parâmetro de regularização é interpretá-
lo como sendo uma abordagem prática para o dilema bias-variância [29, 52]. Quanto
maior o valor de , maior será o bias do modelo. Na verdade, existe uma forma de re-
gularização conhecida como ridge regression que é equivalente a uma das técnicas mais
comuns com que os estudiosos de redes neurais atacam esse problema, conhecida como
decaimento de pesoi [52, 66] . Pode-se dizer que um valor adequado para o parâmetro
resulta em um balanço satisfatório entre o bias e a variância no modelo.
Uma vez formulado o problema de reconstrução de hipersuperfície sob a perspectiva
da teoria da regularização, surge uma questão importante: quais classes de funções
podem ser efetivamente aproximadas por quais funções de aproximação ? Em outras K

palavras, dada a função , qual deve ser a estrutura de ? K
Pode-se mostrar que a solução para o problema de regularização é dada pela seguinte
expansão [56, 29]:
i
Overfitting
i
Weight-decay


K ; ; =1%>;

(6)

A equação 6 afirma que a solução K de minimização para o funcional de Tikhonov

é uma superposição linear de E- funções de Green . Os ; representam os centros da 4
expansão e os pesos ; são os coeficientes da expansão. Pode-se dizer, então, que a so-

do espaço de funções suaves, e o conjunto de funções de Green =1%%; centradas em ; ,
lução para esse problema de regularização se encontra em um subespaço 10-dimensional
D E 1 )GFIFHF E- formam uma base para esse subespaço. Observando a forma da solução 6,
nota-se uma relação direta com uma importante técnica de aproximação conhecida como
funções de base radial. Esse é o assunto da próxima seção.
3 Funções de base radial
As funções de base radiali —ou simplesmente RBF’s— são funções em geral não-
lineares cujo valor cresce ou decresce monotonicamente à medida que a distância a um
ponto central aumenta. A esse ponto costuma-se chamar de centro da função de base
radial.
O uso das RBF’s no contexto de aproximação de funções tem sua origem na teoria
da interpolação multivariada [58, 59]. No seu sentido estrito, o problema de interpolação
pode ser formulado da seguinte maneira:
Dado um conjunto de pontos diferentes e um con-: ; B D E 1 ) FIFHF J

: ; CB D E 1 G) FHFIF J
, encontre uma fun-
ção
AK ,
junto deescalares
correspondentes
que satisfaça a condição de interpolação:
!K ; ; 1 D E 1 )GFHFIF (7)
A técnica das RBF’s consiste em escolher uma função de aproximação K que tem a
seguinte forma:

K

$; =B B ; B B
;

; (8)
BIB F B B representa uma norma (em geral euclidiana) e 8; são as funções de base radial

cujos centros coincidem com os pontos ; dados. A semelhança com a equação 6 é
onde
aparente.
Com os parâmetros das RBF’s definidos, basta determinar os coeficientes . Inse- ;
rindo as condições de interpolação da equação 7 em 8, obtém-se o seguinte conjunto de
4
Para a definição formal de uma função de Green, aconselha-se a leitura de [29] e das referências
pertinentes nele contidas. Vale observar que essa definição não é indispensável para a presente discussão.
i
Radial basis functions

equações lineares:

*

*

..*

..*>*
.. ..

.. *

..*

. . . . . . (9)
*

onde
; $;

, é a chamada matriz de interpolação e e correspondem, respec-
tivamente, ao vetor de pesos lineares e ao vetor de respostas desejadas.
Assumindo que seja não-singular, o vetor de pesos lineares
pode ser obtido da
seguinte forma:

(10)
A questão que surge é: como se pode ter certeza da não-singularidade da matriz ?

Para respondê-la, pode-se mencionar um importante teorema, chamado de Teorema de
Micchelli, que garante que para uma classe de funções de base radial a matriz é não
singular. A seguir algumas das funções pertencentes a essa classe são apresentadas.
$; BIB ; B B *

Função gaussiana

;*

(11)
; B B ; B B *
Função multiquadrática

;* (12)
Função multiquadrática inversa

E
; B B ; B B * ;*
(13)

;
onde, em todos os casos, representa o centro da função de base radial e é a sua ;
BIB ; BIB * ;
largura. O parâmetro pode ser interpretado como um fator de escala para a distância
. No caso da função gaussiana, por exemplo, o valor de 8;
; -

descresce mais
rapidamente quando . A definição das larguras tem um forte impacto sobre as ;
características da função de aproximação [24, 10, 53].
A função gaussiana e a multiquadrática inversa são funções locais, ou seja, fornecem
uma resposta significativa apenas na vizinhança do centro . A função multiquadrática,
;
por sua vez, é global, uma vez que o seu valor torna-se ilimitado quando a distância /;
; (E
ao centro tende ao infinito. A figura 4 ilustra essa diferença para o caso unidimensional
com centro na origem e .
As funções locais, especialmente a gaussiana, são mais comumente usadas do que as
que apresentam respostas globais [52]. Uma característica que as torna particularmente

3.5
Multiquadratica inversa
Multiquadratica
Gaussiana
3
2.5
1.5
0.5
0
-3 -2 -1 0 1 2 3
Figura 4: Funções de base radial que são cobertas pelo Teorema de Micchelli
atraentes é a sua maior plausibilidade biológica (discutida na seção 9). Em contrapartida,

alguns resultados citados em [29] indicam que as funções que tendem ao infinito podem
ser adotadas para aproximar um mapeamento de entrada-saída suave com maior precisão
do que as funções locais.
Para o problema de interpolação estrita como aqui formulado, a superfície de inter-
polação é obrigada a passar por todos os pontos dados. A generalização significa, nesse
caso, interpolar a superfície nas regiões onde não há exemplos disponíveis [9]. A figura 5

mostra uma possibilidade de aproximação da curva (equação 2) utilizando-se 10 fun-
; G) F 3
ções gaussianas centradas nos pontos de exemplo mostrados na figura 2 e com larguras

.
600
500
400
300
200
100
-100
-200
-300
-400
0 2 4 6 8 10

Figura 5: Aproximação de utilizando-se E- funções gaussianas

Como bem observado em [56], é possível estruturar quase todos os esquemas de apro-
ximação como algum tipo de rede que pode ser considerada uma rede neural. As redes
neurais, afinal de contas, podem ser interpretadas como sendo uma notação gráfica para
uma grande classe de algoritmos. Na próxima seção, será apresentada uma arquitetura de
rede que pode ser sugerida como um método de implementação da teoria da regularização
discutida na seção 2.
4 Redes de regularização
Muitos dos conceitos utilizados por teóricos e praticantes de redes neurais parecem ser
uma releitura de conceitos estatísticos [67, 52]. Como, então, explicar a verdadeira explo-
são que ocorreu nessa área, especialmente na década de 80 [29]? A diferença fundamental
é que as redes neurais oferecem um arcabouço gráfico e, possivelmente mais importante
do que isso, uma analogia biológica para esses conceitos. Parece, portanto, justificável
tentar encontrar tais sustentações para a teoria da regularização (seção 2). Nessa seção, é
apresentada uma rede que implementa essa teoria. Na seção 9 sua plausibilidade biológica
é discutida.
A rede de regularização é uma rede neural alimentada adiante i com apenas uma ca-
mada oculta, como mostrado na figura 6. A primeira camada da rede consiste de unidades

de entrada (ou nós-fonte) cujo número é igual à quantidade de variáveis independentes do
problema —em outras palavras, igual à dimensão do vetor de entrada .
G1
w1
x1
G2 w2
w3 n f
x2 G3
wp
xn
Gp
Figura 6: Rede de regularização
A segunda camada —ou camada oculta— é composta por unidades não-lineares to-
; ; 1 ; 1 FHFHF ; ;
talmente conectadas aos nós de entrada. Existe uma unidade oculta para cada ponto dado
. O ponto corresponde ao centro da i-ésima unidade oculta, e suas

*
coordenadas estão representadas na rede através de suas conexões com os nós de entrada.
Isso significa que a conexão entre a i-ésima unidade oculta e o j-ésimo nó-fonte representa
i
Feedforward neural network

;

a coordenada
. As funções de ativação [29, 17] de cada unidade oculta correspondem
às funções de Green da expansão6, ou seja, a saída da i-ésima unidade oculta é .
1 ;
Finalmente, a camada de saída, também totalmente conectada à camada oculta, con-
siste de uma ou mais unidades lineares. Por “linearidade” entenda-se que a resposta da
rede é uma soma linearmente ponderada das ativações das unidades ocultas. Os “pesos”
; da camada de saída são os coeficientes desconhecidos da equação 6.
É interessante observar que a arquitetura da rede de regularização é totalmente defi-
nida pelo problema de aprendizagem (ou aproximação). Além disso, ao contrário do que
acontece com a maioria das arquiteturas de redes atuais, todos os pesos entre a camada de
entrada e a camada oculta são conhecidos. Do ponto de vista da teoria de aproximação,
as redes de regularização apresentam três propriedades altamente desejáveis [56, 26, 29]:
Em [26], Girosi e Poggio mostram que uma rede de regularização pode aproximar
arbitrariamente bem qualquer função multivariada contínua em um domínio com-
pacto, dado um número suficientemente grande de unidades na camada oculta.
Como o esquema de aproximação derivado da teoria da regularização é linear em

;
relação aos coeficientes desconhecidos , pode-se mostrar que ele tem a chamada
propriedade da melhor aproximação. Isso significa que, dada uma função desco-
nhecida , sempre existe uma escolha de coeficientes que aproxima melhor do
que todas as outras escolhas possíveis. Essa propriedade não é compartilhada, por
exemplo, pelos perceptrons de múltiplas camadasi —ou MLP’s [46, 29]— geral-
mente adotados com o algoritmo de retropropagação do erro i [65].
A solução computada pela rede de regularização é ótima no sentido que ela mini-
miza um funcional que mede o quanto ela oscila. Isso elimina soluções que inter-
polam perfeitamente os pontos dados mas oscilam excessivamente em regiões onde
não há dados conhecidos (como no exemplo da figura 3(b)).
Embora a rede de regularização apresente essas características positivas, existem al-

gumas questões em relação à sua estrutura que podem torná-la um pouco menos atrativa.
Especificamente, o fato de existir um centro para cada ponto de exemplo pode tornar
?
sua implementação impraticável. O cálculo dos pesos lineares ; requer a inversão de
uma matriz de dimensão , e esse processo cresce de forma polinomial —de acordo
com [60], é possível implementá-lo na ordem de

. Além disso, a possibilidade de

mau condicionamento é maior para matrizes maiores. Dessa forma, pode-se pensar em
uma arquitetura mais geral, em que esses problemas não ocorram (ou pelo menos não de
maneira tão severa). Esse é o assunto da próxima seção.
i
Multilayer perceptrons
i
Error backpropagation

5 Redes RBF
As redes de função de base radial (ou redes RBF) podem ser interpretadas como sendo
uma aproximação da solução regularizada. Especificamente, a exigência de uma corres-
pondência de um-para-um entre os dados de entrada e os nós da camada oculta é relaxada.
A abordagem se baseia na busca por uma solução sub-ótima que aproxime . A K
solução aproximada tem a seguinte forma:
!
; ;

B D ; (14)
onde : $; E 1
) FIFHF 5 J é um conjunto de 5 funções de base radial linearmente inde-

pendentes e ; , como no caso anterior, são coeficientes lineares a serem determinados.

A figura 7 esquematiza a arquitetura das redes RBF. Nota-se claramente que essa
arquitetura pode ser facilmente estendida para o caso em que exista mais de uma variável
de saída. Nota-se também que nessa rede prevê-se o uso de uma variável independente
dos dados, em geral chamada de tendência ou bias. Ela é aplicada à unidade de saída

simplesmente igualando-se um dos pesos lineares (nesse caso, ) da camada de saída
E
ao valor do bias e tratando a função de base radial associada como uma constante igual a
. Em geral, a adição de uma tendência é feita para compensar a diferença entre o valor
médio das ativações das RBF’s sobre todo o conjunto de dados e dos correspondentes
valores-alvo.
5
Tipicamente, o número de RBF’s é menor do que a quantidade de pontos dados.
Isso acrescenta uma dificuldade ao problema: o número de unidades ocultas da rede passa
a ser um parâmetro desconhecido e tem que ser determinado.
5
O valor de está intimamente ligado à complexidade da função computada pela rede.
Se o número de RBF’s na camada oculta for subestimado, a função resultante pode ser
muito simples e incapaz de aproximar bem o fenômeno gerador dos pontos conhecidos
(veja o exemplo da figura 3(a)). Por outro lado, um número muito grande de unidades
ocultas provê a rede com uma capacidade computacional excessiva, e a generalização
bem-sucedida passa a depender diretamente do parâmetro de regularização .
O interessante a se notar é que, se existir uma forma de se estimar um número ade-
quado de RBF’s na rede, pode-se tornar a complexidade da função aproximativa com-
patível com o fenômeno gerador dos pontos. Nesse caso, a presença de um termo de
regularização explícito pode se tornar dispensável [54, 24], o que evitaria o problema de
se encontrar um valor adequado para . O tamanho da rede passa a estar, portanto, mais
relacionado com a complexidade da função a ser aproximada do que com o tamanho do
conjunto de dados propriamente dito. Esse tipo de estratégia está diretamente relacionada
com técnicas de podai na área de redes neurais [66, 45, 30, 40] e com os critérios de
seleção de modelo da estatística [68, 52]5 .
i
Prunning
5
Vale observar que em [25], Federico Girosi afirma que a suavização com a regularização tradicional é

diferente daquela obtida controlando-se o número de unidades ocultas da rede. Ele afirma, inclusive, que
para alguns casos, quando a solução encontrada é sempre sub-ótima.

+1
w0
q1
w1
q2 w2
x1
w3 3 f
x2 q3
wm
xn
qm
Figura 7: Rede RBF
5
Além do número de funções na camada oculta, essa nova estrutura de rede depende
da determinação de um outro parâmetro que antes estava definido pelo problema: a posi-
ção dos centros das RBF’s. Ao contrário do que acontecia com a rede de regularização,
nas redes RBF os centros das unidades ocultas não são coincidentes com os pontos de
exemplo. Sua definição passa então a ser parte do problema e deve ser feita de maneira tal
que os centros sejam uma amostra representativa da distribuição dos dados conhecidos.
Pode-se, ainda, acrescentar mais um grau de liberdade ao modelo, permitindo que as
larguras das funções de base radial façam parte do processo de aprendizagem. Isso signi-
;
fica que os parâmetros podem ser ajustados às peculiaridades do problema, de maneira
conjunta —em que todas as RBF’s têm a mesma largura— ou de forma independente, em
;
que cada uma tem um valor específico.
Em [56], Poggio e Girosi apresentam a possibilidadde de, ao invés de se utilizar na
equação 14 uma norma euclidiana convencional, utilizar-se uma norma ponderada gené-
rica, cuja forma quadrática é dada por:
B B ; B B * ; ;

(15)

onde é uma matriz quadrada de ponderação de norma e

se refere à operação de
transposição.
No caso mais simples em que fosse diagonal, os elementos ;;
atribuiriam um
peso específico para cada coordenada do espaço de entrada. A norma euclidiana padrão
poderia ser recuperada quando fosse uma matriz identidade. A definição dos pesos da
matriz de ponderação estaria associada com a questão de redução da dimensionalidade do
problema [25].
Existe, no entanto, alguma evidência na literatura de que a utilização de uma norma
ponderada e o uso de centros móveis são duas maneiras distintas de se obter o mesmo
efeito. O estudo realizado por Wettschereck e Diettwrich em [70] demonstra que a im-
portância relativa de cada dimensão da entrada pode ser extraída pelo posicionamento dos
centros das RBF’s. Nessa hipótese, o posicionamento dos centros seria guiado pelas co-
ordenadas que representassem as características mais importantes do problema. Embora
essa pesquisa não seja conclusiva, o uso de uma norma ponderada não será considerada
aqui como parte da arquitetura das redes RBF.
As redes RBF podem, portanto, ser consideradas como uma arquitetura de rede mais
geral do que as redes de regularização, na medida em que dispõe de um número maior de
parâmetros configuráveis. A rede de regularização pode ser recuperada como uma con-
figuração específica dessa arquitetura [56, 29]. Se, por um lado, isso acrescenta alguma
dificuldade ao problema —que antes se restringia a uma inversão de matriz—, por outro
lado esses parâmetros extras provêm a rede RBF com uma enorme flexibilidade.
Apenas como forma de ilustração, a figura 8 apresenta uma possibilidade de aproxi-

mação da função —definida pela equação 2— por uma rede RBF com centros móveis e
E-
;
larguras independentes. Comparando-a com a figura 5, em que foram utilizadas fun-
ções gaussianas, nota-se que é possível alcançar uma função aproximativa com a mesma
qualidade utilizando-se apenas funções desse tipo.
600
400
200
-200
-400
-600
0 2 4 6 8 10

Figura 8: Aproximação de utilizando-se uma rede RBF com unidades ocultas

Terminada a descrição das redes RBF, pode-se dizer que trata-se de uma arquitetura
altamente flexível e poderosa. Resumindo, pode-se enumerar os seguintes parâmetros
ajustáveis em uma rede desse tipo:
5
Número de RBF’s O número de funções de base radial na camada oculta está direta-
mente ligado à complexidade da função computada pela rede, e pode ser inter-
pretado como uma maneira de se controlar o nível de suavidade da aproximação.
Posição dos centros Os centros das funções de base radial são determinados como parte
do processo de aprendizagem, ao invés de estarem restritos à posição dos dados
conhecidos. O número e posição dos centros deve compor um conjunto que seja
representativo da amostra de pontos dada.
;
Largura das RBF’s Os parâmetros também podem ser adaptados, permitindo que a
função aproximativa se adeqüe às peculiaridades do problema, como por exemplo
níveis de suavidade diferentes em regiões distintas.
Coeficientes lineares Os coeficientes ;representam os pesos que compõem a soma

ponderada executada pelas unidades de saída e também devem ser determinados.
Esses são os parâmetros afetados caso se utilize a regularização.
Pode-se mostrar que a flexibilidade adicionada à rede pela mobilidade dos centros
é suficiente para torná-la um aproximador universal para funções contínuas [26]. Isso
significa que ela pode aproximar arbitrariamente bem qualquer função desse tipo, desde
que possua um número adequado de unidades na camada oculta. Esse teorema é de suma
importância ao fornecer as bases teóricas sobre as quais se fundamentarão as aplicações
reais. Ele não oferece, no entanto, um procedimento prático para a construção de tais
aproximadores. Esse assunto é discutido na seção 7.
6 Reconhecimento de padrões
Como foi visto, toda a teoria sobre redes RBF é fundamentada em conceitos prove-
nientes da teoria de aproximação. No entanto, uma boa parte dos problemas em que as
redes neurais têm sido aplicadas com sucesso pode ser caracterizada como tarefas de re-
conhecimento de padrões. O reconhecimento de padrões pode ser formalmente definido
como sendo o processo pelo qual um ponto (ou padrão) recebido é atribuído a uma classe
dentre um número pré-determinado dessas [29].
Felizmente, o problema de classificação pode ser visto como um caso particular de
um mapeamento real contínuo, do tipo que as redes RBF foram projetadas para reali-
zar [47]. No reconhecimento de padrões, cada ponto é associado a uma classe deter-
minada. Dessa forma, a saída do problema é discreta —tomada dentre um número de

possibilidades potenciais—, ao contrário do que acontece em problemas de aproximação,

em que a saída é contínua. O segredo, nesse caso, é interpretar a resposta contínua da
rede como sendo proporcional à probabilidade de que um determinado padrão pertença à
classe correspondente [52].
Os pontos de exemplo têm então seu “rótulo” indicativo de classe substituído por valo-
E
res numéricos. Basta, para isso, associar ao rótulo refente à sua classe uma probabilidade
-
de que o ponto pertença àquela classe. Aos rótulos correspondendo às demais catego-
rias é atribuída uma probabilidade . Dessa forma, a saída associada com cada ponto de
exemplo é representada por um vetor de dimensão , onde é o número de classes. Todos
-
E
os elementos desse vetor são iguais a , com exceção daquele que corresponde à classe
de aproximação de funções do tipo

$: - 1 E/J
de interesse, cujo valor é . Configurado dessa forma, o problema corresponderia à tarefa

[56].
O número de unidades de saída da rede corresponde nesse caso ao número de clas-
ses consideradas no problema. Depois de configurado, o modelo responde a um novo
padrão com valores contínuos para cada unidade da camada de saída. Esses valores são
interpretados como sendo proporcionais à probabilidade de que o ponto pertença à classe
associada com cada unidade. O modelo realiza então a classificação do padrão com base
nesses valores.
No caso das redes RBF, a capacidade de separação do modelo está fundamentada em
um teorema conhecido como teorema de Cover sobre a separabilidade de padrões. Esse
é o assunto seguinte.
6.1 Teorema de Cover
@
. Em um
Pode-se dizer que a rede RBF realiza dois mapeamentos. O primeiro, do espaço de
entrada para o espaço oculto, pode ser representado como
problema de reconhecimento de padrões, o segundo mapeamento é do tipo

,
8
e mapeia as ativações das RBF’s em um vetor contínuo que indica a probabilidade de o
ponto de entrada pertencer a cada categoria considerada.
Não é difícil perceber que a função computada pela camada de saída da rede é linear.
;
Logo, o mapeamento realizado por cada unidade de saída —correspondente às classes
;
— pode ser interpretado como um hiperplano de dimensão 5 E
. Essa superfície separa
;
o espaço de entrada em dois conjuntos: pontos que pertencem à classe e pontos que não
pertencem a essa classe6 .

ou de uma reta em .
O poder de separação de um hiperplano é claramente limitado. Para visualizar essa
observação, basta imaginar o caso de um plano pertencente a
*
Quando um conjunto de pontos representando duas categorias distintas pode ser separado
*
por um hiperplano ele é dito linearmente separável. A figura 9 ilustra dois conjuntos de
pontos pertencentes a , um linearmente separável e outro não.
6
De fato, no caso em que , a superfície de separação é definida pela interseção desse hiperplano
com os demais hiperplanos definidos pelas outras unidades de saída. Esse nível de detalhes não é, no
entanto, necessário para a presente discussão.

(a) Padrões linearmente separáveis (b) Padrões não linearmente separáveis
Figura 9: Exemplos de conjuntos de dados linearmente separáveis e não linearmente

separáveis ( é o hiperplano separador —nesse caso, uma reta)
Como o poder de separação da camada de saída é limitado, espera-se que os padrões

estejam dispostos no espaço oculto de forma que eles sejam linearmente separáveis. Essa
expectativa não é, obviamente, um ato de fé. Ela está baseada no teorema de Cover,
descrito a seguir de maneira qualitativa [29].
Teorema 1 (Cover) Um problema complexo de classificação de padrões dispostos não

linearmente em um espaço de baixa dimensão tem maior probabilidade de ser linear-
mente separável em um espaço de alta dimensionalidade.

para um espaço
A estratégia das redes RBF em problemas de classificação complexos é baseada nesse

, de forma que os padrões se tornem linearmente se-
teorema: a rede realiza a transformação não-linear de um espaço
de dimensionalidade mais alta

paráveis e possam ser classificados pela camada de saída. A figura 10 ilustra uma pos-
sível transformação do espaço
*
da figura 9(b) —onde o conjunto de dados não era
linearmente separável— para , onde a separação pode ser feita através de um plano
separador .
7 Algoritmos de treinamento de redes RBF
Talvez esse seja um bom momento de se tirar da gaiola o rato da experiência de Ni-
colelis e Chapine para utilizá-lo como metáfora para a presente discussão. Como descrito
na seção 1, um dos primeiros passos da experiência era ensinar o pequeno animal a em-
purrar uma barra quando estivesse com sede. Através desse processo ele deveria criar um
mapeamento interno que associasse o movimento de sua pata dianteira com a recompensa.
A questão que surge nesse caso é: como ensinar-lhe esse mapeamento? Evidente-
mente, pode-se pensar em diferentes estratégias, que vão desde métodos mais ortodoxos


por uma reta em
*
Figura 10: Conjunto de pontos linearmente separável em que não podia ser separado
e hoje condenados —como o choque nos cães de Pavlov— até técnicas de premiação
(quem não se lembra do golfinho Fliper?). Pode-se chamar essa estratégia de aprendiza-
gem, seja ela qual for, de treinamento.
Como já discutido, a aprendizagem pode ser encarada como sendo o problema inverso
de reconstrução de uma hipersuperfície, da qual se conhece apenas alguns pontos. A idéia
é encontrar um mapa —ou função— que aproxime essa superfície tão bem quanto seja
possível. As redes RBF, como aproximadores universais, oferecem um arcabouço para a
função aproximativa. O treinamento de uma rede RBF significa, então, o processo pelo
qual os parâmetros da rede são ajustados de forma que ela possa sintetizar o mapeamento
original.
Já foi mencionado anteriormente que quando se treina uma rede neural o objetivo não
é simplesmente “armazenar” em sua estrutura os dados conhecidos. A idéia é, na verdade,
criar um mapeamento suave que seja capaz de interpolar coerentemente em regiões onde
não existam dados. Independentemente da estratégia de treinamento considerada, é alta-
mente desejável que a rede treinada seja validada, a fim de que se tenha uma estimativa
do seu comportamento quando submetida a dados desconhecidos.
Dessa forma, é comum dividir-se o conjunto de pontos conhecidos em dois sub-
grupos, chamados de conjunto de treinamento e conjunto de teste. Os pontos de trei-
namento são utilizados para se ajustar os parâmetros da rede. O conjunto de teste, por
sua vez, só é visto pelo modelo já treinado —ou seja, não influencia a configuração da
rede—, e serve como um indicador da sua qualidade. Caso haja um excesso de ajuste aos
dados de treinamento, espera-se que o desempenho do modelo nos dados de teste acuse
essa situação.
7.1 A função de custo
Em geral, os algoritmos de treinamento de redes neurais procuram minimizar uma

função de custo que forneça alguma medida da qualidade do mapeamento realizado

pela rede. Uma escolha comum é a soma dos erros quadráticos i ou SSE, dada por:

;

; ! ; *

(16)
onde é o o número de pontos no conjunto de treinamento.
cada par
; 1 ;
Uma outra opção é adotar como função de custo o erro médio cometido pela rede para
. Essa medida constitui o erro quadrático médioi ou simplesmente MSE:
E

;

; ; *

(17)
Quando se adota simplesmente o SSE ou o MSE como função de custo, sua minimi-
zação pode levar a um excesso de ajuste do modelo, que pode, por exemplo, incorporar
ruídos contidos nos dados de treinamento. Para evitar que esse ajuste excessivo ocorra,
pode-se adotar diferentes posturas. Uma delas é supor que o mapeamento original é suave
e incorporar à função um termo para balancear o erro de treinamento com o nível de
suavidade da função aproximativa . Uma opção seria adotar como função de custo o
funcional de Tikhonov, discutido na seção 2:

;
;

; ! ; *

* (18)
Uma outra forma de se evitar o excesso de ajuste é adotar alguma medida que for-
neça uma estimativa do erro de generalização, ao invés de simplesmente medir o erro
de treinamento. Uma abordagem bastante utilizada para esse fim é a chamada validação
cruzada [29]. Nela, particiona-se a amostra de treinamento em dois subconjuntos, um
chamado de subconjunto de treinamento e o outro de subconjunto de validação.
Apenas os dados do subconjunto de treinamento são utilizados para configurar os pa-
râmetros da rede. Como os pontos de validação não fazem parte do treinamento, espera-se
que eles forneçam uma estimativa razoável do comportamento da rede quando submetida
a dados não vistos. O treinamento pára quando o erro no conjunto de validação atinge
o seu mínimo. É interessante observar que, embora o MSE ou SSE no conjunto de trei-
namento sejam utilizados durante a aprendizagem, a função de custo que se pretende
minimizar de fato são esses valores sobre o conjunto de validação.
É importante mencionar que, caso se utilize um conjunto de teste, na validação cru-
zada a massa de dados original fica particionada em três conjuntos: subconjunto de trei-
namento, subconjunto de validação e conjunto de teste. Vale fazer uma distinção entre
o conjunto de teste e o subconjunto de validação. Enquanto o primeiro não participa em
nenhum momento do treinamento, o segundo —embora não utilizado diretamente para
se estimar o valor dos parâmetros da rede— fornece uma informação crucial durante o
processo (ou seja, influencia a aprendizagem).
i
Sum squared error
i
Mean square error

Uma outra estimativa do erro de generalização são os chamados critérios de seleção

de modelo da estatística [52]. Ao invés de particionar efetivamente o conjunto de treina-
mento, os critérios de seleção fornecem um compromisso entre o erro e a complexidade
do modelo. Um desses critérios é o GCV (validação cruzada generalizada i ), dado pela
seguinte expressão:

; ; *
5 * ;

(19)

onde 5 é o número de RBF’s na camada oculta.

De acordo com [66], um critério de seleção de modelo que parece ser mais adequado
ao uso com modelos não-lineares —o que é confirmado em [54]— é o critério bayesiano
de Schwarzi ou simplesmente SBC [68]:

& E 5

; ; *
5

;

(20)
É interessante notar que, como o cálculo dos critérios de seleção envolve uma me-
dida da complexidade da rede, só tem sentido adotá-los quando a arquitetura do modelo
também está submetida ao processo de otimização (daí o seu nome). Pode-se, inclusive,
adotá-los com outras funções de custo. Um caso típico seria gerar diferentes arquitetu-

ras de rede, treiná-las segundo a minimização de ou e depois compará-las

considerando ou .
É possível, ainda, se utilizar os critérios de seleção de modelo conjuntamente com a
regularização (como por exemplo em [50]), uma vez que os dois métodos podem promo-
ver diferentes qualidades de suavidade da função aproximativa [25] 7 .
7.2 Treinamento das redes RBF como um modelo linear
Se o número de funções de base radial, bem como seus centros e larguras, forem man-
tidos fixos durante o processo de treinamento, a rede RBF pode ser vista como um modelo
linear [52]. Desse modo, o treinamento fica reduzido à determinação dos coeficientes da
camada de saída . ;
Pode-se pensar a princípio em se realizar simplesmente uma inversão de matriz. Se a
regularização for adotada, no entanto, torna-se necessário definir uma estratégia para se
estimar um valor razoável para o parâmetro de regularização , a fim de introduzir o nível
adequado de suavidade na função aproximativa.
Orr apresenta em [52] uma maneira de se estimar o parâmetro de regularização .
Como o próprio autor observa, não se trata de uma solução para o problema de otimização,
i
Generalized cross-validation
i
Schwarz’s bayesian criterion
7
No caso de se adotar a regularização, as expressões para o cálculo dos critérios de seleção de modelo
são um pouco diferentes [52].

mas de uma fórmula que permite estimativas sucessivas cada vez melhores através de sua
iteração. A fórmula é derivada de maneira a se tentar minimizar o GCV (seção 7.1).

Partindo de um valor inicial , pode-se utilizá-la para calcular uma nova estimativa e
assim por diante, até a convergência.
Do mesmo autor, o trabalho [53] pode ser considerado como uma extensão do ante-
rior. Partindo do mesmo pressuposto de que a rede é um modelo linear (centros e larguras
das RBF’s fixos), desenvolve-se uma fórmula computacionalmente muito eficiente para
se estimar o parâmetro de regularização global . A grande diferença em relaçao à abor-
dagem anterior é que essa nova fórmula não exige uma inversão de matriz, como era o

caso. Isso permite, por exemplo, que vários valores iniciais possam ser tentados com
um custo computacional razoável. O autor vai ainda mais longe: com os centros fixos,
ele tenta diferentes valores para a largura das RBF’s —que no caso é a mesma para
todas as funções—, executando o processo de otimização de para cada uma. De acordo
com Orr [53], se uma quantidade razoável de larguras for tentada (dentro de uma faixa de
valores sensata), pode-e encontrar o mínimo global para o GCV em relação à .
Finalmente, Orr apresenta em [51] uma maneira de se otimizar uma rede RBF com
regularização local, em que cada coeficiente ;
da camada de saída está associado com
;
um parâmetro de regularização . De uma maneira similar aos outros trabalhos, o autor
;
apresenta uma fórmula para se estimar cada parâmetro local com o objetivo de minimi-
zar o GCV. No entanto, como nesse caso a otimização simultânea de todos os parâmetros
não é possível, é sugerida uma abordagem iterativa em que um
específico é otimizado
enquanto os demais são mantidos fixos. Orr afirma que essa técnica tende a gerar modelos
sensivelmente superiores àqueles gerados por métodos com regularização global, a não
ser que a função-alvo a ser aproximada apresente uma suavidade uniforme em todo o seu
domínio.
7.3 Treinamento totalmente supervisionado
Quando os centros e as larguras das funções de base radial da camada oculta não são
fixados, a configuração dos parâmetros de uma rede RBF pode ser vista como sendo um
problema de otimização não-linear. Nada mais natural do que se considerar um método
que trate desse tipo de problema, como por exemplo um procedimento de descida pelo
gradiente [60]. Nesse caso, o primeiro passo seria definir a função de custo. A seção 7.1
apresenta várias alternativas para essa escolha.
A estratégia se baseia em ajustes sucessivos nos parâmetros da rede, aplicados no
sentido da descida mais íngreme, ou, em outras palavras, na direção em que a função de
custo descresce mais. Sabe-se que essa direção é a mesma do vetor gradiente, mas no
sentido oposto [29]. O próximo passo seria, então, definir os termos de atualização. Para
um parâmetro genérico , pode-se fazer 8 :

(21)
8
Ghosh e Nag apresentam em [24] os termos de atualização explícitos para o caso da função gaussiana.

onde é a taxa de aprendizagem [29].

A atualização do parâmetro seria simplesmente:
E (22)
Essa estratégia é a base para o algoritmo do mínimo quadrado médio i —ou LMS [29]—
adotado em perceptrons de uma única camada, cuja generalização resultou no conhecido
algoritmo de retropropagação do erro para os perceptrons de múltiplas camadas.
Uma possibilidade que se abre nesse tipo de treinamento é a adoção da validação
cruzada (seção 7.1). Nesse caso, a atualização dos parâmetros seria feita com o conjunto
de treinamento, e o processo seria interrompido no momento em que o SSE ou MSE
do conjunto de validação começasse a crescer. Essa abordagem é muito adotada por
praticantes de redes neurais e é conhecida como parada antecipada i [66].
Como o procedimento depende diretamente da diferenciação da função de custo , e o
valor dessa função depende por sua vez dos valores-alvo , pode-se dizer que esse tipo de
;
aprendizagem depende intrinsecamente da apresentação de uma resposta desejada. É pos-
sível fazer uma analogia com a situação em que um professor que conhece a resposta cor-
reta supervisiona a aprendizagem do aluno, informando-lhe, inclusive, sobre a magnitude
do erro cometido. Por causa dessa analogia, esse tipo de treinamento é conhecido como
treinamento com um professor ou simplesmente treinamento supervisionado [52, 29].
Wettschereck e Dietterich realizaram em [70] uma série de experimentos em que sub-
meteram os diversos parâmetros das redes RBF —inclusive a matriz de ponderação de
norma— à aprendizagem supervisionada descrita. Como principal resultado, eles chega-
ram à conclusão de que as redes RBF com o posicionamento supervisionado de centros
são capazes de superar substancialmente o desempenho de generalização dos perceptrons
de múltiplas camadas. Esses resultados estão de acordo com aqueles encontrados por
Moody e Darken em [47] em um problema de aproximação quadrático.
Embora o treinamento supervisionado possa gerar bons resultados, existem algumas
desvantagens associadas com essa escolha [47, 24]. Em primeiro lugar, trata-se de um
método de otimização não-linear computacionalmente caro, cuja convergência pode ser
muito lenta. Além disso, esse tipo de otimização não impõe nenhuma restrição arqui-
tetural nos parâmetros da rede. Uma conseqüência disso é que dois centros podem ser
posicionados muito próximos um do outro, ou mesmo coincidirem 9 . Particularmente, no
;
caso de RBF’s locais, as larguras não ficam confinadas a valores pequenos e perde-se
a propriedade da localidade.
A natureza das redes RBF permite uma estratégia de treinamento não-usual e que
oferece algumas vantagens quando comparada com a aprendizagem supervisionada. Esse
é o assunto da seção seguinte.
i
Least mean square
i
Early stopping
9
Pode-se tentar impedir essa conseqüência indesejável acrescentado-se ao processo de otimização um
termo a mais, que penalize centros muito próximos uns dos outros. Veja detalhes em [56].

7.4 Treinamento semi-supervisionado
Quando utilizando funções locais, a arquitetura das redes RBF possibilita uma forma
de aprendizagem híbrida que apresenta muitos atrativos. A idéia principal por trás dessa
estratégia é desacoplar o treinamento em duas fases, uma supervisionada e outra não-
supervisionada ou auto-organizada.
Na fase não-supervisionada, a posição dos centros e as larguras das RBF’s são
; ;
determinadas. Com a camada oculta da rede totalmente definida, pode-se calcular o valor
dos coeficientes ;
através de uma inversão de matriz, como no caso das rede de regula-
rização.
Uma das principais vantagens desse tipo de treinamento é o seu baixo custo compu-
tacional. De acordo com [47], o treinamento semi-supervisionado é centenas ou milhares
de vezes mais rápido do que o algoritmo de retropropagação. Nesse mesmo trabalho, os
autores relatam um caso em que simplesmente não conseguiram treinar um perceptron
com o algoritmo de retropropagação, dado o tempo de máquina necessário.
Evidentemente, o posicionamento não-supervisionado dos centros leva a uma con-
figuração sub-ótima, que pode ser muito inferior àquela alcançada por um treinamento
supervisionado [47, 70]. Mesmo assim —de acordo com [24]— em muitas situações prá-
ticas, em que se dispõe de dados de treinamento e recursos computacionais limitados, o
treinamento semi-supervisionado pode gerar resultados melhores do que aqueles obtidos
ao se tentar otimizar simultaneamente os dois conjuntos de parâmetros.
7.4.1 Fase supervisionada
Uma vez definidas a posição dos centros e as larguras das RBF’s, pode-se adotar um
método de descida pelo gradiente, como o algoritmo LMS (seção 7.3), para se determinar
os pesos ;
da camada de saída. Uma outra opção talvez mais interessante é considerar
o modelo como sendo linear e resolver a camada de saída através de uma inversão de
matriz [52].
É interessante notar, no entanto, que nas redes RBF o número de unidades ocultas
não coincide necessariamente com o número de pontos do problema. Isso significa que
o sistema de equações resultante difere ligeiramente daquele descrito para a interpolação
estrita na seção 3. Especificamente, pode-se escrever:

*

*

..*

..*>*
.. ..

.. *

..*

. . . . . . (23)
*

onde a matriz é a matriz de projetoi .

i
Design matrix

Como em geral 5, pode-se dizer que trata-se de um sistema super-determinado

(mais equações do que incógnitas), e o problema torna-se um problema de ajuste. Con-

siderando como sendo a função de custo, pode-se mostrar que o vetor de pesos
lineares que minimiza é dado por10 :

(24)
onde é a pseudo-inversa de , obtida através da seguinte expressão:

(25)
Para minimizar os efeitos de um possível mal-condicionamento de , é recomendá-

vel utilizar para a inversão dessa matriz um método conhecido como decomposição em
valores singularesi ou simplesmente SVD [60, 28].
Como última observação, vale lembrar que esse raciocínio pode ser estendido para o
caso em que a rede apresente mais de uma unidade de saída. No caso, por exemplo, de
; ; D E 1 ) FIFHF
uma rede com unidades desse tipo, basta fixar a matriz e considerar um sistema linear
distinto para cada par de vetores e , com .
7.4.2 Fase não-supervisionada
Na fase não-supervisionada, define-se a posição dos centros e as larguras das funções

de base radial. O notável é que esse procedimento pode ser feito sem se utilizar neces-
sariamente o vetor de respostas desejadas . Pode-se adotar diferentes estratégias para a
definição de ambos os conjuntos de parâmetros. Especificamente, para o posicionamento
dos centros é possível fazer o seguinte:
Seleção aleatória dos centros A abordagem mais simples para se definir a posição
dos centros é simplesmente escolher ao acaso alguns pontos da amostra de treina-
mento para cumprirem esse papel. Essa abordagem é considerada sensata desde
que os dados de treinamento estejam distribuídos de uma forma representativa para
o problema considerado [9]. O interessante a se notar nessa estratégia é que expe-
rimentos com a seleção aleatória de centros indicam que ela é relativamente insen-
sível à regularização; esse tipo de conclusão sugere que o método em si já é uma
forma de regularização.
Agrupamento dos centros Uma outra opção que pode ser mais interessante é agru-
par —ou, utilizando um neologismo, “clusterizar”— os pontos de entrada [47,
38]. Um dos algoritmos de agrupamento mais conhecidos é o das k-médias i [17,

10

No caso de uma função de custo regularizada, a expressão para ótimo é um pouco diferente. Para
uma excelente exposição sobre o processo de obtenção de no caso da regularização, recomenda-se a
leitura do apêndice A4 de [52].
i
Singular value decomposition
i
K-means

16]. A sua idéia é particionar o conjunto original de pontos em subgrupos , ;

cada um dos quais sendo tão homogêneo quanto possível, através da minimização
da seguinte função:

B B
5 ; B B *

;

(26)
5 ;

5 ;
onde é o centro de gravidade (média aritmética) dos pontos pertencentes ao
;
agrupamento . Uma vez definidos os subgrupos , o centro de cada um ;
deles se torna o centro de uma RBF da rede.

A idéia de se agrupar os dados de entrada foi apresentada inicialmente por Moody
e Darken em [47]. Evidentemente, o algoritmo das k-médias não é o único que pode
ser adotado para se realizar o agrupamento dos dados. Na literatura é possível encontrar
propostas que adotam outros métodos de clusterização [38]. No entanto, a qualidade dos
resultados encontrados parece ser insensível à técnica de agrupamento utilizada [7, 8].
Assim como o posicionamento dos centros, a definição das larguras das RBF’s pode
ser feita de várias maneiras. Uma opção é simplesmente adotar a mesma largura para
todas as funções. Nesse caso, pode-se defini-la da seguinte forma [9]:
D

)
D 5 (27)
onde é a distância máxima entre os centros previamente definidos. Essa fórmula
garante que as funções de base radial não sejam “pontiagudas” ou “planas” demais.
Um outra alternativa seria a adoção de centros escalados individualmente para cada
RBF. Funções posicionadas em regiões com menor densidade de dados receberiam lar-
guras maiores, ao passo que aquelas posicionadas em áreas mais “povoadas” receberiam
larguras menores.
Várias heurísticas podem ser adotadas de forma a se alcançar um nível de sobre-
posição adequado entre as respostas das RBF’s vizinhas. A idéia é que se forme uma
aproximação contínua e suave sobre toda a região de interesse no espaço de entrada. Uma
possibilidade apresentada em [47] é simplesmente fazer da largura um múltiplo da
; ;
distância média do centro aos vizinhos mais próximos, ou seja:
E
; "
D >;

(28)

é um conjunto contendo os " pontos mais próximos de ; .
E1
onde
ou
) Tipicamente
, embora seja possível encontrar relatos em que valores mais altos foram
adotados [38].
Pode-se pensar em se utilizar o treinamento semi-supervisionado conjuntamente com
o treinamento totalmente supervisionado (seção 7.3). Essa é a proposta apresentada
em [15]. Nesse trabalho, a rede RBF é submetida primeiramente ao treinamento semi-
supervisionado e, a seguir, todos os parâmetros sofrem um “ajuste fino” através do método

da descida pelo gradiente. Os autores apresentam ainda uma proposta de inicialização do

algoritmo das k-médias para evitar que ele fique preso em mínimos locais.
7.5 Algoritmos construtivos
Tanto o treinamento supervisionado quanto o treinamento semi-supervisionado ofere-

cem maneiras efetivas de se configurar as camadas de uma rede RBF. Nenhum dos dois,
no entanto, lida com o problema de se especificar a complexidade do modelo ou, em ou-
tras palavras, de se determinar a quantidade de funções de base radial na camada oculta.
Como já discutido, o número de unidades ocultas está diretamente relacionado com a ca-
pacidade computacional da rede. À medida que o número de RBF’s aumenta, aumenta
também o conjunto de funções computáveis por ela. Uma rede sem unidades ocultas,
por exemplo, só é capaz de realizar mapeamentos lineares. A questão é especificar um
número de RBF’s que seja compatível com a “função” que gerou os dados de treinamento.
Uma maneira de se atacar esse problema é adotando a mais simples das estraté-
gias: tentativa-e-erro. Pode-se, por exemplo, começar com uma rede muito simples —
possivelmente linear—, treiná-la, e avaliar o resultado. Caso seja satisfatório, o processo
pode ser interrompido. Caso se deseje um maior nível de precisão, tenta-se uma arqui-
tetura mais complexa e assim por diante. Pode-se pensar também em fazer o contrário:
iniciar o processo com uma rede com muitas unidades e ir reduzindo-a.
Uma alternativa provavelmente mais sensata é superestimar propositalmente o número
de funções na camada oculta, de forma a garantir que a rede disponha da capacidade de
computação mínima necessária, e utilizar a regularização. O objetivo é evitar que os —
muitos— parâmetros da rede se ajustem excessivamente às peculiaridades da amostra de
treinamento. O problema com essa abordagem é a necessidade de se estimar um valor
adequado para o parâmetro de regularização . Uma possibilidade é adotar um dos al-
goritmos descritos na seção 7.2. Mesmo assim, embora não seja estritamente necessário
que o valor ótimo de seja encontrado, valores fora de uma faixa razoável podem levar a
situações altamente indesejáveis, como pode ser visto na figura 3.
Existe ainda uma terceira possibilidade para lidar com o problema de se estimar a
complexidade do modelo. Trata-se de uma classe de algoritmos que podem ser chamados
de algoritmos construtivos. A idéia principal desse tipo de abordagem é considerar o
problema de escolha do modelo como sendo um problema de seleção de subconjunto.
Dado um conjunto fixo de RBF’s candidatas, pode-se comparar diferentes configurações
de rede, cada uma tendo um subconjunto dessas funções compondo a sua camada oculta.
—existem
) @E
Para problemas reais, encontrar o melhor subconjunto possível é geralmente intratável

subconjuntos em um universo de candidatos. Dessa forma, deve-se
adotar algum procedimento heurístico para se analisar de maneira racional uma porção
desse espaço de busca. O algoritmo 7.1 apresenta uma proposta nesse sentido.
O procedimento começa com dois conjuntos, e . O conjunto —inicialmente

vazio— contém as RBF’s “eleitas” para formarem a camada oculta da rede. O conjunto
é composto pelas RBF’s “candidatas” a cumprirem o papel de futuras unidades ocul-
tas. Uma postura geralmente adotada é utilizar os pontos de treinamento para inicializar

; cada ponto se torna o centro de uma RBF candidata e suas larguras são definidas por
alguma heurística apropriada, como por exemplo as descritas na seção 7.4.2. Outras es-
tratégias para se definir o conjunto podem ser adotadas. Uma idéia nesse sentido é

apresentada na seção 7.7.2.
Algoritmo 7.1 Algoritmo-Construtivo ( ; )
Requer: {Conjunto com as RBF’s candidatas a entrarem na rede}

Retorna: {Conjunto com as RBF’s eleitas para constituirem a camada oculta da rede}

início
;
repita
;
selecione o candidato que mais reduza a função de custo

;
; ;

; ;
até critério de parada satisfeito;
fim;
A cada passo do algoritmo, uma nova RBF é adicionada à rede. A escolha da função
de base radial a ser adicionada é feita segundo uma regra simples: escolhe-se a RBF que

promova a maior redução na função de custo . O processo continua até que algum
critério de parada seja satisfeito. Uma alternativa razoável para se interromper o processo
é considerar o ponto em que algum critério de seleção de modelo (seção 7.1) começar
a crescer. Outra idéia é adotar a validação cruzada e parar o processo quando o erro de
validação for mínimo.
Uma questão que surge naturalmente é sobre como escolher a função de base ra-
dial que promova a maior redução do SSE. Uma possibilidade seria adicionar as funções
candidatas, uma de cada vez, calcular os coeficientes da camada de saída da rede e com-
parar o seu desempenho com as diferentes configurações. Essa abordagem, no entanto,
é impraticável. Como já mencionado anteriormente, o cálculo dos pesos da camada de
saída envolve uma inversão de matriz, que —implementada de uma maneira muito efici-
ente [60]— cresce com

. Se for adotada alguma técnica mais avançada para contornar

um potencial mal-condicionamento, como o SVD, o custo computacional é ainda maior
[28].
Existem pelo menos duas propostas para se calcular o descréscimo no SSE com um
custo computacional razoável. Baseado em [62], Orr propõe em [52] um algoritmo cha-
mado seleção adiantei . Fazendo uso de algumas propriedades da matriz de projeto
(apresentada na seção 7.4), pode-se determinar a redução no SSE com um número de
operações na ordem de . *
Esse custo pode ser reduzido ainda mais, desde que se imponha às colunas de
que sejam ortogonais entre si. Nesse caso, tem-se o algoritmo dos mínimos quadrados
ortogonali ou simplesmente OLS [13, 14]. No algoritmo OLS, o cálculo da redução no
SSE pode ser feito em tempo linear.
i
Forward selection
i
Orthogonal least squares

Como já discutido, a seleção de modelo pode ser adotada conjuntamente com a regu-
larização. Dessa forma, é possível se pensar tanto no algoritmo de seleção adiante [50]
quanto no OLS [12, 11] em suas formas regularizadas. Em [50], Orr propõe uma fórmula
para se calcular iterativamente um valor adequado para o parâmetro de regularização
(seguindo as idéias dos trabalhos descritos na seção 7.2). A cada nova RBF adicionada à
rede, um novo valor para é estimado. Em [11], por outro lado, utiliza-se no algoritmo
;
OLS um parâmetro de regularização local para cada coeficiente da camada de saída, o
que resulta no que o autor chama de LROLS (algoritmo dos mínimos quadrados ortogonal
localmente regularizadoi ).
Além dos algoritmos de seleção adiante e OLS, pode-se encontrar em [73] uma al-
ternativa em que o SVD é adotado para a seleção de subconjunto. Os autores propõem
que os dados de entrada sejam primeiramente submetidos a um processo de clusterização
—que no caso deles é feito através de um algoritmo k-médias modificado— e os centros
dos clusters resultantes sejam interpretados como candidatos a centros das RBF’s.
Evidentemente, pode-se imaginar a estratégia oposta da dos algoritmos construtivos:
ao invés de ir “crescendo” a rede incrementalmente, é possível inicializá-la com todas as
RBF’s candidatas, das quais as menos importantes seriam sucessivamente removidas do
modelo.
Mais uma vez, é necessário definir um procedimento que seja computacionalmente
viável, já que retreinar a rede para cada função retirada seria completamente inviável.
Uma proposta muito interessante nesse sentido é apresentada em [30]. Nesse mesmo
trabalho, os autores propõem uma solução híbrida: a rede RBF é inicializada com um
grande número de RBF’s e treinada através de um algoritmo semi-supervisionado. Uma
vez terminado o treinamento, a rede é submetida ao processo de “poda” das unidades que
menos contribuíam para o modelo.
7.6 Treinamento em tempo real
Embora os algoritmos de seleção adiante e —principalmente— OLS constituam ma-

neiras computacionalmente viáveis de se treinar uma rede RBF, eles não são adequados
para aplicações em tempo real. Isso porque nesse tipo de aplicação os dados de treina-
mento vão se tornando disponíveis com o tempo, e ambos os algoritmos utilizam a matriz
de projeto completa. Existe uma classe de algoritmos que é mais adequada a esse tipo de
aplicação. Esse é o assunto dessa seção.
7.6.1 Rede de alocação de recursos
Em [55], Platt propõe uma arquitetura de rede que ele chama de rede de alocação
de recursosi ou RAN. Essencialmente, a RAN é uma rede RBF com funções de ativação
locais e um algoritmo de treinamento construtivo seqüencial. A principal característica do
algoritmo de treinamento da RAN é que os parâmetros e a arquitetura da rede vão sendo
i
Locally regularised orthogonal least squares algorithm
i
Resource allocating network

ajustados sucessivamente, à medida que novos pontos vão sendo apresentados. Isso o
torna particularmente adequado a aplicações em que não se dispõe de uma só vez de
todos os dados de treinamento.
Assim como os algoritmos construtivos descritos na seção 7.5, o treinamento da RAN
inicia-se com uma rede sem unidades ocultas, à qual novas funções de base radial vão
sendo sucessivamente adicionadas. Quando um novo ponto é apresentado à rede, o algo-
ritmo decide se uma nova unidade deve ser adicionada ou se os parâmetros das unidades
pré-existentes serão ajustados. Essa decisão é tomada levando-se em conta dois critérios:
a distância do novo ponto aos centros da rede e a diferença entre a saída desejada e a
resposta da rede quando alimentada com aquele ponto. Se ambos os critérios estiverem
acima de um limiar previamente definido, uma nova unidade é adicionada à rede. Caso
um dos critérios não seja satisfeito, os parâmetros da rede são ajustados utilizando-se o
algoritmo LMS (seção 7.3).
Quando uma nova RBF é adicionada, ela é inicializada da seguinte maneira: o seu
centro coincide com o ponto recém-apresentado e sua largura é configurada como sendo
uma fração da distância do ponto ao centro mais próximo. O coeficiente ;
da camada de
definido como sendo o erro da rede naquele ponto, ou seja, a diferença

!
saída referente à nova RBF —ou, nas palavras de Platt, que define a “altura“ da RBF— é
.
Mais tarde, Kadirkamanathan e Nirajan apresentaram em [42] uma fundamentação
teórica para as RAN’s usando uma abordagem de aproximação seqüencial de funções.
Além disso, eles propõem nesse mesmo trabalho uma modificação no processo de ajuste
dos parâmetros da rede, que ao invés de ser feito através do algoritmo LMS passa a ser
feito pelo algoritmo conhecido como filtro de Kalman estendido i (EKF). Os resultados
apresentados em [42] sugerem que essa modificação tende a gerar redes mais compactas
e com um menor erro de generalização.
Várias outras propostas de extensão para a rede de alocação de recursos podem ser
encontradas na literatura. Em [72], apresenta-se uma estratégia de poda para a RAN
baseada na contribuição relativa de cada unidade oculta para o desempenho total da rede.
A conseqüência óbvia disso é que os modelos resultantes tendem a ser mais compactos.
De acordo com os autores, essa redução no número de unidades não apenas mantém a
qualidade dos resultados, como em alguns casos é capaz de melhorá-la. Pode-se ainda
citar [1], em que utiliza-se as propriedades estatísticas da amostra de erros cometidos pela
rede como critério para controlar o seu crescimento. Isso evita que a definição do número
de RBF’s fique submetida à determinação de valores limiares para distância e erro, como
no algoritmo RAN original. Uma outra proposta interessante é apresentada em [40] e
estendida em [39]. Nesses trabalhos, alguns dos termos do algoritmo EKF são usados
para controlar o crescimento da rede e para guiar um processo de poda de unidades menos
importantes. Além disso, são adotadas na camada oculta da rede funções bi-radiais [19],
que são mais flexíveis do que as funções de base radial normalmente empregadas.
i
Extended Kalman Filter

7.6.2 Estruturas celulares crescentes
Uma outra classe de algoritmos que pode ser adotada para aplicações em tempo real é
aquela baseada no trabalho original de Fritzke [22], em que ele apresenta uma abordagem
chamada de estruturas celulares crescentesi ou GCS. No GCS, as posições dos centros
são continuamente atualizadas através de um processo muito semelhante aos mapas auto-
organizáveis de Kohonen [29, 17]. Para tal, utiliza-se o conceito de vizinhança entre as
funções de base radial, que ficam estruturadas como um grafo não-orientado. Nesse tipo
de estrutura, cada vértice representa uma RBF (que o autor chama de célula), e cada arco
representa uma relação de vizinhança topológica, com o seu comprimento indicando a
distância entre os centros das funções.
Quando um novo ponto é apresentado à rede, a RBF que gerou a maior ativação como
resposta tem o seu centro “atraído” em direção a esse ponto. Os vizinhos imediatos dessa
função também são atraídos, mas com menor intensidade. Além disso, o erro cometido
pela rede nesse ponto é atribuído à função com ativação máxima (essa informação será
usada pela política de inclusão de novas unidades, como será descrito). As larguras das
RBF’s são definidas como sendo a média aritmética do comprimento de todos os arcos
incidentes a essa função. A idéia dessa estratégia é promover um nível de sobreposição
adequado entre as funções de base radial. Os coeficientes da camada de saída são atuali-
zados através do método de descida pelo gradiente (seção 7.3). Esse processo de ajuste é
repetido até que o erro fique estagnado em um determinado patamar.
Inicia-se então a fase de crescimento da rede. Cada RBF tem associada a si um erro
acumulado no processo de ajuste. Pode-se inferir que esse erro é um indicativo da qua-
lidade da aproximação realizada pelo modelo na região daquela RBF. Isso porque o erro
cometido pela rede quando alimentada com um determinado ponto é associado à função
que gerou a maior ativação em resposta a esse “estímulo” (indicando que o ponto apresen-
tado encontrava-se mais próximo daquela função do que de qualquer outra). Desse modo,
parece sensato que a nova função a ser adicionada esteja centrada nas proximidades da
RBF com maior erro acumulado. Uma nova unidade é, então, acrescentada à rede entre
a função com maior erro e uma de suas vizinhas. A escolha da função vizinha pode ser
feita de duas maneiras: escolhe-se a RBF com o maior erro acumulado ou simplesmente
aquela cujo centro esteja mais distante da função original.
É interessante notar que, embora o posicionamento dos centros seja feito através de
um processo auto-organizado, o treinamento da rede RBF nesse caso não é totalmente
desacoplado —como acontece no treinamento semi-supervisionado (seção 7.4). Isso fica
claro quando se observa que o erro cometido pela rede é associado a cada RBF, signifi-
cando que a resposta desejada também é utilizada na definição das unidades ocultas.
;
Além disso, nesse algoritmo as otimizações da camada oculta e da camada de saída são
feitas de maneira paralela.
Assim como no caso da rede de alocação de recursos de Platt, muitas extensões foram
propostas para a abordagem de Fritzke. O próprio autor do trabalho original apresenta
em [23] uma melhoria no GCS. Enquanto em [22] o número de vizinhos de cada função
é fixo, nessa nova proposta a estrutura de vizinhança das funções de base radial é irres-
i
Growing cell structures

trita e atualizada constantemente através de regras de natureza hebbiana. Idéias muito

semelhantes são apresentadas por Blanzieri em [3, 4].
Embora não seja uma extensão direta do algoritmo GCS, a técnica proposta por Bel loir,
Fache e Billat em [2] guarda alguma semelhança com o trabalho de Fritzke. Os auto-
res propõe um algoritmo simples para construir redes RBF para tarefas de classificação
utilizando-se apenas a amostra de treinamento, ou seja, sem a necessidade de definição de
nenhum parâmetro.
É importante ressaltar que o treinamento de redes RBF com algoritmos de natureza
seqüencial tende a gerar resultados inferiores àqueles que fazem uso de toda a massa de
dados de uma só vez, como era de se esperar. Em [50], por exemplo, pode ser encontrada
uma comparação em que o algoritmo de seleção adiante supera uma rede RAN-EKF tanto
em relação ao erro residual quanto em relação ao tamanho dos modelos gerados.
7.7 Outros algoritmos de treinamento
Além dos algoritmos já apresentados, podem ser encontradas na literatura várias ou-
tras propostas de treinamento de redes RBF. Embora uma descrição detalhada de cada
uma delas fuja ao escopo desse trabalho, pode-se mencionar algumas que se destacam
por uma ou outra razão.
7.7.1 Agrupamento hierárquico
Na seção 7.4 foi discutida uma possibilidade de treinamento das redes RBF em que
os dados de entrada são agrupados formando clusters cujos centros se tornam os centros
das funções de base radial da camada oculta. Uma das desvantagens associadas com esse
método é que o número de agrupamentos —e portanto de unidades ocultas— tem que ser
definido a priori, o que impõe à rede uma arquitetura fixa, possivelmente incoerente com
o problema.
Uma possibilidade para se resolver essa questão é adotar um algoritmo de agrupa-
mento hierárquico [17]. Nesse tipo de algoritmo, o número de clusters não é previamente
definido, e se torna parte do problema. A principal característica da dinâmica desse tipo
de procedimento é que um agrupamento de uma etapa é formado pela “fusão” de dois
agrupamentos de outra etapa, resultando em um gráfico de árvore chamado dendograma.
A figura 11 mostra um exemplo de dendograma. Os segmentos verticais representam
a fusão de dois agrupamentos. O comprimento das linhas horizontais que conectam dois
segmentos verticais indica a distância entre os centros dos clusters correspondentes. Li-
nhas mais curtas indicam menores distâncias e, portanto, agrupamentos mais “autênticos”.
A análise do dendograma permite se estimar qual seria o nível certo de clusterização.
Os métodos hierárquicos se dividem em duas categorias: algoritmos aglomerativos
e divisivos. As técnicas aglomerativas iniciam-se com cada ponto constituindo um clus-
ter. A cada iteração, os dois agrupamentos mais próximos são combinados formando um
único agrupamento, até que todos os pontos pertençam ao mesmo grupo. Nos algoritmos

Figura 11: Dendograma
divisivos ocorre o contrário: o processo inicia-se com um único cluster que vai sendo di-
vidido até que se tenha agrupamentos, cada um contendo apenas um ponto. Observando
a figura 11, pode-se afirmar que os métodos aglomerativos formam grupos da esquerda
para a direita, enquanto que os métodos divisivos funcionam no sentido oposto.
Uma forma de agrupamento que está intimamente relacionada com os métodos hie-
rárquicos aglomerativos é a chamada clusterização baseada em escala i [71, 64]. De uma
maneira geral, a idéia por trás desse tipo de algoritmo é realizar a clusterização dos da-
dos em várias “escalas” e observar o comportamento dos agrupamentos formados. Os
agrupamentos que se mostrarem estáveis sobre uma larga faixa de valores de escala são
considerados clusters verdadeiros.
Chakravarthy e Ghosh apresentam em [10] a possibilidade de se aplicar a clusterização
baseada em escala ao treinamento de redes RBF. Nesse contexto, a noção de “escala” está
obviamente associada com a largura das funções de base radial. Fixando os coeficientes
;, as respostas desejadas e a largura global das RBF’s , os autores utilizam o termo
;
de atualização (treinamento supervisionado, seção 7.3) para encontrar a posição dos
centros. A cada iteração, as posições dos centros são atualizadas, até a convergência.
Partindo de valores iniciais pequenos para , a clusterização é executada várias vezes,
com valores crescentes para a largura. Imagine o caso extremo em que o processo fosse
sempre iniciado com um número de RBF’s igual ao tamanho do conjunto de treinamento.
Quando o valor de fosse muito pequeno, os centros das RBF’s tenderiam a convergir
para uma configuração coincidente com a amostra de treinamento. À medida que fosse
adquirindo valores maiores, alguns centros iriam se fundir durante o processo de ajuste,
formando um novo agrupamento. Na situação limite em que a largura das RBF’s fosse
muito grande, os centros terminariam todos na mesma posição do espaço de entrada,
formando um único cluster.
i
Scale-based clustering

Analisando o comportamento dos clusters em função dos diferentes valores para a lar-
gura , é possível identificar quais seriam os agrupamentos verdadeiros e, portanto, qual
seria a escala adequada. Dessa forma, essa estratégia de treinamento define, em um só
procedimento, a posição, largura e número das RBF’s. Uma vez definida a camada oculta,
os coeficientes da camada de saída podem ser determinados através de uma inversão de
matriz ou, no caso de se adotar a regularização, através de um dos algoritmos descritos na
seção 7.2.
7.7.2 Árvores de decisão
Kubat apresenta em [44] a possibilidade de se utilizar árvores de decisão [6, 61] para
inicializar uma rede de função de base radial. A idéia básica de uma árvore de decisão
é particionar recursivamente o espaço de entrada em dois e aproximar a função-alvo em
cada metade pela média aritmética dos valores de saída que cada amostra contém. Cada

partição é paralela a um eixo, e por isso pode ser expressa através de uma inequação
envolvendo uma das variáveis de entrada (por exemplo,
'
). O espaço de entrada
é, dessa forma, dividido em hiper-retângulos organizados em uma árvore binária em que
cada ramificação é determinada pela dimensão e o limite associado , que conjunta-
mente minimizam o erro residual entre o modelo e os dados do problema. Em geral, o
'
processo de particionamento do espaço de entrada pára quando não é mais possível dividir
a amostra sem que algum dos hiper-retângulos gerados apresente um número de pontos
;
menor do que um limiar pré-definido.
A idéia nesse contexto é utilizar cada nó terminal11 da árvore de decisão para iniciali-
zar uma RBF da camada oculta da rede. O centro da função de base radial é definido como
;
sendo o centro do hiper-retângulo associado e suas larguras em cada dimensão12 podem
ser determinadas como uma escala do comprimento da i-ésima aresta desse mesmo hiper-
retângulo. Dessa forma, a árvore de decisão determina de uma só vez o número de RBF’s
na camada oculta, bem como seu posicionamento e sua largura em cada dimensão. Os
coeficientes ;
da camada de saída podem ser determinados da mesma forma que seriam
no método de agrupamento hierárquico (seção 7.7.1).
Evidentemente, o tamanho da árvore de decisão (e portanto da rede RBF) vai depender
diretamente de algum parâmetro do algoritmo responsável pela sua geração. Um parâme-
tro particularmente importante nesse caso é aquele que determina o número mínimo de
;
pontos por hiper-retângulo, . A escolha de um valor inadequado para pode ;
resultar em um modelo super ou subestimado. Nota-se claramente que trata-se do dilema
bias-variância tratado na seção 2.
;
Para evitar a determinação de a priori, Orr propôs em [54] uma abordagem
um pouco diferente. Ao invés de simplesmente se utilizar os nós terminais da árvore,
é possível interpretar todos os nós da árvore como sendo unidades ocultas potenciais e
utilizá-las como candidatas para o algoritmo de seleção adiante ou OLS, discutidos na
seção 7.5.
11
Que não contém nós-filhos.
12
Dizer que a função tem uma largura diferente em cada dimensão é o mesmo que dizer que ela tem uma
largura comum escalada por uma matriz diagonal de ponderação de norma, como discutido na seção 5.

Além disso, o autor de [54] nota que uma das características positivas das árvores de
decisão é que a própria dinâmica de partição dos dados em subgrupos fornece algumas
informações importantes sobre a relevência de cada variável do problema. Como cada
divisão da massa de dados é feita de modo a minimizar uma função de custo, não é difícil
perceber que as componentes que contêm mais informação sobre o problema tendem a
ser particionadas primeira e mais freqüentemente.
Dessa forma, além do algoritmo OLS, Orr propõe uma maneira sistemática de se
explorar o espaço de RBF’s em que os nós da árvore são visitados ordenadamente, da raiz
para os nós terminais. Isso permite uma solução hierárquica para o problema, partindo de
uma aproximação “grosseria” da função para uma resolução mais precisa.
Existe ainda na literatura uma série de outras propostas para o treinamento de redes
RBF. Entre elas, pode-se destacar um grande número de trabalhos que aplicam algum
método estocástico de otimização global —como os Algoritmos Genéticos [27] ou o Re-
cozimento Simuladoi [43]— à determinação dos parâmetros e/ou topologia da rede.
O objetivo dessa seção não é, no entanto, fazer uma enumeração exaustiva de todas as
técnicas de treinamento presentes na literatura. A idéia é que os métodos de treinamento
descritos —selecionados por sua importância histórica ou grau de inovação— forneçam
um panorama das possibilidades e tendências do treinamento de redes RBF.
8 Aplicações
Costuma-se dizer que as redes neurais são sempre a segunda melhor solução para
qualquer problema. Isso porque as redes como aproximadores universais podem ser ado-
tadas com sucesso em uma enorme gama de aplicações, sendo consideradas quase sempre
como uma escolha sensata (uma possível exceção seria o caso em que existissem métodos
desenhados especificamente para o contexto, daí a afirmação inicial).
De fato, as redes RBF podem ser aplicadas a praticamente qualquer domínio que

envolva a aproximação de funções
um mapeamento do tipo
reais contínuas ou contínuas por partes que realizem
. Como foi visto na seção 6, essa classe de funções
inclui problemas de classificação como um caso particular [47].
Exemplos e testes de aplicações são vários: aproximação de funções não-lineares
arbitrárias [50, 52, 73, 1] ou descrevendo algum fenômeno físico [53, 54], problemas de
classificação de padrões gerados artificialmente [23, 19, 40] ou reais [2, 39] e previsão de
séries temporais artificiais [47, 25, 55, 42, 3, 5, 30] ou reais [18]. Entre os problemas de
classificação de padrões, destacam-se aqueles voltados para o reconhecimento visual [48,
56] e para o reconhecimento de padrões de fala [70, 15] e escrita [38].
Muitos outros exemplos poderiam ser mencionados. No entanto, uma enumeração
extensa e superficial de várias possibilidades de aplicação não parece ser uma alterna-
tiva muito atraente para se exemplificar o uso das redes RBF. Melhor seria descrever em
maiores detalhes um ou dois casos reais. Isso é feito nas próximas seções.
i
Simulated annealing

8.1 Transformando gestos em fala
Uma das aplicações mais importantes e dignificantes da tecnologia de uma maneira

geral é no auxílio a pessoas portadoras de alguma deficiência. Um exemplo desse tipo de
aplicação foi dado na seção 1, em que estuda-se a possibilidade de utilização de disposi-
tivos conhecidos como neuropróteses na restauração das funções motoras em deficientes
físicos [49].
Um outro trabalho nesse sentido é descrito em [21]. Nessa pesquisa, investiga-se uma
maneira de se transformar gestos manuais em sons de fala através de uma interface adapta-
tiva. Uma aplicação óbvia para esse tipo de idéia é ajudar pessoas com deficiência na fala
a se comunicarem com as demais sem que seja estritamente necessário o conhecimento
do alfabeto gestual.
Grosseiramente falando, o sistema funciona da seguinte forma: o usuário veste uma
luva que contém inúmeros sensores capazes de detectar os seus movimentos. Esses senso-
res estão conectados a um sintetizador de fala. Também conectado ao sintetizador está um
pedal que controla o volume dos sons emitidos. Para começar a falar, o usuário pressiona
o pedal e faz com a mão o gesto indicando o som desejado. Através da movimentação
coordenada das mãos e do pé pode-se, de acordo com os autores, produzir uma fala bem
mais natural do que aquela produzida por sintetizadores textuais.
Evidentemente, as luvas não estão diretamente conectadas ao sintetizador de fala.
Como os movimentos gestuais realizados pelo usuário podem —e provavelmente irão—
variar a cada vez que uma letra é produzida, é necessária alguma técnica capaz de iden-
tificar padrões de comportamento das mãos. Em [21], Fels e Hinton utilizam três redes
neurais: um MLP e duas redes RBF13 .
O perceptron age como uma espécie de “distribuidor” para as outras duas redes, iden-
tificando a probabilidade de o gesto realizado corresponder a uma vogal ou a uma conso-
ante. As redes RBF são responsáveis pela identificação das consoantes e vogais corres-
pondentes ao movimento manual. A rede associada com a emissão das vogais realiza um
mapeamento fixo —definido pelo usuário— entre posições das mãos e fonemas corres-
pondentes. Para se produzir uma vogal, o sistema considera apenas a posição das
1
mãos do usuário em relação ao chão. Os centros das RBF’s não são treinados e ficam fixos
nas posições referentes aos fonemas. Os coeficientes da camada de saída são treinados
com 100 exemplos idênticos de cada vogal corrompidos por ruído.
Ao contrário do que acontece no caso anterior, a rede RBF responsável pela emissão
das consoantes tem seus centros posicionados através de um conjunto de treinamento. Os
dados de treinamento são produzidos pelo próprio usuário, da seguinte maneira: através
do auxílio de um sintetizador textual, o som referente à consoante-alvo é emitido pelo sin-
tetizador de fala. Em resposta, o usuário faz o gesto correspondente à consoante e aperta
o pedal. A repetição desse procedimento várias vezes por consoante forma a amostra de
treinamento. A aprendizagem é semi-supervisionada: o número de centros corresponde
ao número de consoantes e suas posições são definidas como sendo a média aritmética
dos padrões associados com cada consoante.
13
No trabalho inicial [20] os autores utilizaram cinco redes neurais.

Para testar o sistema, treinou-se um voluntário que é um exímio pianista. A expecta-

tiva era que a sua habilidade manual e sua familiariedade com a música pudessem facilitar
o processo. Após 100 horas de treinamento, a fala produzida era inteligível e natural, em-
bora um pouco lenta (de 1,5 a 3 vezes mais devagar do que uma fala normal). Para tornar
o uso do sistema possível, os autores ressaltam que seria desejável que a luva contasse
com um sistema de comunicação sem fio. Além disso, o pedal poderia ser substituído por
um dispositivo mais portátil. De qualquer maneira, esse exemplo ilustra uma aplicação
prática e bastante interessante das redes RBF.
8.2 Reconhecimento de faces
O termo “biométrica” tem sido usado para designar o estudo de métodos automáticos
para a identificação de indivíduos através de suas características físicas ou comportamen-
tais. Técnicas como reconhecimento de face e de voz e análise de íris e de impressões
digitais podem ser combinadas para produzir aplicações muito úteis. Existe um grande
interesse comercial nesse tipo de aplicação, que poderia ser adotado na área de segurança
comercial e doméstica ou na personalização de aparatos como computadores, televisores
e telefones, por exemplo.
Dentre essas técnicas, o reconhecimento facial automático se destaca por não ser in-
vasivo e requerer pouca cooperação ou modificação no comportamento dos usuários no
processo de coleta de informações. Os artigos [34, 35, 36, 31, 37, 32] descrevem o de-
senvolvimento de um trabalho muito interessante nesse sentido, que culminou na tese de
Howell [33].
O trabalho de Howell aplica as redes RBF à tarefa de reconhecimento de faces sem
restrições. Nessa qualidade do problema, deve-se ser capaz de identificar uma pessoa
através da imagem de seu rosto sob diferentes circunstâncias, como variações de escala,
rotações e condições de iluminação. Trata-se de uma tarefa muito difícil, portanto.
O autor introduz a idéia de unidades faciaisi , que nada mais são do que redes de função
de base radial especializadas no reconhecimento de uma pessoa específica. Um sistema de
reconhecimento completo contaria com várias dessas “unidades”, cada uma responsável
pela identificação de uma face em especial. Quando submetida à rede, a imagem de uma
pessoa geraria uma resposta indicando se se trata do indivíduo que ela representa ou não.
Um dos grandes avanços nas taxas de classificação, segundo o autor, se deveu à in-
clusão de “casos negativos” na fase de treinamento. Isso significa que, ao invés de a rede
ser treinada apenas com as imagens faciais do indivíduo que ela representa, utiliza-se
imagens de outros indivíduos para melhorar o seu poder de discernimento. Os contra-
exemplos foram escolhidos como sendo aquelas imagens mais similares (no sentido da
distância euclidiana) às imagens da pessoa que a rede deveria identificar.
Curiosamente, a arquitetura do modelo é aquela proposta originalmente para as redes
de regularização (seção 4): o número e posicionamento das unidades ocultas correspon-
dem à amostra de treinamento. Isso significa que cada imagem —representada como
i
Face units.

sendo um vetor de pixels— define uma RBF. Foram feitos experimentos com diferentes
proporções entre o número de exemplos positivos e negativos (o que resultou em diferen-
tes toplogias). A largura das funções foi definida através de heurítica semelhante àquelas
descritas na seção 7.4 e a camada de saída foi resolvida utilizando-se o SVD. Em alguns
casos, a taxa de classificação correta chegou a 96% em um conjunto de teste não visto
durante a fase de treinamento [36].
8.3 Análise de crédito
A organização capitalista do mundo ocidental —atualmente fomentada pela cultura

liberal vigente— tem criado mercados altamente competitivos nos mais diferentes setores.
Um exemplo é o setor bancário, que tem adotado tecnologias cada vez mais sofisticadas
para atender a usuários cada vez mais exigentes. Uma possibilidade de aplicação dessa
tecnologia seria no suporte à tomada de decisão.
Um caso típico seria a avaliação automatizada do risco de crédito. A decisão de se ofe-
recer ou não crédito a um cliente —em forma de cartão de crédito, cartão de crediário ou
cheque especial— deve ser muito criteriosa. Por um lado, uma decisão descuidada pode
causar prejuízos à instituição financeira. Por outro lado, uma postura excessivamente con-
servadora pode causar ao cliente não apenas restrições do ponto de vista financeiro, mas
principalmente um constrangimento social (sem contar que uma política muito restritiva
diminui o leque de clientes em potencial).
Em geral, a avaliação do risco de crédito é feita pelo analista de crédito (como o
gerente do banco, por exemplo). Normalmente o analista se baseia na sua própria expe-
riência, em relatórios financeiros e na política de crédito adotada pela instituição. Essa
abordagem tem limitações óbvias. Em primeiro lugar, como se trata de um processo in-
trinsecamente subjetivo, cada analista adota uma postura. Além disso, as decisões em
geral consomem tempo e ficam dependentes da experiência de cada analista —que pode
ser limitada ou estar desatualizada.
Uma alternativa é adotar uma rede neural para auxiliar no processo de decisão de
concessão de crédito. Em [63] é possível encontrar um relato sobre a experiência de
aplicação de uma rede RBF ao problema de avaliação de risco de crédito. Foram utilizados
dados de avaliação de risco de inadimplência de um banco brasileiro (que os autores
não identificam) e dados para análise de crédito de domínio público. De acordo com os
autores, como a massa de dados é muito grande, o tempo de aprendizagem requerido para
o treinamento convencional de um MLP (por retropropagação do erro) pode ser muito
grande. O uso das redes RBF, cujo treinamento é sensivelmente mais rápido, ameniza
esse problema. A seleção do modelo foi feita através da validação cruzada (seção 7.1).
De acordo com [63], os resultados alcançados pela abordagem proposta foram supe-
riores aos obtidos por outras técnicas analisadas. O uso das redes RBF na avaliação do
risco de crédito apresenta várias vantagens:
1. Rapidez na aprovação do crédito;

2. Redução do custo de processamento do empréstimo;

3. Maior flexibilidade de atualização e adaptação a novas situações;

4. Consistência entre decisões de diferentes analistas;
5. Maior segurança, na medida em que as redes confirmam empiricamente a decisão
do analista.
Mais tarde, técnicas de extração de conhecimento de redes neurais foram empregadas

na tentativa de se descrever as decisões tomadas pela rede através de regras inteligíveis.
9 Plausibilidade biológica
Uma discussão aprofundada sobre a plausibilidade e potenciais implicações biológi-

cas do paradigma das redes RBF não é, obviamente, o objetivo desse trabalho. No entanto,
considerando-se que grande parte dos avanços na área de Inteligência Artificial são fruto
da tentativa de se desvendar os segredos da mente humana—e da sua relação com o cé-
rebro [17, 29]—, não custa mencionar, ainda que superficialmente, algumas intrigantes
relações desse modelo neural com evidências fisiológicas modernas [56]. Esse tipo de re-
lação, se não servir para jogar um pouco de luz sobre o funcionamento do sistema nervoso
biológico, pode servir para despertar um interesse que tem sido uma das motivações prin-
cipais por trás do estudo de redes neurais artificiais [29]. Além disso, no caso das redes
RBF, essa interpretação biológica facilitaria —pelo menos em tese— sua implementação
em hardware.
É possível encontrar em várias partes do sistema nervoso neurônios “localmente ajus-
tados” ou “seletivos”, isso é, que só são ativados por uma faixa específica de valores de
estímulo. Como exemplo, pode-se citar as células de orientação do córtex visual, que
respondem seletivamente a estímulos que são locais tanto na posição da retina quanto no
ângulo da orientação do objeto [47]. Em geral, populações de células localmente ajusta-
das são arranjadas em mapas corticais. A faixa de valores que ativa cada célula costuma
estar associada com a sua posição no mapa.
Estes mapas neuronais estão intimamente associados com a idéia de campos recep-
tivos. A figura 12 apresenta uma ilustração esquemática desse tipo de estrutura. Nesse
caso, a intensidade do estímulo está representada pelas diferentes escalas de cinza, e po-
deria ser biologicamente sintetizada através das ligações sinápticas mostradas. Nota-se
claramente que existe uma relação direta entre o nível de estímulo e a posição espacial
das células.
Não é difícil esboçar uma relação entre os campos receptivos e as funções de base
radial locais. O campo receptivo da figura 12, por exemplo, pode ser pensado como uma
RBF posicionada no ponto central da malha. Nesse caso, a noção de distância estaria
intrinsecamente representada na estrutura topológica do mapa, não sendo necessária por-
tanto a computação explícita da norma. Essa observação é particularmente importante
quando se pensa em uma implementação em hardware com circuitos VLSI [56].
Esse tipo de interpretação limitaria, a princípio, o espaço de entrada em no má-
ximo duas dimensões, já que é difícil imaginar como um neurônio biológico computa-

Figura 12: Campo receptivo
ria
B B
BIB *
em espaços de dimensões superiores. Existe uma propriedade da função
gaussiana, no entanto, que permite uma extensão muito interessante dessa abordagem.
podegaussiana
Pode-se mostrar facilmente que a função

é fatorável. Isso significa que uma
função desse tipo com domínio em
poderia ser escrita como um
ser decomposta em funções gaussianas de
dimensões inferiores. Por exemplo, uma gaussiana em

produto de duas outras, como mostrado na equação 29.

(29)
onde é o centro da função e a largura foi omitida por conveniência.
Observando a equação 29, pode-se pensar em um aninhamento hierárquico de cam-
pos receptivos de uma ou duas dimensões. A figura 13 mostra o caso de uma estrutura
formada pela combinação de dois campos receptivos, um em e outro em . Nesse
*
caso, as funções gaussianas de ordem inferior são sintetizadas diretamente através dos
“pesos” sinápticos dos mapas sensitivos, enquanto que as funções de ordens mais altas
são o resultado da combinação das primeiras.
A multiplicação requerida para a composição das funções multidimensionais (no caso
da figura 13, a função ) não é tão implausível do ponto de vista fisiológico. Ela poderia
ser realizada por uma série de mecanismos biofísicos diretamente na árvore dendrítica do
neurônio representando a função de base radial correspondente [56].
É interessante notar que, diferentemente do que ocorre com os campos receptivos,
nas funções de ordem superior a noção de centro não guarda necessariamente uma rela-
ção com uma posição espacial. Isso é particularmente verdade quando se observa que o
número de campos receptivos combinados pode ser arbitrariamente estendido, levando a
dimensões que não permitem uma interpretação espacial.
Pode-se pensar, portanto, nos centros das funções de dimensões mais altas como sendo
protótipos de atividades neuronais. Tais protótipos seriam formados pela combinação
dos padrões de estímulos capturados pelos campos receptivos. Esses padrões podem ser

f2
f1
f3
Figura 13: Aninhamento hierárquico de campos receptivos
chamados de características. Nesse contexto, as funções gaussianas multidimensionais

cumpririam um papel semelhante à conjunção lógica “e”, combinando diferentes carac-
terísticas14 . O interessante é que esse esquema de aninhamento pode ser estendido para
vários níveis, em que a saída de uma função multidimensional representando um protótipo
serviria como uma característica para uma função em um nível hierárquico mais alto.
Esse tipo de organização sugere uma intrigante metáfora para uma estratégia computa-
cional que o cérebro poderia usar em alguns casos. A generalização poderia ser feita atra-
vés da superposição de campos receptivos em espaços multidimensionais. Nesse ponto de
vista, alguns neurônios corresponderiam a funções de base radial com centros em espaços
de altas dimensões, de forma semelhante às “células-mães”, uma visão que parece su-
perficialmente consistente com as evidências fisiológicas. Um exemplo interessantíssimo
desse tipo de interpretação pode ser visto em [56], numa tarefa de reconhecimento visual
em que uma rede foi treinada para identificar um objeto de qualquer perspectiva.
É importante observar que, embora esse tipo de organização seja biologicamente plau-
sível, a maioria dos algoritmos de treinamento descritos na seção 7 não o são. No entanto,
pode-se pensar em estratégias de aprendizagem que sejam mais coerentes com os pro-
cessos fisiológicos conhecidos. No caso do treinamento supervisionado (seção 7.3), por
exemplo, o termo de atualização dos coeficientes representa um esquema quase hebbiano
que não parece inverossímil biologicamente. A atualização da posição dos centros, por
outro lado, parece ser mais difícil de ser implementada por neurônios reais. Deve-se notar,
no entanto, que os centros podem se mover de outra maneira. Considerando os campos
receptivos gaussianos, “mover” um centro em um espaço multidimensional significaria
criar ou apagar conexões entre uma célula e outra em um nível hierarquicamente inferior.
Pode-se imaginar, por exemplo, uma espécie de aprendizagem em que campos receptivos
representando diferentes características —ou posições em um subespaço do espaço de
entrada— competiriam para formar conexões com um neurônio representando uma RBF
14
Obviamente, pode-se pensar na negação de uma determinada característica, o que corresponderia à
operação “e não” da lógica.

multidimensional.
Evidentemente, essas são apenas especulações. O fato de o aninhamento hierárquico
de campos receptivos ser biologicamente plausível não significa que os processos neuro-
nais ocorram efetivamente dessa maneira. Espera-se, no entanto, que esse tipo de discus-
são não seja em vão. A expectativa é que a troca de metáforas e analogias entre a Biologia
e a Inteligência Artificial —e de muitas outras áreas, como a Lingüística, por exemplo—
possa promover uma evolução no sentido de se explicar a mente humana. A expectativa é
que essa soma de esforços torne possível emular em um futuro não muito distante algum
tipo de inteligência, mesmo que seja primitiva como a do rato da experiência de Nicolelis
e Chapine.

Referências
[1] A NDERLE , M., E K IRBY, M. Correlation feedback resource allocation RBF. In

Proceedings of the International Joint conference on neural Networks (2001), vol. 3,
pp. 1949–1953.
[2] B ELLOIR , F., FACHE , A., E B ILLAT, A. A general approach to construct RBF net-
based classifier. In Proceedings of The European Symposium on Artificial Neural
Networks (ESANN’99) (Bruges, Belgium, April 1999), pp. 399–404.
[3] B LANZIERI , A. G. E., E K ATEMKAMP, P. Growing radial basis function networks.

In Proc. of the 4th Workshop on Learning Robots (Karlsruhe, Germany, 1995).
[4] B LANZIERI , E. Learning Algorithms for Radial Basis Function Networks: Synthe-
sis, Experiments and Cognitive Modelling. PhD thesis, Center of Cognitive Science
–University and Polytechnic of Turin, 1998.
[5] B LANZIERI , E., E G IORDANA , A. An incremental algorithm for learning radial

basis function networks. In Proceedings of the International Conference on Fuzzy
Systems (New Orleans, USA, 1996).
[6] B REIMAN , L., F RIEDMAN , J., O LSHEN , R., E S TONE , C. Classification and
Regression Trees. Wadsworth & Books, Pacific Grove, CA, 1984.
[7] B RIZZOTTI , M. M., E DE C ARVALHO , A. C. P. L. F. The influence of cluste-

ring techniques in the RBF networks generalization. In Image Processing and its
Applications (1999), no. 465, IEEE, pp. 87–92.
[8] B RIZZOTTI , M. M., E DE C ARVALHO , A. C. P. L. F. Comparing different clus-

tering techniques RBF networks training. In VI Brazilian Symposium on Neural
Networks – SBRN2000 (Rio de Janeiro, RJ, Brasil, November 2000), C. H. C. Ri-
beiro e F. M. G. França, Eds., vol. 1, Sociedade Brasileira de Computação – SBC,
IEEE Computer Society, pp. 225–230.
[9] B ROOMHEAD , D. S., E L OWE , D. Multivariable functional interpolation and adap-

tive networks. Complex Systems 2 (1988), 321–355.
[10] C HAKRAVARTHY, S. V., E G HOSH , J. Scale-based clustering using the radial basis
function network. IEEE Transactions on Neural Networks 7, 5 (September 1996),
1250–1261.
[11] C HEN , S. Multi-output regression using a locally regularised orthogonal least

square algorithm. Relatório técnico, Department of Eletronics and Computer Sci-
ence –University of Southhampton, Highfield, Southhampton SO17 1BJ, U.K.,
2002.
[12] C HEN , S., C HANG , E. S., E A LKADHIMI , K. Regularized orthogonal least squares
algorithm for constructing radial basis function networks. International Journal of
Control 64, 5 (1996), 829–837.

[13] C HEN , S., C OWAN , C. F. N., E G RANT, P. M. Orthogonal least squares learning
algorithm for radial basis function networks. IEEE Trans. on Neural Networks 2, 2
(março de 1991), 302–309.
[14] C HEN , S., C OWAN , C. F. N., E G RANT, P. M. Orthogonal least squares algo-
rithm for training multi-output radial basis function networks. In IEEE Proceedings
(1992), vol. Part F 139, pp. 378–384.
[15] C OHEN , S., E I NTRATOR , N. Global optimization of RBF networks. In Proceedings

of IEEE Transactions on Neural Networks (submitted) (2000).
[16] DARKEN , C., E M OODY, J. Fast adaptive k-means clustering: Some empirical
results. In Proc. IJCNN (1990), I. N. N. Council, Ed., vol. II, pp. 233–238.
[17] DE C ARVALHO , L. A. V. Datamining: A Mineração de Dados no Marketing, Me-

dicina, Economia, Engenharia e Administração, 1 ed. Editora Érica LTDA, São
Paulo/SP –Brasil, 2001.
[18] DE L IMA ROITMAN , V. Um Modelo Computacional de Redes Neurais para Pre-

dição do Índice de Desemprego Aberto. PhD thesis, Programa de Pós-Graduação
de Engenharia Civil da Universidade Federal do Rio de Janeiro (COPPE/UFRJ),
Setembro 2001.
[19] D UCH , W., E JANKOWSKI , N. Bi-radial transfer functions. Relatório Técnico

UMK-KMK-TR 1/96, Department of Computer Methods –Nicholas Copernicus
University, Toruń, Poland, 1996.
[20] F ELS , S. S., E H INTON , G. E. Glove-Talk: A neural network interface between a

data-glove and a speech synthesizer. IEEE Transactions on Neural Networks 4, 1
(1993).
[21] F ELS , S. S., E H INTON , G. E. Glove-TalkII: A neural network interface which

maps gestures to parallel formant speech synthesizer controls. IEEE Transactions
on Neural Networks 9, 1 (1998), 205–212.
[22] F RITZKE , B. Growing cell structures—a self-organizing network in k dimensions.

In Artificial Neural Networks, 2 (Amsterdam, Netherlands, 1992), I. Aleksander e
J. Taylor, Eds., vol. II, North-Holland, pp. 1051–1056.
[23] F RITZKE , B. Fast learning with incremental RBF networks. Neural Processing
Letters 1, 1 (1994), 2–5.
[24] G HOSH , J., E NAG , A. An overview of radial basis function networks. Relató-
rio técnico, Department of Electrical and Computer Engineering, The University of
Texas, Austin, Texas, USA- TX 78712.
[25] G IROSI , F. Some extensions of radial basis functions and their applications in arti-
fical intelligence. Computers Math. Applic. 24, 12 (1992), 61–80.

[26] G IROSI , F., E P OGGIO , T. Networks and the best approximation property. Rela-
tório Técnico AIM-1164, Massachusetts Institute of Technology Artificial Intelli-
gence Laboratory and Center for Biological Information Processing Whitaker Col-
lege, 1989.
[27] G OLDBERG , D. Genetic algorithms in search, optimization, and machine learning.

Addison-Wesley Reading, MA, 1989.
[28] G OLUB , G. H., E L OAN , C. F. V. Matrix Computations, 2 ed. Johns Hopkins

Series in Mathematical Sciences. The Johns Hopkins University Press, Baltimore,
Maryland, 1993.
[29] H AYKIN , S. Redes Neurais: Princípios e Prática, 2nd ed. Bookman, Av. Jerônimo
de Ornellas, 670 – Porto Alegre, RS, Brasil, 2001. Tradução: Paulo Martins Engel.
[30] H ONG , X., E B ILLINGS , S. A. Givens rotation based fast backward elimination
algorithm for RBF neural network pruning. IEE Proc D, Control Theory and Appli-
cations 5, 144 (1997), 381–384.
[31] H OWELL , A., E B UXTON , H. Face recognition using radial basis function neural
networks. In Proceedings of British Machine Vision Conference (BMVA, Edinburgh,
1996), pp. 455–464.
[32] H OWELL , A., E B UXTON , H. Recognising Simple Behaviours using Time-Delay

RBF Networks. Neural Processing Letters 5 (1997), 97–105.
[33] H OWELL , A. J. Automatic Face Recognition Using Radial Basis Function

Networks. PhD thesis, University of Sussex, 1997.
[34] H OWELL , A. J., E B UXTON , H. Invariance in radial basis function neural networks
in human face classification. Neural Processing Letters 2, 3 (1995), 26–30.
[35] H OWELL , A. J., E B UXTON , H. Receptive field functions for face recognition. In
Proc. 2nd International Workshop on Parallel Modelling of Neural Operators for
Pattern Recognition (PAMONOP) (Faro, Portugal, November 1995), pp. 83–92.
[36] H OWELL , A. J., E B UXTON , H. A scaleable approach to face identification. Re-

latório Técnico CSRP 376, School of Cognitive and Computing Sciences (COGS),
Sussex, UK, June 1995.
[37] H OWELL , A. J., E B UXTON , H. Towards unconstrained face recognition from

image sequences. In Proc. 2nd IEEE International Conference on Automatic Face
& Gesture Recognition (FG’96) (Killington, Vermont, 1996), pp. 224–229.
[38] H WANG , Y., E BANG , S. An efficient method to construct a radial basis function
neural network classifier. Neural Networks 10, 8 (1997), 1495–1503.
[39] JANKOWSKI , N. Approximation and classification with RBF-type neural networks

using flexible local and semi-local transfer functions. In 4th Conference on Neural
Networks and their Applications (Zakopane, Poland, May 1999), pp. 77–82.

[40] JANKOWSKI , N., E K ADIRKAMANATHAN , V. Statistical control of RBF-like

networks for classification. In ICANN (1997), pp. 385–390.
[41] J ÚNIOR , F. R., F ERRARO , N. G., E DE TOLEDO S OARES , P. A. Os Fundamntos

da Física, 5 ed., vol. 1. Editora Moderna LTDA, São Paulo/SP, 1988.
[42] K ADIRKAMANATHAN , V., E N IRANJAN , M. A function estimation appro-

ach to sequential learning with neural networks. Relatório Técnico CUED/F-
INFENG/TR.111, Cambridge University Engineering Departament, Cambridge –
England, September 1992.
[43] K IRKPATRICK , S., G ELATT, C. D., E V ECCHI , M. P. Optimization by simulated

annealing. Science, Number 4598, 13 May 1983 220, 4598 (1983), 671–680.
[44] K UBAT, M. Decision trees can initialize radial-basis function networks. IEEE-NN
9, 5 (September 1998), 813.
[45] L E C UN , Y., D ENKER , J., S OLLA , S., H OWARD , R. E., E JACKEL , L. D. Opti-
mal brain damage. In Advances in Neural Information Processing Systems II (San
Mateo, CA, 1990), D. S. Touretzky, Ed., Morgan Kauffman.
[46] L IPPMANN , R. P. Neural nets for computing. Ch2561-9/88/0000-0001, Lincoln

Laboratory, M.I.T., Lexington, MA 02173 USA, 1988.
[47] M OODY, J., E DARKEN , C. Fast learning in networks of locally-tuned processing

units. Neural Computation, 1 (1989), 281–294.
[48] M UKHERJEE , S., E NAYAR , S. K. Automatic generation of GRBF networks for

visual learning. In International Conference on Computer Vision –ICCV (1995),
pp. 794–800.
[49] N ICOLELIS , M., E C HAPIN , J. Controlando robôs com a mente. Scientific American
Brasil, 6 (2002), 49–55.
[50] O RR , M. Regularisation in the selection of radial basis function centres. Neural

Computation Vol. 7(3) (1995), 606–623.
[51] O RR , M. J. L. Local smoothing of RBF networks. In International Symposium on

Artificial Neural Networks (Hsinchu, Taiwan, 1995).
[52] O RR , M. J. L. Introduction to radial basis function networks. Relatório técnico,

Centre for Cognitive Science, University of Edinburgh, April 1996.
[53] O RR , M. J. L. Optimising the widths of radial basis functions. In Vth Brazilian

Symposium on Neural Networks (Belo Horizonte, Brazil, 1998), IEEE.
[54] O RR , M. J. L. Recent advances in radial basis function networks. Relatório técnico,

Centre for Cognitive Science, University of Edinburgh, 1999.
[55] P LATT, J. C. A resource-allocating network for function interpolation. Neural

Computation 3, 2 (1991), 213–225.

[56] P OGGIO , T., E G IROSI , F. A theory of networks for approximation and learning.
Relatório Técnico AIM-1140 CBIP-31, Massachusetts Institute of Technology Ar-
tificial Intelligence Laboratory and Center for Biological Information Processing,
Whitaker College, 1989.
[57] P OGGIO , T., E G IROSI , F. Network for approximation and learning. Proc. IEEE
78, 9 (setembro de 1990), 1481–1497.
[58] P OWELL , M. J. D. Radial basis functions for multivariable interpolation: a review.

Algorithms for Approximation, J. C. Mason and M. G. Cox eds, Clarendon Press,
Oxford (1987), 143–167.
[59] P OWELL , M. J. D. Radial basis function methods for interpolation to functions

of many variables. NA2001/11, DAMTP, University of Cambridge – Numerical
Analysis Group, 2001.
[60] P RESS , W. H., T EUKOLSKY, S. A., V ETTERLING , W. T., E F LANNERY, B. P.

Numerical Recipes in C, 2nd. edition. Cambridge University Press, 1992.
[61] Q UINLAN , J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann, San
Francisco, CA, 1993.
[62] R AWLINGS , J. O. Applied Regression Analysis. Wadsworth & Brooks, Cole, Pacific
Grove, CA –USA, 1988.
[63] REZENDE , S. O., Ed. Sistemas Inteligentes: Fundamentos e Aplicações, 1 ed. Edi-
tora Manole LTDA, Barueri/ SP – Brasi, 2003.
[64] ROSE , K. Deterministic annealing for clustering, compression, classification, re-

gression and related optimization problems. Proceedings of the IEEE 86, 11 (1998),
2210–2239.
[65] RUMELHART, D. E., H INTON , G. E., E W ILLIAMS , R. J. Learning representations

by backpropagating errors. Nature 323 (1986), 533–536.
[66] S ARLE , W. Stopped training and other remedies for overfitting. In Proceedings of
the 27th Symposium on Interface (1995).
[67] S ARLE , W. S. Neural networks and statistical models. In Proceedings of the Nine-
teenth Annual SAS Users Group International Conference, April, 1994 (Cary, NC,
1994), SAS Institute, pp. 1538–1550.
[68] S CHWARZ , G. Estimating the dimension of a model. The Annals of Statistics 6, 2

(1978), 461–464.
[69] WASSERMAN , P. D. Neural Computing: Theory and Practice, 1 ed. Van Nostrand
Reinhold, 115 Fifth Avenue, New York, NY – 10003, 1989.
[70] W ETTSCHERECK , D., E D IETTERICH , T. Improving the performance of radial

basis function networks by learning center locations. In Advances in Neural Infor-
mation Processing Systems (1992), J. E. Moody, S. J. Hanson, e R. P. Lippmann,
Eds., vol. 4, Morgan Kaufmann Publishers, Inc., pp. 1133–1140.

[71] W ONG , Y. F. Clustering data by melting. Neural Computation 5, 1 (1993), 89–104.
[72] Y INGWEI , L., S UNDARARAJAN , N., E S ARATCHANDRAN , P. A sequential lear-

ning scheme for function approximation using minimal radial basis function neural
networks. Neural Computation 9 (1997), 461–478.
[73] Z HANG , Y., L I , X. R., Z HU , Z., E Z HANG , H. A new clustering and training
method for radial basis function networks. In Proceedings of International Confe-
rence on Neural Networks (Washington, DC, USA, June 1996), IEEE.

Apostila Redes RBF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Apostila Redes RBF

Загружено:

Авторское право:

Доступные форматы

Uma Introdução às Redes RBF

André da Motta Salles Barreto

“Experience is not what happens to a man; it is what a

1 A aprendizagem vista como um problema de recons-

Quando se fala em redes neurais artificiais, a aprendizagem é invariavelmente menci-

Uma discussão aprofundada sobre a natureza da aprendizagem é deveras pretensiosa

2 c André da Motta Salles Barreto

3 c André da Motta Salles Barreto

ser descrita por uma função , da seguinte forma:

   !#"$%&(')* (2)

9 (: ;<1= >; %  @?ACB D (

4 c André da Motta Salles Barreto

Figura 1: Gráfico da função 

5 c André da Motta Salles Barreto

Figura 2: Informação disponível sobre 

onde  é o parâmetro de regularização.

6 c André da Motta Salles Barreto

(a) grande (b) pequeno

Figura 3: Efeitos do parâmetro de regularização

regiões do intervalo. Essa situação é geralmente referenciada na literatura de redes neu-

7 c André da Motta Salles Barreto

A equação 6 afirma que a solução  K de minimização para o funcional de Tikhonov

3 Funções de base radial

Dado um conjunto de pontos diferentes e um con-:  ; B D  E 1 ) FIFHF J

! K  ;  ; 1 D  E 1 )GFHFIF (7)

8 c André da Motta Salles Barreto

A questão que surge é: como se pode ter certeza da não-singularidade da matriz ?

$;   BIB   ; B B *

Função multiquadrática inversa

9 c André da Motta Salles Barreto

atraentes é a sua maior plausibilidade biológica (discutida na seção 9). Em contrapartida,

10 c André da Motta Salles Barreto

Figura 6: Rede de regularização

11 c André da Motta Salles Barreto

Como o esquema de aproximação derivado da teoria da regularização é linear em

Embora a rede de regularização apresente essas características positivas, existem al-

. Além disso, a possibilidade de

12 c André da Motta Salles Barreto

pendentes e ; , como no caso anterior, são coeficientes lineares a serem determinados.

13 c André da Motta Salles Barreto

14 c André da Motta Salles Barreto

onde é uma matriz quadrada de ponderação de norma e

15 c André da Motta Salles Barreto

Coeficientes lineares Os coeficientes ;representam os pesos que compõem a soma

16 c André da Motta Salles Barreto

possibilidades potenciais—, ao contrário do que acontece em problemas de aproximação,

de aproximação de funções do tipo

6.1 Teorema de Cover

17 c André da Motta Salles Barreto

(a) Padrões linearmente separáveis (b) Padrões não linearmente separáveis

Figura 9: Exemplos de conjuntos de dados linearmente separáveis e não linearmente

Como o poder de separação da camada de saída é limitado, espera-se que os padrões

Teorema 1 (Cover) Um problema complexo de classificação de padrões dispostos não

7 Algoritmos de treinamento de redes RBF

18 c André da Motta Salles Barreto

7.1 A função de custo

Em geral, os algoritmos de treinamento de redes neurais procuram minimizar uma

19 c André da Motta Salles Barreto

onde é o o número de pontos no conjunto de treinamento.

20 c André da Motta Salles Barreto

Uma outra estimativa do erro de generalização são os chamados critérios de seleção

onde 5 é o número de RBF’s na camada oculta.

7.2 Treinamento das redes RBF como um modelo linear

!#"$%&(')* (2)

9 (: ;<1= >; % @?ACB D (

Figura 1: Gráfico da função

Figura 2: Informação disponível sobre

onde é o parâmetro de regularização.

A equação 6 afirma que a solução K de minimização para o funcional de Tikhonov

Dado um conjunto de pontos diferentes e um con-: ; B D E 1 ) FIFHF J

!K ; ; 1 D E 1 )GFHFIF (7)

$; BIB ; B B *

onde é a taxa de aprendizagem [29].

definido como sendo o erro da rede naquele ponto, ou seja, a diferença