Curso Redes Neurais

Introduo ao Estudo das Introdu Redes Neurais Artificiais
Objetivos
Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Smula
Prof. Dr.Mauro Roisenberg e-mail: mauro@inf.ufsc.br
Oferecer ao aluno uma introduo introdu abordagem da IA conexionista, descrevendo caractersticas de caracter funcionamento, formas de aprendizado e aplicaes tpicas. Vrios modelos de redes aplica t V sero estudados, seguindo-se o uso de seguindosoftwares de simulao. simula
Introduo - Inteligncia Artificial Simblica e Introdu Simb Conexionista. Histrico das Redes Neurais Artificiais. Hist Nomenclatura Bsica, o Neurnio Biolgico e B Biol Reviso de lgebra Linear. Tipos de Redes, Arquiteturas, Caractersticas e Caracter Aplicaes. Aplica Modelos Bsicos: Perceptron, Adaline, B Perceptron, Adaline, Madaline. Madaline.

Smula - continuao continua

Bibliografia

Bibliografia
Kovcs, Zsolt Laszlo Kov cs,
Modelos Bsicos: Multi-layer Perceptron e B MultiRegra de Aprendizado Back-Propagation. Back- Propagation. Redes Counterpropagation. Counterpropagation Memrias Associativas: Hopfield e BAM. Mem Redes de Kohonen. Kohonen. Redes ART Redes Recorrentes.
Freeman, James A. & Skapura, David M. Freeman, Skapura,

Neural Networks: Algorithms, Applications and Networks: Algorithms, Programming Techniques. Addison-Wesley Techniques. AddisonPublishing, 1992. Publishing,
Redes Neurais Artificiais: fundamentos e aplicaes. aplica Collegium Cognitio, 1997. Cognitio,
Haykin, Simon Haykin,

Neural Networks: a comprehensive foundation. IEEE Networks: foundation. Press, 1994. Press,
Rumelhart, D.; Hinton, G. & Williams, R. Rumelhart, Hinton,

Learning Internal representation by Error Propagation. Propagation. In: Parallel Distributed Processing: explorations in Processing: the microstructure of cognition - Vol 1. MIT Press, Press, 1986.
Barreto, Jorge M.
Inteligncia Artificial: No limiar do sculo XXI. s Edies, 1997. Edi
Arbib, Michael A. (Ed) Arbib,

the handbook of Brain Theory and Neural Networks. Networks. MIT Press, 1995. Press,
Origens da Inteligncia Artificial

O que Inteligncia Artificial?

O QUE INTELIGNCIA?
Binet: Inteligncia julgar bem, compreender bem,
raciocinar bem. bem

A INTELIGNCIA S HUMANA?
Em um primeiro momento, a inteligncia era geralmente associada a uma caracterstica caracter unicamente humana, de representao de representa conhecimentos e resoluo de problemas, resolu refletindo um ponto de vista altamente antropocntrico. Mas, ainda assim, ns, humanos, n no compreendemos a ns mesmos, como n funciona nossa inteligncia e nem mesmo a inteligncia origem de nossos pensamentos.
I propose to consider the question, Can machines question, think? This should begin with definitions of the meaning think? of the terms machine and think. A. Turing, machine think
Tearman: A capacidade de conceituar e de

compreender o seu significado. significado
Computing Machinery and Intelligence, 1950 Intelligence,
Helm: A atividade inteligente consiste na compreenso

do essencial de uma situao e numa resposta reflexa situa apropriada. apropriada Piaget: Adaptao ao ambiente fsico e social. Adapta f social
Descartes
Se queres discutir comigo, define primeiro teus termos. termos.

Hoje em dia, para muitos pesquisadores, a idia id de inteligncia passou a ser associada com a idia id de sobrevivncia. Carne: Talvez a caracterstica bsica de um caracter b organismo inteligente seja sua capacidade de aprender a realizar vrias funes em um v fun ambiente dinmico, tais como sobreviver e prosperar. prosperar Fogel: inteligncia pode ser definida como a capacidade de um sistema de adaptar seu comportamento para atingir seus objetivos em uma variedade de ambientes. ambientes

Definies de IA Defini
um ramo da cincia da computao ao mesmo computa tempo recente (oficialmente nasceu em 1956) e muito antigo (lgica de Aristteles) (l Arist At mesmo a origem do termo cercada de At mistrio - John McCarthy, criador do termo em mist McCarthy, 1956 no tem certeza de no haver ouvido o termo anteriormente.

Elaine Rich: IA o estudo de como fazer os
computadores realizarem coisas que, hoje em dia so feitas melhores pelas pessoas. pessoas Winston: IA o estudo das idias que permitem aos id computadores serem inteligentes. inteligentes Charniak and McDermott: IA o estudo das faculdades mentais atravs da utilizao de modelos atrav utiliza computacionais. computacionais Bellman: IA o estudo e simulao de atividades que simula normalmente assumimos que requerem inteligncia. inteligncia Russell and Norvig: IA o estudo e implementao de implementa agentes racionais. racionais (um agente racional algo que procura atingir seus objetivos atravs de suas crenas.) atrav cren

O objetivo central da IA simultaneamente terico - a criao de te cria teorias e modelos para a capacidade cognitiva - e prtico - a implementao pr implementa de sistemas computacionais baseados nestes modelos.
As duas abordagens da IA
IA Simblica Simb
Um sistema simblico capaz de simb manifestar um comportamento inteligente. O comportamento inteligente global simulado sem considerar os mecanismos responsveis por este comportamento. respons
Princpios da IA Simblica Princ Simb

A estratgia fundamental que sustentou boa parte do estrat sucesso inicial da IA Simblica, se deve proposta Simb conhecida como Physical Symbol Systems Hypothesis, Hypothesis de Newell e Simon. Physical Symbol Systems - Newell & Simon(1976)
A physical symbol system consists of a set of entities, called symbols, entities, symbols, which are physical patterns that can occur as components of another type of entity called an expression (or symbol structure)the system structure) also includes a collection of processes that operate on expressions to produce other expressions: processes of creation, modification, expressions: creation, modification, reproduction and destruction. A physical symbol system is a machine destruction. that produces through time an evolving collection of symbol structures.Such a system exists in a world of objects wider than just structures. these symbolic expressions themselves
As duas abordagens da IA
IA Conexionista
Se for construdo um modelo constru suficientemente preciso do crebro, este c modelo apresentar um comportamento apresentar inteligente. Se apenas uma pequena parte do crebro for reproduzida, a funo c fun exercida por esta parte emergir do emergir modelo.
IA Conexionista
As origens das redes neurais artificiais remontam no desejo de construir artefatos capazes de exibir comportamento inteligente.
Fases Histricas Hist

poca Pr-Histrica (at 1875 quando Pr Hist (at Camillo Golgi visualizou o neurnio)
Objetivo:
Criar seres e mecanismos apresentando comportamento inteligente.
Metodologia e Conquistas:
Mecanismos usando mecnica de preciso desenvolvida nos autmatos, mecanismos baseados em teares, etc.
Limitaes: Limita
Complexidade dos mecanismos, dificuldades de construo. constru

poca Antiga (1875-1943 - Neurnio de (1875McCulloch & Pitts) Pitts)
Objetivo:
Entender a Inteligncia Humana.

poca Romntica (1943-1956 - Reunio (1943no Darthmouth College) College)
Objetivo:
Simular a Inteligncia Humana .

poca Barroca (1956-1969 - Livro (1956Perceptrons) Perceptrons)
Objetivo:
Expandir ao Mximo as aplicaes da IA tanto M aplica usando a abordagem simblica quanto a simb conexionista.
Estudos de psicologia e neurofisiologia. Nascimento da psicanlise. psican
Inspirao na Natureza, Nascimento da Inspira Ciberntica. Primeiros mecanismos imitando o Cibern funcionamento de redes de neurnios. Primeiros programas imitando comportamento inteligente.
Perceptron. Primeiros sistemas especialistas Perceptron. usando a abordagem simblica. simb
Limitaes: Limita
Grande distncia entre as conquistas da psicologia e da neurofisiologia.
Limitaes: Limita
Dificuldades em tcnicas de aprendizado de redes t complexas. Subestimao da complexidade Subestima computacional dos problemas. problemas.
Limitaes: Limita
Limitaes das capacidades computacionais. Limita

poca das Trevas (1969-1981 - Anuncio (1969dos Computadores de Quinta Gerao) Gera
Objetivo:
Encontrar para a IA aplicaes prticas. Simular a aplica pr Inteligncia Humana em situaes prsitua pr determinadas.

Renascimento (1981-1987 - Primeira (1981Conferncia Internacional em Redes Neurais)
Objetivo:
Renascimento da IA Simblica e Conexionista. Simb

poca Contempornea (1987-...) (1987 Objetivo:
Alargamento das aplicaes das Redes Neurais aplica Artificiais (RNAs). (RNAs).
Redes Diretas como aproximador universal. Bons resultados em problemas mal-definidos. mal-
Sistemas Especialistas. Formalismos de representao de conhecimento adaptados ao tipo representa de problema. problema.
Sistemas de regras, representao da incerteza, representa popularizao do Prolog. Alguns pesquisadores populariza criando condies para a fase seguinte no que diz condi respeito s Redes Neurais.
Limitaes: Limita
Falta de um formalismo e de uma profunda anlise matemtica sobre as capacidades das an matem Redes Neurais. Falta de estudos sobre computabilidade e complexidades neurais.
Limitaes: Limita
Subestimao da quantidade de conhecimento Subestima necessria para tratar mesmo o mais banal necess problema de senso comum.
Limitaes: Limita
IA Simblica e Conexionista evoluindo Simb separadamente.
Computao Baeada em Computa Instrues Instru
Computao Neural Computa Neural

Existem uma srie de problemas que os seres vivos, s e os seres humanos em particular, parecem resolver de maneira inata. O processamento de imagens, o reconhecimento da fala, a recuperao de informaes de maneira recupera informa associativa, a filtragem adaptativa de sinais, o aprendizado de novos fatos e idias, etc. id Se o crebro dos seres vivos parece ser c adequado para resolver os problemas no algortmicos, deve se buscar uma abordagem algor que procure se inspirar no funcionamento do crebro para soluo dos problemas. solu
IA Simblica X IA Conexionista Simb

Conhecimento representado por regras (ou outra estrutura similar) que podem ser facilmente tratadas e analisadas. Permite a explicao do processo que levou a uma explica determinada resposta. Fcil insero de novos conhecimentos obtidos a inser partir do especialista ou atravs de mtodos atrav m automticos de aquisio de conhecimento. autom aquisi
Arquiteturas Von-Neuman, Mquinas Hiper-Cbicas, Von- Neuman, M HiperMquinas Sistlicas, Data-flow. Sist licas, Data- flow. Se baseiam na execuo de instrues para execu instru realizao do processamento desejado. realiza Adotam uma abordagem algortimica para a soluo algor solu de problemas. CBI - Computadores Baseados em Instrues. Instru es A abordagem algortmica para soluo de algor solu problemas pode ser extremamente eficiente desde que se conhea exatamente a seqncia conhe seq de instrues a serem executadas para instru resoluo do problema. resolu

Necessidade de se trabalhar com conhecimentos completos e exatos sobre um determinado problema. Dificuldade de explicar todos os conhecimentos relativos ao problema atravs de regras simblicas. atrav simb Dificuldade para tratar informaes imprecisas ou informa aproximadas, e valores numricos (dados num quantitativos). Exemplo: regular a temperatura da gua do banho.

Outro Exemplo:
Conhecimento Terico Te AND(A,B) = if A=0 then AND=0 else if B=0 then AND=0 else AND=1 Conhecimento Emprico Emp

A 0 0 1 1 B 0 1 0 1 AND 0 0 0 1 A
A 0 0 1 1
B 0 1 0 1
AND 0 0 0 1
w1=1 w2=1 =2 A.w1+B.w2 B
w1 w2
AND
Interesses em usar Redes Neurais

Psiclogos Psic

Cientistas Cognitivos

Cientistas de Computao Computa
Esto vendo possibilidades de construir redes neurais artificiais e ver aparecer comportamentos emergentes tais como o aprendizado de novos conceitos, ajudando a compreenso dos mecanismos do aprendizado.
Se empenham em usar as redes neurais artificiais para um melhor conhecimento dos mecanismos envolvidos no processo cognitivo (qual o melhor mtodo de aprendizado?). m
Engenheiros
Olham as RNAs como um caminho para, implementando estas redes em circuitos eltricos, ter computadores realmente paralelos el e distribudos. distribu Muitos encontraram no aprendizado de RNAs um campo para aplicar o que se conhece da teoria da otimizao. otimiza
Neurofisiologistas
Esto interessados em ver as RNAs como metfora cerebral e, por simulao, melhorar o met simula conhecimento dos mecanismos cerebrais. (estudar a capacidade de memorizao, por memoriza exemplo).
Encontraram um novo paradigma de programao e uma arquitetura distribuda. programa distribu Explorar este paradigma, analisando suas capacidades e complexidades computacionais, desenvolvendo tcnicas de programao, t programa aplicaes, etc. um DESAFIO. aplica
Novo Paradigma de Programao Programa
Novo Paradigma de Programao Programa

Paradigmas de Programao: Programa
Fundamentos Biolgicos Biol

Eventually a science of the nervous system based upon direct observation rather than inference will describe the neural states and events which imediately precede instances of behavior. We will know the precise neurological behavior. conditions which imediately precede, say, the say, response: No, thank you. response: you. B. F. Skinner, Science and human behavior, 1953, pg. 28 behavior,
Equivalncia das RNAs com Mquinas M de Turing.

(uma RNA sem perifricos seria um computador com perif CPU e memria, sem entradas e sadas) mem sa Toda RNA pode ser simulada em um CBI. Como toda RNA pode implementar circuitos AND, OR e NOT, possvel construir um CBI poss com ajuda de uma RNA.
Imperativa (PASCAL, C, BASIC). Declarativa (PROLOG). Funcional (LISP). Conexionista.
Programao por exemplos, Programa Capacidade de generalizao, generaliza Usa analogia com problemas anteriormente resolvidos, No necessita de algoritmo explcito, expl No necessita de descrio do problema, descri Baseada na adaptabilidade!

A razo da importncia da plausibilidade biolgica biol
Redes Neurais Artificiais se inspiram nas redes biolgicas e formam um dos paradigmas da biol Inteligncia Artificial - O Conexionismo. Procura imitar a arquitetura do crebro e c espera ver o comportamento inteligente emergir.

A razo da importncia da plausibilidade biolgica biol
Em muitos casos, quando o que se deseja obter um sistema com alto grau de adaptabilidade, uma inspirao biolgica tnue inspira biol pode ser suficiente. Exemplos: reconhecimento de caracteres, previses financeiras, classificao de padres, controle de processos. classifica Entretanto, se o objetivo modelar um processo de ao motora ou processo a cognitivo, plausibilidade biolgica se torna biol essencial.

A Clula C
A clula composta basicamente de gua, c eletrlitos, protenas, lipdios e carbohidratos. eletr prote lip carbohidratos. Sua configurao tpica dividida em duas configura t partes: ncleo e citoplasma. n
Ncleo: controla as reaes qumicas e a rea qu reproduo. reprodu Citoplasma: onde as organelas esto dispersas.
Dividindo o meio intracelular do meio extracelular existe a membrana citoplasmtica. citoplasm

O Sistema Nervoso
Controla as reaes rpidas do corpo, como rea r uma contrao muscular (funo motora), contra (fun geralmente como resposta a algum estmulo est recebido (funo sensora). (fun sensora). Recebe informaes dos sensores, combina informa estas informaes com as informaes informa informa armazenadas para produzir uma resposta. organizado hierarquicamente.
Medula da coluna vertebral: ato reflexo. Crebro: Bulbo, Mesencfalo, Hipotlamo, Tlamo, Cerebelo. Mesenc Hipot T Crtex.

O Crebro C O CrebroHumano C
(105 na mosca da fruta, 5x106 no rato e 1011 no homem)

O Crebro C
Crtex Tlamo
Composto por Neurnios
O Crtex C
Massa: 1-2kg no adulto - 2% do peso 120% do peso do recm-nascido. rec Usa 20% do oxignio, 25% da glucose, 15% glucose, do fluxo de sangue.
Hipotlamo Cerebelo Bulbo Coluna Vertebral
(5cm2 no rato, 500 cm2 no chimpanz e 2000cm2 no homem) chimpanz
O tamanho do crtex separa os humanos das c outras espcies. esp 3x1010 neurnios no crtex humano. c 103 a 104 sinapses por neurnio.

Esquema Simplificado de um Neurnio

O Neurnio
Possui um corpo celular, axnio e diversas ramificaes (dendritos). ramifica Os dendritos so dispositivos de entrada que entrada conduzem sinais das extremidades para o corpo celular. O axnio (geralmente 1) o dispositivo de sada sa da que transmite um sinal do corpo celular para a suas extremidades. As extremidades do axnio so conectadas com dendritos de outros neurnios pelas sinapses.

O Funcionamento do Neurnio
A membrana citoplasmtica de uma clula nervosa citoplasm c permite o transporte de eletrlitos que modificam eletr o potencial eltrico entre as partes externas e el internas da clula. c Esta diferena de potencial provoca um trem de diferen pulsos de freqncia gerado pela clula nervosa freq c (neurnio) atravs do axnio para os dendritos, atrav que se ligam a outras clulas. c Ante um estmulo de amplitude e durao est dura definida, codificada a informao que informa posteriormente decodificada por dendritos.

O Funcionamento do Neurnio - A Sinapse
Sinapse: a ligao entre a terminao axnica e liga termina os dendritos e que permite a propagao dos propaga impulsos nervosos de uma clula a outra. As c sinapses podem ser excitatrias ou inibitrias. excitat inibit As sinapses excitatrias cujos neuro-excitadores excitat neuroso os ons sdio permitem a passagem da s informao entre os neurnios e as sinapses informa inibitrias, cujos neuro-bloqueadores so os ons inibit neuropotssio, bloqueiam a atividade da clula, c pot impedindo ou dificultando a passagem da informao. informa

O Funcionamento do Neurnio - O Potencial de Ao A
Concentraes diferentes de Na+ e K- dentro e Concentra fora das clulas provocam diferena de potencial. c diferen Estimulao eltrica, qumica, calor, etc. pode Estimula el qu perturbar a membrana do neurnio alterando este potencial. Aps um certo tempo as coisas voltam ao normal Ap devido ao mecanismo de transporte ativo. No entanto a onda de variao de tenso se propaga. varia Na regio junto sinapse o potencial de ao a libera neurotransmissores, provocando uma neurotransmissores, perturbao na membrana do neurnio seguinte, perturba e o fenmeno continua.
Uma Breve Reviso de lgebra Linear

Definies Iniciais Defini
Estrutura Matricial
Matrizes so geralmente representadas como arranjos retangulares de nmeros escalares. n A matriz A, m x n, possui m linhas e n colunas. A notao nota Aij utilizada para referenciar o nmero da i-sima linha, n j-sima coluna de A.
4 A= 1
2 0
-5 -8
A13=-5


4 V= 1 4 A= 1 Z= 0 0 -5 -8 0 0 0 -8 0 0 0 0 I= E= 5 0 1 0 0 5 0 1

(AT)ij = Aji
Uma matriz n x 1 geralmente chamada de VETOR. Uma matriz com o mesmo nmero de linhas e colunas n chamada de MATRIZ QUADRADA. Uma matriz NULA se possui todos os elementos igual a 0. Uma matriz DIAGONAL se for quadrada e possuir os elementos da diagonal principal diferentes de 0 e os restantes iguais a 0. Uma matriz diagonal chamada ESCALAR se todos os elementos da diagonal forem iguais. Uma matriz chamada IDENTIDADE ou UNIDADE se for escalar com elementos da diagonal igual a 1.
A TRANSPOSTA de uma matriz A m x n denotada por AT. AT uma matriz n x m cujas elementos so: A transposta de um vetor coluna chamada de VETOR LINHA.
4 D= 0
2 A= 1
3 5
4 6
2 AT= 3 4
1 5 6

Soma de Matrizes

Multiplicao de Matrizes Multiplica

Multiplicao de Matrizes Multiplica
Somar duas matrizes A e B resulta em uma matriz cujos elementos so a soma dos correspondentes elementos de A e B: Se C = A + B, ento Cij = Aij + Bij
Multiplicar uma matriz A m x n por uma matriz B n x p resulta em uma matriz C m x p cujos elementos so n C = AB, ento
C
2 A= 4 5 C=AB= 3 1 2 B= 4 1
ik
A ij B
-2 5
jk
j =1
2 A= 1
3 5
4 6 6 3 0 6
B= 4 11
4 2
-3 1
0 5
0 2
1 3
C=
11 6 17 2 22 4
11 11 7 -3 11 0
Dada uma matriz quadrada A n x n, verifica-se a seguinte verificapropriedade: A.I = I.A = A A matriz quadrada A n x n chamada INVERSVEL se INVERS existir uma matriz denotada por A-1 que satisfaz: A.A-1 = -1.A = I A Se A-1 existir, ela chamada matriz INVERSA. Se A-1 no existir, A chamada matriz SINGULAR.
C=A+B=
2.4+3.1 2.0+3.2 2.1+3.3 2.-1+3.5 4.4+1.1 4.0+1.2 4.1+1.3 4.-2+1.5 5.4+2.1 5.0+2.2 5.1+2.3 5.-2+2.5

Determinante de uma Matriz
Determinante de uma matriz quadrada um nmero n associado matriz dada pela definio recorrente defini seguinte: dada uma matriz quadrada A n x n, chama-se chamaDETERMINANTE de A e indicamos |A| ou det A, ao nmero dado por: a) Se n=1 ento |A| = a11 n b) Se n>1 ento | A |= (1)1+ j a1 j . | A1, j |
Redes Neurais Artificiais Origens

Neurnio
Modelo Simplificado Modelo Simulado Caractersticas Caracter Bsicas
Adaptao Adapta Representao de Representa Conhecimentos baseada em conexes
O Modelo de McCulloch & Pitts (1943)

O Crebro como um Sistema Computacional C
5 Suposies Bsicas Suposi B
A atividade de um neurnio um processo tudo ou nada. Um certo nmero fixo (>1) de entradas devem ser n excitadas dentro de um perodo de adio latente para per adi excitar um neurnio. O nico atraso significativo o atraso sinptico. sin ptico. A atividade de qualquer sinapse inibitria previne inibit absolutamente a excitao do neurnio. excita A estrutura das interconexes no muda com o tempo.
Circuitos Neurais e Computao Computa
j =1
onde A1j a submatriz obtida da matriz A eliminando a linha 1 e a coluna j det A = 0 se e somente se A no inversvel. invers vel.
O Modelo de McCulloch& Pitts McCulloch&

Notao: Nota
Comportamento da Rede Neural pode ser expresso por predicados.

Ni(t): Assero que o i-simo neurnio dispara no tempo t. Ni(t): Asser

Circuitos encontrados no SNC 1 3
2

Exemplo 1 3 N3(t)=N1(t-1) ou Na(t-1)
a
N3(t)=N1(t-1) ou N2(t-1) DISJUNO
Ni(t): Assero que o i-simo neurnio NO DISPARA no Ni(t): Asser

tempo t.
Na(t-1)=Nb(t-2) e N2(t-2) Nb(t-2) = N2(t-3) 4 N3(t)=N1(t-1) ou (N2(t-3) e N2(t-2))
Circuitos encontrados no SNC conexo excitatria i-simo neurnio conexo inibitria 1 2 N2(t)=N1(t-1)
2
3
1
N3(t)=N1(t-1) e N2(t-1) CONJUNO

2
3
2
N3(t)=N1(t-1) e N2(t-1)
N4(t) = N2(t-1) e Nb(t-1) N4(t) = N2(t-1) e N2(t-2)
10

Conseqncias Conseq + No explica como so formadas as topologias das Redes Neurais. No explica como acontece o aprendizado. Rede Neural s funciona corretamente se todos os s elementos funcionarem corretamente. Combinao dos neurnios implementa qualquer funo Combina fun lgica - Rede Neural como Computador Digital.
Uma forma de aprendizado no Modelo de McCulloch& Pitts McCulloch&

O Aprendizado de Hebb (1949)
Modelos de Neurnio Artificiais

Neurnio Artificial, N ou Processing Element-PE N ElementUm Primeiro Modelo
Entradas (dendritos) i-simo neurnio xj wij Pesos Sinpticos Sada (axnio)
Base para todas as outras regras de aprendizado

Quando um axnio de um neurnio A est prximo o est pr suficiente para excitar um neurnio B, e repetidamente ou persistetemente toma parte do disparo de B, ento, ocorre um certo processo de crescimento ou mudana metablica mudan metab em uma das 2 clulas, de forma que a eficincia de A em c contribuir para o disparo de B aumentado (fora do ( for contato sinptico). sin ptico).
neti = wij .x j
j
Experimento de Pavlov SOM A

B
SALIVAO
VISO

O PERCEPTRON : Frank Rosenblatt (1958)
A conectividade desenvolvida nas redes biolgicas contm biol cont um grande nmero aleatrio de elementos. n aleat elementos No incio, o Perceptron no capaz de distinguir padres e in portanto ele genrico. gen Pode ser treinado. Com o tempo foi-se notando que a capacidade de foiseparabilidade era dependente de certas condies de condi contorno dos padres de entrada. contorno


x1 x1 w1 x2 w2 sada net=x1.w1+x2.w2 1 se net 0 se net <
x1 x2
w1 w2 wixi
x2 condio de limiar (threshold)
sada=f(net)=
...
xn Retina wn
EQUAO FUNDAMENTAL DO PERCEPTRON EQUA EQUAO DE UMA RETA w1.x1+w2.x2=
11

O PERCEPTRON : Exemplos


Determinar w1, w2 e para que o Perceptron aprenda a funo OU-EXCLUSIVO Lgico (XOR) fun OUL x1 x2 OR 0 0 0 0 1 1 1 0 1 (0,1) (1,1) 1 1 0
x2
sada=f(net)=
x2
sada=f(net)=
Determinar w1, w2 e para que o Perceptron aprenda a funo OU Lgico (OR) fun L x2 x1 x2 OR 0 0 0 (0,1) (1,1) 0 1 1 1 0 1 1 1 1 (1,1)
(0,0)
x1
Determinar w1, w2 e para que o Perceptron aprenda a funo E Lgico (AND) fun L x2 x1 x2 OR 0 0 0 (0,1) (1,1) 0 1 0 1 0 0 1 1 1 (1,1)
(0,0)
(1,1)
x1
(0,0)
x1
Possvel soluo: w1=w2= = 1
Possvel soluo: w1=w2=1 = 2
CONCLUSO: O PERCEPTRON CAPAZ DE DISTINGUIR APENAS PADRES LINEARMENTE SEPARVEIS!!! SEPAR

O PERCEPTRON : Minsky e Papert (1969)
CONCLUSO: O PERCEPTRON CAPAZ DE DISTINGUIR APENAS PADRES LINEARMENTE SEPARVEIS!!! SEPAR Isto causou um trauma na comunidade trauma cientfica e levou ao corte de verbas para as cient pesquisas em Redes Neurais Artificiais. Se colocarmos mais uma camada de neurnios podemos resolver esta limitao. limita Mas como achar os pesos? pesos? Na poca no se sabia como.

O PERCEPTRON : Minsky e Papert (1969)
x1 w11 w12 w21 w22 1 w11 2 w12

O ALGORITMO DE APRENDIZADO DO PERCEPTRON : O ADALINE - Widrow e Hoff (1960) x1 ADALINE ADAptive LInear NEuron
x2 x3 x4 x5 wn xn ALC Adaptive Linear Combiner w1 w2 w3 ADAptive LINear Element +1 sada sign(y) y -1
x1 x2
sada
x2
w11=w12=w21=w22=1 1=0,4 2=1,2 = 0.5
12

O ADALINE - Widrow e Hoff (1960)
Formulao Vetorial Formula
w0 w1 W = w2 ... wn x0 x1 X = x2 ... xn


A Regra de Hebb
y = WT.X
Idealizada por Hebb, a idia bsica que se duas Hebb, id b unidades so ativadas simultaneamente, suas interconexes tendem a se fortalecer. Se i recebe o sinal de sada de j, o peso Wij modificado de sa acordo com :
A Regra Delta - Erro Mdio Quadrtico M Quadr Mnimo (LMS) - Widrow-Hoff Widrow uma variante da Regra de Hebb, introduzida por Hebb, Widrow-Hoff. A diferena quanto a de Hebb que Widrow- Hoff. diferen possui uma sada desejada dj. Assim, o peso ser sa dj. ser proporcional sada. sa Sendo aj e ai os nveis de ativaes das unidades j e i n ativa respectivamente, a variao dos pesos : varia
Suponha que temos um conjunto de vetores de entrada {X1, X2, ..., XL}, cada um com seu valor de sada correto (desejado) {d1, d2, ..., dL}. O Mtodo de Aprendizado procura achar os pesos de forma a minimizar a diferena entre a sada desejada e a sada obtida com o vetor de entrada.
onde (lambda) uma constante de proporcionalidade lambda) representando a taxa de aprendizado e ai e aj so ativaes (ou sadas) das unidades i e j ativa sa respectivamente. Alguns autores representam alternativamente a matriz Wij por Wji. Wji.

Como Minimizar o Erro Mdio Quadrtico M Quadr 0 Exemplo X 1 = d1 = 0 Funo OR: k=4 Fun 0
x1 0 0 1 1 x2 0 1 0 1 OR 0 1 1 1 dk

Como Minimizar o Erro Mdio Quadrtico M Quadr
Erro Mdio Quadrtico M Quadr
Erro para o k-simo vetor de entrada Ek = dk - yk desejado - obtido Erro Mdio Quadrtico M Quadr

Como Minimizar o Erro Mdio Quadrtico M Quadr
Erro Mdio Quadrtico M Quadr
T T < Ek2 >=< d k2 > +W T < X k X k > W 2 < d k X k > W
Xk
0 X 2 = d2 =1 1 1 X 3 = d1 = 1 0 1 X 4 = d4 =1 1
< E
2 k
1 >= L
2 k
k =1
2 k
Equao de uma Parbola Minimiza o do Error Mdio Quadrtico significa encontrar o FUNDO DA PARBOLA. < Ek2 > =0 W T 2 < X k X k > W 2 < d k X k >= 0
ento < E
>=< ( d k y k ) 2 > X
k T
mas y k = W < d k2 > + W

T
logo < E k2 >=< ( d k W < XkX

T k
X k ) 2 >=
T k
> W 2 < dk X
>W
13

A Regra Delta - Erro Mdio Quadrtico M Quadr Mnimo (LMS) - Widrow-Hoff Widrow Determinao dos Conjunto de Pesos W, Determina pelo Mtodo da Descida Mais ngreme M (Steepest Descente)
Mtodo Iterativo Escreve-se W como uma funo do tempo. Escrevefun tempo
Vetor de pesos iniciais W(0) Vetor de pesos no passo ou tempo t W(t) passo tempo

Determinao dos Conjunto de Pesos Determina W, pelo Mtodo da Descida Mais M ngreme (Steepest Descent) (Steepest Descent)
1-Comear especificando valores aleatrios Come aleat para os pesos. 2-Aplicar um vetor de entrada Xk. 3-Determinar o erro Ek(t) utilizando W(t). Ek2(t) = (dk - WT(t)Xk)2 (d (t)X 4-Supor que Ek2(t) uma aproximao razovel aproxima razo para o Error Mdio Quadrtico <Ek2(t)> Quadr

5-Calcular o gradiente do erro, isto a direo em que derivada maior. dire o
Ek2 (t ) = (d k W T (t ) X k ) 2 Ek2 (t ) = 2( d k W T (t ) X k ) 2 Ek (t ).( X k ) = 2 Ek X k Ek = W

6-Atualizar o Vetor de Pesos.

7-Repetir os passos de 2 a 6 at o erro alcanar at alcan um valor suficientemente pequeno.
O Perodo Negro Per Negro

Minsky e Papert - 1969 - Livro Perceptrons. O Perceptrons Perceptron (ou o Adaline) incapaz de classificar Adaline) corretamente padres no linearmente separveis. separ A maioria dos problemas so no linearmente separveis. separ veis. Apesar do descrdito gerado sobre a rea da descr neurocomputao, entre 1969 e 1982 os estudos neurocomputa o, neste campo continuaram, ainda que englobadas em outras linhas de pesquisa, como processamento adaptativo de sinais, reconhecimento de padres, modelamento biolgico, etc. Este trabalho, ainda biol que silencioso, construiu as bases necessrias para necess que o desenvolvimento das redes neurais pudesse continuar de forma consistente.
W (t + 1) = W (t ) Ek2 (t ) W (t + 1) = W (t ) + 2 Ek X k com E k = d k W T (t ) X k
14
O Renascimento
Em 1974, Paul Werbos conseguiu o maior progresso em termos de redes neurais desde o perceptron de Rosenblatt: ele lanou as bases do algoritmo de Rosenblatt: lan retro-propagao ("backpropagation"), que permitiu retro- propaga ("backpropagation"), que redes neurais com mltiplas camadas m apresentassem capacidade de aprendizado. Em 1982, David Parker desenvolveu um mtodo similar, m de forma aparentemente independente. Contudo, a potencialidade deste mtodo tardou a ser m reconhecida.
O Renascimento
Os primeiros resultados da retomada do desenvolvimento sobre redes neurais foram publicados em 1986 e 1987, atravs dos trabalhos atrav do grupo PDP (Parallel and Distributed Processing), (Parallel Processing), onde ficou consagrada a tcnica de treinamento por t backpropagation. backpropagation.
Redes Neurais Artificiais Os Tempos Modernos

Elementos Bsicos B de um Neurnio Artificial
Uma Abordagem Unificada. Terminologia Bsica.
Elementos Bsicos de um B Neurnio Artificial
A evoluo das pesquisas no campo da abordagem evolu conexionista levou ao desenvolvimento de uma infinidade de modelos de neurnios artificiais, de topologias de interconexo destes neurnios e algortmos para aprendizado. algor Um trabalho que procurasse apresentar de maneira extensiva todos os modelos de neurnios, de topologias e de algortmos de aprendizado, algor certamente ocuparia vrios volumes e milhares de v pginas. Abordagem Unificada - Modelo Formal
Definies de Sistemas Dinmicos Aplicados ao Defini Neurnio Artificial
A partir da definio de Sistemas Dinmicos, podemos defini definir um Neurnio Artificial (NA) como um sendo um Sistema Dinmico onde:
T ; = { } f ( n ); U n ; Y ; = { } f ( ); X ;
: T T X X ; : T X U Y .
Conjunto Tempo Conjunto dos Valores de Entrada Conjunto das Funes de Entrada Conjunto dos Valores de Sada Conjunto das Funes de Sada Conjunto de Estados Funo de Transio de Estados Funo de Sada
Definies de Sistemas Dinmicos Aplicados ao Defini Neurnio Artificial A partir da definio formal para a representao defini representa de um neurnio artificial possvel descrever o poss funcionamento de diversos modelos de neurnios, bastando particularizar os parmetros que definem o sistema. Particular ateno ser dada escolha aten ser da funo de transio de estados e na funo de fun transi fun sada e na maneira de combinar os valores de sa entrada dos neurnios.
15

Modelo de Neurnio Artificial

Modelo de Neurnio Artificial As Entradas

Modelo de Neurnio Artificial
E N T R A D A S
COMBINAO DAS ENTRADAS
As entradas de um neurnio podem ser as sadas de sa outros neurnios, entradas externas, um bias ou qualquer combinao destes elementos. combina
net
FUNO DE ATIVAO
Aps a determinao do neti, o valor da ativao do neurnio Ap determina ativa atualizado atravs da funo de ativao e finalmente, o atrav fun ativa valor de sada do neurnio produzido atravs da funo de sa atrav fun sada . sa
. . .
ativao
W U(t)
FUNO DE SADA
sada
A Combinao das Entradas - O Net Combina Net

O somatrio de todas estas entradas, multiplicadas por somat suas respectivas foras de conexo sinptica (os pesos), for sin d origem ao chamado "net" de um neurnio. n wij um nmero real que representa a n conexo sinptica da entrada do isimo neti (t ) = wijuj (t ) sin neurnio com a sada do jsimo neurnio. sa j =1 A conexo sinptica conhecida como excitatria se wij>0 ou inibitria inibit sin excitat caso wij<0
A Funo de Ativao Fun Ativa
x (t + 1) = ( x (t ), net (t ))
Possvel Dinmica
Os estados futuros de um neurnio so afetados pelo estado atual do neurnio e pelo valor do net de entrada. Este tipo de neurnio, que possui "memria" conhecido "mem como "neurnio dinmico". Por outro lado, se considerarmos a funo como fun constante, teremos neurnios que no possuem "memria", ou seja, o estado atual igual aos estados "mem anteriores e portanto o neurnio conhecido como "neurnio esttico. est tico

Modelo de Neurnio Artificial A Funo de Sada Fun Sa

A Funo Linear Fun

Essencialmente, qualquer funo contnua e fun cont monotonicamente crescente tal que x e y ( x ) [1,1] pode ser utilizada como funo de sada na modelagem fun sa neural. Existem, no entanto, uma srie de funes mais s fun comumente utilizadas como funes de sada em fun sa neurnios. Estas funes so: fun A Funo Linear Fun A Funo Sigmoidal ou Logstica Fun Log A Funo Tangente Hiperblica Fun Hiperb
y ( x) = ax
1 1 + e kx
A Funo Tangente Hiperblica - A Funo BIPOLAR mais Fun Hiperb Fun utilizada.
A Funo Sigmoidal ou Logstica - Funo UNIPOLAR mais Fun Log Fun utilizada.
y ( x) = tanh(kx) =
onde k um fator de escala positivo.
1 e kx 1 + e kx
y ( x) =
Confuso na Nomenclatura - CUIDADO!!!

Na literatura muitas vezes s apresentado o s neurnio esttico e portanto muitas vezes se est confunde a funo de ativao com a funo de fun ativa fun sada. Tambm comum encontrarmos o termo sa Tamb funo de transferncia. fun transferncia
16


Decaimento Passivo de Primeira Ordem. Taxa de Decaimento. Decaimento. Nvel Residual.
Algumas Observaes sobre a Dinmica do Observa Neurnio
Topologias Das Redes Neurais Como os Neurnio se Conectam

Depende da forma como os Neurnios se conectam para formar uma Rede de Rede neurnios. Redes Diretas - Feedforward Feedforward Redes Recorrentes - Feedback Feedback
A Funo Tangente Hiperblica - A Funo BIPOLAR mais Fun Hiperb Fun utilizada.
1 e kx y ( x) = tanh(kx) = 1 + e kx
Confuso na Nomenclatura - CUIDADO!!!

Na literatura muitas vezes s apresentado o s neurnio esttico e portanto muitas vezes se est confunde a funo de ativao com a funo de fun ativa fun sada. Tambm comum encontrarmos o termo sa Tamb funo de transferncia. fun transferncia
Topologia das Redes Neurais

Redes Neurais Diretas - Feedforward
As redes diretas so aquelas cujo grafo no tem ciclos. Freqentemente comum representar Freq estas redes em camadas e neste caso so chamadas redes de camadas.

Neurnios que recebem sinais de excitao excita so chamados de camada de entrada ou primeira camada. Neurnios que tem sua sada como sada sa sa da rede pertencem a camada de sada ou sa ltima camada.

Rede Direta com 3 Camadas
Camada de Entrada
u1 u2 un v
l
Camada Intermediria

Camada de Sada
y1 y2
v1 v2
ym
17

Redes Neurais Recorrentes - com Realimentao - Feedback Realimenta
Redes com "feedback" so aquelas cujo grafo de conectividade contm pelo menos um ciclo. cont Por esta razo McCulloch chamou-as de "networks chamou"networks with cycles", ou redes com ciclos. cycles", Duas destas redes tem particular importncia: as redes propostas por Hopfield e as redes bibidirecionais.

Redes Neurais Recorrentes - com Realimentao - Feedback Realimenta
u (0)
1

Rede Direta com Neurnios Estticos Est
Topologia de Rede Neural mais popular atualmente. Tambm chamada de Tamb
Rede FeedForward Multi Layer Perceptron Rede Back Propagation (erradamente)
y (k) 1 y (k) 2
y (k+1) 1 y (k+1) 2
u (0) 2
un (0)
yn (k) z-1 z-1 z-1
yn (k+1)
Aprendizado de Redes Neurais

Um neurnio considerado ser um elemento adaptativo. Seus pesos sinpticos so sin modificveis dependendo do algoritmo de modific aprendizado.

Por exemplo, alguns, dependendo do sinal de entrada que recebem, tem seus valores de sada sa associados a uma resposta diante de um aprendizado supervisionado por uma espcie de esp "professor. "professor Em alguns casos o sinal do "professor" no est est disponvel e no h informao de erro que possa dispon h informa ser utilizada para correo dos pesos sinpticos, corre sin pticos, assim o neurnio modificar seus pesos baseado modificar somente no sinal de entrada e/ou sada, sendo o sa caso do aprendizado no-supervisionado. Um noneurnio considerado ser um elemento adaptativo. Seus pesos sinpticos so modificveis sin modific dependendo do algoritmo de aprendizado.

Aprendizado Supervisionado
Neste caso, o "professor" indica explicitamente um comportamento bom ou ruim. Por exemplo, seja o caso de reconhecimento de caracteres e para simplificar seja reconhecer entre um A e um X. Escolhe-se uma rede direta, com dois neurnios na camada Escolhede sada, uma ou vrias camadas internas e um conjunto de sa v neurnios na camada de entrada capaz de representar com a preciso desejada a letra em questo. Apresentam-se estas letras sucessivamente a uma retina Apresentamartificial constituda de uma matriz de elementos fotoconstitu fotosensveis, cada um ligado a um neurnio da rede neural sens artificial direta (feedforward). (feedforward).
18

Aprendizado Supervisionado
Observa-se qual dos dois neurnios de sada est mais Observasa est excitado. Se for o que se convencionou representar a letra que for apresentada nada deve ser corrigido, caso contrrio contr modifica-se os valores das conexes sinpticas no sentido de modificasin fazer a sada se aproximar da desejada. sa Foi exatamente isto que Rosenblatt fez com o seu Perceptron. Como a cada exemplo apresentado uma Perceptron. correo introduzida depois de observar a sada da rede, corre sa este um caso de aprendizado supervisionado.

Aprendizado No-Supervisionado No aquele que para fazer modificaes nos valores modifica das conexes sinpticas no usa as informaes sin informa sobre a resposta da rede, isto se a resposta est est correta ou no. Usa-se por outro lado um esquema, tal que, para Usaexemplos de coisas semelhantes, a rede responda de modo semelhante.

O Aprendizado Backpropagation
Estrutura da Rede:
Rede Direta Multi-camada com Neurnios Estticos. MultiEst
Modo de Treinamento:
Supervisionado.
Soluo para superar o problema do aprendizado Solu da classificao de padres no-linearmente classifica noseparveis: separ
Utilizao de uma camada intermediria de neurnios, Utiliza intermedi chamada Camada Intermediria (ou Escondida - "Hidden Intermedi Layer"), de modo a poder implementar superfcies de Layer"), superf deciso mais complexas.

Desvantagem em utilizar esta camada escondida: O aprendizado se torna muito mais difcil. dif cil
A caracterstica principal da camada escondida que caracter seus elementos se organizam de tal forma que cada elemento aprenda a reconhecer caractersticas caracter diferentes do espao de entrada, assim, o algoritmo de espa treinamento deve decidir que caractersticas devem ser caracter extradas do conjunto de treinamento. extra At o incio dos anos 70 nenhum algoritmo de At in aprendizado para estas redes multi-camadas havia sido multidesenvolvido. Nos anos 80, um algoritmo chamado Retro-propagao Retro- propaga ou Backpropagation, veio fazer renascer o interesse geral Backpropagation, pelas redes neurais.

Foi desenvolvido de maneira independente por vrios pesquisadores Em 1974, Werbos descobriu o algoritmo enquanto desenvolvia sua tese de doutorado em estatstica estat e o chamou de "Algoritmo de Realimentao Realimenta Dinmica". Parker em 1982 redescobriu o algoritmo e chamou-o de "Algoritmo de Aprendizado Lgico". chamouL Foi com o trabalho de Rumelhart, Hinton e Rumelhart, Williams do grupo PDP ("Parallel Distributed ("Parallel Processing") do MIT, que em 1986 divulgou e Processing") popularizou o uso do Backpropagation para o aprendizado em redes neurais.

O algoritmo Backpropagation hoje em dia a tcnica de aprendizado supervisionado mais utilizada para redes neurais unidirecionais multimulticamadas com neurnios estticos. est
19

Basicamente, a rede aprende um conjunto prpr definido de pares de exemplos de entrada/sada entrada/sa em ciclos de propagao/adaptao. propaga o/adapta Depois que um padro de entrada foi aplicado como um estmulo aos elementos da primeira est camada da rede, ele propagado por cada uma das outras camadas at que a sada seja gerada. at sa Este padro de sada ento comparado com a sa sada desejada e um sinal de erro calculado para sa cada elemento de sada. sa

O sinal de erro ento retro-propagado da retrocamada de sada para cada elemento da camada sa intermediria anterior que contribui diretamente intermedi para a formao da sada. forma sa Cada elemento da camada intermediria recebe intermedi apenas uma poro do sinal de erro total, por proporcional apenas contribuio relativa de contribui cada elemento na formao da sada original. forma sa

Este processo se repete, camada por camada, at at que cada elemento da rede receba um sinal de erro que descreva sua contribuio relativa para o contribui erro total. Baseado no sinal de erro recebido, os pesos das conexes so ento atualizados para cada elemento de modo a fazer a rede convergir para um estado que permita a codificao de todos os codifica padres do conjunto de treinamento.

Utiliza o mesmo princpio da Regra Delta princ
a minimizao de uma funo custo, no caso, a soma minimiza fun dos erros mdios quadrticos sobre um conjunto de m quadr treinamento, utilizando a tcnica de busca do gradientet gradientedescendente.
Algoritmo Backpropagation
Camada de Entrada Camada Escondida 1 x k1 1 ... x ki i ... l x kn n 1 bias 1 1 bias 1 1 1 m ...
h f (neth ) kj wh h j ji net kj h j
Princpios Bsicos Princ B
Suponhamos que tenhamos um conjunto de P pares de vetores (X1,Y1), (X2,Y2), ..., (XP, YP), no nosso conjunto de (X (X (X treinamento e que so exemplos de um mapeamento funcional definido como:
Camada de Sada
1 ... wo pj p
o
Tambm chamado muitas vezes de Regra Delta Tamb Generalizada ("Generalized Delta-Rule"). ("Generalized Delta- Rule").
A modificao principal em relao a Regra Delta foi a modifica rela utilizao de funes contnuas e suaves como funo de utiliza fun cont fun sada dos neurnios ao invs da funo de limiar lgico. sa inv fun l Como as funes de sada passaram a ser derivveis, fun sa deriv isto permitiu a utilizao da busca do gradienteutiliza gradientedescendente tambm para os elementos das camadas tamb intermedirias. intermedi
Y = ( X ) : X n , Y m
...
f (neto ) neto p kp kp
Desejamos treinar a rede de modo que ela consiga aprender uma aproximao da forma: aproxima
p ...
O = Y = ( X ) : X n , Y m
20
Etapas
1. Aplicar um vetor de entrada do conjunto de treinamento e propagar at a sada at sa
Um vetor de entrada Xk=[xk1 xk2 ... xkn]T do conjunto de treinamento apresentado camada de entrada da rede. Os elementos de entrada distribuem os valores para os elementos da camada escondida. O valor do net para o jsimo elemento da camada escondida vale:
h net kj = wh xki + h j ji i =1 n
Etapas
Como os neurnios so estticos, assumimos que ao est valor da funo de ativao seja igual ao net, ento, o fun ativa valor de sada para um neurnio da cada escondida vale: sa
Etapas
Do mesmo modo, as equaes para os neurnios da equa camada de sada so: sa
o o net kp = wo ikj + p pi j =1 l
h ikj = f jh ( net kj )
onde wji o peso da conexo entre o isimo elemento da camada de entrada e o jsimo elemento da camada escondida h.
o okp = f po (net kp )
Etapas
2. Calcular o error entre a sada calculada pela sa rede e a sada desejada no conjunto de sa treinamento.
Definimos o erro para um nico neurnio p na camada de sada para um vetor de entrada k como sendo: sa
Etapas
3. Determinar em que direo a mudana de peso dire mudan dever ocorrer. dever
Para determinar a direo da modificao dos pesos, dire modifica calculamos o negativo do gradiente de Ek, Ek, com relao aos pesos wpj rela
o (netkp ) Ek = ( ykp okp ) o wo (net kp ) wo pj pj
Etapas
3. Determinar em que direo a mudana de peso dire mudan dever ocorrer. dever
Combinando as equaes, temos para o negativo do equa gradiente:
Ekp = ( ykp okp )

1 m 2 Ekp 2 p =1
E o erro a ser minimizado pelo algoritmo para todos os neurnios da camada de sada como: sa
f po
Ek o = ( ykp okp ) f po (net kp )ikj wo pj 4. Determinar o valor da mudana de cada peso. mudan
A atualizao dos pesos dos neurnios da camada de atualiza sada se faz por: sa
Ek =
Podemos escrever a derivada de fpo como: e o ltimo termo da equao como: equa o
o f po (net kp )
wo (t + 1) = wo (t ) + k wo (t ) pj pj pj
o k wo = ( ykp okp ) f po (net kp )ikj pj
1 m Ek = ( ykp okp ) 2 2 p =1
(net kp ) =( wo wo pj pj
w
j =1
o pj kj
o i + p ) = ikj
onde a TAXA DE APRENDIZADO.
21
Etapas
4. Determinar o valor da mudana de cada peso. mudan
AS FUNES DE SADA FUN SA para que possamos implementar a busca do gradiente-descendente, necessrio que fpo seja gradientenecess diferencivel. diferenci vel. as funes usualmente utilizadas so: fun a funo linear: fun
Etapas
4. Determinar o valor da mudana de cada peso. mudan
AS FUNES DE SADA FUN SA Estas funes so bastante populares pois as suas fun derivadas podem ser calculadas de maneira simples, sem a necessidade de clculos complexos. c para a funo linear: fun
Etapas
5. Repetir os procedimentos para os pesos da Camada Intermediria. Intermedi
Desejamos repetir para a camada escondida os mesmos tipos de clculos que realizamos para a camada de sada. c sa O problema aparece quando tentamos determinar uma medida para o erro das sadas dos neurnios da camada sa escondida. Sabemos qual a sada destes neurnios calculada pela sa rede, porm no sabemos a priori qual deveria ser a por sada correta para estes elementos. Intuitivamente, o sa erro total, Ek, deve de alguma forma estar relacionado com o valor de sada dos neurnios da camada sa escondida.
f po (net o ) = net o jp jp
f po (net o ) = jp 1 1+ e
net o jp
f po = 1
para a funo logstica ou sigmoidal: fun log sigmoidal:
a funo logstica ou sigmoidal: fun log sigmoidal:
f po = f po (1 f po )
para a funo tangente hiperblica: fun hiperb
net o jp net o jp
a funo tangente hiperblica: fun hiperb
f po ( net o ) = tanh(net o ) = jp jp
1 e 1+ e
f po =
1 (1 f po 2 ) 2
Etapas
Voltando a equao do Erro temos: equa
Etapas
Sabendo que ipj depende dos pesos da camada escondida, podemos utilizar este fato para calcular o gradiente de Ek com respeito aos pesos da camada escondida. Ek 1 = ( ykp okp ) 2 wh 2 p w h ji ji
Etapas
Cada um dos fatores da equao pode ser calculado equa explicitamente das equaes anteriores, assim como foi equa feito para o gradiente da camada de sada. sa O resultado fica:
Ek = = =
1 ( ykp okp ) 2 2 p 1 o ( ykp f po (netkp ))2 2 p 1 ( ykp f po ( wopjikj + po )) 2 2 p j
= ( ykp okp )
p
okp (net ) ikj (net ) o h (netkp ) ikj (netkj ) w

o kp h kj h ji
Ek o h = ( ykp okp ) f po ( net kp ) wo f jh (net kj ) xki pj wh p ji
22
Etapas
Por fim, assim como no caso da camada de sada, sa atualizamos os pesos da camada escondida proporcionalmente ao valor negativo da equao. equa
Etapas
6. Voltar ao passo 1, escolhendo um novo vetor de entrada do conjunto de treinamento e repetir os passos de 1 a 5, somando o erro. 7. Aps todos os vetores do entrada do conjunto Ap de treinamento terem sido apresentados (uma poca), calcular o erro mdio quadrtico. poca m quadr Se for aceitvel parar, aceit seno voltar ao passo 1.
O que so mnimos locais? m
So pequenos buracos na superfcie de erro, mas buracos superf no so na realidade a soluao (fundo do poo) do solu ao po problema.
Como escapar de mnimos locais? m

Podemos escapar de mnimos locais usando na m atualizao dos pesos um termo proporcional a atualiza ltima direo de alterao do peso. (Alterao do dire altera (Altera Peso no passo anterior do algoritmo Backpropagation) - idia de inrcia ou um Backpropagation) id in empurro para sair de buracos. empurro
w h (t + 1) = w h (t ) + k w h (t ) ji ji ji
onde:
h o k w h = f jh ( net kj ) xki ( ykp okp ) f po (net kp ) wo ji pj p
novamente a taxa de aprendizado.
wo (t + 1) = wo (t ) + k wo (t ) + k wo (t 1) pj pj pj pj
onde o parmetro conhecido como momento. momento
Algumas dicas prticas pr
Inicializao dos valores dos pesos Inicializa
valores aleatrios entre -1 e +1. aleat
Algumas dicas prticas pr
Valor do parmetro de momento?
Valores grandes entre 0.8 e 0.9. grandes
Redes Neurais Artificiais Memrias Associativas Mem

um conceito intuitivo. intuitivo
Conceitos Bsicos - Memria Associativa B Mem

Parece ser uma das funes primrias do crebro. fun prim c Facilmente ASSOCIAMOS a face de um amigo com seu nome, ou um nome a um nmero de telefone. n Tambm serve para reconstituir padres Tamb corrompidos ou incompletos. corrompidos Se olharmos uma foto com os lbios da Natasha l Kinsky, logo recompomos todo o seu rosto. Kinsky, Se vemos um amigo que normalmente no usa culos, com eles, ainda assim, reconhecemos a face como sendo da pessoa em questo.
Valor da taxa de aprendizado

valores pequenos 0.01 e 0.1
O que acontece se usarmos taxas de aprendizado muito grandes?

Converge rpido, mas pode no chegar no valor de erro r mnimo, pois fica saltando de um lado para outro na saltando superfcie de erros. superf
Se a funo de sada for sigmoidal, escalar os fun sa sigmoidal, valores de sada. sa

As sadas nunca atingem exatamente 0 ou 1. Usar sa valores como 0.1 e 0.9 para representar o menor e o maior valor de sada. sa
Quantos neurnios na camada intermediria? intermedi Quantas camadas intermedirias? intermedi
Se a funo de sada for tangente hiperblica, fun sa hiperb escalar os valores de sada. sa
As sadas nunca atingem exatamente -1 ou 1. Usar sa valores como -0.9 e 0.9 para representar o menor e o maior valor de sada. sa
Recuperao de informao pelo contedo Recupera informa conte do
23

Algumas Medidas de Distncia
Distncia no Espao Euclidiano Espa

Algumas Medidas de Distncia
Distncia no Espao de Hamming Espa

Distncia de Hamming X Distncia Euclidiana
(x1,y1,z1) Distncia Euclidiana (x2,y2,z2) x

d = ( x1 x2 ) 2 + ( y1 y2 ) 2 + ( z1 z 2 ) 2
y (-1,1,-1) (-1,1,1) (0,0,0) (-1,-1-1) z (-1,-1,1)
(1,1,-1) (1,1,1) x (1,-1-1) (1,-1,1) Cubo de Hamming
Dados dois pontos (xi,yi) {-1,+1} (xi,yi) Distncia Euclidiana (x1-x2)2 {0,4} (x1 Distncia Euclidiana: d = 4(# desencontros) desencontros Distncia de Hamming Distncia de Hamming: h = # desencontros Hamming: desencontros d = 2h 2

Associadores Lineares

Memrias Heteroassociativas Mem

Memrias Autoassociativas Mem
Memrias Associativas - Definio Formal Mem Defini

Suponha que tenhamos L pares de vetores, {(X1,Y1),(X2,Y2),...,(XL,YL)}, com Xin, e Yim. Chamamos a estes vetores exemplares. exemplares. O que desejamos com os Associadores Lineares fazer um mapeamento de X para Y. mapeamento
Implementa um mapeamento de X para Y tal que (Xi) = Yi. Se X for o mais prximo (menor pr distncia de Hamming) de Xi do que qualquer Xj, Hamming) j=1,2,...,L, ento (X) = Yi.
Assume que Xi = Yi e implementa um mapeamento de X para X tal que (Xi) = Xi. Se X for o mais prximo (menor distncia de Hamming) de Xi do Hamming) pr que qualquer Xj, j=1,2,...,L, ento (X) = Xi.
Memrias Associativas Interpolativas Mem

Implementa um mapeamento de X para Y tal que (Xi) = Yi. Mas se o vetor de entrada X diferir de um exemplar Xi por um vetor D, de forma que X=Xi+D, ento a sada da memria tambm difere sa mem tamb X=X dos exemplares de sada por um vetor E, ou seja: sa (X) = (Xi+D) = Yi +E.
Podemos distinguir ento 3 tipos de MEMRIAS MEM ASSOCIATIVAS. ASSOCIATIVAS.
24

Implementao Matemtica Implementa Matem
Redes Neurais Artificiais Memria BAM Mem

W xi1 xi2 Camada X xi3 xi4 1 2 3 4 ... xin n WT 1 2 3 4 ... m
Construir uma memria associativa no difcil se mem dif introduzirmos a restrio de que os vetores restri exemplares devam ser ortonormais entre si ortonormais (vetores dos vrtices de um Cubo de Hamming). v Hamming). XiT.Xj=ij, onde ij= 1 se i=j, e ij=0 se ij. (X) = (Y1X1T + Y2X2T + ... + YLXLT).X Exemplo (X2) = (Y1X1T + Y2X2T + ... + YLXLT).X2 (X2) = Y1X1T X2 + Y2X2T X2 + ... + YLXLTX2 (X2) = Y112 + Y2 22 + ... + YL L2
Implementao por Redes Neurais Implementa (Elementos Processadores Distribudos) Distribu A MEMRIA BAM MEM (Bidirectional Associative Memory) Memory)
Consiste de duas camadas de neurnios que esto completamente conectados entre as camadas. Cada neurnio est conectados a si est mesmo. O peso das conexes determinado a-priori, abaseado nos vetores de treinamento. treinamento
yi1 yi2
Camada Y yi3
yi4
ij=0 ij, ij=1 i=j ij=0 ij=1

(X2) = Y2
yim

Treinamento da BAM Treinamento

Processamento da BAM
Clculo das Matrizes de Pesos Recuperao da Informao Recupera Informa

Algumas Consideraes Considera
A matriz de pesos W construda constru utilizando o modelo de Associador Linear.

Dados L pares de vetores que constituem o conjunto de exemplares que desejamos armazenar, W= Y1X1T + Y2X2T + Y3X3T + ... + YLXLT fornece os pesos das conexes da camada X para a camada Y. WT fornece os pesos das conexes da camada Y para a camada X.
Aplicar um par de vetores iniciais (X0,Y0). Propagar a informao de X para Y informa (multiplicar X0 pela matriz W) e atualizar Y. Propagar a informao atualizada de Y para X informa (multiplicar Y pela matriz WT) e atualizar X. Repetir os passos 2 e 3 at no haver at mudana nos valores dos neurnios. mudan
Dado X0 o resultado ser Xi com a menor ser distncia de Hamming de X0.
este algoritmo que fornece BAM suas caractersticas bi-direcionais. caracter bi Os termos entrada e sada dependem da entrada sa da direo atual de propagao. dire propaga Aps algumas iteraes a rede ir estabilizar em Ap itera ir um estado estvel. est No sobrecarregar demais a memria com muita mem informao, ou ela ir estabilizar em um estado informa ir esprio (crosstalk). esp rio crosstalk). O Crosstalk ocorre quando os padres exemplares esto muito prximos uns dos outros. pr ximos
25

Matemtica da BAM Matem


Os neurnios calculam o net, como neurnios normais: normais
Os neurnios calculam o net, como neurnios normais: normais
O valor da sada para cada neurnio depende do sa valor do net e do valor da sada anterior. sa anterior
Novo valor para a sada y no instante t + 1 est relacionada com o valor de y no instante t por + 1 se netiy > 0 yi (t + 1) = yi (t ) se netiy = 0 1 se net y < 0 i Novo valor para a sada x no instante t + 1 est relacionada com o valor de x no instante t por + 1 se netix > 0 xi (t + 1) = xi (t ) se netix = 0 1 se net x < 0 i
clculo do net para o neurnio i da camada Y. netiY = wij x j

j =1 n
clculo do net para o neurnio j da camada X. net jX = w ji yi

i =1 m
clculo do net para a camada Y. net = W . X

Y
clculo do net para a camada X. net X = W T .Y

Exemplo - continuao continua

Exemplo 2

Alguns exemplos T T X 1 = [1,1,1,1,1,1,1,1,1,1] e Y1 = [1,1,1,1,1,1] T T X 2 = [1,1,1,1,1,1,1,1,1,1] e Y2 = [1,1,1,1,1,1]

T W = Y1 X 1T + Y2 X 2
0 0 0 2 0 2 0 2 0 2 0 2 2 2 0 2 0 2 0 2 0 2 2 2 0 2 0 2 0 2 W = 2 2 2 0 2 0 2 0 2 0 2 0 0 0 2 0 2 0 2 0 0 2 0 2 0 2 0 2 2 2
Tomemos X0=[-1,-1,-1,1,-1,1,1,-1,-1,1]T =[- 1,- 1,- 1,1,- 1,1,1,- 1, h(X0,X1)=1 e h(X0,X2)=7 (distncia de Hamming) Hamming) Fazemos Y0 igual a um dos vetores exemplares (ou usamos um vetor bipolar aleatrio) Y0=Y2=[1,1,1,1,-1,-1]T. =[1,1,1,1,- 1,aleat Propagamos de X para Y, j que a chave X0. j chave netY=W.X0=[4,-12,-12,-12,4,12]T =[4,- 12,- 12, Calculamos o novo vetor Y, Ynew=[1,-1,-1,-1,1,1]T =[1,- 1,- 1, Propagamos agora de Y para X. netX=[4,-8,-8,8,-4,8,4,-8,-4,8]T =[4,- 8,- 8,8,-4,8,4,-8, Calculamos o novo vetor X, Xnew=[1,-1,-1,1,-1,1,1,-1,-1,1]T =[1,- 1,- 1,1,- 1,1,1,- 1, Novas propagaes no alteraro o resultado e portanto propaga consideramos a memria estabilizada e com o padro X1 mem recuperado.
Tomemos X0=[-1,1,1,-1,1,1,1,-1,1,-1]T e Y0=[-1,1,-1,1,-1,-1]T =[- 1,1,1,- 1,1,1,1,- 1,1,=[- 1,1,- 1,1,- 1,h(X0,X1)=7 e h(X0,X2)=5 (distncia de Hamming) Hamming) h(Y0,Y1)=4 e h(Y0,Y2)=2 Propagamos de X para Y, j que a chave X0. j chave netY=W.X0=[-4,4,4,,4,-4]T =[- 4,4,4,,4,Calculamos o novo vetor Y, Ynew=[-1,1,1,1,1,-1]T =[- 1,1,1,1,1,Propagamos agora de Y para X. X=[-4,8,8,-8,4,-8,-4,8,4,-8]T net =[- 4,8,8,- 8,4,- 8,- 4,8,4,Calculamos o novo vetor X, Xnew=[-1,1,1,-1,1,-1,-1,1,1,-1]T =[- 1,1,1,- 1,1,-1,- 1,1,1,Novas propagaes no alteraro o resultado e portanto propaga consideramos a memria estabilizada. mem
Qual foi o padro recuperado?
26

Exemplo 2 - continuao continua

A Equao de Energia da BAM Equa
Uma conversa a respeito de conversa ESTABILIDADE e CONVERGNCIA.
O padro recuperado foi o complemento complemento de X1. Propriedade bsica da BAM: Se b armazenamos um padro (X,Y), automaticamente armazenamos o complemento do padro. No comum uma criana dizer apaga a crian apaga luz quando na verdade quer acender a luz?
O processamento de sistemas neurais artificiais governado tipicamente por duas reas da matemtica: a ESTABILIDADE GLOBAL e a matem CONVERGNCIA. ESTABILIDADE GLOBAL a eventual estabilizao de todas as ativaes dos neurnios estabiliza ativa a partir de uma entrada inicial. CONVERGNCIA a eventual minimizao do minimiza erro entre as sadas calculadas e desejadas. sa
Durante o processo de treinamento, nas redes diretas com neurnios estticos, os pesos est formavam um sistema dinmico. Isto , os pesos se alteravam em funo do tempo, e estas fun alteraes podiam ser representadas por um altera conjunto de equaes diferenciais. equa Para a BAM, uma situao diferente ocorre. Os situa pesos so calculados anteriormente e no fazem parte do sistema dinmico. Por outro lado, a rede pode levar vrios passos at se estabilizar. v passos at Neste caso os vetores X e Y mudam em funo fun do tempo e formam um sistema dinmico.

FUNO DE LYAPUNOV FUN

FUNO DE LYAPUNOV FUN

A questo ento para os sistemas dinmicos representados por redes neurais artificiais se o sistema vai CONVERGIR para uma SOLUO SOLU ESTVEL. EST VEL. Infelizmente muitos modelos de redes neurais no possuem provas para a convergncia. Quanto a estabilidade, na teoria de sistemas dinmicos, um teorema pode ser provado no que diz respeito a existncia de estados estveis. est Este teorema utiliza o conceito de uma funo fun chamada FUNO DE LYAPUNOV. FUN

Definio: um ponto fixo estvel no sentido Defini est de Lyapunov se para todo > 0 existir um > 0 tal que se ||x(t0)- ||< , ento ||x(t)- ||< ||x(t)para todo t >=t0. Se alm disso toda vizinhana al vizinhan de x(t0) tende para quando t vai a , dizemos que assintoticamente estvel. est
Se pudermos encontrar uma funo limitada das fun variveis de estado de um sistema dinmico, de vari tal modo que toda mudana de estado resulte mudan em uma diminuio do valor da funo, ento o diminui fun sistema possui uma soluo estvel. solu est Esta funo chamada de Funo de Lyapunov fun Fun ou Funo de Energia. Fun
27


Teorema de Cohen-Grossberg de CohenEstabilidade da BAM

Energia
No caso da BAM, a Funo de Lyapunov Fun existe e chamada funo de energia da fun BAM e possui a forma: E(X,Y) = -YT.W.X ou em termos dos seus componentes:
1. Qualquer mudana em X ou Y durante o processamento mudan da BAM resulta em uma diminuio de E. diminui 2. E limitada inferiormente por Emin = -ij|wij|. 3. Quando E muda, ela deve mudar de valores finitos.
Estado
E = yi wijx j
i =1 j =1
Itens 1 e 2 provam que E uma funo de fun Lyapunov. Item 3 restringe a possibilidade que as Lyapunov. mudanas em E sejam infinitesimais, o que levaria a mudan um tempo de convergncia infinito.
Emin

Exemplo
Para o exemplo 1 visto anteriormente: Emin = -ij|wij| = - 64 para X0=[-1,-1,-1,1,-1,1,1,-1,-1,1]T e Y0=[1,1,1,1,-1,-1]T =[- 1,- 1,- 1,1,- 1,1,1,- 1,=[1,1,1,1,- 1,E = -Y0TWX0 = - 40 para X0=[-1,-1,-1,1,-1,1,1,-1,-1,1]T e Ynew=[1,-1,-1,-1,-1,1]T =[- 1,- 1,- 1,1,- 1,1,1,- 1,=[1,- 1,- 1,- 1,E = -YTnewWX0 = - 56 para Xnew=[1,-1,-1,1,-1,1,1,-1,-1,1]T e Ynew=[1,-1,-1,-1,-1,1]T =[1,- 1,- 1,1,- 1,1,1,- 1,=[1,- 1,- 1,- 1,E = -YTnewWXnew = - 64
Conceitos Bsicos B
Redes Neurais Artificiais Memrias Associativas Mem A Memria de Hopfield Mem
Redes Neurais Artificiais Memria de Hopfield Mem


Quem John Hopfield? Hopfield?

um professor de biologia e qumica do CalTech qu California Institute of Technology. Technology.
uma Memria Autoassociativa. Mem Autoassociativa. Suas entradas so valores binrios {0,1}. bin Possui uma natureza de operao assncrona. opera ass
Isto a cada instante de tempo, cada neurnio tem se estado de ativao avaliado de maneira ativa avaliado independente dos outros neurnios.
O que ele fez?

Em 1982 Hopfield publicou um artigo que influenciou vrios pesquisadores, chamando a v ateno para as propriedades associativas de um aten classe de Redes Neurais. A anlise baseada na definio de energia da an defini energia rede e uma prova de que a rede opera minimizando esta energia quando evolui para padres estveis de est operao. opera
28

Uma primeira figura
1 2 3 4 ... n 1 2 3 4 ... n

Uma segunda figura
1 2

Uma terceira figura
Camada X
Camada X
Camada X
1 3 4 ... n
...

Uma quarta figura e um exemplo
Clculo do net para o neurnio i


U1= -0,1 w12=w21=-0,5 w13=w31=0,2
neti = wij x j
j i
O valor da sada para cada neurnio depende sa do valor do net e do valor da sada anterior. sa anterior
Clculo do valor de sada xi para o neurnio i no sa instante de tempo t+1.
+ 1 se netix > U i xi (t + 1) = xi (t ) se netix = U i 1 se net x < U i i
O valor de sada de um neurnio xi=0 se ele sa no est disparando e xi=1 se ele est est est disparando. O neurnio i recebe entradas de um neurnio j com uma fora definida como wij. for Como as conexes so bidirecionais, wij=wji. Ui o valor de limiar (threshold) acima do (threshold) qual o neurnio dispara (sada xi=1). (sa
U2= 0 w23=w32=0,6
U3= 0
29

1/3 1/3 1/3 1 1 0 0 0 0 1 0 0 1 0 1 1 1 1 0 1 1 1/3 2/3 2/3 1/3 2/3 2/3 0 0 1
Memria de Hopfield Mem
1/3
0 1 0
1/3
1/3
1/3
3/3
Dado um estado qualquer, digamos x1,x2,x3=000. Podemos calcular o que vai acontecer quando avaliarmos cada neurnio. avaliarmos Se o neurnio 1 for o primeiro a ser avaliado: x1(t+1)=0.(-0,5)+0.(0,2)=0 > -0,1 (U1) (t+1)=0.(x1(t+1)=1 Logo o novo estado x1,x2,x3=100. Se o neurnio 2 for o primeiro a ser avaliado: x2(t+1)=0.(-0,5)+0.(062)=0 < 0 (U2) (t+1)=0.(x2(t+1)=0 Logo o novo estado x1,x2,x3=000. Se o neurnio 3 for o primeiro a ser avaliado: x3(t+1)=0.(0,2)+0.(0,6)=0 < 0 (U3) x3(t+1)=0 Logo o novo estado x1,x2,x3=000.

1/3 1/3 1/3 1 1 0 0 0 0 1 0 0 1 0 1 1 1 1 0 1 1 1/3 2/3 2/3 1/3 2/3 2/3 0 0 1
1/3
0 1 0
1/3
1/3
1/3
3/3

Voltando ao Exemplo
A Equao de Energia da Memria de Equa Mem Hopfield

A maneira como os estados esto organizados no slide anterior no acidental. Eles esto arranjados de tal maneira que uma mudana de estado ou permanece namesma mudan altura ou vai para baixo. altura baixo Cada estado est associado a um valor de est energia que tende a diminuir cada vez que um neurnio altera seu estado.

Para o estado x1,x2,x3=111 E=-1/2(w12.x1.x2+w13x1x3+w23x2x3)+U1.x1+U2.x2+U3.x3 E=E=-1/2((-0,5).1.1+0,2.1.1+0,6.1.1)+(-0,1).1+0.1+0.1 E=- 1/2((- 0,5).1.1+0,2.1.1+0,6.1.1)+(E=-1/2(-0,5+0,2+0,6)+(-0,1) E=- 1/2(- 0,5+0,2+0,6)+(E=-1/2(0,3)-0,1 E=- 1/2(0,3)E=-0,25 E=-
E=
1 xi wij x j + U i xi 2 i j i i
30

Voltando ao Exemplo - continuao continua

Criando estados estveis atravs do est atrav clculo prvio das conexes. pr Exemplo

Para o estado x1,x2,x3=011 E=-1/2(w12.x1.x2+w13x1x3+w23x2x3)+U1.x1+U2.x2+U3.x3 E=E=-1/2((-0,5).0.1+0,2.0.1+0,6.1.1)+(-0,1).0+0.1+0.1 E=- 1/2((- 0,5).0.1+0,2.0.1+0,6.1.1)+(E=-1/2(0,6) E=E=-0,3 E=-
Como criar Estados Estveis na Memria Est Mem de Hopfield

O comportamento da rede pode ser til se os estados estveis puderem ser selecionados ou est criados pelo usurio. usu Estados Estveis podem ser criados Est
Atravs do clculo prvio dos valores dos pesos das Atrav c pr conexo - como na BAM. Atravs de treinamento. Atrav
Suponha que tenhamos uma rede de Hopfield com trs neurnios e desejamos dois estados estveis: x1,x2,x3=010 e 111 est
chamemos X1,x2,x3=010 de estado padro A, chamemos X1,x2,x3=111 de estado padro B.

para o estado padro A
x1=0. Logo, w12x2+w13x3-U1<0. Mas x2=1 e x3=0. Assim, w12-U1<0. Do mesmo modo para x2, U2<0. E, para x3, w23-U3<0

para o estado padro B
x1=1. Logo, w12x2+w13x3-U1>0. Mas x2=1 e x3=1. Assim, w12+w13-U1>0. Do mesmo modo para x2, w12+w23-U2>0. E, para x3, w23+w13-U3>0

o conjunto de inequaes agora pode ser inequa resolvido.

Arbitremos para w12 o valor 0,5. Ento para satisfazer a primeira inequao inequa 0,5<U1<1. Arbitremos o valor 0,7. Da quarta inequao 0,2<w13<1. Arbitremos o valor inequa 0,4. A segunda inequao requer U2<0. Arbitremos 0,2. inequa E assim por diante.
31

Finalmente
w12 = 0,5. w13 = 0,4. w23 = 0,1. U1=0,7. U2=-0,2. U3=0,4.

1 0 0 1/3 0 0 1 1/3 1/3 2/3 1/3
Redes Neurais Artificiais A Rede Counterpropagation Counterpropagation

2/3
1 0 1
O Que uma Rede Counterpropagation (CounterPropagation Network - CPN)?

Basicamente um modelo de rede neural desenvolvido por Hecht-Nielsen em 1987, formado Hechtatravs da combinao de outras duas atrav combina o arquiteturas j existentes de redes neurais: A Rede j Competitiva e a estrutura Outstar de Grossberg. Grossberg. Dado um conjunto de pares de vetores (X1,Y1),(X2,Y2),...,(XL,YL), a rede pode aprender a associar um vetor X na camada de entrada com um vetor Y na camada de sada. sa No usa o aprendizado backpropagation. backpropagation.
1/3 0 0 0
0 1 1 1/3 1/3 1/3
1/3 1 1 0 1/3
2/3
1/3 0
B
3/3
1 1 1
3/3
Podemos ento construir o diagrama de transio de estados. transi
A 1 0

O Que uma Rede Counterpropagation (CPN)?
Se a relao entre X e Y puder ser descrita atravs rela atrav de uma funo contnua, tal que Y= (X), a Rede cont fun CPN aprender a aproximar este mapeamento para aprender qualquer valor de X no domnio especificado pelo dom conjunto de treinamento. No modelo original, a rede seria tambm capaz de tamb aprender o mapeamento da funo inversa se ela fun existir. Como para muitos casos prticos a funo inversa pr fun no existe, a discusso da CPN pode ser simplificada apresentando apenas o mapeamento direto.

Desenho de uma Rede CPN Completa
y1 x1 x2 y2 x1 x2 y1 y2

Desenho de uma Rede CPN Mapeamento Direto y1 y2 ym
xn Camadas 1
ym 2 3 4
xn 5
ym
x1
x2
xn
y1
y2
ym
32

Como funciona a CPN para mapeamento direto?
Ela se parece com uma arquitetura de trs camadas de uma rede Multi-Layer Perceptron, mas o MultiPerceptron, funcionamento diferente. Um vetor de entrada aplicado na camada de entrada, pr-processado e propagado para a pr camada intermediria. intermedi Na camada intermediria, camada neurnio calcula intermedi o seu net e compete com os outros neurnios da masma camada para ver quem tem o maior valor de net. Apenas a unidade vencedora que manda o seu sinal para os neurnios da camada de sada. sa

Caractersticas interessantes da CPN. Caracter
+
Lanou a idia de poder combinar vrios tipos de Lan id v redes neurais para formar uma nova arquitetura. Usa um algoritmo de aprendizado diferente em cada camada. Aprendizado bastante rpido. r Treinamento: Aplica-se (X,Y). AplicaRecuperao: Aplica-se (X,), recupera-se Y. Recupera Aplica- (X, recupera- Y

Componentes da CPN.
Uma camada de entrada
Realiza um pr-processamento nos dados de pr processamento entrada.
Um neurnio chamado instar instar Uma camada de instars, chamada camada instars, competitiva competitiva Uma estrutura conhecida como outstar outstar
No muito precisa. precisa

A Camada de Entrada.
Realiza a normalizao dos dados de entrada. normaliza
Em outros modelos normalmente consideramos a camada de entrada como buffer, que faz a buffer distribuio dos valores de entrada para os distribui neurnios da prxima camada. pr J fornecemos os valores de entrada escalonados ou normalizados, para evitar overflow. overflow Isto no funciona assim na natureza. Sistemas biolgicos devem possuir um mecanismo interno biol que previna a saturao por valores de entrada satura muito grandes. (ajuste de contraste)

x1 1 + I1 - x2 2 xi i xn-1 n-1 xn n + In

Padro de Entrada
I=(I1,I2,...,Ii,...,In-1,In)T ,...,I
Intensidade do padro de entrada

I=Ii
-+
Padro de Refletncia (normalizado)

=( 1, 2,..., i,..., n-1, n)T com i = Ii/ Ii i=1
Ii
Valor de sada dos neurnios da camada de sa entrada

xi = Ii/ (Ii2)1/2
33

O Padro de Refletncia independente da intensidade total do padro de entrada correspondente. O Padro de Refletncia da face de uma pessoa a mesma independentemente se a pessoa est no sol est ou na sombra.

O Instar.
A camada intermediria da CPN possui uma srie de intermedi s elementos conhecidos como INSTARS.

O Instar.
Um INSTAR representa um cluster ou uma cluster classe de padres. classe O INSTAR calcula o net ou produto escalar de um vetor de entrada pelo vetor de pesos. Tanto o vetor de entrada como o vetor de pesos so normalizados. net=I.W = ||I||.||W||.cos . ||I||.||W||.cos como os vetores esto normalizados, net=cos . net=cos Se desejarmos que o Instar responda ao mximo a m um vetor de entrada particular, devemos providenciar para que o vetor de pesos seja idntico ao vetor de entrada. (cos 0o=1) (cos
y I
I I
W I I I

O Instar.
y I2 w2 w2 I2 I w

O Instar.
1 I=Wfinal=(0,1) 0.866 0.5 Winicial=(0.5,0.866) w2 w1

O Instar.
I I-W W=(I-W) W(1)=W(0)+ W Winicial=W(0)
w1 I1
I1
w1
tempo Dado um vetor I=(0,1) e um vetor inicial w(0)=(0.5,0.866), os componentes w1 e w2 evoluem com o tempo procurando se alinhar com o vetor I. A quantidade (I-W) um vetor que aponta de W em direo a I. W move-se em passos discretos na direo de I segundo a equao: W(t+1)=W(t)+(I-W(t))
O Instar aprende um vetor de entrada, rotando seu vetor de pesos na direo do vetor de entrada de modo que os dois fiquem alinhados.
34

O Instar aprendendo a se alinhar com a mdia de um cluster.
Um nico Instar aprendendo um nico vetor de entrada no de grande interesse. Considere a situao em que temos vrios situa v vetores de entrada, de tal forma prximos pr entre si de modo a que formem um cluster cluster (classe). Gostariamos que o Instar aprendesse a representar o cluster, se alinhando com a mdia dos vetores da classe.

Procedimento para aprendizado do Instar: 1.Selecionar aleatoriamente um vetor de entrada Ii, de acordo com a distribuio de distribui probabilidade do cluster. 2.Calcular (I-W) e atualizar o vetor de (Ipesos. 3. Repetir os passos 1 e 2 por um nmero n de vezes igual ao nmero de vetores de n entrada do cluster. 4. Repetir o passo 3 vrias vezes. v

I1 W I2 I 3 I4 Para aprender um cluster de vetores de entrada, selecionamos um valor de peso inicial igual a um dos membros do cluster.
A medida que o aprendizado se desenrola, o vetor de peso acaba se estabilizando se uma regio que representa a mdia dos vetores de entrada.

Redes Competitivas
Um Instar aprende a responder a um grupo de vetores de entrada clusterizados juntos em uma regio do espao. espa Vrios Instars, agrupados um uma camada, Instars, cada um respondendo maximamente a um grupo de vetores em diferentes regies do espao. espa Podemos dizer que esta camada de Instars classifica qualquer vetor de entrada, por que aquele Instar que tiver a maior sada, sa identifica a regio do espao correspondente espa ao vetor de entrada.

Redes Competitivas
Podemos determinar externamente qual o Instar com maior valor de sada (mas isto no sa existe na natureza). Podemos tambm deixar que os Instars tamb compitam entre si para ver quem o vencedor. O vencedor leva tudo (winner takes all) (winner all)

Redes Competitivas
1 2 + i n-1 n
Um sistema com EXCITAO CENTRAL e INIBIES EXCITA INIBI LATERAIS para implementar a competio entre um competi grupo de INSTARS. Cada unidade envia um sinal de realimentao positivo para si mesmo e um sinal realimenta inibitrio para os outros neurnios. A unidade cujo vetor inibit de peso melhor representa o vetor de entrada manda o sinal inibitrio mais forte para as outras unidades e inibit recebe a maior realimentao de si mesmo. realimenta
35

O Outstar (Grossberg). Grossberg).
Um OUTSTAR composto por todas as unidades da camada de sada y1 y2 do CPN e por uma nica unidade da camada escondida. As unidades da camada de sada participam x1 x2 xn de vrios OUTSTARS.

O Outstar. Outstar.
y1 y2 y1 y2 ym ym

O Outstar. Outstar.
Grossberg argumenta que o Outstar a mnima estrutura neural capaz de se condicionada. (condicionamento clssico) cl Durante o perodo de treinamento, o vencedor per da competio na camada escondida fornece competi um ESTMULO CONDICIONADO (o som da EST campainha) para os neurnios da camada de sada. sa O ESTMULO INCONDICIONADO (a viso da EST carne), fornecido pelo vetor Y da camada de entrada.
ym z
y1 y2
ym

O Outstar. Outstar.
Como desejamos que a rede aprenda o vetor Y, a sada ou RESPOSTA NO CONDICIONADA sa (a salivao) ser a mesma que o vetor Y. saliva ser Uma vez que o treinamento esteja completo, durante a operao da rede, a sada Y ir opera sa Y ir aparecer na sada da rede, mesmo que Y seja sa zero.

O Outstar. Outstar.
Como apenas um Instar o vencedor a cada vez, o sada de cada neurnio da camada de sa sada dada por wi. sa wi(t+1)=wi(t)+(yi-wi(t)) (t+1)=w Y=(y1,y2,...,ym)T =(y ,y ,...,y Y=(w1, w2, ...,wm)T ...,w

O Processamento da CPN.
Podemos agora combinar as estruturas componentes vistas anteriormente em uma CPN. Considera-se uma simulao digital. Considerasimula
36

Propagao pela CPN. Propaga Considera-se que a seja j esteja treinada. Consideraj
0. Apresenta-se um vetor de entrada I. Apresenta1. Normaliza-se o vetor de entrada, xi=Ii/(nIn2)1/2 Normaliza2. Aplica-se este vetor normalizado na poro X da Aplicapor camada de entrada. Aplica-se zero (vetor nulo) na Aplicaporo Y desta mesma camada por 3. Uma vez que o vetor de entrada est est normalizado, a camada de entrada apenas distribui este valor para os neurnios da camada intermediria. intermedi

Propagao pela CPN. Propaga
4. A camada intermediria uma camada intermedi competitiva do tipo o vencedor leva tudo. Aquela unidade cujo vetor de peso melhor representa o vetor de entrada vence e tem sua sada setada vence sa para 1. Todas as unidades restantes tem sua sada sa zerada. 5. A unidade vencedora da camada intermediria intermedi excita o Outstar e o valor de sada da rede sa calculado. O valor da sada ser igual ao valor do sa ser peso das conexes.

Treinamento da CPN - Camada Competitiva. Considera-se os vetores de entrada prConsiderapr normalizados. Existe um juiz externo para determinar o vencedor da rede competitiva.
1. Selecionar um vetor de entrada. 2. Normalizar o vetor de entrada e aplic-lo Rede aplic Competitiva. 3. Determinar o vencedor (neurnio com maior net) 4. Calcular (X-W) apenas para a unidade (Xvencedora e atualiazr o vetor de peso desta unidade W(t+1)=W(t)+(X-W(t)) (X-

Treinamento da CPN - Camada Competitiva.
5. Repetir os passos 1 a 4, at todos os vetores de at treinamento terem sido processados 1 vez. 6. Repetir a etapa 5 at todos os vetores de entrada at serem classificados corretamente. 7. Testar.

Treinamento da CPN - Camada de Sada. Sa Caso 1. Suponha que cada cluster represente uma classe, e todos os vetores em um cluster mapeiem um nico vetor de sada. sa
No necessrio treinamento iterativo. necess Se a i-sima unidade da camada competitiva vence para todos os vetores de uma classe cuja sada sa desejada um vetor A, ento setamos wki=Ak, onde wki o peso da conexo da i-sima da camada escondida para a k-sima unidade de sada. sa

Treinamento da CPN - Camada de Sada. Sa Caso 2. Se cada vetor de entrada em um cluster mapear para um vetor de sada sa diferente, ento o processo de aprendizadom deve levar o outstar a reproduzir a mdia dos m vetores de sada quando algum membro da sa classe for apresentado na entrada da CPN. Se a mdia dos valores de sada no for m sa conhecida, ento um processo iterativo deve ser utilizado.
37

Treinamento da CPN - Camada de Sada. Sa Caso 2.
1. Aplica-se um vetor de entrada normalizado Xk, e AplicaXk, seu correspondente vetor de sada Yk, s entradas sa Yk, X e Y da camada de entrada da rede. 2. Determina-se a unidade vencedora da camada Determinacompetitiva.

Treinamento da CPN - Camada de Sada. Sa Caso 2.
3. Atualiza-se os pesos das conexes da unidade Atualizavencedora da camada competitiva com as unidades de sada. sa wi(t+1)=wi(t)+(yki-wi(t)) (t+1)=w 4. Repete-se os passos 1 a 3 at que todos os Repeteat vetores de todas as classes produzam sadas sa satisfatrias. satisfat

Exemplo de Aplicao da CPN. Aplica
Ensinar para um rob, o ngulo em que se encontra um determinado objeto.
Rede Counterpropagation
Redes Neurais Artificiais Redes Auto-Organizveis Auto- Organiz

Metfora Biolgica - O Crtex Met Biol C
Caractersticas do Crtex Caracter C
uma FOLHA larga (1~2 metros) e fina FOLHA (2~4 milmetros). mil Possui em mdia 6 camadas de neurnios de m vrios tipos e densidades. Dobrado e amassado para caber na caixa amassado craniana. Centros especializados em diversas reas, tais como fala, viso, audio, sensorial, motora, audi etc. esto localizados em regies bem definidas e prximas umas das outras. pr

Caractersticas do Crtex - Regies Especializadas Caracter C
reas individuais apresentam um ordenamento lgico consistente com a sua funo. fun Exemplo: MAPA TONOTPICO DA AUDIO TONOT AUDI Neurnios vizinhos respondem de maneira similar a vizinhos sons de mesma freqncia, em uma seqncia freq seq ordenada das freqncias mais altas para as mais freq baixas. Altas Freqncias

Caractersticas do Crtex - Regies Especializadas Caracter C
Exemplo: MAPA SOMATOTPICO SOMATOT Existe uma estreita relao entre regies da rela rea somatotpica do crebro e as partes do somatot c corpo que elas controlam. A estrutura bsica do corpo refletida na b organizao do crtex organiza c nesta regio.
Baixas Freqncias
38

Princpio de Funcionamento Princ
Voltando s Redes Competitivas
O Aprendizado se d por um processo de autod autoorganizao - APRENDIZADO NOorganiza NOSUPERVISIONADO. Cada neurnio da Rede Competitiva aprende a responder maximamente a diferentes padres dos vetores de entrada. A localizao fsica dos neurnios da Rede localiza f Competitiva parece no refletir nenhuma relao rela entre as diferentes classes de dados que esto sendo aprendidas. Existe um mapeamento aleatrio entre as classes de aleat dados e os neurnio competitivos.

Uma simples extenso do algoritmo de extenso aprendizado competitivo resulta em um mapeamento com preservao-da-topologia dos preserva o- dadados de entrada nos neurnios da camada competitiva. Para que a topologia se preserve, neurnios localizados fisicamente prximos uns dos outros pr devem responder de maneira similar a classes de vetores de entrada que tambm estejam prximos tamb pr uns dos outros (sejam parecidos).

Embora seja fcil visualizar neurnios vizinhos em f uma matriz bidimensional, no to fcil f determinar que classes de vetores esto prximas pr umas das outras em um espao multi-dimensional. espa multidimensional. Vetores de entrada multi-dimensionais so de certa multiforma projetados em uma superfcie projetados superf bidimensional, de modo que a ordem natural dos vetores de entrada se mantenha. Isto permite que se visualize relaes importantes rela entre os dados que de outra forma poderiam passar despercebidas.

O pioneiro no desenvolvimento da teoria das Redes Competitivas foi Teuvo Kohonen, e por esta razo Kohonen, os neurnios de uma rede competitiva so muitas vezes chamados de neurnios de Kohonen. Do Kohonen. mesmo modo, as rede auto-organizveis so auto- organiz tambm conhecidas como Redes de Kohonen ou tamb Mapas Topolgicos de Kohonen. Topol Kohonen.

A Rede de Kohonen uma estrutura de duas camadas de neurnios. A primeira camada a Camada de Entrada, e seus neurnios esto completamente interconectados aos neurnios da segunda camada. A segunda camada a Camada Competitiva. Normalmente esta camada est organizada como est uma grade bidimensional, com cada neurnio conectado a todos os neurnios em sua vizinhana. vizinhan

Conexes Laterais Camada Competitiva
Camada de Entrada
39

Processamento da Rede de Kohonen
Na Rede CPN, a camada competitiva era organizada segundo o esquema de excitao central - inibio excita inibi lateral, isto , os neurnios excitavam a si mesmos lateral e procuravam inibir os outros neurnios para que, no equilbrio, aquele neurnio que possuisse a maior equil sada, vencesse a competio e a sada dos outros sa competi sa neurnios caisse a zero. Na Rede de Kohonen, durante o processo de Kohonen, treinamento, a realimentao positiva atinge no s realimenta s o prprio neurnio, como tambm a uma vizinhaa pr tamb vizinha finita em torno do neurnio.

Processamento da Rede de Kohonen
Na Rede CPN, apenas ao neurnio vencedor, isto , aquele cujos pesos melhor representasse o vetor de entrada que era dada a chance de aprender, ou aprender seja, de modificar os seus pesos na mesma direo dire do vetor de entrada. Na Rede de Kohonen, durante o processo de Kohonen, treinamento, todos os neurnios que recebem sinais excitatrios do neurnio vencedor tambm tem seus excitat tamb pesos modificados, participando assim do processo de aprendizado. aprendizado Estes sinais excitatrios so propagados atravs das excitat atrav conexes laterais.

Interaes Laterais da Rede de Kohonen Intera
Curva caracterstica das interaes laterais entre certos neurnios encontrados no crtex, chamada de CHAPU MEXICANO. Um neurnio no centro, mais fortemente excitado, excita lateralmente uma pequena vizinhana com realimentaes positivas. A medida que a distncia lateral do neurnio central aumenta, a excitao decresce at que vira uma inibio.

Interaes Laterais da Rede de Kohonen Intera
Uma aproximao prtica para a funo CHAPU MEXICANO.

Aprendizado na Rede de Kohonen
Durante o perodo de treinamento, cada neurnio per dentro da vizinhana do neurnio vencedor participa vizinhan do processo de treinamento. 1. Inicializa-se os pesos aleatoriamente. Inicializa 2. Aplica-se um vetor de entrada e determina-se o Aplicadeterminaneurnio vencedor.
Para um vetor de entrada X, o neurnio vencedor ||X-Wc|| = min{||X-Wi||} min{||X ||X onde o ndice c se refere ao neurnio vencedor.

3. Atualiza-se no s os pesos do neurnio Atualizas vencedor, mas tambm os pesos dos neurnios que tamb esto na vizinhana do neurnio vencedor vizinhan
Wi(t+1)=Wi(t) + (t).(X-Wi(t)) Wi(t+1)=Wi(t) (t).(X Wi(t)) se o neurnio for o neurnio vencedor ou estiver na vizinhana vizinhan do vencedor.
a A distncia a define uma vizinhana de neurnios em torno de um neurnio central, que vo participar do aprendizado, junto com o neurnio central.
O neurnio vencedor aquele mais prximo do pr ximo vetor de entrada.
Cada vetor de peso que participa do processo de aprendizado rota um pouco na direo do vetor de rota dire entrada X.
40

A vizinhana comea com um valor grande para que vizinhan come um grande nmero de neurnios participem do n processo de aprendizado. A medida que o treinamento vai prosseguindo, o tamanho da vizinhana vai diminuindo at englobar vizinhan at apenas o prprio neurnio vencedor. pr

Visualizao da Organizao dos Pesos Visualiza Organiza
Kohonen desenvolveu um maneira interessante para ilustrar como se desenvolve o processo de treinamento. Suponha que desejemos ensinar a uma Rede de Kohonen a reconhecer pontos de um sub-espao sub- espa bidimensional.

No incio
wy wx
coordenada y coordenada x

No meio No fim

Observaes Importantes Observa
A grande utilidade da Rede de Kohonen tentar projetar em uma superfcie bidimensional superf caractersticas de vetores multidimensionais. caracter mais fcil visualizar neurnios que esto prximos f pr uns dos outros em uma superfcie bidimensional, do superf que determinar que classes de vetores esto prximas entre si em um espao multidimensional pr espa Esta reduo dimensional, preservando a ordem redu natural dos vetores de entrada, permite visualizar relaes importantes entre os dados, que, de outro rela modo, poderiam passar desapercebidas.
Redes Neurais Artificiais Redes ART - Adaptive Resonance Theory

Metfora Biolgica - Memria Humana Met Biol Mem
Pode adicionar nova informao sem esquecer informa esquecer aquela j armazenada. j
wy wx
wy wx
Caracterstica No Presente na Maioria dos Caracter Modelos de Redes Neurais.

Normalmente uma RNA codifica informao na informa forma de pesos durante a fase de treinamento. Aps o treinamento, a adio de uma nova Ap adi informao implica retreinamento da rede para informa esta informao e para TODA a informao informa informa anterior.
41
Redes Neurais Artificiais Redes ART

Dilema da Estabilidade-Plasticidade Estabilidade(Grossberg) Grossberg)
Como um sistema adaptativo pode permanecer plstico em resposta a uma entrada significativa pl e ainda se manter estvel para entradas est irrelevantes? Quando chavear entre modos adaptativos (plsticos) e modos estveis? Em geral, a rede (pl est no sabe que ela no conhece o padro de entrada. Como reter informao aprendida previamente e informa continuar aprendendo novas informaes? informa

Idia Bsica Id B
Usar uma extenso do aprendizado competitivo visto anteriormente. Novidade: Utilizar um mecanismo de realimentao entre a realimenta camada competitiva e a camada de entrada.

Idia Bsica Id B
Este mecanismo de realimentao permite: realimenta o aprendizado de novas informaes sem a informa destruio da informao anterior, destrui informa o chaveamento automticos entre os modos autom plstico e estvel, e pl est a estabilizao da codificao das classes feita estabiliza codifica pelos neurnios.

Idia Bsica Id B
O nome ART veio da forma como o aprendizado e a recuperao da informao ocorrem na rede. recupera informa Existem vrios modelos de redes ART: v
ART1 - ENTRADAS BINRIAS BIN ART2- ENTRADAS ANALGICAS ART2ANAL FUZZY-ART, ARTMAP, FUZZY-ARTMAP FUZZYFUZZY-

Idia Bsica Id B
Em uma rede ART, a informao, na forma de informa sada dos neurnios reverbera para frente e sa para trs entre as camadas. tr Se um padro apropriado se desenvolve no interior do sistema, aparece uma oscilao oscila estvel, o que o equivalente ao conceito de est ressonncia para a rede neural. Durante este perodo ressonante, o per aprendizado ou a adaptao podem ocorrer. adapta

Como obter um estado ressonante
Um estado ressonante pode ser alcanado de alcan duas maneiras: Se a rede j havia aprendido j anteriormente a reconhecer um vetor de entrada, ento o estado ressonante ser ser rapidamente atingido quando o vetor for apresentado. Durante a ressonncia, o processo de adaptao ir reforar a adapta ir refor memorizao do padro armazenado. memoriza
RESSONNCIA: uma vibrao de pequena amplitude em um vibra freqncia apropriada, causa uma vibrao de freq vibra grande amplitude.
42

Como obter um estado ressonante
Se o vetor de entrada no for imediatamente reconhecido, a rede ir ir rapidamente procurar entre os padres j j armazenados por um match. Se no match ocorrer um match a rede ir entrar num match ir estado ressonante durante o qual o novo padro ser armazenado pela primeira vez. ser Deste modo a rede responde rapidamente a padres j memorizados, enquanto j permanece capaz de aprender quando um novo padro apresentado.

Funcionamento da ART
As equaes matemticas que governam o equa matem funcionamento da ART so bastante complicadas. fcil perder a viso da floresta como um todo quando visualizamos de perto a uma folha. folha Apresentaremos primeiramente uma descrio descri qualitativa do processamento da rede ART.

Funcionamento da ART - Comp. Bsicos Comp. B
Controle de ganho + + + +
Subsistema Atencional Camada F2 +
Subsistema de Orientao Sinal de Reset +
+ Camada F1 Vetor de Entrada
Controle de ganho

Padres da atividade que se desenvolve entre os neurnios das duas camadas do subsistema atencional chamada de Memria de Curta Mem Durao - Short Term Memory (STM), poiseles Dura existem apenas enquanto o vetor de entrada est sendo aplicado na rede. est Os pesos associados com as conexes de cimacimapar-baixo e vice-versa entre F1 e F2 so parvicechamados de Memria de Longa Durao - Long Mem Dura Term Memory (LTM), pois eles codificam uma informao que ficar armazenada na rede por informa ficar um longo perodo de tempo. per
Descrio de uma seqncia hipottica de Descri seq hipot eventos que devem ocorrer em uma rede ART, quando esta tenta determinar se um padro de entrada est entre os padres previamente est armazenados na rede. Apresentao inicial do padro =Y F2 Ganho de entrada G 1 0 1 0 =S = X A Reset F1 +
Um padro de entrada I, apresentado para os neurnios em F1. Um padro de ativao X produzido ao longo ativa de F1, de modo similar ao funcionamento da camada de entrada de uma rede CPN. O mesmo padro de entrada excita tanto o subsistema de orientao A como o controle de orienta ganho G.
=I
43

A Rede estruturada de tal maneira que este sinal inibitrio cancela exatamente o sinal inibit excitatrio que I manda para A, de modo que A excitat permanece inativo, Repare que G manda um sinal excitatrio para excitat F1. Como o mesmo sinal aplicado a todos os neurnios da camada, neste caso ele chamado de SINAL NO ESPECFICO. ESPEC
F2 G 1 F1 1 0 1 0 0

=Y 0 0 1 0 =U Tentativa de casar um padro
O padro de sada produz um sinal de sada sa sa inibitrio que enviado tambm para A. inibit tamb
Os neurnios de F2 calculam o net da maneira usual, de modo que um padro de atividade Y se desenvolve ao longo dos neurnios de F2. F2 uma camada competitiva como na rede CPN, de modo que o vencedor leva tudo.
Ganho
0 = S* A Reset = X* + 0 =I
O aparecimento de X resulta em um padro de sada S que enviado atravs das conexes sa atrav para F2.
F2 G F1 1 0

Reset Ganho =Y A Reset + 1 0 =I
O padro de atividade Y, determina que um neurnio ganhe a competio na camada F2, competi este neurnio vencedor produz um padro de sada U de F2. sa Esta sada enviada como uma conexo sa inibitria para o sistema de controle de ganho.. inibit Este sistema configurado de tal maneira que, se ele receber qualquer sinal inibitrio de F2, ele inibit cessa a sua atividade. U se torna um um segundo padro para os neurnios de F1. U ponderada pelos pesos das conexes de F2 e transformada num padro V.
Os neurnios de F1 recebem agora sinais de entrada I e V. O padro que se desenvolve em F1 neste instante I V, a interseo de I e V. interse Assim, como os padres I e V no so iguais, um novo padro X* = I V se desenvolve em F1. Como o novo padro de sada S*, diferente do sa padro original S, o sinal inibitrio para A no inibit mais cancela a excitao vinda de I. excita A se torna ativo, como resposta ao no casamento de padres em F1. casamento
44

F2 G 1 F1 1 0 1 0 0 1 =Y* 0 =S A Reset =X + =I
Como A se tornou ativo devido ao no casamento de padres em F1, A manda um casamento sinal no especfico de RESET para todos os espec neurnios de F2. Os neurnios de F2 respondem de acorso com o seu estado atual. Se o neurnio estava ativo, ele se torna inativo e permanece neste estado por um longo perodo de tempo, de modo que ele no per participa da competio entre os neurnios de competi F2 no prximo ciclo. pr Y desaparece e portanto o sinal para F1 e o sinal inibitrio para o ganho tambm desaparecem. inibit tamb
Ganho
O padro original X reaparece em F1 e um novo ciclo de tentativa de casamento recomea. casamento recome Agora um novo padro Y* aparece em F2 e o ciclo continua. Este processo continua at que um casamento at casamento seja alcanado ou at que todos os neurnios de alcan at F2 tenham sido experimentados como representantes do padro de entrada I. representantes Se no ocorrer o casamento, a rede escolher escolher um novo neurnio de F2 para representar o novo padro e ir aprender o padro. ir
Algoritmo de Processamento da ART
O aprendizado ocorre pela modificao de pesos. modifica Quando um casamento ocorre, a rede entra casamento em um estado ressonante, durante o qual os pesos so reforados, isto , se aproximam refor ados aproximam do padro vencedor.
0. Determina-se o tamanho das camadas F1 e DeterminaF2. Seja M o nmero de neurnios em F1 e N o n nmero de neurnios em F2. 1. Inicializao dos pesos. Inicializa F1wF1->F2ij(0)=1/1+M F2wF2->F1ij(0)=1 2. Aplicar um vetor de entrada I. 3. Calcular os valores de ativao dos neurnios ativa em F2. F1Yi=wF1->F2ij(t0).Ij ).I 4. Selecionar o neurnio vencedor k em F2.
5.Teste de vigilncia para saber se houve casamento ou no. casamento Escolhe-se previamente para a rede um limiar Escolhepara o teste de vigilncia (). indica quo perto do padro de entrada deve estar um exemplar para ser considerado um casamento. F2Se (WF2->F1)Tk(t).I > IT.I ento v para o passo 7 (houve v casamento) casamento seno v para o passo 6 (no houve v casamento). casamento
45
6. No houve o casamento, portanto o casamento neurnio k da camada F2 no representa o padro I e deve ser desconsiderado. Desativar o neurnio k. A sada zerada e o sa neurnio no participa nas prximas selees do pr sele vencedor. Ir para o passo 3.
7. Houve o casamento, e portanto deve casamento atualizar os pesos para que na prxima vez este pr neurnio k represente ainda melhor este vetor I. Para cada neurnio r da camada F1.
F F wrk 2 > F 1 (t + 1) = wrk 2 > F 1 (t ).I r
8. Reativar todos os neurnios de F2 e ir para o passo 2.
F wkr1> F 2 (t + 1) =
F wkr1 > F 2 (t ).I r
1 M F 2>F1 + w jk (t ).I j 2 j =1
Exemplo de Processamento da ART

0. M=3 e N=2

F2 N=2
1. Inicializao dos pesos. Inicializa F2F2wF2->F111(0)=1 wF2->F112(0)=1 : neurnio 1 de F1 F2F2wF2->F121(0)=1 wF2->F122(0)=1 : neurnio 2 de F1 F2F2wF2->F131(0)=1 wF2->F132(0)=1 : neurnio 3 de F1
F1wF1->F211(0)=1/1+M=1/4=0.25 F1wF1->F212(0)=0.25 : neurnio 1 de F2 F1wF1->F213(0)=0.25 F1wF1->F221(0)=1/1+M=1/4=0.25 F1: neurnio 2 de F2 wF1->F222(0)=0.25 F1wF1->F223(0)=0.25
F1 I1 1 I2 0 I3 1
M=3
2. Aplicar I=(1 0 1) 3. Calcular Yi em F2 Y1= net1 = 0.25.1+0.25.0+0.25.1 = 0.5 Y2= net2 = 0.25.1+0.25.0+0.25.1 = 0.5 4. Como os valores de ativao dos dois ativa neurnios de F2 deram o mesmo resultado, tanto faz qual dos dois o vencedor. Escolhemos o 1 como vencedor. 5.Ento calculamos o valor de sada de F2, como sa (1 0) e propagamos de volta para F1, e fazemos o Teste de Vigilncia.
46

7. Atualizao dos pesos. Atualiza
F F wrk 2 > F 1 (t + 1) = wrk 2 > F 1 (t ).I r

F wkr1 > F 2 (t + 1) = F wkr1 > F 2 (t ).I r 1 M F 2>F1 (t ).I j + w jk 2 j =1
5. Teste de Vigilncia F2(WF2->F1)Tk(t).I > IT.I (1 1 1).(1 0 1)T = 2 (1 0 1).(1 0 1)T = 2 2/2 = 1 > 7. Houve o casamento. Devemos agora casamento atualizar os pesos.
F2 wF2->F111(1)=1.1=1 F2 wF2->F121(1)=1.0=0 F2 wF2->F131(1)=1.1=1
1.1 = 1 + 1.1 + 1.0 + 1.1 2 1.0 F w121 > F 2 (1) = = 1 + 1.1 + 1.0 + 1.1 2 1.1 F w131 > F 2 (1) = = 1 + 1.1 + 1.0 + 1.1 2
F w111 > F 2 (1) =
1 = 0.4 2.5 0 =0 2.5 1 = 0.4 2.5

0.4 0 0.4 0.25 0.25 0.25

F2 N=2
Introduo Introdu
Redes Neurais Artificiais Redes Recorrentes
8. Voltar para o passo 2. (Apresentar outro padro de entrada - ou o mesmo)
1 1 I1 1
0 1 I2 0
1 1 I3 1
F1
M=3
Redes Neurais Recorrentes so aquelas que apresentam ciclos nas suas conexes, isto , a ciclos sada de neurnios de uma camada i so sa entradas de neurnios de uma camada i-j, com ij>=0; Redes BAM, de Hopfield e Competitivas em geral so de certo modo redes recorrentes. Entretanto 2 modelos so de maior interesse neste caso:
Redes de Elman Redes de Jordan
47
Introduo Introdu

Capacidade de Modelagem
Redes Neurais Feedforward com neurnios estticos so est capazes de modelar apenas sistemas estticos. est Redes Neurais Dinmicas so capazes de modelar sistemas dinmicos. A dinmica de uma rede por ser obtida utilizando-se utilizandoneurnios dinmicos ou atravs de uma dinmica externa atrav (uma realimento externa munida de um retardo, por realiment exemplo).
Modelos com Dinmica Externa

Modelo Clssico Cl ssico
Importncia das Redes Neurais Recorrentes
Modelo com Camada Intermediria Intermedi ria
Bias
Bias
u1(k) u2(k) y (k)

1
y1(k+1) y2 (k+1)
u1 un
v1 v2
x1
y2(k) yn(k) z-1 z-1 z-1 yn (k+1)
vj
xm
z -1 z -1 z -1

Redes de Elman
Introduo Introdu
Redes RBF (Radial Basis Function) Function)
Introduo Introdu
A maioria das funes de sada dos neurnios vistos at agora eram funes monotonicamente crescentes dos valores de net dos neurnios. Esta pode no ser a melhor escolha para alguns problemas encontrados na prtica.
Para o exemplo abaixo, uma rede neural direta convencional precisaria de 4 a 5 neurnios na camada escondida. Um neurnio seria suficiente para discriminar as duas classes se sua funo de sada se aproximasse de um crculo.
48
Definio Defini

Definio Defini

Uma funo radialmente simtrica (uma RBF) se sua sada depende da distncia entre o dado de entrada (vetor) e outro vetor armazenado. As funes radiais simtricas comumente utilizadas () so funes no-crescentes de uma medida de distncia u que seu nico argumento. Com (u1)>(u2) sempre que u1<u2. Normalmente u a distncia euclidiana entre o centro ou vetor armazenado e o vetor de entrada i. u=|| - i ||
Em redes RBF, a gaussiana descrita pela equao:
g (u ) e
(u / c )2
Em muitas problemas de aproximao de funes a abordagem clssica envolve interpolao linear: f ( x0 ) = f ( x1 ) + ( f ( x2 ) f ( x1 ))( x0 x1 ) /( x2 x1 )
Modelo de neurnio de base radial:
que simplifica para: ( D11 f ( x1 ) + D2 1 f ( x2 )) ( D11 + D2 1 ) Onde D1 e D2 so as distncias entre x0 e x1 e x2 respectivamente.


Descrio Descri

Descrio Descri
Em geral segmentos de hiperplanos conectam pontos prximos, de forma que o valor de sada correspondente a um novo vetor de entrada ndimensional determinado inteiramente pelos P0 exemplos de entrada que o circundam.
( D11 f ( x1 ) + D2 1 f ( x2 ) + + DP01 f ( xP0 )) ( D11 + D2 1 + + DP01 )
Se apresentarmos um vetor de entrada para esta rede, cada neurnio na camada de base radial ir produzir uma sada inversamente proporcional a distncia deste vetor de entrada com cada vetor de peso de cada neurnio. Deste modo, neurnios de base radial com vetores de pesos muito diferentes do vetor de entrada, tero a sua sada praticamente igual a zero. Esta sada pequena ter um efeito desprezvel na sada dos neurnios da camada linear.
49

Descrio Descri
Redes Learning Vector Quantization (LVQ)
Por outro lado, um neurnio de base radial com vetor de pesos perto do vetor de entrada produzir uma sada prxima de um. Se um neurnio tem uma sada em 1, seus pesos de sada sero passados para os neurnios de sada da segunda camada (linear).
Combina o aprendizado Supervisionado e No-Supervisionado (competitivo). No Aprendizado No-Supervisionado e Agrupamento podem ser muito teis na etapa de pr-processamento em problemas de CLASSIFICAO. A rede LVQ uma aplicao de redes competitivas do tipo o vencedor leva tudo, juntamente com uma camada linear para tarefas em que se conhece a classe a que pertence cada padro entrada do conjunto de treinamento.
Combina o aprendizado Supervisionado e No-Supervisionado (competitivo). No-
Camada Entrada
Camada Competitiva
Camada Linear

Camada Competitiva

Camada Competitiva Algoritmo LVQ1
Inicialize todos os pesos entre [0, 1] Repita
A camada competitiva aprende a classificar os vetores de entrada, no que chamamos de sub-classes. sub Nesta camada, o nmero de neurnios para n cada classe aproximadamente proporcional ao nmero de padres de treinamento n disponveis para cada classe. dispon (cada cluster tem aproximadamente o mesmo nmero de pontos)
A regra de atualizao de pesos na camada competitiva de uma LVQ um pouco diferente da regra de atualizao de uma rede competitiva simples. Quando um padro i da classe C(i)
A camada linear transforma as sub-classes subda camada competitiva na classificao classifica final definida pelo usurio, chamadas de usu classes alvo (target classes). (target
apresentado a rede, seja o neurnio vencedor um neurnio j que representa a classe C(j). Os pesos do neurnio j so movidos na direo do padro i se C(i)=C(j) e na direo inversa caso contrrio.
Ajuste a taxa de aprendizagem (t) Para cada padro de entrada ik faa Ache o neurnio vencedor (aquele cujos pesos forem mais prximos da entrada). Para cada peso l do neurnio j faa Se a rtulo da classe do neurnio j igual a classe desejada para o padro de entrada ik Ento wj= (t)(ik-wj), Seno wj= -(t)(ik-wj) Fim faa Fim faa At que a rede convirja ou depois de um determinado tempo.
50

Camada Linear

Camada Linear
Camada Competitiva Algoritmo LVQ1

A regra de atualizao de pesos usa uma taxa de aprendizagem que varivel e diminui ao longo do tempo.
(t)=1/t ou (t)=a[1-(t/A)] onde a e A so constantes positivas e A>1.
Combina as sadas da camada competitiva em classes pr-determinadas pelo usurio. Determinao dos pesos da camada linear: 0 1 0 0 0 0 1 0 0 1 0 0 1 0 0 0 0 0 0 1
A coluna da matriz indica que agrupamento da camada competitiva (sub-classe) pertence a que classe alvo (target class). A matriz fixa a calculada a priori.
Isto permite que a rede convirja para um estado em que os vetores de pesos se tornam estveis e variam pouco com a apresentao dos padres de entrada.
W=
Classes = n. de neurnios
Neurnios da camada competitiva Apenas um 1 por coluna

Mapas Auto-Organizveis X LVQ Auto- Organiz
Os pesos da primeira camada implicitamente dividem o espao de entrada em clulas de Voronoi. Cada clula contm os pontos mais prximos do seu vetor de pesos representativo.
Na segunda camada os pesos agrupam vrias regies de modo a formar as classes desejadas.
No treinamento das redes auto-organizveis, o neurnio vencedor (o mais prximo do padro de entrada) e sua vizinhana aprende movendo-se na direo do padro de entrada. Na rede LVQ, o neurnio mais prximo pode classificar correta ou incorretamente um padro de entrada. Se classificao correta, ele se move na direo do padro de entrada, se aproximando deste. Caso contrrio, ele se move na direo contrria, se afastando dele.
51

LVQ2
uma variao do algoritmo de aprendizado LVQ1 e deve ser utilizado depois de um aprendizado LVQ1. Se, entre dois neurnios com pesos W1 e W2, os mais prximos de um padro de entrada (i), apenas um deles pertence a classe desejada, e ambos os pesos esto a distncias comparveis de i, ento um deles (o que foi corretamente classificado) se aproxima de i, enquanto o outro se afasta de i.
52

Curso Redes Neurais

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Curso Redes Neurais

Загружено:

Авторское право:

Доступные форматы

Introduo ao Estudo das Introdu Redes Neurais Artificiais

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Introduo ao Estudo das Introdu Redes Neurais Artificiais

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr.Mauro Roisenberg e-mail: mauro@inf.ufsc.br

Introduo ao Estudo das Introdu Redes Neurais Artificiais

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Introduo ao Estudo das Introdu Redes Neurais Artificiais

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Introduo ao Estudo das Introdu Redes Neurais Artificiais

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Freeman, James A. & Skapura, David M. Freeman, Skapura,

Haykin, Simon Haykin,

Rumelhart, D.; Hinton, G. & Williams, R. Rumelhart, Hinton,

Arbib, Michael A. (Ed) Arbib,

Origens da Inteligncia Artificial

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

O que Inteligncia Artificial?

O que Inteligncia Artificial?

Tearman: A capacidade de conceituar e de

Computing Machinery and Intelligence, 1950 Intelligence,

Helm: A atividade inteligente consiste na compreenso

Se queres discutir comigo, define primeiro teus termos. termos.

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

O que Inteligncia Artificial?

O que Inteligncia Artificial?

O que Inteligncia Artificial?

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

O que Inteligncia Artificial?

Princpios da IA Simblica Princ Simb

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Fases Histricas Hist

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Fases Histricas Hist

Fases Histricas Hist

Fases Histricas Hist

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Fases Histricas Hist

Fases Histricas Hist

Fases Histricas Hist

Computao Baeada em Computa Instrues Instru

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Computao Neural Computa Neural

IA Simblica X IA Conexionista Simb

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

Prof. Dr. Mauro Roisenberg - CPGCC - INE - UFSC

IA Simblica X IA Conexionista Simb

IA Simblica X IA Conexionista Simb