Академический Документы
Профессиональный Документы
Культура Документы
Linguagem Natural
Por
Recife, 2014
Recife, 2014
Catalogao na fonte
Bibliotecrio Joana DArc L. Salvador, CRB 4-572
(22. ed.)
MEI 2014-65
__________________________________________
Prof. George Darmiton da Cunha Cavalcanti
Centro de Informtica / UFPE
___________________________________________
Prof. Germano Crispim Vasconcelos
Centro de Informtica / UFPE
___________________________________________
Prof. Jos Fernando Fontanari
Departamento de Fsica e Informtica / USP
___________________________________________
Prof. Antnio de Pdua Braga
Departamento de Engenharia Eletrnica / UFMG
____________________________________________
Prof. Fernando Buarque de Lima Neto
Escola Politcnica de Pernambuco / UPE
___________________________________________________
Profa. Edna Natividade da Silva Barros
Coordenadora da Ps-Graduao em Cincia da Computao do
Centro de Informtica da Universidade Federal de Pernambuco.
Agradecimentos
Agradeo a minha me, Regina, minha irm, Ursula e meus tios e primos pelo amor e carinho a
mim dedicados, por compreenderem a necessidade da minha ausncia durante os longos anos
de ps-graduao e por sempre me apoiarem e incentivarem a alcanar este objetivo.
A minha amada companheira, Flvia, pela incrvel dedicao, apoio e incentivo a mim
investidos, especialmente nas incontveis horas por ela despendidas em discusses, contribuies
e revises, sem as quais este documento no teria o mesmo nvel de qualidade.
Ao meu orientador, Aluzio Arajo, pelo entusiasmo e dedicao com que me orientou
durante tantos anos.
Aos amigos Andr, Ccero, Daniel, Diego, Julio, Orivaldo, Renata e demais colegas do
Centro de Informtica (CIn), pela amizade, pelas sugestes e contribuies e pelas discusses
inspiradoras levadas nos intervalos do expediente.
Agradeo tambm aos professores e demais funcionrios do CIn, pela ateno e gentileza
com que constroem, enriquecem e mantm o nosso prezado ambiente de trabalho.
Ao Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico (CNPq), pelo auxlio
financeiro, fundamental para o desenvolvimento desta Tese.
Dedico a estes e demais, que por ventura no tenham sido mencionados, os mais sinceros
agradecimentos.
Resumo
A produo e utilizao de linguagem natural uma das mais marcantes habilidades humanas.
Ela permite trocar ideias, conhecimento e emoes de maneira eficaz. Desvendar os mecanismos
que tornam seres humanos capazes de lidar com linguagem, pode trazer avanos em inmeras
reas do conhecimento, possibilitando ainda aplicaes prticas que melhorem a interao
humano-computador. Porm, apesar dos esforos da comunidade cientfica, a maneira como os
seres humanos processam linguagem ainda pouco compreendida.
A abordagem proposta pela robtica desenvolvimentista sugere que a linguagem natural
pode ser aprendida por agentes incorporados atravs de suas interaes com o ambiente e com
seus instrutores. Estas interaes poderiam proporcionar ao agente a possibilidade de aprender
continuamente sobre a linguagem, associando estmulos do ambiente com palavras.
Esta Tese apresenta uma arquitetura modular de aquisio de linguagem natural por agentes
incorporados. No centro desta arquitetura encontra-se um conjunto de mdulos neurais com
aprendizagem no-supervisionada, que realiza funes essenciais para a aquisio de linguagem
natural, tais como a aprendizagem de conceitos, contextos, palavras e das associaes entre
esses elementos. Estes mdulos foram propostos consolidando evidncias de trs reas do
conhecimento e validados atravs da reproduo de padres de aprendizagem reportados em trs
importantes estudos realizados com pessoas. O modelo proposto pode ser aplicado na proposio
e teste de novas hipteses e paradigmas experimentais, contribuindo para compreenso dos
mecanismos envolvidos na aprendizagem, e pode servir como base para o desenvolvimento de
agentes incorporados que aprendem linguagem natural.
Palavras chave: agentes incorporados; aquisio de linguagem natural; modelos neurais modulares; mapas auto-organizveis;
Abstract
The production and use of natural language is one of the most remarkable human skills. It
allows us to exchange effectively ideas, knowledge and emotions. Unravel the mechanisms
that make humans able to handle language, may bring advances in several areas of knowledge,
but also allowing practical applications that improve human-computer interaction. However,
despite the efforts of the scientific community, the way humans process language is still poorly
understood.
The approach proposed by developmental robotics, suggests that natural language can be
learned by embodied agents through their interactions with the environment and their instructors.
These interactions could provide the agent the ability to continually learn about language by
associating environmental stimuli with words.
This thesis presents a modular architecture for the acquisition of natural language by
embodied agents. At the center of this architecture is a set of neural modules with unsupervised
learning, which performs essential functions for the acquisition of natural language, such
learning concepts, contexts, words and associations between these elements. These modules
were proposed by consolidating evidence from three areas of knowledge and validated by
reproducing learning patterns reported in three important studies with humans. The proposed
model can be applied in the proposition and test of new hypotheses and experimental paradigms,
contributing to the understanding of the mechanisms involved in learning, and can serve as a
basis for the development of embodied agents that learn natural language.
Keywords: embodied agents; natural language acquisition; modular neural models, selforganizing maps;
Lista de Figuras
62
172
173
176
177
178
178
185
187
189
191
193
194
196
197
197
199
202
203
203
207
Lista de Tabelas
Tabela 3.1 Relacionamento entre as premissas e suposies utilizadas para a proposio de cada mdulo, com as funes desempenhadas e as regies do
crebro envolvidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.1 Correspondncia entre os smbolos AFI, smbolos do Arpabet e a respectiva representao numrica proposta. . . . . . . . . . . . . . . . . . . .
Tabela 4.2 Exemplos de entradas no dicionrio de pronncia da Universidade Carnegie Mellon. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.3 Propriedades dos fonemas e representao numrica proposta para as
vogais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.4 Propriedades dos fonemas e representao numrica proposta para as
consoantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 4.5 Mapeamento das cores em percepes. . . . . . . . . . . . . . . . . . .
Tabela 4.6 Mapeamento das formas em percepes. . . . . . . . . . . . . . . . . .
Tabela 5.1 Exemplo de dicionrio contendo todas as palavras das frases A e B. . . .
Tabela 5.2 Nome das 20 categorias selecionadas por Tuytelaars et al. (2010) . . . .
Tabela 5.3 Parmetros utilizados em ambos os SOMs nas simulaes da representao e reconhecimento de objetos. . . . . . . . . . . . . . . . . . . . . .
Tabela 5.4 Comparativo da entropia condicional obtida com os resultados apresentados por Tuytelaars et al. (2010) e Kinnunen et al. (2012). . . . . . . . . .
Tabela 5.5 Listas de palavras com morfemas semelhantes utilizadas para avaliar a
representao de palavras proposta . . . . . . . . . . . . . . . . . . . . .
Tabela 5.6 Parmetros utilizados em ambos os SOMs nas simulaes da representao de palavras. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 5.7 Resultado do agrupamento de palavras com o SOM. . . . . . . . . . . .
Tabela 5.8 Parmetros utilizados em cada SOM nas simulaes da representao de
palavras e objetos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tabela 6.1 Parmetros das redes utilizados nos experimentos de contexto. . . . . . .
Tabela 7.1 Intervalo paramtrico para o SOM. . . . . . . . . . . . . . . . . . . . .
Tabela 7.2 Intervalo paramtrico para o SOM-KANGAS. . . . . . . . . . . . . . .
Tabela 7.3 Intervalo paramtrico para o LARFSOM. . . . . . . . . . . . . . . . . .
Tabela 7.4 Intervalo paramtrico para o DSSOM. . . . . . . . . . . . . . . . . . . .
Tabela 7.5 Intervalo paramtrico para o LARFDSSOM. . . . . . . . . . . . . . . .
Tabela 7.6 Valores de CE para bases de dados reais . . . . . . . . . . . . . . . . . .
Tabela 8.1 Parmetros dos modelos obtidos aps o ajuste. . . . . . . . . . . . . . .
79
92
93
94
95
96
96
104
115
116
116
118
119
120
122
140
166
166
167
167
167
174
183
Lista de Acrnimos
AFI
AIF
ALN
ART
BMU
BoF
Bag-of-Features
BoW
Bag-of-Words
CE
Clustering Error
CLN
CVO
DMA
GNG
LHS
MT
Mdia Temporal
NMF
SOM
Self-Organizing Map
SSC
Sumrio
1 Introduo
27
2 Fundamentao Terica
35
2.1
2.2
Contribuies da Psicolingustica . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.1
Termos e Definies . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1.2
2.1.3
2.1.4
2.1.5
Conceitos e Categorizaes . . . . . . . . . . . . . . . . . . . . . . . . 42
2.1.6
2.1.7
Aprendizagem Cross-Situacional . . . . . . . . . . . . . . . . . . . . . 44
2.1.8
Mapeamento Rpido . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.1.9
Teoria da Mente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Contribuies da Neurolingustica . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.1
2.2.2
2.2.3
2.3
2.3.2
2.3.3
Representao e Compreenso . . . . . . . . . . . . . . . . . . . . . . 61
Forma Lgica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Representao do Significado Final . . . . . . . . . . . . . . . . . . . 62
2.3.4
2.4
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
67
Formalizao do Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.1.1
Agente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Entradas e Sadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Percepes do Agente . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.1.2
Ambiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Instrutor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.1.3
3.2
3.3
Modelo Proposto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2.1
3.2.2
Premissas e Suposies . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2.3
3.2.4
3.2.5
85
4.1
Modelos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2
Ambiente Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.3
4.4
4.5
4.3.1
Representao Fontica . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.3.2
Representao Numrica . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4.2
4.4.3
4.4.4
4.5.2
4.6
4.7
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5 Mdulo II - Representao
5.1
103
5.2
5.3
5.4
5.5
5.4.1
5.4.2
5.4.3
5.4.4
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
125
6.1
6.2
6.2.2
6.3
6.4
6.5
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
7 Mdulo VI - Associao
143
7.1
7.2
7.2.2
7.3
7.4
7.5
7.4.2
7.4.3
7.4.4
7.4.5
7.4.6
Concluso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
8 Validao do Modelo
181
8.1
8.2
8.3
8.4
8.2.1
8.2.2
8.3.2
8.3.3
8.3.4
8.3.5
8.3.6
8.3.7
8.3.8
8.3.9
8.4.2
8.5
8.6
9 Consideraes Finais
9.1 Anlise da Modelagem Proposta
9.2 Contribuies para a Cincia . .
9.2.1 Trabalhos Publicados . .
9.3 Limitaes do Modelo . . . . .
9.4 Trabalhos Futuros e Aplicaes .
Referncias
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
201
204
205
206
206
207
.
.
.
.
.
211
212
213
215
215
216
218
1
Introduo
A produo e utilizao de linguagem complexa uma das mais incrveis e distintas habilidades humanas. Outras espcies se comunicam atravs de mecanismos simples, porm
os seres humanos elevaram sua capacidade de comunicao a um patamar diferenciado. A
linguagem nos permite transmitir de maneira eficaz ideias, sensaes e emoes. Ela torna
possvel a cooperao entre pessoas e a execuo de aes coordenadas, alm de promover
um desenvolvimento acelerado da sociedade atravs do compartilhamento de conhecimento.
atravs da linguagem que deixamos registradas as descobertas e concluses mais importantes
para as geraes seguintes.
Linguagem natural qualquer linguagem que surge de uma forma no premeditada como
resultado das capacidades inatas para linguagem do intelecto humano (Rahayu, 2012). Ou
seja, o termo utilizado para estabelecer uma oposio em relao s linguagens construdas
artificialmente, como linguagens de programao de computador. A linguagem natural uma
janela aberta para o crebro, a mente e a natureza humana (Pinker, 2008), e por esse motivo ela
tem sido objeto de estudo de diversas reas do conhecimento.
A Lingustica e a Filosofia da linguagem so reas do conhecimento que tratam, por
exemplo, da natureza do significado lingustico, do aprendizado da linguagem, da criatividade,
da compreenso da linguagem, da interpretao, e de aspectos lingusticos do pensamento e da
experincia (Allen, 1994). Algumas das questes investigadas por estas disciplinas so: Como
as frases compem um todo significativo? Qual o significado das partes (palavras) das
frases? Qual a natureza do significado? Como a linguagem se relaciona com o mundo? Para
alcanar estes objetivos a Filosofia da linguagem se vale de teorias e reflexes, enquanto que a
Lingustica utiliza do mtodo cientfico.
A Psicolingustica o estudo das conexes entre a linguagem e a mente e qualquer processo
que diz respeito comunicao humana, mediante o uso da linguagem, seja ela de forma
oral, escrita, gestual, entre outras (Aitchison, 2008). Essa cincia tambm estuda os fatores
27
CAPTULO 1. INTRODUO
que afetam a decodificao, ou seja, as estruturas psicolgicas que nos capacitam a entender
expresses, palavras, oraes, e textos.
A Neurolingustica a cincia que estuda a elaborao cerebral da linguagem. Ocupa-se
com o estudo dos mecanismos do crebro humano que suportam a compreenso, produo e
conhecimento abstrato da lngua em suas mais variadas formas (Ahlsen, 2006). Trata tanto da
elaborao da linguagem normal, como dos distrbios clnicos que geram suas alteraes.
A Lingustica Computacional ou Processamento de Linguagem Natural (PLN) envolve a
Inteligncia Artificial, a Inteligncia Computacional, a Cincia da Computao e a Lingustica,
e utiliza-se de processos computacionais para manipulao da linguagem humana. Os linguistas computacionais almejam desenvolver sistemas com capacidade de reconhecer e produzir
linguagem natural, atravs de uma modelagem lgico-formal (Allen, 1994).
Apesar dos enormes esforos realizados pelos estudiosos dessas reas, a maneira como os
seres humanos processam linguagem ainda no completamente compreendida pela cincia,
talvez porque isto requeira um nvel de compreenso do funcionamento do crebro e da mente
humana ainda no atingido. Desvendar estes mecanismos pode trazer avanos em inmeras
reas do conhecimento, possibilitando ainda diversas aplicaes prticas, tais como, busca
de documentos, traduo e resumo automtico de textos, sistemas de perguntas e respostas,
sistemas tutores, sistemas de auto-atendimento, entre outros (Allen, 1994).
Dentro da robtica, o PLN tambm encontra diversas aplicaes, tais como, o controle de
robs por meio de linguagem natural e a coordenao de aes envolvendo a cooperao entre
pessoas e mquinas. Este tipo de aplicao amplia seu escopo a medida que as mquinas vo
se tornando mais presentes no cotidiano das pessoas. Tais mquinas podem ajudar pessoas
a realizar os mais variados tipos de tarefas com nveis crescentes de complexidade, alm de
auxiliar pessoas com dificuldades motoras, melhorando a sua qualidade de vida, tornando-as
mais independentes (Mazo et al., 1995). A utilizao de linguagem natural a chave para tornar
possveis estas aplicaes, uma vez que esta a forma de comunicao com a qual as pessoas
esto mais habituadas, de forma que mesmo sem conhecimentos de linguagens de programao
elas seriam capazes de explorar melhor o potencial de suas mquinas.
Porm, os desafios para se construir mquinas capazes de compreender e produzir linguagem
natural so enormes. Para compreender uma frase em linguagem natural necessrio analisar
as estruturas lingusticas e seus relacionamentos subjacentes, as regras gramaticais, os conceitos
explcitos, significados implcitos, a lgica e o contexto do discurso, dentre outros (Allen, 1994).
Palavras individuais e frases muitas vezes tm vrios significados, e um dos maiores desafios
na compreenso da linguagem natural advm desta ambiguidade na interpretao, a qual para
ser desfeita, muitas vezes requer profundo conhecimento do contexto no qual o discurso foi
proferido, alm de conhecimento sobre o mundo e sobre os costumes sociais e culturais das
28
pessoas envolvidas. Por exemplo, a frase Voc tem horas? a rigor deveria ser interpretada de
outra forma, mas pessoas de maneira geral entendem esta frase como Que horas so agora?.
J na frase Vamos conversar sobre o teste com o novo funcionrio., o teste pode estar sendo
realizado para avaliar o novo funcionrio ou para avaliar outra coisa no mencionada na
frase, e no h como determinar o significado pretendido pelo interlocutor sem uma informao
contextualizadora.
Pessoas que leem estas frases podem inferir os significados pretendidos a partir do contexto
imediato ou do seu conhecimento pessoal e entendimento do mundo. Mas computadores no
se beneficiam das sutilezas da experincia humana. Por este motivo uma tarefa to rdua
criar sistemas capazes de estabelecer um dilogo em linguagem natural, conforme proposto no
famoso teste de Turing (1950).
H trabalhos sobre dilogo com robs desde a dcada de 1960, como o clssico SHAKEY
Robot de Nilsson (1969) e o influente SHRDLU System de Winograd (1971). Este ltimo, por
exemplo, se baseava em anlise sinttica e em alguns casos era capaz de lidar com o problema
da ambiguidade e compreender a referncia a pronomes. Seu sucesso se deveu principalmente
a seu mundo de blocos ser um ambiente bastante restrito. Shirai et al. (1985) desenvolveram
um rob humanoide com capacidades de dilogo e Torrance (1994) investigou a comunicao
natural com um rob mvel. Shibata et al. (1997) resolvem problemas de ambiguidades em
descrio de rotas em linguagem natural utilizando as relaes espaciais entre os diversos pontos
da rota. Lemon et al. (2001) desenvolveram um sistema de dilogo multimodal Humano-Rob
para servir como interface de controle para um pequeno helicptero autnomo com capacidade
de viso, planejamento e deliberaes (WITAS UAV). O sistema prov uma interface para
dilogos abrangendo comandos, perguntas, revises e relatrios ocorrendo em um ambiente
dinmico. As entradas fornecidas ao sistema no so apenas comandos de voz, mas tambm
indicaes em um mapa. Por sua vez o sistema pode fornecer sadas de voz e tambm apontar
posies no mapa.
Diversos trabalhos nesta linha empregam as tcnicas de PLN descritas em Allen (1994),
como expresses regulares, sistemas de representao de estrutura gramatical, mecanismos de
Parsing e gerenciadores de dilogo (Fry et al., 1998). Na maioria das vezes, o conhecimento
sobre a linguagem e sobre o ambiente inserido previamente no sistema por seus programadores
e poucos ajustes so permitidos para adaptar o sistema s caractersticas da situao na qual ele
ser utilizado. Muitos modelos seguindo esta abordagem falham ao serem aplicados em situaes
prticas devido falta de escalabilidade para situaes no previstas, ou mais complexas do
que o esperado e devido ausncia de informao sobre o contexto no qual as sentenas so
proferidas (Blitzer et al., 2007).
Por outro lado, h uma linha de pesquisadores que acreditam que a linguagem natural deva ser
29
CAPTULO 1. INTRODUO
aprendida atravs de interaes do rob com o ambiente e com instrutores, proporcionando a ele
a possibilidade contnua de associar os estados do ambiente com frases proferidas em linguagem
natural (Lopes e Teixeira, 2000; Lauria et al., 2001; Steels e Belpaeme, 2005; Lauria, 2007).
Ou seja, estes autores esto interessados em criar sistemas de Aquisio de Linguagem Natural
(ALN) e no apenas sistemas de Compreenso de Linguagem Natural (CLN). Com a ALN seria
possvel adequar o aprendizado do rob para cada tarefa, proporcionando o aprimoramento
constante de suas capacidades de compreenso da linguagem atravs do aprendizado de novos
comandos e da evoluo do seu conhecimento sobre o ambiente.
No entanto, a ALN apresenta questes importantes em aberto em sua base terica. H muito
debate sobre quais habilidades lingusticas so aprendidas por cada indivduo (empiricismo) e
quais so inatas ou adquiridas atravs da evoluo da espcie (nativismo). No argumento da
pobreza de estmulos, Chomsky (1969) aponta que as categorias abstratas de uma gramtica
de linguagem natural no podem ser aprendidas a partir dos dados lingusticos disponveis
para as crianas. Como tal, o argumento se coloca em favor do nativismo e contrrio a viso
empiricista da aquisio de linguagem. As principais premissas do argumento so: (a) existem
padres em todas as linguagens naturais que no podem ser aprendidos por crianas usando
apenas evidncia positiva. Evidncias positivas so as frases gramaticais que o aprendiz tem
acesso, observando o discurso de outras pessoas. Evidncias negativas, por outro lado, seriam
evidencias indicando o que no gramatical; (b) so apresentadas s crianas em quantidade
suficiente apenas evidncias positivas e; (c) mesmo assim, as crianas aprendem gramtica
corretamente. Portanto a concluso lgica seria de que os seres humanos devem ter algum tipo
de habilidade lingustica inata, que fornea o conhecimento adicional necessrio para aprender
a lngua.
Crticos do nativismo observam que h mecanismos capazes de aprender sem a necessidade
de evidncias negativas (Clark, 2001; Harnad, 2005). De fato, os mecanismos de aprendizagem
no-supervisionada podem atuar fazendo este papel e tm sido aplicados aos mais variados tipos
de problemas de categorizao. Como exemplo, podemos citar os Mapas Auto-Organizveis
(Kohonen, 1985), Modelos de Mistura, Maximizao da Expectativa e Modelos Hierrquicos
(Ghahramani, 2004).
Harnad (2005) aponta ainda que embora haja evidncias para o argumento da pobreza de
estmulos com relao aquisio das categorias de gramticas, no h evidncias contrrias
aquisio das demais categorizaes aprendidas pelos seres humanos. Por exemplo, diversas
outras categorias perceptivas so aprendidas, como cores, sons e formas.
evidente que h uma conexo entre as categorias lingusticas e perceptivas, uma vez que
muitas das categorias lingusticas se referem a categorias perceptivas. Por exemplo, a palavra
azul se refere categoria perceptiva que representa a cor azul. Porm, no se sabe ao certo como
30
o aprendizado das categorias lingusticas afeta ou afetado pelo aprendizado das categorias
perceptivas. Afinal, como chama ateno Harnad (2005), Cognio Categorizao.
Aprofundando um pouco mais nesta questo, encontra-se um dos problemas centrais da
compreenso da linguagem natural, o chamado Symbol Grounding Problem (Harnad, 1990),
ou em uma traduo livre, Problema do Mapeamento de Smbolos, o qual trata de como as
palavras (smbolos) obtm seus significados. Ou colocando de outra forma, como as palavras
se conectam ou podem ser mapeadas para as coisas as quais elas se referem. Para tratar este
problema, diversos autores sugerem que as categorias cognitivas devem ser mapeadas em ltima
instncia para categorias perceptivas (Regier, 1992; Steels e Belpaeme, 2005; Cangelosi et al.,
2006; Mooney, 2006; Taddeo e Floridi, 2007; Cangelosi, 2010; Stramandinoli et al., 2012).
Concordando com esta viso, Perlovsky (2006) coloca que a mente envolve uma hierarquia de
vrias camadas de conceitos-modelo, a partir de simples elementos perceptivos (como bordas
ou pontos em movimento), para conceitos-modelo de objetos, de relaes entre os objetos, de
cenas complexas e acima, ao longo de uma hierarquia para os conceitos-modelo do significado
de vida e do propsito de nossa existncia. Para Perlovsky (2006) conceitos-modelo so
como categorias aprendidas formando modelos internos que representam objetos e situaes do
mundo.
Considerando o que foi exposto, o autor desta Tese investiga a hiptese de que o conhecimento no lingustico adquirido, ao explorar o mundo e interagir com outros indivduos, auxilia
no processo de aquisio do conhecimento lingustico e vice-versa, tornando possvel contornar
o problema da pobreza de estmulos apontado por Chomsky (1969). A segunda hiptese adotada
a de que este conhecimento seria composto inicialmente de categorias motor-perceptivas e
em seguida de categorias mais abstratas, como as sugeridas por Perlovsky (2006), permitindo
a formao de conceitos de alto nvel. Os mecanismos de aquisio dessas categorias seriam
inatos, baseados em modelos de aprendizagem no-supervisionada, e serviriam no apenas
para aquisio mas tambm para o reconhecimento de categorias ou conceitos, permitindo que
fossem extradas informaes do ambiente a respeito do contexto no qual um dilogo ocorre, o
que poderia auxiliar no s na aquisio mas tambm na compreenso da linguagem natural.
Porm, conforme aponta Rasanen et al. (2012), no h um modelo unificado para ALN,
combinando aprendizagem perceptual e motora que utilize o paradigma de aprendizagem nosupervisionada, e os estudos nessa rea ainda so preliminares. Assim, o objetivo geral desta
Tese a proposio e validao de um modelo neural modular para aquisio de categorias
motoras e perceptivas que sirvam de suporte para a ALN.
Como coloca Barrett e Kurzban (2006), a modularidade uma propriedade fundamental
dos seres vivos em todos os nveis da organizao e poder revelar-se indispensvel para a
compreenso da estrutura da mente tambm. Embora haja um amplo debate entre estudiosos
31
CAPTULO 1. INTRODUO
das cincias cognitivas sobre o grau de modularidade da mente (Fodor, 1983; Pinker, 1997;
Fodor, 2000), h um consenso sobre a existncia de certo nvel de modularidade. Por exemplo,
os sistemas de processamento de informao subjacentes da percepo so diferentes em
aspectos importantes daqueles do raciocnio ou do controle motor (Barrett e Kurzban, 2006).
Estas divises so consideradas na proposio do modelo neural modular, proporcionando um
arcabouo til para organizar a investigao das caractersticas a serem modeladas.
A metodologia utilizada para construo do modelo inicia-se com o levantamento de evidncias acerca da aprendizagem e processamento da linguagem, seguido da proposio do modelo
computacional conciliando o maior nmero possvel de evidncias, e finda com a validao
de cada um dos mdulos e do modelo completo. Esta validao ser realizada atravs da
comparao do resultado de simulaes com dados experimentais e tambm pela avaliao das
capacidades e limitaes apresentadas pelo modelo.
Cangelosi et al. (2010) apontam que a robtica desenvolvimentista, atravs do estudo dos
agentes incorporados1 , pode servir como uma ferramenta para validar as hipteses tericas.
Agentes incorporados (robticos ou simulados) so capazes de adquirir habilidades complexas
comportamentais, cognitivas e lingusticas ou comunicativas atravs da aprendizagem individual
e social. Esta abordagem foi escolhida para fins de validao do modelo. Assim, ser considerado o problema de um agente, dotado de sensores e atuadores, inserido em um ambiente
simulado, o qual interage com seu instrutor atravs de linguagem natural.
O modelo proposto visa tornar este agente capaz de: (1) categorizar e reconhecer aes e
percepes do ambiente (categorias motor-perceptivas); (2) categorizar e reconhecer elementos
da linguagem utilizada pelo instrutor (categorias lingusticas ou rtulos), restringindo-se apenas
a substantivos concretos; e (3) associar os rtulos com as categorias aprendidas. A partir deste
ponto ser investigada uma maneira de integrar o aprendizado lingustico, motor e perceptivo
de forma que um influencie positivamente no aprendizado do outro. Sendo estes os objetivos
especficos desta Tese. Por outro lado, vale apontar que os assuntos a seguir, apesar de estarem
correlacionados com o problema tratado, no so objetos centrais dos estudos realizados:
reconhecimento de fala, produo de linguagem natural, aprendizagem gramatical, planejamento
e controle da execuo de comandos.
Os demais captulos desta Tese esto organizados da seguinte maneira: O Captulo 2
apresenta conceitos importantes das reas da cincia que mais contriburam para a construo
do conhecimento atual sobre a linguagem natural, fornecendo as premissas que foram utilizadas
na proposio do modelo. Em seguida, o Captulo 3 fornece uma descrio geral do modelo
proposto, conectando as premissas levantadas com os mdulos computacionais identificados.
Nos Captulos de 4 a 7 sero descritos e validados os quatro mdulos implementados. Ento, no
1 incorporado
32
33
2
Fundamentao Terica
Trs reas da cincia colaboram fornecendo evidncias e propondo modelos para lidar com a
complexa caracterstica que a aptido humana para linguagem natural: a psicolingustica, a
neurolingustica e a lingustica computacional. Cada uma dessas reas traz um olhar diferenciado
para o problema, com caractersticas importantes que dificilmente seriam levantadas atravs das
abordagens utilizadas em outras reas.
A psicolingustica fornece uma viso top-down do problema observando o comportamento
exibido pelos indivduos e procurando identificar as funes mentais que os levam a ter tal
comportamento. Ela pode ser vista ainda como uma anlise de caixa preta, que procura
compreender o sistema observando principalmente suas entradas e sadas.
Por outro lado, a neurolingustica fornece uma viso bottom-up do problema. Esta seria
uma anlise de caixa branca, na qual so identificadas, nomeadas e analisadas as estruturas
bsicas de funcionamento do crebro, descrevendo suas propriedades e procurando entender
como funes mais complexas podem emergir a partir dos mecanismos mais simples que at
ento j foram compreendidos.
Paralelamente a estas duas reas, a lingustica computacional cria modelos e executa simulaes buscando validar hipteses, gerar novas conjecturas, alm de produzir aplicaes prticas
se valendo das informaes obtidas (Allen, 1994). A lingustica computacional pode atuar em
vrios nveis de abstrao de acordo com os objetivos que se quer atingir.
Este captulo destaca as principais contribuies destas trs reas do conhecimento para
a compreenso da linguagem natural que podero ajudar nesta Tese. As contribuies da
psicolingustica sero fornecidas na Seo 2.1, as contribuies da neurolingustica sero
tratadas na Seo 2.2 e por fim, na Seo 2.3 ser apresentada a abordagem clssica para
construo de sistemas de PLN.
35
2.1
Contribuies da Psicolingustica
2.1.1
Termos e Definies
Diversos termos utilizados no estudo da lingustica e psicolingustica no so de amplo conhecimento. Assim, para facilitar o entendimento deste captulo so fornecidas a seguir algumas
definies de termos importantes. Certos termos sero discutidos com mais detalhes posteriormente, ainda assim, esto includos na listagem abaixo para facilitar referncias posteriores.
Definies
Representao simblica: O uso de ideias, imagens, e outros smbolos para identificar
objetos ou eventos.
Linguagem: Em resumo, sistema governado por regras de smbolos arbitrrios que
podem ser combinados de diversas formas para comunicar informaes.
Fonologia: O sistema de sons usado na linguagem, as regras para combinar estes sons e
formar palavras, e o uso de estresse e entonao em frases faladas.
Fonemas: Sons da fala que se contrastam em um determinado idioma, podendo mudar o
significado das palavras.
Semntica: O significado das palavras e sentenas.
Morfemas: A menor unidade significativa na linguagem.
Morfologia: O sistema de regras combinando morfemas para formar palavras ou modificar o significado das palavras.
Sintaxe: As regras para organizar palavras em frases e sentenas.
Pragmtica: As regras que regem a conversao e o efetivo uso social da linguagem.
Dixis (ou palavras deticas): So palavras ou expresses que requerem informao
sobre o contexto para serem compreendidas. A palavra dixis remete noo de
exposio, indicao ou demonstrao.
36
37
Subregularizaes: Erros de linguagem em que uma criana aplica uma regra morfolgica a palavra que uma exceo regra.
Classe formulrio: Uma categoria de palavras em uma linguagem que podem preencher
papis sintticos semelhantes em frases formadores e sentenas.
Holofrase: Uma palavra nica que representa o significado de uma frase ou sentena.
Discurso telegrfico: Um estilo de discurso de crianas em que as palavras que no so
essenciais para o significado de uma frase so omitidas.
Competncia comunicativa: A habilidade de usar a linguagem de uma forma socialmente adequada em uma determinada cultura.
Teorias ambientalistas (ou empiricistas): Teorias que enfatizam os fatores ambientais
na aquisio da linguagem.
Teorias nativistas: Teorias que enfatizam, fatores biologicamente inatos na aquisio
da linguagem.
2.1.2
categorizao que isso funciona bem para substantivos como co e nomes prprios como
Moiss, podendo se estender para alguns verbos e advrbios. Mas no funciona bem para
palavras como determinantes, preposies e verbos auxiliares. Estas palavras tem seu significado
determinado pelo papel que desempenham ao modular o significado de outras e, portanto, o seu
aprendizado pode ser tratado de maneira distinta.
A aprendizagem de palavras ocorre durante toda a vida, mas diversos eventos relevantes
ocorrem em crianas com idades entre um e seis anos. Crianas comeam a produzir palavras
por volta dos 12 meses e em torno dos quatro anos j dominam praticamente tudo que viro
a saber sobre fonologia, sintaxe e morfologia da sua lngua materna. Crianas de seis anos j
conhecem aproximadamente 10.000 palavras (Bloom, 2002, p.13). E diplomados do ensino
mdio americano sabem o significado de aproximadamente 45.000 palavras de dicionrio. Ao
incluir nomes prprios e expresses idiomticas este nmero sobe para algo entre 60.000 e
80.000 palavras (Bloom, 2002, p.6).
Cada uma dessas faixas etrias exibe traos diferentes da aprendizagem, e por isso so
o foco de estudos distintos. Crianas pr-lingusticas so alvo de estudos porque ainda no
possuem as capacidades necessrias para falar, crianas de um ano so interessantes porque so
novatas no aprendizado das palavras, crianas mais velhas e adultos so interessantes porque
j so especialistas, e crianas na pr-escola esto em um meio termo entre essas duas ltimas
categorias (Bloom, 2002, p.35).
Tomando como base um aprendizado de 60.000 palavras at os 17 anos, h uma impressionante taxa de aprendizagem mdia de 10 palavras aprendidas por dia, o que equivale ao
aprendizado de uma palavra a cada 96 minutos, descontando 8 horas de sono. Sabe-se, no
entanto, que essa taxa no constante, no incio do aprendizado poucas palavras so aprendidas
por semana, porm a taxa aumenta gradualmente atingindo seu pico em algum momento aps
os 10 anos de idade, e desacelera antes dos 17 anos (Bloom, 2002, p.45).
Alm disso, alguns tipos de palavras so aprendidos com mais facilidade do que outras.
Por exemplo, dentre cores, formas e texturas, as palavras relativas a formas so as mais fceis
de aprender, palavras relativas a texturas so as mais difceis e relativas a cores apresentam
um nvel de dificuldade intermedirio (Heibeck e Markman, 1987). Verbos, tais como (tais
como, andar) so mais difceis de aprender do que substantivos (tais como, co) (Tomasello e
Kruger, 1992). Substantivos abstratos (e.g., pensamento) so mais difceis de aprender do que
substantivos concretos (e.g, bola) (Bloom, 2002, p.90). Instncias individuais (e.g., Garfield) ou
mais especficas (e.g., gato) so mais fceis de aprender do que categorias ou tipos (e.g., animal)
(Xu e Carey, 1996). Pronomes so as primeiras palavras deticas que as crianas aprendem.
Pronomes como este ou aquele frequentemente so encontrados dentre as primeiras palavras
aprendidas (Nelson, 1973).
39
Experimentos sugerem ainda que crianas tendem a associar palavras desconhecidas com
objetos para os quais elas no sabem o nome (Kagan, 1981), fenmeno este chamado de
Contraste lxico. Alm disso, quando uma nova palavra utilizada para referenciar um objeto
com nome j conhecido, as crianas tendem a associar essa palavra a partes do objeto (Markman
e Wachtel, 1988) ou a suas propriedades. Isto descrito pelos autores como, excluso mtua, ou
uma tendncia a preferir um mapeamento um para um. Bloom (2002) exemplifica, considerando
o experimento de Markman e Wachtel (1988). So entregues para crianas uma banana (objeto
com nome conhecido) e um batedor de ovos (objeto com nome desconhecido). Ento se pede:
Mostre-me o Fendle (uma palavra inexistente). Nesta situao as crianas tendem a mostra o
batedor. Elas podem estar raciocinando, implicitamente, da seguinte forma:
Exemplo
1. Eu sei que uma banana chamada de banana.
2. Se ele quisesse se referir a banana, ela teria me pedido para apontar a banana.
3. Mas ele no o fez, ele usou uma palavra estranha, Fendle.
4. Ento, ele tem a inteno de se referir a algo que no seja a banana.
5. Um candidato plausvel o batedor.
6. Fendle deve se referir ao batedor.
2.1.3
a aprendizagem Hebbiana (Hebb, 1949), que diz que se dois neurnios disparam ao mesmo
tempo, suas conexes so fortalecidas, e com isso, a ativao de um leva a ativao de outro. A
partir disto, em uma extrapolao um tanto exagerada, o associativismo considera que, se dois
conceitos ocorrem ao mesmo tempo, tornam-se associados, e um leva ao outro (Bloom, 2002).
Richards e Goldfarb (1986), por exemplo, propem que as crianas aprendem o significado
das palavras por repetidas associaes. medida que as propriedades perceptivas ocorrem em
conjunto com o rtulo, as associaes se fortalecem. Por outro lado, as associaes que no
ocorrem em conjunto se enfraquecem.
Diversos modelos computacionais de aprendizagem de palavras funcionam de maneira
associativa (Richards e Goldfarb, 1986; Plunkett et al., 1992; Plunkett, 1997). O modelo
de Plunkett (1997) pode ser descrito como uma arquitetura conexionista que sensvel a
regularidades estatsticas no ambiente.
A hiptese associativa encontra evidncias em situaes que facilitam a aprendizagem de
palavras. Por exemplo, apontar para um objeto e dizer o nome dele para uma criana realmente
facilita sua aprendizagem. Mas, apesar dos mritos desta proposta, ela possui limitaes
importantes. A primeira delas diz respeito s entradas que as crianas recebem. Qualquer
procedimento associacionista requer que as correlaes corretas estejam presentes no meio
ambiente. No caso da aprendizagem de palavras, isso implica que as palavras sejam apresentadas
ao mesmo tempo em que as crianas esto observando o que as palavras se referem (Bloom,
2002, p.7).
Porm, as palavras no so normalmente usadas ao mesmo tempo em que as suas referncias
so apercebidas. Mesmo no aprendizado do nome de objetos, e mesmo nos restringindo apenas
a interaes entre pais e filhos dentro de um ambiente familiar de apoio, de 30 a 50 por cento
das vezes em que uma palavra usada, as crianas no esto observando o objeto sobre o qual o
adulto est falando (Collins, 1977; Harris et al., 1983). Mesmo assim, crianas so capazes de
aprender o significado de nomes de objetos e aes que no so observveis no momento em
que as respectivas palavras so pronunciadas. Na maioria das vezes que adultos utilizam verbos,
as aes s quais os verbos se referem no esto ocorrendo (Gleitman, 1990; Tomasello, 1992).
A palavra abrir, por exemplo, frequentemente utilizada sem que nada esteja sendo aberto.
Alm disso, a hiptese associativa prev que, antes das crianas terem dados suficientes para
convergirem para a hiptese correta, elas deveriam cometer frequentes erros de mapeamento.
Porm, estes erros so raros.
Aprendizagem por reforo poderia ser pensada com uma alternativa, porm esta hiptese
tambm encontra problemas. Crianas no necessitam de correo para aprender o significado
das palavras (Lieven, 1994). Crianas mudas aprendem o significado das palavras to bem
quanto crianas sem esta limitao (Stromswold, 1994). Assim, o fato de que a aquisio do
41
nome de objetos normalmente rpida e sem erros sugere que ela no seja uma forma puramente
estatstica de aprendizagem.
Outra dificuldade foi exemplificada por Quine (1960): um coelho branco passa correndo e
um nativo diz Gavagai. Algum que no saiba o significado de gavagai poderia imaginar que
significa coelho, porm neste contexto existem infinitos significados logicamente possveis para
gavagai. A palavra tambm poderia se referir quele coelho em especfico, ou aos mamferos,
ou aos animais, ou a alguma parte do coelho, ou a branco, ou a felpudo, ou apenas aos coelhos
que correm, ou at mesmo ao ato de correr. Outros problemas ainda podem ser considerados,
por exemplo: como saber se gavagai o nome de alguma coisa ou apenas um rudo feito pelo
nativo. Ele poderia ainda estar apenas falando consigo mesmo, ou dizendo Veja! ou Estou
entediado. Como saber que h apenas uma palavra e no duas, gava e gai?
Estas dificuldades deixam claro que a identificao de outros tipos de habilidades necessria
para uma modelagem adequada da aprendizagem de palavras.
2.1.4
Bloom (2002) sugere que o aprendizado de palavras requer diferentes capacidades cognitivas,
que em geral servem para outros propsitos, mas que ao trabalhar juntas tornam possvel a
aprendizagem de palavras. O estudo da aprendizagem de palavras pode dar dicas sobre quais so
estas capacidades e como elas interagem durante o desenvolvimento. Bloom (2002) identifica
como requisitos necessrios a habilidade de inferir as intenes de outros, a habilidade de
adquirir conceitos, a apreciao de estruturas sintticas, e habilidades memorizao como o
mapeamento rpido.
2.1.5
Conceitos e Categorizaes
Palavras no so necessariamente pensamentos. Pensamento rico e abstrato possvel sem palavras, e muito do que acontece na aprendizagem de palavras estabelecer uma correspondncia
entre smbolos de uma linguagem natural e conceitos que existiam antes, e independentemente
da aquisio daquela linguagem (Bloom, 2002, p.259). Como Fodor (1975) coloca, todo
aprendizado de idioma na verdade o aprendizado de um segundo idioma. O primeiro idioma
seria o aprendizado da linguagem do ambiente. Ao menos em algumas ocasies, quando
as crianas aprendem uma nova palavra, fica claro que elas j tinham aprendido o conceito
associado anteriormente (Bloom, 2002, p.241).
Propriedades diferentes so relevantes para uma classificao adaptativa de diferentes
entidades. Para objetos rgidos, por exemplo, a forma altamente relevante, que como ns
normalmente distinguimos mesas e cadeiras. Mas para as substncias, cor e textura so o
42
que importa: um crculo de pasta branca provvel que tenha as mesmas propriedades no
observveis (tais como gosto) de um quadrado de massa branca, mas no as de um crculo
de espuma vermelha. Alguns animais sofrem transformaes radicais de forma, como cobras,
outros no, como a estrela do mar. E uma mesma entidade pode ser categorizada de diferentes
maneiras, dependendo do tipo de induo que preciso fazer. Por exemplo, propriedades
diferentes so relevantes para determinar se algo venenoso ou se flutua (Bloom, 2002, p.149).
Ao considerar objetos como pontos em um espao multidimensional, e similaridades e
categorias como grupos de objetos, o encolhimento ou alongamento das diferentes dimenses,
pode tornar objetos mais semelhantes ou mais distintos (Nosofsky, 1988), modificando os
agrupamentos.
No entanto, dificuldades so encontradas ao tentar definir categorias mais abstratas baseandose em propriedades de seus objetos e no h uma teoria capaz de explicar precisamente como
categorias mais abstratas podem ser construdas a partir de categorias perceptivas.
2.1.6
Como Markman e Hutchinson (1984) colocam, o papel das palavras (ou rtulos) dizer para a
criana que a categoria, e no alguma relao espacial ou temtica relevante naquele contexto.
Isso chama a ateno para uma categoria pr-existente na mente da criana, mas no faz com
que uma nova categoria passe a existir.
Por outro lado, evidncias sugerem que a exposio a rtulos de categorias em aprendizagem
artificial pode aumentar a sensibilidade a certas propriedades perceptivas (Goldstone, 1994) e
que a mera presena de rtulos faz com que as pessoas exagerem diferenas entre grupos (Tajfel
e Wilkes, 1963). Muitos psiclogos do desenvolvimento prope que a exposio a palavras
pode servir para estabelecer as delimitaes de novos conceitos (Bloom, 2002, p.250).
Plunkett et al. (2008) apresentam uma srie de experimentos que demonstram que os rtulos
podem desempenhar um papel causal na formao de categorias durante a infncia. Quando
objetos foram apresentados para crianas sem o uso de rtulos elas aprenderam duas categorias.
Quando foram apresentados rtulos correlacionados com as informaes das categorias visuais,
as crianas tambm aprenderam duas categorias, como se os rtulos no influenciassem. No
entanto, quando foram apresentados rtulos no correlacionados com as informaes visuais, i.e.,
escolhidos aleatoriamente, a formao de categorias foi totalmente interrompida. Finalmente,
o uso de um rtulo nico para todos os objetos levou crianas a aprender apenas uma ampla
categoria que inclua todos os objetos. Estes resultados demonstram que, mesmo antes das
crianas comearem a produzir suas primeiras palavras, os rtulos que ouvem podem sobrepor
a maneira como elas categorizam objetos.
43
Palavras podem servir como uma dica de que objetos diferentes pertencem mesma categoria
(ex.: h diferentes tipos de dinossauros), mas no podem ser utilizadas de uma forma definitiva,
uma vez que uma mesma palavra pode ser utilizada para representar conceitos distintos (ex.;
manga da camisa ou a fruta) (Bloom, 2002, p.253).
2.1.7
Aprendizagem Cross-Situacional
A aprendizagem cross-situacional um mecanismo em que o significado das palavras aprendido ao longo de vrias exposies, mesmo havendo incerteza sobre o significado correto em
cada exposio. Em experimentos cross-situacionais, vrias palavras so pronunciadas (rtulos)
enquanto os indivduos observam vrias imagens de objetos (referentes). H uma correspondncia entre rtulos e referentes que se espera que os indivduos sejam capazes de aprender aps
um certo nmero de apresentaes.
H uma ampla gama de evidncias experimentais (Yu e Smith, 2007; Yurovsky et al., 2013;
Trueswell et al., 2013) mostrando que os seres humanos so efetivamente capazes de aprender
palavras usando aprendizagem cross-situacional, mesmo em situaes onde h altos nveis de
incerteza sobre o referencial correto (Smith et al., 2011). Ou seja, exposies com mais de trs
rtulos e referentes sendo apresentados ao mesmo tempo.
Duas hipteses tm sido consideradas para explicar este tipo de aprendizagem (Yu e Smith,
2012). Na hiptese da Aprendizagem Estatstica, os indivduos levam em considerao
mltiplas conjecturas sobre as possveis associaes rtulo-referente, simultaneamente. Ento,
medida que se seguem as exposies, ocorrer presumidamente um aumento na associao
entre um rtulo e seu referente mais frequente e uma reduo na associao entre este rtulo
e os demais referentes, de forma que as associaes corretas iro sobressair-se em relao as
associaes erradas.
Por outro lado, na Hiptese e Teste o participante levanta uma nica conjectura de
mapeamento ao ouvir cada rtulo e mantm essa conjectura para ser reavaliada em ensaios
subsequentes. Se a conjectura for verificada novamente, o indivduo solidifica esta associao
rtulo-referente. Se, em contrapartida, o palpite for inconsistente com alguma observao
posterior, o participante abandona essa interpretao e postula uma nova, que por sua vez, ser
confirmada ou rejeitada subsequentemente.
Yu e Smith (2012) criaram modelos computacionais para cada uma destas hipteses e ambos
os modelos foram capazes de reproduzir resultados experimentais. Alm disso, Fontanari
et al. (2009) mostraram que tambm possvel modelar este tipo de aprendizagem atravs
de Neural Modeling Fields (NMF) (Perlovsky, 2001). NMF , essencialmente, um algoritmo
determinstico, auto-consistente e iterativo, projetado para maximizar a similaridade entre
44
os sinais de entrada e os modelos construdos pelo algoritmo para representar estes sinais.
Os resultados das simulaes mostraram que NMF pode encontrar uma soluo tima para
representar as associaes. A soluo tima no sentido de que o algoritmo cria categorias
distintas para todas as associaes rtulo-referente corretas e atribui todas as associaes erradas
para uma nica categoria.
Maiores detalhes sobre os experimentos cross-situacionais sero fornecidos nos experimentos apresentados no Captulo 8.
2.1.8
Mapeamento Rpido
2.1.9
Teoria da Mente
Bloom (2002) aponta que quando as crianas aprendem que coelhos comem cenouras, elas
esto aprendendo algo sobre o mundo externo, mas quando descobrem que coelho se refere a
coelhos, elas esto aprendendo uma conveno arbitrria compartilhada por uma comunidade
de pessoas, uma maneira implcita e acordada de se comunicar. Portanto, quando as crianas
aprendem o significado de uma palavra, saibam elas ou no, esto aprendendo algo sobre os
pensamentos de outras pessoas.
De fato, evidncias mostram que a aprendizagem de palavras requer alguma compreenso
dos pensamentos dos outros, o que chamado de teoria da mente, leitura da mente,
cognio social, ou compreenso pragmtica (Miller, 2006). Esta habilidade estaria por trs
45
2.2
Contribuies da Neurolingustica
Nesta seo sero revisadas as principais estruturas cerebrais relacionadas com a linguagem,
desde os sistemas sensoriais mais importantes para o desenvolvimento da linguagem, i.e.,
viso e audio, at as estruturas cerebrais capazes de reconhecer palavras e sentenas, de
identificar o significado associado, e de produzir uma resposta verbal adequada. A maneira
como a informao sensorial adquirida, organizada e distribuda para os vrios centros
de processamento do crebro, fornece conhecimentos importantes sobre a forma como o
processamento da linguagem realizado. Este assunto ser tratado na Seo 2.2.1 e Seo 2.2.2.
O processamento propriamente dito das informaes lingusticas ser tratado na Seo 2.2.3.
2.2.1
A luz que adentra aos olhos refratada medida que passa atravs da crnea, em seguida, passa
atravs da pupila e refratada novamente pelo cristalino. A crnea e o cristalino atuam em
conjunto como uma lente composta para projetar uma imagem invertida sobre a retina. Em cada
retina h cerca de 120 milhes de foto-receptores (cones e bastonetes) (Gazzaniga e Heatherton,
46
Figura 2.1 Vista superior das vias visuais humanas (Miikkulainen et al., 2005).
2005). Quando a luz atinge estes foto-receptores, se inicia uma cascata de eventos qumicos e
eltricos que em ltima anlise provocam impulsos nervosos. Estes so enviados para vrios
centros visuais do crebro atravs das fibras do nervo ptico.
As clulas da retina realizam um tipo de processamento simples, uma espcie de deteco
de borda na entrada, respondendo mais fortemente as fronteiras entre s reas claras e escuras.
Clulas do tipo centro-ON reagem mais fortemente a uma mancha clara de luz rodeada por
uma regio escura (campo receptivo). Clulas do tipo centro-OFF, reagem mais fortemente a
uma rea escura cercada de luz. O tamanho do campo receptivo determina a preferncia de
frequncia espacial dos neurnios (Miikkulainen et al., 2005).
Conforme ilustrado na Figura 2.1, a informao de cada metade do campo visual viaja em
vias separadas. Por exemplo, a luz que entra no olho a partir do campo visual direito atinge a
metade esquerda da retina na superfcie posterior de cada olho. As entradas do campo direito de
cada olho se juntam no local denominado quiasma ptico, e viajam para o Ncleo Genicular
Lateral (LGN) do tlamo esquerdo, em seguida, para o crtex visual primrio, ou rea V1, do
hemisfrio esquerdo. Os sinais de cada olho so mantidos separados em diferentes camadas
neuronais do LGN, e so combinados em V1. Existem tambm vias mais diretas para outras
estruturas subcorticais a partir do quiasma e LGN, tais como o colculo superior e pulvinar (no
mostrados na figura).
Neurnios na LGN tm propriedades semelhantes s clulas do gnglio retinal, e tambm
so dispostos retinotopicamente, de modo que clulas LGN prximas respondem a pores
prximas da retina. As clulas ON da retina se conectam com clulas ON no LGN e as clulas
OFF na retina se conectam com clulas OFF no LGN. Devido a esta independncia, as clulas
47
Figura 2.2 Preferncias por caractersticas no crtex visual do macaco. As clulas so coloridas de
acordo com a sua preferncia de orientao. Neurnios prximos no mapa, em geral, preferem orientaes
semelhantes, formando grupos de mesma cor (Miikkulainen et al., 2005).
orientao da entrada da retina. Nesse mapa, cada localizao na retina mapeada para uma
regio distinta, com cada orientao possvel no local da retina representada por clulas seletivas
a orientaes diferentes, mas prximas.
Talvez a funo mais importante do crtex visual seja o agrupamento e a segregao
perceptual, ou o processo de identificao dos constituintes de uma cena visual que juntos
formam objetos individuais. No nvel dos mapas de orientao, agrupamento perceptual se
manifesta na integrao de contorno.
Neurnios em reas superiores tendem a ter maiores campos receptivos, respondendo a
estmulos de uma maior gama de localizaes da retina, e com isso processam caractersticas visuais mais complexas. Em particular, regies corticais extra-estriadas, que respondem
preferencialmente a faces foram encontradas em macacos e em seres humanos adultos.
Estas reas seletivas a faces recebem informao visual de V1. Elas so fracamente segregadas em regies que processam faces de maneiras diferentes. Por exemplo, algumas reas
realizam a deteco de face, ou seja, respondem a diversos estmulos inespecficos que lembram
faces (de Gelder e Rouw, 2000, 2001). Outras respondem seletivamente a expresso facial,
direes do olhar, ou exibem preferncia por rostos especficos.
A rea visual V5, tambm conhecida como rea visual MT (mdia temporal), uma regio
do crtex visual que se conjectura ter um papel importante na percepo do movimento, como
por exemplo a integrao dos sinais locais de movimento em percepes globais, alm da
49
2.2.2
Embora no faa parte do sistema nervoso, o sistema auditivo o alimenta diretamente, realizando
uma transformao de tempo e frequncia das ondas sonoras em potenciais de ao neuronais.
Ele pode ser dividido em duas partes (Figura 2.3): sistema auditivo perifrico e sistema auditivo
central. O sistema auditivo perifrico composto pelo ouvido externo, ouvido mdio, ouvido
interno. O sistema auditivo central composto pelo ncleo coclear, o corpo de trapzio,
complexo olivar superior, lemnisco lateral, colculo inferior, ncleo geniculado medial (Kandel
et al., 2000).
Figura 2.3 Anatomia do ouvido humano. Na representao o canal auditivo est exagerado. Traduzido
da Wikipedia.org sob licena creative commons.
51
ossos delicados. Esses ossculos funcionam como uma alavanca, convertendo vibraes de
baixa presso em vibraes de alta presso que atingem uma membrana menor chamada janela
oval (ou elptica). Essa elevao de presso necessria porque aps a janela oval se encontra
lquido em vez de ar. O ouvido mdio conduz a informao de som em forma de onda at a
cclea, onde ser convertida em impulsos nervosos.
A cclea tem trs sees cheias de lquido, e conduz ondas de fluido impulsionado pela
presso atravs da membrana basilar separando duas das sees. O rgo de Corti est localizado
neste duto da membrana basilar. Ele forma uma fita de epitlio sensorial que segue longitudinalmente para baixo por toda a escala mdia da cclea. Suas clulas ciliadas transformam as ondas
de fluido em sinais nervosos que so enviados para o crtex auditivo.
Crtex Auditivo
O crtex auditivo primrio (A1) a primeira regio cortical das vias auditivas. Ele se localiza
no lobo temporal na posio correspondente as reas de Brodmann 41 e 42 do crtex cerebral.
Neurnios em A1 so organizados de acordo com a frequncia do som a que eles respondem
melhor, formando um mapa topogrfico da cclea, assim como o crtex visual primrio (V1) e
o crtex sensorial somtico primrio (S1) tem mapas topogrficos de seus respectivos epitlios
sensoriais. Ao contrrio dos sistemas visuais e sensoriais somticos, a cclea j decompe o
estmulo acstico de modo que ele est disposto tonotopicamente ao longo do comprimento da
membrana basilar. Assim como em A1, a maior parte das estruturas auditivas ascendentes entre
a cclea e o crtex, formam mapas tonotpicos.
Ortogonalmente ao eixo de frequncia do mapa tonotpico se forma um arranjo de neurnios
dispostos em faixas. Os neurnios em uma faixa so excitados por ambos os ouvidos (binaurais),
enquanto que os neurnios ao lado das faixas so excitados por um ouvido e inibidos por outro.
O crtex auditivo primrio decompe a fala e outros sons complexos em representaes
elementares de tempo e frequncia antes de realizar processamento fontico e lxico de mais
alto nvel (Pasley et al., 2012). Esta anlise produz uma representao fiel das propriedades
espectro-temporais das formas de onda do som, incluindo as caractersticas acsticas relevantes
para a percepo da fala, como formantes, transies formantes, e taxa de slabas. No entanto,
relativamente pouco se sabe com relao a quais caractersticas especficas da linguagem natural so representadas no crtex auditivo intermedirio e de mais alta ordem. Em particular,
considera-se que o giro posterior superior temporal (pSTG), parte da rea de Wernicke, desempenha um papel crtico na transformao da informao acstica em representaes fonticas e
pr-lxicas. Acredita-se que o pSTG participa em uma etapa intermediria de processamento que
extrai caractersticas espectro-temporais essenciais para o reconhecimento de objetos sonoros e
descarta informaes no essenciais.
52
2.2.3
Originalmente, o processamento da linguagem no crebro foi concebido em termos associacionistas de centros e vias. Nesta viso, as informaes lingusticas visuais e auditivas so
processadas em regies corticais localizadas, com a passagem sequencial de informaes entre
regies atravs de tratos da massa branca. Embora este modelo esteja mais avanado do que a
teoria clssica, estritamente modular, ele continua a ser restritivo. Duffau (2008) aponta que
atualmente, uma viso hodolgica (em rede), vem ganhando fora, e considera que a linguagem
concebida como resultante do processamento distribudo e paralelo, realizado por grupos de
neurnios conectados, em vez dos centros individuais (McClelland e Rumelhart, 1985; McClelland e Rogers, 2003; Seidenberg e Mcclelland, 1989). Ao contrrio do modelo sequencial, no
qual um processo deve ser concludo antes que a informao atinja outro nvel de processamento
(Levelt, 1999). Esses novos modelos de redes independentes assumem que processamentos
diferentes podem ser realizados simultaneamente com realimentaes interativas (Caramazza,
1999; Dell et al., 1999).
Reconhecimento e Produo de Linguagem
Duas reas no interior da superfcie neocortical do hemisfrio esquerdo so amplamente relacionadas com a linguagem (Figura 2.4). Uma a rea de Wernicke, localizada no lobo temporal
superior e coextensiva com o lbulo parietal inferior, a qual responsvel pela capacidade de
compreender a fala. A outra a rea de Broca, que controla grande parte da capacidade de falar
53
Figura 2.4 Regies do crebro relacionadas com a linguagem. Modificada de The Brain from Top to
Bottom (thebrain.mcgill.ca) sobre licena copyleft.
mdica na qual uma pessoa no capaz de falar, escrever ou entender a fala ou a escrita por causa
de danos no crebro.
54
55
lobo parietal inferior com territrio Wernicke. Este arranjo no s apoia a arquitetura mais
flexvel do processamento paralelo (Mesulam, 1990), como tambm est de acordo com alguns
dos modelos clssicos neurolgicos de afasia (Compston, 2006), modelos contemporneos
de memria de trabalho verbal (Baddeley, 2003) e as descobertas de neuroimagem funcional
(Jung-Beeman, 2005; Sakai, 2005; Stephan et al., 2003).
Compreenso da Sintaxe
Desde que trabalhos na dcada de 1960 (Goodglass e Berko, 1960; Milner, 1964) mostraram
que pacientes com afasia de Broca tm dificuldade em compreender frases sintaticamente
complexas, o processamento sinttico foi correlacionado com a rea de Broca. No entanto, vem
se acumulado evidncias que indicam que o lobo temporal anterior pode abrigar uma rede que
se comporta como um sistema de computao sinttica na medida em que parece ser altamente
correlacionada com a presena ou a ausncia de informao sinttica numa frase (Vandenberghe
et al., 2002; Dronkers et al., 2004; Rogalsky e Hickok, 2009). Alm disso, estudos recentes
(Brennan et al., 2012) examinando a base neural do processamento sinttico e lxico natural,
correlacionando a evoluo temporal de atividade cerebral com mudanas nas propriedades
lingusticas de um estmulo de fala natural (narrao de histrias), mostram que medidas de
complexidade das estruturas sintticas esto correlacionadas com a atividade no lobo temporal
anterior esquerdo, indicando que esta regio contribui para o processamento da composio
sinttica.
Prosdia
Embora a linguagem seja muitas vezes discutida em termos verbais, h outro aspecto importante
da expresso e compreenso lingustica, pelo qual um orador pode transmitir e um ouvinte
discernir inteno, atitude, sentimento, humor, contexto e significado: a prosdia. Alm de
gramaticalmente descritiva a linguagem tambm emocional. Um ouvinte compreende no
apenas o contedo e gramtica do que dito, mas tambm a emoo e melodia do interlocutor.
Atualmente est bem estabelecido que regies do hemisfrio direito, como o giro temporal
medial (Glasser e Rilling, 2008), atuam na distino, interpretao e processamento das nuances
vocais e flexionais, incluindo intensidade, tenso, timbre, cadncia, tom emocional, frequncia,
amplitude, melodia, durao e entonao (Joseph, 2012). O hemisfrio direito ento capaz
de determinar e deduzir no s o que uma pessoa sente sobre o que ela est dizendo, mas o
motivo e o contexto em que ele est sendo dito, mesmo na ausncia de vocabulrio especfico
contendo esta informao ou outros denotativos caractersticos da lngua (Blumstein e Cooper,
1974; Dwyer e Rinn, 1981).
56
Sistema Espelho
Os neurnios-espelho so uma classe especial de neurnios viso-motores, originalmente descobertos na rea F5 do crtex pr-motor do macaco, que disparam, tanto quando o macaco faz
uma ao em particular, como tambm quando ele observa outro indivduo (macaco ou humano)
fazendo uma ao semelhante (Rizzolatti e Craighero, 2004). Por exemplo, o padro de ativao
produzido nesta regio ao observar um humano agarrando um objeto muito semelhante ao
padro de ativao produzido quando o macaco desempenha esta funo. Estudos com palavras
e frases semanticamente relacionadas a aes envolvendo a face, brao ou perna mostram ativao somatotpica do crtex sensrio-motor. A ativao rpida e em grande parte independente
da ateno. Alm disso, a estimulao do sistema motor tambm produz efeitos diferenciais
sobre o reconhecimento de palavras de ao de tipo semntico diferente.
Keysers et al. (2003) descrevem uma populao de neurnios no crtex pr-motor ventral
do macaco que se ativam tanto quando o animal executa uma ao especfica quanto ouve ou
v a mesma ao realizada por um outro indivduo. Esses neurnios espelho audiovisuais,
portanto, representam aes independentemente de onde elas so provenientes. A magnitude
das respostas auditivas e visuais no diferiu significativamente em metade dos neurnios.
No crebro, atividade cerebral consistente com a de neurnios espelho foi encontrada no
crtex pr-motor, na rea motora complementar, no crtex somatossensorial primrio e no crtex
parietal inferior. No entanto, normalmente no possvel estudar neurnios individuais no
crebro humano, por isso a maioria das evidncias de neurnios espelho em humanos indireta.
Experimentos com imagens do crebro usando ressonncia magntica funcional mostraram que
o crtex frontal inferior e lobo parietal superior se ativam tanto quando uma pessoa executa
uma ao quanto quando a pessoa v outro indivduo executar uma ao. Tem sido sugerido
que estas regies do crebro contm neurnios espelho, e que definam o sistema de espelhos
neurnio humano.
A hiptese do sistema espelho sugere que a evoluo expandiu um sistema de espelho bsico
para aprender a agarrar, em conjunto com outras regies do crebro, primeiro para permitir a
simples imitao (compartilhado entre o ancestral comum de humanos e os grandes smios) e
da para imitaes mais complexas (exclusivas na linha dos homindeos), o que inclui a super
imitao (imitar at mesmo quando a ao parece ilgica), uma aparente desvantagem que de
fato essencial para a transmisso de habilidades humanas (Lyons et al., 2007). Esses avanos
na prxis apoiaram a emergncia da pantomima (uso de gestos) e da proto-sinalizaes e a
proto-linguagem. Esta capacidade, argumenta Arbib (2011), foi adequada para a evoluo
cultural, e o desenvolvimento da empatia, em seguida, para produzir linguagem.
57
2.3
2.3.1
O que conta como compreenso pode variar significativamente de aplicao para aplicao.
Uma maneira bvia de avaliar um sistema deste executar seu programa e verificar o quo
bem ele desempenha a tarefa para qual foi desenvolvido. Se o programa se prope a responder
questes sobre uma base de fatos, ento devemos fazer perguntas para verificar o quo boas so
as respostas que ele produz. Se o sistema desenvolvido para participar de conversas simples
sobre um certo tpico, ento devemos tentar conversar com ele. Esta abordagem chamada de
avaliao de caixa preta, por que ela avalia o sistema sem olhar dentro dele para ver como ele
funciona. Enquanto que este mtodo de avaliao pode ser o melhor teste das capacidades do
sistema, ele problemtico em estgios iniciais de pesquisa, pois os resultados da avaliao
podem ser enganosos. Algumas vezes, tcnicas que produzem bons resultados no curto prazo
no produzem bons resultados em longo prazo (Allen, 1994).
Um mtodo alternativo identificar os vrios subcomponentes do sistema e ento avaliar
cada componente com testes apropriados. Isto chamado avaliao de caixa branca, porque
vemos dentro da estrutura do sistema. O problema com esta abordagem que ela requer um
tipo de consenso sobre quais deveriam ser os componentes de um sistema de linguagem natural.
Apesar das dificuldades, avaliaes so cruciais para a rea, uma vez que muito pouco pode
ser concludo ao examinar alguns exemplos que um sistema em particular consegue tratar.
muito difcil para as pessoas no atribuir muito mais inteligncia a um sistema do que de fato ele
possui. Veja o exemplo do famoso ELIZA de Weizenbaum (1966), um programa bem simples,
possuindo apenas 204 linhas de cdigo fonte, que basicamente, simulava um dilogo entre
paciente e psiclogo utilizando as frases do paciente para formular novas perguntas. ELIZA
58
parece ser inteligente porque as pessoas utilizam sua prpria inteligncia para dar sentido ao
que o programa diz. No entanto, ELIZA no tem conhecimento sobre a estrutura da linguagem
e no retm informaes sobre o contedo da conversao.
Se considerarmos apenas a performance de curto prazo como critrio de avaliao, a
tendncia que sero criados apenas sistemas no estilo do ELIZA, e o campo no ir superar
as limitaes das abordagens simples. Para evitar este problema, necessrio aceitar certas
suposies tericas sobre a arquitetura de sistemas de linguagem natural e desenvolver medidas
de desempenho especficas para seus diferentes componentes, ou ento preciso descontar a
superestimao dos resultados, at que alguma medida de avaliao razoavelmente de alto nvel
seja obtida. S ento ser possvel que as comparaes entre sistemas comecem a refletir seu
potencial para longo prazo.
2.3.2
59
2.3.3
Representao e Compreenso
A representao do significado de sentenas e textos um componente crucial para a compreenso da linguagem. Uma vez que uma palavra pode ter mltiplos sentidos, e essa ambiguidade
no permite que utilizemos sentenas em linguagem natural para representar significados em um
sistema sem as inferncias apropriadas para modelar a compreenso. O problema da ambiguidade parece a princpio muito mais simples do que ele realmente , porque as pessoas em geral
no percebem muitas das ambiguidades. Programas de processamento de linguagem natural, no
entanto precisam identificar e considerar todos os significados possveis de uma palavra.
Sendo assim, uma linguagem mais precisa necessria. Linguagens formais so especificadas atravs de blocos de construo muito simples. O fundamental a noo de smbolo
atmico, o qual distinguvel de qualquer outro smbolo atmico simplesmente pela forma como
escrito. As propriedades a seguir so teis em uma representao formal: (1) a representao
deve ser precisa e livre de ambiguidades; (2) a representao deve capturar a estrutura intuitiva
das sentenas na linguagem que ela representa.
A estrutura sinttica de uma sentena indica a maneira como as palavras na sentena
se relacionam, informando quais palavras modificam outras palavras, e quais palavras tem
importncia central. Essa estrutura pode ainda identificar os tipos de relacionamento que existem
entre frases e podem armazenar sobre as sentenas particulares que devem ser processadas para
processamento posterior.
A maioria das representaes sintticas de linguagem so baseadas na noo de gramticas
livres de contexto, as quais representam a estrutura da sentena em termos de que frases so
subpartes de outras frases. Esta informao frequentemente apresentada em forma de rvore.
A frase Eu vi o incndio do prdio. pode ter duas estruturas sintticas associadas, conforme
mostrado na Figura 2.5. Na primeira, o incndio ocorreu no prdio e na segunda, o observador
do incndio se encontrava no prdio.
Forma Lgica
importante observar que a estrutura sinttica de uma sentena no reflete diretamente seu
significado. Por exemplo, a frase a manga no est boa pode ter diferentes significados
dependendo sobre o que o interlocutor est falando, camisa ou fruta. Ambas as interpretaes
tem a mesma estrutura sinttica e os significados diferentes surgem do sentido ambguo da
palavra manga. Surge ento uma separao entre significado dependente de contexto e
significado independente de contexto. A representao do significado independente de contexto
61
Figura 2.5 Duas representaes estruturais para a frase Eu vi o incndio do prdio. Legenda: S sentena, N - substantivo, V - Verbo, FN - frase nominal, FV - frase verbal, FA - frase adverbial.
2.3.4
Allen (1994) divide o problema de compreenso de linguagem natural nos trs nveis de
representao anteriormente discutidos: estrutura sinttica, forma lgica e a representao do
significado final (Figura 2.6). Nesta abordagem existem processos de interpretao que mapeiam
uma representao em outra. Por exemplo, o processo que mapeia a sentena para sua estrutura
sinttica e forma lgica chamada de parsing. Ele utiliza conhecimento sobre palavras e seus
significados (o lxico) e um conjunto de regras definindo as estruturas permitidas (a gramtica)
para associar a estrutura sinttica e a forma lgica a uma sentena de entrada.
62
Palavras (Entrada)
Parsing
Palavras (Resposta)
Lxico e
Gramatical
Estrutura Sinttica e
Forma Lgica
Realizao
Estrutura Sinttica e Forma
Lgica da Resposta
Interpretao
Contextual
Contexto do
Discurso
Planejamento de
Expresso
Sentido Final
Contexto da
Aplicao
Sentido da Resposta
Raciocnio da
Aplicao
Figura 2.6 Fluxo de informaes no processamento de linguagem natural. A coluna central indica o
conhecimento necessrio para cada etapa de processamento. Traduzido de Allen (1994).
63
2.4
Concluso
Neste captulo foram apresentadas informaes, teorias e algumas evidncias sobre como
ocorrem a aprendizagem e o processamento da linguagem natural em seres humanos. Alm
disso, foi apresentada tambm uma forma tradicional de processamento de linguagem natural
em sistemas computacionais.
Primeiramente, foi observado um consenso na literatura psicolingustica de que os significados devem ser adquiridos antes de serem associados a rtulos. Dentre as definies de
significado apresentadas na Seo 2.1.2, esta Tese ir adotar a viso de que significados so
modelos mentais (conceitos) que podem ser representados atravs de prottipos, e permitem
categorizar as entidades do mundo atravs de relaes de semelhana. Alm disso, conforme
apontado na Seo 2.1.5, propriedades diferentes so relevantes para categorizar entidades
diferentes. Tambm deve ser levado em considerao que a exposio a rtulos pode influenciar
na aprendizagem de conceitos, conforme descrito na Seo 2.1.6.
A neurolingustica fornece a noo de compartimentalizao, ou seja, a execuo de algumas
funes ocorre predominantemente em determinadas regies. O que sugere que uma organizao
modular pode ser uma boa deciso de projeto para sistemas artificiais de processamento de
linguagem natural.
Por exemplo, conforme relatado nas Seo 2.2.1 e na Seo 2.2.2, processamentos especficos extraem informao relevante a partir dos sinais originados nos rgos sensoriais visuais e
auditivos. Estruturas como a retina e o tmpano, por exemplo, deixam claro que determinadas
etapas de processamento so inatas, por outro lado, etapas de processamentos mais sofisticadas
acontecem no crtex visual e auditivo, valendo-se de organizaes topolgicas para reconhecer
desde cores, formas, tons e fonemas, at objetos mais complexos e especficos como faces, o
que indica que alguma parte deste processamento deve se desenvolver em funo dos estmulos
recebidos aps o nascimento. Estas etapas de processamento podem ser vistas como mecanismos
de extrao de caractersticas, produzindo como sada percepes que so importantes para os
indivduos desempenharem suas atividades.
Alm disso, foi mostrado tambm que h regies onde predomina o processamento da
linguagem, como as reas de Wernicke e Broca (Seo 2.2.3), alm de regies que integram
informaes multissensoriais, como o sistema espelho, respondendo a estmulos lingusticos,
perceptivos e motores (Seo 2.2.3).
Por fim, a lingustica computacional, trouxe uma viso pragmtica do PLN, indicando as
etapas que devem ser realizadas para compreender e produzir sentenas em linguagem natural e
mostrando as dificuldades em se validar sistemas de PLN.
As evidncias e contribuies das reas estudadas iro embasar a proposio do modelo
64
2.4. CONCLUSO
65
3
Mdulos Neurais para Aprendizagem de
Linguagem Natural
Neste captulo, sero propostos mdulos computacionais para tornar um agente capaz de
aprender a compreender e interagir com seu instrutor1 , em ambiente inicialmente desconhecido.
Devido ao elevado nvel de dificuldade, este problema, ser dividido em seis subproblemas de
aprendizagem, discutidos na Seo 3.1, e cada um deles ser tratado separadamente. Em seguida,
na Seo 3.2, estes subproblemas de aprendizagem sero organizados em mdulos neurais que
iro compor o modelo proposto. A concluso do captulo apresentada na Seo 3.3.
3.1
Formalizao do Problema
A seguir sero definidos o agente considerado, suas entradas e sadas e suas percepes (Seo 3.1.1), bem como o tipo de ambiente no qual ele atua (Seo 3.1.2) e o papel de seu instrutor
(Seo 3.1.2). Ento, na Seo 3.1.3 sero formalizados os subproblemas de aprendizagem que
foram propostos para o agente.
3.1.1
Agente
O agente considerado nesta Tese pode ser dotado de um conjunto de sensores, tais como sensores
de imagem, de udio, de distncia e de posio, que so utilizados para mapear e compreender
o ambiente no qual ele est inserido. Alm disso, o agente possui atuadores que o permitem
interagir fisicamente com objetos deste ambiente e direcionar seus sensores para um determinado
1O
termo instrutor, nesta Tese, ser utilizado no sentido de cuidador (do ingls caregiver) e no no sentido da
aprendizagem supervisionada, j que o mesmo apenas interage com o agente sem fornecer informao explcita de
erro ou correo.
67
local. Os atuadores do agente devem ser acompanhados de sensores que permitam identificar
seu prprio estado, como sensores de presso, de fora e de posio ou movimentao.
Entradas e Sadas
O conjunto de entradas do agente consiste no fluxo de informaes obtidos dos sensores e as
sadas produzidas so sequncias de aes. De maneira formal, a cada instante t, o agente
recebe informaes dos seus diversos sensores, por exemplo, visual vt = [v1 v2 v3 ...]| , auditivo
at = [a1 a2 a3 ...]| , de posio lt = [l1 l2 l3 ...]| , os quais, ao serem compostos, formam elementos
de um fluxo sensorial st = [s1 s2 s3 ...]| , onde st n . O agente ento escolhe como resposta
uma sequncia de aes a serem executadas act = {ac1 , ac2 , ac3 , ...}, onde aci AC, e AC o
conjunto de aes possveis de serem executadas pelos atuadores do agente.
Percepes do Agente
Conforme define Dalle-Mole (2010), percepes so interpretaes sobre os dados provenientes
de um sistema sensor, produzidas por computaes especficas. O resultado dessas computaes
so fluxos perceptivos, cada qual capturando determinados conjuntos de caractersticas que
representam o modo como o agente representa o conhecimento do meio ao seu redor. Por
exemplo, certo processo pode ser especializado na extrao e codificao de contornos de
imagens, outro pode ter como objetivo a representao de cores, e assim por diante.
Sendo assim, um vetor de percepes no instante t, pt = [p1 p2 p3 ...]| , computado a partir
de uma sequncia de amostras do fluxo sensorial, por mapeamentos sensrio-perceptivos do
tipo Mi ({st , st1 , st2 , ...}) 7 pi . Alguns destes mapeamentos podem ser estabelecidos de
maneira inata, como por exemplo, a deteco de contorno que ocorre na retina, outros podem ser
aprendidos atravs das experincias do agente, como o reconhecimento de um objeto especfico.
3.1.2
Ambiente
Um agente inserido em um ambiente complexo pode criar uma representao interna (modelo) do
ambiente para compreend-lo. Considerando um conjunto de percepes com certas limitaes
de preciso e completude, esta representao ser apenas uma aproximao do ambiente real. No
entanto, espera-se que haja correspondncia entre os elementos da representao com elementos
do ambiente, permitindo que o agente seja capaz de capturar aquilo que essencial para sua
atuao. Nesta Tese, considera-se que o agente representa o ambiente atravs de estados. Um
estado um vetor de variveis discretas e = [e1 e2 e3 ...]| , onde ei Di representa alguma
informao relevante do ambiente, e Di o conjunto finito de valores discretos que a varivel ei
pode assumir. Estas variveis definem como est o ambiente em um determinado momento, o
68
que inclui informaes sobre o agente como a posio de seus atuadores (estado do agente),
eA = [eA1 eA2 eA3 ...]| , e as caractersticas observveis do instrutor (estado do instrutor), eI = [eI1 eI2
eI3 ...]| , como por exemplo, para onde ele est olhando ou apontando. O estado do ambiente
modificado por uma ao do agente ou do instrutor.
O tipo de ambiente que pode ser representado adequadamente dessa maneira pode parecer
simples, porm, ele contempla os problemas de interesse, permitindo tambm abstrair problemas
que no so o foco desta Tese. Desconsiderando-se a atuao do instrutor, o tipo de ambiente
representado acima seria considerado completamente observvel, se os sensores do agente
permitissem acessar o estado completo do ambiente a qualquer momento; determinstico,
se o prximo estado do ambiente fosse completamente determinado pelo estado atual e as
aes executadas pelo agente; sequencial, j que as escolhas do agente dependem do histrico;
esttico, j que o ambiente no mudaria enquanto o agente escolhe que ao tomar; contnuo,
j que h um nmero ilimitado de percepes; e por fim, ele seria um ambiente de agente nico
(Russell e Norvig, 2009).
No entanto, ao se introduzir o instrutor, a complexidade do ambiente aumenta significativamente. Ele deixa de ser completamente observvel, pois o agente no sabe o que se passa
na mente do instrutor; deixa de ser determinstico e passa a ser estratgico, pois o instrutor
pode modificar o estado do ambiente de maneira imprevisvel; deixa de ser esttico, pois o
instrutor pode modificar o ambiente enquanto o agente est deliberando; e o ambiente passa a
ser multiagente, pois o instrutor pode ser considerado como outro agente no ambiente. Sendo
assim, o ambiente no qual o agente est inserido ser considerado parcialmente observvel,
estratgico, dinmico, sequencial, contnuo e multiagente.
Instrutor
O instrutor atua fornecendo entradas visuais e auditivas para o agente ao emitir sentenas, ou
efetuar gestos e aes com os objetos do ambiente. Uma sentena uma sequncia de estmulos
auditivos, S = {a1 , a2 , a3 , ...}. Alm das sentenas, o instrutor tambm pode utilizar gestos
como olhar, e apontar para interagir com o agente e manipular objetos do ambiente. Isto resulta
em modificaes do estado do ambiente que se traduzem em estmulos visuais para o agente.
3.1.3
69
com o instrutor. Ento, os problemas tratados pelo agente devem ser vistos como problemas
de aprendizagem. Assim sendo, o problema de compreenso e execuo de comandos em
linguagem natural foi subdividido nos seis subproblemas de aprendizagem descritos abaixo:
Subproblemas de Aprendizagem
A1: Aprender sobre o ambiente que o cerca, identificando objetos, suas propriedades e
suas posies, alm da maneira como este ambiente evoluiu e qual o impacto de
suas aes e das aes do instrutor sobre o ambiente;
A2: Aprender sobre a linguagem utilizada pelo instrutor, identificando seu conjunto
lxico, sua sintaxe e sua semntica.
A3: Aprender sobre si mesmo, relacionando representaes internas com o movimento
resultante de seus atuadores e a respectiva interao dos atuadores com os objetos
do ambiente;
A4: Aprender a reconhecer diferentes situaes (contextos) e identificar o contexto
atual;
A5: Aprender a associar elementos da linguagem com aes, situaes e elementos do
ambiente;
A6: Aprender a interpretar as intenes do instrutor em funo dos estmulos visuais e
auditivos por ele fornecidos, e do contexto atual.
P = {p1 , p2 , p3 , ...}, implica em: (1) representar os estados possveis sensoriados do ambiente,
D = {D1 , D2 , D3 , ...} e (2) identificar o estado atual, ea . A primeira parte pode ser definida
como uma funo que atualiza o conjunto dos estados conhecidos pelo agente, R(DA , P) 7 DN ,
adicionando novos estados ao conjunto ou atualizando a representao de algum dos estados
previamente conhecidos. A segunda etapa pode ser descrita como uma funo que identifica o
estado atual do ambiente a partir de uma sequncia de percepes: U(P) 7 ea .
A2 - Aprendizagem da Linguagem Natural
A aprendizagem da linguagem natural se d nos nveis lxico, sinttico, semntico e pragmtico.
A aprendizagem no nvel lxico inclui o reconhecimento da forma das unidades de linguagem,
como radicais, prefixos e sufixos (morfemas), bem como os significados associados (Allen,
1994).
O aprendizado da forma das unidades de linguagem pode ser realizado atravs de uma
segmentao das percepes auditivas em suas respectivas partes. Ou seja, uma sentena pode
ser definida como uma sequncia de percepes auditivas, S = {pa1 , pa2 , pa3 , ...} a partir
da qual deve-se relacionar com uma sequncia de morfemas, ou proto-morfemas, j que o
significado ainda no conhecido M = {m1 , m2 , m3 , ...}, para que possam ser posteriormente
associadas a seus respectivos significados (Allen, 1994). Tem-se ento o mapeamento de
sentenas udio-perceptivas em sentenas morfolgicas: L(S) 7 M.
No nvel sinttico, o aprendizado consiste em identificar categorias gramaticais nas quais
os morfemas podem ser agrupados. Alm de identificar maneiras vlidas de se combinar os
morfemas em estruturas sintticas. Este aprendizado busca tornar possvel reconhecer a maneira
como as palavras em uma frase se relacionam umas com as outras e como a posio relativa das
palavras modifica o significado final do todo. Cada linguagem contm um conjunto de possveis
estruturas sintticas formando uma gramtica G = {G1 , G2 , G3 , ...}, e sua aprendizagem pode
ser definida como uma funo que atualiza a gramtica conhecida em funo das percepes:
RG(GA , P) 7 GN . Assim, uma vez aprendida a gramtica, o reconhecimento de estruturas
sintticas em que uma sentena pode ser definida como o mapeamento de uma sentena
morfolgica em um subconjunto de estruturas sintticas possveis, Gs , ou seja: G(M) 7 Gs .
A informao do contexto necessria para inferir qual a estrutura sinttica correta, dentre as
estruturas possveis.
No nvel semntico, o aprendizado consiste em identificar as associaes entre morfemas
ou sentenas morfolgicas e os estados e transies de estados identificados no ambiente. Isto
inclui o reconhecimento do contexto atual e das intenes do instrutor (descrito a seguir).
No nvel pragmtico o significado final pode ser alterado em relao ao significado literal
contido na sentena, dependendo do contexto, que ser tratado no subproblema A4, e da
71
A4 - Aprendizagem do Contexto
Contexto pode ser definido como o conjunto de circunstncias que acompanham um acontecimento. possvel diferenciar dois tipos de contexto: o espacial e o temporal (Pacheco, 2004). O
contexto espacial um conjunto de informaes sobre a posio espacial de um ou mais padres
com relao a outros padres. J o contexto temporal pode ser definido como um conjunto
de informaes a respeito das entradas, sadas e/ou estados passados de um sistema. Sendo
assim, o contexto pode ser representado a partir de uma sequncia de estados recentes at o
estado atual, Ca = {ea , e(a1) , e(a2) , ...}. Ento, aprender a reconhecer contextos, implica em:
(1) aprender um conjunto de contextos conhecidos, X = {C1 , C2 , C3 , ...} e (2) identificar o
contexto conhecido mais semelhante ao atual, Cs .
A primeira tarefa pode ser definida como uma funo que atualiza o conjunto dos contextos
conhecidos pelo agente, X(XA , Ca ) 7 XN , adicionando novos contextos ao conjunto ou atualizando a representao de algum dos contextos previamente conhecidos. A segunda tarefa
pode ser descrita como uma funo que identifica dentre os contextos conhecidos, qual o mais
semelhante ao contexto atual: R(Ca , X) 7 Cs .
72
3.2
Modelo Proposto
O modelo proposto nesta Tese segue a viso da robtica desenvolvimentista, tambm conhecida como robtica epigentica, ou metodologia de desenvolvimento autnomo mental. Esta
uma abordagem para o estudo de robs cognitivos que leva inspirao direta de mecanismos
de desenvolvimento e fenmenos estudados em crianas (Weng et al., 2001; Lungarella et al.,
2003; Cangelosi e Riga, 2006). Nesta viso, os agentes so conhecidos como agentes incorporados, e adquirem habilidades complexas atravs da aquisio de conceitos incorporados.
Conceitos incorporados so estados internos obtidos a partir de experincias sensrio-motoras
que identificam elementos cruciais do ambiente ou da interao agente-ambiente. Tais conceitos
mediam as reaes motoras dos agentes e so utilizados na comunicao com outros agentes,
podendo ser organizados em representaes hierrquicas. Pode-se hipotetizar que conceitos
incorporados podem ser influenciados tambm pela interao social e lingustica e so utilizados
73
3.2.1
3.2.2
Premissas e Suposies
74
Suposies
S1: Contextos so criados a partir do monitoramento dos conceitos incorporados ativados;
S2: A associao entre rtulos e conceitos deve levar em conta o contexto;
S3: Estruturas de mais alto nvel cognitivo se valem das informaes de associao e
dos conceitos incorporados para compreender o significado das sentenas, planejar
e controlar a execuo de aes.
75
3.2.3
Para tratar os problemas definidos na Seo 3.1 foi tomada como base a organizao clssica
dos sistemas de processamento de linguagem natural adotada por Allen (1994), mostrada na
Figura 2.6. Esta estrutura foi considerada, por apresentar um ponto de vista funcional dos
estgios de processamento necessrios. Como a produo de linguagem natural no foco desta
Tese, em lugar disso, considera-se a execuo de comandos em geral. Assim, a partir desta
organizao, as etapas de produo de uma resposta em linguagem natural foram substitudas
por etapas que permitam a execuo dos comandos (Figura 3.1). ento mantida a etapa de
parsing, recebendo as palavras em linguagem natural e construindo estruturas e formas lgicas,
e a etapa de interpretao do contexto, selecionando estruturas sintticas adequadas e compondo
o significado final da sentena. A partir disto, as etapas seguintes so substitudas por uma
etapa de identificao de objetivos, que recebe o significado final e identifica o objetivo que
deve ser alcanado; e por fim, a etapa de planejamento e execuo que identifica e executa uma
sequncia de aes viveis para atingir o objetivo selecionado.
Interpretao do
Contexto
Significado Final
Estrutura Sinttica e
Forma Lgica
Identificao de
Objetivos
Objetivo
Parsing
Conhecimento sobre
o Ambiente
Sentenas
Reconhecimento
Planejamento e
Execuo
Sinais para
os atuadores
Fluxo sensorial
Aes
76
VI Reconhecimento
Sinttico
IV Associao
Associaes
Contexto
V Representao
do Ambiente
II Representao
Representao
lxica
Representao
perceptiva
VII Compreenso,
Planejamento,
e Execuo
Comandos
III Reconhecimento
do Contexto
Estruturas
sintticas
Representao
proprioceptiva
Controle
Percepes
lingusticas
Propriocepo
I Mapeamento Sensrio-Perceptivo
Sensores
Fluxo sensorial
Propriocepo
Atuadores
Aes
Figura 3.2 Arquitetura do modelo proposto. As caixas com linhas pontilhadas representam mdulos
que no sero implementados nesta Tese. Cdigo de cores: vermelho: linguagem; azul: percepes do
ambiente; verde: propriocepo; amarelo: contexto; cinza: informaes associadas; marrom: informaes
sobre o ambiente.
O modelo proposto (Figura 3.2), visa implementar o mecanismo de reconhecimento representado na Figura 3.1. Ele formado por um conjunto de mdulos neurais que se adaptam
em funo das entradas fornecidas para realizar funes da aquisio de linguagem natural,
do reconhecimento do ambiente, e do planejamento de aes. As entradas do modelo so
compostas pelos estmulos do ambiente e a realimentao dos atuadores; e suas sadas so as
palavras reconhecidas, o contexto identificado, e as associaes entre as palavras e conceitos
aprendidos. Abaixo fornecido um resumo das atividades desempenhadas por cada mdulo.
77
78
Premissas
Sup.
Funo
Regies
P1
P1, P2, P5
P6
P3, P4, P5
P9
P10
P8
P7
S1
S2
S3
-
A1,A2
A1, A2
A4
A1, A2, A5
A1
A2
A6
A3
CV, CA
AW, V5, CPP
SL (H, A)
AA, CSM, CPM, CPP
H, PH
AB, LTAE
CPF, GB
CM
A seguir, ser fornecida uma descrio geral de como a informao flui atravs dos mdulos
que compem o modelo, desde a recepo de estmulos at a produo de uma ao em resposta.
3.2.4
Ao receber um estmulo do ambiente (ver Figura 3.2) os sensores do agente enviam informao
para o Mdulo de Mapeamento Sensrio-perceptivo (I). Este mdulo extrai dos sinais, informaes que so relevantes tanto para o reconhecimento de palavras, percepes auditivas (ex.:
fonemas) quanto para o reconhecimento do ambiente, percepes (ex.: cores, formas, posies)
e da propriocepo2 (ex.: movimentao, posio, fora dos atuadores). Ou seja, este mdulo
realiza computaes especficas para cada tipo de informao sensorial e envia as percepes
para o mdulo de representao. Maiores detalhes so fornecidos no Captulo 4.
O Mdulo de Representao (II) agrupa sequncias de percepes para compor representaes mais completas. Assim como o Mdulo I, este mdulo tambm faz processamentos
especficos para cada tipo de estmulo recebido. Por exemplo, ele pode agrupar sequncias de
fonemas para representar morfemas ou palavras (reconhecimento lxico); e ao mesmo tempo
pode compor percepes visuais para representar objetos (reconhecimento de objetos) ou ainda
pode compor sequncias de posies dos atuadores para representar aes (reconhecimento
2 Propriocepo:
79
3.2.5
81
tambm ir criar uma representao das palavras: esta e garrafa. Alm disso, ser composta
uma representao do estado dos atuadores e do local de origem das percepes visuais e
auditivas. Estas representaes so mais adequadas ao reconhecimento e a comparao com
informaes anteriores e sero enviadas para o Mdulo III.
O Mdulo III receber a representao das palavras, dos objetos e das localizaes e ento
atualizar o contexto atual e identificar dentre as entradas armazenadas anteriormente, qual
a mais semelhante a entrada e ao contexto atual. Suponha que a informao mais semelhante
encontrada no seja suficientemente semelhante entrada atual. Isso far com que esta entrada
seja considerada uma novidade e ento ela ser armazenada associada com o contexto atual. Em
seguida, o Mdulo de Contexto propagar suas entradas adiante, para o Mdulo IV, juntamente
com o contexto associado.
O Mdulo VI receber as informaes do Mdulo IV e identificar um agrupamento
pr-existente que representa o conceito incorporado sobre o objeto garrafa. Este conceito
incorporado inclui a representao do aspecto visual da garrafa, a representao lxica deste
objeto e os contextos e localizaes nos quais este tipo de objeto foi visto com mais frequncia.
Supondo que as informaes sejam suficientemente semelhantes, ento um agrupamento
considerado vencedor, fazendo com que a associao entre a representao deste conceito
incorporado seja aprimorada.
Em seguida, a informao contida no agrupamento vencedor do Mdulo IV, ou seja, o
conceito incorporado ser enviado para o Mdulo V, o qual utilizar esta informao para
atualizar o seu modelo de mundo. Em paralelo, este conceito incorporado tambm ser enviado
para o Mdulo VI, o qual ir completar a estrutura sinttica que vinha sendo formada, at ento
apenas com a palavra abra. A estrutura identificada indica que a palavra abra um verbo
e que a palavra garrafa o objeto deste verbo. Ento, uma representao desta estrutura
incluindo os conceitos incorporados envolvidos, ento enviada para o Mdulo VII.
O Mdulo VII utilizar a estrutura sinttica e os conceitos incorporados e o contexto para
ento compreender o comando proferido, e estabelecer seu objetivo atual como sendo o de
abrir a garrafa. Nesta etapa, o Mdulo V ser consultado para relacionar as representaes dos
conceitos incorporados mencionados na frase com os objetos presentes no ambiente e identificar
suas respectivas posies, funes, restries implcitas e conceitos motores relacionados. Tais
informaes sero utilizadas para computar uma sequncia de aes que levar ao objetivo
estabelecido.
Uma vez identificada tal sequncia de aes, cada ao ser convertida em uma sequncia de
comandos, ou conceitos motores, que sero enviados para o Mdulo VIII. Este mdulo, por sua
vez, ir traduzir estes comandos em sinais de controle para os atuadores do agente, fazendo-o,
enfim, alcanar o objetivo estabelecido. Este processo de execuo ocorrer com a superviso e
82
3.3
De forma alguma se espera que o modelo proposto neste captulo seja um sistema completo de
aprendizagem e execuo de comandos em linguagem natural. A ideia que ele sirva como
base para identificar capacidades essenciais que ainda no tenham sido modeladas. Esta viso
vir ao se identificar tarefas que o modelo no capaz de realizar, ou que realiza de forma
insatisfatria. A partir de ento, pode-se modificar o modelo adicionando outros mdulos,
ampliando as caractersticas dos mdulos atuais ou at mesmo modificando a arquitetura de
interconexes entre os mdulos.
A arquitetura proposta contempla diversos subproblemas de aprendizagem relacionados com
a aquisio de linguagem natural. Apesar disto, bem provvel que nem todos os subproblemas
que de fato precisam ser tratados tenham sido enumerados, ou que o nvel de detalhes alcanado
no seja suficiente para uma implementao real. No entanto, necessrio estabelecer um limite
para amplitude e o escopo das investigaes abordadas nesta Tese.
A aprendizagem de conceitos incorporados, que no modelo proposto se consolida no Mdulo
IV, pode servir de base, no apenas para a compreenso de linguagem natural, mas tambm
para diversas outras aplicaes da robtica desenvolvimentista, tais como a aprendizagem sobre
o ambiente, sobre pragmtica e sobre controle autnomo. Por este motivo, este foi escolhido
como sendo o principal ponto em que esta Tese dar contribuies.
Dentro do modelo proposto, os mdulos de I ao IV so fundamentais para a emergncia dos
conceitos incorporados. Assim sendo, a partir do prximo captulo, cada um destes mdulos
sero descritos e validados. Em cada captulo, inicialmente sero identificados na literatura os
modelos neurais mais promissores para executar as atividades de aprendizagem do mdulo em
questo, e os modelos computacionais sero ento aprimorados, quando for necessrio, para
que possam ser aplicados e validados na a execuo das tarefas de aprendizagem de cada um
dos mdulos (Captulo 4 ao Captulo 6).
A validao do sistema de aquisio de conceitos incorporados se dar em duas etapas:
primeiro ser demonstrado como os conceitos incorporados podem ser adquiridos por um agente
em um ambiente simulado (Captulo 7). Esta etapa tem o objetivo de ilustrar as principais caractersticas do modelo. Em seguida, no Captulo 8, as capacidades do modelo de aprendizagem de
associaes entre palavras (rtulos) e objetos do ambiente (referentes), sero comparadas com
as de seres humanos, em experimentos que utilizam dados reais. Isto ser feito considerando
resultados reportados em trs importantes trabalhos sobre aprendizagem cross-situacional de
palavras por seres humanos: Yu e Smith (2007); Yurovsky et al. (2013) e Trueswell et al. (2013).
83
4
Mdulo I - Mapeamento Sensrio-Perceptivo
85
Esta a parte que ser considerada nesta Tese e, portanto, os mapeamentos realizados sero
fixos e no auto-adaptativos. No caso da implementao de um agente incorporado, cmeras,
microfones e sensores de movimento podem ser considerados como fonte de sinais de vdeo, de
som e de posio, formando seu fluxo sensorial. A partir deste fluxo sensorial sero formadas as
percepes do agente, as quais sero representadas atravs de cdigos binrios ou bipolares,
quando for representada a presena ou ausncia de alguma caracterstica ou valores reais entre 0
e 1 ou entre -1 e 1 quando uma gradao for representada.
As percepes consideradas nesta Tese podem ser divididas em trs tipos: percepes
auditivas, percepes visuais e propriocepes. As percepes auditivas permitem aos seres
vivos identificar os mais variados tipos de sons. No entanto, nesta tese, as percepes auditivas
consideradas so apenas aquelas que permitem ao agente reconhecer a linguagem e, portanto,
sero enviadas para processamento lxico no Mdulo II. As percepes visuais sero enviadas
para processamento visual no Mdulo II. As propriocepes permitem ao agente perceber a si
mesmo e tambm ao ambiente. No entanto, nesta Tese, o tipo de propriocepo de interesse o
que permite ao agente identificar a posio dos sensores visuais, fazendo com ele seja capaz de
identificar a posio espacial de origem dos estmulos.
Os mapeamentos utilizados para produzir as percepes dependem do tipo de sensor utilizado. Nesta Tese, sero considerados dois tipos de agentes. O primeiro, ir atuar em um
ambiente simulado (Seo 4.2), que servir para ilustrar de maneira mais ampla o funcionamento do modelo em um agente incorporado virtual que recebe estmulos visuais, lingusticos
de localizao. O segundo ir atuar no mundo real, recebendo estmulos visuais, a partir de
imagens, e lingusticos, a partir de entradas de texto ou fala.
Os mapeamentos que extraem percepes auditivas, sero tratados na Seo 4.3, estes
mapeamentos produzem percepes lingusticas que sero adequadas tanto para o ambiente
simulado quanto para o ambiente real. J os mapeamentos que extraem as percepes visuais
no ambiente simulado, so descritos na Seo 4.4, e a Seo 4.5 apresenta mecanismos que
extraem percepes visuais a partir de imagens de cmeras, sendo portanto adequados para
agentes que atuam no mundo real.
Para que seja possvel comparar e agrupar percepes de forma coerente, trs propriedades
so desejveis: (1) percepes distintas devem ter representaes distintas; (2) percepes
semelhantes devem ter representaes semelhantes, com relao mtrica para compar-las;
e (3) as faixas de variao de todos os atributos da representao devem estar dentro de um
mesmo intervalo de valores.
A propriedade (1) permite ao agente diferenciar percepes, a propriedade (2) permite
ao agente agrupar percepes, e a propriedade (3) evita que determinados atributos afetem o
resultado das comparaes entre percepes de uma maneira desproporcional em relao a
86
outros. Na Seo 4.6 ser avaliado se a representao proposta possui estas propriedades. Por
fim, a Seo 4.7 apresenta as concluses deste captulo.
A seguir sero descritos os principais trabalhos que forneceram a base para a proposio do
mdulo de mapeamento sensrio-perceptivo.
4.1
Modelos Relacionados
Dois trabalhos apresentam mdulos com funes semelhantes ao mdulo tratado neste captulo.
Pacheco (2004) props um modelo neural modular para simular fenmenos de memria que
pessoas apresentam ao memorizar listas de palavras faladas. No sistema proposto por Pacheco,
h representaes distintas para a parte literal das palavras ouvidas (representao fontica),
e para o significado das palavras (representao da essncia). Neste trabalho definido um
mdulo de Associao Sensorial que tem por funo a formao de uma representao neural
reunindo os vrios estmulos recebidos pelo sistema.
Na representao fontica descrita em Pacheco (2004) e Arajo et al. (2010) as entradas
fornecidas em udio so decompostas em fonemas e cada fonema representado como um
conjunto de suas subcaractersticas. Os elementos fonticos mnimos capazes de distinguir duas
palavras em um dado idioma so chamados de traos distintivos. Como exemplo, as palavras
bolo e tolo opem-se pela diferena mnima no fonema inicial, entre o trao grave e frouxo
de /b/ e o trao agudo e tenso de /t/. Pacheco (2004) e Arajo et al. (2010) utilizaram um
conjunto com 9 traos distintivos, que podem ser considerados como formando um conjunto
de eixos ortogonais de um espao de traos fonticos. Esta representao foi pensada para
representar apenas palavras atravs de uma representao de tamanho fixo. Uma representao
semelhante esta ser utilizada nesta Tese para representar as percepes auditivas (Seo 4.3),
no entanto, como nesta Tese o intuito representar frases completas com tamanhos variveis,
no havendo restries no tamanho da representao de cada palavra.
Dalle-Mole (2010) descreve um agente incorporado autnomo, equipado com um sistema
motor e dispositivos sensores de varredura a laser, capaz de explorar um ambiente composto de
salas, corredores e passagens entre salas. Na modelagem cognitiva apresentada por Dalle-Mole
(2010), foi definida uma camada sensrio-perceptiva que o ponto de entrada dos sistemas
sensoriais e forma o substrato perceptivo bsico que compreende os processos de extrao e
codificao de informaes. As leituras dos sistemas sensores so processadas sobre diferentes
perspectivas, produzindo sinais que so entradas adequadas aos mdulos neurais das camadas
superiores. Deste modo, um nico fluxo sensorial pode originar vrios fluxos perceptivos. Um
exemplo de processo desta camada a extrao de informaes sobre a localizao de obstculos
a partir das informaes contidas nas leituras do sistema de sensores de varredura.
87
4.2
Ambiente Simulado
O ambiente descrito a seguir foi modelado tendo como objetivo a representao de um ambiente
cooperativo, no qual instrutor e agente interagem para realizar tarefas que so especificadas
pelo instrutor atravs de linguagem natural, abstraindo a maioria das dificuldades existentes no
mundo real que no contribuem diretamente para o problema da aprendizagem da linguagem,
tais como processamento de imagens, navegao e posicionamento de atuadores. Este ambiente
pode ser utilizado para verificar se o agente capaz de aprender conceitos, tais como os conceitos
de vermelho, hexgono, posio X, e se o agente capaz de relacionar palavras com os conceitos
corretos.
O ambiente mostrado na Figura 4.1, consiste em um tabuleiro com m n clulas nas
quais podem ser posicionados objetos (1 em cada clula). Os objetos possuem as seguintes
propriedades: forma geomtrica (quadrado, tringulo, crculo e hexgono), tamanho (variando
entre um mnimo e um mximo) e cor (branco, preto, vermelho, verde, azul e amarelo) os
objetos podem ser posicionados nas mos do agente ou do instrutor, e nas clulas do tabuleiro. O
agente pode direcionar seus sensores para uma das clulas do tabuleiro, para suas mos, para as
mos do instrutor, ou para um local indeterminado, recebendo ento as percepes do ambiente
(pA), as propriocepes (pP) e as percepes da linguagem natural (pL) listadas abaixo:
Percepes e Propriocepes do Agente
pPl : Linha do tabuleiro observada pelo agente;
pPc : Coluna do tabuleiro observada pelo agente;
pAc : Cor do objeto observado: {branco, preto, vermelho, verde, azul e amarelo} ou
cinza, caso no haja nenhum objeto no local;
pA f : Forma do objeto observado: {crculo, tringulo, quadrado e hexgono}
pAt : Tamanho do objeto observado: valor real entre [smin , smax ];
pL: ltima sentena escrita pelo instrutor em linguagem natural.
Figura 4.1 Ambiente simulado: agente observa a clula E2 do tabuleiro enquanto o instrutor manipula o
objeto da clula B1.
disso, tanto o agente quanto o instrutor podem mover objetos para outras clulas do tabuleiro
que estejam vazias. Para isso, ambos contam com as seguintes aes possveis:
89
Apesar de ser simples, o ambiente descrito fornece inmeros desafios para a aprendizagem
da linguagem natural, uma vez que os objetivos do agente so especificados em linguagem
natural, e o mesmo a princpio no possui conhecimento nenhum a respeito do ambiente, do
resultado de suas aes ou do significado das palavras e frases proferidas, sendo necessrio
inferir todas estas informaes a partir da explorao do ambiente e da interao com o instrutor.
4.3
A representao da percepo das frases em linguagem natural (pL) foi inspirada nos trabalhos
de Pacheco (2004) e Arajo et al. (2010). Nestes trabalhos o objetivo era representar palavras
pequenas (2-6 fonemas) por meio de uma representao de tamanho fixo. O mapeamento
realizado em duas etapas: a primeira consiste em mapear cada palavra contida na frase para
uma representao fontica, na qual as palavras so representadas por sequncias de fonemas.
A segunda etapa consiste em mapear os fonemas em um respectivo conjunto de atributos
representando seus traos distintivos, que podem ser codificados atravs de uma representao
de tamanho fixo. O objetivo da primeira etapa aproximar a representao da maneira como
as palavras so pronunciadas por humanos, tornando a representao flexvel o suficiente para
aceitar como entrada linguagem escrita (texto) ou falada (sons), pois ambas as formas podem ser
convertidas para uma representao fontica. E o da segunda o de conseguir uma representao
binria de tamanho fixo, que permita a comparao adequada entre duas palavras quaisquer.
Para isso, Pacheco (2004) utiliza uma estrutura na qual consoantes consecutivas ou vogais
consecutivas so aglutinadas para se conseguir uma representao do tipo consoante-vogalconsoante. Palavras que no se iniciavam com consoante, tinham inserido um fonema de
preenchimento no comeo #, permitindo que palavras como long e along ou void e avoid
sejam comparadas de maneira adequada.
Ento, os fonemas aglutinados so traduzidos em um cdigo de nove bits, representando
cada um dos nove traos distintivos pertencentes a ao menos um dos fonemas. Os nove traos
distintivos utilizados por Pacheco (2004) so: Voclico (1) / No voclico (0), Consonantal
(1) / No consonantal (0), Compacto (1) / Difuso (0), Grave (1) / Agudo (0), Rebaixado (1) /
Sustentado (0), Nasal (1) / Oral (0), Tenso (1) / Frouxo (0), Contnuo (1) / Interrompido(0),
Estridente (1) / Doce (0). Assim, a representao 011000100, indica que o fonema /k/ no
voclico, consonantal, compacto, agudo, sustentado, oral, tenso, interrompido e doce.
Por exemplo, a palavra walk traduzida para a representao fontica /uok/, a qual no se
inicia com consoante. Ento inserido um fonema de preenchimento no incio #. Em seguida a
vogal /o/ aglutinada com a vogal /u/, formando: /# ou k/. Esta representao ento convertida
para a forma binria: 000000000 101110000 011000100, onde 000000000, representa o
90
4.3.1
Representao Fontica
O mapeamento das palavras para uma representao fontica pode ser realizado atravs de
dicionrios de pronncia do idioma de origem do texto. Nesta Tese, foi utilizado o dicionrio
de pronncia para ingls norte americano, de domnio pblico, produzido pela Universidade
Carnegie Mellon (CMU, 2011). Este dicionrio contm mais de 100 mil palavras e as suas
transcries para uma forma de representao fontica apropriada para processamento por
computadores. Para isso, so utilizados caracteres da tabela ASCII para representar os fonemas
do idioma ingls, o Arpabet, em vez dos caracteres especficos para representao de fonemas
do Alfabeto Fontico Internacional (AFI). O dicionrio da Carnegie Mellon considera ainda
possveis variaes de pronncia de uma mesma palavra e de acentuao em fonemas. No
entanto, estas variaes no so consideradas nesta Tese para manter simples a representao
final.
Os 39 fonemas utilizados no mapeamento fontico das palavras so exibidos na Tabela 4.1.
Como exemplo, a frase This is a red square seria mapeada para DH IH S IH Z AH R EH D
S K W EH R. Note que, nesta representao, nenhum smbolo de separao entre palavras
utilizado, pois esta informao em geral no est disponvel de forma evidente em linguagem
falada. Adicionalmente, para representar as pausas existentes no discursos pode ser utilizado o
smbolo #. Exemplos de entradas deste dicionrio que foram utilizadas para o mapeamento
em fonemas so exibidos na Tabela 4.2
91
Tabela 4.1 Correspondncia entre os smbolos AFI, smbolos do Arpabet e a respectiva representao
numrica proposta.
Fonema
AFI
Arpabet
Representao numrica
father
A
at
but, sofa
2, @
O
off
how
aU
my
aI
E
red
her, coward ,
big
I
bee
i
boy
OI
oU
show
say
eI
U
should
you
u
AA
AE
AH
AO
AW
AY
EH
ER
IH
IY
OY
OW
EY
UH
UW
1
1
0,67
0,33
0
0
0,33
0,33
-0,67
-1
0
-0,33
-0,33
-0,67
-1
buy
chair
day
that
for
go
house
just
key
late
man
knee
sing
pay
run
say
show
take
thanks
very
way
yes
zoo
measure
B
CH
D
DH
F
G
HH
JH
K
L
M
N
NG
P
R
S
SH
T
TH
V
W
Y
Z
ZH
#
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
92
b
tS
d
f
g
h
dZ
k
l
m
n
p
r,
s
S
t
T
v
w
j
z
Z
silncio
0,5 1
-0,5 -1
0
-1
1
1
0,5 0
0 -0,5
-0,5 -1
0
1
-0,5 -1
-1
1
0
0
1
1
-1
1
0,5 -1
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
-1
-1
-1
1
0
0
-1
0
-1
-1
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0,27
0,45
0,64
0,82
-0,27
-1
0,45
-0,27
0,45
1
0,45
-0,27
1
0,27
0,45
0,27
0,45
0,64
0,82
1
-0,09
0,45
0,27
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
0
1
-1
1
-1
-1
1
-1
-1
1
-1
-1
-1
-1
1
-1
-1
-1
1
-1
-1
-1
-1
-1
-1
0
-1
0
-1
1
1
-1
1
0
-1
-1
-1
-1
-1
-1
-1
1
1
-1
1
1
-1
-1
1
1
0
1
-1
1
1
-1
1
0
1
-1
1
1
1
1
-1
1
-1
-1
-1
-1
1
1
1
1
1
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
1
-1
-1
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
0
-1
-1
-1
-1
-1
-1
-1
-1
-1
1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
0
Palavra
Sequncia de fonemas
This
DH IH S
Blue
B L UW
Red
R EH D
Triangle T R AY AE NG
Square
S K W EH R
Three
TH R IY
Take
T EY K
4.3.2
AH
Representao Numrica
Para criar uma representao numrica para os fonemas listados na Tabela 4.1 foram levadas
em considerao as propriedades distintivas dos fonemas de acordo com a forma com que so
articulados quando pronunciados. A Associao Internacional de Fontica (AIF) define diversas
propriedades para fonemas de vogais Figura 4.2 e de consoantes Figura 4.3. As propriedades
fonticas principais foram utilizadas para compor uma representao numrica com valores
variando entre (-1 e +1) para cada uma das propriedades, de acordo com a Tabela 4.3 e Tabela 4.4.
As propriedades, Altura e Posteridade das vogais e Ponto de articulao das consoantes
so ordenadas e, portanto, foram representadas numericamente de forma progressiva com
valores variando gradativamente entre -1 e +1. As demais propriedades foram codificadas com
valores -1 para ausncia da propriedade, +1 para presena da propriedade, e zero foi utilizado
quando a propriedade no se aplica ao fonema codificado.
Figura 4.2 Propriedades das vogais de acordo com a AIF. Fonemas direita dos pontos so arredondados.
Nas colunas consta a posteridade dos fonemas dos mais anteriores para os mais posteriores e nas linhas
consta a altura dos fonemas do mais aberto (alto) para o mais fechado (baixo). Traduzido do diagrama da
AFI distribudo pela Wikipedia.org sob licena creative commons.
93
Figura 4.3 Propriedades das consoantes de acordo com a AIF. Onde os smbolos esto em pares, as
consoantes so sonoras. Nas colunas so indicados os pontos de articulao, ordenados dos lbios at
a garganta. Nas linhas constam as demais propriedades. Diagrama traduzido da AFI distribudo pela
Wikipedia.org sob licena creative commons.
Tabela 4.3 Propriedades dos fonemas e representao numrica proposta para as vogais.
Vogais
Variaes
Altura
Posteridade
Arredondamento
Tenso
1
Mais gradaes so utilizadas na representao numrica da posteridade, pois alguns fonemas so posicionados
entre as categorias listadas. Ex.: o fonema representado como (-0,25) situa-se entre quase anterior (-0,50) e
central (0,00) (veja Figura 4.2).
2 Zero em campos bipolares utilizado como valor intermedirio para indicar que a propriedade no se aplica ao
tipo de fonema. Ex: consoantes no possuem propriedade arredondamento ento zero utilizado em sua
representao.
94
Tabela 4.4 Propriedades dos fonemas e representao numrica proposta para as consoantes.
Consoantes
Variaes
Ponto de articulao
Maneira de articulao
4.4
-1 0 1
-1 0 1
-1 0 1
-1 0 1
-1 0 1
-1 0 1
-1 0 1
4.4.1
Para estabelecer estes mapeamentos definido o nmero total de linhas (lmax ) e colunas (cmax )
do tabuleiro e o ndice da linha (l) e da coluna (c) da clula observada (iniciando em zero).
Assim, as percepes da linha (pPl ) e da coluna (pPc ) so obtidas atravs de pPl = l/lmax e
pPc = c/cmax .
4.4.2
B
As cores dos objetos so mapeadas para seus respectivos valores RGB (pARc , pAG
c , pAc ) entre 0
e 1. Caso no haja objeto presente no local, um mapeamento referente cor do fundo (cinza)
realizado. A Tabela 4.5 indica o mapeamento de cores em percepes.
95
Cor
Branca
Preta
Vermelha
Verde
Azul
Amarela
Cinza
4.4.3
Percepes
pARc = 1.0,
pARc = 0.0,
pARc = 1.0,
pARc = 0.0,
pARc = 0.0,
pARc = 1.0,
pARc = 0.5,
pAG
c = 1.0,
G
pAc = 0.0,
pAG
c = 0.0,
G
pAc = 1.0,
pAG
c = 0.0,
pAG
c = 1.0,
G
pAc = 0.5,
pABc = 1.0
pABc = 0.0
pABc = 0.0
pABc = 0.0
pABc = 1.0
pABc = 0.0
pABc = 0.5
A percepo de forma dos objetos codificada atravs de 4 atributos (pACf , pATf , pAQf , pAHf )
cada um representando uma das 4 possveis formas de objetos consideradas nessa Tese (crculo,
tringulo, quadrado e hexgono). Com isso a representao obtida atribuindo-se o valor 1
a percepo correspondente e 0 as demais percepes. A Tabela 4.6 indica os mapeamentos
possveis.
Tabela 4.6 Mapeamento das formas em percepes.
Cor
Crculo
Tringulo
Quadrado
Hexgono
4.4.4
Percepes
pACf = 1,
pACf = 0,
pACf = 0,
pACf = 0,
pATf
pATf
pATf
pATf
= 0,
= 1,
= 0,
= 0,
pAQf = 0,
pAQf = 0,
pAQf = 1,
pAQf = 0,
pAHf
pAHf
pAHf
pAHf
=0
=0
=0
=1
4.5
Nesta Tese, a extrao das percepes visuais consiste em identificar e representar elementos
da imagem que sejam teis na descrio dos objetos ou elementos contidos na imagem. Na
literatura de Viso Computacional este processo conhecido como extrao de caractersticas.
A literatura sobre descoberta no-supervisionada de objetos em imagens (Weber et al., 2000;
Tuytelaars et al., 2010; Kinnunen et al., 2012) divide a extrao de caractersticas em duas
etapas: a primeira consiste na identificao de pontos ou regies de interesse. Esta etapa ser
tratada na Seo 4.5.1. A segunda consiste em construir uma representao da informao
contida nestas regies. A descrio de caractersticas ser tratada na Seo 4.5.2.
Nesta Tese, as percepes visuais do agente sero obtidas aps a execuo destas duas etapas
de processamento, e iro representar partes dos objetos contidos na imagem. A representao
dos objetos completos responsabilidade do Mdulo II, e sero discutidas no Captulo 5.
4.5.1
Pontos de interesse so locais da imagem que contm informao til para a descrio do
seu contedo, tais como partes de objetos, bordas e quinas. Uma propriedade desejvel nos
mecanismos de deteco de caractersticas a repetibilidade, ou seja, o mtodo deve ser capaz
de detectar os mesmos pontos, ou pontos prximos, em imagens diferentes de uma mesma cena
ou objeto.
Kinnunen et al. (2012) comparou vrios mtodos de deteco de caractersticas e o detector
Hessiano afim (Mikolajczyk e Schmid, 2002) apresentou os melhores resultados quando em
conjunto com redes neurais. O detector Hessiano afim pertence subclasse de detectores de
caractersticas chamados de detectores invariantes afins (Mikolajczyk et al., 2005).
Estes mtodos detectam pontos da imagem que se alteram covariantemente com transformaes de um ponto de vista para outro. Assim, os descritores de caractersticas obtidos nas
regies em torno destes pontos so tipicamente invariantes a transformaes afins de ponto de
vista, sendo, portanto, de extrema utilidade para o reconhecimento de objetos.
O detector Hessiano afim utiliza um algoritmo iterativo para localizar pontos afins invariantes
em diferentes imagens do espao de escalas Gaussiano (Figura 4.4). A representao de uma
imagem no espao de escala Gaussiano o conjunto de imagens que resultam de convolues
dessa imagem, I(x), com kernels Gaussianos de diferentes tamanhos, G(I , s). Em cada escala,
so escolhidos pontos de interesse com base na matriz Hessiana calculada em cada ponto da
imagem:
97
"
#
Lxx (x) Lxy (x)
H(x) =
Lxy (x) Lyy (x)
4.1
onde, Lxx (x), a segunda derivada parcial na direo x e Lxy (x), a segunda derivada parcial
mista nas direes x e y. Estas derivadas so computadas na escala da iterao atual, ou seja,
uma imagem suavizada por um kernel Gaussiano para a escala s: L(x) = G(I , s) I(x).
Em cada escala, os pontos de interesse so os extremos locais tanto do determinante quanto
do trao da matriz Hessiana, que ultrapassam um limiar previamente definido: lhess . Como
discutido em Mikolajczyk et al. (2005), ao escolher pontos que maximizam o determinante
da matriz Hessiana, esta medida penaliza estruturas pequenas que tm segundas derivadas
(mudanas de sinal) em uma nica direo. Um exemplo da aplicao deste detector de pontos
de interesse mostrado na Figura 4.5. Note que a maioria dos pontos identificados na primeira
imagem (a) tambm foi identificado na imagem rotacionada (b). As sadas dessa etapa so os
pontos identificados associados a sua escala de deteco.
4.5.2
Figura 4.5 Exemplo de aplicao do detector Hessiano afim. Os pontos identificados pelo mtodo em
cada imagem esto indicados em amarelo.
99
Figura 4.6 Ilustrao de como o descritor SIFT calculado a partir de amostras da orientao e da
magnitude do gradiente sobre uma grade 2x2 adaptada localmente em torno de cada ponto de interesse.
O fator de escala determinado a partir da escala de deteco do ponto de interesse e a orientao
determinada a partir do pico dominante no histograma de orientao do gradiente em torno do ponto de
interesse. Distribudo pela Scholarpedia sob a licena Creative Commons.
mos definidos acima e a maneira como funciona a viso em mamferos. Estudos neurofisiolgicos recentes (Lindeberg, 2011, 2013) apontam que existem perfis de campos receptivos na retina,
no LGN e no crtex visual de mamferos, que podem ser modelados adequadamente pelos
operadores derivativos Gaussianos, em alguns casos, tambm complementados por modelos
espao-escala afim no isotrpicos ou por modelos de escala espao-temporais, ou combinaes
no lineares de ambos. Isso aponta que o tipo de mapeamento escolhido para representar as
percepes de imagens conta com certa plausibilidade biolgica, estando, portanto, em linha
com os objetivos gerais desta Tese.
4.6
4.7. CONCLUSO
(1). E decorre de (b) e (c) que a representao possui as propriedades (2) e (3).
No caso das percepes extradas a partir das imagens, no possvel garantir a propriedade
(1), pois, devido compresso de informao realizada pela extrao de caractersticas adotada,
apesar de improvvel, possvel que objetos distintos, porm parecidos, acabem sendo representados por um mesmo vetor de caractersticas. Neste caso, o agente no seria capaz de distinguir
estes objetos, assim como pode ocorrer com seres humanos. Porm, improvvel que objetos
muito diferentes possuam a mesma representao, pois os pontos de interesse identificados em
objetos diferente sero distintos, e os respectivos histogramas dos gradientes de regies distintas
regies tambm sero provavelmente distintos.
Por outro lado, a propriedade (2) faz parte da motivao dos mtodos utilizados para
representar imagens. Ou seja, a reprodutibilidade, alvo principal da deteco de pontos de
interesse, faz com que pontos semelhantes sejam identificados em imagens semelhantes. E as
propriedades de invarincia do descritor SIFT garantem que pontos de interesse semelhantes
iro produzir representaes semelhantes.
Por fim, se cada pixel das imagens de entrada for representado na escala de 0 a 255, ento
cada componente dos histogramas computados tambm iro variar nesta faixa, o que garante a
propriedade (3).
4.7
Concluso
101
102
5
Mdulo II - Representao
103
Dizer o quo similares estas frases so em termos lxicos bastante complicado. No entanto,
pode ser construdo um dicionrio indexando-se cada uma das 12 palavras distintas, conforme
exemplificado na Tabela 5.1.
Tabela 5.1 Exemplo de dicionrio contendo todas as palavras das frases A e B.
ndice
Palavra
ndice
Palavra
0
1
2
3
4
5
Jos
gosta
de
mas
e
Maria
6
7
8
9
10
11
laranjas
uvas
tambm
peras
frutas
cristalizadas
Ento, utilizando-se os ndices de cada palavra neste dicionrio, possvel representar cada
frase por um vetor de 12 posies, indicando a quantidade de ocorrncias de cada palavra na
frase representada:
Representao de Cada Frase
A: [1, 2, 2, 1, 2, 1, 1, 1, 0, 0, 0, 0];
B: [1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1].
Com isso, possvel estabelecer o nvel de similaridade do contedo lxico destas frases,
utilizando-se mtricas simples de comparao de vetores. Este tipo de abordagem tem sido
104
utilizado na literatura para representar e comparar documentos de texto. Porm, para que a
representao seja mais efetiva, interessante agrupar termos semelhantes em uma mesma
entrada do dicionrio. Por exemplo, desejvel que palavras com um mesmo significado como
carro e automvel ou com significados prximos como ma e mas, pertenam a
uma mesma entrada no dicionrio, de forma a tornar a representao mais compacta e fazendo
com que a representao obtida seja capaz de expressar tambm, em algum grau, o contedo
semntico.
Atualmente esta abordagem tem sido tambm aplicada em viso computacional para categorizao e reconhecimento de objetos em imagens (Tuytelaars et al., 2010; Kinnunen et al., 2012).
Porm, como nesse caso no se tratam de palavras, mas sim de caractersticas extradas das
imagens de maneira semelhante ao que foi apresentado no Captulo 4, a abordagem conhecida
como Bag-of-Features (BoF).
Nesta Tese, esta abordagem ser utilizada no Mdulo II para realizar a composio espacial
e temporal das percepes, criando uma representao completa. A abordagem genrica o
bastante para representar as percepes visuais, auditivas e tambm, em trabalhos futuros, as
propriocepes. Na Seo 5.1, sero apresentados trabalhos relacionados que aplicam esta
abordagem para o reconhecimento no-supervisionado de objetos em imagens. Em seguida,
sero apresentados os modelos propostos para compor representaes visuais (Seo 5.2) e
auditivas (Seo 5.3). Na Seo 5.4 ser apresentada a validao das representaes propostas e
na Seo 5.5 sero apresentadas as concluses do Captulo.
5.1
105
palavra codebook refere-se originalmente a um livro que contm uma lista de palavras com seus respectivos
cdigos.
106
Agrupamento de
Objetos
Agrupamento de
caractersticas
Extrao de
caractersticas
5.1.1
Mapas Auto-Organizveis
O SOM foi criado originalmente como uma ferramenta matemtica para visualizao de dados
de alta-dimensionalidade. Ele mapeia uma distribuio de alta dimenso em uma grade regular
107
Figura 5.2 Estrutura bsica de um SOM. As unidades xi so as unidades de entrada. Cada peso, wi j ,
representa uma conexo entre o i-simo nodo da camada de entrada e o j-simo nodo da camada de sada.
Cada nodo na camada de sada est conectado com quatro vizinhos (grade retangular).
A estrutura bsica de um SOM (Figura 5.2) consiste em uma camada de entrada e uma
camada de sada. A camada de entrada recebe os estmulos do ambiente e os propaga para todos
108
5.1
5.2
5.3
109
5.4
5.5
5.6
5.2
O Mdulo II recebe como entrada as percepes visuais produzidas pelo Mdulo I, isto , as
caractersticas extradas dos pontos de interesse das imagens e representadas pelo descritor
SIFT. As sadas do Mdulo II so os histogramas representando a composio das percepes
de entrada. A Figura 5.3 ilustra esse processo, incluindo as operaes realizadas no Mdulo I
(etapa A) e o reconhecimento dos objetos que ocorre pode ocorrer a partir das sadas do Mdulo
II. A operao realizada pelo Mdulo II est indicada na etapa B e consiste na produo dos
histogramas atravs do agrupamento das caractersticas.
C - Reconhecimento
Agrupamento de
objetos
Histograma de ocorrncias
B - Representao
Agrupamento de
Retalhos de imagens
Formao do Codebook
A - Percepo
...
Figura 5.3 Ilustrao das etapas do reconhecimento de objetos. A - ilustra o mapeamento sensrioperceptivo; B - ilustra a representao dos objetos; e C - ilustra a etapa de reconhecimento dos objetos.
111
5.7
.
ack j (xk , w j ) =
1
D (xk , w j ) + 1
5.7
Hn1 =
nk=1 h(xk )
k nk=1 h(xk )k
5.8
A representao proposta diferente da utilizada por Kinnunen et al. (2012), uma vez que
estes utilizam um histograma de ocorrncias em lugar do histograma de ativao aqui proposto.
No histograma de ocorrncias apenas o nodo vencedor para cada padro considerado, contado
como valor 1 em sua respectiva posio do histograma e zero atribudo para os demais nodos.
112
5.3
A estratgia utilizada para realizar a composio das percepes auditivas anloga utilizada
com as percepes visuais. Neste caso as entradas do mdulo consistem nas representaes
numricas dos fonemas conforme definido no Captulo 4, em sua sequncia original (Figura 5.4).
Reconhecimento de
palavras
C - Reconhecimento
Histograma de ocorrncias
Agrupamento de
morfemas
B - Representao
Formao do Codebook
4 fonemas
...
...
...
...
A - Percepo
12 caractersticas
por fonema
Representao
fontica
chair fork
/k /or /f /ar
/e
/ch
Figura 5.4 Ilustrao das etapas do reconhecimento de palavras. A - ilustra o mapeamento sensrioperceptivo; B - ilustra a representao dos objetos; e C - ilustra a etapa de reconhecimento das palavras.
Para evitar que palavras distintas que possuam o mesmo conjunto de fonemas apresentem
representaes semelhantes, os fonemas so alinhados em sua sequncia original e deslocados
um a um pelas entradas do SOM. Cada deslocamento consiste em uma entrada fornecida para o
mapa. Este procedimento continua at que o ltimo fonema seja apresentado para o ltimo nodo.
No comeo e no trmino do deslocamento alguns nodos de entrada no recebem nenhum fonema,
e suas entradas so atribudas com o vetor nulo. A ideia que os nodos do SOM representem
morfemas ou partes de morfemas, e no fonemas isolados. A quantidade de nodos na camada de
entrada indica a quantidade de fonemas que sero considerados simultaneamente para computar
as ativaes e formar os histogramas. Quatro fonemas simultneos j so suficientes para criar
uma representao adequada.
Uma vantagem deste mtodo que ele pode ser utilizado para representar e comparar
palavras de tamanho arbitrrio, incluindo palavras compostas ou expresses compostas por
113
poucas palavras que aparecem frequentemente juntas, e acabam atuando como se fossem apenas
uma palavra com um significado, como guarda-chuvas, bom dia ou tudo bem.
Apesar desta diferena, as operaes de treinamento e criao de histogramas para representar as percepes auditivas ocorrem exatamente conforme definido para as percepes visuais.
Ou seja, as sadas so os histogramas, Hn1 , computados como sendo a soma dos histogramas de
atividade induzidos pelas ultimas n caractersticas de entrada, dividida por sua norma. Ou seja,
conforme definido na
5.7
e na
5.8
.
5.4
A validao das representaes produzidas pelos mtodos propostos ser realizada em trs
etapas. Na Seo 5.4.1 ser apresentada a metodologia utilizada para avaliar a qualidade das
representaes propostas, a qual consiste de uma mtrica de avaliao da qualidade de agrupamentos chamada de entropia condicional. A partir disso, na Seo 5.4.2 ser avaliada a qualidade
da representao dos objetos e na Seo 5.4.3 ser avaliada a qualidade da representao de
palavras. Por fim, na Seo 5.4.4 ser avaliada a fuso das representaes visuais e auditivas. O
objetivo final destes experimentos verificar se a representao fundida facilita a aprendizagem
das categorias de objetos.
Os experimentos sero realizados tendo em vista o modelo exibido nas Figuras 5.3 e 5.4.
As representaes produzidas sero agrupadas por um SOM e a coerncia dos agrupamentos
atravs da mtrica definida na Seo 5.4.1. A pressuposio a de que uma boa representao
resultar em agrupamentos coerentes.
5.4.1
yY
xX
5.9
5.4.2
O conjunto de dados utilizado para avaliar a representao das percepes visuais um subconjunto da base conhecida como Caltech256 (Griffin et al., 2007). A base completa contm
256 categorias de objetos com mais de 80 imagens em cada categoria, alm de uma categoria
genrica com objetos variados. Tuytelaars et al. (2010) realizaram experimentos em um subconjunto contendo 20 categorias selecionadas manualmente. O nome dessas categorias est
indicado na Tabela 5.2. Kinnunen et al. (2012) tambm apresentaram testes subconjunto de
categorias. Sendo assim, o mtodo implementado tambm ser avaliado neste conjunto de dados
e comparado com os melhores resultados apresentados naqueles trabalhos.
Tabela 5.2 Nome das 20 categorias selecionadas por Tuytelaars et al. (2010) dentre as 256 disponveis
na base Caltech256 de Griffin et al. (2007).
American flag
fire extinguisher
killer whale
pci card
Pisa tower
O esquema mostrado na Figura 5.3 foi implementado com um SOM para formar o codebook
(Representao) e outro SOM para realizar o agrupamento dos histogramas produzidos pelo
primeiro SOM (Reconhecimento). Os parmetros dos mapas foram ajustados por tentativa
115
e erro e esto exibidos na Tabela 5.3. Primeiramente o mapa de representao foi treinado
com as caractersticas extradas da imagem em ordem aleatria. Em seguida as caractersticas
de cada imagem foram apresentadas nas entradas do mapa de representao e os histogramas
gerados foram utilizados para treinar o mapa de reconhecimento. Aps o treinamento do
mapa de reconhecimento as imagens foram agrupadas em seus respectivos nodos vencedores e
foi calculada a entropia condicional deste agrupamento em comparao com o agrupamento
original. Este procedimento foi repetido 30 vezes.
Tabela 5.3 Parmetros utilizados em ambos os SOMs nas simulaes da representao e reconhecimento
de objetos. S o nmero de amostras no conjunto de dados.
Valor
1 42
0,10
1,60
0,40
1,60
10 S
Representao
Parmetro
Tamanho da grade
Taxa de aprendizagem ()
Decaimento da taxa de aprendizagem (2
Vizinhana ( )
Decaimento da vizinhana (1 )
N de iteraes
Reconhecimento
Mapa
Tamanho da grade
45
Taxa de aprendizagem ()
0,10
Decaimento da taxa de aprendizagem (2 )
1,10
Vizinhana ( )
1,50
Decaimento da vizinhana (1 )
1,20
N de iteraes
100 S
Para avaliar a qualidade do agrupamento produzido pelo SOM foi calculada a entropia
condicional. Os resultados obtidos so exibidos na Tabela 5.4 em comparao com os resultados
apresentados por Tuytelaars et al. (2010) e Kinnunen et al. (2012). A tabela exibe o tamanho do
codebook utilizado alm da entropia condicional mdia e o desvio padro.
Tabela 5.4 Comparativo da entropia condicional obtida com os resultados apresentados por Tuytelaars
et al. (2010) e Kinnunen et al. (2012).
Mtodo
Tuytelaars et al. (2010)
Kinnunen et al. (2012)
Kinnunen et al. (2012)
Kinnunen et al. (2012)
Kinnunen et al. (2012)
Resultado obtido
Tamanho do codebook
Entropia condicional
Desvio padro
1000
100
500
2000
10000
42
2,22
2,34
2,10
1,93
1,77
1,91
0,04
0,05
0,04
0,04
0,02
0,03
Kinnunen et al. (2012) conseguiram obter valores mais baixos para a entropia condicional do
116
que os que foram obtidos com a representao proposta, porm, com um codebook de tamanho
bastante elevado (10000). importante salientar que os testes foram realizados utilizando
apenas o detector Hessiano afim. Porm, possvel obter resultados ainda melhores combinando
detectores (Tuytelaars et al., 2010; Kinnunen et al., 2012).
Os experimentos mostram que a representao proposta apresenta resultados similares aos
do estado da arte, porm, com um tamanho de codeboook consideravelmente menor, sendo,
portanto, uma representao mais compacta. Com isso, foi possvel atingir uma entropia de 1,91
com uma representao 98% menor (42 contra 2000) que a utilizada por Kinnunen et al. (2012)
para atingir este mesmo patamar. Isto pode ser atribudo a utilizao do histograma de ativao
em lugar do histograma de ocorrncias.
Portanto, a representao das percepes visuais proposta pode ser considerada adequada
para os objetivos desta Tese.
5.4.3
Para avaliar a representao das palavras foi criado um conjunto de 28 listas de palavras. Cada
lista de composta por que contm um morfema em comum. Por exemplo, as palavras da lista
(conform, cuneiform, deform, form, formal) possuem em comum o radical form. O conjunto
completo de listas de palavras exibido na Tabela 5.5.
O esquema mostrado na Figura 5.4 foi implementado, de forma anloga ao que foi feito
anteriormente, com um SOM para formar a representao e outro SOM para realizar o agrupamento dos histogramas produzidos pelo primeiro SOM, sendo estes, respectivamente, os mapas
de representao e reconhecimento. Os parmetros dos mapas foram ajustados por tentativa e
erro e esto exibidos na Tabela 5.6. Novamente, o mapa de representao foi treinado primeiro,
com as caractersticas extradas das palavras em ordem aleatria. Em seguida as caractersticas
de cada palavra foram apresentadas nas entradas do mapa de representao e os histogramas
gerados foram utilizados para treinar o mapa de reconhecimento. Aps o treinamento do mapa
de reconhecimento as palavras foram agrupadas em seus respectivos nodos vencedores e foi calculada a entropia condicional deste agrupamento em comparao com o agrupamento original.
Este procedimento foi repetido 30 vezes.
Aps 30 execues, a entropia condicional mdia obtida foi de 1,148 ( 0,023). Um
resultado tpico exibido na tabela Tabela 5.7 para ilustrar os agrupamentos produzidos pelo
mapa de reconhecimento. Cada clula da tabela representa um nodo do mapa e contm todas as
palavras que nele foram agrupadas. O cdigo de cores foi utilizado para facilitar a localizao
de palavras de uma mesma lista. Clulas contendo vrias palavras de uma mesma cor indicam
bons agrupamentos.
117
Tabela 5.5 Listas de palavras com morfemas semelhantes utilizadas para avaliar a representao de
palavras proposta. Cada lista representada por uma cor distinta.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
atom,atomic,atonal,atone,atonement
ball,ballad,ballade,ballerina,ballet
cafeteria,caffeine,coffee,caffeinated,cafetizer
data,date,mandate,backdate,database,dateline,dating
debenture,debit,debt,debtor,indebted
ecology,economics,economy,ecosystem,ecumenical
ethical,ethics,ethology,ethos,unethical
fabric,fabricate,fabrication,prefabricated
conform,cuneiform,deform,form,formal
general,generic,genocide,gentile,gentleman,genus,heterogeneous,homogeneous
ahead,behead,forehead,head,headache,header,headhunter,headlight,headline,headphone,headset
iterative,reiterate,alliteration,alliterative,illiterate
adjourn,journal,journalism,journey,journeyman
know,acknowledge,knowledge,knowledgeable,known
lateral,bilateral,collateral,lateral,trilateral,unilateral
machination,machine,machinery,machinist,mechanic,mechanical,mechanism,mechanize
magnanimous,magnate,magnificent,magnify,magnitude,magnum
neural,neurology,neurotic,aneurism,neurasthenia,neurons,neurosurgery
orthodontist,periodontal,orthodontia,orthodontist,dental,dentist,dents
psyche,psychedelic,psychiatry,psychoanalysis,psychology,psychosis,psychosomatic,psychotherapy
headquarters,quart,quarter,quarterback,quarterdeck,quartermaster,quarters,quartet,quartile
irradiate,radial,radiant,radiate,radiator,radio,radiology,radium,radius
salutary,salutatorian,salute
tablature,table,tableau,tablespoon,tablet,tabloid,tabulate
vegetable,vegetal,vegetarian,vegetate,vegetation
bewilder,wild,wildcat,wilderness,wildfire,wildflower,wildlife
xenon,xenophobia,xenophobic,xenos
cenozoic,mesozoic,paleozoic,protozoan,zodiac,zoo,zoology
5.4.4
Integrao de Percepes
Uma vez validadas as representaes das percepes visuais e auditivas de forma independente,
necessrio avaliar tambm se a integrao destas duas representaes em uma representao
118
Tabela 5.6 Parmetros utilizados em ambos os SOMs nas simulaes da representao de palavras.
Valor
Representao
Parmetro
Tamanho da grade
1 70
Taxa de aprendizagem ()
0,593
Decaimento da taxa de aprendizagem (2 )
1,100
Vizinhana ( )
0,310
Decaimento da vizinhana (1 )
0,741
N de iteraes
100 S
Reconhecimento
Mapa
Tamanho da grade
65
Taxa de aprendizagem ()
0,190
Decaimento da taxa de aprendizagem (2 )
0,90
Vizinhana ( )
0,62
Decaimento da vizinhana (1 )
1,50
N de iteraes
600 S
119
1
machination
mechanic
mechanical
mechanism
mechanize
magnanimous
magnate
magnificent
magnify
magnitude
magnum
know known
general generic
genocide gentile
journal journey
ecology ethical
ethics ethology
unethical
alliteration
atom atone
ahead adjourn
ethos genus
atonal
atonement
economics
economy
ecumenical
acknowledge
atomic indebted
iterative
alliterative
illiterate
irradiate
fabric fabricate
fabrication
head headache
header
headlight
headset
psychedelic
vegetate
psychosis
psychosomatic
psychotherapy
cenozoic
psyche
psychiatry
psychology
gentleman
journalism
journeyman
aneurism
heterogeneous
headhunter
headline
headphone
psychoanalysis
vegetable
vegetal
vegetarian
vegetation
xenophobia
xenophobic
forehead
orthodontist
orthodontia
orthodontist
headquarters
mandate
machine
machinery
machinist
neurotic
neurasthenia
neurons
neurosurgery
mesozoic
knowledge
knowledgeable
neural
neurology
homogeneous
xenon xenos
wild wildcat
wilderness
wildfire
wildflower
wildlife
conform
cuneiform
deform form
formal
lateral bilateral
collateral lateral
trilateral
unilateral
prefabricated
periodontal
tablespoon
paleozoic
protozoan
cafeteria
caffeine coffee
caffeinated
cafetizer
ecosystem
dentist
reiterate
quart quarter
quarterback
quarterdeck
quartermaster
quarters quartet
quartile
backdate
database
tablature table
tableau tablet
tabloid tabulate
ball ballad
ballade
ballerina ballet
dateline dating
debenture
behead dental
dents bewilder
radial radiant
radiate radiator
radio radiology
radium radius
SOM Objetos
C - Reconhecimento
B - Representao
SOM Palavras
SOM Imagens
4 fonemas
A - Percepo
12 caractersticas
por fonema
Representao
fontica
chair
/ar
/e
/ch
Figura 5.5 Ilustrao da representao composta. Neste caso, ambas as percepes visuais e auditivas sero processadas paralelamente. A - ilustra o mapeamento sensrio-perceptivo; B - ilustra a representao
dos objetos; e C - ilustra a etapa de reconhecimento dos objetos.
121
Tamanho da grade
1 140
Taxa de aprendizagem ()
0,054
Decaimento da taxa de aprendizagem (2 )
0,53
Vizinhana ( )
0,25
Decaimento da vizinhana (1 )
0,98
N de iteraes
S
Tamanho da grade
Taxa de aprendizagem ()
Decaimento da taxa de aprendizagem (2 )
Vizinhana ( )
Decaimento da vizinhana (1 )
N de iteraes
1 60
0,050
1,25
1,55
0,55
S
Reconhecimento
Valor
Representao
de imagens
Parmetro
Representao
de palavras
Mapa
Tamanho da grade
Taxa de aprendizagem ()
Decaimento da taxa de aprendizagem (2 )
Vizinhana ( )
Decaimento da vizinhana (1 )
N de iteraes
45
0,08
1,88
0,80
1,04
400 S
Os resultados obtidos apresentam uma entropia condicional mdia de 1,40 ( 0,10), o que
corresponde a uma reduo de 26% em relao a entropia condicional obtida no experimento
utilizando apenas as imagens (1,91 0,03). Um teste t, com 99% de confiana, assegura
que este resultado estatisticamente diferente do anterior, o que confirma que a fuso das
representaes construtiva. Sendo assim, a representao de estmulos visuais e auditivos pode
ser considerada como validada.
5.5
Concluso
Neste Captulo, foi apresentado o Mdulo de Representao (II). O objetivo desse mdulo o
de criar uma representao que possa ser mais facilmente correlacionada com os objetos do ambiente, fazendo composio espacial e temporal das informaes. A representao foi validada
atravs do agrupamento das representaes produzidas. Uma vez que estes agrupamentos se
mostram coerentes, o que fundamental para se agrupar elementos do ambiente, a representao
produzida foi considerada vlida.
122
5.5. CONCLUSO
123
6
Mdulo III - Contexto
Compreender o contexto no qual uma palavra est inserida pode ser fundamental para compreender o seu significado. A identificao do contexto permite que estmulos semelhantes, possam
ser diferenciados quando vistos em contextos distintos. Por exemplo, uma mesma palavra
pode possuir significados distintos em contextos diferentes. Por outro lado, a identificao do
contexto tambm permite que estmulos diferentes sejam aproximados, por terem sido vistos em
contextos semelhantes. Ou seja, palavras distintas podem apresentar significados semelhantes
quando reconhecidas em contextos parecidos.
Em Pacheco (2004), contexto definido como o conjunto de circunstncias que acompanham
um acontecimento. Dois tipos de contexto podem ser diferenciados: o espacial e o temporal.
O contexto espacial um conjunto de informaes sobre a posio espacial de um ou mais
padres com relao a outros. Em outras palavras, o contexto espacial contm informaes que
identificam ou localizam um ou mais padres em seu espao de origem. O contexto temporal
um conjunto de informaes a respeito das entradas, sadas e/ou estados passados de um
sistema. Ou seja, um conjunto de informaes a respeito do histrico desse sistema em um
dado momento.
O Mdulo de Contexto deve atuar na aprendizagem e no reconhecimento dos possveis contextos. As suas entradas so as sadas do Mdulo de Reconhecimento, ou seja, a representao
lxica, perceptiva e proprioceptiva. E suas sadas so constitudas de suas prprias entradas,
inalteradas, alm do contexto reconhecido e associado a cada estmulo. Estas sadas so ento
encaminhadas para o Mdulo de Associao.
No crebro, supe-se que o hipocampo, uma regio especializada localizada no sistema
lmbico, associa uma informao recebida com um contexto espacial e temporal (Schacter,
1996; Fletcher et al., 1997; Aggleton e Brown, 1999). Estudos mais recentes apontam que os
neurnios do hipocampo apresentam padres de disparo nicos, que poderiam servir como
uma representao neural do contexto (Butterly et al., 2011). Tambm foi observado por Aires
125
(1991), que ratos com leses no hipocampo, possuem dificuldades na memria contextual e
geralmente repetem suas decises ao caminhar por um labirinto, visitando repetidamente as
mesmas posies.
A organizao das regies corticais de memria, especialmente no sistema lmbico, contemplam inmeras conexes recorrentes, tornando a abordagem de conexes recorrentes biologicamente mais plausvel que outras abordagens como a de janelas temporais deslizantes para
formao de contexto (Pacheco, 2004).
Pacheco (2004) e Arajo et al. (2010) apresentaram um modelo para o fenmeno de falsas
memrias. Nestes trabalhos, os autores propuseram um mdulo de contexto baseado na Teoria
da Ressonncia Adaptativa, ou ART, do ingls Adaptive Resonance Theory (Grossberg, 1976),
que capaz de executar as funes de aprendizagem e reconhecimento de contexto. O modelo,
chamado de ART2 com Contexto, foi proposto para a identificao do contexto semntico
contido em listas de palavras semanticamente relacionadas. O modelo foi construdo levando
em considerao certo nvel de plausibilidade biolgica. Nesta Tese, este modelo foi utilizado
para a implementao do Mdulo de Contexto.
Sendo assim, o modelo proposto por Arajo et al. (2010) ser apresentado na Seo 6.1. Na
Seo 6.2 sero apresentados o ART1, o ART2 e o ART2 com Contexto. Na Seo 6.3 ser
discutido como o ART2 com Contexto foi aplicado no problema desta Tese. A validao do
modelo ser apresentada na Seo 6.4 e por fim, as concluses do Captulo sero discutidas na
Seo 6.5.
6.1
Falsas memrias so um tipo de falha de memria, em que o indivduo pode (a) reconhecer
como tendo visto antes um objeto ou evento que no tenha ocorrido ou (b) no reconhecer algo
previamente presenciado. Estes so respectivamente, o falso reconhecimento e a rejeio errada.
Em experimentos desenhados para estudar falsas memrias (Roediger e McDermott, 1995;
Brainerd e Reyna, 1998), listas com aproximadamente 15 palavras so utilizadas. Cada lista de
palavras est associada a um distraidor crtico predefinido, que d nome a lista, e todas as
palavras da lista esto semanticamente relacionadas com o seu respectivo distraidor crtico, o
qual no est presente na lista. Como exemplo, a lista associada ao distraidor crtico montanha,
poderia conter as palavras vale, cume, pico, alto e cordilheira, mas no a prpria palavra
montanha. Estas listas, quando memorizadas por indivduos, os fazem criar algum tipo de
contexto associado com o distraidor crtico, e nesta situao eles so induzidos a reconhecer as
palavras relacionadas com este contexto, mesmo que no faam parte da lista.
Por exemplo, nos experimentos de Brainerd e Reyna (1998), de um conjunto contendo 24
126
listas preparadas nos moldes acima exemplificados, cada uma contendo aproximadamente 15
palavras, 12 listas foram apresentadas a um grupo de indivduos. Em seguida os participantes
tiveram suas memrias testadas. As listas de teste incluram: (a) 36 palavras extradas das 12
listas apresentadas (3 palavras escolhidas aleatoriamente de cada lista), (b) os 12 distraidores
crticos das listas apresentadas, (c) 12 distraidores crticos das 12 listas no apresentadas, (d) 12
palavras extradas das 12 listas no apresentadas (um palavra escolhida aleatoriamente de cada
lista).
Nos resultados, em mdia 63% dos distraidores crticos das listas apresentadas foram
reportados como estando presentes nas listas, quando na verdade, estas palavras no estavam
presentes nas listas (falso reconhecimento), enquanto que apenas 61% das palavras que de fato
estavam presentes na lista foram reportadas como tal (reconhecimento correto). Alm disso,
apenas 39% das palavras presentes nas listas no foram reconhecidas (rejeio errada).
Estes experimentos sugerem que o contexto semntico formado durante as apresentaes
dos padres desempenha um papel importante para a memorizao e levado em conta durante
o reconhecimento (Matzen e Benjamin, 2009). Segundo as teorias mais aceitas atualmente
(Brainerd et al., 2008), dois processos distintos agem em paralelo durante a memorizao e
reconhecimento, um sobre as informaes fonticas ou literais e o outro sobre a essncia do
significado da palavra.
Figura 6.1 Arquitetura do modelo neural modular proposto por Arajo et al. (2010).
Em Arajo et al. (2010), um modelo de rede neural baseado em Pacheco (2004) foi construdo para simular a ocorrncia de falsas memrias utilizando conceitos da teoria do rastro
difuso, sendo esta baseada na metfora de intuio, segundo a qual, as pessoas pensam, raciocinam e se lembram de forma inexata, utilizando resumos e no cpias completas e detalhadas
das informaes, pois estas so mais fceis de serem esquecidas (Brainerd e Reyna, 1990).
Arajo et al. (2010) propuseram um modelo neural modular que considera a fontica e o
127
significado das palavras. O sistema neural proposto composto por trs mdulos: de associao
sensorial, de contexto e de deciso (Figura 6.1). O fluxo de informaes por cada um dos
mdulos ocorre da seguinte forma:
Associao Sensorial: uma vez que um estmulo recebido, ou seja, uma palavra ouvida
para memorizao ou reconhecimento, o Mdulo de Associao Sensorial prepara uma representao fontica e uma representao do significado do estmulo, que so enviadas ao mdulo
de contexto. A representao fontica utilizada aquela descrita na Seo 4.3. A representao
semntica adotada era construda a partir de uma matriz de propriedades, na qual cada linha
estava associada a uma palavra e cada coluna listava todas as propriedades consideradas pelos
autores (129, no total). Na linha de uma determinada palavra, cada coluna recebia um valor
entre zero e um, indicando o grau de pertinncia daquela propriedade para aquela palavra, onde
zero indica pertinncia mnima e um indica pertinncia mxima. Com isso, a representao
semntica de uma palavra era composta por um vetor de 129 atributos reais, entre zero e um, ou
seja, as informaes contidas em sua respectiva linha nessa matriz.
Contexto: O Mdulo de Contexto mantm um registro histrico dos ltimos estmulos
recebidos e associa cada estmulo com seu histrico atual. As sadas so constitudas pelo
contexto atual e suas prprias entradas.
Deciso: O Mdulo de Deciso recebe as sadas do Mdulo de Contexto e decide se o
padro apresentado reconhecido ou no, comparando o significado e a informao fontica
com o contexto recuperado.
Com esta arquitetura foi possvel modelar de forma satisfatria as taxas de reconhecimento
correto e falso reconhecimento observados nos experimentos com seres humanos. Alm disso,
nos testes realizados por Pacheco (2004), o Mdulo de Contexto mostrou-se capaz de formar
um contexto atual, ou seja, uma representao que se aproxime do conjunto de dados de entrada
que j foram apresentadas ao sistema, privilegiando os dados mais recentes, em detrimento dos
mais antigos e, alm disto, associando um contexto a cada novo dado de entrada recebido. Este
mdulo ser utilizado com um propsito similar nesta Tese. A rede neural utilizada em sua
implementao foi baseada em ART, a qual ser apresentada a seguir.
6.2
A Teoria da Ressonncia Adaptativa (ART) uma teoria desenvolvida por Grossberg (1976),
que considera aspectos de como o crebro processa a informao. Os autores propuseram uma
srie de modelos de redes neurais que utilizam mtodos de aprendizagem supervisionadas e
no-supervisionadas, e tratam problemas como o reconhecimento e a previso de padres.
O modelo neural no-supervisionado ART2, introduzido por Carpenter e Grossberg (1987a),
128
6.2.1
Nos modelos ART1 e ART2, os padres de entrada podem ser apresentados em qualquer ordem
e, cada vez que um padro apresentado, um nodo escolhido para agrup-lo e os pesos
associados ao nodo so ajustados para permitir a aprendizagem do padro. Os pesos associados
a um nodo podem ser considerados como um prottipo ou exemplo tpico (exemplar) para os
padres armazenados naquele agrupamento.
Nas redes ART, o parmetro de vigilncia, , permite controlar o grau de similaridade entre
os padres associados a um mesmo grupo. Durante o treinamento, um mesmo padro pode ser
apresentado diversas vezes, podendo ser colocado em grupos diferentes. Isto ocorre quando,
entre uma apresentao e outra do mesmo padro, os pesos dos nodos foram modificados devido
apresentao de outros padres.
A rede considerada estvel quando cada padro sempre agrupado em um mesmo nodo.
Uma rede plstica quando capaz de aprender com igual intensidade um novo padro apresentado em qualquer fase do treinamento, seja no incio ou aps diversas pocas de treinamento.
Alm de lidar com o problema de tornar a rede plstica, sem perder a estabilidade, e estvel
129
sem perder a plasticidade, as redes ART tm a caracterstica de que o controle sobre os processos
da rede realizado por nodos especializados, que decidem quando um padro de entrada deve
ser agrupado no nodo vencedor ou em uma nova unidade.
Camada F2
Y1
Ym
Yj
Camada F1
Controle do
Reset
cpi
normalizao
Pi
Ri
Qi
bf(qi)
normalizao
Ui
aui
Vi
f(xi)
Reset
Intra F1
normalizao
Wi
Xi
si
Os modelos ART1 e ART2 so compostos por trs grupos de nodos: a camada F1, ou
camada de entrada, a camada F2 ou camada de agrupamento e os nodos de controle (Figura 6.2).
Um conjunto de nodos na camada F1 responsvel por receber e processar os dados de entrada,
si , reduzindo a quantidade de rudo. Outro conjunto de nodos na camada F1 responsvel por
fazer a interface com a camada F2.
Para controlar as semelhanas entre os padres agrupados em um mesmo nodo h duas
matrizes de pesos entre as camadas F1 e F2: B e T . A matriz B, ou matriz bottom-up, armazena
os pesos das conexes que partem de cada unidade i, em F1, para a cada unidade j, em F2,
(elementos bi j ). A matriz T ou matriz top-down armazena os pesos das conexes que partem de
130
131
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
132
x
f (x) =
0
if x
if x <
Uma vez treinada, a rede pode ser utilizada em modo teste, caso em que os padres de
entrada sero apenas agrupados sem que haja aprendizagem. Para isso, os passos de atualizao
dos pesos da rede (linhas 30-38, no Alg. 6.1) e de recrutamento de novas unidades (linha 15)
no so executados. Alm disso, o parmetro de vigilncia ajustado para 1 no momento em
que um novo padro apresentado. Caso nenhum nodo seja considerado suficientemente similar
para agrupar este padro, ento o parmetro de vigilncia levemente reduzido, por exemplo,
atravs da equao: = 0, 999 . Este processo repetido at que o padro de entrada seja
agrupado em alguma unidade.
Em Pacheco (2004), o modelo ART2 foi utilizado como base para a implementao do
mdulo de contexto. No entanto, foi necessrio modificar a rede para incluir caractersticas
133
temporais, para permitir que a rede aprenda tambm o contexto em que os estmulos so
apresentados, assim como o contexto atual. As adaptaes realizadas sero apresentadas na
seo seguinte.
6.2.2
No geral, a arquitetura do ART2 com Contexto bem similar do ART2 (Figura 6.3), a principal
diferena a insero das unidades de contexto com conexes recorrentes. O objetivo das
unidades de contexto armazenar o histrico dos ltimos padres de entrada recebidos pela rede
e permitir que este contexto influencie tanto na fase de busca quanto na fase de reconhecimento
de padres, no algoritmo do ART2.
Camada F2
Y1
PCi
...
Controle
do reset
...
Yj
cpi
Pi
Ym
normalizao
Ri
Qi
bf(q)i
UCi
Ui
normalizao
aui
realimentao
Unidades de
Contexto
Wi
Vi
f(x)i
normalizao
Xi
Camada F1
Si
B
reset
Intra F1
contexto
Figura 6.3 Estrutura do ART2 com Contexto. Observe que, alm da informao das unidades Pi , as
matrizes T e B tambm armazenam a informao contextual vinda das unidades de contexto PCi .
O algoritmo de treinamento (Alg. 6.2) consiste nos seguintes passos: Aps a inicializao
das variveis (linha 1) um lao executado para cada poca de treinamento.
Para cada padro de entrada, as ativaes das unidades nas camadas U, W, P, Q, X e V so
inicializadas (linha 5) e atualizadas para refletir os efeitos dos padres de entrada (linhas 7 e 8).
Ento, os valores computados so propagados para as unidades de contexto UC (linha 10) e
os novos valores so reescalados (linha 12) e copiados para a unidade PC (linha 14).
Em seguida, os valores armazenados nas unidades P e PC so propagados para a camada
F2, onde ocorre uma competio entre os grupos, com cada grupo produzindo uma ativao y j
(linha 16). Ento, o lao iniciado na linha 18 se repete at que o grupo vencedor seja definido
e atualizado, ou seja, at que a condio de reset, inicializada como verdadeira na linha 17,
135
136
6.3
Aplicao do Modelo
O ART2 com Contexto descrito acima, apresenta todas as caractersticas necessrias para
implementar o Mdulo de Contexto desta Tese. No entanto, o modelo ser utilizado com
estmulos que possuem caractersticas significativamente distintas dos estmulos considerados
por Pacheco (2004), de forma que as suposies bsicas no so as mesmas dos trabalhos
anteriores.
Em Arajo et al. (2010), os estmulos eram palavras codificadas em uma representao
fontica e semntica. No entanto, apenas a parte semntica era utilizada na formao do contexto,
pois, naquele caso, apenas o contexto semntico foi investigado pelos autores. Nesta Tese,
por outro lado, no h representao semntica propriamente dita, e a informao perceptiva
composta pelo Mdulo de Representao que ser utilizada na construo do contexto.
As representaes semnticas das palavras de uma mesma lista compartilham propriedades,
possuindo uma forte relao de similaridade, j que esto semanticamente correlacionadas
com um mesmo distraidor crtico. No entanto, isto no necessariamente verdade para as
representaes das percepes de um mesmo contexto. Por exemplo, as percepes produzidas
por vrios elementos contidos em um mesmo ambiente, pressupostamente associadas a um
mesmo contexto, podem ser significativamente distintas, visto que alguns dos objetos deste
ambiente podem ter variadas formas e cores. Portanto, construir uma representao contextual
deste ambiente a partir das percepes uma tarefa mais complexa do que reconstruir o contexto
de listas de palavras semanticamente correlacionadas.
esperado que o contexto formado a partir de uma sequncia de estmulos convirja para
uma mdia, que represente melhor os estmulos mais recentes do que os antigos. E por mais
que estes estmulos sejam distintos, espera-se que haja uma quantidade de caractersticas em
comum que seja suficiente para que em conjunto estas caractersticas se sobressaiam, e formem
137
um contexto distinto.
Assim sendo, a suposio bsica adotada nesta Tese a de que o contexto formado com
as percepes de uma dada situao ser suficientemente distinto do contexto formado com
percepes de outras situaes. Esta suposio vlida assumindo-se que as caractersticas
compartilhadas sero provavelmente distintas em contextos distintos.
Na seo seguinte, ser avaliado se o ART2 com Contexto capaz de operar conforme
descrito acima, e portanto, se servir para implementar as funes atribudas ao Mdulo de
Contexto considerado nesta Tese.
6.4
Diversas propriedades do ART2 com Contexto foram avaliadas em Pacheco (2004), tais como
tolerncia a rudo, capacidade de agrupar estmulos semelhantes, sua escalabilidade e plasticidade. Portanto, no cabe aqui reproduzir estas anlises. Sendo assim, a validao consiste em
verificar se o ART2 com Contexto funciona de forma satisfatria com os estmulos utilizados
nesta Tese. Ou seja, ser avaliado se ele capaz de associar contextos semelhantes para estmulos apresentados em instantes prximos e contextos distintos para estmulos apresentados em
instantes distantes.
Para verificar isto, a arquitetura exibida na Figura 6.4 foi implementada. Ela semelhante
quela utilizada no Captulo 5 para avaliar a representao produzida, com a diferena que as
representaes produzidas pelo Mdulo II, desta vez so enviadas para o Mdulo de Contexto.
Os parmetros de cada rede foram ajustados por tentativa e erro e esto exibidos na Tabela 6.1.
Os estmulos fornecidos nas entradas do Mdulo I so formados a partir de duas listas
de palavras. As palavras escolhidas foram bat, armoire, snake, dog, cat, cheese, trap para
a primeira lista (A) e speaker, printer, computer, notebook, monitor, keyboard, mouse para a
segunda lista (B). Imagens referentes a cada uma das palavras foram obtidas atravs do Google
Images . Com isso foi possvel criar os estmulos auditivos e visuais para cada palavra, os quais
foram apresentados para o Mdulo I, da seguinte maneira: 21 palavras da lista A, em ordem
aleatria, seguidas de 21 palavras da lista B, em ordem aleatria. Cada estmulo auditivo foi
apresentado duas vezes: uma simultaneamente com seu respectivo estmulo visual e outra com
um outro estmulo visual, escolhido aleatoriamente da mesma lista. Este processo foi repetido
trs vezes intercalando-se as listas.
O parmetro de vigilncia do ART2 com Contexto foi ajustado para um valor alto1 ( =
1 Este
parmetro muito sensvel, sendo um valor como 0.99 considerado alto, e 0.95 considerado moderado
uma vez que krk varia muito sutilmente. Quando diminui, permite que estmulos com maiores diferenas entre
si compartilhem um mesmo agrupamento.
138
C - Contexto
B - Representao
SOM - Palavras
SOM - Imagens
4 fonemas
...
12 caractersticas
por fonema
...
...
...
...
A - Percepo
Representao
fontica
chair fork
/k /or /f /ar
/e
/ch
Figura 6.4 Ilustrao das etapas de processamento executadas nos experimentos de contexto. A aquisio das percepes; B - composio da representao; C - criao e reconhecimento do contexto.
0, 999), fazendo com que seja criado aproximadamente um nodo na camada F2 para cada
estmulo distinto. O que de fato ocorreu, conforme pode ser verificado atravs do grfico exibido
na Figura 6.5.
Figura 6.5 ndice do nodo vencedor na camada F2 para cada estmulo apresentado. Palavras da lista A
esto em vermelho e palavras da B esto em azul. Por falta de espao, nem todas as palavras apresentadas
para o modelo esto visveis no eixo horizontal.
No eixo horizontal deste grfico, so exibidos alguns dos estmulos apresentados para
o modelo e no eixo vertical est indicado o respectivo ndice do nodo vencedor na camada
F2. Ao final da primeira apresentao das palavras da lista A (em vermelho), foram criados
aproximadamente 20 nodos e ao final da primeira apresentao da lista B (em azul), foram
criados aproximadamente 38 nodos. Uma vez que os estmulos se repetem, deste ponto em
diante, poucos nodos so criados. possvel observar ainda que as palavras da lista A, na
139
valor
0,10
1,60
0,40
1,60
10 S
0,10
1,60
0,40
1,60
10 S
10
10
0,1
0,9
0,0001
0,0739221
0,8
0,999
1
1
0,9
0,0002
0,9
0,8
maioria das vezes so agrupadas em nodos com ndices de 1 a 20, enquanto as palavras da lista
B, em nodos com ndices de 21 a 41.
No entanto, preciso verificar como se comportam os contextos associados a cada um
dos nodos em F2. Espera-se que os contextos recuperados para palavras da lista A sejam
semelhantes entre si e distintos dos contextos recuperados para palavras da lista B e vice-versa.
Para avaliar isto, foi computada a mdia dos contextos associados a estmulos da lista A
(MCA ) e a mdia dos contextos associados a estmulos da lista B (MCB ). Estes valores foram
comparados com os contextos recuperados para cada estmulo apresentado para o modelo. O
nvel de similaridade foi calculado atravs do cosseno do ngulo entre os vetores. Ou seja,
valores prximos de 1 significam alta similaridade.
140
6.5. CONCLUSO
Figura 6.6 Similaridade entre o contexto recuperado aps a apresentao de cada estmulo e o contexto
mdio dos estmulos de uma mesma lista.
6.5
Concluso
Neste captulo, foi apresentada a implementao do Mdulo de Contexto, incluindo sua base
metodolgica, seus algoritmos e sua validao com respeito ao tipo de estmulo considerado
nesta Tese.
O mdulo se mostrou capaz de formar um contexto, ou seja, uma representao que se
aproxime do conjunto de dados de entrada que j foram apresentadas ao sistema, privilegiando
os dados mais recentes, em detrimento dos mais antigos e de associar este contexto a cada novo
dado de entrada recebido.
Uma vez que o ART2 possui as caractersticas de escalabilidade e plasticidade, plausvel
assumir que o ART2 com Contexto tambm possua estas caractersticas. No entanto, esta
uma questo importante, que ser deixada para trabalhos futuros. Nesta Tese ser considerado
apenas casos em que existem poucos contextos a serem aprendidos e diferenciados.
Mais experimentos incluindo o Mdulo de Contexto sero apresentados no Captulo 8.
Nestes experimentos, espera-se que os contextos recuperados possam ser utilizados na desambiguao de palavras homgrafas, ou seja, aquelas que apresentam grafia e pronncia idnticas,
mas com significados distintos em contextos distintos, tais como: bat, que pode significar
141
142
7
Mdulo VI - Associao
Para que um agente possa atuar de forma adequada na maioria dos ambientes, ele deve ser
capaz de reconhecer o que foi visto anteriormente. As informaes capturadas pelo agente,
so o produto do mapeamento sensrio-perceptivo discutido no Captulo 4, da representao
composta, discutida no Captulo 5 e do reconhecimento do contexto apresentado no Captulo 6.
Estas informaes so fornecidas como entrada para o mdulo de associao, que deve ser capaz
identificar e reconhecer as correlaes entre informaes provenientes de origens diversas.
A mera memorizao de tudo que percebido, na forma de uma gravao, no seria adequada para agentes biolgicos, dadas as restries de espao e energia do crebro, nem to
pouco para agentes incorporados, haja visto os requisitos de armazenamento e de processamento
para recuperar informao. Alm disso, esta estratgia resultaria em baixa capacidade de generalizao, j que situaes muito semelhantes, poderiam ser reconhecidas como distintas, mesmo
que as pequenas diferenas existentes fossem irrelevantes. O que reduziria consideravelmente o
valor prtico do reconhecimento.
Uma maneira mais adequada e plausvel de tornar o agente capaz de reconhecer o que foi
visto anteriormente pode ser obtida dotando-o da capacidade de agrupar percepes semelhantes.
Uma forma de fazer isso representando estes grupos por meio de prottipos que guardam
caractersticas gerais, compartilhadas por um conjunto de percepes correlacionadas. Assim,
o reconhecimento se d ao identificar o grupo no qual (ou os grupos nos quais) uma nova
percepo se encaixa, levando em considerao suas semelhanas e desconsiderando algumas
de suas diferenas. Os prottipos formados por este processamento, bem como as medidas
de diferena entre as percepes e os prottipos, iro compor as sadas deste mdulo e sero
utilizadas posteriormente como entradas para os mdulos de reconhecimento do ambiente e de
reconhecimento sinttico.
As vrias percepes capturadas por um agente (ex.: som, cor, forma, tamanho, localizao,
etc) precisam ser correlacionadas de alguma forma. As correlaes entre informaes de
143
145
tambm com as percepes do ambiente simulado descrito no Captulo 4. Por fim, as concluses
do captulo so apresentadas na Seo 7.5.
7.1
Agrupamento em Subespaos
Figura 7.1 Conjunto de dados simulado com trs dimenses parcialmente relevantes. Esquerda: conjunto
de dados tridimensional com 12 grupos de subespaos, no qual, para cada grupo, duas das trs dimenses
so relevantes e uma irrelevante para aquele grupo. Direita: projeo dos dados em duas dimenses.
pequena variao em torno de um ponto central, e esta caracterstica que permite identificar e
separar os grupos. Neste conjunto de dados nenhuma das trs dimenses pode ser removida
sem a perda de informaes relevantes para 8 dos 12 grupos.
No agrupamento exemplificado na Figura 7.1, no h intersees entre os grupos no espao tridimensional. Isso configura um agrupamento projetivo, que um caso particular do
agrupamento em subespaos, no qual cada amostra deve ser associada a apenas um grupo ou
considerada como rudo (Mller et al., 2009; Kriegel et al., 2009). O foco de interesse desta
Tese est no agrupamento em subespaos, uma vez que, uma percepo pode estar associada a
mais de um conceito incorporado.
O agrupamento em subespaos tem aplicaes em diversas reas. Em viso computacional,
ele tem sido aplicado para a segmentao de movimento, agrupamento de faces (Vidal, 2011)
e recuperao de informao em bases de dados de cenas urbanas (Coelho et al., 2011). Em
minerao de dados, so teis para identificar potenciais clientes (Chou et al., 2000). E em
bioinformtica, so utilizados para o agrupamento e visualizao de dados de expresso gnica
(Jiang et al., 2004), identificaes de interaes protena-protena (Sim, 2012) ou entre genes
(Arajo et al., 2013).
Vrios algoritmos foram propostos para lidar com este problema. Dentre eles se destacam
PROCLUS (Aggarwal et al., 1999), DOC (Procopiuc, 2002), MINECLUS (Yiu e Mamoulis,
2004) e STATPC (Moise e Sander, 2008), que apresentaram bons resultados em anlises
anteriores (Mller et al., 2009; Moise et al., 2009), alm de Generalized Principal Components
Analysis (GPCA) (Vidal et al., 2005) e Sparse Subspace Clustering (SSC) (Elhamifar e Vidal,
2009), que so mtodos advindos da comunidade de viso computacional. No entanto, conforme
apontado por Vidal (2011), o desenvolvimento de mtodos teoricamente slidos para encontrar
o nmero de subespaos e as dimenses relevantes para cada grupo, na presena de rudo e
outliers, ainda um importante desafio em aberto.
DOC e MINECLUS so mtodos baseados em clulas que realizam buscas por conjuntos de
clulas em um gradil fixo ou varivel, contendo mais do que certo nmero de objetos, onde os
subespaos so definidos como restries de uma clula em um subconjunto das dimenses dos
dados de entrada, enquanto nas outras dimenses a clula abrange o domnio de atributos inteiro.
Estes mtodos so fceis de serem parametrizados, pois precisam apenas que seja fornecido
um limite para o nmero mnimo de objetos em um grupo, que de certa forma, intuitivo.
No entanto, esta uma propriedade de um nico grupo, e no fornece muito controle sobre
resultados do agrupamento completo. Alm disso, estes mtodos nem sempre encontram a
quantidade correta de grupos existentes nos conjuntos de dados (Mller et al., 2009).
PROCLUS e STATPC so mtodos orientados ao agrupamento final, que otimizam funes
objetivo de todo o conjunto de grupos, como o nmero de grupos, dimensionalidade mdia,
147
ou outras propriedades estatsticas. Este tipo de abordagem d controle direto sobre os grupos
resultantes. No entanto, ajustar estes parmetros adequadamente requer alto conhecimento
sobre o conjunto de dados, e a qualidade do agrupamento significativamente afetada por rudo
(Mller et al., 2009).
GPCA um mtodo geomtrico algbrico para agrupar dados em subespaos no necessariamente linearmente independentes. O GPCA pode ajustar uma unio de n subespaos por um
conjunto de polinmios de grau n, cujas derivadas em um ponto produzem um vetor normal
ao subespao que contm esse ponto (Vidal, 2011). Depois de encontrar os n polinmios e
computar seus vetores normais, a separao dos dados obtida agrupando os vetores normais
atravs de tcnicas de agrupamento tradicionais, como o agrupamento espectral.
SSC se baseia na ideia de escrever um ponto (x j ) como uma combinao linear ou afim
dos pontos de dados vizinhos. Ele utiliza o princpio da disperso para escolher qualquer
um dos demais pontos de dados como um possvel vizinho. A combinao linear esparsa ou
afim x j = i6= j [c jk xk ] encontrada, minimizando-se o nmero de coeficientes diferentes de
zero c jk sujeitos a c jk = 1, no caso de subespaos afins. A segmentao dos dados ento
encontrada aplicando um agrupamento espectral sobre um grafo de similaridades construdo
com os coeficientes esparsos. importante ressaltar que tanto GPCA quanto SSC associam
cada padro a no mximo um grupo. Portanto, pelas definies apresentadas na Seo 7.1, eles
so adequados para agrupamento projetivo e no para agrupamento em subespaos.
Apesar dos mtodos baseados em redes neurais com aprendizagem no-supervisionada,
como ART (Teoria da Ressonncia Adaptativa) (Carpenter e Grossberg, 1990; Goodman et al.,
1992) e SOM terem sido empregados com sucesso em problemas de agrupamento tradicionais
(Jain et al., 1999; Xu e Wunsch, 2005), nenhum trabalho baseado em SOM havia sido proposto
para agrupamento projetivo ou em subespaos, e apenas dois trabalhos baseados em ART so
encontrados na literatura. O ART projetivo (PART) (Cao e Wu, 2002) um modelo de rede
neural baseado no ART que concentra cada agrupamento nas dimenses onde as informaes
podem ser encontradas, atravs da implementao de um mecanismo de sinalizao de sada
seletivo e o PARTCAT (Gan et al., 2006) que uma verso do PART especfica para dados
categricos. Estes mtodos, no entanto, ainda no foram avaliados em conjuntos de dados
complexos, nem to pouco foram comparados com os demais mtodos da literatura.
Os mapas auto-organizveis derivados do mapa proposto por Kohonen (1982) so candidatos
para modelar o Mdulo de Associao, pois so modelos neurais biologicamente inspirados,
com aprendizagem no-supervisionada e incremental, e produzem como resultado prottipos
que resumem bem os grupos identificados. Suas variantes tm sido utilizadas por diversos
autores para aplicaes relacionadas com as tarefas descritas no incio deste Captulo. Por
exemplo, SOMs tm sido usados para mesclar os dados sensoriais de diferentes tipos de sensores
148
(Gielen et al., 1989); para modelar a aquisio de palavras (Li et al., 2007); e para modelar a
associao entre rtulos e percepes visuais (Mayor e Plunkett, 2008; Gliozzi et al., 2009). A
seguir sero descritos os modelos que serviram de base para o desenvolvimento de um mapa
auto-organizvel capaz de realizar agrupamento em subespaos.
7.2
No Captulo 5 foi descrito um SOM padro, conforme proposto por Kohonen (1982), que pode
ser utilizado para criar agrupamentos de forma no-supervisionada. No entanto, este mapa no
adequado para o agrupamento das percepes, pois a mtrica que originalmente utilizada
no SOM para identificar qual o nodo vencedor de uma competio que considera igualmente
todas as dimenses. O mapa de topologia fixa proposto por Kangas et al. (1990) (Seo 7.2.1),
apresenta uma mtrica de distncia ponderada que serviu de inspirao para a soluo adotada
mais a frente.
Porm, para uma aprendizagem incremental e robusta o nmero de nodos e as conexes
entre eles no devem ser fixos, mas devem evoluir em funo dos dados de entrada. O modelo
proposto por Arajo e Costa (2009) (Seo 7.2.2), permite a autoadaptao do campo receptivo
de cada nodo, ou seja a regio do espao de entrada para a qual cada nodo responde aprendida
em funo dos dados, o que auxilia na determinao do nmero de agrupamentos. Alm disso,
as conexes entre os nodos tambm so estabelecidas em funo dos dados, permitindo o ajuste
da topologia. Ambos os mapas sero apresentados a seguir.
7.2.1
Kangas et al. (1990) tinham como motivao fazer com que os mapas se adaptassem melhor a
grandes variaes de alguns componentes do vetor de entrada em relao a outros. Os autores
argumentam que diferenas significativas nas faixas de variao dos componentes do vetor de
entrada podem impedir o mapa de atingir uma ordenao adequada. Para permitir este ajuste, os
autores fizeram modificaes na maneira como a distncia entre os vetores seria computada,
utilizando uma mtrica de distncia ponderada (Eq. 7.1) em lugar da distncia Euclidiana
tradicional:
m
7.1
onde 2ji o fator de ponderao da i-sima dimenso de entrada para a j-sima unidade.
Os fatores de ponderao so estimados adaptativamente ao longo do processo de aprendiza-
149
gem, considerando a varincia dos estmulos recebidos por cada nodo da grade. Para isso, cada
nodo armazena uma mdia mvel das diferenas kx w j k formada de acordo com a Eq. 7.2.
7.2
7.3
onde 2 = 0, 99 e 3 = 1.02.
O objetivo destas equaes manter ji kx w j k = ji . Para fazer com que os valores de ji
progridam para solues admissveis necessrio restringi-los para que obedeam restrio
apresentada na Eq. 7.4.
m
1
ji = constante, i
j=1
7.4
Em uma interpretao geomtrica do sistema de pesos, pode-se dizer que ele transforma a
superfcie hiper-esfrica equidistante que se formava ao redor de cada unidade quando utilizada
a distncia Euclidiana, em um hiper-elipsoide quando utilizada a distncia ponderada. Esta
hiper-elipse se alonga nas dimenses que mais variam, e se estreita nas dimenses que variam
menos.
Para o agrupamento em subespaos, aquelas caractersticas que mais variam, em geral, so
menos importantes para estabelecer os agrupamentos. As modificaes propostas por Kangas
et al. (1990) fazem com que os atributos com grande variao influenciem menos no clculo
da distncia, atravs da reduo de seus pesos ji , portanto reduzindo a importncia destes
atributos na seleo do vencedor e na formao dos agrupamentos.
Uma outra alternativa consiste na utilizao da distncia de Mahalanobis em lugar da
distncia ponderada, conforme descrito por Fessant et al. (2001). A distncia de Mahalanobis
se baseia nas correlaes entre variveis do conjunto de dados e no depende da escala das
medies. No entanto, esta opo computacionalmente mais custosa, pois necessrio
computar matrizes de varincia-covarincia e h dvidas se os ganhos em preciso obtidos
seriam significativos, por isso, esta opo no ser explorada nesta Tese.
150
7.2.2
Mapas de topologia fixa, como os descritos nas sees anteriores so boas ferramentas para
visualizao de dados. No entanto, em determinados problemas h a necessidade de se adicionar
nodos ao mapa conforme mais dados se tornam disponveis, melhorando a aprendizagem
incremental. Alm disso, modificar as relaes de vizinhanas durante o treinamento permite
que o mapa se ajuste melhor topologia apresentada nos dados. Diversos modelos de estrutura
variante no tempo foram propostos na literatura (Arajo e Rego, 2013), como o Growing Cell
Structures (GCS) (Fritzke, 1994), o Growing Neural Gas (GNG) (Kunze e Steffens, 1995) e o
Growing When Required (GWR) (Marsland et al., 2002).
O modelo proposto por Arajo e Costa (2009) chamado de Local Adaptive Receptive Field
Self-Organizing Map (LARFSOM) aproveita caractersticas desejveis do SOM e do GWR.
Do SOM, as capacidades de aprendizagem competitiva e agrupamento so preservadas. Por
outro lado, assim como o GWR, o LARFSOM s cresce quando novos nodos so necessrios.
A insero de nodos acontece com base em um limiar de ativao mnimo (at ), abaixo do qual,
novos nodos so criados para representar com perfeio novos padres de entrada sem causar
interferncia com a informao que foi aprendida previamente em outros nodos.
O treinamento do LARFSOM realizado em 8 passos: (1) inicializao de parmetros e
variveis, (2) seleo do padro de entrada, (3) pesquisa da unidade mais semelhante (Best
Matching Unity - BMU), (4) insero da conexo entre as duas unidades mais semelhantes; (5)
ajuste do campo receptivo local da BMU; (6) clculo da ativao da BMU em funo do campo
receptivo; (7) eventual insero de um novo nodo; ou, atualizao dos pesos da BMU; e (8)
verificao do critrio de parada. A seguir cada um destes passos ser descritos.
Passo 1 - Inicializao de Parmetros e Variveis:
Abaixo esto listados os parmetros do LARFSOM, estes parmetros devem ser inicializados
de acordo com os dados de entrada e o tipo de auto-organizao que se deseja:
Parmetros
f : Taxa de aprendizagem final;
: Modulador da taxa de aprendizagem;
at : Limiar de ativao;
emin : Erro mnimo;
dm : Mximo de vitrias de cada nodo.
Alm destes parmetros as seguintes variveis devem ser inicializadas, conforme os valores
151
indicados:
Variveis
N = 2: Nmero de nodos no mapa;
di = 0: Nmero de vitrias do nodo i;
t = 0: Nmero da iterao.
7.5
exp( k x w s1 k)
rs1
7.6
7.7
onde
di /dm , d d
i
m
f
=
,
di > dm
f
7.8
1 N1
k w i atual w i antigo k2 emin
N i=0
7.9
Algoritmo do LARFSOM
O algoritmo a seguir descreve de maneira procedimental os passos executados no treinamento
do LARFSOM.
Isto conclui a reviso dos modelos que serviram de inspirao para a construo dos
mtodos que sero propostos. Na seo seguinte sero apresentados os mapas propostos para o
agrupamento em subespaos.
153
7.3
Os modelos de aprendizagem no-supervisionados descritos acima apresentam conceitos valiosos para a construo do modelo utilizado no Mdulo de Associao. No entanto, nenhum deles
possui todas as propriedades necessrias. Sendo assim, dois novos modelos sero propostos,
um de topologia fixa, o DSSOM (Seo 7.3.1) e outro de topologia varivel, o LARFDSSOM
(Seo 7.3.2).
7.3.1
treinamento. Diferentemente do modelo proposto por Kangas et al. (1990), o DSSOM permite
que mais de um nodo vena para um dado estmulo de entrada, fazendo com que nodos que
reconhecem caractersticas distintas das consideradas pelo primeiro vencedor tambm possam a
agrupar aquele estmulo.
O DSSOM tambm utiliza uma medida de distncia ponderada como em Kangas et al.
(1990) (Eq. 7.1). No entanto, no DSSOM, o vetor de ponderao j = [( j1) ( j2) ... ( jm) ]T
indica a relevncia de cada atributo para cada nodo, e no um ajuste de escala. E portanto, j
chamando de vetor de relevncias associado ao nodo j. Cada elemento desse vetor converge para
um valor entre 0 e 1, que inversamente proporcional a variabilidade observada no respectivo
componente dos padres de entrada agrupados por tal nodo.
Escolha do Nodo Vencedor no DSSOM
No DSSOM, o primeiro vencedor de uma competio, s1 (x), o nodo que apresenta a maior
ativao para o padro de entrada (Eq. 7.10).
j ))]
s1 (x) = arg max[ac(D (x, w j ), Sum(
j
7.10
j)
Sum(
j) +
D (x, w j ) + Sum(
7.11
j ) dado por:
onde um valor pequeno para evitar diviso por zero. E Sum(
N
j ) = ( ji)
Sum(
i=0
7.12
Esta funo de ativao produz valores mais elevados para nodos que levam em conta mais
dimenses (Eq. 7.11). Ou seja, se dois vetores de pesos associados a dois nodos possuem a
mesma distncia ponderada para um dado estmulo de entrada, ter maior ativao aquele que
levar em considerao mais fortemente o maior nmero de atributos.
Atualizao do Vetor de Pesos no DSSOM
Quando um nodo o vencedor, a atualizao dos seus pesos e dos pesos de seus vizinhos ocorre
como no mapa de Kohonen (Eq. 5.3), porm, neste passo o vetor de ponderao j tambm
atualizado. Para isto, cada nodo conta com um vetor adicional, j , que estima a variao mdia
entre os estmulos para os quais este nodo foi o vencedor. Esta variao mdia estimada
155
atravs de uma mdia mvel semelhante proposta por Kangas et al. (1990), porm com apenas
um parmetro, , o qual indica a velocidade com a qual essa mdia mvel se modifica. Este
vetor inicializado com zeros e atualizado atravs da Eq. 7.13.
j (n + 1) = (1 )h ji(x) j (n) + h ji(x) )|x w j |
7.13
onde ]0, 1[. Note que a funo de vizinhana h ji(x) utilizada para que a atualizao
das distncias dos vizinhos da unidade vencedora ocorra tambm de forma proporcional
distncia para o vencedor. Observe ainda que o operador | | denota o valor absoluto aplicado
aos componentes do vetor, no norma.
Aps a atualizao do vetor de distncias, cada componente i do vetor de ponderao
atualizada, atribuindo-se um valor entre 0 e 1, inversamente proporcional a respectiva distncia
mdia computada (Eq. 7.14).
1 ( /
ji
jimax ) if jimax > 0
ji =
1
if jimax = 0
7.14
7.15
onde, k o ndice do nodo vencedor e k,i o i-simo componente de seu vetor de relevncias.
Esta atualizao faz com que as dimenses consideradas por ele sejam menos relevantes
nas prximas competies. Em seguida, enquanto o maior componente do vetor de relevncia
global, max , for maior do que o limiar , ou o nmero mximo de vencedores (kmax ) no for
atingido, outro vencedor (sk ) determinado de acordo com a Eq. 7.16, a qual utiliza o vetor de
relevncias global atual, em vez do vetor de relevncias de cada nodo. O Alg. 7.2 detalha este
processo.
)]
sk (x) = arg max[ac(D (x, w j ), Sum(
j
7.16
7.17
7.3.2
157
como agrupando este padro. Portanto, um padro de entrada pode pertencer a vrios grupos,
atendendo ao requisito do agrupamento em subespaos. No entanto, o mapa pode ser utilizado
tambm para agrupamento projetivo associando-se cada padro de entrada apenas ao grupo do
nodo de maior ativao. Em ambos os casos, se todos os nodos apresentarem ativao abaixo
do limiar at , o padro de entrada considerado um outlier, e ento atribudo ao conjunto de
rudo.
As equaes e algoritmos dos processos descritos acima sero apresentados a seguir, e
posteriormente sero fornecidos detalhes sobre o ajuste de parmetros do modelo.
159
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
do vetor de distncias, j , so inicializadas com valor zero. Estes vetores so atualizados aps
o passo de competio.
Assim como no DSSOM, o vencedor de uma competio, s(x), o nodo que apresenta a
maior ativao, ac(D (x, c j ), j ), em resposta ao padro de entrada:
s(x) = arg max[ac(D (x, c j ), j )]
j
7.18
A ativao de um nodo calculada como uma funo de base radial da distncia ponderada,
D (x, c j ), com o campo receptivo sendo ajustado em funo da norma do vetor de relevncias,
j k. Com isso, a ativao cresce com a norma do vetor de relevncias, e para uma mesma
k
distncia, quanto maior for a relevncia, maior ser a ativao:
ac(D (x, c j ), j ) =
160
1
j k2 + )
1 + D (x, c j )/(k
7.19
7.20
7.21
161
calculada por uma funo logstica inversa das distncias ji (Eq. 7.22):
se jimin 6= jimax
jimean ji
1
+
exp
ji =
s( jimax jimin )
1
caso contrrio
7.22
onde jimax , jimin e jimean so respectivamente, o mximo, o mnimo e a mdia dos componentes do vetor de distncias j . As relevncias computadas tendem a zero para dimenses com
variabilidade prximas de jimax , e as relevncias das demais dimenses so escaladas dentro
do intervalo [0,1]. O parmetro s > 0 controla a suavidade da funo logstica.
Uma vez que os componentes de j representam uma estimativa do inverso da DMA, ento
j k, fornece uma estimativa adequada do campo receptivo dos nodos, o que justifica
a norma k
sua presena na Eq. 7.19. Como resultado, quanto maior for a variao observada nos padres
de entrada para os quais um nodo vence, maior ser o seu campo receptivo.
Remoo de Nodos
No LARFDSSOM cada nodo j no mapa armazena uma varivel, wins j , que conta o nmero de
vitrias deste nodo desde o ltimo reset. Um reset ocorre aps maxcomp competies (linhas
17-23 no Alg. 7.4). Quando ocorre um reset, so removidos do mapa os nodos que apresentam
um nmero de vitrias abaixo do limiar l p maxcomp, onde l p um parmetro que representa
a percentagem mnima de vitrias necessria para um nodo permanecer no mapa. Por exemplo,
se l p for ajustado para 0,01, ento um nodo precisa ganhar ao menos 1% das competies, caso
contrrio ele ser removido do mapa no prximo reset.
Aps a remoo de nodos o nmero de vitrias dos nodos restantes reiniciada para zero.
Adicionalmente, para evitar a remoo prematura de novos nodos, quando um nodo criado
seu nmero de vitrias ajustado para l p nwins, onde nwins o nmero de competies que
ocorreram desde o ltimo reset.
Atualizao da Vizinhana
A cada reset a conexo entre os nodos atualizada. No LARFDSSOM, a existncia de uma
conexo entre dois nodos significa que eles agrupam padres em subespaos semelhantes. A Eq.
7.23, considera a similaridade entre os vetores de relevncia entre cada par de nodos no mapa
para modelar este comportamento:
conectados,
i jk < c m
se k
nodos i e j so
desconectados, caso contrrio
162
7.23
5
6
7
8
9
10
11
12
13
14
15
onde m o nmero de dimenses de entrada, e c em geral ajustado para 1/2. Como a relevncia
varia entre zero e um, m o valormximo para a norma das distncias entre dois vetores de
relevncia. Com c = 1/2, tem-se 2m como um limiar para conexo entre dois nodos, o qual
significa que apenas pares de nodos com diferenas que estejam acima a metade do mximo
possvel sero conectados.
Fase de Convergncia
Aps a remoo de nodos do mapa, pode ser necessrio reposicionar os nodos restantes para
representar adequadamente os padres de entrada, que previamente estavam sendo agrupados
em nodos que foram removidos. Na fase de convergncia o processo de auto-organizao
continua mas sem a criao de novos nodos. No entanto, aps esta reorganizao, alguns nodos
podem no atingir a percentagem mnima de padres para permanecerem no mapa, e acabam
sendo removidos. Portanto, este processo itera at que o nmero de nodos no mapa pare de
decair. A cada remoo de nodos, os padres sero redistribudos em menos nodos, o que
garante o trmino deste processo. O Alg. 7.5 detalha este processo.
Neste algoritmo, Nmax ajustado para o nmero atual de nodos no mapa (linha 2). Ento, os
nodos com wins j < l p maxcomp so removidos (linha 3). O critrio de parada verificado
aps a remoo de nodos, quando estabelecido se o mapa parou de decrescer ou atingiu o
valor mnimo (linha 4). Se ao menos um nodo tiver sido removido, ento necessrio atualizar
as conexes (linha 5) e continuar para o passo de reorganizao (linhas 6-15).
163
10
11
12
13
14
7.4
Nesta seo, sero descritos os experimentos que foram realizados para verificar as capacidades
de agrupamento do DSSOM e do LARFDSSOM, bem como, para compar-los com os demais
mtodos da literatura. Experimentos considerando o sistema completo sero apresentados no
Captulo 8.
Inicialmente ser descrita a mtrica de desempenho utilizada para comparar os mtodos
(Seo 7.4.1), e em seguida ser indicado como foi realizado o ajuste de parmetros dos
mtodos estudados (Seo 7.4.2). Ento sero apresentados os experimentos realizados. Na
164
Seo 7.4.3 sero utilizados conjuntos de dados simulados, propostos por Mller et al. (2009)
para avaliar algoritmos de agrupamentos em subespaos. Estes conjuntos de dados evidenciam
as caractersticas desejveis dos mtodos, como escalabilidade e tolerncia a rudos. Em
seguida, sero executados experimentos com dados reais de problemas relacionados com o
agrupamento em subespaos (Seo 7.4.5). O objetivo destes experimentos mostrar que os
modelos propostos so gerais. Na Seo 7.4.6 sero descritos experimentos realizados com
as percepes do ambiente descrito no Captulo 4. Nestes experimentos o objetivo avaliar
qualitativamente os agrupamentos formados, e verificar a viabilidade de relacion-los com
conceitos que representam caractersticas do ambiente e de seus objetos.
7.4.1
Mtricas de Desempenho
7.4.2
Ajustes Paramtricos
165
Latina (LHS, do ingls Latin Hypercube Sampling) (Helton et al., 2005) e foram registrados os
melhores resultados alcanados por cada mtodo em cada conjunto de dados. A LHS garante
uma cobertura completa do espao de parmetros evitando que fiquem regies grandes sem
amostras. Mais especificamente, o intervalo de cada parmetro dividido em 500 intervalos de
igual probabilidade e um nico valor amostrado aleatoriamente dentro de cada intervalo.
importante notar que PROCLUS e os mtodos baseados em SOM so estocsticos ou
dependem de sua inicializao, assim eles podem no atingir seu melhor resultado em uma
nica execuo. Mesmo assim, todos os mtodos foram executados apenas uma vez para cada
conjunto paramtrico de forma a manter igual o nmero de execues de cada mtodo.
Os intervalos de parmetros dos mtodos baseados em SOM so mostrados da Tabela 7.1
at a Tabela 7.5. Estes intervalos so adequados para conjuntos de dados com valores variando
entre [0,1]. Os intervalos de parmetros para os demais mtodos foram os mesmos utilizados
em estudos anteriores (Mller et al., 2009; Vidal, 2011). Foi utilizada uma estrutura unidimensional para SOM, SOM-KANGAS e DSSOM pois foi nesta configurao que estes mtodos
apresentaram os melhores resultados em uma anlise preliminar.
Tabela 7.1 Intervalo paramtrico para o SOM.
Parmetros
Nmero de nodos (N)
Taxa de Aprendizagem ()
Decamento da Aprendizagem (2 )
Vizinhana ( )
Decamento da Vizinhana (1 )
min
max
2
0.001
0.01
0.001
0.01
18
0.1
2
0.99
2
166
min
max
2
0.001
0.01
0.001
0.01
0.001
0.8
1.01
18
0.1
2
0.99
2
0.1
0.99
1.2
min
max
0.001
0.001
0.001
50
0.5
0.2
0.99
500
min
max
2
0.001
0.01
0.001
0.01
0.001
0
0
1
0
18
0.1
2
0.99
2
0.1
1
1
3
0.999
7.4.3
min
max
0.7
0.1%
0.001
1S*
0.001
0.0001eb
0.01
0
0.999
10%
0.1
100S*
0.1
0.5eb
0.1
0.5
Nos experimentos seguintes, compara-se o desempenho do SOM, do mapa proposto por Kangas
et al. (1990) que introduz a distncia ponderada (SOM-KANGAS), do DSSOM e do LARFDSSOM com os mtodos de minerao de dados revisados na Seo 7.1 (MINECLUS, PROCLUS,
DOC e STATPC). Esta comparao foi feita utilizando-se os conjuntos de dados do framework
chamado OpenSubspace (Mller et al., 2009). Este framework fornece conjuntos de dados do
mundo real adaptados a partir do Repositrio de Aprendizagem de Mquina da UCI (Bache
167
melhor que os mtodos anteriores, obtendo resultados quase perfeitos em praticamente todos os
conjuntos de dados simulados. Seu desempenho se reduz ligeiramente em conjuntos de dados
com um pequeno nmero de dimenses relevantes (Figura 7.3) e com altos nveis de rudo
(Figura 7.5). J o DSSOM apresenta resultados ligeiramente inferiores ao MINECLUS e ao
DOC, que apresentaram os melhores resultados dentre os mtodos de minerao de dados.
169
extra para avaliar o desempenho dos mtodos ao adicionar dimenses contendo apenas rudo
branco a um conjunto de dados inicialmente com cinco dimenses (o primeiro conjunto de
dados avaliado na Figura 7.3).
A Figura 7.6 mostra que o desempenho da maioria dos mtodos significativamente afetado
pelo aumento do nmero de dimenses ruidosas: 1, 2, 3, 4 e 5, o que representa 16,6%,
28,6%, 37,5%, 44,5% e 50% de dimenses irrelevantes respectivamente. Surpreendentemente,
DSSOM apresentou um decaimento aproximadamente linear e baixo, superando todos os outros
mtodos em conjuntos de dados com 3, 4 e 5 dimenses irrelevantes. J o LARFDSSOM,
apesar de tambm apresentar decaimento exponencial a partir de 2 dimenses irrelevantes, ainda
apresentou um desempenho superior ao dos mtodos de minerao de dados.
170
7.4.4
Figura 7.7 Comparao entre os agrupamentos formados com o (a) SOM e com o (b) DSSOM para
um conjunto de dados com 12 grupos. A cada um dos nodos foi atribuda uma cor e a mesma cor foi
atribuda aos padres agrupados por ele. O comprimento das barras verticais e horizontais (em azul)
representa a relevncia atribuda pelo nodo respectiva dimenso.
Para ilustrar as diferenas entre o DSSOM e o LARFDSSOM as Figuras 7.8a e 7.8b exibem
as amostras de dados e os nodos dos mapas em suas configuraes finais. Os resultados
so relativos a um conjunto de dados com trs dimenses e nove grupos, com caractersticas
similares ao conjunto de dados exibido previamente na Figura 7.1. As dimenses irrelevantes
em cada grupo so aquelas em que os dados se espalham por todo o domnio.
171
(a) DSSOM
(b) LARFDSSOM
Figura 7.9 Projeo em duas dimenses de um conjunto de dados simulado com 20 dimenses, 70%
de rudo e 10 grupos. As cores representam os grupos identificados pelo LARFDSSOM. Em (a) so
plotadas todas as amostras do conjunto de dados. Em (b) so plotadas apenas as amostras dentro do
campo receptivo dos nodos do LARFDSSOM.
7.4.5
A performance dos mtodos propostos foi avaliada nos sete conjuntos de dados reais fornecidos
na base de framework OpenSubspace. Estas bases de dados no incluem informao a respeito
das dimenses relevantes. Portanto, todas as dimenses foram consideradas relevantes nos
agrupamentos alvo utilizados para avaliar os mtodos. Alm disso, embora seja provvel que
haja rudo nos dados eles no esto rotulados como tal. Adicionalmente, cada amostra deve
ser associada a apenas um grupo, configurando um problema de agrupamento projetivo. Dessa
maneira, tanto o DSSOM quanto o LARFDSSOM foram configurados para operar neste modo.
Cabe observar ainda, que apesar destas bases terem sido utilizadas na literatura para avaliar
algoritmos de agrupamento em subespaos e agrupamento projetivo (Mller et al., 2009), no
173
Tabela 7.6 Valores de CE para bases de dados reais. Melhores resultados de cada categoria mostrados
em negrito. O nmero de grupos esperado e encontrado mostrado entre parnteses. O melhor mtodo
para cada conjunto de dados est marcado com *.
CE
Breast (2)
Diabetes (2)
Glass (6)
Liver (2)
Pendigits (10)
Shape (9)
Vowel (11)
Mdia
Desvio
MINECLUS
DOC
PROCLUS
STATPC
*0,763 (1)
*0,763 (1)
0,702 (2)
0,185 (3)
0,651 (1)
0,654 (2)
0,647 (2)
0,084 (20)
0,393 (4)
0,439 (2)
0,528 (5)
0,234 (19)
0,583 (2)
0,580 (1)
0,565 (2)
0,050 (38)
0,294 (4)
0,566 (15)
0,615 (11)
0,129 (39)
0,285 (5)
0,419 (5)
0,706 (11)
0,451 (9)
0,091 (1)
0,142 (3)
0,253 (10)
0,060 (39)
0,437
0,509
0,574
0,171
0,237
0,200
0,156
0,141
SOM
SOM-KANGAS
DSSOM
LARFDSSOM
0,717 (2)
0,687 (2)
0,600 (2)
*0,763 (1)
0,693 (2)
*0,732 (2)
0,684 (2)
0,727 (2)
0,551 (9)
0,547 (3)
0,540 (6)
*0,575 (5)
0,559 (2)
0,551 (2)
0,557 (3)
0,580 (1)
*0,776 (11)
0,665 (9)
0,773 (11)
0,737 (10)
0,719 (11)
*0,756 (9)
0,744 (10)
0,719 (8)
0,309 (11)
0,310 (9)
0,308 (12)
*0,317 (9)
0,618
0,607
0,601
*0,631
0,160
0,154
0,157
0,158
GPCA
SSC
0,601 (2)
0,606 (2)
0,503 (2)
0,667 (2)
0,379 (6)
0,486 (2)
0,533 (2)
*0,591 (2)
0,688 (9)
0,244 (11)
0,504
0,547
0,093
0,164
se pode dizer que eles possuem as caractersticas anteriormente descritas para estes tipos de
agrupamentos. Portanto, espera-se que as diferenas entre mtodos de agrupamento clssico e
de agrupamento projetivo ou em subespaos sejam sutis.
A Tabela 7.6 mostra que nenhum dos mtodos comparados, pode ser considerado o melhor
em todos os conjuntos de dados. Na categoria dos mtodos de minerao de dados, PROCLUS
apresentou os melhores resultados em mdia; na categoria de viso computacional, SSC apresentou os melhores resultados em mdia, com valores similares ao do PROCLUS e foi o melhor
mtodo para o conjunto de dados Liver. No entanto, os altos requisitos de memria do GPCA
e do SSC impediram estes mtodos de produzir resultados com os recursos computacionais
disponveis (16GB de RAM), nos conjuntos de dados com maiores quantidades de amostras e
grupos (Pendigits para o SSC; e Pendigits, Shape e Vowel para GPCA).
Considerando todos os mtodos, o LARFDSSOM apresentou os melhores resultados em
mdia, e um teste t com nvel de significncia de 5% mostra que o LARFDSSOM estatisticamente melhor em mdia que PROCLUS e SSC. De fato, todos os mtodos baseados em SOM
apresentaram em mdia bons resultados para as bases de dados avaliadas, em comparao com
os mtodos das outras categorias. A semelhana entre os resultados dos mtodos baseados em
SOM era esperada, uma vez que, nem as dimenses relevantes nem os outliers so conhecidos
para estas bases. Note que na Seo 7.4.3, a Figura 7.2 mostrou que em bases de dados com baixos nveis de rudo estes mtodos apresentam resultados semelhantes. Ou seja, nestas condies
os mtodos propostos se comportam de forma semelhante ao SOM.
Na seo seguinte o DSSOM ser avaliado qualitativamente quanto a sua capacidade em
agrupar percepes do ambiente. Apesar dos resultados obtidos anteriormente favorecerem
o LARFDSSOM em relao ao DSSOM, nesta anlise qualitativa o LARFDSSOM foi posto
de lado e o DSSOM foi preferido por sua capacidade de projetar os agrupamentos em duas
dimenses, facilitando assim a visualizao dos agrupamentos realizados.
174
7.4.6
175
Figura 7.10 Mapa perceptivo formado pelo agente aps a explorao do ambiente. Cada retngulo
representa um nodo da grade. Os retngulos so desenhados com a informao de cor armazenada nos
nodos. As letras C, F e L representam, respectivamente, as percepes de cor, forma e localizao e o
nvel de branco de cada letra diretamente proporcional relevncia mdia dos atributos relacionados
com a respectiva percepo, e o nvel de cinza do fundo da parte externa de cada retngulo representa o
nvel de ativao do nodo. O ponto branco, nodo (1,5), destaca o vencedor da ltima competio.
Regies Identificadas
(i) Alguns nodos se ativam fortemente para objetos especficos, reconhecendo
simultaneamente forma, cor e tamanho, sendo que para todos os objetos treinados o nodo vencedor codificava a mesma cor, forma e tamanho do objeto
apresentado;
(ii) Alguns nodos se ativam sempre que algumas caractersticas perceptivas so fornecidas, por exemplo, sempre que um objeto de determinada cor apresentado.
Estes nodos em geral apresentam nveis de ativao em mdia mais baixo que
os anteriores;
(iii) Um conjunto de nodos na parte central do mapa criou um padro com ativao
sutil, mapeando as regies do tabuleiro, como centro, parte inferior esquerda,
inferior direita, superior esquerda e superior direita. Esse padro de ativao
permite localizar a percepo apresentada em alguma regio do tabuleiro.
176
Figura 7.11 Padres de ativao formados pelo mapa, ao fornecer como entrada as percepes dos
objetos indicados abaixo de cada figura.
177
Figura 7.12 Padres de ativao formados pelo mapa ao fornecer como entrada as percepes de clulas
vazias indicadas abaixo de cada figura.
Ento, uma anlise cuidadosa dos padres de ativao produzidos pelo mapa foi realizada
com diferentes tipos de estmulos. Exemplos destes padres de ativao so exibidos na
Figura 7.11 e na Figura 7.12. Esta anlise permitiu identificar diversas regies nas quais ocorre
o reconhecimento de conceitos (Figura 7.13).
A localizao das clulas do tabuleiro parece ser a caracterstica mais difcil de aprender, pois
as variaes da ativao entre os nodos so sutis. Em geral, o primeiro vencedor da competio
para a percepo de um objeto representa simultaneamente a forma e cor do objeto, segundo e
178
7.5. CONCLUSO
terceiro vencedores representam apenas a forma ou apenas a cor, s a partir de ento os nodos
que representam a localizao do objeto aparecem na lista de vencedores. Isso provavelmente
ocorre devido a pequena quantidade de atributos (2) que so utilizados para representar a posio
das clulas do tabuleiro em relao s demais caractersticas analisadas (3 atributos para cor e 5
atributos para forma). Observa-se ainda uma grande quantidade de nodos representando clulas
vazias do tabuleiro (cor cinza, e forma indefinida).
Uma outra dificuldade do mapa parece ser a juno de regies com reconhecimento semelhante. Por exemplo, diversas regies do tabuleiro reconhecem objetos vermelhos de tipos
diferentes (canto superior direito e na regio central do mapa). Isto provavelmente ocorre devido
a topologia fixa do mapa.
Com isso, pode-se concluir que o DSSOM capaz de encontrar as correlaes entre
percepes de origens distintas para formar conceitos relacionados com propriedades e objetos
do ambiente simulado.
7.5
Concluso
179
8
Validao do Modelo
Este Captulo descreve experimentos que tem por objetivo validar o modelo proposto como
um todo, avaliando sua capacidade de reproduzir, em alguma extenso, padres de aprendizagem
de palavras observados em experimentos de aprendizagem de palavras com pessoas. Porm, no
estgio atual das pesquisas no esperada uma reproduo exata das taxas de aprendizagem,
pois, ainda existe uma distncia significativa entre o modelo proposto e o alvo de sua modelagem. Apesar disso, espera-se que o modelo apresente padres de aprendizagem similares aos
apresentados por pessoas, de forma que ele possa ser til para levantar e avaliar hipteses sobre
como essa aprendizagem ocorre.
Trs trabalhos da rea de psicolingustica foram utilizados como referncia na avaliao
do modelo. Yu e Smith (2007) foram pioneiros na proposio de experimentos para avaliar
a capacidade de pessoas a aprenderem o significado de palavras em situaes com diferentes
nveis de incerteza nas associaes possveis. Em seus experimentos, vrias palavras so
pronunciadas (rtulos) enquanto os indivduos observam vrias imagens de objetos (referentes).
H uma correspondncia entre rtulos e referentes que se espera que os indivduos sejam
capazes de aprender aps certo nmero de repeties. Este tipo de aprendizagem chamada de
aprendizagem cross-situacional, por confrontar informaes obtidas em diferentes situaes.
Yurovsky et al. (2013) tomaram como base este tipo de experimento estudando situaes
onde alguns rtulos podem estar associados a mais de um referente. Os padres de aprendizagem
dos indivduos, refletidos nas taxas mdias de acerto obtidas por eles neste tipo de experimento
so utilizados para formular hipteses sobre o funcionamento dos mecanismos de aprendizagem
de palavras que esto por trs das habilidades lingusticas das pessoas. Por exemplo, Trueswell
et al. (2013) comparam dois tipos de hipteses para aprendizagem de palavras, uma em que
mltiplos significados podem ser armazenados para cada palavra, e outro em que apenas um
significado possvel armazenado.
Nestes trs trabalhos, diversos padres de aprendizagem so levantados, fornecendo evidn-
181
182
valor
0,985
0,15%
0,10
0,021S
5 104
12 106 eb
0,007581760
0,5
0,935
0,001%
0,1
2S
0,1
14 106 eb
0,00394
0,5
10
10
0,1
0,9
0,0001
0,0739221
0,8
0,999
1
1
0,9
0,0002
0,9
0,8
0,999
17,5211%
0,870879
10000
0,465091
0,0134102eb
1,31357
0,986745
183
8.1
Uma das possveis solues para tratar o problema descrito por Quine (1960), ou seja, identificar corretamente e aprender os referentes pretendidos por um interlocutor, consistem na
aprendizagem cross-situacional de palavras. Neste tipo de aprendizagem, as palavras no seriam
aprendidas em uma nica exposio, mas utilizando informao de mltiplas situaes onde
ocorrem ensaios de aprendizagem. Sendo assim, um aprendiz que seja incapaz de decidir
sem ambiguidade o referente de uma rtulo em apenas um ensaio, pode armazenar possveis
mapeamentos que sero futuramente reforados ou enfraquecidos por novas evidncias.
Yu e Smith (2007) apresentaram um design experimental para avaliar de forma sistemtica a
capacidade de pessoas de aprender palavras apenas com informao cross-situacional. Neste
tipo de experimento, adultos so expostos a uma sequncia de eventos de aprendizagem onde
so apresentadas simultaneamente mltiplas palavras faladas e mltiplas figuras de objetos
individuais, mas no fornecida nenhuma informao sobre os mapeamentos corretos entre palavras e figuras. O desempenho notvel1 dos indivduos nas diversas condies de aprendizagem
testadas sugere que eles calculam estatsticas cross-teste com preciso suficiente para aprender
rapidamente pares rtulo-referente, mesmo em contextos de aprendizagem ambguos. Nas
sesses seguintes sero apresentados os experimentos realizados com pessoas, e os resultados
destes experimentos sero comparados com os obtidos com o modelo proposto.
8.2
Em Yu e Smith (2007) a capacidade de aprendizagem cross-situacional de trinta e oito graduandos foi avaliada. Os estmulos fornecidos foram slides contendo figuras de objetos incomuns
pareados com pseudopalavras apresentadas de forma auditiva. Estas palavras artificiais foram
geradas por um programa de computador utilizando fonemas comuns no idioma ingls, lngua
nativa dos participantes. No caso, haviam 54 pares rtulo-referente formados por pseudopalavras
nicas e objetos nicos, escolhidos aleatoriamente e separados em trs grupos de 18 pares,
utilizados em trs condies de treinamento distintas.
As trs condies de treinamento diferenciam-se no nmero de rtulos e referentes apresentados aos indivduos em cada ensaio. Na condio 2 x 2, em cada ensaio foram apresentadas
1 Smith
et al. (2009) apontam que os resultados de Yu e Smith (2007) superestimam as capacidades de acerto
dos indivduos devido a aprendizagem cross-situacional e prope um paradigma experimental mais preciso. Porm,
este novo paradigma no tem sido considerado amplamente na literatura, sendo o paradigma de Yu e Smith (2007)
mais frequentemente utilizado.
184
dois rtulos e duas figuras. Na condio 3 x 3, em cada ensaio foram apresentadas trs rtulos e
trs figuras e, finalmente, na condio 4 x 4, foram apresentadas quatro rtulos e quatro figuras
em cada ensaio. Durante os ensaios no havia qualquer indicao de qual palavra representava
cada figura. Cada ensaio se iniciou com a apresentao simultnea de referentes dispostos na
tela de um monitor de computador, e ento as palavras que nomeavam os referentes exibidos
eram apresentadas atravs dos alto-falantes do computador. importante ressaltar que a ordem
temporal das palavras pronunciadas no estava relacionada com a posio espacial dos referentes.
A Figura 8.1 ilustra um ensaio na condio 4 x 4.
Para formar cada ensaio, os 2, 3 ou 4 pares, de acordo com o tipo de condio, foram
selecionados aleatoriamente, sem repetio, e ao longo dos ensaios cada par foi apresentado
exatamente seis vezes. No entanto, devido multiplicidade de referentes e palavras apresentadas
(ambiguidade), em cada ensaio havia incerteza sobre os mapeamentos corretos, tornando a
aprendizagem mais difcil. Mais especificamente, em mdia cada palavra ocorreu simultaneamente com 5,09 referentes incorretos na condio 2 x 2, 8,76 na condio 3 x 3 e 12,22 na
185
condio 4 x 4. O nmero total de ensaios variou entre as condies para manter constante o
nmero de repeties de cada palavra nica, bem como o tempo total do experimento, sendo
portanto, 54, 36 e 27 ensaios para as condies, 2 x 2, 3 x 3 e 4 x 4 respectivamente.
Antes de iniciar o experimento, cada participante foi informado que sua tarefa era aprender
palavras e referentes, mas no foram ditos que havia apenas um referente por palavra. Ao
final de todos os ensaios de aprendizagem, os participantes foram testados apresentando uma
palavra e quatro figuras, sendo uma figura a correta e outras trs sendo distraidores escolhidas
aleatoriamente. Cada indivduo foi ento solicitado a informar qual era a figura nomeada pela
palavra apresentada. Este teste foi repetido para cada uma das 18 palavras treinadas.
8.2.1
Simulaes do Experimento 1
Nveis de atividade
LARFDSSOM - Associao
D - Associao
C - Contexto
B - Representao
LARFDSSOM - Palavras
LARFDSSOM - Imagens
4 fonemas
...
12 caractersticas
por fonema
...
...
...
...
A - Percepo
Representao
fontica
chair fork
/k /or /f /ar
/e
/ch
Figura 8.2 Ilustrao das etapas de processamento executadas nos experimentos de associao. A aquisio das percepes; B - composio da representao; C - criao e reconhecimento do contexto; e
D - associao e reconhecimento dependente do contexto.
187
as palavras, foram fornecidas em sequncia, apenas uma vez em cada ensaio, foi criada uma
representao auditiva nica para cada ensaio, encadeando-se a representao da sequncia de
fonemas das palavras apresentadas.
Por exemplo, supondo que as quatro palavras do ensaio sejam bed, chair, bowl e fork, ento
formada uma representao nica da sequncia de fonemas da frase bed chair bowl fork,
ou seja, /b e d t S e @ b @ U f O k/. Por outro lado, os indivduos podiam olhar para cada
uma das imagens, observando-as individualmente. Alm disso, j que no h correlao entre
as imagens, elas fazem mais sentido quando observadas individualmente. Sendo assim, cada
imagem foi representada de maneira individual. E ento o estmulo de entrada completo (visual
e auditivo) foi construdo combinando o estmulo auditivo com cada um dos estmulos visuais.
Dessa forma, em cada ensaio da condio 2 x 2 foram fornecidas duas entradas para o modelo
uma combinando o estmulo auditivo composto com a primeira imagem e outra combinando-o
com a segunda imagem. De maneira anloga, em cada ensaio da condio 3 x 3 foram fornecidas
trs entradas para o modelo, e em cada ensaio da condio 4 x 4 foram fornecidos 4 entradas
para o modelo, sempre combinado o estmulo auditivo com cada uma das imagens a serem
apresentadas.
Aps realizados todos os ensaios, o modelo foi testado de forma anloga ao que foi feito
no experimento de Yu e Smith (2007), ou seja, foi apresentada uma palavra e quatro figuras,
sendo uma figura a correta e outras trs sendo distraidores escolhidas aleatoriamente. Os
estmulos para os testes foram construdos da mesma maneira que durante o treinamento, a
nica diferena que aqui h apenas uma palavra, a qual foi combinada com cada uma das
imagens dos objetos para formar as entradas de teste para o modelo. Para identificar qual dos
quatro pares rtulo-referente o modelo considerou como sendo o correto, cada um deles foi
apresentado como entrada para o modelo em sequncia aleatria, e o nvel de atividade do nodo
vencedor no Mdulo de Associao foi registrado. Ento, o par que produziu o maior nvel de
atividade dentre os quatro, o par considerado correto pelo modelo, pois o que representa a
associao mais forte, e portanto, um acerto registrado para o modelo caso o par que produziu
a maior ativao seja o que contm o objeto correto.
O modelo foi treinado e testado 38 vezes com inicializaes aleatrias, representando os
38 indivduos. Os resultados obtidos nas simulaes so apresentados a seguir em comparao
com os resultados apresentados por Yu e Smith (2007).
8.2.2
Resultados do Experimento 1
A Figura 8.3 mostra que em todas as condies, os indivduos acertaram significativamente mais
pares (0, 889 0, 07, na condio 2 x 2, 0, 778 0, 10, na condio 3 x 3 e 0, 556 0, 00) do
188
que acertariam se respondessem ao acaso (1/4 = 0,25, pela probabilidade a priori). Mesmo na
condio mais difcil (4 x 4), com 16 possveis associaes por ensaio, os indivduos acertaram
em mdia 10 dos 18 pares rtulo-referente (0,55). Alm disso, os resultados mostram claramente
que o aumento do nvel de incerteza dentro dos ensaios certamente afeta negativamente na
aprendizagem. Isto pode ser confirmado comparando a mdia das condies 2 x 2 com a da
condio 4 x 4 por meio de um teste t de Student com nvel de significncia de 1%.
Figura 8.3 Resultados do experimento de Yu e Smith (2007) em comparao com os resultados das
simulaes com o modelo. As barras de erro mostram o desvio padro amostral. A linha tracejada
horizontal indica a probabilidade de acerto ao acaso.
Apesar de haver diferenas visveis, concluses anlogas podem ser obtidas com relao aos
resultados das simulaes (0, 778 0, 044, na condio 2 x 2, 0, 700 0, 061, na condio 3 x 3
e 0, 567 0, 084, na condio 4 x 4). A diferena mais importante observada na condio 2 x
2, na qual o modelo aprende cerca de 78% dos pares enquanto que os indivduos foram capazes
de aprender cerca de 89% dos pares. Alm disso, o aumento dos nveis de incerteza nos ensaios
parece afetar menos o modelo do que os indivduos. Ainda assim, aplicando o mesmo teste
estatstico para compara a condio 2 x 2 com a condio 4 x 4 a hiptese de que as mdias
sejam iguais rejeitada com nvel de significncia de 1%. Portanto, pode-se dizer que o padro
exibido pelo modelo se mostra compatvel em termos gerais com o que foi observado com os
indivduos.
189
8.3
Na aprendizagem de palavras, conjectura-se que ocorre competio entre as possveis associaes para determinar qual ser aprendida. Mecanismos competitivos poderiam tornar mais
evidente a separao sinal de rudo nas entradas, o que ajudaria a explicar a alta velocidade com
que os indivduos aprendem as associaes.
No mbito dos experimentos de aprendizagem cross-situacional, essa competio pode
ocorrer entre os referentes de um mesmo ensaio (local) ou entre referentes de ensaios distintos
(global). Se for verdade que essa competio ocorre, ento aprender associaes de palavras
com mais de um referente deve ser mais difcil do que aprender a associao de uma palavra
com apenas um referente, ou seja, se a competio local, os mapeamentos rtulo-referente
competem dentro de um nico ensaio (ou em um intervalo de tempo restrito), e cada referente
de uma palavra com significado duplo deve inibir diretamente o aprendizado de outro referente
dentro do mesmo ensaio. Se a competio global, ento o acmulo de informaes sobre
um dos referentes de uma palavra em um ensaio deve inibir o acmulo informaes sobre essa
mesma palavra e seu outro referente em ensaios posteriores.
Os experimentos propostos por Yurovsky et al. (2013), descritos a seguir, buscam avaliar
se ocorre competio, e se a mesma local ou global, testando a capacidade de indivduos em
aprender mapeamentos com mais de um referente. Para isso, os autores utilizam de experimentos
cross-situacionais que seguem o paradigma experimental proposto por Yu e Smith (2007).
8.3.1
No primeiro experimento realizado por Yurovsky et al. (2013), 48 graduandos tiveram suas
capacidades de aprendizagem de pares rtulo-referente avaliadas. Neste experimento, tambm
foram utilizados 18 pares, porm eles foram divididos em seis palavras com apenas um referente
(associao nica), seis palavras com dois referentes (associao dupla) e mais seis palavras
sem nenhum referente (rudo).
As palavras de associao nica cumprem o mesmo papel daquelas do experimento anterior,
sempre co-ocorrendo com o seu referente em cada ensaio. J as palavras de associao dupla,
co-ocorrem com ambos seus referentes em cada ensaio. Uma vez que, tanto as palavras nicas
quanto as duplas co-ocorrem seis vezes com seus referentes, o total de co-ocorrncias o
mesmo para ambos os tipos de palavras. Por fim, as palavras rudo co-ocorrem com frequncia
aproximadamente igual para todos os referentes, e portanto, no so mapeadas de maneira
190
consistente para nenhum referente. Seu papel aqui o de produzir um nmero igual de palavras
e referentes em cada ensaio, evitando que os participantes percebam de imediato que havia
mapeamentos que no so de um para um.
Cada ensaio consiste na apresentao de quatro palavras e quatro referentes (condio 4
x 4), sendo que a palavra que era o rtulo correto de cada um dos referentes sempre estava
presente. Dois dos ensaios foram montados com quatro palavras nicas; 14 dos ensaios foram
compostos por duas palavras nicas, uma palavra dupla e uma palavra rudo; e 11 dos ensaios
foram compostos por duas palavras duplas e duas palavras rudo, totalizando ento 27 ensaios
(Figura 8.4). Assim, embora em todos os ensaios sempre houvesse quatro palavras e quatro
referentes, a estrutura interna de mapeamento variou consideravelmente entre os ensaios, e
raramente consistiu de mapeamentos um para um (em apenas 2 dos 27 ensaios).
Figura 8.4 Estrutura do Experimento 2. Em cada ensaio, os participantes encontraram quatro palavras e
quatro referentes, mas o nmero de mapeamentos corretos para cada palavra varia dependendo do tipo
de palavra. As letras minsculas indicam palavras e as letras maisculas indicam referentes. Palavras
nicas possuem um mapeamento correto por ensaio (ex.: b-B e c-C), palavras duplas possuem dois
mapeamentos corretos por ensaio (ex.: a-A1 e a-A2, f-F1 e f-F2) e palavras rudo no so mapeadas para
nenhum referente (ex.: d e g). Palavras nicas e seus referentes esto em preto, palavras duplas e seus
referentes em branco, e as palavras rudo em cinza.
191
8.3.2
Simulao do Experimento 2
8.3.3
Resultados do Experimento 2
Figura 8.5 Resultados do primeiro experimento de Yurovsky et al. (2013) em comparao com os
resultados das simulaes com o modelo no Experimento 2. As linhas tracejadas indicam a probabilidade
de acerto ao acaso. Para manter o padro do trabalho original, neste experimento,
as barras de erro
mostram o erro padro (SE), e no o desvio padro (SD), onde: SE = SD/ nmero de amostras.
193
8.3.4
Para tratar da diferenciao dentre os dois tipos de competio, neste experimento de Yurovsky
et al. (2013) os participantes foram expostos a apenas um dos referentes corretos de cada palavra
dupla em cada ensaio, apesar de, ao final de todos os ensaios terem sido expostos a ambos
os referentes mesma quantidade de vezes. Se a competio opera apenas no nvel local, os
participantes deste experimento devem ser capazes de aprender ambos os referentes de cada
palavra dupla to bem quanto o referente de cada palavra nica. Por outro lado, se houver
competio em nvel global, a aprendizagem de palavras duplas deve ser prejudicada novamente,
assim como no Experimento 2.
Para este experimento foram escolhidos 48 graduandos que no haviam participado de outros
experimentos cross-situacionais. Os estmulos fornecidos foram similares aos do Experimento
2, no caso, 12 palavras e 18 objetos do experimento anterior foram utilizados, dentre as quais,
seis palavras nicas e seis palavras duplas (Figura 8.6).
Figura 8.6 Estrutura do Experimento 3. Em contraste com o Experimento 2, os dois referentes de cada
palavra dupla no aparecem simultaneamente, mas esto distribudos em diferentes ensaios durante todo
o treinamento. A frequncia de exposio de cada de referente correto a mesma. Palavras nicas e seus
referentes esto em preto; palavras duplas e seus referentes esto em branco. No houve palavras rudo
no Experimento 3. As letras minsculas indicam palavras e letras maisculas indicam referentes.
Os ensaios foram construdos tambm na condio 4 x 4, com cada palavra nica aparecendo
seis vezes e cada palavra dupla aparecendo 12 vezes, seis com cada um de seis referentes corretos,
194
8.3.5
Simulao do Experimento 3
8.3.6
Resultados do Experimento 3
8.3.7
Se a competio global ocorre de forma on-line, em cada tentativa de cada ensaio, ento, a
ordem em que os participantes so expostos aos dois referentes para cada palavra dupla deve
195
Figura 8.7 Resultados do segundo experimento de Yurovsky et al. (2013) em comparao com os
resultados das simulaes com o modelo no Experimento 3. As linhas tracejadas indicam a probabilidade
de acerto ao acaso. As barras de erro mostram o erro padro.
importar, criando diferenas na aprendizagem dos referentes que foram vistos primeiro em
comparao com os referentes que foram vistos depois. Por outro lado, se a competio global
opera atravs de uma espcie de processamento em lote, ao final da aprendizagem ou durante os
testes, ento a ordem de aprendizagem no devem ser relevante.
Assim, ambas as hipteses sobre a competio global preveem que palavras duplas sofrero
um decrscimo em relao a palavras nicas, conforme observado nos Experimentos 2 e 3. A
questo-chave se esse decrscimo maior para o segundo referente aprendido (um resultado
que implica julgamento competio global) ou mais ou menos equivalente (um resultado que
implica em competio lote).
Para avaliar estas hipteses, Yurovsky et al. (2013) organizaram este experimento da mesma
forma que o Experimento 3, com a exceo de que desta vez, um dos referentes ir co-ocorrer
com sua palavra dupla nas primeiras seis apresentaes, s ento o outro referente ir co-ocorrer
com a palavra dupla nas seis apresentaes posteriores. Note que a quantidade de apresentaes
de cada referente com cada palavra dupla a mesma que no experimento anterior, apenas a
ordem de apresentao foi modificada (Figura 8.8).
Aqui outra vez, 48 graduandos que nunca haviam participado de experimentos crosssituacionais foram selecionados para estes experimentos.
8.3.8
Simulao do Experimento 4
Nas simulaes do Experimento 4 foram utilizadas as mesmas palavras e referentes do Experimento 3, e a metodologia utilizada para gerar os estmulos de entrada para o modelo no
treinamento e nos testes, bem como a maneira como os resultados foram computados foi a
mesma do Experimento 3. A nica modificao foi na ordem de apresentao dos ensaios. Esta
196
Figura 8.8 Estrutura do Experimento 4. Em contraste com o Experimento 3, os dois referentes de cada
palavra dupla (chamados de anterior e posterior) foram separados ao longo do treinamento. As seis
primeiras ocorrncias de uma palavra dupla foram com seu referente anterior, e as prximas seis com seu
referente posterior. Palavras nicas e seus referentes esto em preto; palavras duplas e seus referentes
esto em branco. As letras minsculas indicam palavras e letras maisculas indicam referentes.
modificao foi feita escolhendo-se aleatoriamente um dos referentes de cada palavra dupla
para ser apresentado por ltimo. Ento, todos os ensaios contendo este referente foram movidos
para o final da lista de ensaios.
8.3.9
Resultados do Experimento 4
Figura 8.9 Resultados da primeira etapa do terceiro experimento de Yurovsky et al. (2013) em comparao com os resultados das simulaes com o modelo no Experimento 4a. As linhas tracejadas indicam a
probabilidade de acerto ao acaso. As barras de erro mostram o erro padro.
No geral, as taxas de aprendizagem de palavras nicas (0, 450 0, 300 > 0, 25) e duplas
197
(0, 730 0, 240 > 0, 5) foram semelhantes s obtidas nos experimentos anteriores. No entanto,
os participantes no apresentaram dificuldade significativamente maior em aprender ambos
referentes de palavras duplas (0, 400 0, 300 > 0, 17) do que eles tiveram para aprender o
referente das palavras nicas, uma vez que a hiptese de igualdade de mdias entre estes
dois tipos de acerto no pode ser rejeitada no teste t de Student. Assim, em contraste com
experimentos anteriores, os resultados no mostram evidncia direta de competio.
Nas simulaes, as taxas de aprendizagem de palavras nicas (0, 500 0, 146 > 0, 25) e
duplas (0, 6500, 139 > 0, 5) tambm foram semelhantes s obtidas nos experimentos anteriores.
Alm disso, diferentemente do que foi observado com os indivduos, o modelo continuou
mostrando maior dificuldade em aprender ambos referentes de palavras duplas (0, 2830, 129 >
0, 17) do que em aprender o referente das palavras nicas, ou seja, se verifica ocorrncia de
competio nos resultados das simulaes (resultados confirmados com teste t de Student com
nvel de significncia de 1%).
Segundo Yurovsky et al. (2013), uma explicao provvel para estes resultados que
a competio local contraps os efeitos da competio global dos referentes previamente
aprendidos. Por causa da falta de ambiguidade nesta associao dupla, a competio local pode
ter permitido que os participantes a adquirissem muito mais informaes sobre os mapeamentos
corretos, fazendo com que as palavras duplas se comportassem como palavras nicas na
primeira metade do treinamento. Ento, se por um lado isto pode ter inibido a aprendizagem
dos segundos referentes das palavras duplas, por outro lado a informao j adquirida auxiliou
na aprendizagem de outros referentes por competio local. Por outro lado, o modelo parece
no ter se beneficiado significativamente da competio local, de forma que a ocorrncia da
competio global permaneceu evidente nos resultados das simulaes.
Porm, o fator ordem ainda precisa ser analisado, tanto para os indivduos, quanto para o
modelo. Se a competio global ocorre de forma on-line na medida em que a informao
acumulada, ento, o referente apresentado primeiro (anterior) deve ser mais bem aprendido do
que o apresentado depois (posterior), ou seja, a ordem importa?
Os resultados da Figura 8.10 mostram que quando os participantes escolheram corretamente
ambos os referenciais das palavras duplas nas primeiras posies do ranqueamento, eles eram
ligeiramente mais propensos a ranquear o referente anterior em primeiro lugar (anterior primeiro)
do que o referente posterior (anterior depois). O modelo apresentou o mesmo padro de
comportamento, na verdade, de forma at mais evidente. Isto aponta para a mesma concluso,
tanto para os indivduos quanto para o modelo: a competio global do tipo on-line.
198
Figura 8.10 Resultados da segunda etapa do terceiro experimento de Yurovsky et al. (2013) em comparao com os resultados das simulaes com o modelo no Experimento 4b. As barras de erro mostram o
erro padro.
8.4
199
que o indivduo seja capaz de fazer uma conjectura correta em algum momento, e confirm-la
em seguida. Esta alternativa tem sido chamada na literatura de Hiptese e Teste (Yu e Smith,
2012) ou Propor-mas-Verificar (Trueswell et al., 2013) e os experimentos a seguir procuram
avaliar se ela mais plausvel do que a Aprendizagem Estatstica.
8.4.1
Para avaliar qual dos tipos de aprendizagem o mais plausvel, Trueswell et al. (2013) propuseram experimentos para verificar explicitamente se os participantes mantm um conjunto de
referentes em potencial para cada palavra de um ensaio, ou se eles fazem uma nica conjectura
de associao.
Em cada um dos ensaios de aprendizagem preparados por Trueswell et al. (2013), referentes
utilizados foram cinco imagens de objetos dispostos simetricamente em um monitor de computador, o que configura uma condio 1 x 5, ou seja, h um alto grau de incerteza sobre o referente
correto em cada ensaio. O estmulo auditivo consistiu de uma frase pr-gravada contendo
apenas um rtulo de um dos objetos exibidos. Por exemplo: Oh! veja um .... No total, 12
palavras artificiais foram utilizadas como rtulos e 12 imagens de objetos foram utilizadas como
referentes.
Apresentao dos ensaios foi dividida em cinco ciclos de aprendizagem. Em cada ciclo,
cada palavra foi apresentada apenas uma vez, em uma ordem pseudo-aleatria. Os demais
quatro ciclos so repeties do primeiro ciclo mantendo a mesma ordem de apresentao
pseudo-aleatria.
Cinquenta graduandos participaram dos testes. Eles foram informados que, ao terminar de
ouvir cada frase, deveriam clicar no objeto ao qual a frase poderia estar se referindo, ou seja,
os participantes eram testados a cada ensaio. Isto permitiu registrar a evoluo das taxas de
aprendizagem dos indivduos a cada ciclo de aprendizagem.
A ideia por trs do experimento a de que, se o participante armazena apenas um referente
dentre as alternativas de um ensaio e este referente no o alvo correto, ento, ao encontrar o
prximo ensaio contendo esta mesma palavra, o participante dever selecionar aleatoriamente
entre os referentes disponveis, e no deve haver nenhum vis para o referente correto, uma vez
que, apesar deste referente ter sido visto anteriormente juntamente com a palavra que esta sendo
reavaliada, no dever haver nenhum trao de memria da associao correta. Se, por outro
lado, referentes alternativos esto sendo mantidos em memria, o participante deve apresentar
certo vis em selecionar o referente correto na instncia de aprendizagem seguinte, j que deve
haver algum trao de memria das alternativas vistas anteriores, mesmo que no tenham sido
escolhidas.
200
8.4.2
Simulao do Experimento 5
8.4.3
Resultados do Experimento 5
A Figura 8.11 exibe a porcentagem mdia de respostas corretas ao longo dos cinco ciclos de
aprendizagem. Os resultados mdios sugerem que o aprendizado foi difcil, mas no impossvel.
Com uma anlise da curva de crescimento utilizando um modelo logstico multi-nvel da
preciso dos dados, os autores mostraram que de fato houve um aumento significativo da taxa de
acerto ao longo dos ciclos de aprendizagem. Por sua vez, as simulaes apresentaram resultados
anlogos, mostrando que a estratgia de treinamento definida para as simulaes se apresenta
condizente. Testes t de Student com nvel de significncia de 1% confirmam que tanto os
indivduos quanto o modelo apresentam taxas de acerto acima do acaso a partir no ltimo ciclo
de aprendizagem.
Uma vez tendo sido confirmado a ocorrncia de aprendizagem, o prximo passo foi avaliar
201
Figura 8.11 Resultados da primeira parte do experimento de Trueswell et al. (2013) em comparao
com os resultados das simulaes com o modelo no Experimento 5a. As linhas tracejadas indicam a
probabilidade de acerto ao acaso. As barras de erro mostram intervalo de confiana de 95%.
que tipo de mecanismo estaria por trs desta aprendizagem. Segundo a hiptese levantada
anteriormente, uma forma de avaliar isto, seria verificando se os participantes exibem alguma
memria do referente correto mesmo quando esse referente no foi selecionado no ciclo
anterior. Como pode ser visto na Figura 8.12, os participantes acertaram acima do acaso
(0, 47 0, 14) apenas aps terem acertado o referente correto no ciclo anterior. Quando haviam
errado anteriormente, os participantes parecem escolher um referente de maneira aleatria
(0, 208 0, 038 ' 0,20), resultando em um desempenho de aproximadamente 1 dentre 5. Assim,
mesmo que o referente alvo tenha estado presente anteriormente, quando os participantes
ouviram a palavra em questo, e estando novamente presente na instncia atual, eles no
mostram nenhum sinal de se lembrar deste fato se tiverem errado anteriormente.
Com isso, a partir deste experimento e de outros de mesma natureza, Trueswell et al. (2013)
concluem que os participantes no retm mltiplas hipteses de significado em instncias
de aprendizagem. E tomam isso como uma evidncia contrria a hiptese de Aprendizagem
Estatstica na aprendizagem de palavras. Porm, o modelo tambm apresentou este tipo de comportamento, com desempenho acima do acaso (0, 407 0, 134) para os referentes identificados
corretamente no ciclo anterior e apresentando desempenho semelhante ao acaso (0, 232 0, 069)
para referentes que o modelo havia errado no ciclo anterior.
sabido que o modelo proposto capaz de gerar mltiplas hipteses de referentes em cada
ensaio. Sendo assim, h duas possibilidades: ou (a) o modelo no gerou mltiplas associaes
em cada ensaio, ou (b) o modelo gerou mltiplas associaes, porm isto no foi suficiente
para afetar a escolha do referente ao final de cada ensaio. Como a quantidade das associaes
geradas pelo modelo equivalente ao nmero de nodos criados no Mdulo de Associao, a
202
Figura 8.12 Resultados da segunda parte do experimento de Trueswell et al. (2013) em comparao
com os resultados das simulaes com o modelo no Experimento 5b. As linhas tracejadas indicam a
probabilidade de acerto ao acaso. As barras de erro mostram intervalo de confiana de 95%.
observao da evoluo deste valor ao longo dos ciclos de aprendizagem elucida o que de fato
ocorreu.
Figura 8.13 Nmero mdio de nodos criados no Mdulo de Associao ao longo dos ensaios de cada
ciclo do Experimento 5. As barras de erro mostram o desvio padro.
A Figura 8.13 mostra a evoluo do nmero mdio de nodos criados no Mdulo de Associao a cada ensaio, lembrando que so apresentados ao modelo cinco estmulos por ensaio.
Observa-se que durante o primeiro ciclo so criados entre 2,5 e 3,5 nodos por ensaio, e este nmero cai nos ciclos seguintes at menos de um nodo por ensaio no quinto ciclo. Isto esperado,
pois, a maioria dos estmulos apresentados no primeiro ciclo so considerados novidade, j que o
modelo no tem informao pr-existente, e portanto, o modelo considera que h a necessidade
de criar novos nodos para representar estes novos estmulos. Porm, depois do primeiro ciclo,
203
grande parte dos estmulos no considerada novidade, e acaba sendo agrupada em nodos j
existentes. Isto aponta para a hiptese (b), ou seja, o modelo gera mltiplas associaes por
ensaio, porm isto no foi suficiente para afetar a escolha do referente ao final de cada ensaio.
Dois fatores podem estar contribuindo para os resultados observados por Trueswell et al.
(2013). Um fator que a competio global insere rudo na informao armazenada nos
nodos, fazendo com que, em grande parte dos casos, as associaes representadas possam estar
demasiadamente comprometidas para criar tendncias para o referente correto. O outro fator
que no design experimental de Trueswell et al. (2013), o total de acertos de referentes incorretos
no ciclo anterior computado do segundo ao quinto ciclo, quando a quantidade de hipteses
alternativas geradas (nodos) cai significativamente, o que contribui para a diluio da informao
contida nesta medida. Finalmente, o fato do modelo escolher ao acaso um dos referentes quando
a associao com o referente correto ainda fraca no implica que haja apenas uma hiptese em
memria.
8.5
8.5.1
205
recuperado como sendo a associao mais forte (c) o referente da lista induzida primeiro
recuperado. A probabilidade a priori da situao desejada, (a), de 25%, um dentre quatro
referentes.
importante acrescentar que em estudos com pessoas, devem ser utilizadas palavras artificiais, e figuras de objetos pouco conhecidos, de preferncia escolhidos aleatoriamente. No
necessrio que haja de fato correlao entre a aparncia dos referentes, ou do som dos rtulos
de uma mesma lista, pois essa correlao ser induzida pela proximidade temporal em suas
apresentaes. A correlao com significado nas simulaes a seguir apenas para facilitar
a compreenso do experimento, porm esta correlao no capturada pela representao
utilizada (fontica e visual).
8.5.2
Simulao do Experimento 6
As palavras escolhidas para simular o experimento foram armoire, snake, dog, cat, cheese, trap
e mouse para a primeira lista e speaker, printer, computer, notebook, monitor, keyboard e mouse
para a segunda lista. Note que a palavra mouse, alvo da anlise deste experimento, aparece
em ambas as listas de palavras, porm, com significados distintos. Na primeira lista, mouse
refere-se ao animal, e na segunda ao dispositivo de entrada utilizado em computadores. Os
referentes das palavras foram imagens obtidas atravs do Google Images , porm, para palavra
mouse foram obtidas duas imagens, uma para cada significado.
O treinamento foi realizado, conforme planejado, em seis ciclos de 14 ensaios cada, trs
ciclos contendo apenas palavras da lista animal e trs ciclos contendo apenas palavras da
lista dispositivo. Os ciclos de cada lista foram apresentados de forma intercalada (animal,
dispositivo, animal, dispositivo, animal, dispositivo).
No total foram trs treinamentos, e ao final de cada treinamento duas condies de teste
foram avaliadas consecutivamente. Aps a apresentao dos ensaios de testes que induzem o
contexto de cada condio, a palavra mouse foi testada para verificar qual dos dois significados
foi recuperado. Ao final do primeiro treinamento foi induzida a condio 3a+3b, seguido do
primeiro teste da palavra mouse, seguido da induo da condio 3b+3a, e do segundo teste
da palavra mouse. O mesmo foi feito ao final dos outros dois treinamentos, porm com as
condies 4a+1b e 4b+1a no segundo treinamento, e 5a+1b e 5b+1a no terceiro treinamento. Os
resultados obtidos so apresentados a seguir.
8.5.3
Resultados do Experimento 6
A Figura 8.14 mostra que nas condies 3+3 o contexto efetivo para induzir a recuperao
do referente correto, ou seja, trs ensaios de teste contendo palavras de uma das listas foram
206
8.6. CONCLUSO
suficientes para induzir a recuperao do referente desta lista em 93,75% das simulaes (desvio
de 0,17). Nas condies 4+2 este valor cai para 73.9% (desvio de 0,25), e nas condies 5+1 cai
para aproximadamente 50% (desvio 0,15), o que significa que nesta condio, a informao
contextual j no suficiente para induzir a recuperao do referente desejado. Neste caso,
o modelo recupera com maior frequncia o referente que foi mais bem aprendido durante o
treinamento, e com isso acerta em aproximadamente metade das vezes. Testes t de Student
confirmam que estes resultados esto acima do acaso e so diferentes entre si, com nvel de
significncia de 1%.
Figura 8.14 Taxas de acerto do referente relativo ao contexto correto para cada uma das condies.
O resultado da condio 3+3 representa a taxa mdia de acerto do referente recuperado nas condies
3a+3b e 3b+3a, a condio 4+2 representa o resultado mdio das condies 4a+2b e 4b+2a, e a condio
5+1 representa o resultado mdio das condies 5a+1b e 5b+1a. As barras de erro indicam o erro padro
observado em cada condio. A linha horizontal indica a probabilidade de acerto ao acaso.
8.6
Concluso
207
Por outro lado, quando o modelo falha ao replicar alguma caracterstica dos dados reais, novas
informaes so trazidas a tona, permitindo que o modelo seja aperfeioado em seguida.
Em praticamente todos os experimentos realizados o modelo apresentou comportamentos
anlogos aos apresentados por indivduos quando submetidos a experimentos de aprendizagem
cross-situacional de palavras. A principal exceo, deu-se no Experimento 4, onde a exposio
sequencial de um dos referentes de palavras ambguas antes da apresentao do segundo
referente, facilitou a aprendizagem das palavras duplas para os indivduos, mas no para o
modelo. Neste caso, provvel que os efeitos da competio global (que tendem a dificultar
a aprendizagem) tenham sido reduzidos e os da competio local (que tendem a facilitar a
aprendizagem) tenham sido ampliados. Porm, no modelo atual pouca nfase foi dada para
os mecanismos que proporcionam competio local, e portanto, este um ponto a ser melhor
investigado futuramente na busca por uma representao mais precisa deste comportamento.
Ainda assim, tanto no Experimento 4, quanto nos demais experimentos, as principais
concluses obtidas a partir dos resultados com os indivduos tambm podem ser obtidas a partir
dos resultados das simulaes com o modelo. So elas:
Concluses
Experimento 1: O modelo e os indivduos exibem uma capacidade surpreendente
de aprendizagem da associao de rtulos e referentes em experimentos crosssituacionais, mesmo em condies de alta ambiguidade. Porm, seu desempenho se reduz com o aumento do nvel de ambiguidade nos experimentos;
Experimento 2: O modelo e os indivduos apresentaram maior dificuldade em aprender dois referentes para um mesmo rtulo do que apenas um referente;
Experimento 3: A competio global parece ser um dos fatores de interferncia
mais relevantes tanto para o modelo quanto para os indivduos;
Experimento 4: Tanto para o modelo quanto para os indivduos os resultados apontam para competio do tipo on-line em detrimento de competio em lote.
8.6. CONCLUSO
209
9
Consideraes Finais
Esta Tese apresentou uma arquitetura neural modular para Aquisio de Linguagem Natural
por agentes incorporados. A proposio desta arquitetura tomou como base as evidncias
apresentadas pela psicolingustica, neurolingustica e lingustica computacional. Estas evidncias foram revisadas no Captulo 2. A anlise e composio destas evidncias resultaram no
modelo que foi apresentado no Captulo 3, composto por oito mdulos, quatro dos quais foram
implementados e validados nos Captulos de 4 a 7. A parte central do modelo, composta pelos
mdulos implementados, foi ento validada no Captulo 8.
A lingustica computacional forneceu uma viso sistemtica do problema, mais orientada
para aplicaes prticas. O modelo de processamento de linguagem natural apresentado por
Allen (1994) foi fundamental como ponto de partida para a construo da arquitetura proposta. A
adoo deste tipo de abordagem, complementada pela teoria de esquemas de Arbib et al. (1997),
permitiu estabelecer uma estrutura modular na qual no h necessariamente um mapeamento
nico entre uma funo e as estruturas responsveis pelo seu processamento, o que facilitou na
identificao da sequncia de passos que precisavam ser executados para modelar cada uma das
funes desejadas.
A viso bottom-up da neurolingustica forneceu a noo de compartimentalizao das funes a serem modeladas, embasando as delimitaes entre os mdulos e suas interconexes.
Alm disso, a partir das evidncias trazidas pela neurolingustica, foi possvel levantar um
conjunto de modelos computacionais candidatos para implementar cada um dos mdulos, observando os tipos de aprendizagem e os tipos de redes neurais mais adequados para implementar
cada funo, desde os mecanismos mais elementares de extrao de caractersticas implementados no Mdulo de Mapeamento Sensrio-Perceptivo (Captulo 4), at a integrao multimodal
das informaes realizada pelo Mdulo de Associao (Captulo 7).
Os mapas auto-organizveis foram utilizados na modelagem do Mdulo de Representao
apresentado no Captulo 5, pois se assemelham com os tipos de redes de neurnios encontrados
211
9.1
9.2
As pesquisas realizadas no desenvolvimento desta Tese resultaram em um conjunto de contribuies para as reas correlacionadas:
O problema de ALN por um agente inteligente foi formalizado matematicamente, considerando os cinco subproblemas identificados. A descrio formal produzida subsidia a
compreenso do problema e a proposio de implementaes computacionais.
A integrao das evidncias sobre ALN de trs reas do conhecimento, que resultou no
213
modelo computacional proposto, permitir a sua utilizao como ferramenta para estudar
como humanos aprendem linguagem natural.
Durante a fase de reviso bibliogrfica desta Tese foi implementada uma verso mais
compacta e com menor nmero de parmetros do modelo proposto por Pacheco (2004)
para o fenmeno de falsas memrias, porm com capacidades similares de modelagem do
fenmeno.
Nesta Tese, a formao de conceitos incorporados foi formulada como um problema de
agrupamentos em subespaos das percepes. Os modelos propostos para implementar o
Mdulo de Associao foram capazes de aprender os conceitos incorporados a partir de
fluxos perceptivos, permitindo aplicaes em diversas reas da robtica desenvolvimentista, como na criao de agentes capazes de desenvolver e utilizar habilidades sociais,
comportamentais e comunicativas (Cangelosi et al., 2010).
Os modelos, DSSOM e LARFDSSOM, se mostraram promissores para o agrupamento
projetivo e em subespaos. Os resultados obtidos com dados simulados apresentaram
considervel tolerncia a rudo, e os resultados com dados reais mostraram que estes
modelos so de aplicao bastante geral. Alm disso, uma verso supervisionada do
DSSOM, o Dimension Selective Learning Vector Quantization (DSELVQ) tambm foi
proposta em Arajo et al. (2013) e apresentou bons resultados ao ranquear atributos de
dados genticos.
A modelagem dos experimentos cross-situacionais mostrou que o modelo capaz de
reproduzir com certa preciso, os padres de aprendizagem de palavras apresentados por
seres humanos. Alm disso, todos os experimentos foram reproduzidos utilizando-se um
mesmo conjunto de valores para os parmetros do modelo.
As percepes utilizadas pelo modelo podem ser facilmente obtidas a partir de dados reais,
tornando o modelo prontamente aplicvel. A representao auditiva pode ser construda
diretamente a partir de informao textual ou sonora. A representao visual foi construda
a partir de imagens reais, e pode ser facilmente adaptada para extrair informaes a partir
de vdeos.
Os experimentos com o Mdulo de Contexto mostraram que o mesmo capaz de criar
contextos a partir de percepes apresentadas em instantes prximos, mesmo quando
estas percepes possuem representaes com baixa similaridade.
214
9.2.1
Trabalhos Publicados
Os artigos relacionados abaixo, relativos ao modelo compacto para simular o fenmeno de falsas
memrias (Captulo 6), e dos modelos DSSOM e DSELVQ (Captulo 7), foram publicados em
conferncias durante o desenvolvimento desta Tese:
Arajo, A. F. R., Bassani, H. F., Pacheco, R. F., 2010. Occurrence of false memories: A neural module considering context for memorization of words lists. Em: IEEE
International Joint Conference on Neural Networks - IJCNN, pp. 18;
Bassani, H. F., Arajo, A. F. R., 2012. Dimension selective self-organizing maps for
clustering high dimensional data. Em: International Joint Conference on Neural Networks
- IJCNN, pp. 18;
Arajo, F. R. B., Bassani, H. F., Araujo, A. F. R., Agosto 2013. Learning vector quantization with local adaptive weighting for relevance determination in genome-wide association
studies. Em: IEEE International Joint Conference on Neural Networks - IJCNN, pp. 18.
O artigo a seguir, relativo ao modelo LARFDSSOM (Captulo 7), foi aceito para publicao
no: peridico IEEE Transactions on Neural Networks and Learning Systems:
Bassani, H. F.; Araujo, A. F. R., 2014, Dimension Selective Self-organizing Maps with
Time-varying Structure for Subspace and Projected Clustering, IEEE Transactions on
Neural Networks and Learning Systems, aceito para publicao.
9.3
Limitaes do Modelo
215
9.4
Devido esta Tese ter abordado o problema da ALN em amplitude, uma grande quantidade de
desdobramentos surge a partir dela. De forma mais imediata, cada um dos pontos a seguir
podem ser explorados em pesquisas e aplicaes subsequentes:
A implementao dos demais mdulos previstos (de V a VIII) precisa ser realizada. Isto
ir permitir a implementao com agentes que executem comandos em linguagem natural,
inicialmente em ambientes simulados, como o ilustrado na Seo 4.2, e posteriormente
em ambientes reais;
216
217
Referncias Bibliogrficas
Aggarwal, C., Wolf, J., Yu, P., Procopiuc, C., Park., J., 1999. Fast algorithms for projected
clustering. Em: ACM SIGMOD International Conference on Management of Data. pp. 6172.
Aggleton, J. P., Brown, M. W., 1999. Episodic memory, amnesia, and the hippocampal-anterior
thalamic axis. Behavioral and Brain Sciences 22 (3), 42544.
Ahlsen, E., 2006. Introduction to Neurolinguistics. John Benjamins Pub Co.
Aires, M. M., 1991. Fisiologia. Guanabara Koogan.
Aitchison, J., 2008. The Articulate Mammal: An Introduction to Psycholinguistics. Routledge.
Allen, J., 1994. Natural Language Understanding (2nd Edition). Addison-Wesley.
Arajo, A. F. R., Bassani, H. F., Pacheco, R. F., 2010. Occurrence of false memories: A neural
module considering context for memorization of words lists. Em: IEEE International Joint
Conference on Neural Networks - IJCNN. pp. 18.
Arajo, A. F. R., Rego, R. L. M. E., Julho 2013. Self-organizing maps with a time varying
structure. ACM Computing Surveys 46 (1), 7:17:38.
Arajo, A. R., Costa, D. C., 2009. Local adaptive receptive field self-organizing map for image
color segmentation. Image and Vision Computing 27 (9), 1229 1239.
Arajo, F. R. B., Bassani, H. F., Araujo, A. F. R., Agosto 2013. Learning vector quantization
with local adaptive weighting for relevance determination in genome-wide association studies.
Em: IEEE International Joint Conference on Neural Networks - IJCNN. Dallas, pp. 18.
Arbib, M. A., 2008. From grasp to language: Embodied concepts and the challenge of
abstraction. Journal of Physiology-Paris 102 (1-3), 4 20, Links and Interactions Between
Language and Motor Systems in the Brain.
Arbib, M. A., 2011. From mirror neurons to complex imitation in the evolution of language
and tool use. Annual Review of Anthropology 40 (1), 257273.
Arbib, M. A., rdi, P., Szentgothai, J., 1997. Neural Organization: Structure, Function, and
Dynamics. No. 407. MIT Press.
Bache, K., Lichman, M., 2013. UCI machine learning repository.
URL http://archive.ics.uci.edu/ml
219
REFERNCIAS BIBLIOGRFICAS
Baddeley, A., October 2003. Working memory: looking back and looking forward. Nature
Reviews. Neuroscience 4:10 (10), 829839.
Barrett, H. C., Kurzban, R., Julho 2006. Modularity in cognition: framing the debate. Psychological Review 113 (3), 628647.
Bassani, H. F., Arajo, A. F. R., 2012. Dimension selective self-organizing maps for clustering
high dimensional data. Em: International Joint Conference on Neural Networks - IJCNN. pp.
18.
Blitzer, J., Pereira, F., Alur, R., 2007. Domain adaptation of natural language processing
systems. Tech. rep., University of Pennsylvania.
Bloom, P., 2002. How Children Learn the Meanings of Words. The MIT Press.
Blumstein, S., Cooper, W. E., 1974. Hemispheric processing of intonational contours. Cortex
10, 146158.
Born, R. T., Bradley, D. C., 2005. Structure and function of visual area MT. Annu. Rev.
Neurosci. 28, 157189.
Brainerd, C. J., Reyna, V. F., 1990. Gist is the grist: Fuzzy-trace theory and the new intuitionism.
Developmental Review 10 (1), 3 47.
Brainerd, C. J., Reyna, V. F., 1998. When things that were never experienced are easier to
remember than things that were. Psychological Science 9 (6), 484489.
Brainerd, C. J., Reyna, V. F., Ceci, S. J., Maio 2008. Developmental reversals in false memory:
A review of data and theory. Psychological Bulletin 134 (3), 343382.
Brennan, J., Nir, Y., Hasson, U., Malach, R., Heeger, D. J., Pylkkanen, L., Fevereiro 2012.
Syntactic structure building in the anterior temporal lobe during natural story listening. Brain
Lang 120 (2), 163173.
Butterly, D. A., Petroccione, M. A., Smith, D. M., Abril 2011. Hippocampal context processing
is critical for interference free recall of odor memories in rats. Hippocampus 22 (4), 906913.
Cangelosi, A., Junho 2010. Grounding language in action and perception: from cognitive
agents to humanoid robots. Physics of life reviews 7 (2), 13951.
Cangelosi, a., Hourdakis, E., Tikhanoff, V., 2006. Language acquisition and symbol grounding
transfer with neural networks and cognitive robots. IEEE International Joint Conference on
Neural Network - IJCNN, 15761582.
220
REFERNCIAS BIBLIOGRFICAS
Cangelosi, A., Metta, G., Sagerer, G., Nolfi, S., Nehaniv, C. L., Fischer, K., Tani, J., Belpaeme,
T., Sandini, G., Nori, F., Fadiga, L., Wrede, B., Rohlfing, K. J., Tuci, E., Dautenhahn, K.,
Saunders, J., Zeschel, A., 2010. Integration of action and language knowledge: A roadmap for
developmental robotics. IEEE T. Autonomous Mental Development, 167195.
Cangelosi, A., Riga, T., Jul 2006. An embodied model for sensorimotor grounding and
grounding transfer: experiments with epigenetic robots. Cogn Sci 30 (4), 673689.
Cao, Y., Wu, J., 2002. Projective art for clustering data sets in high dimensional spaces. Neural
Networks 15, 105120.
Caramazza, A., 1999. How many levels of processing are there in lexical access? Cognitive
Neuropsychology 14, 177208.
Carpenter, G. A., Grossberg, S., 1987a. ART2: Self-organization of stable category recognition
codes for analog input patterns. Applied Optics 26, 4919 4930,.
Carpenter, G. A., Grossberg, S., Janeiro 1987b. A massively parallel architecture for a selforganizing neural pattern recognition machine. Comput. Vision Graph. Image Process. 37 (1),
54115.
Carpenter, G. A., Grossberg, S., 1990. ART3 - hierarchical search using chemical transmitters
in self-organizing pattern-recognition architectures. Neural Networks 3 (2), 129152.
Carpenter, G. A., Grossberg, S., Rosen, D. B., Novembro 1991. Fuzzy art: Fast stable learning
and categorization of analog patterns by an adaptive resonance system. Neural Networks 4 (6),
759771.
Catani, M., 2007. From hodology to function. Brain 130, 602605.
Catani, M., ffytche, D. H., 2005. The rises and falls of disconnection syndromes. Brain 128,
22242239.
Catani, M., Howard, R. J., Pajevic, S., Jones, D. K., 2002. Virtual in vivo interactive dissection
of white matter fasciculi in the human brain. Neuroimage 17, 7794.
Catani, M., Jones, D. K., Donato, R., ffytche, D. H., 2003. Occipito-temporal connections in
the human brain. Brain 126, 20932107.
Catania, M., Mesulamb, M., 2008. The arcuate fasciculus and the disconnection theme in
language and aphasia: History and current state. Cortex 44(8), 953961.
221
REFERNCIAS BIBLIOGRFICAS
Chomsky, N., 1969. Aspects of the Theory of Syntax. The MIT Press.
Chou, P. B., Grossman, E., Gunopulos, D., Kamesam, P., 2000. Identifying prospective
customers. Em: ACM SIGKDD - International Conference on Knowledge Discovery and Data
Mining. ACM, New York, USA, pp. 447456.
Clark, A. S., 2001. Unsupervised language acquisition: Theory and practice. Tese de Doutorado,
University of Sussex.
CMU, 2011. The Carnegie Mellon University pronouncing dictionary - A machine-readable
pronunciation dictionary for north american english. On-line.
URL http://www.speech.cs.cmu.edu/cgi-bin/cmudict
Coelho, M., Valle, E., Junior, C. S., Arajo, A., 2011. Subspace clustering for information
retrieval in urban scene databases. SIBGRAPI Conference on Graphics, Patterns and Images,
173180.
Collins, G., 1977. Visual co-orientation and maternal speech. Studies in mother-infant interaction. London: Academic Press.
Compston, A., 2006. From the archives. Brain 129 (6), 13471350.
Dalle-Mole, V. L., 2010. Mapas auto-organizveis para agentes robticos autnomos. Tese de
Doutorado, Universidade Federal de Pernambuco.
de Gelder, B., Rouw, R., 2000. Configural face processes in acquired and developmental
prosopagnosia: Evidence for two separate face systems. Neuroreport 11, 31453150.
de Gelder, B., Rouw, R., 2001. Beyond localisation: A dynamical dual route account of face
recognition. Acta Psychologica 107, 183207.
Dell, G. S., Chang, F., Griffin, Z. M., 1999. Connectionist model of language production:
Lexical access and grammatical encoding. Cognitive Science 23, 517542.
Della Sala, S., Logie, R. H., 2002. Handbook of Memory Disorders. Wiley, Chichester.
Dronkers, N. F., Wilkins, D. P., Van Valin, R. D., Redfern, B. B., Jaeger, J. J., 2004. Lesion
analysis of the brain areas involved in language comprehension. Cognition 92 (1-2), 145177.
Duffau, H., Maro 2008. The anatomo-functional connectivity of language revisited. New
insights provided by electrostimulation and tractography. Neuropsychologia 46 (4), 92734.
222
REFERNCIAS BIBLIOGRFICAS
Dwyer, J., Rinn, W., 1981. The role of the right hemisphere in contextual inference. Neuropsychologia 19(3), 47982.
Elhamifar, E., Vidal, R., 2009. Sparse subspace clustering. Em: IEEE Conference on Computer
Vision and Pattern Recognition.
Epstein, R., Kanwisher, N., Abril 1998. A cortical representation of the local visual environment. Nature 392 (6676), 598601.
Fei-Fei, L., Fergus, R., Perona, P., Abril 2007. Learning generative visual models from few
training examples: An incremental bayesian approach tested on 101 object categories. Comput.
Vis. Image Underst. 106 (1), 5970.
Fessant, F., Aknin, P., Oukhellou, L., Midenet, S., Junho 2001. Comparison of supervised
self-organizing maps using Euclidian or Mahalanobis distance in classification context. Em:
International Work Conference on Artificial and Natural Neural Networks - IWANN. Granada,
Spain.
Fletcher, P. C., Frith, C. D., Rugg, M. D., 1997. The functional neuroanatomy of episodic
memory. Trends in Neurosciences 20 (5), 213218.
Fodor, J., 1975. The language of thought. New York: Crowell.
Fodor, J. A., 1983. The Modularity of Mind: An Essay on Faculty Psychology. MIT Press.
Fodor, J. A., 2000. The Mind Doesnt Work That Way: The Scope and Limits of Computational
Psychology. Cambridge, MA: MIT Press.
Fontanari, J. F., Tikhanoff, V., Cangelosi, A., Ilin, R., Perlovsky, L. I., 2009. Cross-situational
learning of objectword mapping using neural modeling fields. Neural Networks 22 (56), 579
585.
Fritzke, B., 1994. Growing cell structures - A self-organizing network for unsupervised and
supervised learning. Neural Networks 7 (9), 14411460.
Fry, J., Asoh, H., Matsui, T., Outubro 1998. Natural dialogue with the Jijo-2 office robot. Em:
IEEE International Conference on Intelligent Robots and Systems. pp. 12781283.
Gan, G., Wu, J., Yang, Z., 2006. PARTCAT: A subspace clustering algorithm for high dimensional categorical data. Em: IEEE International Joint Conference on Neural Networks - IJCNN.
pp. 44064412.
223
REFERNCIAS BIBLIOGRFICAS
Gardner, H., 1975. The shattered mind: the person after brain damage. Vintage books. Vintage
Books.
Gazzaniga, M. S., Heatherton, T. F., 2005. Cincia psicolgica: mente, crebro e comportamento. Artmed.
Ghahramani, Z., 2004. Advanced Lectures on Machine Learning: Lecture Notes in Artificial
Intelligence. Springer, Ch. Unsupervised Learning, pp. 72112.
Gielen, C., Krommenhoek, K., van Gisbergen, J., 1989. A procedure for self-organized sensorfusion in topologically ordered maps. Em: Intelligent Autonomous Systems 2, An International
Conference. IOS Press, Amsterdam, Netherlands, pp. 417423.
Glasser, M. F., Rilling, J. K., Novembro 2008. DTI tractography of the human brains language
pathways. Cerebral cortex (New York, N.Y. : 1991) 18 (11), 247182.
Gleitman, L., 1990. The structural sources of verb meanings. Language Acquisition 1, 355.
Gliozzi, V., Mayor, J., Hu, J.-F., Plunkett, K., Junho 2009. Labels as features (not names) for
infant categorization: a neurocomputational approach. Cognitive science 33 (4), 70938.
Goldstein, K., 1943. Aftereffects of brain injuries in war: Their evaluation and treatment. the
application of psychologic methods in the clinic. Journal of the American Medical Association
121 (2), 159.
Goldstone, R., 1994. Influences of categorization on perceptual discrimination. Journal of
Experimental Psychology: General 123, 178200.
Goodglass, H., Berko, J., 1960. Agrammatism and english inflectional morphology. Journal of
Speech and Hearing Research 3, 257267.
Goodman, P. H., Kaburlasos, V. G., Egbert, D. D., Carpenter, G. A., Grossberg, S., Reynolds,
J. H., Rosen, D. B., Hartz, A. J., Outubro 1992. Fuzzy ARTMAP neural-network compared to
linear discriminant-analysis prediction of the length of hospital stay in patients with pneumonia.
IEEE International Conference On Systems, Man, and Cybernetics 1, 748 753.
Griffin, G., Holub, A., Perona, P., 2007. Caltech-256 Object Category Dataset. Tech. Rep.
CNS-TR-2007-001, California Institute of Technology.
Grossberg, S., 1976. Adaptive pattern classification and universal recording: II. Feedback,
expectation, olfaction, illusions. Biological Cybernetics 23, 187202.
224
REFERNCIAS BIBLIOGRFICAS
Grossman, M., McMillan, C., Moore, P., Ding, L., Glosser, G., Work, M., Gee, J., 2004. Whats
in a name: voxel-based morphometric analyses of MRI and naming difficulty in Alzheimers
disease, frontotemporal dementia and corticobasal degeneration. Brain 127, 628649.
Harnad, S., 1990. The symbol grounding problem. Physica D 42, 335346.
Harnad, S., 2005. Handbook of Categorization in Cognitive Science. Elsevier Science, Ch. To
Cognize is to Categorize: Cognition is Categorization, pp. 2046.
Harris, M., D., J., Grant, J., 1983. The nonverbal content of mothers speech to infants. First
Language 4, 2131.
Haykin, S., 1998. Neural Networks: A Comprehensive Foundation. Prentice Hall.
Hebb, D., 1949. The organization of behavior: a neuropsychological theory. A Wiley book in
clinical psychology. Wiley.
Hecaen, H., Albert, M. L., 1978. Human Neuropsychology. New York: John Wiley & Sons.
Heibeck, T., Markman, E., 1987. Word learning in children: An examination of fast mapping.
Child Development 58, 10211034.
Helton, J., Davis, F., Johnson, J., 2005. A comparison of uncertainty and sensitivity analysis
results obtained with random and latin hypercube sampling. Reliability Engineering & System
Safety 89 (3), 305330.
Hubel, D., Wiesel, T. N., 1962. Receptive fields, binocular interaction and functional architecture in the cats visual cortex. Journal of Physiology 160, 106154.
Hubel, D., Wiesel, T. N., 1977. Functional architecture of macaque visual cortex. Proceedings
of the Royal Society B 198, 159.
Jain, A. K., Murty, M. N., Flynn, P. J., 1999. Data clustering: A review. Computing 31 (3).
Jiang, D., Tang, C., Zhang, A., 2004. Cluster analysis for gene expression data: a survey. IEEE
Transactions on Knowledge and Data Engineering 16 (11), 13701386.
Joseph, R., 1990. Neuropsychology, Neuropsychiatry, and Behavioral Neurology. Critical
Issues in Neuropsychology. Springer.
Joseph, R., 2012. Right Hemisphere, Left Hemisphere, Consciousness, the Unconscious, Brain
and Mind. University Press Science.
225
REFERNCIAS BIBLIOGRFICAS
Jung-Beeman, M., 2005. Bilateral brain processes for comprehending natural language. Trends
in Cognitive Sciences 9, 512518.
Just, M. A., Cherkassky, V. L., Aryal, S., Mitchell, T. M., Janeiro 2010. A neurosemantic
theory of concrete noun representation based on the underlying brain codes. PLoS ONE 5 (1).
Kaas, J. H., Merzenich, M., Killackey, H. P., 1983. The reorganization of somatosensory cortex
following periphereal nerve damage in adult and developing mammals. Annual Review of
Neurosciences 6, 325356.
Kagan, J., 1981. The second year. Cambridge, MA: Harvard University Press.
Kandel, E. R., Schwartz, J. H., Jessell, T. M., 2000. Principles of Neural Science, 4 Edio.
New York: McGraw-Hill.
Kangas, J. a., Kohonen, T. K., Laaksonen, J. T., Janeiro 1990. Variants of self-organizing maps.
IEEE Transactions on Neural Networks 1 (1), 939.
Keysers, C., Kohler, E., Umilta, M. A., Nanetti, L., Fogassi, L., Gallese, V., Dezembro 2003.
Audiovisual mirror neurons and action recognition. Experimental brain research. Experimentelle Hirnforschung. Experimentation cerebrale 153 (4), 628636.
Kinnunen, T., Kamarainen, J.-K., Lensu, L., KLviInen, H., Dezembro 2012. Unsupervised
object discovery via self-organisation. Pattern Recogn. Lett. 33 (16), 21022112.
Kohonen, T., 1982. Self-organized formation of topologically correct feature maps. Biological
Cybernetics 43, 5969.
Kohonen, T., 1985. Self-organized feature maps. Journal of The Optical Society of America A
Optics Image Science and Vision 2 (13), P16.
Krams, M., Rushworth, M. F., Deiber, M. P., Frackowiak, R. S., Passingham, R. E., Junho
1998. The preparation, execution and suppression of copied movements in the human brain.
Exp Brain Res 120 (3), 386398.
Kriegel, H. P., Kroger, P., Renz, M., Wurst, S., 2005. A generic framework for efficient
subspace clustering of high-dimensional data. Em: IEEE International Conference on Data
Mining - ICDM. pp. 250257.
Kriegel, H.-P., Krger, P., Zimek, A., Maro 2009. Clustering high-dimensional data: A survey
on subspace clustering, pattern-based clustering, and correlation clustering. ACM Transactions
on Knowledge Discovery from Data 3 (1), 1:11:58.
226
REFERNCIAS BIBLIOGRFICAS
Kunze, M., Steffens, J., 1995. Growing cell structure and neural gas - incremental neural
networks. Em: Proceedings of the Fourth AIHEP Workshop.
Lauria, S., Julho 2007. Talking to machines: Introducing robot perception to resolve speech
recognition uncertainties. Circuits Systems And Signal Processing 26 (4), 513526.
Lauria, S., Bugmann, G., Kyriacou, T., Bos, J., Klein, E., Setembro 2001. Training personal
robots using natural language instruction. IEEE Intelligent Systems 16 (5), 3845.
Lemon, O., Bracy, A., Gruenstein, E., Peters, S., 2001. A multi-modal dialogue system
for human-robot conversation. Em: The North American Chapter of the Association for
Computational Linguistics.
Levelt, W. J. M., 1999. Models of word production. Trends in Cognitive Science 3, 223232.
Levine, D. N., Sweet, E., 1982. The neuropathologic basis of Brocas aphasia and its implications for the cerebral control of speech. Neural models of language processes New York :
Academic Press.
Li, P., Zhao, X., Macwhinney, B., 2007. Dynamic Self-Organization and Early Lexical Development in Children 31, 581612.
Lieven, E., 1994. Crosslinguistic and crosscultural aspects of language addressed to children.
Input and interaction in language acquisition. Cambridge: Cambridge University Press.
Lindeberg, T., Maio 2011. Generalized gaussian scale-space axiomatics comprising linear
scale-space, affine scale-space and spatio-temporal scale-space. J. Math. Imaging Vis. 40 (1),
3681.
Lindeberg, T., Dezembro 2013. A computational theory of visual receptive fields. Biol Cybern
107 (6), 589635.
Lopes, L. S., Teixeira, A., 2000. Human-robot interaction through spoken language dialogue.
Em: International Conference on Intelligent Robots and Systems. IEEE/RSJ.
Lowe, D., 1999. Object recognition from local scale-invariant features. Em: IEEE International
Conference on Computer Vision - ICCV. Vol. 2. pp. 11501157 vol.2.
Lu, L. H., Crosson, B., Nadeau, S. E., Heilman, K. M., Gonzalez-Rothi, L. J., Raymer, A.,
Gilmore, R. L., Bauer, R. M., Roper, S. N., 2002. Category-specific naming deficits for
objects and actions: semantic attribute and grammatical role hypotheses. Neuropsychologia
40, 16081621.
227
REFERNCIAS BIBLIOGRFICAS
Luck, S. J., Vogel, E. K., 1997. The capacity of visual working memory for features and
conjunctions. Nature 390, 279281.
Lungarella, M., Metta, G., Pfeifer, R., Sandini, G., 2003. Developmental robotics: a survey.
Connection Science 15, 151190.
Lyons, D. E., Young, A. G., Keil, F. C., Dezembro 2007. The hidden structure of overimitation.
Proceedings of the National Academy of Sciences 104 (50), 1975119756.
Markman, E., Hutchinson, J., 1984. Childrens sensitivity to constraints on word meaning:
Taxonomic versus thematic relations. Cognitive Psychology 16, 127.
Markman, E. M., Wachtel, G. F., 1988. Childrens use of mutual exclusivity to constrain the
meaning of words. Cognitive Psychology 20, 121157.
Marsland, S., Shapiro, J., Nehmzow, U., Outubro 2002. A self-organising network that grows
when required. Neural Netw. 15 (8-9), 10411058.
Matzen, L. E., Benjamin, A. S., 2009. Remembering words not presented in sentences: How
study context changes patterns of false memories. Memory & Cognition 37 (1), 5264.
Mayor, J., Plunkett, K., Julho 2008. Learning to Associate Object Categories and Label
Categories: A Self-Organising Model. Annual Conference of the Cognitive Science Society,
697702.
Mazo, M., Rodriguez, F., Lazaro, J., Urena, J., Garcia, J., Santiso, E., Revenga, P., Maio 1995.
Electronic control of a wheelchair guided by voice commands. Control Engineering Practice
3 (5), 665674.
McClelland, J. L., Rogers, T. T., Abril 2003. The parallel distributed processing approach to
semantic cognition. Nature Reviews Neuroscience 4 (4), 310322.
McClelland, J. L., Rumelhart, D. E., Jun 1985. Distributed memory and the representation
of general and specific information. Journal of Experimental Psychology: General 114 (2),
159197.
Mesulam, M. M., 1990. Large-scale neurocognitive networks and distributed processing for
attention, language, and memory. Annals of Neurology 28, 597613.
Miikkulainen, R., Bednar, J. A., Choe, Y., Sirosh, J., Janeiro 2005. Computational Maps in the
Visual Cortex. Vol. 1. Springer.
228
REFERNCIAS BIBLIOGRFICAS
Mikolajczyk, K., Schmid, C., 2002. An affine invariant interest point detector. Em: European
Conference on Computer Vision - ECCV, Part I. Springer-Verlag, London, UK, pp. 128142.
Mikolajczyk, K., Tuytelaars, T., Schmid, C., Zisserman, A., Matas, J., Schaffalitzky, F., Kadir,
T., Gool, L. V., Novembro 2005. A comparison of affine region detectors. Int. J. Comput.
Vision 65 (1-2), 4372.
Miller, C. A., 2006. Developmental relationships between language and theory of mind. Am J
Speech Lang Pathol 15 (2), 142154.
Milner, B., 1964. Some effects of frontal lobectomy in man. New York: McGraw-Hill.
Mishkin, M., Ungerleider, L. G., Macko, K. A., 1983. Object vision and spatial vision: two
cortical pathways. Trends in Neurosciences 6, 414417.
Moise, G., Sander, J., 2008. Finding non-redundant, statistically significant regions in high
dimensional data: a novel approach to projected and subspace clustering. Em: ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining. pp. 533541.
Moise, G., Zimek, A., Krger, P., Kriegel, H.-P., Sander, J., 2009. Subspace and projected
clustering: experimental evaluation and analysis. Knowledge and Information Systems 21,
299326.
Mooney, R. J., Julho 2006. Learning language from perceptual context: A challenge problem for AI. Em: Association for the advancement of artificial intelligence (AAAI) Fellows
Symposium.
Morasso, P., Sanguineti, V., 1997. Self-Organization, Computational Maps, and Motor Control.
Vol. 119 de Advances in Psychology. North Holland.
Mummery, C. J., Patterson, K., Wise, R. J., Vandenberghe, R., Price, C. J., Hodges, J. R., 1999.
Disrupted temporal lobe connections in semantic dementia. Brain 122, 6173.
Mller, E., Gnnemann, S., Assent, I., Seidl, T., 2009. Evaluating clustering in subspace
projections of high dimensional data. Em: 35th International Conference on Very Large Data
Bases, Lyon, France.
Narain, C., Scott, S. K., Wise, R. J., Rosen, S., Leff, A., Iversen, S. D., Matthews, P. M.,
Dezembro 2003. Defining a left-lateralized response specific to intelligible speech using fMRI.
Cereb. Cortex 13 (12), 13621368.
229
REFERNCIAS BIBLIOGRFICAS
Nelson, K., 1973. Structure and strategy in learning to talk. monographs of the society for
research. Child Development 38, 1137.
Nilsson, N., 1969. A mobile automaton: an application of artificial intelligence techniques.
Em: International Joint Conference on Artificial Intelligence - IJCAI. pp. 509520.
Nosofsky, R., 1988. Exemplar-based accounts of relations between classification, recognition,
and typicality. Journal of Experimental Psychology: Learning, Memory, and Cognition 14,
700708.
ORegan, J. K., Setembro 1992. Solving the real mysteries of visual perception: The world
as an outside memory. Canadian Journal of Psychology 46 (3), 461488.
ORegan, J. K., Rensink, R. A., Clark, J. J., Maro 1999. Change-blindness as a result of
mudsplashes. Nature 398 (6722).
OReilly, J. X., Jbabdi, S., Rushworth, M. F., Behrens, T. E., Setembro 2013. Brain systems for
probabilistic and dynamic prediction: computational specificity and integration. PLoS Biology
11 (9).
Pacheco, R. F., 2004. Mdulos neurais para modelagem de falsas memrias. Tese de Doutorado,
Universidade Federal de So Carlos - USP.
Parsons, L., Haque, E., Liu, H., 2004. Subspace clustering for high dimensional data: a review.
ACM SIGKDD Explorations Newsletter 6 (1), 90105.
Pasley, B. N., David, S. V., Mesgarani, N., Flinker, A., Shamma, S. A., Crone, N. E., Knight,
R. T., Chang, E. F., Janeiro 2012. Reconstructing speech from human auditory cortex. PLoS
Biology 10 (1).
Patrikainen, A., Meila, M., Julho 2006. Comparing subspace clusterings. IEEE Transactions
on Knowledge and Data Engineering 18 (7), 902916.
Perlovsky, L. I., 2001. Neural Networks and Intellect: Using Model-Based Concepts. Oxford
University Press, USA.
Perlovsky, L. I., 2006. Artificial Cognition Systems. IGI Global, Ch. Modeling Field Theory
of Higher Cognitive Functions, pp. 65106.
Pickering, S. J., 2001. Cognitive approaches to the fractionation of visuo-spatial working
memory. Cortex 37, 470473.
230
REFERNCIAS BIBLIOGRFICAS
Pinker, S., 1997. How the Mind Works. W. W. Norton & Company, New York.
Pinker, S., 2008. The Stuff of Thought: Language as a Window into Human Nature. Penguin
Books.
Plunkett, K., 1997. Theories of early language acquisition. Trends in Cognitive Sciences 1,
146153.
Plunkett, K., Hu, J., Cohen, L. B., 2008. Labels can override perceptual categories in early
infancy. Cognition 106 (2), 665 681.
Plunkett, K., Sinha, C., Moller, M., Strandsby, O., 1992. Symbol grounding or the emergence
of symbols? Vocabulary growth in children and a connectionist net. Connection Science 4,
293312.
Procopiuc, C. E. A., 2002. A monte carlo algorithm for fast projective clustering. Em: ACM
SIGMOD International Conference on Management of Data. pp. 418427.
Pulvermuller, F., Julho 2005. Brain mechanisms linking language and action. Nature Reviews
Neuroscience 6 (7), 576582.
Purves, D., Augustine, G. J., Fitzpatrick, D., Hall, W. C., LaMantia, A.-S., White, L. E., 2011.
Neuroscience Fifth Edition. Sinauer Associates, Inc.
Quine, W., 1960. Word and object. Cambridge, MA: MIT Press.
Rahayu, E. Y., Janeiro 2012. Is language natural? Dynamics of Language and Culture 7 (1),
7179.
Rasanen, O., Rasilo, H., Laine, U., 2012. Modeling spoken language acquisition with a generic
cognitive architecture for associative learning. Em: The Interspeech Conference. Portland,
Oregon.
Rauschecker, J., Tian, B., 2000. Mechanisms and streams for processing of what and where
in auditory cortex. Proc Natl Acad Sci U S A 97 (22), 118006.
Rauschecker, J. P., Agosto 1998. Cortical processing of complex sounds. Current Opinion in
Neurobiology 8 (4), 516521.
Regier, T. P., 1992. The acquisition of lexical semantics for spatial terms: A connectionist
model of perceptual categorization. Tese de Doutorado, Berkeley, CA, USA.
231
REFERNCIAS BIBLIOGRFICAS
Richards, D. D., Goldfarb, J., 1986. The episodic memory model of conceptual development:
An integrative viewpoint. Cognitive Development 1, 183219.
Riga, T., Cangelosi, A., Greco, A., 2004. Symbol grounding transfer with hybrid selforganizing/supervised neural networks. IEEE International Joint Conference on Neural
Networks - IJCNN, 28652869.
Rizzolatti, G., Craighero, L., 2004. The mirror-neuron system. Annual Review of Neuroscience
27 (1), 169192.
Robinson, R. G., Benson, D. F., Novembro 1981. Depression in aphasic patients: frequency,
severity, and clinical-pathological correlations. Brain Lang. 14(2), 28291.
Roediger, H., McDermott, K., 1995. Creating false memories: Remembering words not
presented in lists. Journal of Experimental Psychology: Learning, Memory & Cognition 21,
803814.
Rogalsky, C., Hickok, G., Abril 2009. Selective attention to semantic and syntactic features
modulates sentence processing networks in anterior temporal cortex. Cereb. Cortex 19 (4),
786796.
Ruppert, D., 2010. Statistics and Data Analysis for Financial Engineering. Springer Texts in
Statistics. Springer.
Russell, B. C., Torralba, A., Murphy, K. P., Freeman, W. T., Maio 2008. Labelme: A database
and web-based tool for image annotation. Int. J. Comput. Vision 77 (1-3), 157173.
Russell, S., Norvig, P., 2009. Artificial Intelligence: A Modern Approach (3rd Edition).
Prentice Hall.
Sakai, K. L., 2005. Language acquisition and brain development. Science 310, 815819.
Saltelli, A., Chan, K., Scott, E. M., 2009. Sensitivity Analysis. Wiley.
Salton, G., McGill, M. J., 1986. Introduction to Modern Information Retrieval. McGraw-Hill,
Inc., New York, NY, USA.
Schacter, D. L., Novembro 1996. Illusory memories: a cognitive neuroscience analysis. Proceedings of The National Academy of Sciences of USA 93 (24), 1352713533.
Scott, S. K., Blank, C. C., Rosen, S., Wise, R. J., Dezembro 2000. Identification of a pathway
for intelligible speech in the left temporal lobe. Brain: A journal of neurology 123 Pt 12,
24002406.
232
REFERNCIAS BIBLIOGRFICAS
Scott, S. K., Rosen, S., Lang, H., Wise, R. J. S., Agosto 2006. Neural correlates of intelligibility
in speech investigated with noise vocoded speechA positron emission tomography study.
Journal of the Acoustical Society of America 120 (2), 10751083.
Seidenberg, M. S., Mcclelland, J. L., 1989. A distributed, developmental model of word
recognition and naming. Psychological Review 96, 523568.
Shibata, F., Ashida, M., Kakusho, K., Kitahashi, T., 1997. Communication of a symbolic route
description based on landmarks between a human and a robot. Em: Proceedings of the 11th
Annual Conference of JSAI. pp. 429432.
Shirai, K., Kobayashi, Iwata, Fukazawa, 1985. A speech system for flexible conversation with
robots. Journal of Robotics Society of Japan 13(4), 104113.
Sim, K. S. H., 2012. Enhanced subspace clustering. Tese de Doutorado, Nanyang Technological
University - Centre for Advanced Information Systems.
Simons, D., Levin, D., 1998. Failure to detect changes to people during a real-world interaction.
Psychonomic Bulletin and Review 5, 644649.
Simons, D. J., Levin, D. T., 1997. Change blindness. Trends Cogn.Sci. 1, 261267.
Smith, A., Outubro 1966. Speech and other functions after left (dominant) hemispherectomy. J
Neurol Neurosurg Psychiatry 29(5), 467471.
Smith, A., Burklund, C. W., 1966. Dominant hemispherectomy: preliminary report on neuropsychological sequelae. Science 153(3741), 12802.
Smith, E. E., Jonides, J., Koeppe, R. A., Awh, E., Schumacher, E. H., Minoshima, S., Julho
1995. Spatial versus object working memory: Pet investigations. J. Cognitive Neuroscience
7 (3), 337356.
Smith, K., Smith, A. D. M., Blythe, R. A., 2009. Reconsidering human cross-situational learning capacities: A revision to yu & smiths (2007) experimental paradigm. in. Em: Proceedings
of the 31st Annual Conference of the Cognitive Science Society. pp. 27112716.
Smith, K., Smith, A. D. M., Blythe, R. A., 2011. Cross-situational learning: An experimental
study of word-learning mechanisms. Cognitive Science 35 (3), 480498.
Smyth, M., Pendleton, L., 1990. Space and movement in working memory. Quarterly Journal
of Experimental Psychology A 42 (2), 291304.
233
REFERNCIAS BIBLIOGRFICAS
Steels, L., Belpaeme, T., Agosto 2005. Coordinating perceptually grounded categories through
language: a case study for colour. Behavor Brain Science 28 (4), 469489.
Stephan, K. E., Marshall, J. C., Friston, K. J., Rowe, J. B., Ritzl, A., Fink, K. Z. G., 2003.
Lateralized cognitive processes and lateralized task control in the human brain. Science 301,
384386.
Stramandinoli, F., Marocco, D., Cangelosi, A., Agosto 2012. The grounding of higher order
concepts in action and language: Acognitive robotics model. Neural networks: the official
Journal of the International Neural Network Society 32 (2008), 16573.
Stromswold, K., Janeiro 1994. Language comprehension without language production: Implications for theories of language acquisition. Em: Annual Boston University Conference on
Language Development.
Suga, N., 1985. The extent to which bisonar information is represented in the bat auditory
cortex. Willey (Interscience), pp. 653695.
Swindale, N. V., 1996. The development of topography in the visual cortex: A review of
models. Network: Computation in Neural Systems 7, 161247.
Taddeo, M., Floridi, L., Outubro 2007. A praxical solution of the symbol grounding problem.
Minds and Machines 17 (4), 369389.
Tajfel, H., Wilkes, A., 1963. Classification and quantitative judgement. British Journal of
Psychology 54, 101114.
Tomasello, M., 1992. First verbs: A case study of early grammatical development. Cambridge:
Cambridge University Press.
Tomasello, M., Kruger, A., 1992. Joint attention on actions: Acquiring verbs in ostensive and
non-ostensive contexts. Journal of Child Language 19, 311333.
Torrance, M., 1994. Natural communication with robots. Dissertao de Mestrado, Massachusetts Institute of Technology.
Trueswell, J. C., Medina, T. N., Hafri, A., Gleitman, L. R., Fevereiro 2013. Propose but verify:
fast mapping meets cross-situational word learning. Cognitive Psychology 66 (1), 126156.
Turing, A. M., 1950. Computing Machinery and Intelligence. Mind LIX, 433460.
Tuytelaars, T., Lampert, C. H., Blaschko, M. B., Buntine, W., Junho 2010. Unsupervised object
discovery: A comparison. Int. J. Comput. Vision 88 (2), 284302.
234
REFERNCIAS BIBLIOGRFICAS
Udesen, H., Madsen, A. L., Maio 1992. Balints syndromevisual disorientation. Ugeskr. Laeg.
154 (21), 14921494.
Van Essen, D. C., Anderson, C. H., , Felleman, D. J., 1992. Information processing in the
primate visual system: An integrated systems perspective. Science 255, 419423.
Vandenberghe, R., Nobre, A. C., Price, C. J., Maio 2002. The response of left temporal cortex
to sentences. J Cogn Neurosci 14 (4), 550560.
Vidal, R., Maro 2011. Subspace clustering. Signal Processing Magazine, IEEE 28 (2), 52 68.
Vidal, R., Ma, Y., Sastry, S., 2005. Generalized principal component analysis (GPCA). IEEE
Transactions on Pattern Analysis and Machine Intelligence 27 (12), 115.
Vogel, E. K., Woodman, G. F., Luck, S. J., 2001. Storage of features, conjunctions and objects
in visual working memory. J. Exp. Psychol. Hum. Percept. Perf 27, 92114.
von Hofsten, C., Junho 2004. An action perspective on motor development. Trends in Cognitive
Science 8 (6), 266272.
Weber, M., Welling, M., Perona, P., 2000. Unsupervised learning of models for recognition.
Em: European Conference on Computer Vision - ECCV, Part I. Springer-Verlag, London, UK,
pp. 1832.
Weizenbaum, J., 1966. ELIZA - A computer program for the study of natural language
communication between man and machine. Communications of The Association for Computing
Machinery (ACM) 9(1), 3645.
Weng, J., McClelland, J., Pentland, A., Sporns, O., Stockman, I., Sur, M., Thelen, E., 2001.
Artificial intelligence: Autonomous mental development by robotsand animals. Science 291,
599600.
Wessinger, C. M., Vanmeter, J., Tian, B., Van Lare, J., Pekar, J., Rauschecker, J. P., Janeiro
2001. Hierarchical organization of the human auditory cortex revealed by functional magnetic
resonance imaging. J. Cognitive Neuroscience 13 (1), 17.
Wheeler, M. E., Treisman, A. M., 2002. Binding in short-term visual memory. J. Exp. Psychol.
Gen. 131, 4864.
Winograd, T., 1971. Procedures as a representation for data in a computer program for
understanding natural language. Tech. rep., Massachusetts Institute of Technology.
235
REFERNCIAS BIBLIOGRFICAS
Xu, F., Carey, S., 1996. Infants metaphysics: The case of numerical identity. Cognitive
Psychology 30, 111153.
Xu, R., Wunsch, D., Maio 2005. Survey of clustering algorithms. IEEE transactions on neural
networks 16 (3), 64578.
Yiu, M. L., Mamoulis, N., 2004. Frequent-pattern based iterative projected clustering. Em:
IEEE International Conference on Data Mining - ICDM. pp. 689692.
Yu, C., Smith, L. B., Maio 2007. Rapid word learning under uncertainty via cross-situational
statistics. Psychol Sci 18 (5), 414420.
Yu, C., Smith, L. B., Janeiro 2012. Modeling cross-situational word-referent learning: prior
questions. Psychol Rev 119 (1), 2139.
Yurovsky, D., Yu, C., Smith, L. B., 2013. Competitive processes in cross-situational word
learning. Cognitive Science 37 (5), 891921.
236