Вы находитесь на странице: 1из 22
Uma Introdução à Lingüística Computacional Parte 1 MarcirioMarcirio SilveiraSilveira ChavesChaves
Uma Introdução à
Lingüística Computacional
Parte 1
MarcirioMarcirio SilveiraSilveira ChavesChaves
MestrandoMestrando
FaculdadeFaculdade dede InformáticaInformática
ProgramaPrograma dede Pós-GraduaçãoPós-Graduação emem CiênciaCiência dada ComputaçãoComputação
PontifíciaPontifícia UniversidadeUniversidade CatólicaCatólica -- PUCPUC
RioRio GrandeGrande dodo SulSul
BrasilBrasil
Agenda • Motivação • Introdução • Áreas de estudo – Fonética e fonologia – Morfologia
Agenda
• Motivação
• Introdução
• Áreas de estudo
– Fonética e fonologia
– Morfologia e sintaxe
– Semântica e pragmática
• Processamento da Linguagem Natural (PLN)
– Reconhecimento e síntese da fala
– Análise léxico-morfológica
• Léxico
• Analisador léxico-morfológico
• Etiquetagem (POS tagging)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
2
Agenda – Análise sintática • Gramáticas e formalismos • Métodos de análise – Análise semântica
Agenda
– Análise sintática
• Gramáticas e formalismos
• Métodos de análise
– Análise semântica
• O significado proposicional e a forma lógica
• Fenômenos semânticos
– Semântica lexical
– Semântica gramatical
• Formalismos de representação semântica
– Análise pragmática
• Pragmática e compreensão
• Questões pragmáticas
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
3
Agenda • Aplicações e desenvolvimento – Reconhecedores e sintetizadores da fala – Corretores ortográficos e
Agenda
• Aplicações e desenvolvimento
– Reconhecedores e sintetizadores da fala
– Corretores ortográficos e gramaticais
– Tradutores automáticos
– Geradores de textos e resumo
– Recuperação de informação
– Extração de informação
– Avaliação de sistemas de processamento de linguagem natural
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
4
Agenda • Processamento de corpus – Anotação de corpus • Anotação gramatical • Anotação sintática
Agenda
• Processamento de corpus
– Anotação de corpus
• Anotação gramatical
• Anotação sintática parcial (sintagmas nominais)
• Anotação de discurso
• Considerações Finais
• Bibliografia
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
5
Motivação • Dentro da Ciência da Computação PLN Lingüística IA Computacional Março / 2003 Marcirio
Motivação
• Dentro da Ciência da Computação
PLN
Lingüística
IA
Computacional
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
6
Introdução • Palavra – carrega informação • sintática, semântica e pragmática – morfemas • stem,
Introdução
• Palavra
– carrega informação
• sintática, semântica e pragmática
– morfemas
• stem, afixos (prefixos, sufixos)
• lingüística baseada em corpus
• PLN
– construção de programas capazes de interpretar e/ou
gerar informação fornecida em linguagem natural
• língua escrita e língua falada
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
7
Fonética e fonologia • Fonética é o estudo da pronúncia das palavras, ou o estudo
Fonética e fonologia
• Fonética é o estudo da pronúncia das palavras, ou o
estudo dos sons do discurso nas gramáticas do mundo
[JURAFSKY00].
• + de 100 músculos envolvidos no controle direto e
contínuo da produção ds ondas sonoras da fala.
• Várias maneiras de pronunciar as palavras (sotaques)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
8
Fonologia • Fonologia é o estudo dos sistemas que selecionam e interrelacionam os padrões de
Fonologia
• Fonologia é o estudo dos sistemas que selecionam e
interrelacionam os padrões de som de uma
linguagem [BEARDON et al 91].
• Fonologia é a área da lingüística que descreve o modo
sistemático que os sons são diferentemente entendidos
em diferentes ambientes, e como este sistema de sons
está relacionado com o resto da gramática
[JURAFSKY00].
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
9
Fonologia • Problemas – diferentes sons são associados a uma mesma grafia ex.: X 1-
Fonologia
• Problemas
– diferentes sons são associados a uma mesma grafia
ex.: X
1- representa duas consoantes (/ks/): sexo, conexão, maxilar,
táxi.
2- representa a consoante /s/: auxílio, máximo, próximo.
3- representa a consoante /z/: exato, exame, êxito.
4- representa a consoante /x/: abacaxi, paixão, xarope, xícara.
5- tem apenas valor etimológico; não representa fonema algum:
exceção (/ese
/).
– diferentes grafias podem representar um mesmo som.
ex.:
acento (ênfase, sinal gráfico), assento (banco, suporte)
acerto (ajuste, combinação), asserto (afirmação, asserção)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
10
Fonologia • Exemplo: Minha conexão caiu. Pedi auxílio ao help-desk e ele disse: - Em
Fonologia
• Exemplo:
Minha conexão caiu. Pedi auxílio ao help-desk e ele
disse:
- Em exatas cinco horas ela será reestabelecida.
Minha coneksão kaiu. Pedi alsilho au rélp-désqui e eli
dici:
- Em ezatas cinko oras ela cerá reestabelesida.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
11
Morfologia e sintaxe • Morfologia – É o estudo do modo que as palavras são
Morfologia e sintaxe
• Morfologia
– É o estudo do modo que as palavras são construídas a
partir de unidades menores chamadas morfemas
[JURAFSKY 00].
• Sintaxe
– É uma descrição de como as palavras, e talvez parte
das palavras, são combinadas juntas para formar
sentenças.
– Parte da gramática que ensina a dispor as palavras
para formar as orações, as orações para formar os
períodos e parágrafos, e estes para formar o
discurso.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
12
Morfologia e sintaxe • Gramática – Uma gramática pode cobrir mais do que uma combinação
Morfologia e sintaxe
Gramática
– Uma gramática pode cobrir mais do que uma
combinação de palavras, ela pode cobrir sons
(fonologia) e significado (semântica).
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
13
Morfologia e sintaxe • Classificação das palavras em diferentes categorias ou partes do discurso (part-of-speech,
Morfologia e sintaxe
• Classificação das palavras em diferentes categorias ou
partes do discurso (part-of-speech, ou POS).
– substantivos (mesa)
– verbos (vencer)
– adjetivos (boa)
– preposições (por)
– advérbios (conscientemente)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
14
Morfologia e sintaxe • Propriedades das categorias – plural (+s) – diminutivo (+inho(a)) – aumentativo
Morfologia e sintaxe
• Propriedades das categorias
– plural (+s)
– diminutivo (+inho(a))
– aumentativo (+ão)
– prefixos (ex+, im+, co+)
– sufixos (+mente)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
15
Morfologia e sintaxe • Classes das categorias – Abertas - compostas por categorias que abrangem
Morfologia e sintaxe
• Classes das categorias
– Abertas - compostas por categorias que abrangem
um grande número de palavras e podem, ainda,
abrigar o surgimento de novas palavras.
Ex.: substantivos, verbos e adjetivos.
– Fechadas - têm funções gramaticais bem definidas.
Ex.: artigos, demonstrativos, quantificadores,
conjunções e preposições.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
16
Morfologia e sintaxe • Contribuição da palavra para o significado da frase – Sintagmas nominais
Morfologia e sintaxe
• Contribuição da palavra para o significado da
frase
– Sintagmas nominais (SNs)
Grupos de palavras baseados em um substantivo.
• a mesa
SNs descrevendo o
• a mesa redonda
mesmo tipo de objeto
• a mesa redonda da sala
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
17
Morfologia e sintaxe • Contribuição da palavra para o significado da frase – Sintagmas adjetivais
Morfologia e sintaxe
• Contribuição da palavra para o significado da
frase
– Sintagmas adjetivais (SAs)
Grupos de palavras baseados em um adjetivo.
• grande
• muito grande
SAs descrevendo o
• grande como um elefante
mesmo tipo de
qualidade
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
18
Morfologia e sintaxe • Problema do reconhecimento das categorias das palavras – Etiquetadores de categorias
Morfologia e sintaxe
• Problema do reconhecimento das categorias das
palavras
– Etiquetadores de categorias gramaticais (ou POS
taggers)
Ex.:
['SN',projeto,de,['SN',reforma],tributária]
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
19
Morfologia e sintaxe • Ambigüidade sintática A mesma frase pode ser mapeada em mais de
Morfologia e sintaxe
• Ambigüidade sintática
A mesma frase pode ser mapeada em mais de uma
estrutura sintática válida para a mesma
interpretação.
–Não se refere a ambigüidade das palavras.
Exemplo:
O manifestante foi visto com o binóculo.
– O manifestante estava com o binó culo.
–Eu estava com o binóculo.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
20
• Forte ligação entre os subsistemas – Para fazer a análise sintática utiliza-se informações morfológicas
• Forte ligação entre os subsistemas
– Para fazer a análise sintática utiliza-se
informações morfológicas
– Resultado da análise sintática tem
conseqüências no campo da semântica.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
21
Semântica e pragmática • Semântica Estudo do significado das expressões da linguagem natural. • Pragmática
Semântica e pragmática
• Semântica
Estudo do significado das expressões da
linguagem natural.
• Pragmática
– Estudo das relações dos significados com o
contexto da enunciação.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
22
Semântica • Semântica – Problema: palavras representando múltiplos sentidos Ex.: ponto, banco, macaco –
Semântica
• Semântica
– Problema: palavras representando múltiplos sentidos
Ex.: ponto, banco, macaco
– Ambigüidade L éxica
• Uma mesma palavra possui múltiplos significados.
Ex.:
Ela estava em minha companhia.
• companhia = empresa
• companhia = pessoa (ela estava comigo)
– Solução alternativa:
• classes de objetos (taxonomias ou ontologias)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
23
Semântica • Ambigüidade semântica estrutural Advém da(o): – ambigüidade sintática Ex.: Pessoas e animais
Semântica
• Ambigüidade semântica estrutural
Advém da(o):
– ambigüidade sintática
Ex.:
Pessoas e animais
estressados vivem na metrópole.
– escopo dos quantificadores
Ex.:
Todas as alunas gostam de um professor.
– existe um único professor de quem todas as alunas
gostam.
– cada aluna gosta de um professor diferente.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
24
Semântica • Mais difícil de tratar do que a sintaxe • Envolve conhecimento de mundo
Semântica
• Mais difícil de tratar do que a sintaxe
• Envolve conhecimento de mundo
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
25
Pragmática • Estudo das relações dos significados com o contexto da enunciação. • Estudo de
Pragmática
• Estudo das relações dos significados com o contexto da
enunciação.
• Estudo de como o contexto influencia a interpretação
do significado.
• Ex.:
– Sobrou um pouco de comida?
• Ciência da Computação
– Modelagem de sistemas multi-agentes
– Teoria dos atos de fala de Austin e Searle
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
26
Pragmática • Fenômeno pragmático – Atos de Fala •Representativos •Diretivos •Comissivos •Expressivos
Pragmática
• Fenômeno pragmático
Atos de Fala
•Representativos
•Diretivos
•Comissivos
•Expressivos
•Declarações
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
27
Pragmática • Classificação dos tipos de enunciados – Representativos: o falante comunica que acredita na
Pragmática
• Classificação dos tipos de enunciados
– Representativos: o falante comunica que acredita
na verdade da expressão (por exemplo, através de
asserção ou conclusão).
Ex.: O povo de La Coruña é muito hospitaleiro.
– Diretivos: o falante tem por intenção provocar o
ouvinte a realizar uma ação (por exemplo,
requisição, pergunta, ordem, proibição, permissão).
Ex.: Posso perguntar a você?
Não bata a porta!
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
28
Pragmática • Classificação dos tipos de enunciados: – Comissivos: o falante se compromete com a
Pragmática
• Classificação dos tipos de enunciados:
– Comissivos: o falante se compromete com a
realização de uma ação no futuro (por exemplo,
promessa, ameaça).
Ex.: Eu prometo voltar a Espanha.
– Expressivos: o falante expressa um estado
psicológico (por exemplo, agradecimento, pedido de
desculpas).
Ex.: Muito obrigado.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
29
Pragmática • Classificação dos tipos de enunciados: – Declarações: têm como efeito imediato uma mudança
Pragmática
• Classificação dos tipos de enunciados:
– Declarações: têm como efeito imediato uma
mudança de estado (por exemplo, uma declaração de
guerra, a confirmação do batismo).
Ex.: Eu declaro guerra contra o crime.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
30
Pragmática • Classificação dos tipos de enunciados: Tipo de classificação utilizada como base para a
Pragmática
• Classificação dos tipos de enunciados:
Tipo de classificação utilizada como base para a
construção de protocolos de comunicação entre
agentes.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
31
O que foi visto • Motivação • Introdução • Áreas de estudo – Fonética e
O que foi visto
• Motivação
• Introdução
• Áreas de estudo
– Fonética e fonologia
– Morfologia e sintaxe
– Semântica e pragmática
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
32
A seguir • Processamento da Linguagem Natural (PLN) – Reconhecimento e síntese da fala –
A seguir
• Processamento da Linguagem Natural (PLN)
– Reconhecimento e síntese da fala
– Análise léxico-morfológica
• Léxico
• Analisador léxico-morfológico
Etapas
lingüísticas
• Etiquetagem (POS tagging)
– Análise sintática
• Gramáticas e formalismos
• Métodos de análise
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
33
PLN • Linguagem Natural (LN) – É alguma coisa que já existe e preenche várias
PLN
• Linguagem Natural (LN)
– É alguma coisa que já existe e preenche várias
funções nas nossas relações com outras pessoas.
• Linguagem Artificial
– É alguma coisa que nós prescrevemos. Ex.: C, Java,
Pascal, Prolog,
– Impõe restrições não encontradas em LN
– Não existe ambigüidade nas regras ou nas palavras
reservadas
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
34
PLN • Contexto histórico – Guerra Fria (1945-49) • algoritmos de criptologia • tradução automática
PLN
• Contexto histórico
– Guerra Fria (1945-49)
• algoritmos de criptologia
• tradução automática
– 1966 - corte de recursos financeiros pelo
governo americano
– 1980 - retorno dos investimentos
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
35
PLN • O Processamento de Linguagem Natural é o conjunto de métodos formais para analisar
PLN
• O Processamento de Linguagem Natural é o
conjunto de métodos formais para analisar
textos e gerar frases escritas em um idioma
humano.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
36
PLN • O objetivo: – fornecer aos computadores a capacidade de entender e compor textos.
PLN
• O objetivo:
– fornecer aos computadores a capacidade de
entender e compor textos.
– "entender" um texto significa:
• reconhecer o contexto,
• fazer análise sintática, semântica, léxica e
morfológica,
• criar resumos,
• extrair informação,
• recuperar informação,
• etc
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
37
PLN • Avanços na área – sistemas de verificação ortográfica e gramatical – sistemas de
PLN
• Avanços na área
– sistemas de verificação ortográfica e
gramatical
– sistemas de ditados
– interfaces baseadas em fala
– sintetizadores de fala (sistemas que podem ler
textos escritos)
• Dificuldades
– tradução automática
– recuperação de informações
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
38
PLN • Reconhecimento e síntese da fala –Reconhecimento da fala Envolve o reconhecimento das palavras
PLN
• Reconhecimento e síntese da fala
–Reconhecimento da fala
Envolve o reconhecimento das palavras da língua.
O usuário dita e o computador transcreve a fala em
texto.
Ex.:
• Palavras isoladas, vocabulário restrito
– Útil para interface
• Chamada telefônica
• IBM Via Voice (http://www-3.ibm.com/software/speech/index.shtml)
• Philips FreeSpeech
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
39
PLN • Reconhecimento e síntese da fala –Reconhecimento da fala Ex.: because – cause Solução:
PLN
• Reconhecimento e síntese da fala
–Reconhecimento da fala
Ex.:
because – cause
Solução: Utilização de regras
• Dificuldades
– Sistemas requerem treinamento
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
40
PLN • Reconhecimento e síntese da fala –Síntese da fala A partir de um texto
PLN
• Reconhecimento e síntese da fala
–Síntese da fala
A partir de um texto escrito, o sistema faz a
“leitura” em voz alta para o usuário.
Ex.: CMU Pronouncing Dictionary
• Dificuldades
– aspectos prosódicos ( reprodução da
pronúncia, entonação e sotaque naturais)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
41
PLN • Reconhecimento e síntese da fala – Curiosidade!! Em nível fonético a língua inglesa
PLN
• Reconhecimento e síntese da fala
– Curiosidade!!
Em nível fonético a língua inglesa requer o
armazenamento de aproximadamente
– 24 fonemas de consoantes
– 20 fonemas de vogais
[BEARDON et al 91]
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
42
PLN • Análise léxico-morfológica –Léxico (ou dicionário) É a estrutura de dados contendo os itens
PLN
• Análise léxico-morfológica
–Léxico (ou dicionário)
É a estrutura de dados contendo os itens lexicais e
as informações correspondentes a estes itens.
– Entradas no léxico
• palavras isoladas
Ex.: cabelo, madeira, teclado
• composições de palavras
Ex.: Museu de Arte, palavras-chave, cadeira
de rodas
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
43
PLN • Análise léxico-morfológica –Analisador léxico-morfológico Particiona a sentença em itens lexicais e
PLN
• Análise léxico-morfológica
–Analisador léxico-morfológico
Particiona a sentença em itens lexicais e realiza
uma varredura, tratando item a item, e decompondo-
os em seus morfemas.
• Morfema = Elemento lingüístico que exprime
as relações entre as idéias e compreende afixos
e desinências.
– Ex.: indefinidamente
» morfemas = {in, definida, mente}
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
44
PLN • Análise léxico-morfológica – Ambigüidade léxico-morfológica Uma mesma palavra apresenta diversas
PLN
• Análise léxico-morfológica
– Ambigüidade léxico-morfológica
Uma
mesma
palavra
apresenta
diversas
categorias gramaticais.
Ex.: palavra o
• um artigo definido
• uma preposição
• um pronome
• um substantivo
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
45
PLN • Análise léxico-morfológica – Etiquetador gramatical (POS tagger) Sistema responsável por identificar, em
PLN
• Análise léxico-morfológica
– Etiquetador gramatical (POS tagger)
Sistema responsável por identificar, em uma
sentença, para cada um dos itens lexicais, a
categoria a que este item pertence.
Ex.: palavra o
Identificar a categoria de acordo com a posição que a palavra
ocupa na frase.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
46
PLN • Análise léxico-morfológica – Etiquetagem Processo de assinalamento de um marcador de classe gramatical
PLN
• Análise léxico-morfológica
– Etiquetagem
Processo de assinalamento de um marcador de
classe gramatical (ou outro marcador ou “etiqueta”
de interesse) a cada palavra, num corpus [JUR 00].
• Semelhante a “tokenização” em gramáticas de
programação.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
47
PLN • Análise léxico-morfológica – Etiquetagem – Entrada • uma cadeia de itens lexicais +
PLN
• Análise léxico-morfológica
– Etiquetagem
– Entrada
• uma cadeia de itens lexicais +
• um conjunto específico de etiquetas
– Saída
• conjunto de itens lexicais com a melhor
etiqueta associada a cada item.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
48
PLN • Análise léxico-morfológica – Exemplo de aplicações •Reconhecimento da fala –Permite saber o que
PLN
• Análise léxico-morfológica
– Exemplo de aplicações
•Reconhecimento da fala
–Permite saber o que vem após um pronome possessivo, por
exemplo.
• Recuperação de informação
–Substantivo (potencial indexador)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
49
PLN • Análise sintática – nível de frase (ou sintagma) – reconhece uma seqüência de
PLN
• Análise sintática
– nível de frase (ou sintagma)
– reconhece uma seqüência de palavras como
constituindo uma frase da língua ou não.
– Utiliza:
• conjunto de itens lexicais da língua
• uma gramática
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
50
PLN • Análise sintática – Gramáticas e formalismos •Hierarquia de Chomsky Gramáticas Enumeráveis
PLN
• Análise sintática
– Gramáticas e formalismos
•Hierarquia de Chomsky
Gramáticas Enumeráveis Recursivamente
ou Tipo 0
C
o
m
Gramáticas Sensíveis ao Contexto
ou Tipo 1
p
l
Gramáticas Livres de Contexto
ou Tipo 2
e
x
i
Gramáticas Regulares
ou Tipo 3
d
a
d
e
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
51
PLN • Análise sintática – Gramáticas e formalismos •Gramáticas Livre de Contexto – Somente um
PLN
• Análise sintática
– Gramáticas e formalismos
•Gramáticas Livre de Contexto
– Somente um símbolo do lado esquerdo da
regra (o mesmo símbolo pode aparecer do
lado esquerdo de várias regras)
– O símbolo não pode ser uma das palavras
do léxico
– “::=” lido como: é definido como
– “ | ” lido como: alternativa
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
52
PLN • Análise sintática – Gramáticas e formalismos •Gramáticas Livre de Contexto – Notação Livre
PLN
• Análise sintática
– Gramáticas e formalismos
•Gramáticas Livre de Contexto
– Notação Livre de Contexto
» Det ::= o | a | um | uma
– Forma Se-Então
» Se a palavra é o ou a ou um ou uma
» Então rotule (marque) a palavra como
um Det.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
53
PLN • Análise sintática – Gramáticas e formalismos •Gramáticas Livre de Contexto – Um léxico
PLN
• Análise sintática
– Gramáticas e formalismos
•Gramáticas Livre de Contexto
– Um léxico escrito como uma GLC é um conjunto
de regras que indicam associações entre palavras
e suas categorias sintáticas (partes do discurso).
–Det::= o | a | um | uma
–Subst::= ônibus | pássaro | dia
–Adj::= bonito | azul | grande
Exemplo de parte de um léxico
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
54
PLN • Análise sintática – Gramáticas e formalismos Uma gramática pode ser representada por diversos
PLN
• Análise sintática
– Gramáticas e formalismos
Uma gramática pode ser representada por
diversos formalismos, entre eles:
Gramáticas
de
constituintes
imediatos
(PSG ou phrase structure grammar)
Ex.:
F - frase
SN - sintagma nominal (é um agrupamento de palavras
que tem como núcleo, ou elemento principal, um
substantivo).
Subst - substantivo
Det - determinante
SV - sintagma verbal
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
55
PLN • Análise sintática – Gramáticas e formalismos • Gramáticas de constituintes imediatos (PSG ou
PLN
• Análise sintática
– Gramáticas e formalismos
• Gramáticas de constituintes imediatos (PSG ou
phrase structure grammar)
•Gramática gerativa
– Gramática
capaz
de
gerar
todas
as
sentenças gramaticalmente corretas.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
56
PLN • Análise sintática – Gramáticas e formalismos • Gramáticas de constituintes imediatos (PSG ou
PLN
• Análise sintática
– Gramáticas e formalismos
• Gramáticas de constituintes imediatos (PSG ou
phrase structure grammar)
Ex.:
Gramática gerativa para reconhecer a frase
O menino usa o chapéu.
F ::= SN | SV.
SN ::= Det | Subst.
SV ::= Verbo | SN.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
57
PLN • Análise sintática – Gramáticas e formalismos • Gramáticas de constituintes imediatos (PSG ou
PLN
• Análise sintática
– Gramáticas e formalismos
• Gramáticas de constituintes imediatos (PSG ou
phrase structure grammar)
Decomposição:
F
::= SN | SV.
F
::= [Det | Subst] | [Verbo | SN].
F
::= [Det | Subst] | [Verbo, [Det | Subst]].
Det ::= o
Subst ::= menino, chapéu
Verbo ::= usa
F ::= [Det | Subst] | [Verbo, [Det | Subst]].
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
58
PLN • Análise sintática – Gramáticas e formalismos • Gramáticas de constituintes imediatos (PSG ou
PLN
• Análise sintática
– Gramáticas e formalismos
• Gramáticas de constituintes imediatos (PSG ou
phrase structure grammar)
Problemas:
• concordância de gênero e número
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
59
PLN • Análise sintática – Métodos de análise • top-down • bottom-up • left-corner •
PLN
• Análise sintática
– Métodos de análise
• top-down
• bottom-up
• left-corner
• tabular
– Parser (Analisador sintático)
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
60
PLN • Análise sintática – Métodos de análise • Formalismo para representação de GLC denominado
PLN
• Análise sintática
– Métodos de análise
• Formalismo para representação de GLC
denominado DCG (Definite Clause
Grammar)
•top-down
F ::=
SN,
SV.
SN
::=
Det, Subst.
SV
::= Verbo, SN.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
61
PLN • Análise sintática – Métodos de análise • bottom-up Lê as palavras e tenta
PLN
• Análise sintática
– Métodos de análise
• bottom-up
as
palavras
e
tenta
combiná-las
em
constituintes.
O menino
usa o chapéu.
Det ::= o
F ::= SN, SV.
Subst ::= menino, chapéu
SN ::= Det, Subst.
Verbo ::= usa
SV ::= Verbo, SN.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
62
PLN • Análise sintática – Exemplo de aplicação: Corretores ortográficos e gramaticais Março / 2003
PLN
• Análise sintática
– Exemplo de aplicação:
Corretores ortográficos e gramaticais
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
63
E a sentença… o chapéu usa o menino. Março / 2003 Marcirio S. Chaves /
E a sentença…
o chapéu usa o menino.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
64
O que foi visto • Processamento da Linguagem Natural (PLN) – Reconhecimento e síntese da
O que foi visto
• Processamento da Linguagem Natural (PLN)
– Reconhecimento e síntese da fala
– Análise léxico-morfológica
• Léxico
• Analisador léxico-morfológico
• Etiquetagem (POS tagging)
– Análise sintática
• Gramáticas e formalismos
• Métodos de análise
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
65
A seguir • Processamento da Linguagem Natural (PLN) – Análise semântica • O significado proposicional
A seguir
• Processamento da Linguagem Natural (PLN)
– Análise semântica
• O significado proposicional e a forma lógica
• Fenômenos semânticos
– Semântica lexical
– Semântica gramatical
• Formalismos de representação semântica
– Análise pragmática
• Pragmática e compreensão
• Questões pragmáticas
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
66
PLN • Análise semântica – O significado proposicional envolve a tradução de uma sentença em
PLN
• Análise semântica
– O significado proposicional envolve a tradução
de uma sentença em linguagem natural para uma
expressão em linguagem formal.
– Forma lógica
• semântica bem definida
• Problema dos quantificadores
– Lógica clássica: Para todo ∀, existe ∃
– Linguagem natural: muitos, poucos, pelo menos x,
no máximo y, etc.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
67
PLN • Análise semântica – Fenômenos semânticos • Semântica lexical • Semântica gramatical Março /
PLN
• Análise semântica
– Fenômenos semânticos
• Semântica lexical
• Semântica gramatical
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
68
PLN • Análise semântica – Semântica lexical • associada às categorias de palavras como verbos,
PLN
• Análise semântica
– Semântica lexical
• associada às categorias de palavras como
verbos, substantivos e adjetivos.
• Tratamento da polissemia
Ex.: entradas lexicais com restrições de seleção
banco → [- objeto físico], [+ instituição]
banco → [+ objeto físico], [+ artefato]
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
69
PLN • Análise semântica – Semântica lexical • Uso de ontologias Ex.: Diversos soldados atiraram
PLN
• Análise semântica
– Semântica lexical
• Uso de ontologias
Ex.:
Diversos soldados atiraram nos homens e alguns
caíram.
Relação de causalidade: atirar-cair
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
70
PLN • Análise semântica – Semântica gramatical • associada às categorias de palavras como preposições
PLN
• Análise semântica
– Semântica gramatical
• associada às categorias de palavras como
preposições e artigos.
• A semântica gramatical procura descrever o
significado da frase traduzindo-a em uma
estrutura que interprete as relações sintáticas
entre os itens lexicais.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
71
PLN • Análise semântica – Formalismos de representação semântica • atributo-valor • formalismos lógicos
PLN
• Análise semântica
– Formalismos de representação semântica
• atributo-valor
• formalismos lógicos
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
72
PLN • Análise semântica – Formalismos de representação semântica • atributo-valor Ex.: Canário –
PLN
• Análise semântica
– Formalismos de representação semântica
• atributo-valor
Ex.:
Canário
– Tipo-de: pássaro
– Cor: amarelo
– Propriedade: assobiar
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
73
PLN – Análise semântica • Formalismos de representação semântica – atributo-valor Exemplo anterior em forma
PLN
– Análise semântica
• Formalismos de representação semântica
– atributo-valor
Exemplo anterior em forma de grafo
canário
tipo-de
cor
propriedade
pássaro
amarelo
assobiar
tipo-de
propriedade
tipo-de
animal
voar
emitir sons
Decomposição semântica
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
74
PLN – Análise semântica • Formalismos de representação semântica –formalismos lógicos Permite a
PLN
– Análise semântica
• Formalismos de representação semântica
–formalismos lógicos
Permite a realização de inferências
Ex.:
Ação do agente A de pedir o objeto X ao agente Y.
pedir (A,X,Y).
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
75
PLN • Análise pragmática – Pragmática e compreensão A análise pragmática se refere a obtenção
PLN
• Análise pragmática
– Pragmática e compreensão
A análise pragmática se refere a obtenção do
significado “não literal” de uma sentença.
Pontos importantes
– as relações entre frases (para construir uma
representação do texto, a representação de cada
nova frase se apóia na precedente)
– o contexto (a situação e condições em que ocorre
o enunciado).
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
76
PLN • Análise pragmática – Pragmática e compreensão Ex.: O diretor comunicou que os funcionários
PLN
• Análise pragmática
– Pragmática e compreensão
Ex.:
O diretor comunicou que os funcionários da empresa
irão trabalhar no feriado para conseguir entregar as
encomendas na segunda-feira.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
77
PLN • Análise pragmática – Questões pragmáticas •mecanismos de inferência (ontologia) Ex.: Carmem comprou
PLN
• Análise pragmática
– Questões pragmáticas
•mecanismos de inferência (ontologia)
Ex.:
Carmem comprou um carro 0 Km.
•resolução de anáforas e co-referência
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
78
PLN • Análise pragmática – Questões pragmáticas • resolução de anáforas e co-referência Março /
PLN
• Análise pragmática
– Questões pragmáticas
• resolução de anáforas e co-referência
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
79
PLN Março / 2003 Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
PLN
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
80
PLN Março / 2003 Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
PLN
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
81
PLN • Análise pragmática – Questões pragmáticas • resolução de anáforas e co-referência • Exemplos
PLN
• Análise pragmática
– Questões pragmáticas
• resolução de anáforas e co-referência
• Exemplos de aplicações:
• Recuperação de informação
• Extração de informação
• Tradução automática
• Gerador de texto e resumo
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
82
O que foi visto – Análise semântica • O significado proposicional e a forma lógica
O que foi visto
– Análise semântica
• O significado proposicional e a forma
lógica
• Fenômenos semânticos
– Semântica lexical
– Semântica gramatical
• Formalismos de representação semântica
– Análise pragmática
• Pragmática e compreensão
• Questões pragmáticas
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
83
A seguir • Aplicações e desenvolvimento – Reconhecedores e sintetizadores da fala – Corretores ortográficos
A seguir
• Aplicações e desenvolvimento
– Reconhecedores e sintetizadores da fala
– Corretores ortográficos e gramaticais
– Tradutores automáticos
– Geradores de textos e resumo
– Recuperação de informação
– Extração de informação
– Avaliação de sistemas de processamento de
linguagem natural
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
84
Referências Bibliográficas •[BEARDON 91] BEARDON, C. et al. Natural Language and Computational Linguistics.
Referências Bibliográficas
•[BEARDON 91] BEARDON, C. et al. Natural Language and
Computational Linguistics. Melksham-Wiltshire, England, Ellis
Horwood Ltda., 1991.
• [JURAFSKY 00]JURAFSKY, Daniel Saul; MARTIN, James H.
Speech and language processing: an introduction to natural
language processing, computational linguistics, and speech
recognition, Upper Saddle River, NJ : Prentice Hall, 2000. 934 p.
• [VIEIRA 01] Vieira, R. e Lima, V. L. S. Lingüística
Computacional: Princípios e Aplicações. In: IX Escola de
Informática da SBC-Sul. Luciana Nedel (Ed.) Passo Fundo,
Maringá, São José. SBC-Sul. pgs 27-58.
Março / 2003
Marcirio S. Chaves / mchaves@inf.pucrs.br / PPGCC / PUC-RS / Brasil
85