Marcelo Celeghini

8
Marcelo Celeghini
PROJETO SOBRE AS PRINCIPAIS TÉCNICAS PARA PROCESSAMENTO DE

LINGUAGEM NATURAL (PLN), UTILIZANDO PYTHON E A BIBLIOTECA DE
CÓDIGO ABERTO, NATURAL LANGUAGE TOOLKIT (NLTK)
SÃO PAULO
2012
Agradeço a todos e a tudo que direta ou indiretamente contribuíram para a

realização deste trabalho.
9
RESUMO
O Processamento de Linguagem Natural (PLN) é um campo da ciência da

computação que se preocupa com o processamento da linguagem humana para a
entrada e saída de dados em sistemas computacionais. Ao invés de usar uma
linguagem de programação convencional, o usuário simplesmente pode usar a
linguagem do seu dia-a-dia, como se ele estivesse se comunicando com outra
pessoa.
Um dos problemas mais desafiadores na área de ciência da computação é

desenvolver computadores que possam entender a linguagem natural e devolver
respostas corretas para ela.
Neste trabalho, utilizaremos a linguagem de programação Python juntamente

com a biblioteca de código aberto, Natural Language Toolkit (NLTK) para:
- Explicar como a linguagem Python trata um texto.
- Extrair informações de textos não estruturados.
- Analisar a estrutura linguística em um texto, incluindo análise sintática e

semântica.
- Escrever programas para acessar textos em arquivos.
- Construir modelos de linguagem que possam ser usados em execução

automática de tarefas de processamento de linguagem.
10
CONVENÇÕES ADOTADAS
Com o intuito de facilitar o entendimento desse trabalho, a fonte utilizada nos

exemplos de códigos será a fonte Courier New, tamanho 12, e os resultados
dos códigos executados serão escritos com a fonte Courier New, Tamanho 12,
em Negrito e na cor azul.
Como a biblioteca NLTK foi desenvolvida baseada majoritariamente no

padrão ASCII e em textos da língua inglesa, para evitar resultados inesperados na
execução dos códigos sobre textos em português baseados em caracteres Unicode,
em alguns dos textos as letras acentuadas e caracteres especiais da língua
portuguesa foram substituídos por caracteres não acentuados, ex. ‘á’ por ‘a’, ‘ê’ por
‘e’, ‘ç’ por ‘c’, e assim por diante.
11
Sumário
INTRODUÇÃO ....................................................................................................................................... 12
1. PLN E PYTHON .................................................................................................................................. 14
1.1. O Processamento de Linguagem Natural .................................................................................. 14
1.2. A linguagem de programação Python ....................................................................................... 15
1.3. O Interpretador interativo ......................................................................................................... 16
1.4. Utilizando simples técnicas para processamento de textos ...................................................... 17
1.4.1. O uso de funções ................................................................................................................ 20
1.5. A biblioteca NLTK ...................................................................................................................... 22
1.6. Alguns desafios na área de Processamento de Linguagem Natural .......................................... 24
2. PROCESSAMENTO DE TEXTO BRUTO E O USO DE RECURSOS LÉXICOS ............................................ 26
2.1. Transformando um texto em tokens ......................................................................................... 26
2.2. Recursos léxicos ........................................................................................................................ 28
2.3. Stopwords ................................................................................................................................. 32
2.4. Expressões regulares e detecção de padrões ............................................................................ 33
3. AS CATEGORIAS LÉXICAS .................................................................................................................. 36
3.1. O processo de etiquetação ........................................................................................................ 38
3.1.1. Etiquetador padrão ............................................................................................................ 38
3.1.2. Avaliando a precisão de um etiquetador ............................................................................ 39
3.1.3. Etiquetador Unigram .......................................................................................................... 39
3.1.4. Combinando etiquetadores ................................................................................................ 42
4. ANÁLISE SINTÁTICA PARCIAL ............................................................................................................ 44
4.1. Expressões regulares para a identificação de padrões .............................................................. 44
4.2. Utilizando gramáticas para agrupar e desagrupar palavras....................................................... 46
5. CONSTRUINDO UM SISTEMA PARA CORREÇÃO VERBAL .................................................................. 48
5.1. Dicionários em Python .............................................................................................................. 49
5.2. Definindo os dicionários ............................................................................................................ 49
5.3. Definindo uma função auxiliar .................................................................................................. 51
5.4. Definindo uma função para correção Verbal ............................................................................. 52
6. CONCLUSÃO ..................................................................................................................................... 57
REFERÊNCIAS BIBLIOGRÁFICAS ............................................................................................................ 58
12
INTRODUÇÃO
A partir da Revolução Industrial, a humanidade intensificou a criação de meios

e dispositivos para automatizar o trabalho mecânico. Na segunda metade do século
XX, iniciou-se uma nova revolução, dessa vez com a atenção dos humanos voltada
para a automatização de atividades intelectuais, desde então e cada vez mais,
restarão aos homens apenas tarefas ligadas às tomadas de decisões.
Não seria bom poder dirigir um carro sem o uso das mãos, apenas
"conversando" com o automóvel?
E sobre viajar para a China e poder comunicar-se com os seus habitantes,

sem necessariamente saber falar chinês?
Apesar da primeira situação ainda ser um caso de ficção científica, a segunda

não é.
Em reportagem do site UOL Tecnologia1 de 23 de maio de 2011, foi listada

uma série de aplicativos para celulares que permitem que uma pessoa viaje para a
China e que se comunique de forma satisfatória sem saber o idioma mandarim, a
língua mais falada por lá. Entre esses aplicativos estão dicionários em mandarim,
reconhecedores de caracteres, tradutores automáticos, pronunciadores de frases e
palavras, leitores de texto, entre outros.
Figura 1.1: Aplicativo que reconhece desenhos de caracteres em mandarim feitos na

tela de um dispositivo móvel.
Aplicativos como esses ainda apresentam falhas e inconsistências, mas já
1
http://tecnologia.uol.com.br/album/2011_falar_chines_aplicativos_album.jhtm?
13
estão nos auxiliando na resolução de problemas na área de PLN (Processamento de

Linguagem Natural), que praticamente eram insolúveis há 50 anos, quando
começaram a surgir os primeiros computadores eletrônicos.
No processamento de linguagem natural, um desafio ainda não vencido

totalmente é saber qual o real sentido de uma sentença, pois a mesma pode assumir
vários significados, mas geralmente apenas um é o aceitável. Para isso utiliza-se um
conjunto de regras para tentar compreender, sem ambiguidades, as informações
contidas na linguagem falada ou escrita.
Nesse trabalho, concentraremos os nossos esforços no sentido de explicar as

principais técnicas de PLN utilizadas para a manipulação de textos escritos. Para
tanto, utilizaremos a linguagem de programação Python para implementar os
algoritmos estudados.
Por que Python? Porque é uma linguagem poderosa, de fácil entendimento, e

com uma especial característica, que é o fato de possuir à sua disposição uma
biblioteca de código livre chamada Natural Language Toolkit (NLTK), com várias
funcionalidades especificamente voltadas para o processamento de dados
linguísticos.
Os livros que nos serviram de base para esse estudo foram “Natural
Language Processing with Python”, “Python Text Processing with NLTK 2.0
Cookbook”, “Mining the Social Web” e “Python 2.6 Text Processing Beginner's
Guide”.
O interpretador Python para diversas plataformas pode ser obtido

gratuitamente em http://www.python.org/, e a biblioteca NLTK também pode ser
baixada sem custo em http://www.nltk.org/. Nesses dois endereços existe vasta
documentação, dados e exemplos que podem ser livremente consultados.
Na primeira parte do nosso trabalho começaremos com uma introdução à

Python e ao PLN, e demonstraremos o que pode ser alcançado com a combinação
de simples técnicas de programação com grandes quantidades de texto, quais são
as técnicas e ferramentas que Python disponibiliza para esse tipo de trabalho e
quais são alguns dos desafios do processamento de linguagem natural.
Na segunda parte falaremos sobre o uso de recursos léxicos, e como separar

palavras, símbolos e pontuações em um texto para que possam ser usados em
diferentes tipos de análise.
Na terceira parte definiremos as categorias léxicas e mostraremos como elas

podem ser usadas no processamento de linguagem natural.
Na quarta parte veremos como identificar e classificar as características

relevantes de uma linguagem.
E finalmente na quinta parte, construiremos um sistema para manipular

informações em dados não estruturados, utilizando algumas das técnicas vistas ao
longo do nosso estudo.
14
1. PLN E PYTHON
1.1. O Processamento de Linguagem Natural
O Processamento de Linguagem Natural é um campo de estudo altamente

interdisciplinar que engloba conceitos de Linguística 2, Matemática e Ciência da
Computação.
A utilização da linguagem humana, seja em texto escrito ou falado, está

crescendo a taxas exponenciais e as pessoas estão cada vez mais confiando em
serviços da internet para a busca, filtragem e processamento de conteúdo. Esses
serviços que nos permitem fazer tudo isso com a linguagem cotidiana fazem parte
dos problemas compreendidos pelo PLN.
Para explicar melhor daremos alguns exemplos. Digamos que um blogger

esteja tentando obter informações sobre uma erupção vulcânica no Chile.
O seu fluxo de trabalho pode consistir numa sequência de tarefas baseada na

Web. Para cada tarefa que está sendo executada, incluiremos o nome do problema
específico em PLN que está sendo resolvido:
-“Mostre-me os dez documentos mais relevantes da internet sobre a erupção

vulcânica no Chile.” (Recuperação de Informação).
- “Faça um resumo sobre esses duzentos artigos sobre a erupção no Chile.”

(Resumo Automático de Documento).
- “Traduza esse blog do espanhol para o português, para que eu possa obter
as últimas informações sobre a erupção no Chile.” (Tradução Automática).
O PLN como área de estudos acadêmicos nunca foi mais relevante do que é
atualmente. E os sucessos obtidos nessa área devem-se à utilização de métodos
que são dirigidos por dados de linguagem natural em vez de usar métodos
puramente baseados no conhecimento ou baseados em regras, que além de não
serem tão robustas, possuem alto custo computacional.
Com o crescimento dessa tendência, as técnicas de PLN dirigidas a dados

vêm se tornando cada vez mais sofisticadas, empregando vários conhecimentos das
2
Linguística é a ciência que estuda a linguagem verbal humana.
15
áreas de Estatística e de Aprendizado de Máquinas. Tais técnicas exigem grandes

quantidades de dados para poderem construir um modelo razoavelmente
semelhante à linguagem humana.
Em PLN e em Linguística usa-se com frequência os termos corpus ou

corpora (corpus no plural). Uma coleção com as diversas obras de Machado de
Assis pode ser chamada de um corpus, e uma coleção com várias obras de
diversos autores chamamos de corpora. Corpus e corpora em nosso trabalho
representarão uma grande coleção finita de textos que sirvam para o propósito de
análise. Podemos usar um corpus para medir a frequência de uma palavra em um
idioma, ou para criar um dicionário de uma língua, por exemplo.
1.2. A linguagem de programação Python
Python é uma linguagem interpretada, de código aberto, de alto nível e de uso

geral. Foi criada no início da década de 1990, por Guido van Rossum no CWI
(Centrum Wiskunde & Informatica) na Holanda. O nome veio de uma homenagem a
um programa televisivo humorístico chamado Monty Python, que foi ao ar pelo canal
de TV britânico BBC, entre os anos de 1969 e 1974.
É considerada uma linguagem de programação multiparadigma, ou seja, ao

invés de obrigar o programador a adotar um estilo específico de programação, ela
permite que sejam usados estilos diferentes, como programação estruturada ou
orientada a objetos, misturando livremente construtores de diferentes paradigmas.
Desse modo o programador fica livre para utilizar diferentes ferramentas conforme a
sua necessidade.
Em Python não existem tipos primitivos, o conceito de variável é sempre

representado por um objeto.
Python é fácil de se aprender, é versátil, possue uma sintaxe simples, e além

disso é uma linguagem poderosa.
Várias linguagens de programação tem sido utilizadas para PLN, como por
exemplo Pearl, Prolog, Java, C ou Ruby. Mas essas linguagens apresentam uma
sintaxe mais complexa e portanto, uma curva de aprendizado mais acentuada.
Apesar de Python não ser tão veloz como linguagens compiladas como C ou
C++, a menor velocidade de execução não é percebida na maioria dos programas,
desse modo o menor tempo gasto em programação pode compensar o maior tempo
com a execução de código.
16
A combinação entre o poder e a simplicidade, foi o principal critério que nos

guiou no sentido de eleger Python para o nosso estudo sobre Processamento de
Linguagem Natural.
1.3. O Interpretador interativo
Uma das facilidades de Python é o seu interpretador interativo. Com ele é

possível testar e modificar comandos, funções e outros trechos de código antes de
incluí-los em um programa. Essa característica nos ajuda a aumentar a velocidade
de aprendizado e portanto, esse é mais um dos pontos positivos de Python com
relação às outras linguagens.
O interpretador interativo pode ser acessado usando a interface gráfica

chamada IDLE (Interactive DeveLopment Environment), que pode ser observada na
figura abaixo.
Figura 1.2: Interactive Development Environment – IDLE. O símbolo ">>>",

chamado de prompt, indica que o interpretador Python está pronto para receber um
comando.
Para mostrar o funcionamento do interpretador interativo digitaremos um

simples comando para imprimir uma string (sentença) na tela:
17
>>> print “Ciência da Computação”

Ciência da Computação
>>>
Após digitarmos o comando e pressionarmos a tecla Enter, o interpretador

executa a instrução e o resultado aparece na linha seguinte. Logo abaixo do
resultado também reaparece o prompt, indicando que o interpretador está pronto
para receber uma nova instrução.
Python consegue manipular strings de várias maneiras, como concatenar

elementos:
>>> frase = 'Ciência ' + 'da ' + 'Computação.'

>>> print frase
Ciência da Computação.
>>>
O interpretador Python possui uma série de funções embutidas que estão

disponíveis a qualquer instante. No decorrer do trabalho utilizaremos várias dessas
funções em nossos exemplos.
1.4. Utilizando simples técnicas para processamento de textos
Já vimos como é possível imprimir uma string na tela utilizando apenas um

comando. Veremos agora o que pode ser feito com grandes quantidades de texto,
utilizando simples técnicas de programação.
A string do exemplo a seguir foi retirada do site da UNIP, na página de

Objetivos do Curso de Ciência da Computação:
>>> objetivos_curso = "Com o intuito de estimular e

contribuir para a preparação de mão-de-obra especializada
e indispensável à política de desenvolvimento nacional, o
bacharel em Ciência da Computação tem sua formação focada,
principalmente, para o projeto e desenvolvimento de
produtos de software...”
>>>
>>> print objetivos_curso

Com o intuito de estimular e contribuir para a preparação
de mão-de-obra especializada e indispensável à política de
desenvolvimento nacional, o bacharel em Ciência da
Computação tem sua formação focada, principalmente, para o
18
projeto e desenvolvimento de produtos de software...

>>>
Nesse exemplo atribuímos à variável objetivos_curso, uma string que

contém o trecho da descrição dos objetivos do curso de Ciência da Computação.
Quando executamos o comando print, o valor da variável é impresso na tela.
Vejam o exemplo a seguir:
>>> len(objetivos_curso)
279
>>>
A função len() retorna o número de caracteres ou o comprimento da string,

incluindo espaços em branco, caracteres especiais e pontuação. O nosso exemplo
possui 279 caracteres.
Veremos agora se a função len() também é eficiente para textos maiores,

para tanto criamos um arquivo de texto chamado dom_casmurro.txt, que contém
todo o conteúdo da respectiva obra de Machado de Assis, e o salvamos na mesma
pasta onde Python foi instalado.
>>> dc = open(“dom_casmurro.txt”)
>>> texto = dc.read()
>>> len(texto)
373504
>>>
Na primeira linha desse exemplo a função open() recebe o argumento

“dom_casmurro.txt”, que é o nome do arquivo. As aspas indicam que
queremos abrir o texto no formato string retornado como um “objeto arquivo” que é
atribuído à variável dc. Como dc agora é um objeto de Python, ele pode acessar o
método read() que lê o conteúdo desse objeto na forma de uma longa string. Na
linha seguinte usamos a função len(texto) para medir o comprimento da string
lida, e o resultado obtido foi de 373504 caracteres.
Uma string pode ser indexada e isso nos permite “fatiar” um texto. O índice
zero corresponde ao primeiro caractere da string e no nosso exemplo, o índice
373503 corresponde ao seu último caractere. Verificaremos agora quais são os
primeiros duzentos caracteres do nosso texto, os caracteres ‘\n’ representam uma
nova linha, e por convenção m:n significa o intervalo iniciando com o elemento m
até n-1, o intervalo abaixo inclui o elemento 0 até o elemento 199 (200 -1):
>>> texto[0:200]
'Romance, Dom Casmurro, 1899\n\nDom Casmurro\n\nTexto de
refer\xeancia:\n\nObras Completas de Machado de
Assis,\nvol. I,\n\nNova Aguilar, Rio de\nJaneiro,
19
1994.\n\n\xa0Publicado originalmente\npela Editora

Garnier, Rio d'
Percebemos que o texto obtido não está formatado de maneira apropriada

para os padrões humanos de leitura, e que a palavra referência não está totalmente
legível (refer\xeancia), isso porque o caractere especial ê está representado
internamente no formato hexadecimal (onde \x indica que o valor a seguir, ea, é o
caractere ê no valor hexadecimal). Para contornar essa situação devemos utilizar o
comando print para transformar o conteúdo da variável texto em um padrão de
leitura apropriado:
>>> print texto[0:200]

Romance, Dom Casmurro, 1899
Dom Casmurro
Texto de referência:
Obras Completas de Machado de Assis,
vol. I,
Nova Aguilar, Rio de
Janeiro, 1994.
Publicado originalmente
pela Editora Garnier, Rio d
>>>
Strings podem ser manipuladas de diversas maneiras, vimos como medir o

seu comprimento, atribuí-las a nomes de variáveis, concatená-las, indexá-las e fatiá-
las. Podemos também substituir os seus caracteres, descobrir a posição de suas
palavras, transformá-las para letras maiúsculas ou minúsculas, encontrar e isolar
caracteres numéricos ou especiais contidos nela, entre vários outros tipos de
manipulações.
Essas operações com strings são importantes para o PLN, pois em muitos
casos teremos que fazer uso de expressões regulares nos algoritmos utilizados.
Para um aprofundamento no conhecimento das técnicas utilizadas para a
manipulação de strings e outras técnicas de programação em Python, pode-se
consultar a documentação em http://www.python.org.br/wiki/DocumentacaoPython.
20
1.4.1. O uso de funções
O interpretador Python possui uma série de funções embutidas para ajudar no

nosso trabalho. Elas basicamente são blocos de código contendo comandos e
declarações.
Já vimos algumas delas como a função len() que retorna o comprimento de

uma lista, a função open() que abre um arquivo e a função read() que lê o conteúdo
de um arquivo.
Funções também podem ser chamadas de métodos, quando elas pertencem

a alguma classe.
A característica mais importante de uma função é a facilidade na reutilização

de código. Além disso, o uso de funções torna um programa mais legível, pois
abstrai detalhes do código, e também mais confiável, pois geralmente são criadas a
partir de códigos exaustivamente testados.
No entanto, as funções pré-definidas em Python, às vezes não são suficientes

para atingir os nossos propósitos de maneira satisfatória, e por esse motivo, em
várias situações é muito útil saber criar nossas próprias funções.
Para definir uma função, nós usamos a palavra reservada ‘def’, seguida
pelo nome da função, e seguida por um par de parênteses que podem conter ou não
parâmetros (dados para serem usados pela função). Para finalizar a definição da
função usamos o símbolo de dois pontos.
Na seção 1.4.1. usamos os seguintes comandos e declarações:
>>> dc = open("dom_casmurro.txt"), para abrir um texto

>>> texto = dc.read() para ler o texto aberto ,
e o comando >>> len(texto) para obter o número de caracteres do
texto.
Poderíamos combinar todas essas três linhas de código em apenas uma
função, desse modo a função recém criada poderia ser usada para qualquer outro
texto.
Nomearemos essa função de open_read_len(), que traduzindo significa

abrir, ler, e medir o tamanho do texto que estiver entre os parênteses. Esse texto é o
parâmetro da função:
>>> def open_read_len(texto):

texto_aberto = open(texto)
texto_lido = texto_aberto.read()
return len(texto_lido)
21
Agora que a função já está definida, podemos usá-la simplesmente

chamando-a pelo seu nome, seguido por um argumento entre parênteses:
>>> open_read_len("dom_casmurro.txt")
373504
Denominamos de argumento o valor passado para o parâmetro da função.
Nesse exemplo, o argumento passado foi o arquivo

("dom_casmurro.txt"). Na última linha de código da função usamos a palavra
reservada return, que irá devolver um resultado assim que a função for chamada.
Nesse exemplo o valor retornado pela função foi 373504.
Se quisermos reutilizar a mesma função, mas com outro texto, basta passar
um diferente argumento no momento da chamada da função, como no exemplo
abaixo:
>>> open_read_len("Memórias Póstumas de Brás Cubas.txt")

355706
Dessa vez passamos como argumento outro arquivo, contendo uma diferente
obra de Machado de Assis, o romance Memórias Póstumas de Brás Cubas. E o
valor retornado pela função foi o de 355706 caracteres.
Outra facilidade da linguagem de programação Python é o uso de funções

anônimas. Funções anônimas utilizam um construtor chamado de lambda.
Funções lambda permitem a criação de uma função em apenas uma linha. O

código a seguir exemplifica a diferença entre uma função normal e uma função
lambda. Textos seguidos por # são comentários:
>>> # Atribuindo uma sentença à variável texto:

>>> texto = "Lambda é uma função anônima composta apenas
por expressões."
>>> # Definindo uma função normal:
>>> def retorna_comprimento(x):
return len(x)
>>> # Chamando a função e passando a variável ‘texto’ como
argumento:
>>> retorna_comprimento(texto)
59
>>> # Criando uma função lambda:
>>> comprimento = lambda x: len(x)
>>> # Chamando uma função lambda dentro de um comando
print:
>>> print comprimento(texto)
59
22
Podemos observar que retorna_comprimento() e comprimento() fazem

exatamente a mesma coisa, no entanto a função lambda não possui o comando
return, ela sempre retornará o valor da expressão depois do símbolo :.
No decorrer deste trabalho, em algumas situações usaremos funções lambda

para simplificar a elaboração dos nossos programas.
1.5. A biblioteca NLTK
Apesar de Python ser considerada uma linguagem fácil para implementar

algoritmos na área de PLN, o estudo de Processamento de Linguagem Natural é um
tema complexo. Com o intuito de facilitar o entendimento desse assunto, em 2001
um grupo de desenvolvedores liderados por Steven Bird e Edward Loper da
Universidade da Pensilvânia iniciou a criação de uma “caixa de ferramentas” na
forma de uma eficiente biblioteca com vários métodos, funções e dados
especialmente voltados para estudos na área de linguística computacional. Essa
biblioteca de código aberto chamada NLTK (Natural Language Toolkit), possui
dezenas de corpora em diferentes idiomas e várias ferramentas para processamento
de textos, como tokenizadores3, classificadores de palavras, analisadores sintáticos,
assim como interfaces para bibliotecas de aprendizado de máquina.
NLTK é um software de código aberto e pode ser baixado gratuitamente em

http://www.nltk.org, além do software, uma vasta documentação está disponível no
site, como artigos, livros, tutoriais, projetos e ideias relacionadas à área de PLN.
Para a realização do nosso trabalho, além de Python e de NLTK, algumas

outras ferramentas também foram utilizadas como “NumPy” que é uma biblioteca
para manipular vetores e matrizes multidimensionais, e executar tarefas de
classificação e álgebra linear para cálculos de probabilidade e a biblioteca
“Matplotlib” que foi utilizada para as visualizações de dados em duas dimensões
como gráficos de linhas e de barras. Essas duas ferramentas também podem ser
obtidas gratuitamente no site do NLTK.
Para utilizar a biblioteca NLTK em nossos programas, primeiramente

devemos importá-la utilizando o comando import NLTK. Para importar apenas
determinados recursos dessa ferramenta, usamos o comando from ... import
..., dependendo do recurso desejado. Veremos a seguir alguns exemplos de
corpus em português que estão inclusos no pacote NLTK:
3
Quebra uma string em tokens, que são os segmentos de texto ou símbolos que serão manipulados pelo
Analisador Sintático.
23
>>> from nltk.examples.pt import *

*** Introductory Examples for the NLTK Book ***
Loading ptext1, ... and psent1, ...
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
ptext1: Memórias Póstumas de Brás Cubas (1881)
ptext2: Dom Casmurro (1899)
ptext3: Gênesis
ptext4: Folha de Sau Paulo4 (1994)
>>>
Nesse comando o símbolo “ * ” determina que se importe todos os recursos

do módulo pt, pertencente ao pacote examples da biblioteca NLTK.
As primeiras quatro linhas do resultado se referem a uma breve descrição do

módulo, e a algumas instruções para usar certas funções pertencentes a ele e, nas
quatro últimas linhas aparecem os quatro textos importados e que formam a corpora
do pacote de exemplos.
Esses quatro textos são chamados de “textos NLTK”, pois já estão

formatados, ou seja, já estão tokenizados, suas palavras e pontuações estão
separadas em grupos e, portanto, estão prontos para receber os procedimentos para
o estudo linguístico. Em breve veremos como tokenizar os nossos próprios textos.
O texto ptext2 se refere ao livro Dom Casmurro. Só que nesse caso, como
já explicamos todas as suas palavras, símbolos e pontuações estão isolados na
forma de tokens, diferentemente do texto dom_casmurro.txt que foi usado na
seção 1.4 e que se refere a uma longa string.
Vejamos a diferença entre os arquivos dom_casmurro.txt e ptext2:

>>> dom_casmurro = open("dom_casmurro.txt").read()
>>> len(dom_casmurro)
373504
>>> len(ptext2)
82088
Como o arquivo ptext2 representa uma lista de tokens, a função len()ao
invés de medir o seu comprimento em caracteres, medirá o seu comprimento em
tokens.
Com o auxílio da função count() que conta o número de vezes que uma
específica string aparece numa lista, verificaremos agora a porcentagem que a
palavra “Deus” ocupa nos livros Gênesis e Dom Casmurro respectivamente:
4
A palavra ‘São’ de São Paulo está grafada incorretamente como ‘Sau’, provavelmente devido a uma falta de
atenção dos desenvolvedores do NLTK.
24
>>> from __future__ import division

>>> 100 * ptext3.count('Deus') / len(ptext3)
0.53222158158513333
>>> 100 * ptext2.count('Deus') / len(ptext2)
0.08283793002631322
>>>
O comando from __future__ import division é usado para garantir

que Python use divisão com ponto flutuante.
É fácil perceber apenas comparando os dois resultados que quando dividimos

o número de ocorrências da palavra Deus pelo número total de tokens do texto, que
o texto 3 tem um caráter bem mais religioso do que o texto 2, pois a palavra “Deus”
representa 0,53% dos tokens do livro Gênesis, enquanto que na obra Dom
Casmurro, a mesma palavra representa apenas 0,08% dos tokens do livro.
Na segunda parte desse trabalho explicaremos melhor a importância do uso

de tokens para o estudo de PLN.
1.6. Alguns desafios na área de Processamento de Linguagem Natural
Poderemos no futuro criar um sistema computacional que seja capaz de se

comunicar conosco de maneira natural, e seremos capazes de não perceber se
estamos ou não conversando com uma máquina?
Uma máquina poderá um dia pensar? Esse é uma questão clássica na área
de inteligência artificial proposta por Alan Turing em 1950.
Em filmes de ficção científica como “2001 - Uma Odisseia no Espaço”5 e em

“Blade Runner”6 esse problema parece ter sido superado. Mas nos atuais sistemas
comerciais de conversação ainda existem muitas limitações, sendo que alguns já
apresentam resultados significativos quando atuando de modo bem específico.
5
2001: A Space Odyssey (br: 2001: Uma Odisseia no Espaço) é um filme americano de 1968 dirigido e
produzido por Stanley Kubrick, co-escrito por Kubrick e Arthur C. Clarke. O filme lida com os elementos
temáticos da evolução humana, tecnologia, inteligência artificial e vida extraterrestre.
6
Blade Runner (br: Blade Runner: O Caçador de Andróides ) é um filme americano de 1982 dirigido por Ridley
Scott. No início do século XXI, uma grande corporação desenvolve um robô que é mais forte e ágil que o ser
humano e se equiparando em inteligência. São conhecidos como replicantes e utilizados como escravos na
colonização e exploração de outros planetas.
25
Sistema: Bom dia, em que posso ajudá-lo?
Usuário: Qual é a previsão do tempo para hoje?
Sistema: Para o município de qual estado?
Usuário: Para Porto Alegre no Rio Grande do Sul.
Sistema: A temperatura mínima será de 17ºC e a máxima de 29ºC, com sol e

aumento de nuvens de manhã e com pancadas de chuva à tarde e à noite.
Na situação acima o sistema se comportou de maneira satisfatória, de acordo

com a expectativa do usuário. E se o usuário desse uma resposta um pouco
diferente para a segunda pergunta do sistema:
Sistema: Para o município de qual estado?
Usuário: Para a capital de São Paulo.
Sistema: Por favor, reformule a sua resposta.
Aparentemente o sistema não entendeu a resposta do usuário que, para nós

humanos, foi perfeitamente inteligível. Se esse sistema tivesse sido programado
para entender que em determinadas situações o usuário pode simplesmente
responder “para a capital de tal estado”, não haveria um comportamento inesperado
da máquina.
O que esperar então de um sistema para uma pergunta mais elaborada como:
Qual é a melhor época do ano para tirar férias e viajar para o Nordeste?
Não é preciso ser um agente de viagens para saber que a melhor época do
ano para aproveitar as férias no Nordeste é fora do conhecido período de chuvas.
Em uma conversa entre humanos nem precisaríamos citar que estamos nos
referindo ao nordeste brasileiro. Mas uma máquina precisaria armazenar e
manipular conhecimento para isso, ela teria que saber que durante as férias a
maioria dos brasileiros procura sol e calor e que isso corresponde ao adjetivo
“melhor” da pergunta. Também teria que saber em quais meses chove menos na
região nordeste do Brasil.
Em sistemas de computação é preciso habilidade, conhecimento e até

alguma sorte para obter respostas sensatas para algumas perguntas. Obter um
sistema que responda automaticamente esses tipos de questões envolve uma série
de tarefas de processamento de linguagem como extração de informações,
inferência7 e sumarização8 (Bird et al., 2009).
7
Inferência é o processo pela qual concluímos algo por meio de um raciocínio. De várias proposições nós
inferimos uma conclusão. Inferir é, portanto, chegar a uma resposta a partir de juízos anteriores.
26
Apesar de todos os avanços realizados, os atuais sistemas de linguagem

natural ainda não conseguem obter um desempenho robusto satisfatório.
Esperamos que um dia esses difíceis problemas na área de inteligência artificial
possam ser superados, mas por enquanto teremos que conviver com essas graves
limitações.
No entanto, acreditamos que até o fim desse trabalho, poderemos construir

um sistema útil para PLN, utilizando técnicas simples e poderosas, que contribua
para a construção de máquinas mais inteligentes.
2. PROCESSAMENTO DE TEXTO BRUTO E O USO DE RECURSOS LÉXICOS
2.1. Transformando um texto em tokens
Já sabemos que a biblioteca NLTK possui vários textos especialmente

tratados para o estudo de PLN.
No entanto, às vezes queremos usar os nossos próprios textos, e para que

isso seja possível é necessário prepará-los para as nossas finalidades de análise
linguística.
Como exemplo, extraímos do website IDG Now! 9, uma curta reportagem do

dia 6 de agosto de 2010, que diz que os sistemas de reconhecimento de voz ficarão
mais inteligentes. O conteúdo da reportagem foi copiado em um arquivo chamado
idg_voz.txt e salvo na mesma pasta onde Python está instalado.
Vamos abrir esse arquivo e efetuar algumas operações com as quais já

estamos familiarizados:
8
A sumarização compreende dois processos: a seleção do conteúdo relevante de uma mensagem fonte
primária e sua organização coerente.
9
http://idgnow.uol.com.br/mercado/2010/08/06/reconhecimento-de-voz-vai-ficar-mais-esperto-promete-
pesquisador/#&panel2-1
27
>>> texto_bruto = open("idg_voz.txt").read()

>>> len(texto_bruto)
2018
>>> texto_bruto[0:50]
'Reconhecimento de voz vai ficar mais esperto, prom'
>>> type(texto_bruto)
<type 'str'>
>>>
A função type() retorna o tipo de objeto. No nosso exemplo o objeto variável

texto_bruto é uma string. Com o uso da função len() podemos ver que essa
string possui um total de 2018 caracteres.
Para continuar nosso estudo, precisamos transformar esse texto, que é uma
string (lista de caracteres), em uma lista de tokens. Esse processo é chamado de
tokenização e faz uso da função word_tokenize().
Um token é o nome técnico para uma sequência de caracteres - como “carro”,

“elas” ou “#” – que queremos tratar como um grupo (Bird et al., 2009).
>>> tokens = nltk.word_tokenize(texto_bruto)

>>> type(tokens)
<type 'list'>
>>> len(tokens)
423
>>> tokens[0:10]
['Reconhecimento', 'de', 'voz', 'vai', 'ficar', 'mais',
'esperto', ',', 'promete', 'pesquisador']
>>>
Dessa vez quando usamos a função type() e passamos tokens como

argumento, o objeto retornado é do tipo lista com o comprimento de 423 tokens.
No comando tokens[0:10], fatiamos essa lista para exibir os seus 10

primeiros itens.
E finalmente, para poder utilizar os recursos da biblioteca NLTK,

transformaremos essa lista de tokens em um “texto NLTK” com o uso do método
nltk.Text():
>>> texto = nltk.Text(tokens)

>>> type(texto)
<class 'nltk.text.Text'>
>>>
Obtemos agora um objeto da classe “texto NLTK”, pronto para o estudo dos
recursos léxicos da biblioteca NLTK.
28
2.2. Recursos léxicos
É possível efetuar em nossos textos diversas manipulações, que fazem parte

de um conjunto de operações chamado de “Recursos Léxicos”.
Um recurso léxico é uma coleção de palavras ou frases que possuem algum

tipo de informação associada, ele é secundário ao texto e, portanto, é criado com o
auxílio de textos (Bird et al., 2009). Um dicionário é um tipo de recurso léxico, pois é
uma coleção de palavras com suas respectivas definições e sentidos.
Nos exemplos anteriores quando usamos o comando:
>>> tokens = nltk.word_tokenize(texto_bruto),
também fizemos uso de um recurso léxico simples, declarado como tokens, que
carrega consigo informações associadas ao seu nome.
Podemos criar nossos próprios recursos léxicos dependendo do objetivo a ser

alcançado no estudo de um texto.
Para o próximo exemplo usaremos um texto que não sabemos sobre qual
assunto trata, e com o uso de um recurso léxico simples chamado Distribuição de
Frequência, tentaremos descobrir o assunto do texto.
Uma distribuição de frequência verifica quantas vezes cada token aparece no

texto. Ao identificarmos as palavras mais frequentes, poderemos deduzir em boa
parte dos casos, sobre qual assunto o texto trata:
>>> texto_bruto = open("texto_desconhecido.txt").read()

>>> len(texto_bruto)
15914
>>> dist_freq = FreqDist(texto)
>>> dist_freq
<FreqDist with 2805 outcomes>
>>> vocabulario = dist_freq.keys()
>>> vocabulario[0:50]
['de', ',', 'e', 'o', 'que', 'a', '"', 'um', 'para', '.',
'com', 'em', 'do', 'os', 'uma', 'reconhecimento', 'como',
'palavras', 'voz', 'ou', 'da', 'sistema', 'mais', 'fala',
'na', 'programa', 'sao', 'O', 'as', 'sistemas',
'computador', 'nao', 'se', 'tambem', 'tem', 'usuarios',
'das', 'no', 'ser', 'som', '(', ')', 'pode', 'por',
'programas', 'E', 'Os', 'cada', 'entre', 'isso']
>>>
29
Analisando o resultado:
O primeiro valor retornado, quando utilizamos a função len(), nos indica

que esse texto é uma string com 15914 caracteres.
Depois tokenizamos texto_bruto, e em seguida o transformamos em um

texto NLTK.
Na sexta linha, utilizamos a função FreqDist() para transformar o objeto

texto em uma distribuição de frequência, e atribuímos o resultado à uma “variável
objeto” dist_freq. Quando chamamos o objeto dist_freq obtemos como
resposta “<FreqDist with 2805 outcomes>”, ou seja, uma lista de distribuição
de frequência com 2805 resultados ou tokens.
Na linha seguinte, quando usamos o comando vocabulario =

dist_freq.keys(), a função keys() organiza a lista de distribuição de modo
que os tokens mais frequentes apareçam distintamente no início da lista. O resultado
é atribuído à variável vocabulario. No último comando solicitamos que sejam
exibidos os 50 tokens mais frequentes do texto.
Obtemos alguns símbolos de pontuação como a vírgula ',' e o ponto '.'.

Esses tokens não nos dão o sentido do texto e, portanto são praticamente inúteis.
Palavras como 'e' e 'o' minúsculos, e 'E' e 'O' maiúsculos são

redundâncias, pois significam a mesma coisa. Podemos eliminar os símbolos de
pontuação e as palavras redundantes convertendo todos os tokens alfabéticos do
texto para caracteres minúsculos:
>>> vocab_minusculas = [w.lower() for w in vocabulario if

w.isalpha()]
>>> vocab_minusculas[0:50]
['de', 'e', 'o', 'que', 'a', 'um', 'para', 'com', 'em',
'do', 'os', 'uma', 'reconhecimento', 'como', 'palavras',
'voz', 'ou', 'da', 'sistema', 'mais', 'fala', 'na',
'programa', 'sao', 'o', 'as', 'sistemas', 'computador',
'nao', 'se', 'tambem', 'tem', 'usuarios', 'das', 'no',
'ser', 'som', 'pode', 'por', 'programas', 'e', 'os',
'cada', 'entre', 'isso', 'modelos', 'podem', 'atuais',
'ja', 'mas']
>>>
Nesse comando apenas os tokens constituídos por caracteres alfabéticos

foram convertidos para tokens formados por caracteres minúsculos. A função lower()
é responsável por essa conversão e a função isalpha() verifica se o token é formado
apenas por letras.
30
Em outras palavras, a variável 'w' que aqui poderia ser qualquer outro nome,
percorre cada item da lista vocabulario por intermédio do comando for, e se o
token é formado só por letras, ele é então convertido para minúsculas e o resultado
é atribuído à variável vocab_minusculas.
Além dos pontos e palavras redundantes, percebemos a ocorrência de outros

tokens não muito úteis para a compreensão do texto como ‘de’, ‘que’, ‘para’
e ‘uma’. Vamos eliminar também as palavras com menos de quatro caracteres:
>>> vocab_maior_3 = [w for w in vocab_minusculas if len(w)
> 3]
>>> vocab_maior_3[0:50]
['para', 'reconhecimento', 'como', 'palavras', 'sistema',

'mais', 'fala', 'programa', 'sistemas', 'computador',
'tambem', 'usuarios', 'pode', 'programas', 'cada',
'entre', 'isso', 'modelos', 'podem', 'atuais', 'muito',
'usuario', 'computadores', 'diferentes', 'estatisticos',
'frases', 'maneira', 'mesmo', 'palavra', 'quando',
'treinamento', 'dados', 'entanto', 'esses', 'falar',
'fonemas', 'grande', 'maior', 'pelo', 'ruido', 'voce',
'garofolo', 'ainda', 'algum', 'anos', 'bastante',
'comandos', 'criar', 'desempenho', 'duas']
>>>
Verificamos a ocorrência frequente de palavras como ‘reconhecimento’,

‘palavras’, ‘sistemas’, ‘fala’, ‘programa’, ‘computador’ e
‘frases’. Apenas constatando a ocorrência dessas palavras, podemos concluir
que o texto deve falar sobre algum assunto relacionado ao reconhecimento de fala
em sistemas computacionais, portanto essa simples técnica de Distribuição de
Frequência nos auxiliou a dar sentido a um texto desconhecido.
O texto original pode ser encontrado em:

http://informatica.hsw.uol.com.br/reconhecimento-de-voz.htm
Se quisermos saber quantas vezes um determinado token aparece no texto,

basta fornecer a palavra procurada como um argumento ao objeto dist_freq:
>>> dist_freq['reconhecimento']
24
>>> dist_freq['palavras']
20
>>>
As palavras ‘reconhecimento’ e ‘palavras’ formam 44 dos 2805

tokens do texto, ou seja, elas correspondem juntas a aproximadamente 1,57% do
texto.
31
Com o uso da função plot(), que representa graficamente a participação

dos tokens mais frequentes, é possível analisar visualmente a distribuição de
frequência de um texto.
A função plot() a seguir receberá dois argumentos, o primeiro indica a

quantidade de tokens considerados, e o segundo argumento, cumulative=True,
solicita que os resultados sejam acumulados:
>>> dist_freq.plot(40, cumulative=True)
Figura 2.1: Gráfico com a frequência acumulada dos 40 tokens mais usados no
texto, que juntos correspondem a quase metade dos 2805 tokens identificados.
32
Observamos que apenas 40 dos tokens mais frequentes correspondem a

mais de 1200 ocorrências, quase a metade do texto.
2.3. Stopwords
Mais uma das ferramentas úteis do NLTK é o corpus chamado Stopwords,

que nada mais é do que uma coleção de listas de palavras com altas frequências em
vários idiomas, como alemão, inglês, italiano, francês, português, sueco, etc.
A lista NLTK de stopwords em português contem 203 palavras mais utilizadas

em nosso idioma como que, para, uma, se, quando, muito, etc.
Stopwords são geralmente palavras com pouca significância léxica, e a sua

presença em um texto dificulta que se percebam as outras palavras com maior
importância, criando o que poderíamos chamar de poluição visual.
Com o uso dessa ferramenta podemos filtrar um texto e assim obter um

conjunto de palavras com maior significância.
>>> from nltk.corpus import stopwords

>>> stopwords.words('portuguese')[0:10]
['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um',
'para']
>>>
No primeiro comando importamos o corpus de stopwords da biblioteca NLTK

e no segundo, acessamos os 10 primeiros itens da lista de stopwords em português.
Agora iremos abrir o arquivo texto_desconhecido.txt, já usado nos

exemplos anteriores, e filtrá-lo usando stopwords:
>>> texto_bruto = open("texto_desconhecido.txt").read()

>>> df = nltk.FreqDist(w.lower() for w in texto if w not
in stopwords)
>>> for word in df.keys()[:20]:
print word, df[word]
33
, 123
" 46
. 34
reconhecimento 24
palavras 20
voz 19
sistema 17
fala 15
programa 15
sao 14
nao 13
sistemas 13
tambem 13
computador 11
usuarios 11
ser 10
som 10
( 9
) 9
>>>
As três primeiras linhas do código já são familiares. Na primeira abrimos e

fizemos a leitura do arquivo texto_desconhecido.txt e atribuímos o resultado à
variável texto_bruto. Na linha seguinte tokenizamos texto_bruto, na terceira
linha transformamos tokens em um texto NLTK e atribuímos o resultado à variável
texto.
Na quarta linha atribuímos à variável df o resultado de uma distribuição de

frequência onde percorremos cada token da variável texto, transformamos cada item
em letras minúsculas para que não exista redundância de palavras e verificamos se
cada token não está na lista de stopwords. É assim que ocorre a filtração do texto.
No último comando solicitamos a impressão dos 20 primeiros tokens mais

frequentes da distribuição de frequência, juntamente com o número acumulado de
vezes em que o token aparece na lista.
2.4. Expressões regulares e detecção de padrões
Expressões Regulares são às vezes consideradas o “Canivete Suíço” do

processamento de textos (McNeil, 2010, p.137).
34
Uma expressão regular pode ser vista como um conjunto de caracteres que
especificam um padrão. É uma maneira que o programador usa para dizer como o
computador deve procurar por certos formatos dentro do texto, e o que fazer após
encontrá-los.
Em várias situações, quando realizamos o estudo linguístico de um texto,

procuramos por determinados padrões da linguagem. Por exemplo, em alguns casos
precisamos saber quais e quantas palavras no texto terminam com as letras “ente’,
como em finalmente, regularmente, geralmente, concorrente, saliente, etc. Com o
uso de Expressões Regulares, podemos identificar esses e outros padrões.
No exemplo a seguir usaremos um dos corpus disponíveis pelo NLTK

chamado ptext4, que se refere a artigos retirados do jornal folha de São Paulo de
1994.
>>> import re
>>> final_ido = [w for w in ptext4 if re.search('ido$',
w)][:20]
>>> type(final_ido)
<type 'list'>
>>> final_ido
[u'reduzido', u'abolido', u'abolido', u'pedido', u'sido',
u'marido', u'apreendido', u'r\xe1pido', u'r\xe1pido',
u'Devido', u'r\xe1pido', u'sido', u'r\xe1pido',
u'Partido', u'Unido', u'Partido', u'Unido', u'prometido',
u'sido', u'assumido']
>>>
Na primeira linha importamos o módulo re de Python, que nos permite

trabalhar com expressões regulares.
O segundo comando pede para percorrer todos os tokens (aqui chamados de

w) do arquivo ptext4, e se a busca pela expressão regular ido$ retornar True, o
valor dos primeiros 20 itens da lista será atribuído à variável final_ido.
Em re.search a função search (busca), do módulo re (regular

expressions), é utilizada para procurar por padrões de expressões regulares, nesse
caso a expressão regular procurada é definida como 'ido$'. O símbolo $ indica o
final da string, isso quer dizer que e a expressão regular pode ser lida como
qualquer string que tenha o final ido.
No terceiro comando type(final_ido,)verificamos que a variável

final_ido se trata de uma lista de strings.
No último comando podemos ver como a variável é representada

internamente. A letra u, antes de cada string, indica que ela está representada no
35
formato Unicode10. É importante representar textos em português no formato

Unicode, para evitar problemas com a leitura de caracteres especiais como ç, á, é,
etc.
Para imprimir o conteúdo na tela podemos usar o código abaixo:
>>> for palavra in final_ido:

print palavra,
reduzido abolido abolido pedido sido marido apreendido
rápido rápido Devido rápido sido rápido Partido Unido
Partido Unido prometido sido assumido
>>>
De forma geral, uma expressão regular é composta por caracteres e

metacaracteres, que nada mais são do que caracteres especiais como ^ $ * +? [ ] .
Juntos, os caracteres e metacaracteres formam um padrão de texto.
Demonstraremos agora como podemos encontrar caracteres específicos em

uma frase :
>>> frase = 'Expressão Regular: Uma composição de

símbolos, caracteres com funções especiais, que, agrupados
entre si e com caracteres literais, formam uma seqüência,
uma expressão. Essa expressão é interpretada como uma
regra, que indicará sucesso se uma entrada de dados
qualquer casar com essa regra, ou seja, obedecer
exatamente a todas as suas condições.'11
>>> re.findall(r'[aáãeéêiíoõuü]', frase)
['e', '\xe3', 'o', 'e', 'u', 'a', 'a', 'o', 'o', 'i',
'\xe3', 'o', 'e', '\xed', 'o', 'o', 'a', 'a', 'e', 'e',
'o', 'u', '\xf5', 'e', 'e', 'e', 'i', 'a', 'i', 'u', 'e',
'a', 'u', 'a', 'o', 'e', 'e', 'i', 'e', 'o', 'a', 'a',
'e', 'e', 'i', 'e', 'a', 'i', 'o', 'a', 'u', 'a', 'e',
'\xfc', '\xea', 'i', 'a', 'u', 'a', 'e', 'e', '\xe3', 'o',
'a', 'e', 'e', '\xe3', 'o', '\xe9', 'i', 'e', 'e', 'a',
'a', 'o', 'o', 'u', 'a', 'e', 'a', 'u', 'e', 'i', 'i',
'a', '\xe1', 'u', 'e', 'o', 'e', 'u', 'a', 'e', 'a', 'a',
'e', 'a', 'o', 'u', 'a', 'u', 'e', 'a', 'a', 'o', 'e',
'a', 'e', 'a', 'o', 'u', 'e', 'a', 'o', 'e', 'e', 'e',
'e', 'a', 'a', 'e', 'e', 'a', 'o', 'a', 'a', 'u', 'a',
'o', 'i', '\xf5', 'e']
>>>
10
O Padrão Unicode especifica a representação do texto em software e padrões modernos. O Unicode fornece
um único número para cada caractere, não importa a plataforma, não importa o programa, não importa a
língua. (Em: <http://unicode.org/standard/translations/portuguese.html>. Acesso em: 09 maio 2012.)
11
http://aurelio.net/regex/
36
Na primeira linha do exemplo atribuímos uma string à variável frase.
No segundo comando utilizamos a função findall (encontre tudo), seguida

por dois parâmetros entre parênteses. No primeiro parâmetro r'[aáãeéêiíoõuü]'
é lido como uma “expressão regular r formada pelos caracteres entre os
colchetes”. E o segundo parâmetro é a variável frase.
Como resultado, obtemos uma lista com todas as ocorrências das vogais
minúsculas definidas entre os colchetes e encontradas na variável frase, incluindo
caracteres acentuados como á ou é, representados internamente nos formatos
hexadecimais e3 e e9, respectivamente. Os caracteres \x representam um escape
sequence (sequência de escape), como já vimos anteriormente na seção 1.4 deste
trabalho.
No processamento de linguagem natural algumas das utilidades para as

expressões regulares são: tokenizar sentenças, isolar e substituir caracteres e
palavras, validar campos em formulários, traduzir palavras, remover caracteres
repetidos e verificar ortografia. No entanto devemos ser cautelosos e específicos no
seu uso, pois elas podem se tornar complexas rapidamente.
Para saber mais sobre o uso de expressões regulares em Python visitem a

página: http://docs.python.org/library/re.html
3. AS CATEGORIAS LÉXICAS
Palavras podem ser divididas em grupos chamados de Classes Gramaticais,

como verbos, adjetivos, pronomes, advérbios, preposições, substantivos, etc. Em
Python esses grupos são conhecidos como Categorias Lexicais
Uma das técnicas utilizadas em Python para classificar as palavras em um

texto é chamada de tagging ou etiquetação. Na etiquetação é atribuída uma etiqueta
para cada palavra, como N para substantivo, V para verbo, PREP para preposição,
ART para artigo, e assim por diante.
No próximo exemplo veremos o trecho de um texto já etiquetado que faz parte

do corpus Mac-Morpho12 do NLTK:
>>> import nltk

>>> nltk.corpus.mac_morpho.tagged_words()[:10]
12
Mac-Morpho se trata de uma coleção de textos em português do Brasil, extraídos de diferentes seções do
jornal Folha de São Paulo de 1994. Esse corpus possui mais de um milhão de palavras já etiquetadas.
37
[(u'Jersei', u'N'), (u'atinge', u'V'), (u'm\xe9dia',

u'N'), (u'de', u'PREP'), (u'Cr$', u'CUR'), (u'1,4',
u'NUM'), (u'milh\xe3o', u'N'), (u'em', u'PREP|+'), (u'a',
u'ART'), (u'venda', u'N')]
>>>
No comando >>> nltk.corpus.mac_morpho.tagged_words()[:10],

solicitamos as primeiras dez palavras etiquetadas do corpus mac_morpho, e como
resultados obtemos uma lista de dez tuplas, contendo a palavra e sua respectiva
etiqueta.
Uma tupla é uma sequência, assim como listas e strings. A diferença é que
ela é imutável, portanto, uma vez criada, não pode ser modificada. Ela também pode
ser indexada e isso permite que os seus elementos sejam acessados por índices. As
tuplas são criadas usando parênteses e seus elementos são separados por vírgulas.
Vamos imprimir o resultado do exemplo anterior em uma forma mais fácil para
leitura, usando o comando print:
>>> tuplas = nltk.corpus.mac_morpho.tagged_words()[:10]

>>> for x, y in tuplas:
print x, y
Jersei N
atinge V
média N
de PREP
Cr$ CUR
1,4 NUM
milhão N
em PREP|+
a ART
venda N
>>>
Primeiro atribuímos à variável tuplas uma lista com as dez primeiras tuplas
do corpus Mac-Morho. Posteriormente utilizamos o comando for para percorrer
todos os elementos de tuplas e atribuímos o primeiro elemento de cada uma à
variável x, e o segundo a variável y. Na sequência usamos o comando print para
imprimir x (a palavra) e y (a etiqueta).
No resultado, ‘Jersei’ possui a etiqueta N, que significa substantivo,

‘atinge’ possui a etiqueta V, que significa um verbo, as palavras ‘média’,
‘milhão’ e ‘venda’ também estão etiquetadas como substantivos.
38
3.1. O processo de etiquetação
Etiquetação é o processo de converter uma sentença, que é uma lista de

palavras, em uma lista de tuplas, onde cada tupla se encontra na formato (palavra,
etiqueta). A etiqueta indica se a palavra é um substantivo, um adjetivo, um artigo,
etc.
Após a tokenização, o processo de etiquetação é a segunda etapa no

processamento de linguagem natural. Ao etiquetar as palavras podemos extrair
frases com significados de um texto.
Para etiquetar palavras usamos etiquetadores. A maioria dos etiquetadores

são treináveis. Eles usam uma lista de sentenças já etiquetadas chamadas de
sentenças treinadoras. Nos nossos exemplos usaremos as sentenças treinadoras do
corpus Mac-Morpho.
3.1.1. Etiquetador padrão
O modo mais simples para etiquetar palavras é usando o etiquetador padrão.

O NLTK possui um etiquetador padrão chamada DefaultTagger que atribui a
mesma etiqueta para todas as palavras encontradas em um texto.
Apesar de não fazer muito sentido marcar toda palavra com a mesma
etiqueta, o etiquetador padrão é útil para etiquetar palavras desconhecidas. Assim,
ao combinarmos o etiquetador padrão com etiquetadores mais robustos, poderemos
agrupar todas as palavras desconhecidas em uma mesma categoria.
>>> from nltk.tag import DefaultTagger

>>> etiquetador = DefaultTagger('N')
>>> etiquetador.tag(['processamento', 'de', 'linguagem',
'natural', u'é', 'uma', u'área', 'da', u'inteligência',
'artificial'])
[('processamento', 'N'), ('de', 'N'), ('linguagem', 'N'),
('natural', 'N'), (u'\xe9', 'N'), ('uma', 'N'),
(u'\xe1rea', 'N'), ('da', 'N'), (u'intelig\xeancia', 'N'),
('artificial', 'N')]
>>>
No primeiro comando importamos a classe DefaultTagger do pacote tag.

Na segunda linha criamos um objeto etiquetador padrão, chamado de
etiquetador, que recebe a etiqueta ‘N’ como argumento.
39
No terceiro comando o método tag do objeto etiquetador recebe como

argumento uma lista de palavras e a converte em uma lista de tuplas, contendo as
palavras e suas respectivas etiquetas. Todas as palavras receberam a etiqueta 'N'
que significa substantivo.
3.1.2. Avaliando a precisão de um etiquetador
Para saber o quão preciso é um etiquetador, usamos o método

evaluate(), que recebe uma lista de sentenças treinadoras como as sentenças
do corpus Mac-Morpho, que já se encontram corretamente etiquetadas.
Vamos verificar a precisão do nosso etiquetador padrão criado no exemplo

anterior:
>>> from nltk.corpus import mac_morpho

>>> sentencas_treinadoras =
mac_morpho.tagged_sents()[0:15000]
>>> etiquetador.evaluate(sentencas_treinadoras)
0.20727113660113247
>>>
No primeiro comando importamos o corpus Mac-Morpho.
No segundo, atribuímos à variável sentencas_treinadoras as primeiras

15 mil sentenças do corpus mac_morpho. Nesse momento é criado um subconjunto
do corpus mac_morpho, contendo 15 mil sentenças corretamente etiquetas.
No terceiro comando, passamos a variável sentencas_treinadoras como

argumento para o método evaluate() do objeto etiquetador, para verificar a
precisão do nosso etiquetador. Como resultado obtemos um valor de 20, 72%. Ou
seja, nas 15 mil primeras sentenças do corpus Mac-Morpho, apenas
aproximadamente 20% das palavras são realmente substantivos, e portanto
receberam a etiqueta 'N'corretamente.
3.1.3. Etiquetador Unigram
Um etiquetador Unigram é baseado simplesmente em dados estatísticos. Ele

atribui uma etiqueta mais provável para cada token. Por exemplo, a palavra “azul”
40
pode ser classificada como um adjetivo, como em “O céu é azul”, ou como

substantivo em “A cor azul”. No etiquetador Unigram a palavra “azul” será sempre
representada como um adjetivo, pois baseado em dados estatísticos, essa palavra
aparece na maioria dos textos como um adjetivo, e por isso receberá a etiqueta ADJ.
Usaremos a mesma lista de palavras do exemplo anterior para receber

etiquetas com o uso do etiquetador Unigram, e depois mediremos a precisão desse
etiquetador.
>>> from nltk.tag import UnigramTagger

>>> sentencas_treinadoras =
mac_morpho.tagged_sents()[0:15000]
>>> etiquetador = UnigramTagger(sentencas_treinadoras)
>>> etiquetador.tag(['processamento', 'de', 'linguagem',
'natural', u'é', 'uma', u'área', 'da', u'inteligência',
'artificial'])
[('processamento',u'N'),('de',u'PREP'), ('linguagem',u'N'),
('natural',u'ADJ'),(u'\xe9',u'V'),('uma',u'ART'),(u'\xe1rea
',u'N'),('da',u'NPROP'),(u'intelig\xeancia','N'),('artifici
al',u'ADJ')]
>>>
No primeiro comando importamos a classe UnigramTagger do pacote tag.
No segundo, atribuímos à variável sentencas_treinadoras as primeiras

15 mil sentenças etiquetadas do corpus mac_morpho.
No terceiro comando, passamos o argumento sentencas_treinadoras

para treinar a classe UnigramTagger(), e o resultado desse treinamento é atribuído
à variável-objeto etiquetador. Nesse momento o objeto etiquetador tem uma
referência baseada em 15 mil frases já corretamente etiquetadas.
No último comando o método tag do objeto etiquetador recebe como

argumento uma lista de palavras e a converte em uma lista de tuplas, contendo as
palavras e suas respectivas etiquetas.
Para imprimir o resultado em uma forma mais legível podemos usar o comando
print, como já foi explicado nos capítulos anteriores.
>>> tuplas = etiquetador.tag(['processamento', 'de',

'linguagem','natural',u'é','uma',u'área','da',u'inteligênci
a', 'artificial'])
>>> for x, y in tuplas:
print x, y
41
processamento N
de PREP
linguagem N
natural ADJ
é V
uma ART
área N
da NPROP
inteligência N
artificial ADJ
>>>
No resultado as palavras processamento, linguagem, área e

inteligência foram corretamente marcadas como substantivos, a maioria das
outras também foram, como 'de' (preposição), 'natural' (adjetivo), 'é'
(verbo), 'uma' (artigo), e 'artificial' (adjetivo). A palavra 'da' foi etiquetada
como nome próprio 'NPROP', o que é um erro, pois 'da' é uma contração entre a
preposição ‘de’ e o artigo feminino ‘a’.
Os pesquisadores que criaram o corpus Mac-Morho substituíram todas as

contrações ‘da’ por de_PREP| + a_ART, e é por isso que a palavra ‘da’ do nosso
exemplo foi marcada incorretamente. Se quiséssemos que ela fosse devidamente
etiquetada, deveríamos mudar a nossa frase para: “processamento de linguagem
natural é uma área de a inteligência artificial”.
Mesmo assim, conseguimos desta vez um etiquetador bem mais preciso do

que o etiquetador padrão. Veremos agora como medir a precisão do etiquetador
Unigram:
>>> etiquetador.evaluate(sentencas_treinadoras)
0.87600245449464142
>>>
Analisando o resultado, chegamos à marca de 87% de precisão. Nenhum outro

etiquetador é mais preciso do que esse. No entanto, 13% dos tokens não foram
corretamente etiquetados, mesmo usando sentenças treinadoras idênticas às
sentenças avaliadoras. Isso ocorreu porque, como já citamos anteriormente, o
UnigramTagger se baseia em dados estatísticos e por isso não é 100% preciso.
‘Azul’ por exemplo, nem sempre é um adjetivo, a palavra ‘casa’ pode ser um
substantivo, mas às vezes é um verbo, e assim ocorre com diversas outras palavras.
42
3.1.4. Combinando etiquetadores
Podemos aumentar a precisão do processo de etiquetação quando

combinamos diferentes etiquetadores. Nessa técnica, dois ou mais etiquetadores
são utilizados em conjunto. Se um etiquetador não for capaz de etiquetar uma
palavra corretamente, a tarefa é passada para o próximo.
Nos exemplos a seguir usaremos um diferente trecho do corpus Mac-Morpho

para medir a precisão do UnigramTagger, depois o combinaremos com o
DefaultTagger para ver se conseguimos um etiquetador com maior precisão:
>>> from nltk.corpus import mac_morpho

>>> from nltk.tag import UnigramTagger
>>>sentencas_treinadoras=mac_morpho.tagged_sents()[0:1000]
>>> etiquetador = UnigramTagger(sentencas_treinadoras)
>>> sentencas_teste = mac_morpho.tagged_sents()[1000:2000]
>>> etiquetador.evaluate(sentencas_teste)
0.72472077122351042
Primeiro importamos o corpus mac_morpho e em seguida importamos a

classe UnigramTagger.
Na terceira linha atribuímos à variável sentenças_treinadoras as

primeiras 1000 sentenças etiquetadas (de 0 a 999), do corpus mac_morpho.
No quarto comando, passamos o argumento sentencas_treinadoras

para treinar a classe UnigramTagger(), e o resultado desse treinamento é atribuído
à variável-objeto etiquetador.
No quinto comando criamos uma variável chamada sentencas_teste, que

também recebe 1000 sentenças do corpus mac_morpho, só que de um diferente
trecho do corpus, iniciando na sentença de número 1000 e indo até a sentença de
número 1999.
No último comando avaliamos a precisão do nosso etiquetador usando como

argumento a variável sentenças_teste, obtendo uma precisão de 72,47%.
Agora iremos combinar o UnigramTagger com o DefaultTagger:
>>> from nltk.tag import DefaultTagger

>>> etiquetador1 = DefaultTagger('N')
43
>>> etiquetador2 = UnigramTagger(sentencas_treinadoras,

backoff=etiquetador1)
>>> etiquetador2.evaluate(sentencas_teste)
0.77564020894381447
No primeiro comando importamos a classe DefaultTagger.
No segundo comando criamos um objeto etiquetador padrão, chamado de

etiquetador1, que recebe a etiqueta ‘N’ (substantivo) como argumento.
No terceiro comando criamos um segundo objeto etiquetador chamado

etiquetador2, baseado na classe UnigramTagger, que recebe como
argumento as variáveis sentenças_treinadoras e backoff=etiquetador1.
A declaração backoff=etiquetador1 significa que o etiquetador1

marcará com a etiqueta ‘N’ todas as palavras que o etiquetador2 não conseguir
marcar. Seria como dizer: “Etiquetador2, marque as palavras que encontrar
baseando-se nas sentenças treinadoras, caso não consiga, use o etiquetador1”.
Aparentemente não há sentido em classificar tudo o que for desconhecido

como substantivo, mas baseada em dados estatísticos, a chance de uma palavra
desconhecida ser um substantivo é de aproximadamente 20%, como já foi visto na
seção 3.1.2., quando atribuímos a etiqueta ‘N’ para todas as palavras das primeiras
15 mil sentenças do corpus Mac-Morpho.
No último comando avaliamos o etiquetador2, e podemos constatar que o

seu ganho de precisão foi de aproximadamente 5% (0.77564 menos 0.72472).
Além dos etiquetadores vistos até agora, existem outros como

BigramTagger, TrigramTagger, Brill Taggers e TnT Taggers, que podem auxiliar
no aumento de precisão de um etiquetador. Também podemos utilizar outras
técnicas como o uso de expressões regulares, que em conjunto com os
etiquetadores já mencionados, podem levar a precisão de um etiquetador a mais de
95%.
44
4. ANÁLISE SINTÁTICA PARCIAL
A Análise Sintática Parcial é o processo de extrair pequenas frases de

sentenças etiquetadas. É diferente da Análise Sintática Completa, pois na primeira
estamos apenas interessados em frases curtas ao invés de Árvores de Análise
Sintáticas Completas, que serão estudadas posteriormente.
Falaremos nesse capítulo sobre algumas técnicas utilizadas em PLN para

extrair pequenas frases de um texto, apenas observando padrões particulares em
uma sequência de palavras etiquetadas.
4.1. Expressões regulares para a identificação de padrões
Com o uso de expressões regulares modificadas podemos identificar padrões

em uma linguagem. Esses padrões definem quais os tipos de palavras compõem um
bloco de uma sentença.
Expressões regulares também podem definir padrões para palavras que não
desejamos que façam parte de um bloco.
Agrupar palavras é o processo de isolar padrões em uma sentença para

manter as palavras em um bloco. O contrário disso é o processo de desagrupar.
Uma regra de agrupamento especifica quais grupos devem formar um bloco,

e uma regra de desagrupamento especifica quais blocos isolar.
Para criar uma regra, a primeira tarefa é definir os padrões do agrupamento.

Esses padrões são expressões regulares modificadas equivalentes às sequências
de palavras etiquetadas.
Para definir uma etiqueta, colocamo-la entre os sinais de menor que (<) e
maior que (>), como em <N>, que especifica uma etiqueta para um substantivo.
Várias etiquetas podem ser combinadas, como em <ART><N><ADJ>, que

equivalem a um artigo, seguido por um substantivo, seguido por um adjetivo. Uma
frase que respeita esse padrão poderia ser: O carro azul, pois ‘O’ é um artigo,
seguido por ‘carro’ que é um substantivo, seguido por ‘azul’, um adjetivo.
A sintaxe das expressões regulares pode ser utilizada tanto dentro como fora
dos símbolos < >.
45
Em <N.*> por exemplo, queremos encontrar qualquer etiqueta que inicie com
a letra N, seguida por qualquer outro símbolo (representado pelo sinal de
pontuação), zero ou mais vezes (representado pelo metacaractere asterisco).
Portanto, esse padrão reconhecerá a etiqueta que representa um substantivo

no singular, como em <N>, pois a etiqueta começa com a letra N seguida de
nenhuma letra. Esse padrão também reconhecerá a etiqueta para substantivos no
plural <NP>, pois o padrão <N.*> também reconhece a letra N seguida por qualquer
outra letra.
Os substantivos ‘computador’ e ‘computadores’ se encaixam nessa regra,

pois possuem as etiquetas <N> e <NP>, respectivamente.
Um exemplo do uso da sintaxe de expressões regulares fora dos símbolos <

> poderia ser como em <ART>?<N><ADJ>+.
O metacaractere ‘?’ especifica que a etiqueta anterior a ele (<ART>), é

opcional, e o metacaractere ‘+’ especifica que a etiqueta anterior a ele (<ADJ>),
deve aparecer uma ou muitas vezes.
As blocos de texto a seguir obedecem a esse padrão:
‘A cidade grande’: um artigo seguido por um substantivo e por um adjetivo.
‘Ciência moderna’: um substantivo seguido por um adjetivo, (a presença de

um artigo no início da frase artigo é opcional).
‘O edifício verde claro’: um artigo seguido por um substantivo, seguido por

dois adjetivos.
A criação de padrões para agrupar e desagrupar blocos de palavras em um

texto depende muito da necessidade e da criatividade do desenvolvedor. Podemos
dizer que é um processo de tentativa e acerto, e que vai se aperfeiçoando com
prática.
46
4.2. Utilizando gramáticas para agrupar e desagrupar palavras
Um padrão para agrupar blocos é definido entre chaves normais, como em

{<ART><N>}, e um padrão para desagrupá-los é definido entre chaves opostas
com em }<V>{. A regra de agrupamento ou desagrupamento que especifica o bloco
entre as chaves é chamada de gramática do bloco ou gramática da frase.
Vamos agora criar uma gramática para extrair frases sem verbos de uma
sentença, e para isso usaremos regras de agrupamento e de desagrupamento. Em
seguida construiremos uma árvore de análise para a sentença.
>>> from nltk.chunk import RegexpParser

>>> analis_gram = RegexpParser(r'''
FN:
{<ART><N><.*>*<N>}
}<V>{
''')
>>>
A primeira linha do código importa a classe RegexParser do pacote chunk

da biblioteca NLTK. O pacote chunk possui uma série de classes e interfaces para
identificar grupos linguísticos não sobrepostos, como frases verbais e nominais.
RegexParser é uma classe do pacote chunk, que usa expressões regulares para
analisar as etiquetas de um texto e transformá-lo em blocos.
Na segunda linha instanciamos um objeto da classe RegexpParser e o

chamamos de analis_gram (analisador gramatical), que recebe entre os
parênteses as regras para agrupamento e desagupamento do texto. O caractere ‘r’
especifica que devemos interpretar os códigos nas próximas linhas como
expressões regulares, e as três aspas simples colocadas antes e depois das
declarações significam que podemos escrever o código em múltiplas linhas, isso
serve apenas para melhorar a leitura do mesmo.
Na terceira linha definimos a nossa gramática como ‘FN’ (frase nominal). Uma
frase nominal é aquela que não possui verbos.
Nas linhas 4 e 5 definimos as regras para a gramática. A primeira regra, entre

chaves normais, diz que devemos agrupar o padrão formado por um artigo <ART>,
seguido por um substantivo <N>, seguido por zero ou mais palavras contendo
qualquer tipo de etiqueta <.*>*, até encontrar outro substantivo <N>.
A segunda regra, entre chaves opostas, diz que os verbos <V>, devem ser
desagrupados.
47
Utilizaremos o nosso analisador gramatical para analisar a sentença “O

mundo possui diversos idiomas”, que já está com as palavras devidamente
etiquetadas.
>>>analis_gram.parse([('O','ART'),('mundo', N'),('possui',
'V'), ('diversos', 'ADJ'), ('idiomas', 'N')])
Tree('S', [Tree('FN', [('O', 'ART'), ('mundo', 'N')]),
('possui', 'V'), Tree('FN', [('diversos','ADJ'),
('idiomas', 'N')])])
Na primeira linha de código, como o objeto analis_gram foi instanciado a

partir da classe RegexpParser, usamos o método parse dessa classe para aplicar
as regras da gramática nas palavras etiquetadas.
Como resultado, obtemos a sentença na forma de uma árvore ‘Tree’. O

primeiro nó da árvore ‘S’ significa sentença. Os nós restantes representam os blocos
encontrados e representam subárvores da sentença.
Cada subárvore é definida dentro de colchetes, e inicia com a palavra Tree,

seguida de tuplas entre parênteses que contém a palavra e sua respectiva etiqueta.
Por exemplo, no trecho [Tree('FN', [('O', 'ART'), ('mundo',

'N')], temos uma subárvore do tipo FN (frase nominal), formada pela lista de
tuplas [('O', 'ART'), ('mundo', 'N')]. Essa subárvore é denominada FN
pois atende as regras estabelecidas pela nossa gramática. Notem que a
tupla('possui', 'V'), não faz parte de uma subárvore, pois pela gramática os
verbos devem ser desagrupados e por isso ela não é precedida por Tree'FN'.
Para entendermos melhor o resultado do código, podemos desenhar a árvore

utilizando o método draw():
>>> arvore = analis_gram.parse([('O', 'ART'), ('mundo',

'N'),('possui', 'V'), ('diversos', 'ADJ'), ('idiomas',
'N')])
>>> arvore.draw()
48
Obtemos agora uma representação gráfica da sentença que é uma árvore

divida em nós e folhas. O primeiro nó ‘S’ representa toda a sentença, os nós ‘FN’
representam subárvores de frases nominais. As folhas ‘O ART’ e ‘mundo N’, por
exemplo, formam uma frase nominal e por isso pertencem ao nó FN. A folha
‘possui V’ não pertence a nenhuma subárvore, pois foi desagrupada pela regra
gramatical.
Existem outras regras para manipular blocos, como as regras de fusão, que
unem blocos distintos e as regras de divisão que dividem blocos.
Juntas, as regras de agrupamento, desagrupamento, fusão e divisão, são

suficientes para lidar com a maioria das tarefas envolvidas na análise gramatical de
blocos de sentenças.
5. CONSTRUINDO UM SISTEMA PARA CORREÇÃO VERBAL
Agora que já sabemos como extrair blocos de frases em uma sentença

etiquetada, veremos o que podemos fazer com esses grupos.
Um exemplo poderia ser o de criar um filtro para excluir palavras de pouco

significado em um texto, obtendo assim apenas as palavras mais importantes.
No texto “O parque estava lotado”, se filtrarmos o artigo ‘O’ e o verbo ‘estava’,

ficaremos apenas com o substantivo ‘parque’ e o adjetivo ‘lotado’. Mesmo assim
conseguiremos entender o significado da frase “parque lotado”. Esse tipo de
manipulação de textos é bastante usado quando é preciso extrair informações
relevantes de grandes quantidades de dados.
Em outro exemplo poderíamos criar um analisador de textos para obter todas

as palavras compostas de um documento, como ‘papel-moeda’, ‘arco-íris’, ‘meio-dia’,
‘obra-prima’, etc. Ou talvez para obter os nomes próprios contidos no documento,
como ‘Paulo’, ‘Maria’, ‘Museu do Ipiranga’ ou ‘Avenida Paulista’.
Os tipos de aplicações que podem utilizar essas técnicas são os mais

diversos e dependem muito da necessidade e da criatividade do usuário. Como a
quantidade de texto no formato eletrônico vem crescendo a taxas enormes, cada vez
mais será importante conhecer esses princípios de manipulação de textos para que
possamos ter acesso às informações desejadas.
Nesse capítulo construiremos um pequeno sistema para realizar a correção

de verbos em sentenças.
49
A ideia que nos motivou a criar um corretor verbal foi a de demonstrar como
as metodologias e técnicas aplicadas nesse sistema, podem ser utilizadas em
sistemas semelhantes, como corretores ortográficos e outros mais complexos, como
os corretores gramaticais que fazem amplo uso dos conceitos do processamento de
linguagem natural.
5.1. Dicionários em Python
Antes de tudo, precisamos introduzir brevemente um conceito pertencente à

linguagem de programação Python, chamado de dicionário.
Um dicionário em Python representa uma coleção de elementos formada por

pares constituídos por chave e valor respectivamente.
Eis um exemplo de dicionário:
nosso_dicionario = {'idade' : 20, 'estado' : ‘SP’,

8: 'oito'}
>>> print nosso_dicionario[8]

oito
# O valor da chave 8 é a string ‘oito’.
E o valor da chave ‘idade’ é o número inteiro 20.
Dicionários podem armazenar dados como inteiros, decimais, listas, tuplas,

strings, etc., e são declarados dentro dos símbolos de chaves, ‘{ }’. O símbolo de
dois pontos separa a chave do valor, e a vírgula separa os pares.
5.2. Definindo os dicionários
A primeira tarefa para criar o nosso corretor verbal será a de definir os

dicionários. Esses dicionários armazenarão a conjugação do verbo ‘ser’ nos tempos
‘presente do indicativo’ e ‘pretérito imperfeito’, e nas 3ªs. pessoas, do singular e do
plural. E cada tupla do dicionário armazenará o verbo e sua respectiva etiqueta.
A função dos dicionários é apontar a conjugação correta de um verbo que se

encontra incorretamente conjugado.
A tabela abaixo exemplifica as conjugações:

50
Verbo ‘ser’
3ª. Pessoa do Singular 3ª. Pessoa do Plural
(VS) (ele/ela) (VP) (eles/elas)
Presente do Indicativo (PI) é são
Pretérito Imperfeito (PIm) era eram
Criaremos agora dois dicionários, um de ‘singular para plural’ e outro de

‘plural para singular’:
>>> singular_plural = {
('é', 'VSPI'): ('são', 'VPPI'),
('era', 'VSPIm'): ('eram', 'VPPIm')
}
>>> plural_singular = {
('são', 'VPPI'): ('é', 'VSPI'),
('eram', 'VPPIm'): ('era', 'VSPIm')
}
>>>
No primeiro bloco de código criamos um dicionário de Python chamado de

singular_plural, que indica qual a correção dos verbos que estão no singular
para suas respectivas conjugações no plural.
Entre as chaves inserimos quatro tuplas. A primeira tupla ('é', 'VSPI') é

a chave do valor ('são', 'VPPI').
Isso quer dizer que quando o corretor verbal solicitar a correção da palavra
‘é’, a chave-tupla ('é', 'VSPI') apontará para o valor ('são', 'VPPI').
A tupla ('era', 'VSPIm') apontará para ('eram', 'VPPIm').
Esse princípio também se aplica para as tuplas restantes.
No segundo bloco de código criamos outro dicionário de Python chamado de

plural_singular, que indica qual correção deverá ser feita para os verbos que
se encontram incorretamente conjugados no plural.
As etiquetas utilizadas representam uma junção das etiquetas do verbo e

suas respectivas flexões gramaticais (singular e plural), com as etiquetas dos
tempos verbais. A etiqueta VPPIm por exemplo, significa Verbo Plural Pretérito
Imperfeito. Para deduzir o significado das outras etiquetas, basta consultar a tabela.
51
5.3. Definindo uma função auxiliar
Agora que já construímos os dicionários, o próximo passo a ser tomado é o

de definir uma função auxiliar que percorrerá as tuplas de um bloco para verificar se
elas possuem um determinado atributo. Caso esse atributo seja encontrado, a
função retornará o índice da primeira tupla onde o atributo foi encontrado, caso
contrário ela retornará nada. O atributo pode ser uma etiqueta de verbo ou de
substantivo.
>>> def indice_atributo(frase, atributo, inicio=0,

incremento=1):
comprimento = len(frase)
final = comprimento if incremento > 0 else -1
for indice in range(inicio, final, incremento):
if atributo(frase[indice]):
return indice
return None
>>>
Para o texto a seguir, adotaremos como referência uma frase de comprimento

‘n’ igual a 5 tuplas.
Na primeira linha do código usamos a palavra chave def para definir uma
função que nomearemos de indice_atributo. A função possui quatro
parâmetros, o primeiro (frase) é uma lista de tuplas a ser analisada, o segundo
(atributo) é o resultado de uma função lambda que retorna a etiqueta
identificadora de um verbo ou de um substantivo. Os outros dois parâmetros
(inicio e incremento) já iniciam com valores padrões 0 e 1 respectivamente. O
parâmetro inicio se refere ao primeiro índice do bloco a ser analisado (índice 0), e
é incrementado pela variável incremento a cada looping.
Na linha comprimento = len(frase), atribuímos à variável

comprimento o tamanho da variável frase, com o auxilio da função len() de
Python. Portanto, o valor de comprimento será 5.
Na declaração final = comprimento if incremento > 0 else -1,

a variável final receberá o valor 5 se a variável incremento for positiva, caso
contrário final receberá o valor -1. Esse valor -1 determina que a lista seja
percorrida de frente para trás, pois em alguns momentos o corretor verbal precisará
conferir se a tupla que antecede um verbo é constituída por um substantivo.
Poderemos compreender melhor essa situação quando executarmos o corretor
verbal.
No comando seguinte, for, nomeamos uma variável de indice que

percorrerá a lista de tuplas. Para isso utilizamos a função embutida de Python
52
range(). A finalidade dessa função é a de interar sobre uma sequência numérica

que são os parâmetros entre parênteses. O parâmetro, inicio, determina que o
looping inicie no índice 0 da tupla, e que seja incrementado por 1
(incremento=1), até alcançar o índice final 5.
Em if atributo(frase[indice]):, é determinado que se a variável

atributo (uma etiqueta verbal ou nominal), for encontrada na tupla, o índice dessa
tupla será retornado pela função. Caso o atributo procurado não seja encontrado na
frase, a função retornará None, uma palavra reservada de Python que em português
significa Nada ou Nenhum.
5.4. Definindo uma função para correção Verbal
Após definirmos os dicionários e a função auxiliar, só nos resta agora definir a

função responsável pela correção verbal, e é isso o que faremos a seguir.
Com a intenção de facilitar a leitura do código, copiamos a tela do editor

interativo Python que contém a definição da função corretor_verbal e a
anexamos na próxima página deste trabalho.
Na sequência explicaremos o funcionamento da função.

53
54
Na primeira linha do código definimos a função corretor_verbal, que

recebe frase como parâmetro. Esse parâmetro é uma lista de tuplas da frase a ser
analisada. Cada tupla conterá a palavra e sua respectiva etiqueta.
Na linha seguinte temos:
indice_verbo = indice_atributo(frase, lambda (palavra,

etiqueta): etiqueta.startswith('V')), onde é criada uma variável
chamada indice_verbo que receberá o índice da tupla onde o primeiro verbo é
encontrado na frase.
Para que isso ocorra, a função indice_atributo percorrerá

sequencialmente as tuplas da frase até encontrar o primeiro verbo. Caso nenhum
verbo seja encontrado o valor retornado será nenhum e a frase será impressa na
tela sem modificações.
Se um verbo for encontrado, a variável indice_verbo receberá a posição

da tupla na qual o verbo se encontra.
A seguir, em verbo, etiqueta_verbo = frase[indice_verbo] é

criada uma variável do tipo tupla chamada verbo, etiqueta_verbo que recebe
o conteúdo da variável indice_verbo.
Nesse momento a tupla (verbo, etiqueta_verbo) e indice_verbo se

encontram na memória.
Agora verificaremos se encontramos um substantivo do lado direito do verbo,

caso não encontremos, verificaremos do lado esquerdo.
Em atributo_substantivo = lambda (palavra, etiqueta):

etiqueta.startswith('N'), a variável atributo_substantivo receberá o
valor ‘N’, caso uma tupla contendo um substantivo seja encontrada.
Em indice_substantivo = indice_atributo(frase,
atributo_substantivo, inicio=indice_verbo+1), a variável
indice_substantivo receberá o índice da tupla onde o substantivo é encontrado
na frase.
Caso nenhum substantivo seja encontrado ao lado direito do verbo então ele
será procurado do lado esquerdo, conforme definido a seguir:
if indice_substantivo is None:
indice_substantivo = indice_atributo(frase,
atributo_substantivo, inicio=indice_verbo-1,
incremento=-1)
55
Caso ele também não seja encontrado do lado esquerdo, a frase será
impressa na tela sem modificações.
if indice_substantivo is None:
return frase
Se um substantivo for encontrado, então o conteúdo referente ao seu índice

será atribuído à variável substantivo, etiqueta_substantivo, conforme
demonstrado a seguir:
substantivo, etiqueta_substantivo =
frase[indice_substantivo]
Em sua última etapa, a função verificará se o substantivo encontrado está no

plural. Em caso positivo, ele fará a correção do verbo, se o mesmo se encontrar no
singular, e então a frase correta será impressa na tela.
Se o substantivo encontrado estiver no singular, então ele verificará se o

verbo da frase também se encontra no singular, caso não se encontre, o verbo será
corrigido e a frase correta será impressa na tela.
if etiqueta_substantivo.endswith('S'):
frase[indice_verbo] = singular_plural.get((verbo,
etiqueta_verbo), (verbo, etiqueta_verbo))
else:
frase[indice_verbo] = plural_singular.get((verbo,
etiqueta_verbo), (verbo, etiqueta_verbo))
return frase
Para testar o nosso corretor verbal, criamos algumas frases com verbos e
substantivos no início e meio da frase:
Exemplo 1, verbo incorreto (presente/singular), no inicio da frase:
>>> frase = [('é', 'VSPI'), ('caras', 'ADV'),

('as','ART'), ('passagens', 'NS')]
>>> corretor_verbal(frase)
[('s\xe3o', 'VPPI'), ('caras', 'ADV'), ('as', 'ART'),
('passagens', 'NS')]
Para tornar o resultado mais legível usamos o comando print:
>>> for x, y in frase:

print x, y,
são VPPI caras ADV as ART passagens NS
56
Exemplo 2, verbo incorreto (presente/plural), no meio da frase:
>>> frase = [('a', 'ART'), ('cidade', 'N'),

('são','VPPI'), ('distante', 'ADJ')]
[('a', 'ART'), ('cidade', 'N'), ('\xe9', 'VSPI'),
('distante', 'ADJ')]
print x, y,
a ART cidade N é VSPI distante ADJ
Exemplo 3, verbo incorreto (pretérito/singular), no meio da frase:
>>> frase = [('as', 'ART'), ('soluções', 'NS'),

('era','VSPIm'), ('muitas', 'PRONADJ')]
[('as', 'ART'), ('solu\xe7\xf5es', 'NS'), ('eram',
'VPPIm'), ('muitas', 'PRONADJ')]
print x, y,
as ART soluções NS eram VPPIm muitas PRONADJ
Exemplo 4, verbo incorreto (pretérito/plural), no meio da frase:
>>> frase = [('Quando', 'ADV'), ('ela', 'PRON'),

('eram','VPPIm'), ('pequena', 'N')]
[('Quando', 'ADV'), ('ela', 'PRON'), ('era', 'VSPIm'),
('pequena', 'N')]
>>>
Percebemos que, a partir dos exemplos, o nosso corretor verbal se

comportou bem em situações controladas. Apesar de ele estar longe se der
um corretor verbal real, conseguimos verificar na prática a aplicação de
alguns dos princípios do processamento de linguagem natural na prática..
57
6. CONCLUSÃO
Nesse trabalho conseguimos entender o funcionamento do

Processamento de Linguagem Natural e aprender algumas das principais
técnicas que podem auxiliar nessa área.
Encontramos algumas dificuldades como, por exemplo, a de lidar com

os caracteres da língua portuguesa, já que a grande maioria das publicações
sobre esse assunto se encontram na língua inglesa e, portanto voltadas para
o processamento de textos em inglês.
Também encontramos certa dificuldade para encontrar corpora

preparada em português. No nosso trabalho utilizamos o corpus Mac-Morpho
em boa parte dos exemplos, mas infelizmente esse corpus apesar de conter
mais de 1 milhão de palavras etiquetadas, não possui as sentenças no
formato de árvores, o que é fundamental para uma análise sintática completa.
No entanto, acreditamos que atingimos o nosso objetivo principal, que

era o de explicar como é feito o Processamento de Linguagem Natural e o
que é preciso para que ele seja realizado
58
REFERÊNCIAS BIBLIOGRÁFICAS
BIRD, Steven; KLEIN, Ewan; LOPER, Edward. Natural Language Processing with
Python. First Edition. Sebastopol, CA O’Reilly Media, Inc., 2009
PERKINS, Jacob. Python Text Processing with NLTK 2.0 Cookbook. First
Edition. Birmingham, UK. Packt Publishing Ltd.,2010
MCNEIL, Jeff. Python 2.6 Text Processing Beginner's Guide. First Edition.
Birmingham, UK. Packt Publishing Ltd.,2010
Sites na Internet:
http://www.python.org/
http://code.google.com/p/nltk/
http://nltk.org/

Marcelo Celeghini

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Marcelo Celeghini

Загружено:

Авторское право:

Доступные форматы

8

PROJETO SOBRE AS PRINCIPAIS TÉCNICAS PARA PROCESSAMENTO DE

Agradeço a todos e a tudo que direta ou indiretamente contribuíram para a

O Processamento de Linguagem Natural (PLN) é um campo da ciência da

Um dos problemas mais desafiadores na área de ciência da computação é

Neste trabalho, utilizaremos a linguagem de programação Python juntamente

- Explicar como a linguagem Python trata um texto.

- Extrair informações de textos não estruturados.

- Analisar a estrutura linguística em um texto, incluindo análise sintática e

- Escrever programas para acessar textos em arquivos.

- Construir modelos de linguagem que possam ser usados em execução

Com o intuito de facilitar o entendimento desse trabalho, a fonte utilizada nos

Como a biblioteca NLTK foi desenvolvida baseada majoritariamente no

A partir da Revolução Industrial, a humanidade intensificou a criação de meios

E sobre viajar para a China e poder comunicar-se com os seus habitantes,

Apesar da primeira situação ainda ser um caso de ficção científica, a segunda

Em reportagem do site UOL Tecnologia1 de 23 de maio de 2011, foi listada

Figura 1.1: Aplicativo que reconhece desenhos de caracteres em mandarim feitos na

estão nos auxiliando na resolução de problemas na área de PLN (Processamento de

No processamento de linguagem natural, um desafio ainda não vencido

Nesse trabalho, concentraremos os nossos esforços no sentido de explicar as

Por que Python? Porque é uma linguagem poderosa, de fácil entendimento, e

O interpretador Python para diversas plataformas pode ser obtido

Na primeira parte do nosso trabalho começaremos com uma introdução à

Na segunda parte falaremos sobre o uso de recursos léxicos, e como separar

Na terceira parte definiremos as categorias léxicas e mostraremos como elas

Na quarta parte veremos como identificar e classificar as características

E finalmente na quinta parte, construiremos um sistema para manipular

1.1. O Processamento de Linguagem Natural

O Processamento de Linguagem Natural é um campo de estudo altamente

A utilização da linguagem humana, seja em texto escrito ou falado, está

Para explicar melhor daremos alguns exemplos. Digamos que um blogger

O seu fluxo de trabalho pode consistir numa sequência de tarefas baseada na

-“Mostre-me os dez documentos mais relevantes da internet sobre a erupção

- “Faça um resumo sobre esses duzentos artigos sobre a erupção no Chile.”

Com o crescimento dessa tendência, as técnicas de PLN dirigidas a dados

áreas de Estatística e de Aprendizado de Máquinas. Tais técnicas exigem grandes

Em PLN e em Linguística usa-se com frequência os termos corpus ou

1.2. A linguagem de programação Python

Python é uma linguagem interpretada, de código aberto, de alto nível e de uso

É considerada uma linguagem de programação multiparadigma, ou seja, ao

Em Python não existem tipos primitivos, o conceito de variável é sempre

Python é fácil de se aprender, é versátil, possue uma sintaxe simples, e além

A combinação entre o poder e a simplicidade, foi o principal critério que nos

1.3. O Interpretador interativo

Uma das facilidades de Python é o seu interpretador interativo. Com ele é

O interpretador interativo pode ser acessado usando a interface gráfica

Figura 1.2: Interactive Development Environment – IDLE. O símbolo ">>>",

Para mostrar o funcionamento do interpretador interativo digitaremos um

>>> print “Ciência da Computação”

Após digitarmos o comando e pressionarmos a tecla Enter, o interpretador

Python consegue manipular strings de várias maneiras, como concatenar

>>> frase = 'Ciência ' + 'da ' + 'Computação.'

O interpretador Python possui uma série de funções embutidas que estão

1.4. Utilizando simples técnicas para processamento de textos

Já vimos como é possível imprimir uma string na tela utilizando apenas um

A string do exemplo a seguir foi retirada do site da UNIP, na página de

>>> objetivos_curso = "Com o intuito de estimular e

>>> print objetivos_curso

projeto e desenvolvimento de produtos de software...

Nesse exemplo atribuímos à variável objetivos_curso, uma string que

Vejam o exemplo a seguir:

>>> from future import division

O comando from future import division é usado para garantir