Вы находитесь на странице: 1из 23

Calidoscpio

Vol. 4, n. 3 , p. 156-178, set/dez 2006


2006 by Unisinos

Sandra Maria Alusio


sandra@icmc.usp.br

Gladis Maria de Barcellos Almeida


gladis_maria@uol.com.br

O que e como se constri um corpus?


Lies aprendidas na compilao de
vrios corpora para pesquisa lingstica
What is a corpus and how to build it? Lessons learned from
developing several linguistic corpora

RESUMO - As pesquisas baseadas em corpus tm tido na ltima dcada ABSTRACT - The research based on corpus has had in the last
um amplo desenvolvimento no contexto brasileiro. Nota-se a sua decade an ample development in the Brazilian context. Its relevancy
relevncia e pertinncia nos domnios da Lingstica, da Lingstica is noticed in the Linguistics, Applied Linguistics and Computational
Aplicada e da Lingstica Computacional. Em vista disso, uma Linguistics research areas. The approach of Corpus Linguistics
abordagem surge para sistematizar procedimentos e dar conta desse comes out to systematize procedures and to give account of this
novo modo de fazer pesquisa. Essa abordagem a Lingstica de Corpus new way to make research. The development of Brazilian Portuguese
que, auxiliada pelo desenvolvimento de ferramentas computacionais natural language processing tools can help Corpus Linguistics to
especficas para o tratamento do portugus brasileiro, pode alcanar reach a great development in Brazil. However, the advances in
um grande desenvolvimento no Brasil. Entretanto, muito do que j se Corpus Linguistics in the international scenery have not happened
obteve de desenvolvimento em Lingstica de Corpus no cenrio yet in many of the research carried out in Brazil. The reasons for
internacional no se reflete em muitas das pesquisas realizadas no this is that the procedures and concepts world-wide accepted are
Brasil, uma vez que as prticas mundialmente aceitas ainda no esto not still settled here, in spite of having researchers developing
aqui sedimentadas, a despeito de haver no pas eminentes pesquisadores extraordinary projects based on corpus in Brazil. Thus, this article
que desenvolvem extraordinrios projetos baseados em corpus. Assim, has the intention to discuss several definitions of corpus, the
este artigo tem o propsito de discorrer sobre a concepo de corpus, requirements and procedures for its elaboration, the available
os requisitos e procedimentos para a sua elaborao, os corpora e corpora and tools and, finally, to present four projects involving
ferramentas existentes e disponveis e, finalmente, apresentar quatro corpus whose description and detailing can assist other researchers
projetos envolvendo corpus cuja descrio e detalhamento pode auxiliar in the corpus building and processing.
outros pesquisadores nessa tarefa.

Palavras-chave: corpus; lingstica de corpus; processamento de corpus. Key-words: corpus; corpus linguistics; corpus processing.

A corpus is a remarkable thing, not so much because it is a collection of


language text, but because of the properties that it acquires if it is well-
designed and carefully-constructed.
(Sinclair, 2005)

Concepo de corpus para a Lingstica borados durante os sculos XVIII e XIX, como o caso
e para a Lingstica de Corpus do Vocabulrio Portuguez e Latino, elaborado pelo Pa-
dre Rafael Bluteau e publicado entre 1712-1728, embora
A utilizao de corpus sempre foi um recurso em- tenha sido concebido e realizado ainda no sculo XVII
pregado em pesquisas lingsticas. A ttulo de ilustrao, (Murakawa, 2006). O Vocabulrio de Bluteau, em oito vo-
podemos citar a utilizao de corpora em dicionrios ela- lumes, foi o primeiro dicionrio para o qual foi fixado um

ART04_Aluisio-Almeida.pmd 156 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

corpus (Murakawa, 2001). Esse corpus contendo cerca de procurar obter um corpus realmente significativo. Enfim,
406 obras, aproximadamente, com autores dos sculos XV o lingista deve desconfiar de tudo o que pode tornar o seu
corpus no-representativo (mtodo de pesquisa escolhido,
a XVII, foi utilizado como exemplrio de uso lingstico anomalia que constitui a intruso de lingista, preconceito
para as palavras que constavam da nomenclatura do dici- sobre a lngua).
onrio (Murakawa, 2001; 2006). Outro exemplo j no scu-
lo XIX o Diccionario da Lingua Portugueza, de Atnio Na concepo de Ducrot e Todorov (2001), corpus
de Morais Silva, segunda edio publicada em 1813, o um conjunto, to variado quanto possvel, de enuncia-
qual tambm se valeu de um corpus (Murakawa, 2006). O dos efetivamente emitidos por usurios da referida lngua
que mudou, portanto, a concepo de corpus. Essa mu- em determinada poca. Para Trask (2004), corpus um
dana de concepo deve-se Lingstica de Corpus, conjunto de textos escritos ou falados numa lngua, dis-
tida por Berber Sardinha (2004) como uma: ponvel para anlise.
Segundo Sinclair, o maior lingista de corpus da
abordagem que se ocupa da coleta e da explorao de
histria e responsvel pelo trabalho pioneiro na rea de
corpora, ou conjuntos de dados lingsticos textuais que
foram coletados criteriosamente, com o propsito de ser- lxico com o dicionrio COBUILD, o primeiro a ser compi-
virem para a pesquisa de uma lngua ou variedade lingsti- lado a partir de um corpus computadorizado, prope a
ca. Como tal, dedica-se explorao da linguagem atravs seguinte definio para corpus na perspectiva da Lings-
de evidncias empricas, extradas por computador (Berber
tica de Corpus:
Sardinha, 2004).

A corpus is a collection of pieces of language text in


Importa, contudo, definir corpus. H, pelo menos, electronic form, selected according to external criteria to
duas grandes perspectivas a partir das quais se pode de- represent, as far as possible, a language or language variety
finir corpus, uma da Lingstica, outra da Lingstica de as a source of data for linguistic research (Sinclair, 20054)
Corpus. [grifo nosso].
Apresentaremos, a seguir, quatro definies de
corpus na perspectiva da Lingstica, retiradas de dicio- Ao observar essas definies, podemos perceber
nrios de Lingstica ou de Linguagem. Para Galisson e que uma das diferenas entre a concepo da Lingstica
Coste (1983), corpus : de Corpus e da Lingstica o formato do corpus, ou seja,
os dados devem estar em formato eletrnico. O que signi-
um conjunto finito de enunciados tomados como objeto de fica dizer que uma grande quantidade de livros, ou de
anlise. Mais precisamente, conjunto finito de enunciados revistas, ou mesmo de textos impressos no considera-
considerados caractersticos do tipo de lngua a estudar, da corpus pela Lingstica de Corpus, j que os dados
reunidos para servirem de base descrio e, eventualmen- lingsticos no esto num formato que possam ser pro-
te, elaborao de um modelo explicativo dessa lngua.
Trata-se, pois, de uma coleco de documentos quer orais cessados por computador.
(gravados ou transcritos) quer escritos, quer orais e escri- Para outros dois eminentes lingistas de corpus, o
tos, de acordo com o tipo de investigao pretendido. As emprego do termo corpus implica em conotaes bastan-
dimenses do corpus variam segundo os objectivos do in- te especficas. Segundo McEnery e Wilson (1996), a mo-
vestigador e o volume dos enunciados considerados como
caractersticos do fenmeno a estudar. Um corpus cha- derna noo de corpus carrega consigo pelo menos qua-
mado exaustivo quando compreende todos os enunciados tro caractersticas fundamentais:
caractersticos. E chamado selectivo quando compreen- a) amostragem e representatividade (sampling
de apenas uma parte desses enunciados. and representativeness): um corpus deve ter
uma amostragem suficiente da lngua ou varie-
Para Dubois et al. (1993), corpus considerado o dade de lngua que se quer analisar para obter-
conjunto de enunciados a partir do qual se estabelece a se o mximo de representatividade desta mes-
gramtica descritiva de uma lngua. Os autores ainda ma lngua ou variedade de lngua;
complementam: b) tamanho finito (finite size): com exceo de
corpus-monitor1, todo corpus tem um tama-
[o] corpus no pode ser considerado como constituindo a
nho finito, por exemplo: 500 mil palavras, 1 mi-
lngua, mas somente como uma amostra da lngua. (...) O
corpus deve ser representativo, isto , deve ilustrar toda a lho de palavras, 10 milhes de palavras, etc;
gama das caractersticas estruturais. Poder-se-ia pensar que c) formato eletrnico (machine-readable form):
as dificuldades sero levantadas se um corpus for exaustivo segundo McEnery e Wilson (1996), atualmen-
(...). Na realidade, sendo indefinido o nmero de enuncia-
te o emprego do termo corpus significa admitir
dos possveis, no h exaustividade verdadeira e, alm dis-
so, grandes quantidades de dados inteis s podem compli- necessariamente que os textos estejam no for-
car a pesquisa, tornando-a pesada.O lingista deve, pois, mato eletrnico, diferentemente da idia que

1
Corpus-monitor aquele que pode receber novos textos e tornar-se cada vez maior. um corpus til para Lexicografia, por exemplo, j
que necessrio observar palavras novas na lngua ou palavras j conhecidas mas com emprego diferente.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 157

ART04_Aluisio-Almeida.pmd 157 18/1/2007, 22:54


Calidoscpio

se tinha de corpus no passado, a qual se refe- a observao e descrio de fenmenos lingsticos re-
ria somente a textos impressos. Ainda de acor- correntes antes impossvel de perceber, dado que os pro-
do com McEnery e Wilson (1996), o formato cedimentos de observao e descrio contavam apenas
possui vantagens considerveis: i) os corpora com recursos manuais.
podem ser pesquisados e manipulados de for- Sobretudo a partir da dcada de 1990, os corpora
ma mais rpida; ii) os corpora podem ser mais passam a ter papel fundamental nas pesquisas lingsti-
facilmente enriquecidos com informao extra; cas, pois data dessa poca o incio das contribuies
d) referncia padro (standard reference): ain- advindas da Computao e da Lingstica Computacional.
da de acordo com McEnery e Wilson (1996), Destacam-se, principalmente, o aprimoramento e desen-
existe um entendimento tcito de que um volvimento de ferramentas computacionais voltadas para
corpus constitui uma referncia padro para a o processamento de lngua natural (PLN) do portugus
variedade de lngua que ele representa, pres- do Brasil e o efeito que essas ferramentas tiveram para o
supondo que o corpus esteja disponvel para processamento de corpus.
outros pesquisadores, em outras palavras, o De acordo com Trask (2004), a partir de corpora,
que se tem chamado de reuso do corpus. podem-se fazer observaes precisas sobre o real com-
portamento lingstico de falantes reais, proporcionando
Dentre essas quatro caractersticas apontadas pe- informaes altamente confiveis e isentas de opinies e
los autores, a ltima digna de nota, j que uma outra de julgamentos prvios sobre os fatos de uma lngua.
diferena marcante entre a concepo de corpus para a Desta forma, por meio de corpus, podem-se obser-
Lingstica e para a Lingstica de Corpus. Entende-se var aspectos morfolgicos, sintticos, semnticos,
que disponibilizao de corpus compilado para futuras discursivos, etc. bastante relevantes para uma pesquisa
pesquisas uma caracterstica inerente ao corpus, de for- lingstica. Podem-se ainda explicar a produtividade e o
ma que todo o esforo empreendido para a sua constru- emprego de palavras, expresses e formas gramaticais.
o no seja til apenas para uma pesquisa, uma vez que possvel descobrir fatos novos na lngua, no percept-
se tem uma referncia padro de lngua ou de variedade de veis pela intuio (Berber Sardinha, 2000). Em resumo, por
lngua que pode ser utilizada por outros pesquisadores. meio de corpus, descreve-se a lngua de forma objetiva.
Percebe-se, pois, que os dois grandes pontos que
diferem entre a Lingstica e a Lingstica de Corpus so: Questes importantes para o projeto de um
o formato computadorizado do corpus e a sua posterior corpus computadorizado
disponibilizao para outras pesquisas.
Se a Lingstica de Corpus descarta livros, revistas Para o projeto de um corpus computadorizado,
e outros textos impressos considerados corpus pela Lin- devem-se observar um conjunto de requisitos que
gstica (pois no esto em formato computadorizado), ela impactaro na validade e confiabilidade da pesquisa ba-
(a Lingstica de Corpus) tambm descarta a Web como seada no corpus, incluindo se o corpus de estudo serve
corpus, ainda que os textos estejam disponveis e em for- ao propsito inicial da pesquisa (Kennedy, 1998; Biber et
mato eletrnico, pelo fato de suas dimenses serem desco- al., 1998; Renouf, 1998; Sinclair, 2005): autenticidade, re-
nhecidas, de estar continuamente mudando e pelo fato de presentatividade, balanceamento, amostragem, diversidade
no ter sido projetada a partir de uma perspectiva lingsti- e tamanho, os quais sero descritos a seguir.
ca. Entretanto, a prpria Web que vai facilitar a distribui- 1) Os textos devem ser autnticos. Por autentici-
o e livre acesso de vrios corpora criados em vrios pro- dade, compreende-se: a) os textos devem ter
jetos, reforando uma das caractersticas de corpus citadas sido escritos em linguagem natural, no po-
por McEnery e Wilson (1996). Ainda com relao a Web, dendo ser textos produzidos com o propsi-
vale assinalar que existem autores que a consideram um to de serem alvo de pesquisa lingstica
corpus, o caso de Kilgarriff e Grefenstette (2003). (Berber Sardinha, 2000); b) os textos devem
Com relao ao formato computadorizado, preci- ser escritos por falantes nativos, exceto se se
so admitir que o surgimento do computador (sobretudo tratar de corpora de aprendizes, aqueles
do computador pessoal) interferiu diretamente no s na corpora cujos textos so provenientes de fa-
concepo que se tem de corpus como tambm na sua lantes que esto aprendendo uma lngua es-
forma de armazenamento e explorao, j que os recursos trangeira (Berber Sardinha, 2000).
oferecidos pelo computador permitiram que uma quanti- 2) O corpus deve ter representatividade, isto ,
dade antes inimaginvel de textos pudesse ser processa- ser representativo da lngua ou de uma varieda-
da na tela em questo de segundos, fazendo com que de de lngua que ser deseja pesquisar.
muitas hipteses sobre determinados fenmenos Idealmente, um corpus deve ser elaborado de
lingsticos pudessem ser testadas rpida e eficientemen- forma a representar determinadas caractersti-
te. Essa nova forma de armazenamento de textos permitiu cas lingsticas da comunidade cuja lngua est

158 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 158 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

sob anlise (Sinclair, 2005). Da a importncia de ros e tipos de textos, com a variao de dialetos
se fazerem escolhas adequadas, de modo que o e, por ltimo, com uma diversidade de tpicos
corpus possa de fato espelhar comportamen- que de fundamental importncia para estudos
tos lingsticos. Questes que devem ser feitas lexicogrficos, pois a freqncia de muitas pa-
durante a seleo dos textos so: quais docu- lavras varia de acordo com a variao de tpi-
mentos? Quais tipos de textos? Quais gneros cos. Este ltimo tipo de diversidade deve ser
textuais? Enfim, o que de fato representa os considerado para todos os tipos de estudos.
usos lingsticos de uma comunidade? 6) Segundo Sinclair (2005), o corpus deve ter o
3) Apesar de Sinclair (2005) afirmar que o concei- tamanho adequado ao tipo de pesquisa que
to de balanceamento ainda mais vago que o se vai realizar e metodologia a ser adotada na
de representatividade, preciso ter em mente pesquisa. Quando se fala em tamanho de um
que o corpus deve ser balanceado, ou seja, corpus, no se trata somente do nmero total
deve ter um equilbrio de gneros discursivos de palavras (tokens) e de palavras diferentes
(informativo, cientfico, religioso, etc.), ou de (types), mas com quantas categorias (gneros
tipos de textos (artigo, editorial, entrevista, dis- discursivos, tipos de textos, datas, autores,
sertao, carta, etc.), ou de ttulos, ou de auto- etc.) um corpus deve contar, quantas amos-
res, ou de todos esses itens juntos, desde que tras de cada categoria e quantas palavras exis-
as escolhas sejam adequadas pesquisa que tem dentre de cada amostra (Kennedy, 1998).
se pretende realizar, demonstrando que os tex- Para estudos da prosdia, por exemplo, um
tos foram escolhidos criteriosamente. Pode- corpus de 100 mil palavras ser o suficiente
mos dar como exemplo uma pesquisa que tem para generalizaes com propsitos descriti-
por objeto a descrio do pronome de trata- vos; para estudos de muitos processos sint-
mento alocutivo (=voc). Uma pesquisa como ticos, um corpus de 500 mil a 1 milho de pala-
essa deve, necessariamente, selecionar para o vras suficiente; para a criao de dicionrios
corpus o gnero epistolar (composto de car- de lngua geral, que devem definir os vrios
tas), j que nesse gnero discursivo que pode significados de suas entradas, gramticas e
haver ocorrncia significativa do pronome usos, seria necessrio um corpus muito maior,
voc. O mesmo no ocorreria se o gnero es- por exemplo, o Bank of English2 que apia a
colhido fosse o jornalstico, por exemplo. criao de produtos da editora Collins possui
4) Biber et al. (1998) advoga que uma amostragem atualmente 530 milhes de palavras.
proporcional no adequada para corpus de ln-
gua, pois esta deveria ser organizada Para Biber (1993), a elaborao de um corpus um
demograficamente. Entretanto, tal tipo de corpus processo que avana em ciclos: inicia-se a escolha de
no representaria os tipos de gneros e de tex- textos baseada em critrios externos culturalmente acei-
tos, pois um corpus com tal amostragem poderia tos (tipologia de gneros e tipos de textos, por exemplo),
conter 90% de conversao, 3% de cartas e no- depois se prossegue com investigaes empricas da ln-
tas e 7% divididos entre tipos de textos tais como gua ou variedade lingstica sob anlise (tambm denomi-
reportagens e notcias, revistas, artigos acad- nados critrios internos) e, finalmente, procede-se com a
micos, literatura, aulas, e escrita no publicada, reviso de todo o projeto.
pois so poucas as pessoas que publicam ou
mesmo falam para uma grande audincia. Para o Etapas metodolgicas para a
estudo da lngua importa um corpus com amos- compilao de um corpus
tras que sejam representativas por inclurem toda
a variao lingstica que existe. Embora existam muitos corpora disponveis tanto
5) Com relao diversidade, Biber et al. (1998) livremente como mediante pagamento (as taxas geralmen-
enfatiza que no existe o que chamamos de ln- te so modestas para pesquisa acadmica) a partir dos
gua geral, dado que cada gnero e tipo de tex- quais se pode gerar um subcorpus de estudo ou mesmo
to tm seus prprios padres de uso. Desta tomar o corpus todo como uma unidade, dependendo da
forma, se um corpus se presta para estudos de questo de pesquisa3 , ainda pode ser necessrio compi-
variao ou procura representar uma lngua, ele lar um corpus prprio. Para a compilao de tal corpus,
deve se preocupar com a diversidade de gne- existem trs estgios principais a seguir: 1) projeto do

2
http://www.titania.bham.ac.uk/.
3
Por exemplo, estudo de um autor em particular, o qual no se encontra representado em algum corpus, ou de um gnero mais atual como
os e-mails e chats, estudo de textos de pocas no cobertas pelos corpora ou ainda estudo de um fenmeno raro.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 159

ART04_Aluisio-Almeida.pmd 159 18/1/2007, 22:54


Calidoscpio

corpus, que inclui a seleo dos textos e os cuidados com da de offline browsers como o HTTrack6 ou
os requisitos que foram discutidos na seo anterior, 2) com ajuda de ferramentas de apoio para a com-
compilao (ou captura), manipulao, nomeao dos ar- pilao de corpora descartveis (disposable
quivos de textos, e pedidos de permisso de uso, e 3) corpora) como o Corpgrafo 7 e o Toolkit
anotao. BootCat8, os quais geralmente realizam limpe-
za de tabelas, referncias, agradecimentos, etc.
Projeto de corpus: a seleo dos textos e/ou reviso ortogrfica se essa operao for
importante para a pesquisa (por exemplo pes-
Inicialmente, procede-se seleo dos textos per- quisa terminolgica);
tinentes e relevantes para a pesquisa. Para esta etapa, a b. coleta do corpus pela seleo de pginas de
definio do tipo de corpus que est se compilando forma manual ou semi-automtica de acordo
importante; outras decises dizem respeito ao seu tama- com um projeto especfico de corpus. Esta l-
nho e sua composio em termos dos textos existentes tima opo no diferente da forma como gran-
bem como dos gneros aos quais eles pertencem. des corpora, como o BNC9, foram construdos.
Existem vrias tipologias de corpus que indicam
os parmetros importantes de considerao. Uma das mais A manipulao do corpus compe-se das seguin-
antigas a de Atkins et al. (1992) e uma bastante atual a tes atividades:
de Berber Sardinha (2004) que inclui sete critrios. Dentre a) converso manual e automtica (por exemplo,
eles, o mais importantes o critrio modalidade (texto com o pacote XPDF10) de formatos doc,
falado, escrito ou ambos) e suas propores (dado que a html e pdf para txt;
compilao de um corpus de fala bastante cara). b) limpeza e formatao, de maneira a preparar o
corpus para o processamento computacional,
Compilao e manipulao do corpus o que significa tirar imagens, grficos, tabelas,
nmeros de pginas e demais anotaes que
A compilao consiste no armazenamento em ar- no fazem parte do texto propriamente dito. A
quivos predeterminados de todos os textos selecionados. limpeza e a formatao possibilitam o
Podem-se buscar textos provenientes da Web ou processamento do corpus por ferramentas
mesmo textos impressos, nesse caso, ser necessrio computacionais, como por exemplo contador
digitaliz-los e corrigir o resultado do processo de OCR de freqncia, concordanciador, ferramenta de
(optical character recognition) devido a erros comuns extrao automtica de termos, etc.
durante o reconhecimento de caracteres, mesmo existindo
atualmente bons produtos. Nomeao de arquivos e gerao de cabealhos
Para o caso de se utilizar a Web, especificamente,
existem duas grandes opes na obteno de textos, as Depois que todos os textos forem convertidos em
quais se subdividem como segue: formato txt, eles devem receber um nome. Ressalte-se
1) a busca na Web com mquinas de busca: que essa nomeao deve seguir determinado padro de
a. uso de uma mquina de busca como o Google forma a facilitar a recuperao posterior de cada texto.
para pesquisar toda a Web (podem-se utilizar
palavras-chave escolhidas para a pesquisa em Proteo da identidade dos participantes de um
foco, sobretudo no caso de pesquisas corpus e pedidos de direitos de uso dos textos
terminolgicas);
b. uso de ferramentas que pr-processam e/ou Na compilao de corpus, devem-se seguir as re-
ps-processam os resultados das buscas de gras legais para obteno de direitos de uso do material
tais mquinas como fazem o WebCorp4 e junto a autores e editores que detm o copyright do texto
KWiCFinder5; ou consentimento de indivduos cujos direitos de privaci-
2) a coleta de pginas da Web, organizando-as dade devem ser reconhecidos. Esta uma etapa da compi-
num computador local: lao de um corpus que no tcnica, demorada e tedi-
a. construo automtica de corpus com aju- osa, marcada por inmeras negociaes que podem se

4
http://www.webcorp.org.uk/.
5
http://miniappolis.com/KWiCFinder/KWiCFinderHome.html.
6
http://www.httrack.com/.
7
http://poloclup.linguateca.pt/corpografo/.
8
http://sslmit.unibo.it/~baroni/bootcat.html.
9
http://www.natcorp.ox.ac.uk/.
10
XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.

160 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 160 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

arrastar por anos muitas vezes esta a razo de muitos los e subttulos, notas de rodap e elementos grficos
corpora simplesmente no estarem disponveis publica- como tabelas e figuras, e b) marcao da estrutura de
mente. Uma estratgia importante para vencer a negao subpargrafos elementos que so de interesse
do pedido de permisso de uso a coleta de um nmero lingstico, tais como sentenas, citaes, palavras, abre-
maior de textos dentro de cada categoria de um corpus viaes, nomes, referncias, datas e nfases tipogrficas
(gnero, tipos de textos, data) para se preparar para o caso do tipo negrito, itlico, sublinhado, etc.
da permisso no ser concedida. Essas informaes de cabealho facilitam a poste-
Em Hasund (1998), discute-se como foi realizada a rior recuperao do texto bem como a gerao de
proteo da identidade dos participantes do corpus COLT subcorpus, isto , podem-se selecionar todos os textos de
(The Bergen Corpus of London Teenage Language), um determinado autor, ou de determinada poca, ou de deter-
corpus de 500 mil palavras de lngua falada coletado em 1993 minado gnero, etc.
na University of Bergen, Noruega. Na verso transcrita do A anotao lingstica pode ser em qualquer n-
COLT (e na parte correspondente do BNC), sobrenomes, vel que se queira, isto , nos nveis morfossinttico, sint-
endereos, nmeros de telefones foram removidos, embora tico, semntico, discursivo, etc., sendo inserida de trs
os nomes sejam reais, isto , no foram trocados por fictcios. formas: manualmente (por lingistas), automaticamente
No existe, entretanto, nenhuma abordagem am- (por ferramentas de Processamento de Lngua Natural
plamente aceita para preservar o anonimato de indivduos PLN) ou semi-automaticamente (correo manual da sada
em corpus da modalidade oral. A tendncia pelo comple- de outras ferramentas). Essa ltima comprovadamente
to anonimato, ou seja, apagamento de nomes, sobreno- mais eficiente, pois revisar mais rpido e gera dados
mes e ttulos profissionais, nomes de animais de estima- mais corretos do que anotar pela primeira vez.
o, endereos e telefones (que so removidos ou troca- Um padro que vem sendo usado atualmente para
dos por cdigos). Um outro procedimento a troca de anotao de corpus para a criao de aplicaes de PLN o
nomes por similares equivalente prosodicamente aos ori- XCES11 (Corpus Encoding Standard for XML) que foi deri-
ginais. No corpus Bank of English, por exemplo, todos os vado do TEI12 (Text Encoding Initiative Guidelines for
nomes foram trocados por cdigos indicando o gnero do Electronic Text Encoding and Interchange), este ltimo larga-
falante, mais um nmero que corresponde a uma descri- mente usado para criao de corpora contemporneos ou
o de cada um mantida separadamente. histricos, para pesquisas terminogrficas ou lexicogrficas,
Enquanto aspectos ticos e legais da preservao estudos literrios, descries lingsticas, entre outras.
do anonimato tratam do interesse do informante, aspec-
tos sociolingsticos e computacionais tratam do interes- Alguns corpora disponveis na Web para pesquisa
se da pesquisa. Nomes e apelidos, por exemplo, fornecem
informaes sociolingsticas relacionadas caractersti- Como a construo de um corpus nos moldes aci-
ca socioeconmica e grupo tnico, entretanto, fazer a tro- ma mencionados no tarefa simples e rpida, antes de
ca por outro nome que preencha todos os critrios construir um, til saber se corpus com determinadas
sociolingsticos consome muito tempo, razo pela qual caractersticas j existem. Nesse sentido, apresentaremos
raramente feita. alguns corpora disponveis na Web, os quais podem ser
utilizados para muitas pesquisas.
Anotao
Arquivos da Folha
Em relao anotao, so dois basicamente os (http://www1.folha.uol.com.br/folha/arquivos/):
nveis de representao das informaes presentes num
corpus: a anotao estrutural e a anotao lingstica. Est disponvel na Web o texto integral de todas
A anotao estrutural compreende a marcao de as edies do jornal desde 1994. Todo esse material ex-
dados externos e internos dos textos. Como dados exter- tremamente til para fazer buscas por contedo ou mesmo
nos entendemos a documentao do corpus na forma de para atestar freqncia e emprego de determinadas pala-
um cabealho que inclui os metadados textuais (ou dados vras ou expresses na lngua, no gnero jornalstico. um
estruturados sobre dados), isto , dados bibliogrficos corpus muito rico, entretanto, tem alguns inconvenientes:
comuns, dados de catalogao como tamanho do arqui- a) acessvel somente para assinantes do jornal Folha de
vo, tipo da autoria, a tipologia textual e informao sobre S. Paulo ou do Universo On Line (UOL); b) a busca ocor-
a distribuio do corpus. Como dados internos temos a re ano a ano, isto , no possvel conferir, por exemplo, a
anotao de segmentao do texto cru, que envolve: a) freqncia de uma expresso em todos os anos, mas deve-
marcao da estrutura geral captulos, pargrafos, ttu- se selecionar o ano e digitar a expresso que se deseja

11
http://www.cs.vassar.edu/XCES/
12
http://etext.lib.virginia.edu/standards/tei/teip4/index.html

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 161

ART04_Aluisio-Almeida.pmd 161 18/1/2007, 22:54


Calidoscpio

pesquisar; c) a expresso pesquisada no aparece na tela Linguateca (http://www.linguateca.pt/):


no formato de um concordanciador, mas pequenos con-
textos com links so oferecidos ao usurio, de forma que, A Linguateca um centro de recursos para o
acionado esses links, possvel chegar aos textos na n- processamento computacional da lngua portuguesa e tem
tegra; d) no possvel gerar subcorpus, isto , selecio- como objetivo servir comunidade que se dedica ao
nar as edies desejadas e fazer download, todas as bus- processamento do portugus. No site da Linguateca esto
cas so feitas de forma on-line no site da Folha. disponveis, entre outros, os seguintes corpora crus e ano-
tados pelo analisador sinttico Palavras15: a) CETEMPblico
Lcio-Web (http://www.nilc.icmc.usp.br/lacioweb/): (Corpus de Extratos de Textos Eletrnicos MCT/Pblico
http://www.linguateca.pt/CETEMPublico/): corpus de apro-
O Lcio-Web13 (LW) um projeto organizado pelo ximadamente 180 milhes de palavras em portugus euro-
Ncleo Interinstitucional de Lingstica Computacional peu, criado pelo projeto Processamento computacional do
(NILC14), em parceria com o Instituto de Matemtica e Es- portugus (projeto que deu origem Linguateca) aps a as-
tatstica (IME) e a Faculdade de Filosofia, Letras e Cinci- sinatura de um protocolo entre o Ministrio da Cincia e da
as Humanas (FFLCH), todos pertencentes Universidade Tecnologia (MCT) portugus e o jornal Pblico (jornal por-
de So Paulo (USP). O LW disponibiliza livremente na Web: tugus) em abril de 2000; b) CETENFolha (Corpus de Extractos
a) vrios corpora do portugus brasileiro escrito contem- de Textos Electrnicos NILC/Folha de So Paulo http://
porneo, representando bancos de textos adequadamen- www.linguateca.pt/CETEMPublico/): corpus de cerca de 24
te compilados, catalogados e codificados em um padro milhes de palavras em portugus brasileiro com base nos
que possibilite fcil intercmbio, navegao e anlise; e b) textos do jornal Folha de S. Paulo que fazem parte do corpus
ferramentas lingstico-computacionais, tais como conta- NILC/So Carlos; c) COMPARA (http://www.linguateca.pt/
dores de freqncia, concordanciadores e etiquetadores COMPARA/): corpus paralelo que tem como base textos em
morfossintticos. portugus e as suas tradues para ingls e textos em ingls
e as suas tradues para portugus.
Projeto COMET (Corpus Multilnge para
Ensino e Traduo http://www.fflch.usp.br/ Algumas ferramentas disponveis na Web
dlm/comet/:
H disponvel gratuitamente na Web uma srie de
O projeto COMET, em elaborao junto ao Centro ferramentas que podem auxiliar a pesquisa envolvendo
Interdepartamental de Traduo e Terminologia (CITRAT) corpus. Apresentaremos, inicialmente, as ferramentas de
da Faculdade de Filosofia, Letras e Cincias Humanas processamento de corpora gerais ou especializados, as
(FFLCH) da USP, disponibiliza um corpus eletrnico que quais incluem o WebCorp e o Unitex. Em seguida, as ferra-
tem por objetivo servir de suporte a pesquisas lingsti- mentas de gerao e gerenciamento de corpora especiali-
cas, principalmente nas reas de traduo, terminologia e zados, abrangendo o Corpgrafo e o ToolKit BootCaT.
ensino de lnguas. O COMET composto por trs
subcorpora: a) Corpus Tcnico-Cientfico CorTec: Ferramentas de processamento de corpus
corpus comparvel de textos tcnicos e/ou cientficos ori-
ginalmente escritos em portugus brasileiro e em ingls; WebCorp
b) Corpus Multilnge de Aprendizes CoMAprend: cons-
titudo de redaes dos alunos da graduao e dos cur- WebCorp um conjunto de ferramentas que permi-
sos de extenso das reas do Departamento de Letras tem acesso a Web como um recurso lingstico, isto ,
Modernas: alemo, espanhol, francs, ingls e italiano; c) permitem extrair fatos sobre vrias lnguas como se a Web
Corpus de Traduo CorTrad: subdivide-se em Literrio fosse um corpus o maior deles16. Verses demo desse
e Juramentado; o corpus Literrio composto de contos conjunto de ferramentas so disponibilizadas gratuitamen-
traduzidos do ingls e seus respectivos originais, o corpus te na Web a partir do endereo http://www.webcorp.org.uk/.
Juramentado ser constitudo de textos cedidos pela Jun- Vale assinalar que est em corrente desenvolvimento a
ta Comercial de So Paulo por meio de contrato de construo de uma mquina de busca lingstica para
comodato com a USP. melhorar o desempenho do WebCorp.

13
O projeto Lcio-Web ser detalhado a seguir.
14
Localizado no Instituto de Cincias Matemticas e de Computao, da Universidade de So Paulo (USP), campus de So Carlos (SP,
Brasil), www.nilc.icmc.usp.br/.
15
Desenvolvido por Eckhard Bick (http://visl.hum.sdu.dk/).
16
Em nvel internacional, houve dois Workshops dedicados ao tema Web as a corpus - o primeiro em conjunto com a conferncia Corpus
Linguistics 2005, e o segundo em conjunto com a 11th Conference of the European Chapter of the Association for Computational
Linguistics (EACL 2006).

162 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 162 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

WebCorp pode ser usado por pesquisadores e pro- escolha de busca em um dado domnio, por exemplo, ao esco-
fessores de lngua, por exemplo, que tenham interesse em lher .ac.uk ela ser restrita s instituies acadmicas do
analisar como certas palavras e expresses so usadas, Reino Unido; .fr s URLs da Frana e .br.com s URLs de
especialmente as palavras raras ou neologismos que no empresas no Brasil. Outra opo a possibilidade de analisar
aparecem em dicionrios e em corpora padres. Desde colocaes da palavra de busca, isto , as palavras que apare-
seu lanamento, em 2000, pela Research and Development cem com freqncia maior nas proximidades da palavra em
Unit for English Studies (RDUES) na School of English foco, podendo tambm excluir stopwords na apresentao das
da University of Central England, Birmingham, Webcorp colocaes. A Figura 3 apresenta as colocaes da palavra
tem sido usado por lingistas, lexicgrafos, alunos e pro- corpus em URLs do domnio .ac.uk, excluindo stopwords.
fessores de lnguas, editores, jornalistas, publicitrios e
demais pesquisadores provenientes de distintas reas. Unitex
WebCorp possui uma interface similar a muitas m-
quinas de busca (observe-se a tela principal na Figura 1) na O Unitex consiste em um conjunto de programas
qual se pode digitar uma palavra ou expresso de busca, para processamento de corpus lingsticos composto por
escolher as opes nos menus e clicar o boto Submit. uma interface grfica em Java e diversos programas de-
Ele trabalha com os resultados do motor de busca escolhi- senvolvidos em C (Paumier, 2002). A interface Java em
do (h opes para quatro deles: Google, Altavista, conjunto com os programas em C permitem que a ferra-
Metacrawler e AllTheWeb), tomando a lista de URLs17 menta possa ser portada para uma srie de plataformas
retornada do motor de busca escolhido e extraindo concor- sem perdas significativas de desempenho durante o
dncias de cada pgina. Todas as concordncias so apre- processamento de corpus.
sentadas em uma nica pgina separadas por arquivo da Dentre os recursos lingsticos oferecidos esto
Web e com links para os sites de onde vieram (observe-se dicionrios18 e tabelas do lxico-gramtica19. Os dicionrios
parte do resultado da palavra corpus na Figura 2). contm palavras simples e compostas de um idioma alm de
Uma das opes avanadas que merece destaque a informaes gramaticais sobre cada palavra. As gramticas

Figura 1. Tela principal do WebCorp a partir da qual se podem escolher as opes do menu e acessar as opes
avanadas de busca.

17
Sigla que designa a localizao de um objeto na Internet (rede mundial de computadores), segundo determinado padro de atribuio de
endereos em redes. (Novo Dicionrio Eletrnico Aurlio verso 5.0, 2004)
18
Dicionrios para serem utilizados pela mquina e no para humanos.
19
As tabelas do lxico-gramtica so matrizes binrias nas quais as linhas so ocupadas por entradas do lxico e nas colunas so explicitadas
as propriedades sinttico-semnticas de cada entrada lexical. No cruzamento de cada coluna com cada linha so colocados um sinal de +
no caso da propriedade se aplicar quela entrada, e um - para o caso contrrio. Essa metodologia foi proposta por M.Gross (1968, 1975)
no estudo dos verbos do francs e tem sido aplicada a diversas lnguas no estudo principalmente de elementos predicativos como os verbos,
adjetivos e substantivos predicativos. Uma bibliografia a respeito dessa teoria/metodologia pode ser encontrada em: http://ladl.univ-mlv.fr/
(Vale, 1998 e 2001).

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 163

ART04_Aluisio-Almeida.pmd 163 18/1/2007, 22:54


Calidoscpio

so representadas por meio de autmatos de texto, um 14 idiomas (incluindo o Portugus). Entretanto, o usurio
formalismo baseado em autmatos finitos. As tabelas do pode adicionar facilmente suporte a qualquer idioma gra-
lxico-gramtica mostram as propriedades de algumas pala- as ao uso do padro Unicode20 para codificao de texto.
vras. A verso 1.2 da ferramenta prov suporte para mais de O suporte ao idioma portugus particularmente bom gra-

Figura 2. Parte do resultado da busca da palavra corpus, com as opes de apresentao de 5 palavras esquerda e
direita da palavra em foco.

Figura 3. Colocaes esquerda e direita da palavra corpus a partir de 200 pginas do domnio .ac.uk. Expresses
padres selecionadas deste conjunto foram word corpus e Corpus Linguistics que so apresentadas como links
prontos para serem analisados a partir do Google. As colocaes esto ordenadas pela freqncia.

20
http://unicode.org/

164 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 164 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

Figura 4. Texto segmentado e lista de tokens. esquerda vemos um texto aps a fase de segmentao e pr-
processamento; direita so exibidos os tokens extrados do texto.

as ao trabalho Unitex-PB desenvolvido em Muniz (2004) e


Muniz et al. (2005).
O software Unitex uma implementao livre do pro-
grama Intex, ambos criados no laboratrio francs LADL21
(Laboratoire dAutomatique Documentaire et Linguistique),
por isso as funcionalidades fornecidas por essas ferramen-
tas so bem semelhantes. Os dicionrios Unitex se baseiam
no formalismo DELA (Dictionnarie Electronique du LADL)
tambm desenvolvido no laboratrio LADL.

Pr-processador de textos
Figura 5. Pr-processador.
Um arquivo de texto no formatado (formato txt)
com codificao Unicode convertido para uma forma e compostas durante o pr-processamento para a constru-
pr-processada aps ser aberto pela primeira vez no Unitex. o de um subconjunto de dicionrios contendo apenas as
Os arquivos pr-processados geralmente possuem a ex- palavras presentes no texto. Neste processo, as palavras
tenso .snt. Durante o processo de converso, o texto dos textos so agrupadas em 3 classes: palavras simples,
original segmentado em sentenas e unidades lexicais palavras compostas e palavras no reconhecidas (Figura 6).
(tokens) (Figura 4). Alm disso, repeties desnecessri- As nicas tarefas apresentadas acima necessrias durante o
as de caracteres de separao, tais como espaos, que- pr-processamento so a segmentao em unidades lexicais
bras de linha e tabulaes, so removidas e formas no e a remoo de caracteres de separao desnecessrios, as
ambguas do texto so normalizadas para simplificar ope- demais podem ser efetuadas posteriormente.
raes de busca, sendo que as normalizaes so defini- Na Figura 5 exibida a caixa de dilogo para pr-
das pelo usurio (Figura 5). Como exemplo, a palavra da processamento de textos sem formatao. Os textos so
normalizada em de a. importante notar que normali- segmentados de acordo com as regras definidas no arqui-
zao no pode ocorrer para palavras ambguas tal como a vo indicado na opo Apply FST2 in MERGE mode. O
palavra desse que pode significar de esse ou uma arquivo definido em Apply FST2 in REPLACE mode
conjugao do verbo dar. contm regras de normalizao de formas no ambguas.
Nesta etapa, possvel construir um autmato de A opo Construct Text Automaton permite a criao
texto sobre o arquivo de entrada. Alm disso, tambm pos- de autmatos de texto. A opo GO! inicia o pr-
svel aplicar um conjunto de dicionrios de palavras simples processamento do texto.

21
http://ladl.univ-mlv.fr/.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 165

ART04_Aluisio-Almeida.pmd 165 18/1/2007, 22:54


Calidoscpio

A Figura 6 mostra um dicionrio (esquerda) onde j a expresso <dizer.V> denota qualquer palavra que te-
so listadas informaes morfossintticas das palavras re- nha dizer como sua forma cannica e seja da classe dos
conhecidas. As palavras esto divididas em trs grupos: verbos. Um exemplo de busca mais avanada pode ser
palavras simples; palavras compostas e palavras no reco- dado pela expresso <V><A> que faz a busca de um ver-
nhecidas. A direita pode ser observado o autmato de texto bo seguido de um adjetivo (figura 7).
para uma sentena pertencente a um texto histrico.
Dicionrios
Concordanciador
Existem dois tipos principais de dicionrios no for-
O concordanciador presente na ferramenta permite mato DELA: os dicionrios de forma cannica (DELAS) e
a busca de padres atravs de expresses regulares. Se- os dicionrios de formas flexionadas (DELAF). Alm dis-
qncias de smbolos reservadas so utilizadas para deno- so, existem duas variantes para palavras compostas:
tar uma expresso regular. As operaes de concatenao, DELAC para formas cannicas e DELACF para formas
unio, fecho de Kleene e negao so permitidas e repre- flexionadas. A ordem de prioridade em pesquisas em dici-
sentadas respectivamente pelos smbolos: ., +, *, !. onrios definida pelos smbolos + (mais prioritrio) e
Por exemplo, a expresso regular para.dizer* representa a - (menos prioritrio) adicionados no fim dos nomes de
palavra para imediatamente seguida por zero ou mais ocor- arquivos de cada dicionrio.
rncias da palavra dizer. As seqncias de smbolos abai- Uma possvel entrada para um dicionrio DELAF
xo realizam operaes teis: dada por abandonou,abandonar.V:J3s/comentrio. Esta
* <E>: representa uma cadeia vazia entrada indica que a palavra abandonou possui a forma
* <MOT>: qualquer seqncia de letras do alfabeto cannica abandonar, sendo abandonar um verbo. O
* <MIN>: qualquer seqncia de letras minsculas itens J3s indica terceira pessoa do pretrito, e a seqn-
* <MAJ>: qualquer seqncia de letras maisculas cia depois do smbolo / indica um comentrio. Smbolos
* <PRE>: uma seqncia de letras comeando por reservados podem ser representados como parte de uma
maisculas entrada se forem antecedidos pelo smbolo \.
* <NB>: qualquer seqncia de algarismos O formato das entradas nos demais dicionrios se-
* <^>: representa o caractere de quebra de linha melhante ao formato do exemplo mostrado acima com peque-
* #: impede a presena de espao em branco nas variaes. Alm disso, possvel armazenar informaes
semnticas adicionais por meio de palavras reservadas como
Adicionalmente, possvel representar nas expres- por exemplo AnlColl e ConcColl. A primeira indica um
ses regulares informaes codificadas nos dicionrios. coletivo de animais (exemplo: manada) enquanto que a se-
Por exemplo, a expresso <A> denota qualquer adjetivo, gunda indica um coletivo humano (exemplo: banda).

Figura 6. Dicionrio morfossinttico e grafo de texto

166 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 166 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

Figura 7. Busca por verbo seguido de adjetivo

O Unitex fornece recursos para tratar dicionrios e sentenciadores. Toda funcionalidade do Corpgrafo est
no formato DELA. possvel comprimir um dicionrio, associada a um dos quatro ambientes de trabalho ou
verificar se contm erros de formatao ou orden-lo caso mdulos: gestor de ficheiros, pesquisa de corpora, cen-
ainda no esteja em ordem alfabtica. Como os mesmos tro de conhecimento e centro de documentao, essa sub-
smbolos podem ser ordenados de maneiras diferentes de diviso diminui a sobrecarga de trabalho no ambiente.
acordo com o idioma em uso, o usurio pode definir seus Dos quatro mdulos contidos no Corpgrafo, o
prprios critrios de ordenao por meio de um arquivo que mais interessa para este artigo o Gestor de fichei-
chamado Alphabet_sort.txt. ros, que trata especificamente da montagem de corpus.
Alguns cdigos gramaticais so utilizados para Para construir um corpus no Corpgrafo, primeiramente
permitir a flexo automtica de uma forma cannica. Um necessrio selecionar os textos que comporo o corpus,
novo dicionrio contendo as formas flexionadas pode ser que podem ser fornecidos de duas maneiras: ou enviando
gerado automaticamente pelo Unitex a partir do dicion- o prprio arquivo (upload) ou informando a URL onde o
rio original e de uma gramtica de flexo previamente defi- arquivo pode ser encontrado. O Corpgrafo aceita textos
nida. do tipo pdf, html, doc, ps e rtf, alm do txt,
formato para o qual todos os outros tipos de texto so
Ferramentas de gerao e transformados. O Corpgrafo oferece ferramentas para o
gerenciamento de corpora especializados pr-processamento desses textos, tais como sentencia-
dores (denominados fraseadores em portugus de Por-
O Ambiente Corpgrafo tugal) e um ambiente de edio que permite fazer a limpe-
Desenvolvido pela Faculdade de Letras da Uni- za de textos (retirar lixo provindo da converso de tipos
versidade do Porto (FLUP), o Corpgrafo22 um gestor de de texto, remoo de cabealhos, tabelas, referncias ou
corpus que se encontra, atualmente, direcionado para pes- agradecimentos). Aps pr-processar os textos, pode-se
quisas terminolgicas, isto , a extrao de termos e sua selecionar aqueles que faro parte do corpus.
organizao em bases de dados. Fornece um ambiente Tendo um corpus montado seguindo os passos
Web integrado para o manejo de corpus, disponibilizando anteriores, o Corpgrafo oferece ferramentas de busca e
ferramentas para processamento de corpus. Dentre as fer- extrao de conhecimento de corpus, como um
ramentas que possui, esto concordanciadores, contado- concordanciador com suporte para pesquisas utilizando
res de freqncia e tambm ferramentas de pr- expresses regulares, gerador de n-grama23 (sendo 5 o
processamento de corpus, como as de limpeza de corpus tamanho mximo possvel para o n-grama), extratores de

22
http://www.linguateca.pt/Corpografo/
23
Lexias com nmero varivel de palavras.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 167

ART04_Aluisio-Almeida.pmd 167 18/1/2007, 22:54


Calidoscpio

terminologia, relaes semnticas e mapas conceituais, tes so combinadas entre si e algumas dessas combina-
dentre outras. es ( escolha do usurio) so enviadas como buscas no
Google. No terceiro passo, as URLs retornadas das bus-
O ToolKit BootCaT cas so processadas para obter-se apenas o texto contido
nelas, convertendo-as para texto puro e limpando-os,
O BootCaT24, extrator automtico de corpus e de quando for possvel. So aproveitados somente os forma-
termos (do ingls Bootstrapping Corpora and Terms), tos html e txt. Nesse momento, um primeiro corpus j
prope a montagem de corpus, de modo iterativo, a partir est formado. Desse primeiro corpus so extrados
de textos obtidos na Web. O BootCaT composto por unigramas (itens lxicos com apenas uma palavra), e a
vrias ferramentas escritas em Perl25, que foram projetadas freqncia de cada unigrama obtido no corpus apurada.
para executar pequenas partes do processo de montagem Sabendo-se a freqncia de cada unigrama, esses podem
de corpus. ser comparados entre si. A relevncia de cada unigrama
Basicamente, o processo de montagem de corpus mensurada utilizando a medida estatstica log odds ratio
do BootCaT composto de quatro passos: (Baroni e Bernardini, 2004), com o apoio de um corpus de
1) construir um corpus automaticamente a partir referncia na mesma lngua. Uma lista de unigramas, orde-
de buscas no Google26 utilizando um pequeno nada pela relevncia calculada pela medida log odds ratio
conjunto de itens lxicos, denominados semen- ento gerada, e os primeiros elementos da lista so con-
tes (seeds) no BootCaT; siderados bons candidatos a sementes. Caso o corpus
2) extrair novas sementes desse corpus; obtido at o momento no seja satisfatrio (seja pequeno,
3) utilizar essas novas sementes para novas bus- por exemplo), podem-se eleger os primeiros unigramas da
cas ao Google, cujos textos recuperados se- lista como novas sementes e repetir o processo, voltando
ro concatenados ao corpus, aumentando-o; ao segundo passo. Segundo Baroni e Bernardini (2004),
4) extrair novas sementes desse corpus corpus representativos podem ser montados com poucas
complementado-o, e assim por diante. A mon- sementes iniciais (entre 5 e 15). Os autores tambm afir-
tagem de corpus proposta pelo BootCaT se- mam que com duas ou trs iteraes possvel obter um
gue o diagrama da figura 8. corpus satisfatrio.
O BootCaT tambm dispe de ferramentas para
O primeiro passo selecionar as sementes iniciais. extrao de termos com mais de uma palavra, ou termos
Isso feito manualmente, e boas sementes so termos multipalavras. Para tal propsito, precisamos de duas lis-
tpicos em textos do domnio especfico do qual se busca tas, ambas obtidas no corpus de referncia: uma de
construir a amostragem. No segundo passo, essas semen- conectores e uma de stopwords. Conectores so compos-
tos por palavras ou bigramas (itens lxicos com duas pala-
vras, meio ambiente, por exemplo) que ocorrem freqen-
temente entre dois unigramas, e stopwords so termos
muito freqentes, geralmente formados por palavras de
classe fechada de uma lngua como os artigos, as conjun-
es, as preposies e os pronomes que no so
conectores. As listas descritas acima no precisam neces-
sariamente ser obtidas pelo BootCaT, podem ser dadas
ou obtidas de outras fontes. Com as listas acima poss-
vel definir o que so termos multipalavras, segundo as
restries abaixo:
1. contm ao menos um unigrama;
2. no contm stopwords;
3. podem ter conectores, desde que esses no
estejam nas extremidades do termo e no se-
jam consecutivos;
4. tm freqncia maior que um limiar (threshold),
que relativo ao tamanho do termo;
Figura 8. Fluxo de montagem de um corpus no BootCaT 5. no podem ser parte de termos multipalavras
(Baroni e Bernardini, 2004). maiores com freqncia superior a k*fq, onde

24
http://sslmit.unibo.it/~baroni/bootcat.html
25
http://www.perl.com
26
http://www.Google.com.br/

168 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 168 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

k uma constante entre 0 e 1 (normalmente k Ambiente Colaborativo , grosso modo, um sistema Web
um valor perto de 1) e i fq a freqncia do cuja entrada principal um corpus de especialidade de um
termo atual; determinado domnio do conhecimento; e a sada, um pro-
6. reciprocamente, no podem conter termos duto terminolgico (glossrio, dicionrio, lista de termos,
multipalavras menores com freqncia superi- mapa conceitual, etc.) do domnio em questo. O e-Ter-
or a (1/k) * fq; mos est sendo desenvolvido no NILC.
Os termos multipalavras so procurados recursi-
vamente, inicialmente buscando por bigramas e depois Lies aprendidas a partir de projetos de pesquisa
concatenando palavras esquerda e direita, na busca de
um (n+1) grama. Parmetros como a freqncia mnima Vrios projetos envolvendo corpus foram e tm
para bigramas (utilizado para calcular o limiar da restrio sido objeto de pesquisa das autoras nos ltimos anos.
4) e o valor de k das restries 5 e 6 devem ser informados Apresentaremos, a seguir, detalhes da elaborao e exe-
pelo usurio. cuo desses projetos, com o intuito de expor detalhes da
O BootCaT extremamente modular: para executar construo dos corpora, explicitando nossas escolhas,
o processo de montagem de corpus e extrao de termos tomadas de deciso, erros cometidos, de forma a auxiliar
so utilizadas vrias ferramentas, sendo que o resultado demais pesquisadores que desejam adotar os princpios
de cada ferramenta serve de entrada para outra. Essa ca- da Lingstica de Corpus em seus projetos.
racterstica nos permite utilizar subconjuntos de ferramen-
tas, conferir os arquivos de sada intermedirios, adicio- Projetos Corpus NILC e Lcio-Web
nar novas ferramentas, substituir uma ferramenta ou alte-
rar uma ferramenta sem preocupar-se com as outras, ape- O NILC possui um corpus do portugus do Brasil
nas cuidando para que ela aceite o mesmo tipo de entrada (chamado de Corpus NILC ou CN), compilado a partir de
e produza o mesmo tipo de sada. Essa caracterstica reduz 1993, contendo cerca de 35 milhes de palavras. O corpus
re-implementaes de algoritmos com implementaes consiste de textos em prosa, divididos em subcorpora de
consolidadas, evitando a replicao desnecessria de c- textos corrigidos, textos no corrigidos e textos
digo. Alteraes intuitivamente complexas, como adapta- semicorrigidos. As decises de projeto e compilao fo-
es de ferramentas para trabalhar com lnguas diferen- ram motivadas pelas necessidades provenientes de outro
tes, tm sido experimentadas e comprovam os benefcios projeto denominado ReGra28 (um revisor gramatical para o
das ferramentas modulares. Adaptaes para o BootCaT portugus do Brasil, incorporado ao Microsoft Word des-
foram feitas para construo de corpus em lngua japone- de 2000), embora na poca as orientaes da Lingstica
sa (Baroni e Ueyama, 2004), com taxas encorajadoras de de Corpus para compilao de corpus fossem incipientes.
reaproveitamento de ferramentas e cdigo. Alguns problemas do Corpus NILC so descritos abaixo
As buscas e a recuperao das URLs dessas bus- (Pinheiro e Alusio, 2003):
cas requisitadas pelo BootCaT ao Google so possveis classificao dos textos: a classificao textu-
por meio da API (Interface para Programao de al do CN problemtica, pois o Corpus foi
Aplicativos) do Google. Essa API permite ao programador construdo sob demanda. medida que foram
enviar e recuperar facilmente uma busca feita ao Google. adquiridas, as amostras passaram a integrar
Para a utilizao da API do Google, e conseqente- categorias textuais distinguidas segundo pa-
mente do BootCaT, necessrio obter a licena de uso rmetros irregulares de classificao;
dessa no site do Google. Para obter essa licena, o usurio quantidade de textos: alguns conjuntos de
precisa cadastrar-se, e a chave da licena enviada por e- textos do CN so muito pouco representati-
mail. Essa licena permite que o usurio execute diariamen- vos, isto , no so quantitativamente sufici-
te at 1.000 buscas e retorne no mximo 10.000 resultados. entes em relao ao rtulo que carregam, como
As ferramentas do BootCaT, por serem cdigo li- por exemplo: jornalstico, literrio, jurdico, etc.
vre, foram incorporadas no projeto e-Termos27, uma apli- O corpus cientfico, por exemplo, tem poucas
cao Computer-Supported Collaborative Work (CSCW) amostras de teses, algumas dissertaes in-
composta por seis mdulos de trabalho independentes, completas e, de modo geral, dedicado rea
mas inter-relacionados, cujo propsito automatizar ou da informtica. A quantidade de textos impe-
semi-automatizar todas as tarefas de criao e gerencia- de o aproveitamento do corpus para pesqui-
mento do trabalho terminolgico. O e-Termos, como um sas gerais;

27
O e-Termos est sendo desenvolvido por Leandro Henrique Mendona de Oliveira, como tese de doutorado em Cincias de Computao
e Matemtica Computacional, com orientao de Sandra Maria Alusio. O e-Termos foi originado do TermEx, projeto que ser descrito a
seguir (http://www.nilc.icmc.usp.br/etermos/).
28
http://www.nilc.icmc.usp.br/nilc/projects/regra.htm

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 169

ART04_Aluisio-Almeida.pmd 169 18/1/2007, 22:54


Calidoscpio

compilao: alguns tipos de textos tiveram sas pesquisas lingsticas, como por exemplo, a anlise
compilao irregular em relao ao padro de de textos e discursos e tarefas como a traduo.
amostragem aplicado em quase todo o CN. O LW tenta preencher uma lacuna em termos de
Embora o procedimento ideal de compilao recursos para pesquisa e suporte criao de ferramentas
fosse o de trazer apenas textos integrais, para de PLN para a lngua portuguesa do Brasil. Para tanto,
algumas categorias essa regra foi quebrada, quatro corpora foram disponibilizados: Lcio-Ref, Mac-
resultando em obras parcialmente compiladas; Morpho, Par-C e Comp-C, descritos abaixo:
acmulo de textos: uma caracterstica 1) Lcio-Ref: corpus aberto e de referncia com-
insatisfatria de determinados conjuntos do posto de textos escritos em portugus brasi-
CN o acmulo de textos em um nico arqui- leiro, respeitando a norma culta, com 4.278 ar-
vo, resultado de uma escolha de formatao quivos, totalizando 8.291.818 ocorrncias. um
das amostras do Corpus. A opo foi a de ane- corpus cru (no anotado com informaes
xar, num nico arquivo, diversos textos peque- morfossintticas, sintticas ou de nvel mais
nos, o que terminou ocultando especificidades elevado), mas possui anotaes da existncia
sobre os textos, tais como as diferenas de de elementos grficos e anotao de cabea-
autoria, de assunto, etc. lho. A grande maioria dos textos est
Para superar as limitaes do CN, foi criado o Pro- disponibilizada na ntegra.
jeto Lcio-Web29 (Alusio et al., 2003a, 2004). 2) Mac-Morpho: corpus fechado e anotado mor-
O Lcio-Web (LW) foi um projeto financiado pelo fossintaticamente, formado por artigos
CNPq, iniciado em 2002, com durao de 30 meses, e reali- jornalsticos retirados da Folha de S.Paulo, ano
zado em parceria entre o NILC, o Instituto de Matemtica 1994, dos cadernos Esporte (ES), Dinheiro (DI),
e Estatstica (IME) e a Faculdade de Filosofia, Letras e Cincia (FC), Agronomia (AG), Informtica (IF),
Cincias Humanas (FFLCH) ambos da USP, So Paulo. O Ilustrada (IL), Mais! (MA), Mundo (MU), Brasil
objetivo do LW divulgar e disponibilizar gratuitamente (BR) e Cotidiano (CO). Composto de 1.167.183
na Web: a) vrios corpora do portugus brasileiro escrito ocorrncias, o corpus foi etiquetado pelo
contemporneo, representando bancos de textos adequa- analisador sinttico Palavras, foi revisado ma-
damente compilados, catalogados e codificados, em um nualmente quanto anotao morfossinttica e
padro que possibilita fcil intercmbio, navegao e an- serviu de treinamento para trs etiquetadores
lise; e b) ferramentas lingstico-computacionais, tais como morfossintticos disponveis na Web (Alusio et
contadores de freqncia, concordanciadores e al., 2003b). O MAC-MORPHO disponibilizado
etiquetadores morfossintticos treinados em grandes para download em dois formatos: a) adequado
corpora anotados manualmente. para pesquisas lingsticas com o uso de conta-
O pblico-alvo do LW heterogneo: de um lado dores de freqncia ou concordanciadores, por
lingistas, cientistas da computao, lexicgrafos, exemplo; b) adequado ao treinamento de
terminlogos, etc. e, de outro, o pblico em geral. O LW etiquetadores e que, por ter as lexias complexas
acessado a partir de um portal (http://www.nilc.icmc.usp.br/ (multipalavras) separadas30, teve o tamanho do
lacioweb/), que informa os tipos de corpus, ferramentas, corpus alterado para 1.221.468 ocorrncias.
todo o material disponvel e a forma de contribuir com tex- 3) Par-C: corpus aberto, paralelo, Ingls-Portu-
tos para a continuao do projeto, disponibiliza, ainda, ma- gus, que possui, inicialmente, textos de um
nuais e artigos relacionados e permite, aps cadastramento ano de edies da revista Pesquisa Fapesp,
do usurio, o acesso ao corpus e s ferramentas. num total de 646 textos em cada lngua. O n-
Dada a importncia de um recurso de base como mero total de ocorrncias desse corpus de
so os corpora de uma dada lngua, para avanar estudos 893.283.
lingsticos variados e tambm para a construo de sis- 4) Comp-C: corpus aberto, formado por textos
temas computacionais de processamento de lngua natu- originais de contedo comparvel em ingls e
ral (PLN), justifica-se o sucesso que tivemos em conse- portugus, inicialmente disponvel apenas para
guir permisso oficial para incluir materiais diversos, du- o gnero jurdico. Conta com 29 textos, 61.149
rante os 30 meses do projeto. Para obter essa permisso, ocorrncias, e ser ampliado futuramente. Os
foi includo, juntamente com o termo de autorizao, um corpora comparveis so projetados para a
texto explicativo apontando o potencial dos recursos e a avaliao de mtodos de extrao de termos
necessidade de obteno de textos integrais para diver- para sistemas de PLN, para confeco de glos-

29
Coordenado por Sandra Maria Alusio (ICMC/USP).
30
Rio=de=Janeiro_NPROP, por exemplo, separado em Rio_NPROP de_NPROP Janeiro_NPROP, em que NPROP uma etiqueta
para nomes prprios.

170 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 170 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

srios e dicionrios especializados e para ou- a) cientfica: refere-se aos textos de cincias.
tras pesquisas lingsticas. Esse grupo composto por seis reas do
No total, o Projeto LW possui 5.708 arquivos, conhecimento: Cincias Agrrias, Cincias
totalizando 10.413.524 ocorrncias. Biolgicas, Cincias da Sade, Cincias Exa-
O LW distingue seus textos em quatro categorias tas e da Terra, Cincias Humanas e Cincias
ortogonais: gnero, tipo de texto, domnio e meio de distri- Sociais Aplicadas;
buio. A definio e a composio das categorias so b) religio e pensamento: envolve os temas
detalhadas abaixo. metafsicos, espirituais e teolgicos (ex.:
 Gnero textual: para o Projeto Lcio-web, o livros de bruxaria, de auto-ajuda, etc.).
gnero discrimina o texto pela inteno comu- c) generalidades: refere-se aos textos com
nicativa e pelo carter discursivo, isto , a co- temas variados e, de modo geral, inseri-
munidade (meio) em que circula e as ativida- dos num campo conhecido pelo senso
des humanas que o tornam relevante. Con- comum (ex.: entretenimento). Inclui, alm
vencionamos o uso de um super-gnero, cha- disso, os textos que abordam, de forma
mado Literrio (LT), um conjunto de gneros e no-analtica, temas considerados pela ci-
um conjunto de subgneros. Os gneros e ncia (exs.: cincia e tecnologia, sade,
subgneros so dados no Quadro 1. esporte, etc.).
 Meio de distribuio: seleciona o canal por
meio do qual o texto foi divulgado ao seu p-
Quadro 1. Gneros e subgneros utilizados no Projeto
blico-alvo, por ex.: CD_ROM (CR), Dirio Ofi-
Lcio-web.
cial (DO), Internet (IN), Jornal (JO), Livro (LI),
Gnero Subgnero Tese (TE).
Cientfico (CI) O Projeto Lcio-Web disponibiliza vrias ferramen-
De referncia (RE) enciclopdico, lexicogrfico, tas lingstico-computacionais como concordanciadores,
terminolgico e outros. contadores de freqncia e etiquetadores morfossintticos,
Informativo (IF) jornalstico e outros treinados com o corpus do portugus do Brasil e anotado
Jurdico (JU) manualmente o MAC-Morpho. O objetivo facilitar a
Prosa (PR)* biografia, conto, novela, observao de caractersticas lingsticas do portugus
romance e outros do Brasil por pesquisadores, assim como melhorar a qua-
Poesia (PO)* lidade dos sistemas desenvolvidos para o portugus, tais
Drama (DR)* como, tradutores, sumarizadores automticos e mquinas
Instrucional (IS) didtico, procedimental e de busca (como o Google, por exemplo).
outros As ferramentas podem ser usadas com o Lcio-
Tcnico- Ref, com os subcorpora criados pelo usurio ou ainda
Administrativo (TA) com o corpus que o usurio tiver carregado para o LW,
* Esses gneros, especialmente, advm do supergnero Literrio. pois possvel fazer upload de textos.
Ao final dos 30 meses de pesquisa e desenvolvi-
mento, o LW disponibiliza, de forma gratuita, amigvel e
 Tipo textual: considera-se tipo de texto o modo de largo alcance: a) quatro tipos distintos de corpus (Lcio-
especfico de estruturao de um texto. Refere- Ref, Mac-Morpho, Par-C e Lcio-Dev); b) algumas ferra-
se ao texto visto de dentro, ou seja, suas par- mentas de processamento lingstico-computacional (con-
tes componentes, seu lxico, sua sintaxe, sua tador de freqncia, concordanciador e etiquetador
adequao ao tema etc. Trata-se de uma lista morfossinttico); e c) um Portal que, sensvel a diferentes
em constante atualizao e que, no momento, tipos de usurios, oferece trs tipos de interface de pes-
composta de 39 categorias (e Outros tipos quisa, com ferramentas de base associadas, sendo, alm
textuais no previstos), por ex.: apostila, manu- disso, um ambiente de navegao dinmica, didtica e,
al, parecer, reportagem, smula, testamento etc. sobretudo, de incentivo ao uso de corpus para os mais
 Domnio: a rea de conhecimento que diversos tipos de investigao lingstica, uma vez que
tematiza a principal informao veiculada pelo permite o download completo das amostras dos corpora.
texto. Temos trs grandes linhas de domnio, Mas ainda assim o LW deixou lacunas importantes como
denominadas domnio geral. A cada uma a falta de um balanceamento de corpus, como, por exem-
dessas linhas associam-se subdomnios, de- plo, em gnero e nmero de textos por categorias. Vrias
nominados domnios especficos. A diviso decises tomadas no projeto LW ainda esto um pouco
em termos de domnio geral apresenta as se- distantes dos padres internacionais, como o XCES (Ide
guintes subdivises: et al., 2000), tanto com relao anotao como

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 171

ART04_Aluisio-Almeida.pmd 171 18/1/2007, 22:54


Calidoscpio

codificao, embora tenhamos dado um grande passo em nacionais, e quatro cuja nacionalidade era desconhecida.
direo padronizao com a proposta de um rico cabea- Diante dessas constataes, a montagem do corpus foi
lho em XML que traz informaes bibliogrficas e da reavaliada, pois isso afetaria o requisito autenticidade. A
tipologia quadripartida; e a anotao explcita da existn- retirada desses textos, por outro lado, comprometeria a
cia de elementos grficos retirados dos textos. extenso do corpus, uma vez que uma das abordagens de
extrao de termos que seria utilizada era a estatstica,
Projeto TermEx abordagem dependente, significativamente, do tamanho
do corpus. Contatamos, ento, o responsvel pela revista
O projeto31 intitulado Extrao automtica de ter- para esclarecer se esses textos, depois de traduzidos, eram
mos e elaborao colaborativa de terminologias para revisados por um especialista falante nativo do portugu-
intercmbio e difuso de conhecimento especializado s. Como a resposta foi afirmativa, todos aqueles textos,
(TermEx) foi financiado pela FAPESP, iniciou-se em 2003 objeto de preocupao, foram includos no corpus. Ob-
e encerrou-se em 2005. O projeto foi uma parceria entre a serve-se que, neste caso, demos prioridade para o requisi-
UFSCar e a USP/So Carlos e tinha como principais obje- to extenso em detrimento da autenticidade.
tivos: 1) pesquisar e implementar mtodos para a extrao Para a transformao dos textos para o formato TXT,
automtica de termos; 2) criar um ambiente computacional foi utilizada a ferramenta denominada EXTEX (Extraco de
para auxlio na pesquisa terminolgica/terminogrfica; 3) Texto de Ficheiros Formatados)33. Uma caracterstica dessa
elaborar um dicionrio terminolgico para a rea de reves- ferramenta, ao realizar a transformao, a de que o texto
timento cermico. transformado no totalmente igual ao texto original. Ele se
Como nossa proposta final era a elaborao de um apresenta com juno de algumas palavras, preserva os
dicionrio terminolgico, o corpus foi elaborado a partir de ndices de referncia bibliogrfica e as notas de rodap ane-
artigos especializados da revista Cermica Industrial32. xadas s palavras, e a hifenizao dos textos no formato
Essa revista, escrita em portugus, tem como objetivo con- pdf. Para resolver esses problemas, esses textos foram
tribuir para atualizao e melhoria da formao dos tcnicos submetidos a um processo cuidadoso de correo manual.
cermicos brasileiros. destinada fundamentalmente a pro- Vale ressaltar tambm que todos os arquivos do
fissionais da indstria. Os especialistas que colaboram com corpus foram pr-processados para a retirada de informa-
artigos so tanto pesquisadores (brasileiros e estrangei- es de autoria e filiao, referncias bibliogrficas, figu-
ros) de laboratrios, institutos de pesquisas e desenvolvi- ras, tabelas e quadros, fazendo com que o tamanho mdio
mento (P&D) e universidades, quanto profissionais que dos artigos diminusse de oito para cinco pginas,
atuam em indstrias. Constitui uma publicao bastante totalizando 448.352 palavras.
relevante e respeitada no setor de Revestimento Cermico. Tambm foi encontrada grande quantidade de er-
Da a nossa escolha, j que uma das nossas preocupaes ros gramaticais e de digitao. Para minimizar os erros gra-
era abarcar no s a linguagem utilizada nos laboratrios e maticais, foi realizada uma varredura no corpus com o au-
institutos de P&D como tambm aquela utilizada nas in- xlio de um processador de textos, buscando corrigir os
dstrias. Acreditvamos que a escolha dessa revista satis- erros encontrados, podendo-se, dessa forma, analisar os
fazia os requisitos representatividade e amostragem. dados de forma mais precisa.
Os textos foram agrupados pelos anos em que fo- O corpus foi pr-processado utilizando-se um
ram publicados, 1996-2003, e totalizam 196, possuindo, tokenizador 34 desenvolvido no NILC 35 chamado
cada texto, uma mdia de sete a oito pginas (aproximada- Sentencer, que um tokenizador e segmentador sentencial
mente 4.000 palavras). Todos os textos presentes no site para portugus, que tokeniza um texto de entrada, inse-
da revista esto no formato pdf. Porm, para que eles rindo um caractere de fim de linha ao fim de cada sentena.
pudessem ser processados pelos mtodos propostos nes- Linhas em branco marcam fronteiras de pargrafo. Ape-
se trabalho, deveriam estar no formato txt. Por essa ra- nas caracteres de fim de linha, como ponto-final, ponto-
zo, nem todos os textos foram utilizados, visto que ocor- de-interrogao, ponto-de-exclamao e reticncias so
reram alguns problemas no processo de converso do considerados possveis finais de sentena. O programa
formato pdf para txt, o que totalizou 164 textos. Sentencer trata de abreviaes como Dr., Prof., no
Percebemos, entretanto, que embora todos fossem considerando, nesse caso, o ponto final como um caractere
escritos em portugus, 55 desses artigos eram de autores de fim de linha, ao contrrio, o ponto desconsiderado.
estrangeiros, quatro escritos por autores estrangeiros e Alm disso, o programa Sentencer tambm apresenta a

31
O projeto foi coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e contou com a colaborao de Sandra Maria Alusio (USP).
32
http://www.ceramicaindustrial.org.br/.
33
http://poloclup.linguateca.pt/ferramentas/extex/
34
Ferramenta computacional que separa o texto em tokens (palavra, ponto, espao, qualquer sinal grfico).
35
http://www.nilc.icmc.usp.br/nilc/

172 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 172 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

funo de separar os caracteres (como aspas, vrgulas, lingstico. A aplicao do conhecimento hbrido torna o
pontuaes, entre outros) dos tokens. sistema mais eficiente, visto que ele condiciona os resul-
Aps o corpus ter sido tokenizado pelo Sentencer, tados. Existem dois tipos de mtodos hbridos: aqueles
ele foi etiquetado36 utilizando-se o MXPOST (Ratnaparkhi, que aplicam o conhecimento estatstico primeiro e depois
1996), etiquetador que foi treinado no NILC com um conjun- o lingstico, e aqueles que utilizam a estatstica apenas
to simplificado que possui 15 etiquetas37 e um corpus manu- como um complemento da lingstica (Teline et al., 2003).
almente etiquetado de 104.963 palavras. Esse etiquetador38 Como o trabalho de Teline (2004) atestou que os
possui a preciso de 97%. Para usar o MXPOST no arquivo sistemas baseados em conhecimento hbrido eram os mais
de entrada, cada token deveria estar separado por um espa- eficientes, optou-se por essa abordagem no projeto
o em branco, ou seja, nenhum caractere, incluindo pontua- TermEx. Ocorre que o lxico40 utilizado para o reconheci-
o, deveria estar anexo s palavras; essa foi uma das razes mento das estruturas morfolexicais da terminologia de
para o uso do programa Sentencer. Revestimento Cermico era constitudo de itens da lngua
Aps o pr-processamento, o corpus estava pron- geral, o que acabou impedindo que esse lxico reconhe-
to para ser objeto de extrao automtica de termos. cesse determinados termos. Observe-se como o lxico do
Antes de realizar a extrao, alguns mtodos auto- ReGra lematizou determinados termos multipalavras: ao
mticos foram avaliados e implementados para o portugu- mecnica > ao mecnico, alumina calcinada >
s39, especificamente mtodos das trs abordagens para o alumina calcinar, capacidade instalada > capacidade
portugus: estatstica, lingstica e hbrida. instalar. Em vista desse cenrio, utilizamos ento a abor-
Os mtodos baseados em conhecimento estatsti- dagem estatstica.
co geralmente detectam as unidades terminolgicas de Uma grande lio que aprendemos com o projeto
acordo com a freqncia com que elas ocorrem em um TermEx foi o fato de no termos balanceado o corpus de
corpus. Existem mtodos estatsticos que utilizam desde forma a incluir distintos gneros. Esse erro foi observado
simples freqncias at aqueles que utilizam estatsticas posteriormente quando procurvamos contextos
mais complexas, como informao mtua e coeficiente log- definitrios ou explicativos para elaborarmos as defini-
likelihood e c-value. A funo , em todos os mtodos, es para o dicionrio. Nossa hiptese era de que um
identificar os candidatos a termo (Teline et al., 2003). corpus contendo apenas textos do gnero tcnico-cient-
Os sistemas baseados em conhecimento fico fosse suficiente para a elaborao de um dicionrio
lingstico utilizam diferentes recursos que contm dife- terminolgico. Entretanto, quando os autores escrevem
rentes informaes lingsticas para a extrao dos ter- um artigo cientfico, tm como pblico-alvo leitores espe-
mos. Essas informaes lingsticas dizem respeito a: in- cialistas que no necessitam de explicaes conceituais
formaes lexicogrficas dicionrios de termos e lista de de objetos, maquinrio, conceitos, tcnicas, etc. As glo-
palavras auxiliares (stopwords); informaes sas, portanto, esto ausentes desse tipo de texto. Vamos
morfolgicas padres de estrutura interna da palavra; encontrar contextos definitrios ou explicativos nos g-
informaes morfossintticas categorias morfossintti- neros cientfico de divulgao e instrucional (apostila, li-
cas e funes sintticas; informaes semnticas clas- vro-texto, manual, por exemplo). A constatao a que che-
sificaes semnticas; informaes pragmticas repre- gamos que mesmo em se tratando de uma pesquisa
sentaes tipogrficas e informaes de disposio do terminolgica, o corpus deve ser balanceado, contendo,
termo no texto. Este tipo de conhecimento utilizado faz pelo menos, textos desses trs gnero: tcnico-cientfico,
com que os sistemas baseados em conhecimento cientfico de divulgao e instrucional. Percebemos que a
lingstico se apliquem somente a uma lngua e, s vezes, falta de balanceamento acabou gerando um corpus me-
at mesmo a uma nica variante (Teline et al., 2003). nos representativo, com menos amostras e menos diversi-
Os sistemas baseados em conhecimento hbrido ficado, erros que no devem ser repetidos, posto que esse
utilizam o conhecimento estatstico juntamente com o corpus afetou diretamente a redao dos verbetes.

36
Etiquetar significa classificar o texto morfologicamente, ou seja, atribuir a cada unidade a classe correspondente.
37
I-interjeio; LOCU-locuo; PREP-preposio; N-substantivo; NP-nome prprio; VERB-verbo; ADJ-adjetivo; AUX-verbo auxiliar;
ADV-advrbio; PRON-pronome; CONJ-conjuno; NUME-numeral; ART-artigo; RES- resduo; PDEN-palavra denotativa e mais 4 tipos
de contraes: PREP+ART, para palavras como da, na; PREP+PD, para palavras como nesta, naquela, nessa; PREP+PPR,
para palavras como dela, nela; PREP+N, para palavras como dalma, dgua, darte.
38
O NILC dispe de vrios etiquetadores que podem ser acessados a partir de http://www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html.
39
A avaliao e a implantao dos mtodos foi objeto de um trabalho de mestrado, denominado Avaliao de mtodos para extrao
automtica de terminologia de textos em portugus (ExPorTer) (Teline, 2004).
40
O lxico utilizado foi o do ReGra (Revisor Gramatical do Portugus), que contm 68.530 lemas e 1.563.136 entradas, incluindo formas
flexionadas, palavras compostas e locues (5.763 das entradas so locues nominais, prepositivas, adjetivas, adverbiais, conjuntivas).
Esse lxico est em constante atualizao (desde 1993), j que o lxico que d suporte ao corretor sinttico do Microsoft Word. O ReGra
foi desenvolvido no NILC (www.nilc.icmc.usp.br/nilc/projects/regra.htm).

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 173

ART04_Aluisio-Almeida.pmd 173 18/1/2007, 22:54


Calidoscpio

Projeto NanoTerm Depois que todos os textos foram convertidos


em formato txt, eles receberam uma nomeao, de acor-
O projeto41 intitulado Terminologia em Lngua do com um padro previamente determinado, de forma a
Portuguesa da Nanocincia e Nanotecnologia: Siste- facilitar a recuperao posterior de cada texto. Aps a
matizao do Repertrio Vocabular e Elaborao de Di- nomeao dos arquivos, foi gerado (de forma semi-auto-
cionrio-Piloto (NanoTerm) financiado pelo CNPq e foi mtica) um cabealho para cada texto. A gerao semi-
iniciado em 2006 (com vigncia de dois anos). O projeto automtica desse cabealho foi feita por meio de um edi-
tambm uma parceria entre a UFSCar e a USP/So Carlos e tor (programa computacional com interface grfica
tem como objetivos: 1) a constituio de um corpus em para criar ou modificar arquivos) que auxilia o lingista a
lngua portuguesa da Nanocincia e Nanotecnologia especificar diversas informaes sobre os textos. Res-
(N&N); 2) a busca de equivalentes em portugus (lngua saltamos que esse programa uma verso adaptada no
de chegada) a partir de uma nomenclatura em ingls (ln- Editor de Cabealho utilizado no Projeto Lcio-Web43 e
gua de partida); 3) uma ontologia em lngua portuguesa contm os seguintes campos de informao: ttulo, sub-
da rea de N&N; 4) a elaborao do primeiro dicionrio- ttulo, fonte, editor, local de publicao, data, assunto,
piloto de N&N em lngua materna. autoria, tipo de autoria (individual ou coletiva), sexo do
Para a construo do corpus, inicialmente, foi rea- autor, tipo de texto, meio de distribuio e comentrios
lizado um estudo exploratrio dos textos existentes em (introduzem-se nesse campo informaes adicionais so-
lngua portuguesa bem como dos gneros aos quais eles bre o texto). Observe-se, nas Figuras 9 e 10, algumas
pertencem. Embora tivssemos tentado balancear o corpus, telas do editor de cabealho que pode ser obtido gratui-
inserindo uma quantidade equilibrada de textos dos gne- tamente na pgina do projeto Lcio-Web.
ros informativo, cientfico de divulgao e cientfico, obti- Para cada texto, gerado um cabealho. possvel
vemos uma grande quantidade dos primeiros e uma quan- ver na Figura 11 como ficam as informaes anotadas em
tidade reduzida do ltimo (cientfico). Entendemos que XML. So essas informaes anotadas em XML que vo
isso se deve fato de a rea de N&N ser relativamente nova permitir posteriormente que se faam buscas especficas.
no Brasil, alm disso, os pesquisadores, fundamentalmente O preenchimento de todos esses campos do cabe-
das reas de Exatas e Biomdicas que atuam em N&N, alho til para esta pesquisa porque a partir desses da-
publicam seus resultados de pesquisa em lngua inglesa. dos ser possvel fazer constataes tais como: o repert-
Os tipos de textos que compem o gnero CIENTFICO so rio vocabular tem alguma relao com a temtica do texto,
fundamentalmente dissertaes e teses. com o gnero, com a autoria ou com o meio de distribui-
Ressalte-se que at o momento todos os textos o? Dependendo do tema tratado em determinado texto,
foram obtidos na Web. importante destacar que muitas possvel recuperar os descritores desse texto por meio
pginas da Internet, embora se tivessem revelado til para da freqncia? Em outras palavras: num texto cujo tema
a pesquisa, estavam acessveis somente para scios ou seja Nanocincia, o item lxico nanocincia ocorre quantas
assinantes, inviabilizando, portanto, a obteno dos tex- vezes? Enfim, alm das buscas que podero ser empreen-
tos. Sero ainda inseridos no corpus textos impressos, os didas por cada campo constitutivo do cabealho, poss-
quais sero posteriormente digitalizados. No estudo vel fazer constataes relevantes sobre o lxico.
exploratrio que fizemos, encontramos apenas dois livros, Ao final de processo de construo do corpus, o
cinco5 artigos e um relatrio. Evidentemente, ser necess- projeto NanoTerm dever totalizar cerca de um milho de
rio insistir na busca por mais textos impressos. palavras.
Aps a seleo dos textos, foi realizada a compila-
o dos textos obtidos na Web. Para essa compilao, Projeto Dicionrio Histrico - ns
foram utilizados os seguintes itens de busca: nanocincia,
nanotecnologia, genmica. Todavia, aps realizarmos O projeto44 intitulado Dicionrio Histrico do
buscas, decidimos incluir e o prefixo nano- para abarcar Portugus do Brasil (sculos XVI, XVII e XVIII), no mbi-
termos como: nanotubo, nanorrede/nano-rede, to do programa Institutos do Milnio do CNPq, finan-
nanocpsula, nanoesfera, nanobiotecnologia, etc. As- ciado por este rgo e iniciou-se em dezembro de 2005
sim que cada texto era compilado, procedia-se com a sua (com vigncia de 3 anos). A equipe envolvida no projeto
manipulao, isto , com a converso manual e automti- conta com 10 universidades, 17 doutores e 17 alunos de
ca (Pacote XPDF42) de formatos doc, html e pdf graduao e ps-graduao. O projeto tem como principal
para txt e na limpeza e formatao. objetivo a elaborao de um dicionrio do portugus cor-

41
O projeto coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e conta com a colaborao de Sandra Maria Alusio (USP).
42
XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.
43
http://www.nilc.icmc.usp.br/lacioweb/
44
O projeto coordenado por Maria Tereza Camargo Biderman (UNESP/campus de Araraquara).

174 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 174 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

Figura 9. Editor de cabealho adaptado do projeto Lcio-Web.

Figura 10. Janelas do editor para a especificao de informaes bibliogrficas, de autoria e da tipologia quadripartida
(gnero, tipo textual, domnio e meio de distribuio).

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 175

ART04_Aluisio-Almeida.pmd 175 18/1/2007, 22:54


Calidoscpio

Figura 11. Cabealho com etiquetas XML gerado pelo Editor de Cabealho do Lcio-Web.

respondente aos sculos XVI, XVII e XVIII. Convm assi- nha, no mnimo, 3 milhes de palavras, para gerar, pelo
nalar que o Brasil no conta com nenhuma obra menos, dez mil entradas no dicionrio.
lexicogrfica sobre seu vocabulrio nos primeiros tempos A construo desse corpus inicia-se com o pro-
da formao do Portugus Brasileiro, o que atesta a origi- cesso de digitalizao, j que os textos referentes a esses
nalidade da proposta. sculos esto, em sua grande maioria, na forma impressa.
Para a elaborao desse dicionrio, necessria a Aps a anlise e seleo das obras, os livros so
construo de um corpus, evidentemente. digitalizados em formato de imagem (arquivos de ima-
De forma a cumprir os seis requisitos citados no incio gem com extenso tiff) para, ento, serem transforma-
deste artigo (autenticidade, representavidade, balanceamento, dos em textos (arquivos de texto com extenso doc).
amostragem, diversidade e extenso), o corpus est sendo Depois que esto em formato doc, os textos passam
construdo obedecendo a uma seqncia de etapas. por um processo de reviso manual. Este um trabalho
Foi realizada inicialmente a seleo dos textos. minucioso e que requer muita ateno, pois se trabalha
Essa seleo tem como orientao os seguintes pon- com a leitura cotejada de 3 documentos: a) a imagem do
tos: a) os textos tm de ser escritos originalmente em texto original, em forma de figura (extenso tiff) gerada
portugus por indivduos nascidos no Brasil, se tive- por digitalizao; b) a imagem do texto digitalizado em
rem nascido em Portugal, teriam de estar residindo no forma de texto propriamente (em formato doc); c) o
Brasil h anos (autenticidade), embora saibamos que texto original impresso que deve estar sobre a mesa,
h pouco material disponvel com essas caractersti- mo, para o caso de a imagem no computador no ser
cas no sculo XVI; b) seleo de documentos de for- suficiente para dirimir dvidas. Se os textos fossem atu-
ma a abarcar distintos domnios do saber, gneros ais, a tarefa estaria terminada, contudo, importante lem-
discursivos e tipologias textuais (representatividade, brar que estamos trabalhando com textos antigos e que a
balanceamento, amostragem, diversidade); c) distri- dificuldade est justamente na grafia no padronizada
buio desses gneros e domnios nos trs sculos do portugus quinhentista.
que envolvem a pesquisa, por exemplo, o gnero liter- importante assinalar que a digitalizao exige al-
rio s ser pertinente no sculo XVIII, posto que antes guns cuidados, pois os documentos possuem normalmente
disso no se pode afirmar que havia uma literatura ge- pginas em papel pardo, muito amarelas ou com manchas
nuinamente brasileira (balanceamento); d) seleo de prprias do envelhecimento, folhas craqueladas, pginas
uma quantidade de textos suficientes para a elabora- soltas, etc. Toda essa sujeira na imagem pode implicar a
o de um dicionrio que contemple a diversidade gerao de caracteres estranhos ou falhas no texto
lexical desses sculos (extenso), no que se refere s digitalizado que precisam ser eliminadas durante a revi-
classes abertas, a saber: substantivo, adjetivo, verbo so. Assim, aps a digitalizao, preciso limpar e recor-
e advrbio. A previso inicial de que o corpus conte- tar cada uma das imagens digitalizadas para que elas as-

176 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 176 18/1/2007, 22:54


Vol. 04 N. 03  set/dez 2006

sumam um formato padro o mais limpo possvel, isso The Lcio-Web: Corpora and Tools to Advance Brazilian
tornar a fase de reviso manual menos penosa. Portuguese Language Investigations and Computational
Linguistic Tools. In: LREC 2004, Lisboa, Portugal, 2004.
Todo o material digitalizado organizado de for- Proceedings Paris, ELDA, p. 1779-1782.
ma que cada unidade de texto constitua dois arquivos: ATKINS, S.; CLEAR, J. e OSTLER, N. 1992. Corpus design criteria.
um em forma de imagem e o seu correspondente em for- Journal of Literary and Linguistic Computing, 7(1).
ma de texto. Cada texto possui um extenso cabealho e BARONI, M. e BERNARDINI, S. 2004. BootCaT: Bootstrapping
corpora and terms from the web. In: LREC 2004, Lisboa,
organizado em pastas que correspondem determinada Portugal, 2004. ProceedingsParis, ELDA.
obra. Por exemplo, a obra Tratado Descritivo do Brasil, BARONI, M. e UEYAMA, M. 2004. Retrieving Japanese specialized
de Gabriel Soares Sousa, aps a digitalizao, foi trans- terms and corpora from the World Wide Web. In: KONVENS,
formada em 24 arquivos tiff e, depois da reviso, pas- Viena, ustria, 2004. ProceedingsViena, OFAI.
BERBER SARDINHA, T. 2000. Histrico e problemtica.
sou a ter tambm 24 arquivos doc. Isso significa que D.E.L.T.A., 16(2):323-367.
aps um ano de trabalho o projeto contar com um corpus BERBER SARDINHA, T. 2004. Lingstica de corpus. So Paulo,
e com um banco de imagens tiff correspondendo a Manole, 410 p.
cada texto. BIBER, D. 1993. Representativeness in Corpus Design. Lit Linguist
Computing, 8:243-257.
a partir do formato doc que os textos esto BIBER, D.; CONRAD, S. e REPPEN, R. 1998. Corpus linguistics:
prontos para receberem outros tratamentos possibilitan- Investigating language structure and use. Cambridge
do o processamento computacional. Como os textos pos- University Press, Cambridge.
suem caracteres que no pertencem ao conjunto ANSI45, DUBOIS, J; GIACOMO, M.; GUESPIN, L.; MARCELLESI, C.;
MARCELLESI, J.B. e MEVEL, J.P. 1993. Dicionrio de lin-
necessrio a sua codificao utilizando o Unicode, que gstica. So Paulo, Cultrix, 653 p.
uniformiza vrios conjuntos de caracteres para muitas ln- DUCROT, O. e TODOROV, T. 2001. Dicionrio enciclopdico das
guas, inclusive as lnguas orientais. cincias da linguagem. 3 ed., So Paulo, Perspectiva, 339 p.
GALISSON, R. e COSTE, D. 1983. Dicionrio de didctica das
lnguas. Coimbra, Livraria Almedina, 763 p.
Consideraes finais HASUND, K. 1998. Protecting the innocent: The issue of informants
anonymity in the COLT corpus. In: A. RENOUF (ed.), Explorations
Neste artigo, procuramos apresentar a concepo in Corpus Linguistics. Amsterdam, Rodopi, p. 13-27.
de corpus para a Lingstica e para a Lingstica de Corpus, IDE, N.; BONHOMME, P. e ROMARY, L. 2000. XCES: An XML-
based Standard for Linguistic Corpora. In: Second Language
abordar questes importantes para a elaborao de corpus Resources and Evaluation Conference (LREC), Athens, Greece,
computadorizado, discorrer sobre as etapas metodolgi- 2000. Proceedings, p. 825-830.
cas para a compilao de corpus, citar alguns corpora e KENNEDY, G. 1998. An Introduction to Corpus Linguistics.
ferramentas disponveis na Web para pesquisa e constru- London;New York, Longman.
KILGARRIFF, A. e GREFENSTETTE, G. 2003. Introduction to the
o de corpus, e, finalmente, detalhar quatro projetos de Special Issue on Web as Corpus. Computational Linguistics, 29(3).
pesquisa envolvendo corpus, de forma a auxiliar demais McENERY, T. e WILSON, A. 1996. Corpus linguistics. Edinburgh,
pesquisadores que desejam adotar os princpios da Lin- Edinburgh University Press.
gstica de Corpus em seus projetos. MURAKAWA, C.A.A. 2001. Tradio lexicogrfica em lngua
portuguesa. In: A.M.P.P. OLIVEIRA e A.N. ISQUERDO (orgs.),
Nosso intuito foi oferecer um panorama das prti- As cincias do lxico: lexicologia, lexicografia e terminolo-
cas da Lingstica de Corpus. Esperamos que essas refle- gia. 2. ed., Campo Grande, Ed. UFMS, p. 153-159.
xes e relatos possam nortear as pesquisas, levantar mais MURAKAWA, C.A.A. 2006. Antnio de Morais Silva: lexicgra-
questionamentos e sedimentar as prticas da Lingstica fo da lngua portuguesa. Araraquara, Laboratrio Editorial
FCL/UNESP; So Paulo, Cultura Acadmica Editora, 228 p.
de Corpus no Brasil. PAUMIER, S. 2002. Manuel dutilisation du logiciel Unitex. IGM,
Universite de Marne-la-Vallee, 217 p. Disponvel em: http://
Referncias www-igm.univ-mlv.fr/~unitex/. Acesso em: 20/10/2006.
PINHEIRO, G.M.e ALUSIO, S.M. 2003. Crpus Nilc: descrio e
anlise crtica com vistas ao projeto Lacio-Web. NILC-TR-
ALUSIO, S.M.; PINHEIRO, G.; FINGER, M.; NUNES, M.G.V. e
03-03, fevereiro, 60 p.
TAGNIN, S.E.O. 2003a. The Lcio-Web Project: overview
and issues in Brazilian Portuguese corpus creation. In: RATNAPARKHI, A. 1996. A Maximum Entropy Part-Of-Speech
CORPUS LINGUISTICS 2003, Lancaster, UK, 2003. Tagger. In: Empirical Methods in Natural Language Processing
ProceedingsLancaster, UCREL - Lancaster University, Conference, Philadelphia, Pennsylvania,1996. Proceedings
16:14-21. (Also as UCREL Technical Report, Vol 16 Part). Philadelphia, University of Pennsylvania, p. 133-142.
ALUSIO, S. M.; PELIZZONI, J. M.; MARCHI, A. R.; OLIVEIRA, RENOUF, A. (ed.). 1998. Explorations in Corpus Linguistics.
L. H.; MANENTI, R. e MARQUIVAFVEL, V. 2003b. An Amsterdam, Rodopi.
account of the challenge of tagging a reference corpus of SINCLAIR, J. 2005. Corpus and Text - Basic Principles. In: M.
Brazilian Portuguese. In: PROPOR2003, Faro, Portugal, WYNNE (ed.), Developing Linguistic Corpora: a Guide to
2003. Proceedings Lecture Notes in Computer Science. Good Practice. Oxford, Oxbow Books, p. 1-16. Disponvel
New York, Springer, 1:110-117. em: http://ahds.ac.uk/linguistic-corpora/. Acesso em: 30/10/
ALUSIO, S.M.; PINHEIRO, G.M.; MANFRIM, A.M.P.; OLIVEI- 2006.
RA, L.H.M. de; GENOVES Jr., L.C. e TAGNIN, S.E.O. 2004. TELINE, M.F. 2004. Avaliao de mtodos para extrao auto-

45
American National Standards Institute ANSI (http://www.ansi.org/)

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica 177

ART04_Aluisio-Almeida.pmd 177 18/1/2007, 22:54


Calidoscpio

mtica de terminologia de textos em portugus. So Carlos, VALE, O.A. 1998. Sintaxe, lxico e expresses idiomticas. In: A.N.
SP. Dissertao de mestrado. Universidade de So Paulo BRITO e O.A. VALE (orgs.), Filosofia, lingstica, informtica:
USP, 136 p. aspectos da linguagem. Goinia, Editora UFG, p. 127-137.
TELINE, M.F.; ALMEIDA, G.M.B. e ALUSIO, S.M. 2003. Extra- VALE, O.A. 2001. Expresses Cristalizadas do Portugus do Bra-
o manual e automtica de terminologia: comparando abor- sil: uma proposta de tipologia. Araraquara, SP. Tese de douto-
dagens e critrios. In: Workshop em Tecnologia da Informa- rado. Universidade Estadual Paulista UNESP.
o e da Linguagem Humana, 1, So Carlos, SP, 2003. Anais...
So Carlos, USP. (CD-ROM).
TRASK, R.L. 2004. Dicionrio de Linguagem e Lingstica. So Submetido em: 10/2006
Paulo, Contexto, 364 p. Aceito em: 11/2006

Sandra Maria Alusio


Doutora em Fsica e Ps-Doutorado em
Cincias da Computao. Professora
efetiva da USP, Brasil

Gladis Maria de Barcellos Almeida


Doutora em Lingstica de Lngua
Portuguesa. Professora UFSCar, SP,
Brasil

178 Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd 178 18/1/2007, 22:54