Вы находитесь на странице: 1из 9

1

O USO DE CORPORA NA ANLISE LINGSTICA


Guilherme Fromm
Corpus: substantivo masculino; 1. Coletnea ou
conjunto de documentos sobre determinado tema. Ex.:
ele estuda o c. juris canonici (coletnea de direito
cannico); 2. Derivao: por analogia. Repertrio ou
conjunto da obra cientfica, tcnica e/ou artstica de uma
pessoa ou a ela atribuda. Ex.: o c. da potica
camoniana; 3. Rubrica: fisiologia. Estrutura com
caractersticas ou funes especiais no corpo de um
homem ou de um animal; 4. Rubrica: lingstica.
Conjunto de enunciados numa determinada lngua, ger.
colhidos de atos reais da fala, que servem como material
para anlise lingstica; 5. Rubrica: lingstica,
semiologia. conjunto de enunciados (que so
indefinidamente possveis, i.., inesgotveis),
constitudo por amostras significativas da gramtica de
determinada lngua. Ex.: o c. sintagmtico da lngua
portuguesa.
Dicionrio eletrnico Houaiss da lngua portuguesa
O que um corpus?
Percebemos, pelo exemplo acima, que corpus no apresenta somente um
conceito. Com exceo das definies dois e trs do verbete apresentado, todas as
demais definies abarcam a nossa proposta que definir, como montar e trabalhar com
corpora. De um modo geral, corpus, na rea da Lingstica, indica uma coleo de
textos reunidos, de reas variadas ou no, com um propsito especfico de anlise. Ele
difere-se, portanto, de uma coletnea (coleo de trechos de obras) ou de uma antologia
(uma coleo de textos de autores consagrados), que renem obras ou parte de obras
dispersas com um intuito didtico ou simplesmente comercial.
O uso de um corpus para validar resultados de uma pesquisa um expediente
utilizado h sculos, mas a cincia da Lingstica do Corpus (Corpus Linguistic)
relativamente nova. As conceituaes na rea ainda so bastante recentes e nem sempre
aplicveis para qualquer tipo de trabalho. Para nos atermos a um dentre vrios conceitos
possveis do que um corpus, optamos por recorrer definio proposta por
BIDERMANN (2001, p. 79):
... corpus constitui um conjunto homogneo de amostras da lngua de qualquer tipo
(orais, escritos, literrios, coloquiais, etc.). Tais amostras foram escolhidas como modelo
de um estado ou nvel de lngua predeterminado. A anlise dos dados lingsticos de um
2

corpus deve permitir ampliar o conhecimento das estruturas lingsticas da lngua que
eles representam.
BIDERMANN (idem) fornece, ainda, uma segunda concepo de corpus:
Pode-se definir um corpus lingstico informatizado assim: - uma coletnea de textos
selecionados segundo critrios lingsticos, codificados de modo padronizado e
homogneo. Essa coletnea pode ser tratada mediante processos informticos.
BAKER (1995, p. 229) j trabalha com a composio interna e nos apresenta
alguns critrios na seleo de um corpus:
Corpora are generally designed on the basis of a number of selection criteria, the most
important of which are:
(i) general language vs. restricted domain
(ii) written vs. spoken language
(iii) synchronic vs. diachronic
(iv) typicality in terms of range of sources (writers/speakers) and genres (e.g. newspaper
editorials, radio interviews, fiction, journal articles, court hearings)
(v) geographical limits, e.g. British vs. American English
(vi) monolingual vs. bilingual or multilingual.
Essas so algumas concepes, dentre vrias. Em virtude de ser uma cincia
incipiente (dcada de 80 em diante, com o advento do computador como um
instrumento acessvel a muitos e a possibilidade de trabalhar com bancos de dados), a
Lingstica do Corpus ainda no possui definies rgidas de seu objeto de estudo e nem
de suas metodologias.
O que fazer com um corpus?
Antes de esquematizarmos um projeto para um corpus, devemos ter em mente
quais aplicaes prticas queremos retirar desse corpus. Existe uma variada gama de
anlises lingsticas que podemos fazer a partir dele. Vejamos alguns exemplos:
o A freqncia das palavras mais comuns da lngua;
o a freqncia das classes gramaticais;
o comprovao de colocaes
1
na lngua;


1
A colocao

indica uma combinao provvel mais aceita pelos falantes nativos da lngua.
Ela arbitrria e no segue padres pr-estabelecidos pela semntica ou sintaxe. Ex.: tomar
um nibus, pegar um nibus, agarrar um nibus. Embora agarrar possa ser considerado,
em determinado nvel conceptual, como sinnimo de tomar ou pegar, provavelmente s
encontraramos os dois primeiros exemplos em uma anlise de um corpus. O terceiro
3

o reconhecimento e detalhamento de lexias compostas e complexas
2
;
o regncia dos verbos preposicionados;
o composio mais provvel das estruturas frasais cristalizadas, tais como os
provrbios e expresses idiomticas;
o seleo de uma nomenclatura para uma obra terminolgica;
o criao de dicionrios gerais multilinges;
o verificao de modalidades de traduo em corpus bilnge ou multilinge;
o base de dados para tradutores;
o ensino de lngua estrangeira.
Definindo o objetivo
A primeira etapa, antes da coleta do material, a indagao acerca dos objetivos
que esperamos alcanar: que tipo de pesquisa pretendemos aplicar nesse corpus? Para
quem se destina esse corpus? Quais so as fontes a serem trabalhadas? Que tamanho
pretendemos para esse corpus? Em qual meio (escrito ou eletrnico) ele dever ser
publicado?
Todas essas perguntas, formuladas previamente, nos ajudam a estruturar o
corpus e, acima de tudo, nos ajudam a economizar tempo (j que provavelmente
lidaremos com grandes quantidades de informao).
A criao de um corpus de anlise - exemplificao
As idias apresentadas at agora podem nos dar uma pista de como trabalhar
com a Lingstica do Corpus, mas acreditamos que elas seriam vagas se no
mostrssemos um exemplo para ilustr-las. Para tanto, usaremos um exemplo tirado de
nossa dissertao de mestrado (FROMM, 2002): a construo de um corpus de
informtica. O objetivo desse foi fornecer palavras e suas respectivas exemplificaes,


exemplo, embora possamos entend-lo, nos soa estranho, no uma colocao usual da
lngua.
2
As lexias compostas

seriam geradas por duas palavras (justapostas ou hifenizadas),
gerando uma terceira palavra e um terceiro sentido, porm ainda guardando uma relao de
significao com os dois sentidos originais. Ex.: guarda-chuva. As lexias complexas

trabalham no nvel frasal, onde podemos ou no recuperar o sentido original de cada lexia
simples, mas o sentido final independente delas. Ex.: certificado de depsito bancrio
(CDB).
4

na rea de informtica, baseadas em um critrio de freqncia, para a construo de um
glossrio terminolgico para tradutores.
Contedo
A delimitao da rea de pesquisa desse corpus centrou-se em publicaes
gerais (revista e jornais via Internet) sobre a rea de informtica. Exclumos, portanto,
publicaes especficas (como revistas voltadas exclusivamente para programadores,
com linguagens de programao e termos estritamente tcnicos), manuais e press-
release de companhias (que representam o uso de termos especficos desta ou daquela
companhia) e outros por acreditarmos que no ofereceriam uma abrangncia relevante
para a formao de um glossrio geral.
Decidimos, num primeiro momento, no especificar as subreas apresentadas
nas publicaes (hardware, software, rede, dvidas de leitores, dicas tcnicas, etc.) por
acreditarmos que os termos eram usados por todas elas quase que indistintamente.
H, obviamente, diferenas quando tratamos de textos escritos em portugus
com emprstimos do ingls e tradues de artigos do ingls em que se optou por no
traduzir ou decalcar tal termo. Tais diferenas, quando no devidamente observadas,
poderiam provocar concluses errneas h alguns anos (em que grande parte do
material publicado era traduzida); percebemos, porm, dentro do corpus proposto, que
as tradues no chegavam a 5% do total. Ainda assim, decidimos separar o material
escrito em portugus das tradues.
Origem dos textos
O projeto inicial da pesquisa previa a coleta de material a partir de cinco
publicaes: cadernos de informtica dos jornais O Estado de So Paulo e Folha de
So Paulo, alm das revistas INFO Exame (Editora Abril), PC Master (Editora
Europa) e Internet.br (Ediouro), totalizando cinco diferentes fontes de anlise no
perodo de um ano (iniciando-se em janeiro/2001). Os cadernos de informtica dos dois
jornais e o contedo da revista INFO eram disponibilizados na Internet, portanto de fcil
coleta via download. As outras duas revistas no eram disponibilizadas na Internet,
razo pela qual seriam escaneadas e compiladas em formato digital. Aps alguns meses
de coleta do material, chegamos concluso de que seria muito difcil escanear tantas
5

revistas, dada a deficincia dos programas de OCR (reconhecimento tico de
caracteres).
Decidimos, ento, que o material deveria vir totalmente da Internet. Portanto, a
configurao final, determinou a incluso dos cadernos de informtica dos jornais O
Estado de So Paulo e Folha de So Paulo (semanais) e a revista INFO Exame
(mensal)
3
. Todo o material foi coletado entre janeiro e dezembro de 2001.
Identificao do Corpus
Tendo em vista que uma separao por fonte no era o objetivo da anlise (j
que no procurvamos linguagens especficas desta ou daquela editora e sim termos
gerais da rea), o critrio que melhor se ajustou organizao do material foi a ordem
cronolgica. As fontes foram relacionadas da seguinte maneira (acompanhadas na
seqncia das datas de publicao e separadas por ms):
FSP: Folha de So Paulo
OESP: O Estado de So Paulo
INFO: INFO Exame
Cada arquivo continha o texto integral de uma edio (com exceo das
propagandas, grficos, charges e tabelas de preos
4
). Procedemos ainda, a uma
separao entre os textos originalmente escritos em portugus e as tradues. Resultou
desse processamento trs sub-corpus:
1. Corpus geral: todo o material recolhido em todas as publicaes com diviso
cronolgica; salvo em formato .doc (Word). Exemplo: FSP 04.04.2001.doc, contido
na pasta Corpus Geral Word/Abril.


3
Essas publicaes disponibilizavam o material na ntegra. Muitas outras foram cogitadas
como fontes, mas, por fornecerem somente trechos e/ou algumas reportagens da verso
impressa, logo foram abandonadas.
4
Tal excluso se deu mais por uma necessidade prtica do que por uma escolha
metodolgica. Tais sees poderiam enriquecer ainda mais o corpus, porm, devido
diagramao ou o formato grfico, elas no podem ser lidas e/ou convertidas para o formato
final de leitura do conjunto.
6

2. Corpus portugus: todo o material escrito em portugus, com diviso cronolgica, no
formato .txt (texto). Exemplo: OESP 01.01.2001.txt, contido na pasta Corpus
Portugus/Janeiro.
3. Corpus traduo: todo o material traduzido (FSP, OESP e INFO), com diviso
cronolgica, no formato .txt (texto). Exemplo: INFO.txt, contido na pasta Corpus
Traduo/Maio.
Trs motivos fizeram com que esse tipo de diviso fosse efetivada:
1. o programa que faz a contagem e separao das palavras de acordo com a
freqncia, o WordSmith Tools, s aceita documentos no padro .txt para anlise;
2. a separao entre documentos originalmente escritos em portugus e tradues
facilitaria um futuro etiquetamento
5
desses textos e a aglutinao dessas amostras
dentro de um corpus geral da lngua;
3. j que no formato .txt perde-se toda a formatao, resolvemos salvar os textos
integrais com a formatao original; dessa forma, seria facilitado o entendimento
dos textos e salvaguardado o acesso de algum pesquisador que necessitasse separ-
los pelo ttulo.
Dada a inviabilidade prtica da impresso dessas amostras devido ao tamanho, eles
foram salvos em CD-ROM, em pastas e sub pastas conforme explicado acima
Extenso/Dimenso
No total, organizamos e analisamos 52 edies dos cadernos de informtica de
ambos os jornais, alm de 12 edies da revista INFO. Como resultado da contagem
final das palavras, apuramos os seguintes nmeros:
Tokens
6
: 1.392.706
Types: 48.482


5
Pode-se etiquetar um corpus, ou seja, classificar morfologicamente e/ou sintaticamente
palavra por palavra do mesmo. J existem tentativas de criar programas que faam esse tipo
de trabalho automaticamente, mas de um modo geral ainda um servio braal.
6
Na lngua inglesa os estatsticos do lxico costumam opor o token (ocorrncia no texto)
ao type (lexema referido pela ocorrncia formal). (BIDERMAN, 2001, p.167)
7

SARDINHA (indito, 1999), prope que se classifique os corpus segundo o
nmero de palavras contidas:
Tamanho em Palavras Classificao
menos de 80 mil Pequeno
80 a 250 mil Pequeno-mdio
250 mil a 1 milho Mdio
1 milho a 10 milhes Mdio Grande
10 milhes ou mais Grande

Seguindo esse critrio, o autor chega segmentao em cinco nveis de
tamanho. Com base nesse critrio de medio, pode-se afirmar que o conjunto de
material selecionado para esta pesquisa constituiu um corpus de tamanho mdio-grande.
Isso permite dizer que era um corpus representativo no universo das revistas e jornais na
rea de informtica.
Concluindo
A construo de um corpus ou corpora, gerais ou especficos, requer um grande
planejamento prvio por parte do pesquisador. A falta desse poder invalidar os dados
obtidos na futura pesquisa. Cabe ao(s) pesquisador(es), devidamente aparado nas
pesquisas metodolgicas mais modernas dentro da rea, desenvolver esse planejamento.
O desenvolvimento do corpus, dependendo do tamanho (quanto maior, mais
representativo ele ser), requer a participao de vrios pesquisadores e auxiliares e
pode demorar anos para ser terminado. Existem ainda muitos corpora, financiados por
grandes instituies governamentais ou particulares, que no tem um fim planejado:
eles so continuamente alimentados com novos dados para servirem como base de
pesquisas diversas, tendo elas sempre um carter de atualidade em relao lngua
vigente.
Tendo em vista esses detalhes, acreditamos que h a real possibilidade de
construo de teorias lingsticas baseadas em fatos, passveis de serem re-analisados.
Essas teorias no se baseariam em solues (ou mais especificamente,
exemplificaes) criadas por autores, mas sim em colocaes autnticas da lngua em
estudo, conferindo-lhes um carter cientfico.
8

Bibliografia
BAKER, M. Corpus in Translation Studies: an overview and some suggestions for
future research. In: Target 7:2. Amsterdam: John Benjamins, 1995.
BIDERMANN, M.T.C. Teoria Lingstica. 2. ed. So Paulo: Martins Fontes, 2001.
FROMM, G. Proposta para um modelo de glossrio de informtica para
tradutores. Dissertao de Mestrado. So Paulo: FFLCH/USP, 2002.
HOUAISS, A. Dicionrio Eletrnico Houaiss da Lngua Portuguesa. So Paulo:
Objetiva, 2001.
SARDINHA, T. B. O que um corpus representativo? Indito, 1999.
This document was created with Win2PDF available at http://www.daneprairie.com.
The unregistered version of Win2PDF is for evaluation or non-commercial use only.

Вам также может понравиться