Guilherme Fromm Corpus: substantivo masculino; 1. Coletnea ou conjunto de documentos sobre determinado tema. Ex.: ele estuda o c. juris canonici (coletnea de direito cannico); 2. Derivao: por analogia. Repertrio ou conjunto da obra cientfica, tcnica e/ou artstica de uma pessoa ou a ela atribuda. Ex.: o c. da potica camoniana; 3. Rubrica: fisiologia. Estrutura com caractersticas ou funes especiais no corpo de um homem ou de um animal; 4. Rubrica: lingstica. Conjunto de enunciados numa determinada lngua, ger. colhidos de atos reais da fala, que servem como material para anlise lingstica; 5. Rubrica: lingstica, semiologia. conjunto de enunciados (que so indefinidamente possveis, i.., inesgotveis), constitudo por amostras significativas da gramtica de determinada lngua. Ex.: o c. sintagmtico da lngua portuguesa. Dicionrio eletrnico Houaiss da lngua portuguesa O que um corpus? Percebemos, pelo exemplo acima, que corpus no apresenta somente um conceito. Com exceo das definies dois e trs do verbete apresentado, todas as demais definies abarcam a nossa proposta que definir, como montar e trabalhar com corpora. De um modo geral, corpus, na rea da Lingstica, indica uma coleo de textos reunidos, de reas variadas ou no, com um propsito especfico de anlise. Ele difere-se, portanto, de uma coletnea (coleo de trechos de obras) ou de uma antologia (uma coleo de textos de autores consagrados), que renem obras ou parte de obras dispersas com um intuito didtico ou simplesmente comercial. O uso de um corpus para validar resultados de uma pesquisa um expediente utilizado h sculos, mas a cincia da Lingstica do Corpus (Corpus Linguistic) relativamente nova. As conceituaes na rea ainda so bastante recentes e nem sempre aplicveis para qualquer tipo de trabalho. Para nos atermos a um dentre vrios conceitos possveis do que um corpus, optamos por recorrer definio proposta por BIDERMANN (2001, p. 79): ... corpus constitui um conjunto homogneo de amostras da lngua de qualquer tipo (orais, escritos, literrios, coloquiais, etc.). Tais amostras foram escolhidas como modelo de um estado ou nvel de lngua predeterminado. A anlise dos dados lingsticos de um 2
corpus deve permitir ampliar o conhecimento das estruturas lingsticas da lngua que eles representam. BIDERMANN (idem) fornece, ainda, uma segunda concepo de corpus: Pode-se definir um corpus lingstico informatizado assim: - uma coletnea de textos selecionados segundo critrios lingsticos, codificados de modo padronizado e homogneo. Essa coletnea pode ser tratada mediante processos informticos. BAKER (1995, p. 229) j trabalha com a composio interna e nos apresenta alguns critrios na seleo de um corpus: Corpora are generally designed on the basis of a number of selection criteria, the most important of which are: (i) general language vs. restricted domain (ii) written vs. spoken language (iii) synchronic vs. diachronic (iv) typicality in terms of range of sources (writers/speakers) and genres (e.g. newspaper editorials, radio interviews, fiction, journal articles, court hearings) (v) geographical limits, e.g. British vs. American English (vi) monolingual vs. bilingual or multilingual. Essas so algumas concepes, dentre vrias. Em virtude de ser uma cincia incipiente (dcada de 80 em diante, com o advento do computador como um instrumento acessvel a muitos e a possibilidade de trabalhar com bancos de dados), a Lingstica do Corpus ainda no possui definies rgidas de seu objeto de estudo e nem de suas metodologias. O que fazer com um corpus? Antes de esquematizarmos um projeto para um corpus, devemos ter em mente quais aplicaes prticas queremos retirar desse corpus. Existe uma variada gama de anlises lingsticas que podemos fazer a partir dele. Vejamos alguns exemplos: o A freqncia das palavras mais comuns da lngua; o a freqncia das classes gramaticais; o comprovao de colocaes 1 na lngua;
1 A colocao
indica uma combinao provvel mais aceita pelos falantes nativos da lngua. Ela arbitrria e no segue padres pr-estabelecidos pela semntica ou sintaxe. Ex.: tomar um nibus, pegar um nibus, agarrar um nibus. Embora agarrar possa ser considerado, em determinado nvel conceptual, como sinnimo de tomar ou pegar, provavelmente s encontraramos os dois primeiros exemplos em uma anlise de um corpus. O terceiro 3
o reconhecimento e detalhamento de lexias compostas e complexas 2 ; o regncia dos verbos preposicionados; o composio mais provvel das estruturas frasais cristalizadas, tais como os provrbios e expresses idiomticas; o seleo de uma nomenclatura para uma obra terminolgica; o criao de dicionrios gerais multilinges; o verificao de modalidades de traduo em corpus bilnge ou multilinge; o base de dados para tradutores; o ensino de lngua estrangeira. Definindo o objetivo A primeira etapa, antes da coleta do material, a indagao acerca dos objetivos que esperamos alcanar: que tipo de pesquisa pretendemos aplicar nesse corpus? Para quem se destina esse corpus? Quais so as fontes a serem trabalhadas? Que tamanho pretendemos para esse corpus? Em qual meio (escrito ou eletrnico) ele dever ser publicado? Todas essas perguntas, formuladas previamente, nos ajudam a estruturar o corpus e, acima de tudo, nos ajudam a economizar tempo (j que provavelmente lidaremos com grandes quantidades de informao). A criao de um corpus de anlise - exemplificao As idias apresentadas at agora podem nos dar uma pista de como trabalhar com a Lingstica do Corpus, mas acreditamos que elas seriam vagas se no mostrssemos um exemplo para ilustr-las. Para tanto, usaremos um exemplo tirado de nossa dissertao de mestrado (FROMM, 2002): a construo de um corpus de informtica. O objetivo desse foi fornecer palavras e suas respectivas exemplificaes,
exemplo, embora possamos entend-lo, nos soa estranho, no uma colocao usual da lngua. 2 As lexias compostas
seriam geradas por duas palavras (justapostas ou hifenizadas), gerando uma terceira palavra e um terceiro sentido, porm ainda guardando uma relao de significao com os dois sentidos originais. Ex.: guarda-chuva. As lexias complexas
trabalham no nvel frasal, onde podemos ou no recuperar o sentido original de cada lexia simples, mas o sentido final independente delas. Ex.: certificado de depsito bancrio (CDB). 4
na rea de informtica, baseadas em um critrio de freqncia, para a construo de um glossrio terminolgico para tradutores. Contedo A delimitao da rea de pesquisa desse corpus centrou-se em publicaes gerais (revista e jornais via Internet) sobre a rea de informtica. Exclumos, portanto, publicaes especficas (como revistas voltadas exclusivamente para programadores, com linguagens de programao e termos estritamente tcnicos), manuais e press- release de companhias (que representam o uso de termos especficos desta ou daquela companhia) e outros por acreditarmos que no ofereceriam uma abrangncia relevante para a formao de um glossrio geral. Decidimos, num primeiro momento, no especificar as subreas apresentadas nas publicaes (hardware, software, rede, dvidas de leitores, dicas tcnicas, etc.) por acreditarmos que os termos eram usados por todas elas quase que indistintamente. H, obviamente, diferenas quando tratamos de textos escritos em portugus com emprstimos do ingls e tradues de artigos do ingls em que se optou por no traduzir ou decalcar tal termo. Tais diferenas, quando no devidamente observadas, poderiam provocar concluses errneas h alguns anos (em que grande parte do material publicado era traduzida); percebemos, porm, dentro do corpus proposto, que as tradues no chegavam a 5% do total. Ainda assim, decidimos separar o material escrito em portugus das tradues. Origem dos textos O projeto inicial da pesquisa previa a coleta de material a partir de cinco publicaes: cadernos de informtica dos jornais O Estado de So Paulo e Folha de So Paulo, alm das revistas INFO Exame (Editora Abril), PC Master (Editora Europa) e Internet.br (Ediouro), totalizando cinco diferentes fontes de anlise no perodo de um ano (iniciando-se em janeiro/2001). Os cadernos de informtica dos dois jornais e o contedo da revista INFO eram disponibilizados na Internet, portanto de fcil coleta via download. As outras duas revistas no eram disponibilizadas na Internet, razo pela qual seriam escaneadas e compiladas em formato digital. Aps alguns meses de coleta do material, chegamos concluso de que seria muito difcil escanear tantas 5
revistas, dada a deficincia dos programas de OCR (reconhecimento tico de caracteres). Decidimos, ento, que o material deveria vir totalmente da Internet. Portanto, a configurao final, determinou a incluso dos cadernos de informtica dos jornais O Estado de So Paulo e Folha de So Paulo (semanais) e a revista INFO Exame (mensal) 3 . Todo o material foi coletado entre janeiro e dezembro de 2001. Identificao do Corpus Tendo em vista que uma separao por fonte no era o objetivo da anlise (j que no procurvamos linguagens especficas desta ou daquela editora e sim termos gerais da rea), o critrio que melhor se ajustou organizao do material foi a ordem cronolgica. As fontes foram relacionadas da seguinte maneira (acompanhadas na seqncia das datas de publicao e separadas por ms): FSP: Folha de So Paulo OESP: O Estado de So Paulo INFO: INFO Exame Cada arquivo continha o texto integral de uma edio (com exceo das propagandas, grficos, charges e tabelas de preos 4 ). Procedemos ainda, a uma separao entre os textos originalmente escritos em portugus e as tradues. Resultou desse processamento trs sub-corpus: 1. Corpus geral: todo o material recolhido em todas as publicaes com diviso cronolgica; salvo em formato .doc (Word). Exemplo: FSP 04.04.2001.doc, contido na pasta Corpus Geral Word/Abril.
3 Essas publicaes disponibilizavam o material na ntegra. Muitas outras foram cogitadas como fontes, mas, por fornecerem somente trechos e/ou algumas reportagens da verso impressa, logo foram abandonadas. 4 Tal excluso se deu mais por uma necessidade prtica do que por uma escolha metodolgica. Tais sees poderiam enriquecer ainda mais o corpus, porm, devido diagramao ou o formato grfico, elas no podem ser lidas e/ou convertidas para o formato final de leitura do conjunto. 6
2. Corpus portugus: todo o material escrito em portugus, com diviso cronolgica, no formato .txt (texto). Exemplo: OESP 01.01.2001.txt, contido na pasta Corpus Portugus/Janeiro. 3. Corpus traduo: todo o material traduzido (FSP, OESP e INFO), com diviso cronolgica, no formato .txt (texto). Exemplo: INFO.txt, contido na pasta Corpus Traduo/Maio. Trs motivos fizeram com que esse tipo de diviso fosse efetivada: 1. o programa que faz a contagem e separao das palavras de acordo com a freqncia, o WordSmith Tools, s aceita documentos no padro .txt para anlise; 2. a separao entre documentos originalmente escritos em portugus e tradues facilitaria um futuro etiquetamento 5 desses textos e a aglutinao dessas amostras dentro de um corpus geral da lngua; 3. j que no formato .txt perde-se toda a formatao, resolvemos salvar os textos integrais com a formatao original; dessa forma, seria facilitado o entendimento dos textos e salvaguardado o acesso de algum pesquisador que necessitasse separ- los pelo ttulo. Dada a inviabilidade prtica da impresso dessas amostras devido ao tamanho, eles foram salvos em CD-ROM, em pastas e sub pastas conforme explicado acima Extenso/Dimenso No total, organizamos e analisamos 52 edies dos cadernos de informtica de ambos os jornais, alm de 12 edies da revista INFO. Como resultado da contagem final das palavras, apuramos os seguintes nmeros: Tokens 6 : 1.392.706 Types: 48.482
5 Pode-se etiquetar um corpus, ou seja, classificar morfologicamente e/ou sintaticamente palavra por palavra do mesmo. J existem tentativas de criar programas que faam esse tipo de trabalho automaticamente, mas de um modo geral ainda um servio braal. 6 Na lngua inglesa os estatsticos do lxico costumam opor o token (ocorrncia no texto) ao type (lexema referido pela ocorrncia formal). (BIDERMAN, 2001, p.167) 7
SARDINHA (indito, 1999), prope que se classifique os corpus segundo o nmero de palavras contidas: Tamanho em Palavras Classificao menos de 80 mil Pequeno 80 a 250 mil Pequeno-mdio 250 mil a 1 milho Mdio 1 milho a 10 milhes Mdio Grande 10 milhes ou mais Grande
Seguindo esse critrio, o autor chega segmentao em cinco nveis de tamanho. Com base nesse critrio de medio, pode-se afirmar que o conjunto de material selecionado para esta pesquisa constituiu um corpus de tamanho mdio-grande. Isso permite dizer que era um corpus representativo no universo das revistas e jornais na rea de informtica. Concluindo A construo de um corpus ou corpora, gerais ou especficos, requer um grande planejamento prvio por parte do pesquisador. A falta desse poder invalidar os dados obtidos na futura pesquisa. Cabe ao(s) pesquisador(es), devidamente aparado nas pesquisas metodolgicas mais modernas dentro da rea, desenvolver esse planejamento. O desenvolvimento do corpus, dependendo do tamanho (quanto maior, mais representativo ele ser), requer a participao de vrios pesquisadores e auxiliares e pode demorar anos para ser terminado. Existem ainda muitos corpora, financiados por grandes instituies governamentais ou particulares, que no tem um fim planejado: eles so continuamente alimentados com novos dados para servirem como base de pesquisas diversas, tendo elas sempre um carter de atualidade em relao lngua vigente. Tendo em vista esses detalhes, acreditamos que h a real possibilidade de construo de teorias lingsticas baseadas em fatos, passveis de serem re-analisados. Essas teorias no se baseariam em solues (ou mais especificamente, exemplificaes) criadas por autores, mas sim em colocaes autnticas da lngua em estudo, conferindo-lhes um carter cientfico. 8
Bibliografia BAKER, M. Corpus in Translation Studies: an overview and some suggestions for future research. In: Target 7:2. Amsterdam: John Benjamins, 1995. BIDERMANN, M.T.C. Teoria Lingstica. 2. ed. So Paulo: Martins Fontes, 2001. FROMM, G. Proposta para um modelo de glossrio de informtica para tradutores. Dissertao de Mestrado. So Paulo: FFLCH/USP, 2002. HOUAISS, A. Dicionrio Eletrnico Houaiss da Lngua Portuguesa. So Paulo: Objetiva, 2001. SARDINHA, T. B. O que um corpus representativo? Indito, 1999. This document was created with Win2PDF available at http://www.daneprairie.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only.