Академический Документы
Профессиональный Документы
Культура Документы
Pablo Faria1
Charlotte Galves2
Resumo. Neste trabalho, assinalamos a estreita relao entre sistemas de anotao e anlise sinttica
automtica, apresentando um experimento para comparar anlises automticas baseadas nas verses
atual e modificada do sistema de etiquetas morfolgicas verbais utilizado no Corpus Tycho Brahe. A
modificao resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurcia,
conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotao pode ser
pensado de modo a ser mais conciso e informativo ao analisador sinttico automtico (doravante,
analisador). Como concluso, so sugeridos dois princpios norteadores para especificao do sistema
de anotao e treinamento do analisador. Por fim, a discusso contextualizada por uma viso
geral e uma breve discusso do processo de construo de bancos de rvores (treebanks) e de sua
importncia na pesquisa lingustica.
Palavras-chave: lingustica de corpus, corpora anotados, processamento automtico
Abstract. In this paper, we highlight the tight relation between annotation systems and parsing
by presenting an experiment for evaluation of alternative parses based on current and modified
versions of the verbal tag system used in the Tycho Brahe Corpus. The modified version resulted
in an improvement of two percentage points in the F1 measure of parsing accuracy, as evaluated
by the evalb software. This result shows that the annotation system can be devised in order to be
more concise and informative to the parser. As a conclusion, we suggest two guidelines for the
specification of annotation systems and the training of the parser. Finally, the present discussion
is contextualized by an outline and a brief discussion of the process of treebank building and of its
importance for linguistic research.
Keywords: corpus linguistics, annotated corpora, automatic processing
1
Professor na Universidade Estadual de Campinas. e-mail: pablofaria@iel.unicamp.br. O presente
trabalho foi conduzido no mbito do projeto de pesquisa FAPESP 13/18090-6.
2
Professora na Universidade Estadual de Campinas. e-mail: galvesc@unicamp.br. Coordenadora
do projeto temtico FAPESP 12/06078-9, ao qual esto vinculados este estudo e o projeto de pesquisa
mencionado acima.
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
1. Introduo
3
O termo treebank - correspondente a banco de rvore, em analogia a banco de sangue - foi
cunhado nos anos 1980, na Universidade de Lancaster, por pesquisadores que incluam Geoffrey Neil Leech
e Geoffrey Sampson, este ltimo tendo sido o primeiro a construir um banco de rvores (Leech, 2009).
4
Exemplo criado com base no sistema de anotao do Corpus Tycho Brahe (Galves & Faria, 2010).
300
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
A Figura 1 exemplifica os dois tipos principais de bancos de rvores. Note-
se que h semelhanas entre as duas representaes, quanto s interdependncias
dos elementos. Porm, no so representaes completamente isomrficas, o que
se v, por exemplo, na forma como o advrbio hoje aparece nas estruturas: na
primeira, no indicado qual dos verbos ele modifica, visto que ele apenas um
n irmo dos ns relativos aos verbos auxiliar e principal.
Outra diferena importante a de que, enquanto as rvores de dependncia
so explcitas quanto a quais itens lexicais so os ncleos a partir dos quais
dependncias so determinadas, nas rvores de estrutura sintagmtica esta
informao interpretada com base nos rtulos dos ns sintticos e nas etiquetas
morfossintticas dos itens lexicais, interpretao que depende do conhecimento
prvio do sistema de anotao respectivo.
Em princpio, um banco de rvores pode aplicar qualquer formalismo
gramatical cuja estrutura atribuda s sentenas seja arbrea. Alm disso,
bancos de rvores de um mesmo tipo podem variar bastante entre si, seja quanto
a quais propriedades gramaticais so anotadas, seja em como as anotam. Por
exemplo, na teoria da Gramtica Gerativa, postulam-se elementos invisveis nas
sentenas, chamados de categorias vazias, o que leva certos bancos de rvores
a codificar tais informaes. No CTB, por exemplo, so anotadas ocorrncias
de sujeito nulo, relaes de longa distncia entre elementos interrogativos e
as posies em que so interpretados, entre outras propriedades. O grau de
compromisso com teorias e anlises lingusticas especficas tambm varia
bastante entre os corpora.
Desde que o desenvolvimento de bancos de rvores em larga escala se
intensificou, a partir dos anos 1990, seu impacto na pesquisa lingustica e tambm
na rea de lingustica computacional tem sido cada vez mais significativo,
como mostramos nas prximas sees. Neste artigo, abordada a relao entre
o sistema de anotao utilizado no CTB e o processamento automtico, em
particular, no que diz respeito anlise sinttica automtica. Nosso objetivo
central clarificar um pouco mais este aspecto da construo de bancos de
rvores e divisar algumas diretrizes que auxiliem na especificao ou na reviso
de sistemas de anotao, de modo a impactar positivamente o desempenho da
anlise sinttica automtica.
O artigo est organizado da seguinte forma: na seo 2, feita uma
introduo ao processo de anotao sinttica para criao de um banco de rvores.
Na seo 3, apontamos a importncia dos bancos de rvores para a pesquisa
em lingustica e, em particular, para a lingustica histrica. A seo 4 adentra
o campo da lingustica computacional, discutindo a relao entre anotao e
anlise sinttica automtica com base em experimentos com o analisador de
Dan Bikel (Bikel, 2004). Os experimentos so apresentados e seus resultados
discutidos luz de estudos similares na literatura. A seo 5 sintetiza e organiza
as concluses tiradas da discusso na seo anterior, de modo a sugerir diretrizes
para especificao de sistemas de anotao. Por fim, a seo 6 apresenta
concluses gerais e observaes finais.
301
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
2. A construo de bancos de rvores
303
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
No s os fenmenos frequentes podem assim ser apreendidos de modo mais
rigorosos, mas os fenmenos raros, que so, em certos casos, essenciais para a
verificao de hipteses sofisticadas sobre a natureza das gramticas subjacentes
aos textos, podem ser detectados e trazidos tona por buscas automticas
complexas que escaneiam em segundos milhares de frases. Daremos aqui um
rpido exemplo desse tipo. As lnguas romnicas e germnicas se diferenciam pela
posio do advrbio nas oraes em que o sujeito segue o verbo. Nas primeiras, o
advrbio segue o sujeito posposto, nas segundas, o precede (Belletti 2004). Isso se
deve posio diferente ocupada pelo verbo nos dois tipos de lnguas.
Nas lnguas germnicas, o verbo precede o sujeito porque foi movido para
uma posio mais alta, nas lnguas romnicas, o verbo no se moveu, e o sujeito
posposto ocupa uma posio baixa, direita do advrbio. As oraes em que
o sujeito posposto e h um advrbio de modo so, portanto, essenciais para
descobrir se uma lngua tem uma sintaxe de tipo romnico ou de tipo germnico,
questo crucial para as lnguas romnicas antigas, em particular o portugus
clssico. Mas tais oraes (exemplificadas por (1) a seguir) so relativamente
raras, e difceis de achar manualmente em centenas de milhares de palavras.
(1) Em muytas occasies advirtio Deos Madre Elena interiormente o que convinha sua
honra, (C_002,196.810)
5
Cf. http://corpussearch.sourceforge.net/CS-manual/Revise.html
6
Note-se que a numerao dos ns automaticamente atribuda pela ferramente de busca
totalmente arbitrria, podendo exibir lacunas na sequncia, sem que isso tenha relevncia para os
resultados.
304
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
7
Cf. http://www.tycho.iel.unicamp.br/tbf/login
305
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
4. Processamento automtico de textos
Agora que temos uma viso geral do que so bancos de rvores, de como
so construdos e de sua importncia para a pesquisa em lingustica, discutimos
nesta seo alguns aspectos de seu processamento automtico. Destacamos a
seguir uma parte fundamental da construo de bancos de rvores, a saber, a
tarefa de anlise sinttica automtica. Inmeros estudos e mtodos de anlise
automtica tm sido desenvolvidos ao longo dos ltimos vinte anos. O objetivo
central aqui o de demonstrar a relao intrnseca entre escolhas envolvendo
sistemas de anotao sinttica e a qualidade dos resultados obtidos nas tarefas
de anlise automtica, no intuito de identificar diretrizes para a especificao
de sistemas de anotao que contribuam para o alcance de melhores prticas na
construo de bancos de rvores.
307
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
308
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
310
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
Tabela 1. Condies experimentais.
Condio Etiquetas Descrio
1 Atual 305 Verso com sistema de anotao atual
2 Revisada 275 Sistema revisado e sem subetiquetas verbais
8
Nos experimentos, um tempo limite foi especificado para o processamento de cada sentena,
de modo que o analisador desistia da sentena, se no conseguisse produzir uma anlise em at 10
minutos. Tais anlises demoradas tendem a ser demasiadamente precrias, razo pela qual no vale a
pena alongar o processamento como um todo em funo dessas poucas sentenas.
9
Software amplamente utilizado para avaliao de anlises sintticas alternativas em que uma
rvore candidata comparara a uma rvore alvo quanto ao percentual de constituintes em comum.
311
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
O mesmo clculo foi feito apenas para as sentenas com comprimento menor ou
igual a 40 tokens, que compem 86,2% do corpus de teste. Por fim, visto que
foi detectada uma correlao moderada significativa10 entre o comprimento das
sentenas e a F1, foi calculado o desempenho ponderado pelo comprimento das
sentenas. possvel que esta medida seja mais realista quanto ao desempenho do
analisador. A duas ltimas colunas informam, respectivamente, o nmero mdio
de parnteses cruzados e o nmero de sentenas que ficaram sem anlise (ver nota)
juntamente com os comprimentos mnimo e mximo de tais sentenas.
10
As correlaes para as condies experimentais variaram de -0.475357 a -0.590796 (p < 2.2e-16).
312
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
Tabela 3. Alguns resultados de anlise automtica encontrados
na literatura e o do experimento realizado.
Banco de rvores Lngua F1 Treinamento
WSJ + NANC Ingls 92,1 40000 (WSJ) + 1750
(McClosky et al., 2006) (NANC)
Tba-D/Z Alemo 88,5 (<=40) 25005 sentenas
(2) A base das etiquetas deve codificar to somente e exaustivamente as distines relevantes
para a anlise sinttica.
313
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
de anotao, deve-se preparar um corpus de treinamento sem as subetiquetas
morfolgicas, visto que um sistema mais conciso tender a produzir melhores
resultados. Isso possvel se houver uma verso prvia etiquetada do texto a ser
analisado. Isso nos leva ao princpio em (3):
(3) O corpus de treinamento do analisador deve excluir toda informao suprflua para a
anlise sinttica, desde que esta seja automaticamente recupervel.
Vale ressaltar que o princpio acima, bem como quaisquer outras decises
envolvendo o analisador dependem, fundamentalmente, de um conhecimento
adequado de seu funcionamento e de sua configurao. Um analisador mal
configurado ou operando em modo genrico (i.e., sem predisposio para
particularidades da lngua) certamente ter um desempenho bastante limitado,
quando comparado ao estado da arte.
6. Consideraes finais
Referncias bibliogrficas
ABNEY, S., S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek,
J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, and T. Strzalkowski. (1991).
Procedure for quantitatively comparing the syntactic coverage of english grammars. In E.
Black, editor, Proceedings of the Workshop on Speech and Natural Language, HLT 91, pages
306311, Stroudsburg, PA, USA. Association for Computational Linguistics.
314
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
ARTSTEIN, Ron e Massimo Poesio. (2008). Inter-coder agreement for Computational Linguistics
(survey article). Computational Linguistics, 34/4, 555-596.
BIKEL, Dan. (2004). Intricacies of Collins parsing model. Computational Linguistics, 30(4).
CHE, Wanxiang, Zhenghua Li, and Ting Liu. (2012. Chinese Dependency Treebank 1.0 LDC2012T05.
Web Download. Philadelphia: Linguistic Data Consortium.
COHEN, Jacob. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological
Measument 20: 37-46.
GALVES, Charlotte, e Pablo Faria. (2010). Corpus Histrico do Portugus Tycho Brahe. URL:
http://www.tycho.iel.unicamp.br/~tycho/corpus/index.html, acessado em 09/10/2016.
KRIPPENDORFF, Klaus. (2004). Reliability in content analysis: some common misconceptions and
recommendations. Human Communication Research, 30(3), 411-433.
KBLER, Sandra, Wolfgang Maier, Ines Rehbein e Yannick Versley. (2008, May). How to Compare
Treebanks. In LREC.
LAVID, Julia. (2013). The Impact of Corpus Annotation on Linguistic Research: Theoretical and
Methodological Challenges. In: ARIAS, Rosario, Mirian L. Rodrguez, Antonio M. Ortiz &
Chantal P. Hernndez. Hopes and Fears: English and American Studies in Spain. Proceedings
of the 36th AEDEAN Conference. Dpto. de Filologa Inglesa, Francesa y Alemana, Universidade
de Mlaga.
MARCUS, Mitchell P., Mary Ann Marcinkiewicz e Beatrice Santorini. (1993). Building a large
annotated corpus of English: the penn treebank. Comput. Linguist. 19, 2 (June 1993), 313-330.
MCCLOSKY, David, Eugene Charniak e Mark Johnson. (2006). Effective Self-Training for Parsing. In
Proceedings of the Human Language Technology Conference of the NAACL, Main Conference,
June, New York City, USA, Association for Computational Linguistics, p. 152-159.
REHBEIN, Ines e van Genabith, Josef. (2007). Why is it so difficult to compare treebanks? TIGER
and TBa-D/Z revisited. In: TLT 2007 - The 6th International Workshop on Treebanks and
Linguistic Theories, 7-8 December, 2007, Bergen, Norway.
SEKINE, Satoshi e Michael John Collins. (2013). Evalb software. Disponvel na internet em
http://nlp.cs.nyu.edu/evalb/.
TAYLOR, Ann,Mitchell Marcus, e Beatrice Santorini. (2003). The Penn treebank: an overview. In:
Treebanks. Springer Netherlands. p. 5-22.
XIAO, R. Z. (2008). Well-known and influential corpora. In A. Ludeling, & M. Kyto (Eds.), Corpus
Linguistics: An International Handbook. (Vol. 1). (Handbooks of Linguistics and Communication
Science). Berlin: Mouton de Gruyter.
315