Вы находитесь на странице: 1из 17

Cadernos de

ESTUDOS LINGUSTICOS (58.2), Campinas, pp. 299-315 - mai./ago. 2016

Criando bancos de rvores: o sistema


de anotao e o processamento
automtico

Pablo Faria1
Charlotte Galves2

Resumo. Neste trabalho, assinalamos a estreita relao entre sistemas de anotao e anlise sinttica
automtica, apresentando um experimento para comparar anlises automticas baseadas nas verses
atual e modificada do sistema de etiquetas morfolgicas verbais utilizado no Corpus Tycho Brahe. A
modificao resultou em um ganho aproximado de dois pontos percentuais na medida F1 de acurcia,
conforme medida pelo aplicativo evalb. Este resultado indica que o sistema de anotao pode ser
pensado de modo a ser mais conciso e informativo ao analisador sinttico automtico (doravante,
analisador). Como concluso, so sugeridos dois princpios norteadores para especificao do sistema
de anotao e treinamento do analisador. Por fim, a discusso contextualizada por uma viso
geral e uma breve discusso do processo de construo de bancos de rvores (treebanks) e de sua
importncia na pesquisa lingustica.
Palavras-chave: lingustica de corpus, corpora anotados, processamento automtico

Abstract. In this paper, we highlight the tight relation between annotation systems and parsing
by presenting an experiment for evaluation of alternative parses based on current and modified
versions of the verbal tag system used in the Tycho Brahe Corpus. The modified version resulted
in an improvement of two percentage points in the F1 measure of parsing accuracy, as evaluated
by the evalb software. This result shows that the annotation system can be devised in order to be
more concise and informative to the parser. As a conclusion, we suggest two guidelines for the
specification of annotation systems and the training of the parser. Finally, the present discussion
is contextualized by an outline and a brief discussion of the process of treebank building and of its
importance for linguistic research.
Keywords: corpus linguistics, annotated corpora, automatic processing

1
Professor na Universidade Estadual de Campinas. e-mail: pablofaria@iel.unicamp.br. O presente
trabalho foi conduzido no mbito do projeto de pesquisa FAPESP 13/18090-6.
2
Professora na Universidade Estadual de Campinas. e-mail: galvesc@unicamp.br. Coordenadora
do projeto temtico FAPESP 12/06078-9, ao qual esto vinculados este estudo e o projeto de pesquisa
mencionado acima.
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
1. Introduo

crescente a utilizao de corpora lingusticos (textos, transcries de fala,


de bate-papos de internet etc.) para estudos sobre a linguagem. Particularmente,
no mbito dos estudos diacrnicos sobre sintaxe das lnguas, vem crescendo o
nmero de bancos de rvores (adaptado do termo em ingls, treebank3), que
so corpora de dados lingusticos transcritos, enriquecidos com anotao de
informaes sintticas e/ou semnticas, na forma de representaes arbreas em
que se indicam as relaes entre elementos no interior de sentenas ou fragmentos
de sentenas. Embora a expresso banco de rvores remeta fortemente, nos
dias atuais, iniciativa de Mitchell Marcus e colegas (Marcus et al, 1993) que
resultou na criao do primeiro banco de rvores em larga escala (i.e., na casa
dos milhes de palavras), o Penn Treebank (Taylor et al., 2003), esse termo tem
um escopo mais amplo.

Figura 1. Exemplos de rvores: de estrutura sintagmtica4 e de dependncia.

H dois tipos principais de bancos de rvores sintticos: os de estrutura


sintagmtica (phrase structure), como o Corpus Tycho Brahe (doravante, CTB)
(Galves & Faria, 2010), e os de dependncia (dependency structure), como o
Chinese Dependency Treebank 1.0 (Che et al, 2012), entre outros. Para alm destes,
h ainda bancos de rvores baseados em Gramtica Categorial Combinatria,
HPSG, Gramtica de Caso, LFG e outras que integram estrutura sintagmtica e
dependncia (ver Xiao, 2008, para um levantamento de vrios corpora).

3
O termo treebank - correspondente a banco de rvore, em analogia a banco de sangue - foi
cunhado nos anos 1980, na Universidade de Lancaster, por pesquisadores que incluam Geoffrey Neil Leech
e Geoffrey Sampson, este ltimo tendo sido o primeiro a construir um banco de rvores (Leech, 2009).
4
Exemplo criado com base no sistema de anotao do Corpus Tycho Brahe (Galves & Faria, 2010).
300
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
A Figura 1 exemplifica os dois tipos principais de bancos de rvores. Note-
se que h semelhanas entre as duas representaes, quanto s interdependncias
dos elementos. Porm, no so representaes completamente isomrficas, o que
se v, por exemplo, na forma como o advrbio hoje aparece nas estruturas: na
primeira, no indicado qual dos verbos ele modifica, visto que ele apenas um
n irmo dos ns relativos aos verbos auxiliar e principal.
Outra diferena importante a de que, enquanto as rvores de dependncia
so explcitas quanto a quais itens lexicais so os ncleos a partir dos quais
dependncias so determinadas, nas rvores de estrutura sintagmtica esta
informao interpretada com base nos rtulos dos ns sintticos e nas etiquetas
morfossintticas dos itens lexicais, interpretao que depende do conhecimento
prvio do sistema de anotao respectivo.
Em princpio, um banco de rvores pode aplicar qualquer formalismo
gramatical cuja estrutura atribuda s sentenas seja arbrea. Alm disso,
bancos de rvores de um mesmo tipo podem variar bastante entre si, seja quanto
a quais propriedades gramaticais so anotadas, seja em como as anotam. Por
exemplo, na teoria da Gramtica Gerativa, postulam-se elementos invisveis nas
sentenas, chamados de categorias vazias, o que leva certos bancos de rvores
a codificar tais informaes. No CTB, por exemplo, so anotadas ocorrncias
de sujeito nulo, relaes de longa distncia entre elementos interrogativos e
as posies em que so interpretados, entre outras propriedades. O grau de
compromisso com teorias e anlises lingusticas especficas tambm varia
bastante entre os corpora.
Desde que o desenvolvimento de bancos de rvores em larga escala se
intensificou, a partir dos anos 1990, seu impacto na pesquisa lingustica e tambm
na rea de lingustica computacional tem sido cada vez mais significativo,
como mostramos nas prximas sees. Neste artigo, abordada a relao entre
o sistema de anotao utilizado no CTB e o processamento automtico, em
particular, no que diz respeito anlise sinttica automtica. Nosso objetivo
central clarificar um pouco mais este aspecto da construo de bancos de
rvores e divisar algumas diretrizes que auxiliem na especificao ou na reviso
de sistemas de anotao, de modo a impactar positivamente o desempenho da
anlise sinttica automtica.
O artigo est organizado da seguinte forma: na seo 2, feita uma
introduo ao processo de anotao sinttica para criao de um banco de rvores.
Na seo 3, apontamos a importncia dos bancos de rvores para a pesquisa
em lingustica e, em particular, para a lingustica histrica. A seo 4 adentra
o campo da lingustica computacional, discutindo a relao entre anotao e
anlise sinttica automtica com base em experimentos com o analisador de
Dan Bikel (Bikel, 2004). Os experimentos so apresentados e seus resultados
discutidos luz de estudos similares na literatura. A seo 5 sintetiza e organiza
as concluses tiradas da discusso na seo anterior, de modo a sugerir diretrizes
para especificao de sistemas de anotao. Por fim, a seo 6 apresenta
concluses gerais e observaes finais.

301
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
2. A construo de bancos de rvores

A construo de bancos de rvores consiste em acrescentar informao aos


dados lingusticos brutos, isto , em que h apenas a transcrio das sentenas e
fragmentos. A anotao sinttica pode ser vista, portanto, como o enriquecimento
de um corpus (Lavid, 2013) que, do ponto de vista da rea de processamento
de linguagem natural (PLN), consiste na transformao de texto puro em texto
marcado (e, de certo modo, interpretado). A disponibilidade deste tipo de recurso
fundamental para vrias aplicaes na lingustica computacional, tais como a
extrao de informao, sumarizao de textos, traduo etc.
Esta construo, atualmente, semiautomtica e envolve, geralmente, programas
de computador que implementam algoritmos de aprendizagem (de mquina). Tais
aplicativos, que chamaremos simplificadamente de analisadores (como adaptao de
parsers, que se referem a analisadores sintticos automticos), so treinados sobre
uma quantidade razovel de dados pr-anotados para aprender o sistema de anotao
e aplic-lo a novos textos. Essa anotao automtica imperfeita, entretanto, o que
implica reviso humana. Nesta seo, apresentamos uma viso geral do processo de
anotao, segundo o que delineado por Lavid (2013):

1. Seleo de textos representativos. O primeiro passo para a construo de um banco


de rvores envolve a seleo dos textos representativos segundo alguma hiptese ou
interesse de pesquisa.

2. Especificao do sistema de anotao. Uma vez definidos os textos que constituiro


o corpus, passa-se definio da teoria lingustica que determinar a forma de
interpretao dos dados e orientar a especificao do sistema de anotao. Nesta
fase, comea-se tambm a produo do manual de anotao, em que se descreve
o sistema, suas motivaes e assunes, e que ser utilizado para treinamento de
anotadores/revisores humanos.

3. Teste do sistema de anotao. Antes de proceder a uma utilizao definitiva


do sistema de anotao, preciso determinar sua executabilidade e a clareza do
manual, o que feito anotando-se um fragmento do material selecionado no passo 1.
Preferencialmente, interessante que pelo menos duas pessoas faam essa anotao
paralelamente.

4. Avaliao do teste. Envolve comparar as decises dos anotadores, alm de decidir


pelas medidas apropriadas sobre concordncia na anotao e sobre como aplic-las
(ver, para este fim, Cohen, 1960; Krippendorff, 2004; Artstein e Poesio, 2008). preciso
ter em mente que o que se busca so anotaes confiveis, isto , que sejam estveis
e reproduzveis. A estabilidade est relacionada concordncia intra-anotadores, isto
, ao quanto um mesmo anotador consistente na anotao. J a reprodutibilidade
est relacionada concordncia entre anotadores, isto , ao quanto os anotadores
concordam na anotao dos mesmos fenmenos. Estabilidade e reprodutibilidade so
fundamentais para que o treinamento de algoritmos de aprendizagem de mquina seja
eficiente. preciso estabelecer o nvel (mnimo) satisfatrio de concordncia entre
anotadores. Enquanto o teste de anotao no atingir o mnimo satisfatrio, volta-se
ao passo 2 para redefinir o sistema de anotao e o manual.
302
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
5. Anotao manual de grande parte do material. Uma vez determinado que o
sistema de anotao satisfatoriamente executvel, passa-se anotao de grande
parte do material, processo que pode levar meses ou anos.

6. Treinamento de um analisador. Quando for acumulada uma certa quantidade de


material anotado manualmente (p.e., 100 mil palavras), pode-se comear a avaliar se
um analisador pode ser eficientemente treinado para que a anotao semiautomtica
possa comear. Para isso, este material acumulado deve ser dividido em duas partes,
uma para treinamento (p.e., 90% do material) e outra para teste, de modo que o
analisador seja treinado com base na poro de treinamento e testado sobre a poro
indita de teste. Uma vez que para a poro teste h uma anotao manual correta
(em princpio) disponvel, o desempenho do analisador pode ser avaliado, quanto
acurcia em relao anotao alvo (por exemplo, usando a medida PARSEVAL, cf.
Black et al, 1991).

7. Anotao semiautomtica. Se o desempenho do analisador se mostrar satisfatrio,


passa-se a utiliz-lo em novo material, em conjunto com a correo/reviso por
anotadores humanos. Caso no seja satisfatrio, podem ser necessrios ajustes no
sistema de anotao ou pode ser necessrio mais material para treinamento. No
primeiro caso, pode ser preciso voltar ao passo 2, a depender do quanto o sistema
precisar ser alterado (em alguns casos, como se v na seo 4, certas modificaes
podem ser aplicadas automaticamente sobre o corpus, no requerendo reviso
manual). No segundo caso, volta-se ao passo 5, para produo manual de mais
material anotado.

medida que se avana na quantidade de material anotado


semiautomaticamente, torna-se cada vez menos vivel fazer modificaes no
sistema de anotao que demandem reviso manual do mesmo. Da a importncia
de uma atitude criteriosa e cuidadosa nos passos 1 a 4, para que a necessidade de
alteraes eventualmente detectadas em etapas seguintes seja mnima.

3. A importncia dos bancos de rvores na pesquisa em


lingustica

Corpora anotados so importantes em todos os ramos da lingustica, uma


vez que constituem bases de dados perenes sobre as quais se podem efetuar
anlises qualitativas e quantitativas de vrios tipos, que complementam outras
abordagens como o recurso intuio dos falantes ou ainda estudos baseados em
experimentos, prtica corrente em aquisio da linguagem e cada vez mais em
anlises sintticas. Em lingustica histrica, uma vez que no h falantes nativos
disponveis, os corpora so indispensveis. Eles podem at abranger a totalidade
dos dados disponveis, quando se consideram os perodos mais antigos das lnguas.
A anotao morfossinttica permite explorar de maneira consistente e reprodutvel
quantidades de dados inacessveis ao trabalho manual, permitindo um acesso cada
vez mais completo e confivel aos dados do passado.

303
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
No s os fenmenos frequentes podem assim ser apreendidos de modo mais
rigorosos, mas os fenmenos raros, que so, em certos casos, essenciais para a
verificao de hipteses sofisticadas sobre a natureza das gramticas subjacentes
aos textos, podem ser detectados e trazidos tona por buscas automticas
complexas que escaneiam em segundos milhares de frases. Daremos aqui um
rpido exemplo desse tipo. As lnguas romnicas e germnicas se diferenciam pela
posio do advrbio nas oraes em que o sujeito segue o verbo. Nas primeiras, o
advrbio segue o sujeito posposto, nas segundas, o precede (Belletti 2004). Isso se
deve posio diferente ocupada pelo verbo nos dois tipos de lnguas.
Nas lnguas germnicas, o verbo precede o sujeito porque foi movido para
uma posio mais alta, nas lnguas romnicas, o verbo no se moveu, e o sujeito
posposto ocupa uma posio baixa, direita do advrbio. As oraes em que
o sujeito posposto e h um advrbio de modo so, portanto, essenciais para
descobrir se uma lngua tem uma sintaxe de tipo romnico ou de tipo germnico,
questo crucial para as lnguas romnicas antigas, em particular o portugus
clssico. Mas tais oraes (exemplificadas por (1) a seguir) so relativamente
raras, e difceis de achar manualmente em centenas de milhares de palavras.

(1) Em muytas occasies advirtio Deos Madre Elena interiormente o que convinha sua
honra, (C_002,196.810)

Essa dificuldade no existe para o programa Corpus Search, que em menos de


um minuto capaz de achar todas as frases correspondendo descrio formulada
na seguinte busca:

query: (tns_vb2 HasSister ADVP*) AND (ADVP* iDomsOnly ADV)


AND (ADV iDominates *mente) AND (tns_vb2 HasSister NP-SBJ*)
AND (tns_vb2 precedes NP-SBJ*) AND (NP-SBJ* precedes ADVP*)

Com base nas relaes HasSister ( irmo), iDominates (domina


imediatamente) e precedes (precede)5, aplicando-se s categorias sintticas
ADVP (sintagma adverbial), NP-SBJ (sintagma nominal sujeito) e tns_vb2, (um
conjunto definido a partir de determinadas categorias verbais), Corpus Search
extrai (1) do corpus, bem como todas as frases anlogas, produzindo a seguinte
sada, em que cada n tem um ndice numrico6:

5
Cf. http://corpussearch.sourceforge.net/CS-manual/Revise.html
6
Note-se que a numerao dos ns automaticamente atribuda pela ferramente de busca
totalmente arbitrria, podendo exibir lacunas na sequncia, sem que isso tenha relevncia para os
resultados.
304
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016

Um outro exemplo do papel que a construo de bancos de rvores


desempenha em lingustica se encontra na sua aplicao a lnguas para as quais
no existe uma longa tradio gramatical como o caso das lnguas indgenas
sem cultura escrita. Nesse caso, a construo do sistema de anotao exige que
se definam categorias de anlise, a serem testadas na aplicao das ferramentas
automticas. Nesse caso, os etiquetadores e analisadores exercem uma verdadeira
funo heurstica no sentido de que permitem testar hipteses sobre fenmenos
lingusticos (Lavid, 2013). Experincias desse tipo esto sendo realizadas no
mbito da plataforma Tycho Brahe7, onde esto sendo construdos corpora
anotados de lnguas indgenas brasileiras e argentinas da famlia guaikuru, com os
mesmos recursos computacionais usados para o CTB.

7
Cf. http://www.tycho.iel.unicamp.br/tbf/login
305
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
4. Processamento automtico de textos

Agora que temos uma viso geral do que so bancos de rvores, de como
so construdos e de sua importncia para a pesquisa em lingustica, discutimos
nesta seo alguns aspectos de seu processamento automtico. Destacamos a
seguir uma parte fundamental da construo de bancos de rvores, a saber, a
tarefa de anlise sinttica automtica. Inmeros estudos e mtodos de anlise
automtica tm sido desenvolvidos ao longo dos ltimos vinte anos. O objetivo
central aqui o de demonstrar a relao intrnseca entre escolhas envolvendo
sistemas de anotao sinttica e a qualidade dos resultados obtidos nas tarefas
de anlise automtica, no intuito de identificar diretrizes para a especificao
de sistemas de anotao que contribuam para o alcance de melhores prticas na
construo de bancos de rvores.

4.1. A anotao e o desempenho do analisador

A anlise automtica de uma sentena consiste em atribuir uma ou mais


estruturas sintticas a ela, de modo que as relaes entre as palavras sejam
explicitadas seja pela delimitao dos constituintes sintticos que elas formam,
seja pela identificao da funo sinttica dos elementos. Os analisadores
modernos so, de modo geral, total ou parcialmente probabilsticos, isto ,
produzem anlises possveis (quando mais que uma) de uma sentena e as ordenam
conforme a probabilidade de cada uma. A anlise com maior probabilidade
geralmente tida como a melhor (i.e., provavelmente mais correta) anlise para
uma dada sentena.
A aprendizagem de um analisador consiste, portanto, em receber
exemplos de anlise e construir um modelo probabilstico que lhe permita aplicar
anlises sobre novas sentenas, inclusive aquelas estritamente inditas, isto ,
cuja estrutura como um todo nunca tenha sido vista no corpus de treinamento.
Isso possvel, porque o modelo probabilstico construdo como um vasto
sistema de regras que se aplicam de modo local, isto , isolando estruturas
sintticas que podem ocorrer em diferentes partes da sentena, em funo do
carter combinatrio da sintaxe.
E aqui fica mais evidente a importncia da consistncia na anotao: para que
a aprendizagem de mquina seja capaz de produzir bons modelos, necessrio
que um dado fenmeno, por exemplo, uma orao relativa, tenha sempre o mesmo
tipo de anlise sinttica. Caso contrrio, o modelo gerado no treinamento iria
conter as vrias anlises inconsistentes para oraes relativas, o que levaria o
analisador a produzir tambm anlises inconsistentes. Por outro lado, sabemos
que as lnguas produzem expresses ambguas, isto , que podem ter mais que
uma interpretao. A sentena na Figura 1, inclusive, um exemplo de expresso
ambgua: o advrbio hoje pode tanto ser modificador do auxiliar est, quanto
do particpio agendada. No primeiro caso, significaria que o agendamento
vlido hoje, mas no se sabe em que dia a audio ocorrer de fato. No segundo
caso, certamente a leitura preferencial, a audio que ocorrer hoje.
306
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
Pode-se dizer que a consistncia na aplicao do sistema de anotao uma
consistncia externa, no que diz respeito s propriedades do sistema de anotao
em si. Como discutido na seo 2, ela fundamental para a construo de um
corpus extenso, no apenas por garantir a executabilidade manual da anotao,
mas tambm por permitir uma aprendizagem de mquina eficiente. Mas h uma
consistncia interna ao sistema de anotao, que diz respeito a como o sistema
codifica os diversos tipos de informao (categoria e funo sinttica, classe
morfolgica, informaes flexionais etc.). No restante dessa subseo, um estudo
de caso visa a demonstrar a importncia de pensar a consistncia interna da
anotao, com vistas melhorar o desempenho da anlise automtica.

4.2. A reviso da anotao de verbos no CTB

A anotao sinttica pode ser vista como a imposio de uma camada


sinttica sobre a camada morfolgica que, no caso do CTB, consiste de tokens
(palavras e pontuao) e suas respectivas etiquetas morfolgicas.

Figura 2. Sentena etiquetada.

A Figura 2 exibe a verso simplesmente etiquetada da sentena da Figura


1. Em termos cronolgicos da construo de bancos de rvores, a definio do
sistema de etiquetas morfolgicas em geral precede (s vezes, em muitos anos) a
definio do sistema de anotao sinttica (que passa a incluir o primeiro). Isso
pode gerar certos desalinhamentos entre os dois sistemas, o que pode ter um
impacto negativo significativo para a anlise automtica.

307
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...

Figura 3. Etiquetas morfolgicas para verbos em geral, no CTB.

Tomemos, como exemplo de caso, a anotao de sintagmas verbais no


CTB. Vamos considerar, inicialmente, o atual sistema de etiquetas morfolgicas,
exibido na Figura 3. No CTB, verbos em geral recebem a etiqueta VB acrescida
das subetiquetas pertinentes, exceto no caso de infinitivos que no recebem
nenhuma. Alm desta, h quatro classes especiais de verbos, para os verbos
ser, estar, haver e ter, cujas etiquetas base so, respectivamente, SR, ET, HV e
TR, e cujas subetiquetas seguem basicamente o mesmo sistema representado na
figura. Neste sistema, todas as etiquetas verbais compartilham de uma mesma
etiqueta base, VB (SR, ET, HV ou TR). Quando a estrutura sinttica entra em
cena, so as subetiquetas (inclusive a subetiqueta vazia, no caso de infinitivos)
que determinam as projees sintticas possveis (previstas pelo sistema de
anotao).

308
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016

Figura 4. Projees sintticas possveis para cada etiqueta verbal do CTB.

A Figura 4 exemplifica os vrios tipos de projeo sinttica possveis, a


depender do tipo de subetiqueta. Note-se que as treze etiquetas verbais previstas
formam seis subgrupos, quando se consideram os tipos de projeo sinttica
possveis e adequados a cada uma. As seis classes so: oraes infinitivas (IP-
INF), oraes imperativas (IP-IMP), oraes matrizes e subordinadas (IP-MAT
e IP-SUB), oraes gerundivas (IP-GER), oraes participiais adverbiais (IP-
PPL) e, por fim, a classe que varia conforme o contexto sinttico em que ocorre
a etiqueta VB-AN, configurando ora oraes relativas reduzidas (RRC), ora
sintagmas adjetivais, ora sem projeo alguma. Isso significa que, para modelar
satisfatoriamente todas as possveis combinaes entre constituintes sintticos e
etiquetas morfolgicas da Figura 4, o algoritmo de aprendizagem ter que atribuir
(grosso modo) uma probabilidade para cada combinao.
Por exemplo, dada a configurao acima, o modelo probabilstico conter
duas regras para produzir um IP-INF e sete regras para produzir um IP-MAT ou IP-
SUB. Tais regras tero probabilidades mais baixas fazendo com que a probabilidade
geral das rvores tambm seja mais baixa. Isso aumenta as chances de que a melhor
anlise seja preterida por uma anlise incorreta, em funo das diferenas muito
pequenas entre as probabilidades das anlises concorrentes. Se, alternativamente, as
sete regras para IP-MAT/SUB pudessem ser reduzidas a uma s regra, as chances
da melhor anlise prevalecer seriam maiores, por hiptese.
309
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
Para averiguar esta hiptese, foi concebido um sistema de etiquetas verbais
alternativo. Neste, as subetiquetas -I, -G, -PP e -AN foram fundidas etiqueta base.
VB passa a fazer referncia aos infinitivos, enquanto VBT aos verbos flexionados.
A mesma reviso foi aplicada tambm para os verbos leves (etiquetas SR, ET,
HV e TR), mencionados anteriormente. Neste sistema revisto (exibido na Figura
5, abaixo), a relao entre os constituintes sintticos e as etiquetas base agora
de um para um. Para que nenhuma informao seja perdida, as subetiquetas so
mantidas no sistema, porm no so fornecidas ao analisador, seja no treinamento,
seja no teste de anlise.

Figura 5. O sistema revisto de etiquetas verbais no CTB.

4.3. O teste do sistema revisado

O experimento foi conduzido com o analisador de Bikel (2004). Foi utilizada


a verso de 2010 do CTB (Galves & Faria, 2010), que consiste em 16 textos de
diversos autores e pocas, num total de 26.732 rvores sintticas, sendo 556.899
tokens. Deste total, 1000 rvores (22.261 tokens) foram aleatoriamente extradas
para formar a seo de teste, de modo a evitar um enviesamento histrico (data de
produo), de gnero ou de autoria dos dados. As 25.732 rvores restantes (534.638
tokens) foram utilizadas para treinamento. Das 1000 sentenas da seo de teste,
862 tem comprimento menor ou igual a 40 tokens. As sees de treinamento e
teste inicialmente produzidas so as que configuram a condio atual descrita
abaixo. A condio revisada gerada a partir dessa.

310
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
Tabela 1. Condies experimentais.
Condio Etiquetas Descrio
1 Atual 305 Verso com sistema de anotao atual
2 Revisada 275 Sistema revisado e sem subetiquetas verbais

Para os experimentos, a partir de cada seo de teste, extrada uma verso


etiquetada correspondente, excluindo a estrutura sinttica. A verso etiquetada ,
ento, submetida ao analisador e a anlise produzida comparada com a seo de
teste original (chamada, neste caso, de padro-ouro de anotao). Dessa forma,
possvel estabelecer a acurcia do analisador usando a medida PARSEVAL
(Abney et al., 1991). Duas condies bsicas foram comparadas:

Condio atual. O corpus de treinamento nessa condio mantm todas as


subetiquetas, sintticas e morfolgicas. Para garantir que o analisador considere as
subetiquetas, todas as etiquetas do sistema foram modificadas, trocando-se o -
(hfen) que separa a base do restante pelo smbolo _ (sublinhado), como em IP_
INF, por exemplo. Com isso, o analisador trata toda a etiqueta como um smbolo
atmico, isto , indivisvel. O nmero total de rtulos apresentados ao analisador no
treinamento foi de 305 (somando etiquetas sintticas e morfolgicas).

Condio revisada. Sistema de etiquetas verbais modificado, conforme discutido


na seo anterior, e com subetiquetas verbais removidas, visto que por hiptese se
tornam irrelevantes para o analisador aps a mudana nas etiquetas base. Com esta
mudana, o nmero total de rtulos apresentados ao analisador no treinamento foi de
275, ou seja, 30 rtulos a menos do que na condio atual.

Tabela 2. Desempenho mdio do analisador para cada condio experimental,


conforme calculado pelo aplicativo evalb.
F1 F1 Parnt.
Sentenas sem
Condio F1
anlise8
(<=40) (pond.) cruzados
2 Revisada 76,7856 79,3106 82,25011 1,23 13 (69-197)
1 Atual 74,5431 77,3538 80,23044 1,43 12 (69-197)

Os resultados do analisador so exibidos na Tabela 2 (ordem decrescente de


desempenho). Para clculo da preciso e da cobertura, foi utilizado o aplicativo
evalb9 (Sekine & Collins, 2013). Foi calculada a mdia harmnica F1 (F-score
= 2*P*R / (P+R), sendo P a preciso e R a cobertura) entre preciso e cobertura
para cada sentena e depois calculada a mdia geral da F1 para cada condio.

8
Nos experimentos, um tempo limite foi especificado para o processamento de cada sentena,
de modo que o analisador desistia da sentena, se no conseguisse produzir uma anlise em at 10
minutos. Tais anlises demoradas tendem a ser demasiadamente precrias, razo pela qual no vale a
pena alongar o processamento como um todo em funo dessas poucas sentenas.
9
Software amplamente utilizado para avaliao de anlises sintticas alternativas em que uma
rvore candidata comparara a uma rvore alvo quanto ao percentual de constituintes em comum.
311
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
O mesmo clculo foi feito apenas para as sentenas com comprimento menor ou
igual a 40 tokens, que compem 86,2% do corpus de teste. Por fim, visto que
foi detectada uma correlao moderada significativa10 entre o comprimento das
sentenas e a F1, foi calculado o desempenho ponderado pelo comprimento das
sentenas. possvel que esta medida seja mais realista quanto ao desempenho do
analisador. A duas ltimas colunas informam, respectivamente, o nmero mdio
de parnteses cruzados e o nmero de sentenas que ficaram sem anlise (ver nota)
juntamente com os comprimentos mnimo e mximo de tais sentenas.

4.4. Discusso parcial dos resultados

Grfico 1. Distribuio nos corpora de treinamento e teste (comprimento das sentenas).

Como questo preliminar, seria a seo de teste suficientemente representativa


do corpus para que os resultados obtidos sejam indicativos confiveis do
desempenho para novos textos? Supondo que o material indito seja similar (em
estilo e gnero) ao material que compe o corpus de treinamento, o Grfico 1
indica que sim. Neste, vemos uma distribuio similar para as duas sees, em
termos do comprimento das sentenas.
Dito isto, os resultados apresentados na Tabela 2 confirmam a hiptese
inicial de que a alterao no subsistema de etiquetas verbais tornaria o analisador
mais eficiente. Em termos numricos, a condio 2 obteve uma melhora de
aproximadamente dois pontos percentuais quando comparada condio 1,
um ganho que justifica tornar esta modificao definitiva, uma vez que pode
ser implementada automaticamente e no implica em perda de informao na
anotao. A F1 (<=40) de 79,31 obtida na condio 2 indica que, em termos
comparativos, o desempenho da anlise para o CTB a aproxima de resultados para
outras lnguas, como mostra a Tabela 3.

10
As correlaes para as condies experimentais variaram de -0.475357 a -0.590796 (p < 2.2e-16).
312
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
Tabela 3. Alguns resultados de anlise automtica encontrados
na literatura e o do experimento realizado.
Banco de rvores Lngua F1 Treinamento
WSJ + NANC Ingls 92,1 40000 (WSJ) + 1750
(McClosky et al., 2006) (NANC)
Tba-D/Z Alemo 88,5 (<=40) 25005 sentenas

(Klbler et al., 2008)


CTB Portugus 79,31 (<=40) 25732 sentenas
TIGER Alemo 77,3 (<=40) 25005 sentenas

(Klbler et al., 2008)

Os resultados ainda esto relativamente distantes dos melhores obtidos


para o ingls sobre o Penn Treebank, como vemos na Tabela 3. No entanto,
esperado que os resultados para o ingls sejam melhores, dado que os
analisadores so em sua maioria desenvolvidos com base no corpus Wall Street
Journal (WSJ) e o sistema de anotao deste corpus mais simples. Por outro
lado, possvel que haja espao para maiores avanos na anlise do CTB,
em particular, atravs de outras revises do sistema de anotao, melhoria da
qualidade e acrscimo de material de treinamento. Faz-se necessria, ainda,
a avaliao de outros analisadores disponveis, como o de McClosky et al.
(2006), por exemplo.

5 . A especificao do sistema de anotao e o treinamento


do analisador

Os resultados apresentados na seo anterior nos permitem elencar dois


princpios norteadores que ensejam boas prticas na especificao do sistema
de anotao e no treinamento de analisadores, aspectos importantes do fluxo de
construo de bancos de rvores de estrutura sintagmtica em que rtulos sintticos
e etiquetas fazem uso da distino base/subetiqueta, tais como o CTB. O primeiro
princpio pode ser descrito como em (2):

(2) A base das etiquetas deve codificar to somente e exaustivamente as distines relevantes
para a anlise sinttica.

Ser relevante para a anlise sinttica significa implicar ou na projeo de uma


categoria sinttica ou na determinao de uma subetiqueta sinttica ou ambas as
coisas. O intuito deste princpio o de incentivar a especificao de um sistema
conciso de etiquetas que seja, ao mesmo tempo, sintaticamente consistente e
informativo. O mesmo princpio deve guiar tambm a definio dos rtulos
sintticos e das relaes entre categorias sintticas. Uma vez definido o sistema

313
FARIA & GALVES Criando bancos de rvores: o sistema de anotao e o processamento ...
de anotao, deve-se preparar um corpus de treinamento sem as subetiquetas
morfolgicas, visto que um sistema mais conciso tender a produzir melhores
resultados. Isso possvel se houver uma verso prvia etiquetada do texto a ser
analisado. Isso nos leva ao princpio em (3):

(3) O corpus de treinamento do analisador deve excluir toda informao suprflua para a
anlise sinttica, desde que esta seja automaticamente recupervel.

Vale ressaltar que o princpio acima, bem como quaisquer outras decises
envolvendo o analisador dependem, fundamentalmente, de um conhecimento
adequado de seu funcionamento e de sua configurao. Um analisador mal
configurado ou operando em modo genrico (i.e., sem predisposio para
particularidades da lngua) certamente ter um desempenho bastante limitado,
quando comparado ao estado da arte.

6. Consideraes finais

O estudo apresentado neste artigo tinha por objetivo verificar a hiptese de


que a reviso do subsistema verbal de etiquetas morfolgicas do CTB melhoraria a
desempenho do analisador. Essa melhoria seria consequncia de um sistema mais
informativo e menos redundante de etiquetas. Experimentos com o analisador
foram conduzidos e avaliados para comparar diferentes condies de treinamento,
em particular, comparar o sistema atual ao sistema revisado. Os resultados
mostram um ganho aproximado de dois pontos percentuais, passando de 77,35%
para 79,31% (para sentenas com at 40 tokens), um resultado que justifica adotar
o sistema revisado.
O presente estudo parte de uma iniciativa mais ampla que visa aumentar
a qualidade de bancos de rvores e melhorar a produtividade na sua construo.
Portanto, esto em andamento estudos sobre o impacto de outras intervenes
no sistema de anotao, estudos comparativos para avaliar o desempenho de
diferentes analisadores, e estudos para desenvolvimento de mtodos de deteco
de inconsistncias e erros de anotao em bancos de rvores. Espera-se que,
em conjunto, tais estudos resultem em sugestes concretas de boas prticas
na construo de bancos de rvores, bem como na disponibilizao de mais
ferramentas computacionais para sua construo, manuteno e reviso.

Referncias bibliogrficas
ABNEY, S., S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek,
J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, and T. Strzalkowski. (1991).
Procedure for quantitatively comparing the syntactic coverage of english grammars. In E.
Black, editor, Proceedings of the Workshop on Speech and Natural Language, HLT 91, pages
306311, Stroudsburg, PA, USA. Association for Computational Linguistics.

314
Cadernos de Estudos LingUsticos (58.2) mai./ago. 2016
ARTSTEIN, Ron e Massimo Poesio. (2008). Inter-coder agreement for Computational Linguistics
(survey article). Computational Linguistics, 34/4, 555-596.

BIKEL, Dan. (2004). Intricacies of Collins parsing model. Computational Linguistics, 30(4).

BLACK, E., S. Abney, S. Flickenger, C. Gdaniec, C. Grishman, P. Harrison, D. Hindle, R. Ingria,


F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, T. Strzalkowski.
(1991). Procedure for quantitatively comparing the syntactic coverage of English grammars,
Proceedings of the workshop on Speech and Natural Language, p.306-311, February 19-22,
Pacific Grove, California.

CHE, Wanxiang, Zhenghua Li, and Ting Liu. (2012. Chinese Dependency Treebank 1.0 LDC2012T05.
Web Download. Philadelphia: Linguistic Data Consortium.

COHEN, Jacob. (1960). A Coefficient of Agreement for Nominal Scales. Educational and Psychological
Measument 20: 37-46.

GALVES, Charlotte, e Pablo Faria. (2010). Corpus Histrico do Portugus Tycho Brahe. URL:
http://www.tycho.iel.unicamp.br/~tycho/corpus/index.html, acessado em 09/10/2016.

KRIPPENDORFF, Klaus. (2004). Reliability in content analysis: some common misconceptions and
recommendations. Human Communication Research, 30(3), 411-433.

KBLER, Sandra, Wolfgang Maier, Ines Rehbein e Yannick Versley. (2008, May). How to Compare
Treebanks. In LREC.

LAVID, Julia. (2013). The Impact of Corpus Annotation on Linguistic Research: Theoretical and
Methodological Challenges. In: ARIAS, Rosario, Mirian L. Rodrguez, Antonio M. Ortiz &
Chantal P. Hernndez. Hopes and Fears: English and American Studies in Spain. Proceedings
of the 36th AEDEAN Conference. Dpto. de Filologa Inglesa, Francesa y Alemana, Universidade
de Mlaga.

LEECH, Geoffrey N. (2009). An Academic Autobiography. URL: http://www.lancaster.ac.uk/fass/


doc_library/linguistics/leechg/Autobiog.pdf, acessado em 08/06/2016.

MARCUS, Mitchell P., Mary Ann Marcinkiewicz e Beatrice Santorini. (1993). Building a large
annotated corpus of English: the penn treebank. Comput. Linguist. 19, 2 (June 1993), 313-330.

MCCLOSKY, David, Eugene Charniak e Mark Johnson. (2006). Effective Self-Training for Parsing. In
Proceedings of the Human Language Technology Conference of the NAACL, Main Conference,
June, New York City, USA, Association for Computational Linguistics, p. 152-159.

REHBEIN, Ines e van Genabith, Josef. (2007). Why is it so difficult to compare treebanks? TIGER
and TBa-D/Z revisited. In: TLT 2007 - The 6th International Workshop on Treebanks and
Linguistic Theories, 7-8 December, 2007, Bergen, Norway.

SEKINE, Satoshi e Michael John Collins. (2013). Evalb software. Disponvel na internet em
http://nlp.cs.nyu.edu/evalb/.

TAYLOR, Ann,Mitchell Marcus, e Beatrice Santorini. (2003). The Penn treebank: an overview. In:
Treebanks. Springer Netherlands. p. 5-22.

XIAO, R. Z. (2008). Well-known and influential corpora. In A. Ludeling, & M. Kyto (Eds.), Corpus
Linguistics: An International Handbook. (Vol. 1). (Handbooks of Linguistics and Communication
Science). Berlin: Mouton de Gruyter.

315

Вам также может понравиться