Вы находитесь на странице: 1из 11

Todas as Palavras da Sentena como Mtrica para um Sumarizador Automtico

Modalidade Artigo Completo


Marcus V. C. Guelpeli1, Flavia Cristina Bernardini2,Ana Cristina Bicharra Garcia12 Departamento de Cincia da Computao1 Laboratrio de Documentao Ativa e Design Inteligente2 Universidade Federal Fluminense - UFF Rua Passo da Ptria 156 - Bloco E - 3 andar So Domingos - Niteri - RJ CEP: 24210-240 mguelpeli@ic.uff.br, flavia@addlabs.uff.br , bicharra@ic.uff.br Resumo. Este trabalho tem como meta apresentar um sumarizador automtico que usa como mtrica a quantidade de palavras dentro de uma sentena para definir o perfil pragmtico do autor do texto.O trabalho usa metodologias tradicionais da rea de sumarizao automtica e as compara com os resultados deste trabalho. Com o uso da palavra como mtrica cria-se uma classificao no texto original em relao as suas medidas temporais e composio textual mediante a sua formalidade, criando assim parmetros para determinar o nvel de compresso para gerao do sumrio. Palavras-chave: Sumarizador Compresso automtica. Automtico, Perfis Pragmticos, Palavras,

1. INTRODUO
Um sumrio um resumo que tem o objetivo de captar a idia principal de determinado autor e representar esta em poucas linhas. (Hutchins,1987) classifica os sumrios em indicativos, informativos e sumrios de crticas. Os sumrios indicativos podem servir como indexadores, onde se descobre qual a idia do autor e havendo interesse sobre o tema, busca-se a leitura do texto original com maior riqueza de detalhes. Os sumrios informativos so autocontidos, ou seja, detm informaes suficientes, no havendo a necessidade de remeter-se ao texto original. Os sumrios de crticas avaliam e comparam o texto original com trabalhos relacionados a mesma temtica (HUTCHINS,1987). Os processos automticos de sumarizao podem obter sumrios (abordagem profunda) e extratos (abordagem superficial). Os sumrios alteram o contedo e/ou as estruturas das frases originais do autor, juntandose e reescrevendo-as com a finalidade de generalizar ou especificar as informaes. J os extratos seguem transposies das frases dos textos originais, e por algum tipo de mtodo, escolhem as frases com maior relevncia no texto e as colocam no extrato. Segundo (Pardo et al, 2001) os trabalhos recentes esto adotando metodologias hbridas, ou seja, o uso da abordagem superficial e profunda, variando os mtodos de cada uma. Os trabalhos de sumarizao automtica enfatizam nos seus algoritmos a excluso das stopwords para que possam realizar a fase da reduo, como por exemplo, o algoritmo TextTiling usado por (Hearst,1993), (Hearst ,1997), (Mital et al,1999) e (Larroca et al,2000). Neste trabalho todas as palavras sero mantidas como forma de preservar a idia do autor. A hiptese deste trabalho esta fundamentada na palavra como mtrica gramatical, onde agrega todas as formas e variaes de palavras e suas ocorrncias nas sentenas para realizar a sumarizao. O trabalho ressalta a importncia da palavra para mensurar o conhecimento gramatical do interlocultor, podendo assim classificar o texto e produzir o sumrio mais prximo do perfil gramatical de cada usurio. Este trabalho est organizado como segue. A Seo 2 a aborda adaptao do sumarizador ao perfil do usurio baseado na palavra escrita, usando as regras de Hovy. Seo 3 apresenta a metodologia, a simulao e o corpus utilizado. Na Seo 4 discute os resultados obtidos com o Sumarizador Automtico. Finalmente, a Seo 5 apresenta as concluses, vantagens e desvantagens do mtodo proposto e sugere trabalhos futuros.

2. ADAPTAO DO SUMARIZADOR AO PERFIL DO USURIO


Um modelo do usurio uma representao explcita de propriedades de um interlocultor em particular, que permite que um sistema adapte diversos aspectos de seu desempenho e de suas funcionalidades s necessidades individuais deste usurio. A necessidade de adequar o sumrio ao perfil do interlocultor j estudada desde o incio da rea de Sumarizao Automtica (SA). (Luhn,1958) prope no seu trabalho, os mtodos de identificao de

segmentos relevantes calculando a significncia de cada sentena em um texto-fonte por seu peso e, ento, selecionam aquelas com maior peso (acima de um limite mnimo) para compor o extrato, incorporando os parmetros clssicos para sua identificao e seleo, este tipo de metodologia denominada hoje como abordagem estatstica ou superficial na sumarizao. (Luhn,1958) aborda tambm a importncia de atribuir valores maiores as frases que tenham palavras e que pertenam ao mbito de interesse do usurio. (Hovy,1988) prope, na abordagem profunda o uso de perfis pragmticos, ou seja, os tamanhos dos sumrios sero influenciados diretamente pelos objetivos do usurio. (Hovy,1988) estabelece algumas mtricas denominadas pelo autor como caractersticas de estilo. Ele estabelece uma relao temporal na preparao do texto original e classifica como escasso, pouco, suficiente ou ilimitado. O autor tambm aborda o tipo de escrita textual, onde se baseia no uso de algumas regras para classificar textos quanto ao grau de formalidade, classificando os como coloquial, normal ou formal. Na Tabela 1, os textos com caractersticas formais tendem a ter frases mais longas, ou seja, com o uso de um nmero maior de palavras, enquanto textos mais coloquiais tendem a ter um nmero menor de palavras (HOVY, 1988).
Tabela 1. Representa a interao das regras de estilo e implicaes no contedo do sumrio segundo (HOVY, 1988).
Tempo Formalid ade Coloquial

Escasso

Pouco

Suficiente

Ilimitado

Sumarizao Sumarizao alta apenas mdia tpico principal

Sumarizao mdia tpico principal, detalhes desconhecidos Sumarizao mdia tpico principal, detalhes importantes Sumarizao baixa tpico principal, detalhes importantes

Sumarizao baixa tpico principal, detalhes relevantes Sumarizao baixa tpico principal, detalhes relevantes

Normal

Sumarizao Sumarizao mdia tpico mdia tpico principal, principal poucos detalhes

Formal

Sumarizao mdia tpico principal.

Sumarizao mdia tpico principal

Sumarizao baixa tpico principal e correlatos, detalhes relevantes

Em trabalhos mais recentes (Hovy, 2005) usa a questo da compresso em resumos para sentenas que compartilham de um certo grau sobreposio de informaes. Neste trabalho a idia da compresso automtica. Ela seria usada para garantir que o tamanho do sumrio seria coerente com o grau de

formalidade do texto, tendo, como conseqncia direta a determinao automtica do tamanho de compresso do sumrio.

3. METODOLOGIA
O sumarizador proposto usa em sua forma de composio de sumrios a extrao e a transposio das sentenas, respeitando a sua posio no texto original, que caracterstica da abordagem superficial, mas adota tambm a abordagem profunda quando usa as regras de (Hovy,1988) para classificar o texto original, baseando-se no perfil pragmtico do usurio de acordo com a Figura 1. O sumarizador usa o texto-fonte obtido do Corpus Temrio, onde utilizada a taxonomia quanto sua formalidade e temporalidade (fase de anlise) baseada nas regras de estilo de (Hovy,1988). Com isso aplica-se o algoritmo Perfil que determina o grau de compresso automtico baseado no grau de formalidade e temporalidade do texto que ser usado para obter o sumrio, refletindo assim o perfil pragmtico do usurio (fase de reduo), salientando no existncia de qualquer tipo de interferncia humana. O sumrio realiza a extrao e transposio das sentenas, respeitando a sua posio no texto original compondo o sumrio com as frases com maior freqncia de palavras determinada pelo algoritmo perfil (fase sntese).

Corpus Temrio

Quantidade de palavras em cada sentena determina a classificao do Texto

Obteno do percentual de compresso do Sumrio baseado no Perfil Pragmtico do texto-fonte

Sumri o

Figura 1. Estrutura do Sumarizador Automtico usando algoritmo Perfil.

Outro fato destacar do trabalho manuteno das stopwords usadas na fase de anlise. A retirada das stopwords do texto serve para diminuir o volume de processamento. Segundo estudos de (Riloff, 2005) estas palavras so relevantes, porm no existem estudos comparativos que comprove tal eficincia ou no. Neste trabalho as stopwors so mantidas seguindo a proposta original deste trabalho que manter todas as palavras da sentena como mtrica qualitativa na composio do sumrio, sendo assim, baseando-se nos trabalhos: (Magalhes 2006), (Franco et al,2003) e (Brown, 1973) que enfatizam a importncia da palavra para representao do conhecimento e evoluo sinttica e semntica do indivduo, medido pela M.L.U.-m e depois adaptada pela M.L.U.-w. Esta mtrica representa a evoluo gramatical, o nmero de vocbulos do indivduo. Este indicador acompanha o aumento do comprimento do texto, reflete sua evoluo medida

em palavras. Baseado nas indicaes tericas acredita-se que as denominadas stopwords sejam representativas da evoluo gramatical do individuo, sendo imprescindveis para a determinao do conhecimento lexical pragmtico abordado no uso da lngua em diferentes contextos e a importncia da palavra em toda sua forma gramatical. O estudo comparativo realizado neste trabalho usa a metodologia que adota as stopwords (algoritmo TextTiling) e o algoritmo Perfil(GUELPELI,2007), que no adota a retirada destas palavras.
3.1. ALGORITMO PERFIL

A construo do SA neste trabalho baseia-se no algoritmo Perfil(GUELPELI,2007) que possu 11 passos, os smbolos utilizados esto representados na tabela 2. Sua formalizao segue abaixo: 1. Dados de entrada: TS e TP ; 2. Calcular a mdia de palavras por sentena: P =
TP ; TS

3. Calcular a quantidade de sentenas com menos de P palavras ( S B ), com P palavras ( S N ) e com mais de P palavras ( S A ) (GF: BAIXO, NORMAL ou ALTO): 4. Eliminar as sentenas cuja quantidade de palavras menor que P S [i ] < P ; 5. Para cada sentena S[sentena] com mais de P palavras calcule
TxPS [ sentena ] = S [ sentena

TP ;

6. Calcular a quantidade de sentenas com freqncia em cada grupo de medida temporal (MT): 7. As sentenas do grupo de maior quantidade devero ser selecionadas, as demais descartadas; 8. Caso ocorra empate, selecionar todas as sentenas dos grupos empatados; 9. Determinar o maior valor entre S B S N e S A :
MaxS
X

= MAX ( S B , S N , S A ) e classificar o texto quanto ao seu

CT. 10. Classificar o texto dependendo da quantidade de sentenas de cada grupo GF 11. Selecionar as sentenas para o extrato: o Ordenar decrescentemente as sentenas; o Se MaxS X = S B (BAIXO), ento: Se MT = ESCASSO ento preservar 90% das sentenas para o extrato seno Se MT = POUCO ento preservar 60% das sentenas para o extrato seno Se MT = SUFICIENTE ento

preservar 50% das sentenas para o extrato seno Se MT = ILIMITADO ento preservar 30% das sentenas para o extrato. Se houver empate, calcular a mdia aritmtica simples dos percentuais de sentenas preservadas: I P e Preservar I P sentenas para o extrato; o Se MaxS X = S N (NORMAL), ento:Se MT = ESCASSO ento preservar 50% das sentenas para o extrato seno Se MT = POUCO ento preservar 55% das sentenas para o extrato seno Se MT = SUFICIENTE ento preservar 60% das sentenas para o extrato seno Se MT = ILIMITADO ento preservar 40% das sentenas para o extrato.Se houver empate, calcular a mdia aritmtica simples dos percentuais de sentenas preservadas: I P e Preservar I P sentenas para o extrato; o Se MaxS X = S A (ALTO), ento:Se MT = ESCASSO ento preservar 60% das sentenas para o extrato seno Se MT = POUCO ento preservar 55% das sentenas para o extrato seno Se MT = SUFICIENTE ento preservar 30% das sentenas para o extrato seno Caso MT = ILIMITADO ento preservar 20% das sentenas para o extrato senoSe houver empate, calcular a mdia aritmtica simples dos percentuais de sentenas preservadas: I P e Preservar I P sentenas para o extrato;
Tabela 2 Os Smbolos e suas significncias no algoritmo Perfil.
Smbolo Significado quantidade de palavras do texto tamanho de VS (quantidade de sentenas do texto) quantidade mdia de palavras por sentena grau de formalidade (BAIXO, NORMAL ou ALTO) quantidade de sentenas com grau de formalidade BAIXO quantidade de sentenas com grau de formalidade NORMAL quantidade de sentenas com grau de formalidade ALTO quantidade de palavras da i-sima sentena medida temporal (ESCASSO, POUCO, SUFICIENTE ou ILIMITADO)
X

TP
TS
P
GF

SB
SN

SA
MT

S [i ]

MaxS
CT

maior valor entre

SB , SN e SA

IP

classificao do texto (COLOQUIAL, NORMAL ou FORMAL) ndice de sentenas preservadas

4. EXPERIMENTOS
Seguindo a estratgia do uso de extratos ideais, este trabalho adotou o corpus Temrio, (PARDO E RINO,2003) para realizar os testes dos sumrios gerados. Este corpus composto por 100 textos, que so classificados por Sumrios e Textos Fontes. Os textos fontes so divididos por: texto fonte com origem e ttulo, texto fonte com ttulo e texto fonte sem

ttulo. J os sumrios so classificados por: Extratos Ideais Automticos, Sumrios Manuais e Sumrios Manuais Marcados. No diretrio Texto fonte com origem e ttulo encontra-se: uma subdiviso com textos de dois jornais de grande circulao no Brasil: Folha de So Paulo e Jornal do Brasil. No diretrio da Folha de So Paulo tem-se textos fontes da seo: Especial Mundo e Opinio. J na seo do Jornal do Brasil encontram-se os textos fontes classificados por Internacional e Poltica. Para realizar os experimentos foram usadas as sees grifadas conforme exibido na Figura 2.

Figura 2. Taxonomia do Corpus Temrio 4.1. RESULTADOS OBTIDOS

Este trabalho analisa o comportamento Sumarizador Automatico - SA denominado TextTiling formalizada por (Salton e Buckley 1988) e o comportamento da do SA que utiliza o algoritmo Perfil proposto neste trabalho. Estes valores foram comparados com o extrato ideal, que o melhor tipo de sumrio de referncia para a avaliao de sistemas de SA, pois, por conter somente sentenas do texto-fonte, pode ser comparado mais facilmente com um sumrio automtico, j que este tambm se origina do mesmo textofonte. O extrato ideal pode ser produzido de varias formas. No corpus Temario ele foi composto pelas sentenas do texto-fonte julgadas por humanos como essenciais para compor um sumrio do texto. Foram utilizadas as seguintes medidas de avaliao nas quais so considerados os aspectos qualitativos e o contedo de um sumrio (PARDO e RINO, 2006): Recall(R): nmero de sentenas do sumrio automtico presentes no sumrio de referncia / nmero de sentenas do sumrio automtico;

Precision(P): nmero de sentenas do sumrio automtico presentes no sumrio de referncia / nmero de sentenas do sumrio de referncia; PxR x 2 , a medida F combina as mtricas Medida-F(F-Measure): P+R de recall e de precicion. O resultado da medida F um indicativo de que, quanto mais prximo de 1, melhor o sumrio e resultados mais prximos de 0, demostra que os sumrios so ruins, ou seja, longe do proposto pelo extrato ideal. Outra medida usada para avaliao foi compresso e o nmero de sentenas do texto original mantidas no sumrio, conseqentemente a compresso, seria o nmero de sentenas eliminadas para compor o sumrio e outra medida seria as sentenas do texto original mantidas no sumrio. Na compresso quanto mais aproximado do valor de 0, maior ser o sumrio, ou seja, sero mantidos os nmeros altos de sentenas do texto original e nos valores prximos de 1 ocorre o inverso. A tabela 3 representa os resultados das mdias obtidas nas aplicaes das medidas em todas as sees do corpus. No item percentual de sentenas do texto original mantida, os resultados com menor percentual so mais relevantes, pois foi criado um sumrio mais enxuto. Observa-se que os resultados obtidos no algoritmo Perfil so significativamente na mdia melhores em todas as sees e usando qualquer mtrica.
Tabela 3. Resultado Mdio da aplicao da metodologia TextTiling e Perfil Pragmtico no corpus com todas as medidas. Sentenas do Texto Original Mantidas (%) Text Tiling 38.35 39.60 40.10 40.95 40.65 Perfil 36.00 34.00 36.20 32.80 34.65

Jornais

Sees

Recall Text Tiling

Precision Text Tiling 33.33 28.78 33.45 38.91 33.61

Compresso (%) Text Tiling 61.65 60.40 59.90 59.05 59.35 Perfil 64.0 0 66.4 0 63.8 0 67.2 0 64.9 0

Folha SP

Mundo 24.43 Opnio 23.62 Especial 25.72

JB

Internacional 36.16 Poltica 25.30

Perfil 31.8 9 35.8 0 37.7 2 52.9 0 40.0 7

Perfil 43.9 3 37.8 7 44.1 1 46.9 2 47.1 8

Para validar as mdias obtidas na tabela 3 usou-se a anlise de varincia, que o mtodo estatstico usado para testar diferenas entre mdias de amostras e entre combinaes lineares das mdias. assim chamada pelo fato das varincias serem usadas para medir diferenas entre mdias. Classicamente, o teste-t a ferramenta utilizada para investigar diferenas entre duas mdias sendo que a anlise de varincia tambm utilizada para esta finalidade. Os parmetros da tabela 4 foram analisados

independentemente pelo teste t de Student, considerando varincias diferentes. As duas amostras (independentes) foram coletadas na simulao. Este trabalho adotou a hiptese nula onde as duas varincias so iguais, ou seja, H 0 = 12 = 22 tendo como hiptese alternativa H 1 = 12 22 . Os resultados obtidos na tabela 4 usando as medidas de Compresso e Sentenas do Texto Original Mantidas, tiveram hiptese nula aceita, ou seja, no houve diferena significativa entre as varincias, determinando assim a igualdade estatistica entre suas mdias. Isto foi obtido no grau de significncia de 1%,5% e 10%. Estas duas mdidas fora obtidas atravs do extrato ideal. J nas medidas qualitativas, Recall, F-Meusure e Precision a hiptese nula foi rejeitada, sendo assim prevaleceu a hiptese alternativa onde as varincias so diferentes, estabelecendo assim uma diferena significativa entre as mdias obtidas pelos algoritmos TextTiling e Perfil usando Recall, FAlgoritmos TextTiling - Perfil
Teste t - Varincias Diferentes
F-Mesure 1% 5% 10% 1% 5% 10% 1% 5% 10% 1% 5% 10% 1% 5% 10% tcal 2.6557 2.6557 2.6557 Precision tcal 2.4810 2.4810 2.4810 Recall tcal 2.5884 2.5884 2.5884 ttab 2.7154 2.0262 1.6871 Diferenas No Sim Sim Diferenas No No No Diferenas No No No ttab 2.7154 2.0262 1.6871 Diferenas No Sim Sim ttab 2.7154 2.0262 1.6871 Diferenas No Sim Sim

Compresso tcal ttab 1,3897 2,7154 1,3897 2,0262 1,3897 1,6871 Sentenas do Texto Original Mantidas tcal ttab 1,3897 2,7154 1,3897 2,0262 1,3897 1,6871

Meusure e Precision mostrada na tabela 3. Pode-se observar que algoritmo Perfil(GUELPELI,2007) obteve uma desempenho superior ao algoritmo TextTiling no grau de significncia de 10% e 5% .
Tabela 4. Comparativo entre os algoritmos TextTiling e Perfil usando o Teste t de Varincia Diferentes.

5.

CONCLUSO

Neste trabalho foi proposta uma mtrica que usa toda a palavra dentro da sentena para classificar os textos dentro do perfil pragmtico, baseado nas Regras de (Hovy 1988), os resultados obtidos so animadores, pois foram

comparados algumas metodologias amplamente conhecidas na literatura e os resultados foram animadores em relao a metodologia proposta. Com o aproveitamento de todas as palavras dentro da sentena, este trabalho no utiliza stopwords, ao contrrio dos trabalhos desta rea que utilizam as stopwords para diminuir o volume de processamento, esta metodologia contrape-se aos trabalhos justamente no momento em que mantido todas as palavras para gerar o sumrio e os resultados apresentados so satisfatrios e motivadores. O trabalho pode ainda ser apliado quanto os parmetros dos percentuais de compresso que so fixos, j que estes podem ser aprendidos, na decorrncia da interao com cada autor. Como proposta para trabalhos futuros pretende-se implementar as mtricas de (Hovy, 1988) usadas neste trabalho, introduzindo Aprendizagem Autnoma, usando o conceito Modelos de Markov Oculto (Hidden Markov Models - HMM) (RABINER e JUANG, 1986) e criar perfis segundo (Guelpeli et al.,2004) para os usurios, usando aprendizado por reforo para modelagem autnoma. Esta idia poderia ser extendida e usada na Internet como forma de sumarizao para notcias a qual o usurio mais se adeqe.

REFERNCIAS BIBLIOGRFICAS
Brown, R. (1973). A first language, UNIVERSITY Press, Cambridge. http://bowland-files.lancs.ac.uk/chimp/langac/LECTURE2/2brown.htm, acessado em maro de 2008. Franco, M.G.; Reis, M.J; Gil, T.M.S.(2003). Comunicao, Linguagem e Fala Ministrio da Educao de Portugal, Lisboa. Guelpeli, M.V.C.; Ribeiro, C.; Omar, N. (2004). Aprendizado por Reforo para um Sistema Tutor Inteligente sem Modelo Explcito do Aprendiz, Revista Brasileira de Informtica na Educao- RBIE SBC Volume 12 Nmero 2 pg. 69-77 - ISSN 1414-5685- ms de Julho a Dezembro de 2004Rio de Janeiro-Brasil. Guelpeli, M.V.C.; Garcia A.C.B.(2007).Sumarizador Automtico Baseado em Perfis Pragmticos. International Conference WWW/Internet 2007IADIS- Volume II pg. 149-153- ISBN: 978-972-8924-44-7 - ms de Outubro de 2007- Vila Real-Portugal . Hutchins, J. (1987). Summarization: Some problems and Methods. In: Jones. Meaning: The frontier of informatics. Cambridge. London, pp. 151173. Hovy, E. (1988). Generating Natural Language under Pragmatic Constraints. Lawrence Erlbaum Associates Publishers, Hillsdale, New Jersey. Hovy, E.; C.Y. Lin; L. Zhou. (2005). A BE-based multi-document summarizer with sentence compression. To appear in Proceedings of Multilingual Summarization Evaluation (ACL 2005), Ann Arbor, MI. Hovy, E.; Kim, S.M.(2005). Automatic Detection of Opinion Bearing Words and Sentences. In Proc. of IJCNLP-05, 2005. Luhn, H. P.(1958). The automatic creation of literature abstracts..IBM Journal of Research and Development, 2, pp. 159-165.

Magalhes, T.M.V.(2006).O Sistema Pronominal Sujeito e Objeto na Aquisio do Portugus Europeu e do Portugus Brasileiro. Tese de Doutorado, UNICAMP. Pardo, T.A.S.; Espina, A.P.; Rino, L.H.M.; Martins, C.B.;(2001). Introduo Sumarizao Automtica. Tech. Report RT-DC 002/2001, Departamento de Computao, Universidade Federal de So Carlos. Abril. 38p. Pardo, T.A.S.; Rino, L.H.M.; Martins (2003). TeMrio: Um Corpus para Sumarizao Automtica de Textos. Srie de Relatrios do Ncleo Interinstitucional de Lingstica Computacional, NILC - ICMC-USP, Outubro de 2003. Pardo, T.A.S.; Rino, L.H.M.; Martins (2006) A Coleo TeMrio e a Avaliao de Sumarizao Automtica. Srie de Relatrios do Ncleo Interinstitucional de Lingstica Computacional, NILC - ICMC-USP, Janeiro de 2006. Rabiner, L. R.; Juang, B.H. (1986), An introduction to hidden Markov models, IEEE ASSP Magazine, Vol. 3(1), pp. 4-16. Riloff, E.; Wiebe, J.; Phillips, W. (2005). "Exploiting Subjectivity Classification to Improve Information Extraction", Proceedings of the 20th National Conference on Artificial Intelligence (AAAI-05) . Salton, G.; Buckley, C. (1988). Term-weighting Approaches in Automatic Text Retrieval. Information Processing and Management 24, pp. 513-523.

Вам также может понравиться