You are on page 1of 13

SATSUMM - UMA FERRAMENTA PARA

SUMARIZAO AUTOMTICA DE TEXTOS


JORNALSTICOS
Manoel Neto, Alisson B. Nascimento, Andrea A. Gomes
Faculdade Ruy Barbosa (FRB) Salvador BA Brazil
{andreiagomes, alissonbn, manoelneto}@frb.br
Resumo. Criar sumrios uma tarefa comum que se concentra em extrair pontos
principais de um texto. A sumarizao automtica, um ramo da Lingstica
Computacional, permite que esse processo seja realizado atravs de uma
ferramenta computacional em um tempo relativamente curto. O objetivo deste
trabalho a criao de uma ferramenta que sumarize textos jornalsticos a partir
de um mtodo da abordagem superficial, a Minerao de Textos. O sumarizador
tem por finalidade, alm de gerar resumos, apresentar uma lista com as palavras-
chave relacionadas ao texto fonte e um dicionrio com as palavras menos usuais
da lngua portuguesa. A Minerao de Textos, por ser uma rea em que se
possvel extrair informaes a partir de textos, tornou-se de interesse para o
desenvolvimento da ferramenta SATSumm.
Palavras-chave: Sumarizao, Resumo, Minerao de Textos.
Abstract. Creating summaries is a common task that is based on the extraction of
main points of a text. The automatic summarization, a Computational Linguistcs
research field, allows this process to be realized through a computational tool in
a relatively short time. The goal of this work is the creation of a tool that
summarizes journalistic texts from a superficial approachs method, the Text
Mining. The summarizer also intends to produce a list with the keywords related
to the original text and a dictionary with the least usual Portuguese words. Since
Text Mining is a field that makes possible the extraction of information from texts,
it became useful to the development of the SatSumm tool.
Keywords: Summarization, Abstract, Text Mining.
1. A Sumarizao de Textos
Sumarizar o processo de seleo das informaes mais importantes de um texto para
produzir uma verso mais curta [MANI; BLOEDORN; GATES 1998]. A sumarizao
automtica de textos surgiu com o intuito de tornar o processo de resumir mais prtico e
eficiente. Com o advento da Internet, o repertrio de textos produzidos tornou-se ainda
mais amplo, incorrendo em uma quantidade maior de dados informativos a serem
pesquisados.





Particularmente, o interesse em aplicar a sumarizao automtica para o mbito dos
textos jornalsticos ocorre por conterem informao extra para detalhar o fato abordado.
Isso faz com que o leitor gaste um tempo maior na leitura, quando a inteno seria apenas
saber a idia essencial da notcia. Um outro motivo seria a existncia de tcnicas que so
capazes de detectar a sua idia principal [MARTINS et al 2001].
Existem tcnicas que so utilizadas no campo da sumarizao automtica de textos,
porm os sumrios gerados no apresentam um nvel de coerncia e coeso to satisfatrio,
a exemplo do Auto-resumo do Word. Propostas de mtodos que melhoram o processo de
sumarizar automaticamente so estudados para garantir resumos mais coesos e coerentes
[MRISEP; MUTSO 2005].
H duas abordagens principais de Processamento de Linguagem Natural (PLN) para
a sumarizao automtica - a profunda e a superficial. A primeira concentra-se no mbito
das teorias lingsticas e formais, ao passo que a segunda utiliza mtodos estatsticos e
experimentais [MARTINS et al 2001].
A sumarizao automtica do interesse da Minerao de Textos, que definida
como o processo de extrao de padres, a partir de um nico texto ou conjunto de
documentos textuais [TAN 1999]. Nesse caso, torna-se importante para a sumarizao
tcnicas que eliminem palavras irrelevantes para serem aplicadas a um nico texto.
Os textos jornalsticos normalmente no apresentam resumos e em diversas
situaes contm informaes irrelevantes, incorrendo em um tempo maior para leitura
integral e compreenso da idia. Alm disso, a presena de palavras no usuais da lngua
portuguesa em um texto dessa categoria contribui para que o leitor gaste mais tempo no
entendimento da leitura e por recorrer a outras fontes para buscar o significado de uma
palavra desconhecida.
O objetivo deste trabalho o desenvolvimento de uma ferramenta, utilizando a
abordagem superficial, que sumarize um texto jornalstico, gere um dicionrio com as
palavras no usuais da lngua portuguesa presentes no texto e uma lista de palavras-chave.
A ferramenta permite que o usurio no perca tempo para compreender o texto, em
decorrncia da sua extenso ou por conter palavras que no so de uso to freqente na
lngua portuguesa. O dicionrio facilita a compreenso da leitura, pois apresenta o
significado de palavras desconhecidas por parte do leitor e faz com que no seja
desperdiado tempo pesquisando a sua definio. A lista com as palavras-chave utilizada
para verificar os termos que so essenciais no texto.
O artigo compe-se das seguintes partes: na seo 2, situam-se os conceitos da
sumarizao e Minerao de Textos. A seo 3 trata da fase de implementao e testes da
ferramenta. A concluso final do trabalho encontra-se na seo 4. A seguir, vm as
referncias bibliogrficas.





2. Fundamentos e Automatizao do Processo de Sumarizar
Esta seo aborda os conceitos que norteiam a rea da sumarizao automtica e apresenta
a Minerao de Textos aplicada a esse campo.
2.1. Contextualizao da sumarizao
H duas propriedades do sumrio que devem ser medidas: a taxa de compresso, ou
seja, o quo curto o sumrio em relao ao texto original e o fator de reteno, que se
refere ao quanto de informao do texto fonte permanece retido [SMEDT et al 2005].
As taxas de compresso e reteno se relacionam, pois quanto maior for o valor da
primeira, mais curto ser um sumrio e menos informao ser retida do texto fonte. Caso o
leitor deseje apenas o mnimo de informao possvel, o grau de compresso pode ser alto,
a fim de produzir um resumo mais preciso. Esses aspectos so observados mais claramente
na sumarizao automtica de textos.
Atribui-se a necessidade de pesquisas na rea devido grande quantidade de
informao online disponvel, tornando-se vivel desenvolver ferramentas que sumarizem
de modo automtico [PARDO 2002b].
A Minerao de Textos um campo que explora acerca da sumarizao automtica,
por apresentar etapas passveis de identificar as informaes importantes em um texto,
como ser descrito a seguir.
2.2. Minerao de Textos (Text Mining)
A Minerao de Dados uma rea que trata com grande volume de dados, sendo uma de
suas variantes a Minerao de Textos. As duas concentram-se em tipos de dados distintos,
pois, enquanto em Minerao de Dados contemplam-se dados estruturados, em Minerao
de Textos, busca-se o estudo das relaes existentes entre componentes de textos no
estruturados [SANTOS 2002].
Esse relacionamento pode ser interno, isto , relativo a apenas um texto, ou externo,
abrangendo vrios textos, dependendo do objetivo da aplicao. Para a sumarizao
automtica, no entanto, a importncia est em identificar informaes relevantes em um
determinado documento textual e, portanto, contemplar um texto por vez - aquele que ser
sumarizado [MARTINS et al 2001].
O processo de Minerao de Textos engloba etapas que so indispensveis para a
sumarizao automtica, como a anlise lxica, remoo de irrelevantes, normalizao
morfolgica e remoo de stopwords, isto , palavras que no carregam significado como
os artigos, pronomes, interjeies e preposies [PARDO 2002b].
Finalizada a etapa de pr-processamento, realiza-se a preparao dos dados e os
seleciona, para que sejam identificados os termos representativos, ou seja, aqueles que so
relevantes para definir o assunto principal do texto.





Como por meio da Minerao de Textos tambm se pode procurar pelas
informaes significativas, existem tcnicas que ajudam a prover isso. De acordo com
Santos (2002), a freqncia de um termo pode ser verificada atravs de clculos de
relevncia utilizados para computar o peso de um termo x em um determinado
documento N. Em Silva (2004), ilustrado um clculo de freqncia relativa, cuja
frmula apresenta um termo x de um documento N com uma freqncia (Tf) dividida
pelo nmero total de termos no mesmo documento (N), como pode ser verificado a seguir:
Frelx = Tf(x) / N
A aplicao de uma frmula matemtica que estime a ocorrncia das palavras
facilita a obteno das palavras-chave pertencentes ao documento textual.
3. Implementao da Ferramenta Satsumm
Nesta seo discute-se sobre o desenvolvimento da ferramenta SATSumm, incluindo seus
mdulos e tcnicas utilizadas.
3.1. Desenvolvimento e Arquitetura da Ferramenta
Nesta subseo, apresentam-se a arquitetura e algoritmos utilizados para implementao da
ferramenta SATSumm.
A arquitetura da ferramenta SATSumm, ilustrada na figura 1, apresenta o mdulo
de entrada de dado que, por ser a nica que se comunica com o banco de dados, viabiliza a
sumarizao e a criao do dicionrio.















Figura 1. Arquitetura Sumarizador SATSumm
Antes de se abordar os mdulos da ferramenta, faz-se necessria uma explanao
dos algoritmos da etapa de pr-processamento da Minerao de Textos empregados para o
seu desenvolvimento.





O primeiro algoritmo o case fold, que consiste em tornar todas as letras do texto
maisculas ou minsculas, padronizando em uma nica forma as palavras. Por conveno,
adotou-se a forma minscula para as letras. Assim, no h distino de uma mesma palavra
iniciar em maiscula em um momento e, em minscula, em um outro e vice-versa. Aps
essa etapa, aplicado um algoritmo de steeming, que reduz uma palavra sua forma
radical, removendo os sufixos, prefixos e vogais temticas.
O ltimo algoritmo a ser aplicado o de remoo de stopwords, que eliminar do
texto todas as palavras de classe fechada (aquelas que no apresentam significado como os
pronomes, artigos, preposies). H uma lista com esses termos, onde durante o processo
de sumarizao, todas as palavras que constarem nessa lista sero eliminadas do texto.
Assim, no momento em que as palavras-chave forem selecionadas, para extrao dos
termos que exprimem a idia central, as stopwords sero ignoradas.
O algoritmo de steeming utilizado neste trabalho foi o de Porter, implementado na
linguagem Snowball, projetada para criar algoritmos dessa categoria. O compilador
Snowball traduz um script nessa linguagem em um programa em C ou Java [PORTER
2006].
O algoritmo de Porter original foi desenvolvido para remover os sufixos das
palavras da lngua inglesa, porm, a partir de sua implementao em Snowball para outras
lnguas, permitiu-se aplic-lo a outros idiomas, inclusive para o portugus.
A ferramenta dividida em mdulos para uma melhor organizao e facilitar o
desenvolvimento: mdulo de entrada de dados, mdulo de sumarizao e mdulo de
manuteno do dicionrio. A seguir, h o detalhamento de cada um deles.
3.2.1. Mdulo de Entrada de Dados
O mdulo de entrada se relaciona com a escolha do texto, ou seja, o arquivo a ser
selecionado para sumarizar (o texto pode tambm ser digitado pelo usurio). Esse mdulo
tambm responsvel pela insero de palavras e seu respectivo significado no banco de
dados.
A classe de interface trata da entrada de dados via arquivo, onde a leitura se realiza
no momento em que o usurio seleciona a opo Abrir Arquivo, presente no menu de
opes da ferramenta ou na barra de tarefas presente no SATSumm.
O processo para atualizar e remover palavras e significados do dicionrio pode ser
realizado no mdulo de manuteno do dicionrio, que se relaciona com o de entrada de
dados.
3.2.2. Mdulo de Sumarizao
A gerao de um resumo do texto carregado atravs do mdulo de entrada de dados
processa-se seguindo algumas etapas que so realizadas no mdulo de sumarizao. A
ferramenta, inicialmente, divide o texto em sentenas e estas em palavras, a fim de





conseguir uma representao estruturada do texto. Uma vez obtida essa representao,
possvel iniciar o processamento dos algoritmos para sumarizar o texto.
Para alcanar a representao estruturada do texto, foram criadas as classes Palavra,
PalavraClasseFechada, PalavraClasseAberta, Sentenca e Texto. A classe Palavra
armazena um determinado termo do texto que deve, posteriormente, ser tratado em
PalavraClasseAberta, que representa as palavras com significado relevante, ou
PalavraClasseFechada, correspondendo aos termos sem significado.
A classe Sentenca composta por uma lista de Palavras e contm mtodos como
classificaAbertaFechada, que decide se uma palavra ou no relevante ao texto,
classificando-a para PalavraClasseFechada ou PalavraClasseAberta. Essa classe apresenta
o mtodo steem, que extrai apenas o radical de um termo, excluindo a vogal temtica,
sufixos e prefixos. Alm disso, a classe responsvel por dividir uma sentena em
palavras.
A diviso realizada atravs de um analisador lxico implementado nessa classe,
conforme ilustra a figura 2, em que o autmato desconsidera qualquer smbolo que no
apresente sentido de palavra, como, por exemplo, abre e fecha parnteses. E considera
letras e dgitos, alm de smbolos significativos, como $ e %, terminando uma palavra
quando encontra um smbolo no significativo.






















Figura 2. Autmato que Divide Sentenas em Palavras





A classe Texto composta por uma lista de sentenas. Para isso, divide um texto
que dado como entrada em uma lista de sentenas. Na ocasio da sada de dados, essa
classe que tambm transforma o texto da representao estruturada para uma string padro.
Por fim, essa classe aplica o algoritmo de case fold sobre o texto, tornando todas as letras
presentes, acentuadas ou no, em palavras minsculas.
Na figura 3, apresentado o autmato do analisador lxico utilizado na classe Texto
que divide um texto em sentenas do seguinte modo: o autmato considera que uma frase
termina quando encontrado ponto final, exclamao ou interrogao.






























Figura 3. Autmato que Divide um Texto em Sentenas





Este trabalho utiliza a tcnica TF-ISF (Term Frequency-Inverse Sentence
Frequency) para pontuar as sentenas mais importantes do texto, que descrita em Larocca
Neto et al [2000 apud MARTINS et al, 2001, p.16].
A tcnica TF-ISF similar ao TF-IDF, que utilizado na Recuperao de
Informaes, e originado das tcnicas de estatstica, isto , baseadas na freqncia de
palavras. O TF-IDF aplicado sobre um texto e contra um corpus, onde as palavras que
aparecem com maior freqncia no texto do que no corpus recebem um peso maior. A idia
do TF-ISF tratar com sentenas, ao invs de documentos [MARTINS et al 2001].
Ao se substituir a noo de documento para texto, a importncia de uma palavra w em uma
sentena s ilustrada atravs da frmula TF-ISF(w,s) =TF(w,s)*ISF(w), onde TF consiste
no nmero de vezes em que w aparece em s.
A freqncia inversa da sentena vem de ISF(w)=log(|S|/SF(w)), onde SF diz
respeito ao nmero de sentenas onde w ocorre, e S o numero de sentenas do texto. O
peso final da sentena obtido pela media das TF-ISF de todas as palavras com relevncia
no texto. Logo, o Avg-TF-ISF(s), corresponde mdia aritmtica dos valores de TF-ISF de
cada palavra da sentena s, ou seja, este valor a relevncia da sentena no texto.
Com base no nmero de sentenas do texto original e na taxa de porcentagem
escolhida pelo usurio, calculado um threshold. Sentenas com Avg-TF-ISF maior que o
threshold so selecionadas para compor o sumrio, de acordo com a ordem em que
aparecem, at que o nmero de sentenas seja satisfeito. O threshold tambm pode ser
escolhido explicitamente pelo usurio.
Algumas alteraes foram realizadas na tcnica, onde aps calcular o Avg-TF-
ISF das sentenas, ordenou-as em ordem decrescente de Avg-TF-ISF, e se escolheu as X
primeiras sentenas dessa lista que so necessrias para compor o sumrio desejado. Assim,
o resumo composto, colocando cada sentena selecionada na ordem em que aparece no
texto fonte. No processo original, eram compostos sumrios coesos, porm em grande parte
incoerentes. Com essas modificaes, foi possvel melhorar substancialmente a coerncia
dos sumrios.
Em outras tcnicas, como a das palavras-chave, os termos mais freqentes de um
texto so considerados representativos, porm as palavras de domnio fechado (stopwords),
como artigos ou pronomes, que no carregam significado, tambm so consideradas sem,
no entanto, serem relevantes ou expressarem informaes importantes. Outros mtodos
como o da localizao, que realiza o mesmo procedimento do anterior, sendo que seleciona
as sentenas do primeiro e ltimo pargrafo do texto, tambm no tratam da questo das
stopwords. A Minerao de Textos j realiza a remoo dessas stopwords, alm de
considerar iguais palavras que aparecem de modo distinto no texto, ou seja, maisculas em
um momento e minsculas em um outro, o que no realizado nas outras tcnicas
[MARTINS et al 2001].
Na classe Sumarizador, foram implementados os algoritmos da TF-ISF
responsveis em realizar os clculos a fim de localizar as sentenas que iro compor o
sumrio. Nessa classe, onde ocorre de fato a sumarizao do texto.





A classe Sumarizador contm os mtodos que calculam o peso de cada sentena do
texto. Os mtodos so: calculaISF que consiste em calcular a freqncia inversa da
sentena; calculaTF representando a quantidade de ocorrncia de uma palavra em uma
determinada sentena; o mtodo calculaTFISF que determina a importncia de uma
palavra; e o mtodo calculaAvgTFISF o qual fornece o peso mdio de cada sentena, ou
seja, a mdia aritmtica dos pesos obtidos em calculaTF-ISF de todas as palavras
pertencentes sentena.
A partir desses clculos, as sentenas mais importantes sero selecionadas para
gerar o resumo automaticamente.
3.3. Interface com o usurio
representada por uma janela que a interface da ferramenta com o usurio. Atravs dela,
pode-se abrir um texto, sumariz-lo, salvar um sumrio, imprimi-lo, gerar dicionrio e lista
de palavras-chave, configurar percentual da taxa de compresso, inserir e consultar
informaes do dicionrio.
O texto, aps passar por todo processo de sumarizao, apresenta um resumo ao
usurio em um campo, ao lado do texto original. Caso as opes para exibir o dicionrio e a
lista de palavras-chave sejam selecionadas, tambm so exibidas nos campos especficos.
A figura 4 apresenta a tela principal da ferramenta, onde ocorre a sumarizao
propriamente dita. Notam-se os campos para o texto fonte e resumo gerado, alm das
opes seguintes: exibir dicionrio, lista de palavras-chave, porcentagem de compresso e o
boto para sumarizar e outro para limpar os textos dos campos.
















Figura 4. Janela de Sumarizao





O usurio poder alterar o contedo do dicionrio, removendo uma palavra dele,
inserindo novas, alm de acrescentar informaes do significado de um determinado termo.
A figura 5, a seguir, ilustra a tela de manuteno do dicionrio, onde essas operaes se
concretizam e o usurio acessa quando precisa consultar um termo desconhecido no
dicionrio.




















Figura 5. Janela de Manuteno do Dicionrio
3.4 Avaliao da ferramenta SATSumm
Nesta subseo, so apresentados os experimentos realizados com o sumarizador
SATSumm e os resultados obtidos..
Foram realizados dois experimentos que envolveram a classificao de cada
sumrio a partir dos parmetros: idia principal conservada e de acordo com a coerncia e
coeso, atribuindo-se uma nota na escala de 0 a 3. Um outro teste foi agrupar alguns textos
jornalsticos e solicitar que os avaliadores selecionassem as sentenas que melhor
expressassem a idia central de cada um, e tomando como base essa mesma amostra de
textos, gerou-se a partir do SATSumm, os sumrios.
Experimento 1: Pontuar o sumrio gerado a partir do SATSumm
O objetivo desse experimento foi atribuir notas aos sumrios gerados pela ferramenta.
Primordialmente, um texto era escolhido e o usurio definia a taxa de compresso desejada.
Para esse experimento, padronizou-se as notas de acordo com alguns parmetros
adotados que foram a conservao da idia central e o grau de coerncia e coeso dos
resumos criados, conforme ilustra a tabela 1.





Tabela 1 Parmetros para avaliao dos sumrios
A nota 3, que corresponde a mais alta, mensura o quo coerente e coeso o
sumrio, ou seja, se as sentenas escolhidas foram realmente as mais expressivas.
Uma mdia de 20% dos usurios que testaram a ferramenta, pontuaram com o valor
3 o resumo gerado pela SATSumm.
A maioria dos avaliadores, cerca de 80%, indicaram a nota 2, que corresponde a um
sumrio, onde a conservao da idia central do texto foi preservada, e com a sua
textualidade pouco prejudicada, sendo considerado bom.
Um nmero de 40% dos usurios pontuou como regular (nota 1) os sumrios
gerados atravs da ferramenta, considerando que a idia principal no foi mantida, assim
como os termos escolhidos para compor a lista de palavras-chave, no correspondiam aos
mais relevantes. Em relao nota 0, ou seja, um sumrio sem textualidade e idia
principal, classificado como ruim, cerca de 20% atriburam esse valor.
Experimento 2: Verificar as sentenas selecionadas
O intuito desse experimento foi analisar se as sentenas selecionadas manualmente
correspondem, em geral, as mesmas que aparecem no sumrio gerado a partir da ferramenta
SATSumm e da GistSumm, sumarizador desenvolvido a partir do trabalho de Pardo
[PARDO 2002a].
Os usurios realizavam a leitura do texto e extraiam as sentenas que melhor
expressavam a idia principal. A partir disso, confrontavam-se os resultados, verificando se
as sentenas selecionadas pelo usurio manualmente correspondiam s mesmas que
apreciam no sumrio gerado de modo automtico.
Em relao ao GistSumm, o SATSumm apresentou-se com um grau desejvel,
gerando sumrios, com textualidade razovel, e mantendo, em grande parte dos casos, a
idia central. A partir dos testes com usurios, onde foi solicitado que marcassem as
sentenas mais relevantes, o SATSumm, selecionou em mdia 70% das mesmas sentenas
que um humano, ao passo que outras ferramentas extraiam na faixa dos 60%.
A figura 6, a seguir, ilustra os sumrios gerados pela ferramenta SATSumm e
GistSumm, com uma taxa de compresso de 90%. As sentenas que aparecem na
composio do sumrio gerado pelo SATSumm correspondem apenas aquelas que tambm
foram selecionadas por um humano. Ao passo que, o outro sumarizador, destacou sentenas
que no foram consideradas relevantes para um humano, ao apontar manualmente as
sentenas de um texto.
Idia principal Coerncia e Coeso Nota Conceito
Conservada Sim 3 timo
Conservada Pouco prejudicada 2 Bom
Prejudicada Pouco prejudicada 1 Regular
Prejudicada No 0 Ruim
















Figura 6. Amostra de sumrios gerados automaticamente
4. Concluso
A sumarizao automtica de textos uma rea que se tornou de interesse dos estudiosos
devido a crescente quantidade de informao disponvel em meio digital. O enfoque deste
projeto foi a sumarizao em textos jornalsticos, por conterem sempre uma idia central
bem definida. Utilizou-se o mtodo da Minerao de Textos, uma das tcnicas da
abordagem superficial, capaz de extrair padres e idias de um texto.
O algoritmo de stemming usado foi o de Porter, implementado na linguagem
snowball, cujo compilador gera cdigos na linguagem Java. Este algoritmo foi modificado
incluindo novas regras de derivao sufixal, a fim de que extrao da forma raiz de algumas
palavras ocorresse de modo correto. Alm disso, o modo de escolha das sentenas foi
tambm alterado, onde primeiro ordenou-se as frases de acordo com o valor do avgTFISF,
o qual fornece o peso mdio de cada sentena, e assim escolhe-se as primeiras, onde a
quantidade de sentenas depende do valor da taxa de compreenso fornecida pelo usurio.
A partir disso, organiza-se as frases no sumrio na ordem em que aparecem no texto fonte.
A rea da sumarizao automtica que utiliza a abordagem superficial ainda no
gera resumos satisfatrios, tornando-a alvo de pesquisas que proponham melhorar a
qualidade dos sumrios gerados a partir dessa abordagem.
Referncias Bibliogrficas
MANI, Inderjeet ; BLOEDORN, Eric ; GATES, Barbara. Using cohesion and coherence
models for text summarization. In: SYMPOSIUM ON INTELLIGENT TEXT
Sumrio Gerado pela SATSumm

Lula vai congelar at R$ 19 bilhes do Oramento
Contingenciamento preventivo ser revisto caso as receitas superem previso inicial de R$ 600 bilhes

Embora ocorra no momento em que o governo tenta fazer decolar o Programa de Acelerao do Crescimento (PAC), a
medida ser adotada de forma preventiva, como todos os anos, diante de uma expectativa menos otimista para a
arrecadao do que o previsto pelo Congresso.
A diferena entre o que previsto no papel e o que efetivamente realizado em matria de obras se deve ao tipo de
ajuste fiscal feito pelo governo, que sacrifica os investimentos mais do que outros tipos de gastos menos prioritrios.
Esses cortes so mantidos enquanto a arrecadao no supera as projees oficiais.

Sumrio Gerado por outro sumarizador

Lula vai congelar at R$ 19 bilhes do Oramento
Contingenciamento preventivo ser revisto caso as receitas superem previso inicial de R$ 600 bilhes

Dos R$ 27,3 bilhes previstos para investimentos no Oramento da Unio de 2007, o governo s deve liberar
inicialmente R$ 18 bilhes, a includos os R$ 4,6 bilhes do projeto piloto - uma carteira de obras especiais, no
sujeitas a contingenciamento.
No ano passado, o governo chegou a autorizar R$ 19,6 bilhes de investimentos, mas R$ 12,3 bilhes esto em aberto,
dependendo de execuo e liberao de recursos.





SUMMARIZATION, 13, 1998, Stanford. Proceedings. Stanford: [s.n], 1998, p.69-76.
Disponvel em: <http://complingone.georgetown.edu/~linguist/papers/Spring98 Symp.pdf>.
Acesso em: 26 mar. 2006.
MARTINS, Camilla et al. Introduo sumarizao automtica. So Carlos:[s.n], 2001.
Disponvel em: <http://www.nilc.icmc.usp.br/~thiago/RTDC00201-CMartinsEtAl.pdf>.
Acesso em: 20 mar. 2006.
MRISEP, Kaili; MUTSO, Pilleriin. ESTSUM- Estonian newspaper texts summarizer.
In: THE BALTIC CONFERENCE ON HUMAN LANGUAGES TECHNOLOGIES, 2,
2005, Tallin. Proceedings. Tallin: [s.n.], 2005, p.311-316. Disponvel em:
<http://math.ut.ee/~kaili/papers/estsumbhlt05.pdf>. Acesso em: 23 mar. 2006.
PARDO, Thiago. GISTSumm: um sumarizador automtico baseado na idia principal de
textos. So Carlos:[s.n], 2002a. Disponvel em: <http://www.nilc.icmc.usp.br /~thiago
/NILCTR0213-Pardo.pdf>. Acesso em: 23 mar. 2006.
PARDO Thiago. DMSumm: um gerador automtico de sumrios. 2002b. Dissertao
(Mestrado em Cincias da Computao) - UFSCar, So Carlos, 2002. Disponvel em:
<http://www.nilc.icmc.sc.usp.br/~thiago/DISSERTATION-Pardo.pdf>. Acesso em: 29
mar. 2006.
PORTER; BOULTON. Snowball.Disponvel em: <http://snowball.tartarus.org >. Acesso
em: 12 out. 2006.
SANTOS, M. Extraindo regras de associao a partir de textos. 2002. Dissertao
(Mestrado em Informtica Aplicada) PUC-PR, Curitiba, 2002. Disponvel em:
<http://www.ppgia.pucpr.br/ensino/defesas/Maria_Angela%20_2002.PDF>. Acesso em: 23
mar. 2006.
SILVA, Cassiana. Uso de informaes lingsticas na etapa de pr-processamento em
Minerao de Textos. 2004. Dissertao (Mestrado em Computao Aplicada)
UNISINOS, So Leopoldo, 2004. Disponvel em: <http://bdtd.unisinos.br /tde_arquivos/1
/TDE-2004-04-30T11:16:38Z-3/Publico/Informacoeslinguisticas.pdf>. Acesso em: 02 abr.
2006.
SMEDT, Koenraad et al. How short is good? an evaluation of automatic summarization.
Disponvel em:<http://www.nada.kth.se/~xmartin/reports/ScandSum-yearbook2004-
fullpage.pdf>. Acesso em: 23 mar. 2006.
TAN, Ah-Hwee. Text mining: the state of the art and the challenges. Disponvel em:
< http:// www.ewastrategist.com/papers/text_mining_kdad99.pdf >. Acesso em: 27 maio
2006.