Вы находитесь на странице: 1из 13

Aplicação da descoberta de conhecimento em

textos para apoio à construção de indicadores


infométricos para a área de C&T
Hélia de Sousa Chaves Ramos
Mestre em ciência da informação pela Universidade de Brasília (PPGCInf/UnB)
E-mail: helia@ibict.br

Marisa Bräscher
Professora doutora do Departamento de Ciência da Informação e Documentação da Universidade de Brasília (PPGCInf/UnB)
E-mail: marisab@unb.br

Resumo Applying knowledge discovery in texts


(KDT) to support the construction of S&T
Relata resultados de pesquisa aplicando a descoberta
infometric indicators
de conhecimento em texto (DCT) em conteúdos textuais,
importantes fontes de informação para tomada de
decisão. O objetivo central da pesquisa foi verificar Abstract
a eficácia da DCT na descoberta de informações
para apoio à construção de indicadores e definição This article describes the results of a research applying
de políticas públicas. O estudo de caso foi o Serviço Knowledge Discovery in Texts (KDT) in textual contents,
Brasileiro de Respostas Técnicas (SBRT) e a técnica which are important sources of information for decision-
aplicada a de agrupamento de documentos a partir dos making purposes. The main objective of the research is to
termos minerados na base de dados. Comprovou-se a verify the effectiveness of KDT for discovering information
aplicabilidade da DCT na extração de informações ocultas that may support the construction of ST&I indicators and
em documentos textuais para subsidiar a tomada de for the definition of public policies. The case study of the
decisão e a construção de indicadores, informações essas research was the textual content of the Brazilian Service
que não poderiam ser visualizadas utilizando-se recursos for Technical Answers (Serviço Brasileiro de Respostas
tradicionais de recuperação da informação. Observou-se Técnicas – SBRT) and the technique adopted was
a preocupação com o meio ambiente nas demandas feitas document clustering from terms mined in the database.
pelos usuários do SBRT e a aplicabilidade da DCT para The use of DCT for extracting hidden information – that
orientação de políticas internas à rede SBRT. could not be found by using the traditional information
retrieval – from textual documents proved to be efficient.
Palavras-chave The presence of environmental concerns in the demand
posted by SBRT’s users and the applicability of DCT
Descoberta de conhecimento em texto (DCT). Mineração to orient internal policies for SBRT network were also
de textos. Indicadores de C&T. Serviços de informação evidenced by the research results.
tecnológica. Micro e pequenas empresas (MPEs).
Empreendedores. Keywords

Knowledge Discovery in Texts (KDT). Text mining. S&T


indicators. Information services. Micro-enterprises.
Entrepreneurs.

56 Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009


Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de

INTRODUÇÃO assim como a definição de políticas públicas para o


setor produtivo de pequeno porte. O estudo de caso
A velocidade e a amplitude com que o conhecimento foi o conteúdo textual de um sistema de informação
gerado passou a ser compartilhado provocaram o criado para prover soluções a questões de natureza
surgimento de uma dinâmica de reaproveitamento tecnológica apresentadas por empreendedores e
e produção de novos conhecimentos, bem como
microempresários brasileiros – o Serviço Brasileiro
o aparecimento de novas necessidades de tratar
de Respostas Técnicas (SBRT)1. Os textos analisados
a informação. Para suprir essas necessidades,
contêm soluções elaboradas por especialistas em
ferramentas e técnicas para tratamento de grandes
atendimento a questões de natureza tecnológica
massas de dados foram criadas e aperfeiçoadas,
tratamentos estatísticos aplicados no processamento levantadas por microempreendedores de todo o país.
e análise de dados e informações, em busca de Constitui-se, assim, em rica fonte de conhecimento
retratar o que não seria possível com a limitada tecnológico que pode se revelar importante origem
capacidade humana de leitura e registro. As de indicadores sobre as necessidades dos pequenos
informações estruturadas em bases de dados – negócios e nortear investimentos para solucioná-
organizadas, indexadas e dotadas de ferramentas las.
cada vez mais sofisticadas e velozes para busca e
recuperação da informação – têm sido objeto de Buscou-se, com o estudo, comprovar a aplicabilidade
estudo com a finalidade de extrair conhecimento da DCT no apoio à construção de indicadores em
para apoio à tomada de decisão. ciência e tecnologia, motivação para a descoberta
de associações entre os documentos e identificação
Nos últimos anos, os focos da pesquisa têm se de tendências que apóiem a tomada de decisão
voltado para aqueles conteúdos armazenados em governamental com relação ao setor empresarial
meio digital sem a preocupação com o rigor da de pequeno porte.
estruturação – os documentos textuais – comumente
chamados de “informação não estruturada”. Esses A construção de indicadores
conteúdos se revelaram portadores de informações
valiosas, camufladas em grandes volumes textuais, Em minucioso estudo sobre indicadores de CT&I,
que passaram a ser explorados em busca de Sartori e Pacheco (2007) afirmam que há, entre
padrões de conhecimento até então desconhecidos, os estudiosos do assunto, o reconhecimento de
para tomada de decisão e geração de novos que os indicadores em CT&I são de fundamental
conhecimentos. importância para “nortear a formulação e a avaliação
de políticas e, principalmente, para permitir à
Segundo Tan (1999), mais de 80% das informações sociedade acompanhar e avaliar os esforços dirigidos
de uma organização estão contidos em documentos a tais atividades e os resultados obtidos” e que o
textuais, que são a for ma mais natural de atual conjunto de indicadores é insuficiente para
armazenamento de informações. Não resta dúvida
de que esse tipo de documento adquire importância
fundamental para a descoberta do conhecimento 1
O SBRT constitui uma iniciativa governamental encampada por
gerado dentro das organizações. instituições de ensino e pesquisa atuantes na prestação de serviços
de informação tecnológica. Trata-se de uma ação inovadora criada
Este artigo apresenta os resultados de uma pesquisa por iniciativa do Ministério da Ciência e Tecnologia (MCT), que
reúne universidades, iniciativa privada e governo. São membros do
de mestrado que teve como objetivo testar a eficácia
SBRT: CDT/UnB, Disque-Tecnologia da USP (Cecae/USP), Cetec/
da descoberta de conhecimento em textos (DCT) na MG, Redetec/RJ, Tecpar/PR, IEL/BA, Senai/RS; e parceiros:
descoberta de informações para apoiar a construção Ibict e Sebrae Nacional. Destina-se a micro e pequenas empresas
e empreendedores e oferece um serviço de informação gratuito na
de indicadores úteis à tomada de decisão estratégica,
Web (http://sbrt.ibict.br).

Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009 57


Hélia de Sousa Chaves Ramos / Marisa Bräscher

atender a essa questão. Os autores salientam que a que se insere esta pesquisa, onde os resultados dos
pesquisa científica e tecnológica adquire cada vez investimentos públicos em um sistema de informação
mais importância e impacto perante a sociedade voltado a empreendedores e microempresários
ao mesmo tempo em que se verifica a existência possam reverter em informações úteis à tomada
de grandes lacunas no conjunto de indicadores de de decisão nesse campo. Esses indicadores se
CT&I brasileiros. inserem no campo da Infometria, considerada por
Le Coadic (2005) como um novo eixo de pesquisa
Na visão do Ministério da Ciência e Tecnologia e desenvolvimento na Ciência da Informação, onde
(MCT) – órgão responsável pela formulação e ocorre a aplicação da matemática e da estatística ao
implementação da Política Nacional de Ciência e estudo dos fenômenos informacionais. Segundo
Tecnologia – o autor, “uma boa gestão de serviços públicos
necessita cada vez mais da utilização de uma
“o conjunto de indicadores de C&T hoje larga gama de ferramentas de gestão adaptadas
disponível para o Brasil será continuamente aos contextos culturais, educativos, científicos e
enriquecido, na medida em que as dificuldades também às dimensões e características do serviço.
metodológicas e de acesso aos dados forem sendo São ferramentas de análise de necessidades de
superadas e novos indicadores produzidos.” informação da comunidade atendida, ferramentas
Inicialmente, os indicadores limitavam-se ao de acompanhamento e de avaliação e ferramentas
dimensionamento dos recursos financeiros e de medição de performance. Estas ferramentas
humanos investidos em ciência e tecnologia – os possibilitam à organização dispor de um conjunto
chamados “indicadores de insumo”. Em seguida, de indicadores de desempenho.”
foram criados os “indicadores de resultados”, Dentro da ótica de adaptação dos indicadores de
contendo o registro da produção científica, a C&T propostos pela Organização para a Cooperação
produção de patentes e a transferência de tecnologia e o Desenvolvimento Econômico (OCDE) com
entre países. Há, mais recentemente, a preocupação vistas a melhor atender às necessidades dos países
em se mensurar os indicadores de impacto, aqueles em desenvolvimento, Kondo (1998) sugeriu
que procuram avaliar expandir o foco da construção de indicadores de
“como determinado resultado científico ou C&T, tradicionalmente voltados para a eficiência
tecnológico afeta as várias dimensões das econômica, para abranger indicadores “vinculados
condições de existência dos indivíduos, seja no ao bem-estar social”. Essa temática é abordada por
próprio campo científico e tecnológico, seja na Velho (2001), quando levanta questões relativas ao
dimensão econômica, seja na dimensão social estabelecimento de um sistema de indicadores de
(BRASIL, 2004). C&T “útil e relevante para a tomada de decisão”
e chama atenção para a importância do uso do
A preocupação com os indicadores de impacto conhecimento científico na produção, com a
acompanha a tendência em se buscar o melhor finalidade de propiciar melhoria da qualidade de
conhecimento entre a relação das atividades de C&T vida da sociedade. Em sua opinião, os indicadores
e as atividades inovativas no Brasil, onde a soma tradicionais passaram a ser questionados para se
de investimentos e a aplicação dos conhecimentos considerar a mudança técnica, o conceito de sistema
gerados possam promover reais impactos na nacional de inovação. De acordo com a autora, a
economia e no bem-estar social. inovação tem uma dimensão local e contingente.

É nessa natureza de indicadores, ou seja, no campo


dos indicadores de impacto para a área de C&T O MCT chama atenção para as “reconhecidas e
marcantes especificidades nacionais” relativas à base

58 Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009


Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de

técnico-científica, as quais evidenciam a necessidade Fayyad et al. (1996) consideram a DCT uma etapa
de da DCD, a qual se preocupa com o desenvolvimento
de métodos e técnicas que buscam trazer sentido
associar à produção de informação quantitativa o aos dados. Na visão dos autores, o processo básico
desenvolvimento de estudos mais aprofun-dados da DCD é traduzir a informação do seu nível mais
para validar ou redefinir os pressupostos sobre elementar, o dado, geralmente armazenado em
os quais se apóiam os indicadores. (BRASIL, grandes volumes, em formas mais compactas, mais
2004) resumidas e mais úteis. Os autores afirmam que
a DCD tem sido cada vez mais empregada para
Nesse sentido, acredita-se que o SBRT esteja inserido
a solução de problemas do mundo real, tanto no
na nova concepção de conteúdos adequados ao apoio
campo das ciências como nos negócios.
à construção de indicadores, vez que se trata de um
estímulo à aplicação do conhecimento tecnológico Weiss at al. (2005) compartilham da ideia da DCT
gerado pelas instituições de ensino e pesquisa para como etapa da DCD e afirmam que para a conclusão
melhoria da competitividade da microempresa e a do processo de mineração de textos, estes serão
consequente contribuição tanto para a economia processados e transformados em representação
brasileira quanto para o bem-estar social. numérica, distinção inicial entre elas.
A descoberta de conhecimento Na visão de Trybula (1999), a descoberta do
conhecimento é o “processo de transformação
São muitas as discussões em torno das definições
de dados em relações previamente desconhecidas
das técnicas de extração automática de informações
e insuspeitas, que podem ser empregadas como
relevantes em grandes massas de dados, nas
previsores de futuras ações”.
quais conceitos e termos se misturam, por vezes
sendo utilizados como sinônimos: prospecção de Minucioso estudo sobre a literatura acerca da
conhecimento, descoberta de conhecimento em descoberta de conhecimento em dados e os diversos
bases de dados, mineração de dados, descoberta de processos que a compõem foi realizado por Schiessl
conhecimento em textos, mineração de textos. De (2007), que registra as particularidades apontadas por
forma abrangente, utiliza-se o termo “descoberta vários autores e chama atenção para a necessidade de
de conhecimento”, passando-se a qualificá-lo adaptação da DCD “para que a linguagem natural
a partir do conteúdo a ser analisado: se este foi seja passível de processamento automático visando
previamente organizado e estruturado (descoberta à extração de conhecimento”.
de conhecimento em dados – DCD) ou se se
encontra disperso em documentos textuais dos Embora a conceituação das técnicas de tratamento
mais diversos formatos e tamanhos (descoberta de automático de grandes volumes de dados ainda
conhecimento em textos – DCT). se encontre de certa forma difusa, é possível
identificar pontos convergentes fundamentais para
Grandes repositórios textuais contêm informações a compreensão do seu funcionamento. Fica clara a
adormecidas, camufladas, até que o minerador as forte evolução dessas técnicas com a possibilidade
encontre e as transforme em informações preciosas de tratamento de conteúdos em linguagem natural,
para a organização. Descobrir conhecimento que representa, de modo geral, a maioria dos
significa identificar, receber informações relevantes e conteúdos gerados por uma organização.
poder computá-las e agregá-las ao seu conhecimento
prévio, mudando o estado de conhecimento atual, a Esta pesquisa explora as potencialidades da DCT
fim de que determinada situação ou problema possa e faz uso da mineração de textos como uma
ser resolvido (WIVES, 2004). das etapas de todo o processo, coerente com a
concepção defendida por Hearst (1999), que a
Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009 59
Hélia de Sousa Chaves Ramos / Marisa Bräscher

define como “descoberta, por computador, de e iterativo, correspondendo à aplicação repetida


novas informações, previamente desconhecidas, de métodos de mineração e interpretação dos
pela extração automática de informações de resultados pelo usuário.” A pesquisa concentrou-se
diferentes recursos-chave da mineração de textos a na técnica de análise de “conglomerados”, isto é, do
interligação das informações extraídas para “formar agrupamento de documentos textuais do sistema de
novos fatos e novas hipóteses a serem posteriormente informação SBRT.
exploradas pelos meios de experimentação mais
convencionais”. Apoiado por Weiss at al. (2005), o A pesquisa foi realizada utilizando-se o pacote SAS
autor trata dessas relações. Data Mining Solutions, composto de dois aplicativos
– o SAS Enterprise Miner e o SAS Text Miner for
Hearst (1999), Aires (2005) e Lucas (2007) alertam Portuguese – desenvolvidos para revelar padrões e
para os perigos de se confundir mineração de textos relações ocultos em dados, objetivando contribuir
com recuperação da informação e consideram como para o entendimento de tendências históricas e a
diferenciais da mineração o relacionamento entre previsão de oportunidades futuras.
documentos e a possibilidade de se extrair deles
informação previamente desconhecida. O desenvolvimento da pesquisa pode ser sintetizado
nas seguintes etapas: seleção do conteúdo dentre
METODOLOGIA APLICADA NO ESTUDO as bases de dados do sistema de informação do
SBRT, extração dos dados, conversão dos dados
O universo de estudo da pesquisa foi o conteúdo para o formato legível pela ferramenta de mineração,
textual da base de dados de Respostas Técnicas preparação dos dados (limpeza e padronização),
(RTs)2. O conteúdo estudado foi extraído do sistema construção da base de trabalho, mineração do
de Informação SBRT no dia 8 de agosto de 2007, texto, agrupamento dos documentos e análise dos
mediante autorização do Comitê Gestor da Rede agrupamentos.
SBRT. Os dados representavam, naquela data, a
totalidade das RTs enviadas aos clientes e publicadas Conforme amplamente discutido na literatura,
no site: 6.041 documentos. para que seja possível realizar qualquer tratamento
automático de uma coleção de documentos escritos
As informações constantes do corpo do texto da em linguagem natural em busca do conhecimento
RT são título da RT, resumo, data de publicação, nela embutido, torna-se necessária a limpeza e
palavras-chave, assunto, demanda (a pergunta feita padronização do texto. Sob essa ótica, Tan (1999)
pelo cliente) e instituição respondente (responsável considera dois componentes estruturais da técnica
pela elaboração da RT). Todos esses campos foram de mineração de textos: o refinamento do texto,
considerados na extração dos termos para análise. que transforma os documentos com textos não
estruturados para o que ele chamou de “formato
Aplicação da DCT
intermediário”, e a destilação do conhecimento,
A aplicação da DCT se dá por meio de técnicas que deduz padrões ou conhecimento a partir desse
diversas, sendo as mais conhecidas, segundo formato intermediário.
Wives (2004): análise de conglomerados (clustering),
classificação, extração de informações, sumarização, A experiência mostra que se gasta muito tempo
análise qualitativa e quantitativa e identificação na remoção de ruídos com o intuito de padronizar
de regras de associação. Ainda nesse aspecto, o os dados, de forma a possibilitar maior precisão
autor afirma que o processo de DCT é “interativo e acurácia no processo de mineração textual. De
acordo com Quoniam et al. (2005), a etapa de
2
Respostas Técnicas (RTs) são as soluções elaboradas por preparação dos dados é crucial para a qualidade
especialistas da Rede SBRT em resposta às questões postadas pelos final dos resultados e corresponde a 60% de todo
microempresários no sistema de informação do SBRT.

60 Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009


Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de

o processo de mineração. Nesta pesquisa, isso ficou de mineração. Obviamente, há que se cuidar para
bastante evidenciado, pois diversos processamentos que os radicais expressem um conceito comum.
se fizeram necessários até que se pudesse considerar Essa tarefa é possível por meio da criação de um
que o conteúdo estava pronto para análise. dicionário de termos com suas respectivas categorias
gramaticais.
PREPARAÇÃO DOS DADOS
(PRÉ-PROCESSAMENTO, LIMPEZA E Segundo Schiessl (2007), a lematização é utilizada
TRANSFORMAÇÃO) também para reduzir a quantidade de termos com
a finalidade de facilitar a análise e reduzir o custo
A etapa de preparação dos dados comprovou ser a computacional, visto que restringe a quantidade de
mais trabalhosa na mineração de textos e, portanto, termos que serão processados.
merece destaque para melhor compreensão do
processo como um todo. Duas operações foram Após as etapas de limpeza e padronização, os dados
essenciais nessa etapa: a remoção de palavras não textuais ficaram prontos para a aplicação da técnica
significativas e a lematização. de mineração.

Remoção de palavras não significativas A mineração do texto – idas e vindas

As palavras não significativas – as chamadas stopwords, Após as idas e vindas do processo de limpeza e
em inglês – são palavras comuns, encontradas em padronização das palavras significativas do texto, foi
iniciada a mineração propriamente dita, adotando-
grande quantidade em um arquivo textual e não
se a técnica de agrupamento dos documentos
carregam significado em si próprias. Em geral,
da base de trabalho. Utilizou-se, então, o recurso
pertencem às seguintes classes gramaticais: artigos,
do SAS para agrupamento dos textos com base
conjunções, preposições, pronomes e advérbios.
nas semelhanças entre eles. Esse agrupamento é
Wives (2004) apresenta três outras possibilidades
referenciado com frequência na literatura a partir
de denominação do termo em língua portuguesa: do seu termo em inglês, clustering, ou “geração de
“palavras negativas”, “palavras-ferramenta” ou clusters” ou de conglomerados, na linguagem de
“palavras-vazias”. alguns autores.
Em contraponto à lista de palavras não significativas Agrupamento dos documentos
(stopwords), o programa SAS oferece uma lista de
startwords, termos que caracterizam o domínio do O agrupamento de documentos constitui o grande
assunto a ser pesquisado, ou seja, todos os termos a diferencial da técnica de mineração de textos,
serem considerados no processo de mineração. Após visto que identifica associações entre documentos
a extração de 416 palavras não significativas da base aparentemente sem nenhuma relação. Ou seja,
de trabalho do SBRT, restaram 43.271 termos na são apresentadas possibilidades de extração de
lista de startwords, que representam o corpus da base conhecimentos totalmente novos e imprevistos.
de dados utilizado nos processamentos.
O agrupamento permite que novas classes sejam
Lematização descobertas, já que consegue agrupar documentos
mesmo que estes não pertençam a assuntos
Em sequência à remoção das palavras não conhecidos. Isso porque não há necessidade de
significativas, foi realizada outra etapa de preparação conhecimento prévio sobre os assuntos (ou os
de dados para a mineração. Trata-se da lematização, possíveis assuntos) dos documentos. Os assuntos
ou extração de inflexões de termos, reduzindo-os ou as classes dos documentos são descobertos após
a seus radicais, na intenção de se criarem padrões o agrupamento, durante o processo de análise dos
para proporcionar maior confiabilidade ao processo grupos obtidos (WIVES, 2004)

Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009 61


Hélia de Sousa Chaves Ramos / Marisa Bräscher

A despeito do esforço inicial empregado no processo O software SAS utilizado já possui uma adaptação
de limpeza e padronização dos dados, as primeiras para a língua portuguesa, o que facilitou o processo
análises trouxeram à tona alguns dos problemas de lematização. Ainda assim, erros como os descritos
que provocaram a necessidade de se realizarem não puderam ser evitados. Acredita-se que poderá
diversos processamentos. A título de exemplo, são ocorrer melhora sensível nos resultados dos
apresentados a seguir os erros detectados no tocante agrupamentos, se a ferramenta utilizada incorporar
à lematização dos termos. técnicas de processamento automático da linguagem
natural para o tratamento de homografias.
Erros de lematização
Produto final da mineração: dados prontos para
Ao se analisarem os primeiros agrupamentos análise
gerados, verificou-se que alguns dos termos
resultantes estariam invalidados, dada a sua Após as correções dos erros detectados, realizou-
frequência em praticamente todos os documentos se novo processamento, que deu origem a 12
da base de trabalho, como por exemplo: “data”, agrupamentos, os quais foram considerados
“site”, “palavras-chave”. Outra observação foi a forte representativos da realidade da base de trabalho e
presença dos termos “podar” e “parir”. Passou-se, adequados para a realização das análises subsequentes.
então, a analisar a planilha gerada pelo SAS contendo Eles representam o resultado da iteratividade típica
todos os termos da base – 43.271 – e suas respectivas da operação de mineração de textos.
lematizações. Confirmou-se, por exemplo, que o O quadro 2, a seguir, mostra o detalhamento desses
termo “podar” não era um “lema perfeito”, pois agrupamentos, isto é, os termos que provocaram
representava palavras de diferentes categorias, assim a união dos documentos que os compõem, assim
como o termo “parir”, que incorporava entre suas como a representatividade percentual de cada um,
representações o termo “para”, que, embora fizesse a quantidade de documentos em que os termos
parte da lista de palavras não significativas, não havia aparecem e a variabilidade deles no agrupamento.
sido completamente eliminada durante o processo
de limpeza e padronização dos dados. A N Á L I S E S D O S R E S U L TA D O S DA
MINERAÇÃO
O quadro 1, a seguir, traz um detalhamento desses
erros, assim como os termos inadequados, com Logo na primeira leitura dos termos apresentados no
a respectiva explanação sobre a necessidade de quadro 2, pôde-se observar a presença da natureza
eliminá-los e realizar novo processamento. tecnológica do conteúdo da base de dados SBRT, a
Cabe aqui fazer uma observação sobre a importância partir dos verbos característicos de orientações para
da lematização na língua portuguesa. Como se realizar a aplicação do conhecimento contido na
observado em pesquisa de Bräscher (1999), com a solução tecnológica fornecida, como por exemplo:
lematização obtêm-se todos os contextos em que o alimentar, comer, cultivar, dever, elaborar, formar,
lema foi empregado no corpus, independentemente plantar, processar, produzir, reciclar, resumir, usar,
de sua forma, o que enriquece as análises linguísticas utilizar.
que são objeto da pesquisa e evita a dispersão das Da mesma forma, é possível inferir os principais
frequências. No entanto, a autora alerta para o fato temas de que trata a base, por meio da leitura dos
de a homografia provocar erros de lematização, uma substantivos mais freqüentes na lista de termos
vez que o sistema não tem como determinar, a priori, representativos dos agrupamentos: agricultura,
o lema correto para uma forma homógrafa, segundo animal, criação, equipamento, espécie, máquina,
seu emprego no corpus. Os exemplos do quadro 1 óleo, plástico, produção, produto, químico, resíduo,
ilustram esse problema e ressaltam a necessidade da técnico.
análise humana para solucioná-lo.

62 Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009


Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de

QUADRO 1
Lista de erros de lematização

Vale observar que quanto menor for o índice de análises em busca de comprovação da questão
variabilidade dos termos no agrupamento, maior central da pesquisa: a possibilidade de uso da
é a sua precisão na representatividade e coesão de mineração de textos para extração de informações
conteúdo. Identificou-se, portanto, o agrupamento para apoiar a construção de indicadores de ciência
de número 10 como sendo o mais coeso, por ter e tecnologia.
apresentado o menor coeficiente (0,0876160473).
Some-se a este fato o de que os termos que formam O agrupamento 10 foi, portanto, o selecionado
o agrupamento (material, + reciclar, + resíduo, + para o aprofundamento das análises em busca
plástico, + processar)3 sugerem que o seu tema de informações para apoiar a construção de
central está voltado para a preocupação com o meio indicadores. Esse agrupamento foi analisado sob
ambiente, estímulo interessante para o objetivo dois aspectos: a) classificação dos documentos e b)
geral desta pesquisa. Assim, o agrupamento 10 termos minerados, conforme detalhado a seguir.
foi considerado o ideal para aprofundamento das
a) Classificação dos documentos
3
O sinal “+” que antecede a maioria dos termos indica que se
trata de um termo que representa uma classe de termos, como por A primeira análise que se fez no agrupamento 10
exemplo: +reciclar representa: recicla, reciclada, reciclado, reciclador,
recicladora, reciclando, reciclagem, entre outros termos. foi realizada considerando-se o assunto, campo

Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009 63


Hélia de Sousa Chaves Ramos / Marisa Bräscher

QUADRO 2
Lista de agrupamentos e termos

Agrupa- Peso Frequência Variabilidade


mento (presença (quantidade dos termos no Termos de Agrupamento
na base) documentos) agrupamento

1 5% 120 0,1032064562 + óleo, + químico, + usar, + processar, + utilizar


2 19% 464 0,1139042878 + produto, + alimentar, + processar, + dever, + comer
3 5% 122 0,1075986813 + químico, + produto, + produzir, + técnico, + resumir
4 20% 485 0,1144369151 + material, + utilizar, + fonte, + usar, + processar
5 5% 115 0,1017080841 + animal, + alimentar, + agricultura, + dever, + produção
6 7% 172 0,0941117077 + cultivar, + solar, + plantar, + dever, + apresentar
7 8% 193 0,1034777388 + máquina, + fornecedor, + utilizar, + elaborar, + usar
8 6% 136 0,099722373 + identificação, responsável, + necessário, + dever, + informação
9 2% 37 0,093348348 + espécie, + criação, + animal, + alimentar, + formar
10 3% 84 0,0876160473 + material, + reciclar, + resíduo, + plástico, + processar
11 10% 231 0,0976318382 fax, + fornecedor, + equipamento, + máquina, + indústria
12 10% 242 0,1193337586 + químico, + utilizar, + usar, + resumir, + processar
Total de documentos: 4 2.401
4
Vale observar que, para efeito do tratamento estatístico, o corpus da base de trabalho, 6.041 documentos, foi automaticamente subdividido
pela ferramenta utilizada em três arquivos, sendo um com 40% dos documentos, os quais são utilizados nos processamentos, e dois contendo,
cada um, 30% dos documentos, que são reservados para validação. Portanto, os 2.401 documentos minerados representam estatisticamente
o corpus total da base de trabalho.

da base que apresenta a classificação da Resposta evidenciado o diferencial de se utilizar a DCT


Técnica (RT), de acordo com uma tabela de assuntos para exploração de informações ocultas em
adaptada da Tabela CNAE (Classificação Nacional documentos textuais. A seguir, estão descritas
de Atividades Econômicas). algumas particularidades da análise que fundamentam
essa afirmativa.
Os 84 documentos do agrupamento trazem uma
diversidade de assuntos característica da base de Tome-se como base, por exemplo, o termo “resíduo”,
RTs. Mesmo agrupados, dada a sua inter-relação em presente em 70% dos documentos do agrupamento
torno de um tema central, os documentos obtiveram 10, sob vários aspectos – coleta, estocagem,
44 diferentes classificações, 34 das quais ocorrendo embalagem, acondicionamento, tratamento,
apenas uma vez, conforme detalhado no quadro 3, disposição, transporte, descarte, incineração,
a seguir.. aproveitamento. O termo está relacionado a vários
tipos de materiais de diversas origens (alimentos,
À primeira leitura dos assuntos, já se observa a plásticos, vidros, nylon, gesso, madeira, borracha,
coerência entre os documentos, que, de maneira sucatas metálicas, couro, dejetos humanos, óleos,
geral, sugerem tratar de temas diversos, contudo, materiais de construção, entulhos, embalagens de
com uma visão central: o de tratamento e/ou remédios, lixo hospitalar, lixo biológico, aterro
reaproveitamento de materiais de diferentes sanitário, materiais eletroeletrônicos, resinas) e de
naturezas para fins diversos. diferentes naturezas: química, industrial, biológica,
urbana, farmacêutica.
b) Análise dos termos minerados
Pode-se observar que todos os documentos
A partir da extração dos termos, foi possível do agrupamento trazem consigo, implícita ou
aprofundar um pouco mais as análises, ficando explicitamente, uma preocupação, e até mesmo

64 Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009


Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de

QUADRO 3
Lista geral de assuntos do agrupamento 10

Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009 65


Hélia de Sousa Chaves Ramos / Marisa Bräscher

certo comprometimento, com o meio ambiente. Isso Esse pode ser visto como um dos temas de destaque
fica claro quando se analisam os termos resultantes do SBRT que merece ser explorado para a extração
da mineração nos documentos, embora eles não de informações úteis à construção de indicadores, vez
tenham sido classificados sob a categoria “meio que se trata de um assunto de extrema importância
ambiente”. para a sociedade. Em sendo o meio ambiente uma
preocupação nacional, a análise aprofundada dessas
Em suma, a aplicação da DCT proporcionou a soluções tecnológicas poderia facilmente nortear
visualização das fortes relações existentes entre ações governamentais de incentivo a iniciativas que
documentos que aparentemente não teriam de fato contribuíssem para o bem-estar social.
interação entre si, caso fossem consideradas apenas
as classificações e palavras-chave que lhes foram Entende-se que uma forma de melhor explorar esse
atribuídas. conteúdo seria o cruzamento dos dados obtidos a
partir da DCT com os demais dados disponíveis
Outro exemplo interessante de ser citado é o fato no sistema de informação. Isso possibilitaria a
de algumas RTs do agrupamento 10 tratarem identificação, por exemplo, de regiões onde estariam
de assuntos tão diversificados e aparentemente sendo empreendidos determinados esforços, que
distanciados do tema central identificado, ou seja, tipo de empresa ou o perfil do empreendedor busca
o meio ambiente. Eis alguns exemplos: fabricação essas orientações, assim como os tipos de iniciativas
de brinquedos (jogos recreativos, bolinhas de gude); que poderiam ser associadas umas às outras em
fabricação de vassouras, produção de energia elétrica; busca de melhor aproveitamento dos esforços
fabricação de sofás. No entanto, um olhar mais empreendidos.
aproximado revelou que as RTs se enquadram com
perfeição no tema, dada a natureza das matérias- Acredita-se que, a partir de dados como esses, que
primas utilizadas. A fabricação de vassouras e sofás expõem a preocupação do microempresário e do
utiliza como matéria-prima garrafas PET recicladas, empreendedor brasileiro em buscar orientações para
assim como a produção de energia elétrica, fruto atuar no setor produtivo em consonância com os
do calor emanado pela queima desse produto. Os anseios do bem-estar público, poder-se-á chegar a
jogos recreativos são feitos de papel reciclado e as níveis de decisões estratégicas que facilitem essas
bolinhas de gude são produzidas a partir de sucatas ações e produzam melhores resultados a menores
de vidro. custos.

Detectou-se, ainda, outra natureza de envolvimento CONSIDERAÇÕES FINAIS


com o meio ambiente em RTs do agrupamento,
pela presença de expressões como “padrões A aplicação da DCT é ainda uma atividade muito
de emissão de efluentes”, “normas técnicas”, pouco explorada no Brasil, conforme foi possível
“legalização”, “legislação”, “procedi-mentos legais”, detectar pela escassez de literatura em língua
“licenciamento ambiental”, as quais sugerem uma portuguesa sobre o tema. Muitos dos documentos
preocupação dos microempresários em exercer suas localizados estão inseridos em áreas como
atividades de forma regulamentar, dentro de padrões informática e estatística, nas quais se pesquisam
que preservem o meio ambiente. temas relacionados à descrição de metodologias,
funcionalidades de ferramentas de mineração, ou
Em todo o agrupamento, visualiza-se a presença tratamentos estatísticos, lingüísticos, indexação
marcante de termos como “aproveitamento”, automática e bases de dados. Não foram localizados
“reaproveitamento”, “reciclagem”, “resíduos”, muitos documentos em língua portuguesa tratando
“recuperação”, “sucatas”, “descontaminação”, de análise de conteúdos utilizando a DCT. Entende-
“produção limpa”, os quais evidenciam processos se, portanto, que esta pesquisa apresentou um grau de
condizentes com questões ambientais.

66 Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009


Aplicação da descoberta de conhecimento em textos para apoio à construção de indicadores infométricos para a área de

ineditismo, por ser pioneira no estudo desta técnica analisado. A despeito da energia despendida nos
aplicada a conteúdos de informação tecnológica, repetidos processamentos e análises aprofundadas
voltada à aplicação dos conhecimentos gerados em que se fazem necessários à aplicação da DCT, os
prol do setor produtivo de pequeno porte. resultados comprovam ser compensador lançar mão
desse recurso para a extração de conhecimento de
A aplicação da DCT nos conteúdos textuais do conteúdos textuais anteriormente desconhecidos e
Serviço Brasileiro de Respostas Técnicas trouxe à pouco valorizados.
tona uma diversidade de informações agrupadas
que não poderiam ter sido visualizadas sem o uso
AGRADECIMENTO
dessa técnica, cuja capacidade de extrair informações
ocultas em acervos textuais os transforma em Agradecemos à Coordenação da rede SBRT, pela
preciosas fontes de novos conhecimentos. O estudo liberação dos dados, e ao SAS Institute Brasil Ltda.,
demonstrou que a DCT pode aproximar textos de pela cessão das ferramentas, elementos essenciais à
temas aparentemente díspares e, assim, proporcionar realização do estudo que deu origem a este artigo, assim
um mergulho diferenciado no conteúdo existente como à Diretoria do Ibict, pelo apoio incondicional ao
visando seu melhor aproveitamento. Além disso, desenvolvimento da pesquisa.
pode propiciar a identificação de informações
inesperadas, como, por exemplo, a preocupação dos
microempresários com os aspectos regulatórios e Artigo submetido em 19/01/2009 e aceito em 06/02/2009.
legais e com as questões ambientais. O conhecimento
desses aspectos é valioso para a condução de
políticas públicas que visem explorar esse potencial REFERÊNCIAS
identificado.
AIRES, Rachel Virgínia Xavier. Uso de marcadores estilísticos para a busca
na Web em português. Orientadora: Profa. Dra. Sandra Maria Aluísio,
As informações obtidas por meio da aplicação da Co-orientadora: Dra. Diana Santos. 2005, 202 p. Tese (Doutorado
DCT podem se configurar em importantes fontes em Ciências de Computação e Matemática Computacional)-USP-
para a construção de indicadores, onde será possível São Carlos- Instituto de Ciências Matemáticas e de Computação
- ICMC-USP.
identificar os impactos sociais de um serviço criado
pela aplicação de recursos públicos destinados a BRÄSCHER, M. Tratamento automático de ambigüidades na recuperação
Ciência e Tecnologia. A partir do cruzamento dos da informação. 290 f. Tese (Doutorado em Ciência da Informação) -
Curso de Pós-graduação em Ciência da Informação, Universidade
dados extraídos na mineração de conteúdos textuais de Brasília, Brasília, 1999.
(Respostas Técnicas) com os metadados disponíveis
na base de dados de Respostas Técnicas, será possível BRASIL. Ministério da Ciência e Tecnologia. Indicadores de Ciência
& Tecnologia – 2002. Brasília: MCT, 2004, 140 p. ISSN 1413-3148.
extrair os mais diversos tipos de indicadores que Disponível em: < http://www.mct.gov.br/index.php/content/
possam nortear ações futuras, como, por exemplo, view/3770.html>. Acesso em: 18 jan. 2009.
as regiões do país em que determinados temas estão
FAYYAD, U., et al. From Data Mining to Knowledge Discovery in Databases.
sendo mais explorados; o tipo de cliente que lida AI Magazine, Fall 1996, p. 37-53. Disponível em: < http://www.
com determinado assunto e com que finalidades; daedalus.es/fileadmin/daedalus/doc/MineriaDeDatos/fayyad96.
ou que tipo de técnica está sendo utilizada para a pdf>. Acesso em 10 jan. 2009.
produção determinados produtos. HEARST, Marti. Untangling Text Data Mining. In: Proceedings of
ACL’99: the 37th Annual Meeting of the Association for Computational
Extrapolando os limites do estudo de caso da Linguistics, University of Maryland, June 20-26, 1999 (invited paper).
pesquisa, entende-se que os resultados alcançados Disponível em: <http://www.sims.berkeley.edu/~hearst/papers/
acl99/acl99-tdm.html>. Acesso em: 12 jan. 2009.
podem ser vistos como teste de utilização da
DCT, uma prática aplicável a outros conteúdos KONDO, Edson Kenji. Desenvolvendo indicadores estratégicos em ciência e
informacionais com características semelhantes ao tecnologia: as principais questões. Ciência da Informação, 1998, vol.27,
no.2, p. 128-133.

Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009 67


Hélia de Sousa Chaves Ramos / Marisa Bräscher

LUCAS, Marty. Mining in textual mountains. Mapa Mundi Magazine, TAN, A.-H. Text mining: The state of the art and the challenges. In:
disponível em <http://mappa.mundi.net/trip-m/hearst/>. Acessado Proceedings of the Pacific Asia Conference on Knowledge Discovery and Data
em 18 jan. 2009. Mining – PAKDD’99 Workshop on Knowledge Discovery from Advanced
Databases, Beijing, p. 65–70, 1999. Disponível em: < http://www.
LE COADIC, Yves F. Mathématique et statistique en science ntu.edu.sg/home/asahtan/Papers/tm_pakdd99.pdf>. Acesso em:
de l’information et en science de la communication: Infométrie 18 jan. 2009.
mathématique et infométrie statistique des revues scientifiques.
Ciência da Informação. Brasília, DF. v. 34, n. 3, p.15-22, set./dez. 2005. TRYBULA, W. J. Text mining. Annual Review of Information Science and
Disponível em: <http://revista.ibict.br/index.php/ciinf/article/ Technology, vol. 34, 1999, p. 385-419.
view/818/0>. Acesso em: 18 jul 2009.
VELHO, L. Estratégias para um sistema de indicadores de C&T no
QUONIAM, Luc, TARAPANOFF, Kira, ARAÚJO JÚNIOR, Brasil. Parcerias estratégicas, Brasília, Brasil, v. 13, n. -, p. 109-121,
Rogério Henrique, ALVARES, Lillian. Inteligência obtida pela aplicação 2001. Disponível em: < http://www.cgee.org.br/arquivos/pe_13.
de data mining em base de teses francesas sobre o Brasil. Ciência da Informação, pdf>. Acesso em: 25 jun. 2009.
Brasília, v. 30, n. 2, p. 20-28, maio/ago. 2001. Disponível em: <http://
revista.ibict.br/index.php/ciinf/article/viewFile/183/162>. Acesso WEISS, Sholom, INDURKHYA, Nitin, ZHANG, Tong e
em 15 jan. 2009. DAMERAU, Fred. Text Mining: Predictive Methods for Analyzing
Unstructured Information. Springer, New York, 2005.237 p.
SCHIESSL, José Marcelo. Descoberta de Conhecimento em Texto aplicada a
um sistema de atendimento ao consumidor. Orientador: Profa. Dra. Marisa WIVES, Leandro Krug. Utilizando conceitos como descritores de textos
Bräscher, 2007. Dissertação (Mestrado em Ciência da Informação) para o processo de identificação de conglomerados (clustering) de documentos.
– Departamento de Ciência da Informação e Documentação, Orientador: Oliveira, José Palazzo Moreira de, 2004. 126f : il.
Universidade de Brasília. Disponível em: < http://bdtd.bce.unb. Tese(Doutorado)-Universidade Federal do Rio Grande do Sul. Porto
br/tedesimplificado/tde_busca/arquivo.php?codArquivo=1538>. Alegre: Programa de Pós-Graduação em Computação. Disponível
Acesso em: 18 jan. 2009. em: <http://www.lume.ufrgs.br/handle/10183/4576>. Acesso em:
16 jan. 2009.
SARTORI, R. ; PACHECO, R. C. dos S. . Indicadores de Ciência,
Tecnologia e Inovação: a interação humana nos grupos de
pesquisa. In: VII Congreso Iberoamericano de Indicadores de
Ciencia y Tecnología, 2007, São Paulo. Annales del VII Congreso
Iberoamericano de Indicadores de Ciencia y Tecnología - Nuevos
Indicadores para Nuevas Demandas de Información. Buenos Aires
: RICYT, 2007, 2007.

68 Ci. Inf., Brasília, v. 38, n. 2, p. 56-68, maio/ago. 2009