Вы находитесь на странице: 1из 8

6.

5 SOBEK: O RECURSO PARA MINERAÇÃO DE TEXTOS

Esta ferramenta tem por objetivo facilitar a compreensão de


textos, sem necessariamente ter que lê-los na íntegra. Vale lembrar, que
a utilização desta ferramenta não elimina a necessidade de o professor
fazer a leitura completa das produções de seus alunos. A intenção é
proporcionar recursos para que o acompanhamento do processo
aconteça de forma mais dinâmica, em menor tempo, para que o
professor possa se dedicar aos casos específicos que demandam maior
atenção e mediação.
A ferramenta Sobek foi construída com base na linguagem de
programação Java e utilizou, para construção dos grafos, a API
(Application Programm Interface). A ferramenta trabalha com textos
puros, isto é, sem formatações ou imagens e pode ser utilizada de duas
formas: na mineração direta de textos ou partindo de uma base de
conceitos (LORENZATTI et al., 2007).
a) Minerando Textos
Utilizando a opção de Mineração de Textos, a ferramenta retorna
como resultado um grafo. Este apresenta os conceitos tratados com
maior recorrência e seus relacionamentos. A Figura 22 representa a
primeira opção de uso desta ferramenta. Destaca-se que, para textos
pequenos, o resultado da mineração pode ser insatisfatório uma vez que
o número de recorrência dos termos costuma ser baixo.
Figura 1. Minerando Texto

Outra maneira de minerar textos é a partir da construção de uma


base de conceitos feita através da mineração de um conjunto de textos.
Isto é, pode-se importar um texto (ou copiar e colar ele na aba
‘mineração’) e clicar em ‘Minerar’. Automaticamente uma base de
conceitos é formada. Se esse processo acontecer com dois ou mais
textos, todos os conceitos extraídos destes formarão uma única base de
conceitos. Esse processo gera uma base de dados mais abrangente que
influencia no resultado do grafo referente à produção do aluno.
A Figura 23 é resultado da primeira opção descrita para esta
ferramenta. Isto é, o grafo é produto do texto presente na figura
‘Minerando Texto’. De outro lado, a Figura 24 é resultado da mineração
do mesmo texto utilizado anteriormente, porém tendo como base um
conjunto de conceitos. Logo, é possível observar que grafos gerados a
partir de uma base de conceitos apresentam um maior número de
vértices (vértices correspondem aos conceitos) e arestas (representam a
ligação entre os conceitos). Isso mostra que construir uma base de
conceitos para a mineração de textos contribui para a abrangência do
grafo.

Figura 2. Grafo de Texto


Figura 3. Grafo da Base de Conceitos

A próxima seção descreve a forma como a ferramenta Sobek


manipula a base de conceitos.
b) Manipulando a base de conceitos
A ferramenta Sobek possibilita que se edite uma base de conceitos
ou que se crie uma base ‘manualmente’. Essa funcionalidade foi
desenvolvida com o objetivo de atender a seguinte situação: um
professor solicita que os alunos desenvolvam um resumo sobre
determinado assunto, com base na bibliografia indicada (LORENZATTI,
2007). Assim, antes de minerar os resumos escritos, o professor pode
criar uma base de conceitos utilizando a bibliografia indicada por ele.
A Figura 25 representa uma base criada a partir de um conjunto
de textos. Nela, a coluna da esquerda contém todos os conceitos
extraídos da bibliografia indicada. Quando um conceito desta lista é
selecionado, na coluna do meio aparecem os conceitos relacionados à
este. Tal relação representa uma ligação (aresta) entre os conceitos
(vértices) no grafo. Para adicionar ou remover os conceitos
selecionados, basta utilizar os botões ‘>>>’ e ‘<<<’.
Figura 4. Base de Conceitos

Na área inferior da ferramenta, o campo ‘conceito’ possibilita que


se adicionem conceitos à base de forma ‘manual’. Destaca-se que
alguns conceitos são tratados pela ferramenta como conceitos
compostos, porque são formados por outros dois conceitos. Por
exemplo: ‘avaliação processual’ e ‘avaliação somativa’. Aqui, a
ferramenta insere automaticamente na lista os conceitos ‘avaliação’,
‘processual’ e ‘somativa’, conforme mostra a Figura 26.
Figura 5. Criando Base de Conceitos

Ao salvar uma base de conceitos, esta será armazenada em forma


textual destacando os conceitos principais e outros que estejam
relacionados a eles. Com isso, pode-se editar a base de conceitos
utilizando-se de um editor de textos (LORENZATTI, 2007).
c) O processamento e o grafo
A primeira etapa do processamento compreende a análise léxica,
onde o texto é desmembrado palavra por palavra. A seguir, todos os
conceitos extraídos são submetidos a análise estatística. Nesse
momento, com base nos dados estatísticos, é criada a base de conceitos
que posteriormente auxiliará na construção do grafo. O passo seguinte
consiste na remoção de palavras que não agregam significado ao texto,
tais como: artigos, conjunções dos verbos ser, estar, ter e haver, bem
como de pronomes.
Feito isso, e em posse da análise estatística, cria-se o grafo. Nessa
atividade, parâmetros como freqüência absoluta e tamanho do conceito
(se simples ou composto) são analisados. A interface do Sobek permite
selecionar o tamanho do grafo desejado. Dentre as opções tem-se:
pequeno, médio, grande e enorme. Os tamanhos dos grafos obedecem a
perfis de configuração, uma vez que os mesmos contêm os parâmetros
utilizados na mineração dos textos. Tais parâmetros definem, por
exemplo, o número mínimo de ocorrências que um termo deve ter para
integrar-se ao grafo (LORENZATTI, 2007).
As Figuras 27 e 28 foram geradas utilizando o mesmo texto
contido na figura ‘Minerando Texto’. Tais grafos foram gerados a partir
do perfil escolhido pelo usuário.

Figura 6. Grafo Pequeno

Figura 7. Grafo Médio


Destaca-se que no Sobek os vértices do grafo possuem mais de
uma palavra, assim, criou-se uma métrica que faz a seleção dos
conceitos e conseqüentemente dos vértices. No momento da seleção, a
semelhança entre os conceitos é avaliada, bem como o tamanho dos
mesmos (número de palavras) e a freqüência absoluta. Para isso, o
cálculo é realizado entre conceitos semelhantes (composto de mesma
palavra), priorizando os maiores, que expressam idéias mais
abrangentes (LORENZATTI, 2007).
Com base na adaptação do Sobek no Editor de Texto Coletivo,
onde então, o recurso passa a ser chamado de Rede de Conceitos, este
estudo continua com a descrição da Metodologia desenvolvida nesta
pesquisa.

Вам также может понравиться