Академический Документы
Профессиональный Документы
Культура Документы
BRASLIA
2004
BRASLIA
2004
Ariadne e Luciana
Ao
Grupo
Stela,
participante
do
projeto
RESUMO
A Plataforma Lattes um conjunto de sistemas de informao, bases de dados e portais
Web voltados para a gesto de Cincia e Tecnologia, mantida pelo CNPq Conselho
Nacional de Desenvolvimento Cientfico e Tecnolgico, fundao ligada ao Ministrio
da Cincia e Tecnologia. A disponibilidade de uma rica fonte de informaes sobre a
pesquisa nacional existente na Plataforma Lattes abre oportunidades para a gerao de
conhecimento em Cincia & Tecnologia. Para explorar este potencial de conhecimento,
sero apresentados dois estudos de caso. No primeiro buscou-se caracterizar
orientadores responsveis por casos de sucesso do Programa de Iniciao Cientfica do
CNPq. No segundo estudo, o objetivo foi a identificao de linhas de pesquisa de um
grupo de docentes, coerente com a sua produo cientfica e tecnolgica, tomada da
base de dados de currculos da Plataforma Lattes. No desenvolvimento dos estudos de
caso foram aplicadas tcnicas de Minerao de Dados (MD), no primeiro caso, e de
Minerao de Texto (MT), no segundo. Os padres encontrados nos processos de MD e
MT foram interpretados por especialistas visando facilitar a transio padroconhecimento situada na interface entre as reas de Descoberta de Conhecimento em
Bases de Dados (DCBD) e Gesto do Conhecimento (GC). As principais contribuies
deste trabalho foram: (a) um mtodo para interpretao de padres desenvolvidos a
partir da Ontologia da Linguagem, no contexto de DCBD; (b) gerao de conhecimento
organizacional; e (c) explorao de novas possibilidades para a gerao de
conhecimento organizacional a partir da Plataforma Lattes.
ABSTRACT
The Plataforma Lattes is a framework composed by a set of information systems,
databases, and Web portals addressed to Research and Development (R&D)
management. CNPq - Brazilian Council of National Research and Technological
Development, a foundation from the Ministry of R&D, maintains this framework. The
availability of a rich source of information about R&D represents opportunities for
creating knowledge in this realm. Exploring this potential of knowledge generation, two
cases will be described. Firstly, the search for the characterization of professors who
oriented students in Scientific Started Programs of CNPq. Secondly, the identification of
research lines made by a group of professors, consistent with their scientific and
technological production, extracted by Plataforma Lattess databases. In the study
cases, techniques of Data Mining (DM) and Text Mining (TM) were used. The patterns
that have been found by DM and TM processes were interpreted by experts, envisioning
to improve the transition pattern/knowledge that exist into the interface between
Knowledge Discovery in Databases (KDD) and Knowledge Management (KM). The
main contributions of this dissertation were: (a) an interpretation method for patterns
developed using the Language Ontology as example; (b) organizational knowledge
creation; (c) explore new ways to create organizational knowledge using the
Plataforma Lattes.
Keywords: knowledge management, data mining, text mining, knowledge discovery,
Plataforma Lattes.
SUMRIO
RESUMO ...............................................................................................................................................VI
ABSTRACT......................................................................................................................................... VII
LISTA DE FIGURAS ........................................................................................................................... 10
LISTA DE TABELAS........................................................................................................................... 12
LISTA DE TABELAS........................................................................................................................... 12
CAPTULO 1......................................................................................................................................... 13
1
INTRODUO ........................................................................................................................... 13
1.1
1.2
1.3
JUSTIFICATIVA ...................................................................................................................... 15
1.4
OBJETIVOS ............................................................................................................................ 16
1.4.1
1.4.2
1.5
REVISO DA LITERATURA..................................................................................................... 17
1.6
1.7
1.8
SUPOSIES .......................................................................................................................... 18
CAPTULO 2......................................................................................................................................... 19
2
REVISO DA LITERATURA................................................................................................... 19
2.1
A PLATAFORMA LATTES....................................................................................................... 19
2.1.1
2.1.2
2.2
2.2.1
2.2.2
Gesto do Conhecimento................................................................................................. 36
2.3
2.3.1
Conceito .......................................................................................................................... 54
2.3.2
Histrico.......................................................................................................................... 54
2.3.3
Etapas .............................................................................................................................. 55
2.4
2.5
2.5.1
Tarefas Bsicas................................................................................................................ 64
2.5.2
2.5.3
2.5.4
2.5.5
Abordagens Hbridas....................................................................................................... 74
2.5.6
2.6
2.6.1
Minerao de Texto......................................................................................................... 85
2.6.2
Tarefas Bsicas................................................................................................................ 86
2.6.3
2.7
2.7.1
2.7.2
Juzos............................................................................................................................... 94
CAPTULO 3......................................................................................................................................... 96
3
METODOLOGIA........................................................................................................................ 96
3.1
3.1.1
3.1.2
3.2
3.2.1
3.2.2
3.3
3.4
3.4.1
3.4.2
3.4.3
4.1.2
4.2
4.2.1
5
LISTA DE FIGURAS
LISTA DE TABELAS
13
CAPTULO 1
1 INTRODUO
1.1 Contexto da Pesquisa
Nos ltimos anos, a larga utilizao de sistemas de informtica deu origem a grandes
bases de dados, a partir do armazenamento de informaes coletadas incessantemente atravs
dos mais diversos sistemas de automao.
Segundo diversos autores, a maior riqueza destas grandes bases ainda no est sendo
devidamente explorada, e sugerem que podem ser utilizadas tcnicas especficas para se
extrair delas conhecimentos no explcitos. Este assunto tratado atravs de DCBD Descoberta de Conhecimento de Bases de Dados, do ingls KDD - Knowledge Discovery in
Databases. Segundo Fayyad [FAYYA96], DCBD o processo no trivial de identificar, em
dados, padres vlidos, novos e potencialmente teis.
Minerao de Dados a parte deste processo onde se produzem conjuntos de padres
a partir da aplicao de algoritmos de explorao. Vale-se de diversos algoritmos que
processam os dados e encontram esses "padres vlidos, novos e potencialmente teis".
Entretanto, embora os algoritmos atuais sejam capazes de descobrir padres "vlidos e
novos", ainda no existe uma soluo eficaz para determinar padres potencialmente teis.
Assim, Minerao de Dados ainda requer uma interao muito forte com analistas humanos,
que so, em ltima instncia, os principais responsveis pela determinao do valor dos
padres encontrados. Alm disso, a conduo do direcionamento da explorao de dados
tambm tarefa fundamentalmente confiada a analistas humanos.
A Plataforma Lattes, uma iniciativa do Ministrio da Cincia e Tecnologia atravs do
CNPq1, constitui-se atualmente em um grande acervo de informaes sobre os pesquisadores
e sua produo cientfica e tecnolgica, atravs do Currculo Lattes, o formulrio eletrnico
14
do MCT2, do CNPq, da FINEP3 e da CAPES4; sobre os grupos de pesquisa existentes nas
universidades, nas empresas e outras instituies ligadas pesquisa cientfica; sobre as
instituies que participam de projetos ligados ao CNPq e/ou mantm grupos de pesquisa.
No contexto da Gesto do Conhecimento, a Plataforma Lattes apresenta um grande
potencial de gerao de conhecimento que pode ser utilizado na gesto da Cincia e
Tecnologia. As diversas possibilidades de explorao dos dados armazenados podem trazer
valiosas informaes sobre o modus operandi da produo cientfica e tecnolgica
desenvolvida no pas.
Este trabalho apresenta uma proposta de utilizao de tcnicas de Descoberta de
Conhecimento em Bases de Dados sobre os dados da Plataforma Lattes, com o objetivo de
gerar conhecimento que possa ser utilizado na gesto de Cincia e Tecnologia.
Tem o objetivo tambm de demonstrar que a Descoberta de Conhecimento em Bases
de Dados pode ser utilizada como uma poderosa ferramenta para a gerao de conhecimento,
etapa fundamental dos processos de Gesto do Conhecimento.
15
A explorao das informaes tratadas pela Plataforma Lattes representa uma
oportunidade para a descoberta de conhecimento. Encontram-se armazenados vrios
gigabytes de dados sobre os itens anteriormente citados.
Entretanto, esta explorao no uma atividade simples. O grande volume de dados, a
diversidade de informaes coletadas, o grande nmero de relaes possveis torna o trabalho
de extrao de conhecimento uma tarefa que exige a utilizao de tcnicas sofisticadas.
Outro desafio observado est na necessidade de facilitar o processo de anlise e
avaliao dos resultados dos algoritmos de minerao de dados e minerao de texto. A
identificao do que realmente til e que pode acrescentar conhecimento organizao
uma das tarefas mais importantes de todo o processo.
Atualmente, os gestores de cincia e tecnologia se beneficiariam da obteno de
informaes como:
a) Definio de perfis de pesquisadores.
b) Definio de padres de produtividade.
c) Identificao de taxonomia.
d) Descoberta de relaes entre pesquisadores.
e) Descoberta de relaes entre grupos de pesquisa.
f) Identificao de pesquisadores por rea de atuao e sua relao com grupos de
pesquisa.
O problema a ser explorado neste trabalho refere-se utilizao de tcnicas de
Minerao de Dados e Minerao de Texto na Plataforma Lattes, com o objetivo de gerar
conhecimento organizacional a partir do estabelecimento de relaes entre os dados
armazenados. Atravs de modelos de Descoberta de Conhecimento em Bases de Dados e de
Gesto de conhecimento, pretende-se estabelecer um conjunto de possveis aplicaes para a
Minerao de Dados na Plataforma Lattes, com a conseqente gerao de conhecimento para
a gesto de Cincia & Tecnologia.
1.3 Justificativa
A realizao deste trabalho justifica-se pela necessidade de se obter conhecimento
organizacional em gesto de Cincia & Tecnologia para subsidiar as decises relacionadas a
esta atividade (e.g. definio de prioridades, organizao de grupos de pesquisa, alocao de
recursos, entre outras), explorando a possibilidade de obteno de conhecimento
16
organizacional a partir da aplicao de tcnicas de Minerao de Dados e Minerao de
Textos na base da Plataforma Lattes, utilizando um enfoque relacionado com a Gesto do
Conhecimento. A utilizao de algoritmos e ferramentas de Minerao de Dados pode revelar
relaes importantes entre os dados armazenados, e permitir uma conseqente gerao de
conhecimento organizacional.
Este conhecimento, devidamente tratado em um contexto de Gesto de Conhecimento
pode vir a ser til nos processos de tomada de deciso dos gestores de Cincia e Tecnologia,
seja a nvel federal, estadual, acadmico ou empresarial.
1.4 Objetivos
1.4.1 Objetivo Geral
O objetivo deste trabalho estudar tcnicas de Minerao de Dados e definir
aplicaes destas tcnicas na base de dados do Currculo Lattes, para prover os gestores de
Cincia & Tecnologia de ferramentas que permitam utilizar o conhecimento no explcito
presente neste grande conjunto de dados sobre a produo cientfica e sobre os pesquisadores.
Esse conhecimento gerado dever ser tratado em um contexto de Gesto do Conhecimento
para sua utilizao em processos de gesto de Cincia & Tecnologia.
17
18
d) Identificao de perfis de pesquisadores a partir de suas informaes curriculares.
e) Identificao de competncias dos pesquisadores a partir de suas informaes
curriculares.
f) Identificao de linhas de pesquisa a partir das informaes da produo cientfica
e tecnolgica dos pesquisadores.
1.8 Suposies
O trabalho proposto tratou das seguintes suposies:
a) vivel a utilizao de tcnicas de Minerao de Dados e Minerao de Textos
para disponibilizar ao usurio final acesso facilitado aos resultados obtidos em
pesquisas na base de dados.
b) possvel extrair conhecimento til da base de dados do Currculo Lattes atravs
da utilizao de tcnicas de Minerao de Dados e Minerao de Textos.
a) A Descoberta de Conhecimento em Bases de Dados pode ser utilizada no contexto
da Gesto do Conhecimento para a gerao de conhecimento organizacional.
19
CAPTULO 2
2 REVISO DA LITERATURA
2.1 A Plataforma Lattes
A Plataforma Lattes um conjunto de sistemas de informao, bases de dados e
portais Web voltados para a gesto de Cincia e Tecnologia [CNPQ03].
composta pela integrao de sistemas de informaes distintos:
a) Currculo Lattes
b) Diretrio de Grupos de Pesquisa
c) Diretrio de Instituies
d) Sistema Gerencial de Fomento
Currculo Lattes
20
processos. O projeto foi lanado em agosto de 1999, e, de uma base inicial de
aproximadamente 35 mil currculos cadastrados, passou-se atualmente para um total de
aproximadamente 350 mil currculos, um aumento de aproximadamente 1.000%.
O Currculo Lattes est se consolidando como uma importante ferramenta de apoio
gesto de Cincia & Tecnologia, uma vez que permitiu uma racionalizao no processo de
cadastramento, armazenamento e consulta de dados curriculares, eliminando uma srie de
outros processos semelhantes e redundantes.
2.1.1.2
O Diretrio de Grupos de Pesquisa um sistema que mantm uma base de dados com
informaes coletadas a partir de 1992. Foi desenvolvido pelo CNPq para manter informaes
sobre os grupos de pesquisa existentes no pas.
Os grupos de pesquisa podem ser definidos como um conjunto de pessoas organizadas
hierarquicamente, a partir de uma liderana de destaque no ambiente de cincia e tecnologia,
envolvidos permanentemente em atividades de pesquisa, cujo trabalho se organiza em linhas
comuns aos membros do grupo, e que, de alguma maneira, compartilhem instalaes e
equipamentos. Esto localizados em universidades, instituies isoladas de ensino superior,
institutos de pesquisa cientfica, institutos tecnolgicos, laboratrios de pesquisa e
desenvolvimento de empresas estatais ou ex-estatais e em algumas organizaes nogovernamentais com atuao em pesquisa cientfica ou tecnolgica [CNPQ03].
Os principais objetivos deste sistema so:
a) Manter um histrico das atividades dos grupos de pesquisa, preservando sua
memria.
b) Servir de base de consulta para a comunidade cientfica, que passa a contar com
uma ferramenta que permite a identificao dos membros, dos trabalhos
realizados, das linhas de pesquisa, facilitando o intercmbio entre os
pesquisadores.
c) Prover os gestores de Cincia & Tecnologia de uma ferramenta para avaliao e
planejamento dos investimentos em atividades de pesquisa, a partir de informaes
qualitativas e quantitativas sobre os trabalhos realizados no mbito dos grupos.
21
2.1.1.3
Diretrio de Instituies
2.1.1.4
2.1.2.1
Currculo Lattes
22
a) Atualizao off-line: o usurio pode instalar em seus computadores um conjunto
de programas que permite o cadastramento das informaes necessrias do
Currculo Lattes, fazer todos os ajustes necessrios e, posteriormente, transmiti-lo
para a base de dados do CNPq. Para quem no dispe de acesso rpido Internet,
ou que deseja manter as informaes em seus computadores pessoais, este o
mdulo indicado para o cadastramento e manuteno de seu currculo.
b) Atualizao on-line: o usurio pode acessar, em tempo real, a base de dados do
CNPq e efetuar o cadastramento ou a atualizao de seu currculo. Atravs de uma
interface que pode ser acessada via navegadores Web, as informaes curriculares
so cadastradas, recuperadas e atualizadas sem a necessidade de armazenamento
local.
c) Buscas textuais: a partir da base operacional do Currculo Lattes, onde esto
armazenadas as informaes cadastradas tanto via Internet quanto via programas
locais, so extradas e consolidadas as informaes curriculares necessrias ao
servio de busca textual. Atravs de um processo de indexao textual, so
disponibilizadas diversas consultas, que utilizam como parmetro tanto o nome do
usurio quanto palavras-chaves relacionadas sua produo cientfica e
tecnolgica.
23
a) Informaes gerais
a.1. Identificao
a.2. Endereo
a.3. Formao Acadmica e Titulao
a.4. Atuao profissional
a.5. reas de atuao
a.6. Idiomas
a.7. Prmios e ttulos
b) Produo Cientfica e Tecnolgica
b.1. Produo bibliogrfica
b.1.1. Trabalhos em eventos
b.1.2. Artigos publicados
b.1.3. Livros e captulos
b.1.4. Texto em jornal ou revista (magazine)
b.1.5. Demais tipos de produo bibliogrfica
b.2. Produo tcnica
b.2.1. Softwares
b.2.2. Produtos
24
b.2.3. Processos
b.2.4. Trabalhos tcnicos
b.2.5. Demais tipos de produo tcnica
b.2.6. Propriedade intelectual
b.3. Outra produo
b.3.1. Produo artstica e cultural
b.3.2. Orientaes concludas
b.3.3. Demais trabalhos
b.3.4. Outras informaes relevantes
c) Informaes complementares
c.1. Formao complementar
c.2. Participao em banca de trabalhos de concluso
c.3. Participaes em eventos, congressos e outros
c.4. Participaes em bancas de comisses julgadoras
c.5. Orientaes em andamento
2.1.2.2
25
b) Base censitria: permite consultas base de dados censitria, que o resultado de
operaes de extrao, anlise, avaliao e consolidao de informaes oriundas
da base corrente. Est disponvel para acesso atravs da Internet. Atualmente, a
ltima verso de dados disponibilizados refere-se ao Censo 2002, a partir da
apurao de informaes da verso 5.0 do sistema de captura. De acordo com
informaes do CNPq, o planejamento atual para a realizao de censos bienais,
mas, graas nova estrutura do sistema, possvel realizar a qualquer momento
totalizaes especficas, de acordo com as necessidades do governo e da
sociedade.
A base de dados do Diretrio de Grupos de Pesquisa tambm formada por dois
mdulos:
a) Base corrente: uma base de dados relacional onde esto armazenadas as
informaes dos grupos de pesquisa, cadastradas pelos seus membros. a base de
dados operacional do sistema.
b) Base censitria: uma base de dado modelada para consultas gerenciais,
utilizando totalizadores e aglomeraes. So originadas da extrao, anlise,
avaliao e consolidao de informaes oriundas da base corrente. Possui
indexao textual, o que permite a realizao de consultas sobre dados no
estruturados. Atualmente, existem consultas disponveis s bases censitrias de
1993, 1995, 1997, 2000 e 2002.
26
c) Informaes das Instituies: as informaes das instituies so obtidas a partir
do Diretrio de Instituies.
27
complexidade - busca simples, orientada e avanada. Organiza-se a partir de trs
decises iniciais tomadas pelo usurio: (i) qual informao dever ser recuperada
(busca simples); (ii) onde esta informao dever ser procurada (orientada e
avanada); e (iii) segundo quais critrios dever ser buscada (orientada e
avanada).
e) Estratificao dos grupos: o mdulo de Estratificao dos Grupos de Pesquisa
contidos no Diretrio permite classificar os grupos pertencentes s instituies de
ensino superior e a institutos de pesquisa que possuem programas de psgraduao em estratos de qualidade5.
f) Anexos: apresentada sob a rubrica de Anexos a rvore de especialidades do
conhecimento do CNPq, a lista dos setores de atividades utilizadas nesta verso do
Diretrio, a relao das instituies cujos grupos de pesquisa constam da base de
dados, a relao das instituies que no responderam solicitao do CNPq,
embora contatadas, e a lista das unidades da Federao. Essas informaes so
teis para a utilizao dos dispositivos de busca textual e de construo de
tabelas.
2.1.2.3
Diretrio de Instituies
Estratos de Qualidade: obtidos a partir de algoritmos desenvolvidos no CNPq para a identificao de nveis de
28
b) Consulta Instituies: atravs deste mdulo, possvel efetuar consultas sobre as
instituies cadastradas. Est disponvel atravs de uma interface Web.
A base de dados composta por tabelas relacionais que apresentam interaes com
todos os outros mdulos da Plataforma Lattes.
2.1.2.4
29
2.2.1.1
Dado
30
2.2.1.2
Informao
Vrios autores tentam estabelecer um conceito para informao. Paulo Foina afirma
que informao um valor, ou dado, que possa ser til para alguma aplicao ou pessoa
[FOINA01].
J Solange Resende define informao como um dado que tem o contedo e forma
apresentada de uma maneira que seja til para um processo de tomada de deciso
[REZEN03].
Entretanto, o professor Setzer prefere estabelecer uma caracterizao do termo, e no
propor uma definio. Afirma que informao uma abstrao informal (isto , no pode ser
formalizada atravs de uma teoria lgica ou matemtica), que est na mente de algum,
representando algo significativo para essa pessoa [SETZE03]. Portanto, informao tem
sentido somente quando uma pessoa recebe dados sobre um determinado elemento e forma
uma imagem mental a partir deles, ou de sua correlao com outros dados. Por exemplo, a
leitura da manchete de um jornal que estampa as aes da Petrobrs subiram 5% no ltimo
prego pode representar uma informao para uma pessoa que saiba o que Petrobrs, e que
tenha conhecimentos mnimos do mercado acionrio. Sem isso, a frase somente um
conjunto de dados.
Para ser armazenada em um computador, a informao deve ser representada na forma
de dados. Mas, ainda segundo Setzer [SETZE03], o que armazenado no computador no
informao, mas os dados que a representam. Atravs de processamento, esta representao
da informao, ou o conjunto de dados, pode ser manipulado, mas somente do ponto de vista
sinttico. O computador no altera o sentido de um conjunto de dados. Pode at modific-los
de maneira que no sejam mais inteligveis, atravs de criptografia, ou substituir uma palavra
por outra, mas o que ocorreu na mquina foi somente uma mudana sinttica, somente o
receptor humano pode empreender uma mudana semntica.
Dados e informaes so essencialmente diferentes. O primeiro tem uma caracterstica
sinttica, enquanto o segundo tem sentido somente com uma componente semntica, isto ,
deve poder ser interpretado pelo agente humano. Os computadores so fundamentalmente
sintticos, possuindo capacidade apenas para a manipulao de dados, o que no
caracterizaria o processamento de informao. Quando o computador Deep Blue6 derrotou o
31
enxadrista Garry Kasparov, o que prevaleceu foi a capacidade fenomenal de realizao de
operaes matemticas do computador. Neste caso, o computador manipulava dados, e no
informao.
2.2.1.3
Sistemas
1. Conjunto de elementos, materiais ou ideais, entre os quais se possa
encontrar ou definir alguma relao. 2. Disposio das partes ou dos
elementos de um todo, coordenados entre si, e que funcionam como estrutura
organizada [FERREI01].
As definies acima so suficientes para introduzir o conceito de sistema, que pode ser
entendido como a unio de partes coerentes para a formao de um todo. Um sistema,
normalmente, no existe de forma isolada, mas se relaciona com outros sistemas mais
abrangentes. Um sistema pode ser parte de outro maior, e ser compostos por sistemas
menores. Para cada sistema pode ser definido um espao de existncia, com fronteiras
estabelecidas. A maior ou a menor proximidade de outros sistemas definitiva para o grau de
interatividade entre eles.
Este texto no pretende explorar toda a complexidade que envolve o estudo dos
sistemas, tratado na Teoria Geral dos Sistemas. No ocidente, os trabalhos do bilogo austraco
Ludwig Von Bertalanffy representam um marco, com a apresentao de propostas para
abordagens cientficas do que se chamou todos integrados, na dcada de 1950. Este termo
teria sido citado anteriormente pelo mdico, filsofo e economista russo Alexander
Bogdanov, em 1922, mas seus trabalhos foram pouco divulgados no ocidente [UHLMA02].
2.2.1.4
Sistemas de Informao
32
computacional e eletrnica, os sistemas de informao normalmente so associados
utilizao de computadores.
Afirma o professor Antnio Vidal:
Um sistema de informao um componente do sistema organizacional,
constitudo por uma rede difundida pela empresa inteira e utilizado por todos
os seus componentes. Seu propsito obter informaes dentro e fora da
empresa, torn-las disponveis para os outros componentes, quando
necessitarem, e apresentar as informaes exigidas pelos que esto fora
[VIDAL98].
2.2.1.5
33
intrnseco ao agente, que pode se valer de recursos computacionais para incrementar sua
capacidade de aprendizado, e a construo de conhecimento.
Assim, pode-se perceber a importncia que o item dados tem no ambiente de sistemas
de informaes. Os dados so, em resumo, o que se pode efetivamente armazenar, processar,
manipular, organizar, transformar e recuperar. Em conjunto com os programas que atuam
sobre eles, os dados se constituem em uma das unidades fundamentais de qualquer sistema de
informao.
Inicialmente, os dados eram armazenados na forma de seqncias, ordenadas ou no, e
toda sua manipulao era realizada atravs de rotinas construdas pelas equipes de
programao, especficas para cada sistema. Para tal, era necessrio programar, a cada sistema
construdo, o mtodo de acesso, as rotinas de ordenao, as rotinas de controle.
Com o crescimento da utilizao dos computadores pelas empresas, e com o grande
aumento do volume de dados armazenados, fez-se necessrio o desenvolvimento de produtos
especficos para o tratamento destes dados, os quais livrassem as equipes de desenvolvimento
da necessidade de construir todas as rotinas para o seu armazenamento, processamento e
recuperao. Surgiram assim os DBMS Database Management Systems, ou sistemas
gerenciadores de bancos de dados.
Estes DBMS so constitudos de rotinas que implementam recursos para:
a) A definio da base de dados (DDL Data Definition Language), por exemplo, a
criao de tabelas, vises, ndices;
b) O controle da base de dados (DCL Data Control Language), por exemplo, a
criao de usurios, a atribuio de privilgios;
c) A manipulao dos dados (DML Data Manipulation Language), por exemplo,
para a insero, alterao e recuperao de registros nas tabelas.
So constitudos tambm de sistemas de arquivos que permitem o armazenamento de
grandes volumes de dados.
Os DBMS podem ser classificados, quanto sua estratgia de armazenamento e busca,
em:
a) Hierrquicos: as tabelas so organizadas de maneira que ocorra uma hierarquia
entre elas. Por exemplo, a tabela DEPARTAMENTOS est em uma posio
hierarquicamente superior tabela FUNCIONRIOS. Este modelo pouco
utilizado atualmente. Como vantagem, pode ser citada a capacidade de definio
34
de relaes um-para-muitos, facilitando buscas atravs da hierarquia. Como
desvantagem, o fato das definies das classes e estruturas serem fixas, no
permitindo a relao muitos-para-muitos;
b) Redes: os registros so organizados de maneira a manter apontamentos uns para
os outros. Como vantagens, possibilita flexibilidade na insero de novas
estruturas, e pesquisas complexas. Como desvantagem, a dificuldade de mapear
relaes entre diferentes conjuntos.
c) Relacionais: apresentam uma estrutura tabular inter-relacionada que contm dados
organizados em conjuntos lgicos. Foi definido formalmente pelo Dr. Codd em
1969. a tecnologia mais utilizada atualmente, atendendo a praticamente todas as
necessidades de gerenciamento de bases de dados. Como vantagens, pode ser
citada a sua estrutura que evita a redundncia de dados, a facilidade na alterao
das estruturas e a alta performance. Como desvantagens, a dificuldade para se
tratar dados complexos (e.g. vdeo, imagens), e a necessidade de grande
capacidade de processamento.
d) Orientados a objetos: ainda so considerados em um estgio de desenvolvimento,
sem que os grandes fornecedores tenham implementado verses puramente
orientadas a objetos para a utilizao em sistemas de grande porte. Utiliza
estruturas semelhantes aos bancos hierrquicos, mas oferece recursos como
herana e encapsulamento. Como vantagens, oferecem facilidades para a
implantao de projetos orientados a objetos e tratamento de dados complexos, e
como desvantagem, a necessidade de grande poder de processamento e o grande
volume de informaes trafegadas.
2.2.1.6
Conhecimento
O tema conhecimento talvez seja o que mais provoca discusses sobre o seu
entendimento, discusses essas originadas h milnios. Formalmente, o estudo dos
fundamentos filosficos do conhecimento chamado epistemologia7. Nonaka e Takeuchi
[NONAK97], estudiosos da gesto do conhecimento, defendem que a resposta para a
Epistemologia: Conjunto de conhecimentos que tm por objeto o conhecimento cientfico, visando a explicar
os seus condicionamentos (sejam eles tcnicos, histricos, ou sociais, sejam lgicos, matemticos, ou
35
pergunta o que o conhecimento? orienta a histria da filosofia ocidental desde o perodo
grego. Esta histria, da epistemologia ocidental, divide-se em duas correntes opostas, uma
racionalista e outra empirista, consideradas estas complementares pelos autores acima citados.
a) Racionalismo: afirma ser possvel adquirir conhecimento por deduo, atravs do
raciocnio.
b) Empirismo: afirma ser possvel adquirir conhecimento por induo, a partir de
experincias sensoriais.
Segundo Nonaka e Takeuchi, [NONAK97] os racionalistas argumentam que o
verdadeiro conhecimento no produto da experincia sensorial, mas sim de um processo
mental ideal. Segundo essa viso, existe um conhecimento a priori que no precisa ser
justificado pela experincia sensorial. A verdade absoluta deduzida a partir de uma
argumentao racional baseada em axiomas. Para os racionalistas os paradigmas de
conhecimento so a matemtica e a lgica, onde verdades necessrias so obtidas por intuio
e inferncias racionais. Por outro lado, os empiristas alegam no existir conhecimento a priori
e que a nica fonte de conhecimento a experincia sensorial. Por esta viso, todas as pessoas
tm uma existncia intrinsecamente objetiva, mesmo quando se tem uma percepo ilusria.
O prprio fato de se perceber alguma coisa j significativo. O paradigma desta escola a
cincia natural, onde as observaes e os experimentos so cruciais investigao.
Ambas as correntes da filosofia ocidental convergem para a mesma questo: o
conhecimento pode ser adquirido, intrnseco ao ser, e depende totalmente da experincia
individual do agente com a questo a ser transformada em conhecimento.
Quando a discusso voltada para ambientes computacionais, a questo torna-se ainda
mais complexa. Podem as mquinas desenvolver conhecimento? O que processado dado,
informao ou conhecimento? Para Valdemar Setzer [SETZE03], conhecimento uma
abstrao interior, pessoal, de algo que foi experimentado, vivenciado por algum. O
conhecimento no poderia ser formalmente descrito, o que pode ser descrito a informao.
Assim, os computadores no armazenariam nem informao nem conhecimento, mas apenas
dados.
Conhecimento diferente de informao. Informao existe quando o agente capaz
de associar conceitos. Conhecimento est relacionado com a experincia do agente em
lingsticos), sistematizar as suas relaes, esclarecer os seus vnculos, e avaliar os seus resultados e aplicaes
[FERREI01]
36
determinada situao, seja ela real ou filosfica. A vivncia de determinada situao, as
reflexes sobre um tema, associados experincia anterior constroem novos conhecimentos,
que so intrnsecos ao agente. O conhecimento no pode ser simplesmente transportado de um
agente para outro. Para tal, deve ser convertido em informaes, submetido ao outro agente,
que, a partir de suas prprias experincias e conhecimentos anteriores, vai construir mais um
conjunto de novos conhecimentos.
2.2.2.1
Conceitos
37
Gesto do conhecimento o processo de busca e organizao da expertise
coletiva da organizao, em qualquer lugar em que se encontre, e de sua
distribuio para onde houver o maior retorno [Hibbard, 1997 apud
STOLL01].
38
b) Conhecimento explcito: formal e sistemtico, pode ser expresso em palavras e
nmeros e, portanto, ser mais facilmente disseminado. o conhecimento que
passou pelo processo de formalizao que permite que seja expresso de maneira
estruturada, podendo, assim, ser armazenado artificialmente. Por exemplo: frmula
matemtica, texto cientfico, procedimentos codificados. O conhecimento
explcito aquele que est registrado de alguma forma, e assim disponvel para as
demais pessoas [TEIXE00].
Assim, o conhecimento organizacional pode ser entendido com o conhecimento,
formalizado ou no, que pode ser utilizado pelas organizaes para alcanar vantagens
competitivas. Na medida em que as organizaes forem eficientes em oferecer condies para
a criao e disseminao deste conhecimento, estar efetivamente caminhando na direo de
galgar posies no mercado.
2.2.2.2
Histrico
39
2.2.2.3
A sociedade do conhecimento
40
Pouco tempo tambm foi necessrio para que esse tipo de trabalhador da indstria
fosse substitudo por maquinrio, no crescente processo de automatizao das plantas de
fbrica. Nestas ltimas dcadas o espao para o trabalhador braal est sendo visivelmente
reduzido.
Neste contexto, surge a figura do trabalhador do conhecimento. Para atender aos
desafios de aumento de produtividade e reduo de custos das organizaes, fundamental a
presena de um novo perfil de trabalhador: um indivduo com considervel educao formal,
com alta capacidade de aprendizado, com capacidade de autogesto. Este trabalhador passa do
mero executor de tarefas para o trabalhador do conhecimento, deixa de ter seu ritmo ditado
pela mquina e passa a estabelecer a sua prpria lgica de trabalho.
Entretanto, a passagem do trabalho industrial para o trabalho com o conhecimento no
uma tarefa fcil. Ao contrrio do que ocorreu nas transformaes anteriores, onde a
necessidade de educao formal no era acentuada, permitindo que indivduos originados do
campo e de trabalhos domsticos pudessem com certa facilidade desenvolver as tarefas
necessrias nas plataformas industriais, a passagem para a nova realidade exige uma apurada
educao formal. Alm disso, habilidades manuais ainda so necessrias. Um operrio deve
ser capaz de operar uma mquina complexa, o que exige conhecimento tcnico e habilidade
manual. Drucker cita como exemplo o neurocirurgio, que um profissional que necessita de
uma excelente educao formal, obtida atravs de entidades educacionais de alto nvel, mas
que no pode abrir mo das habilidades manuais, sem as quais torna-se desqualificado
profissionalmente.
Este trabalhador do conhecimento atua em empresas e organizaes que esto
descobrindo a necessidade de se gerenciar esse conhecimento. Vrios autores citam o
conhecimento como o fator de produo mais importante deste novo mundo.
A terra, o capital e o trabalho os tradicionais fatores de produo, passam a ter um
papel secundrio diante do conhecimento [DRUCK94].
J Toffler [TOFFL94] anuncia que o conhecimento fundamental para a obteno do
poder, notadamente do poder de mais alta qualidade, e que o conhecimento tambm fator
crtico para a mudana de poder. O autor defende que o conhecimento deixou de ser um de
mero auxiliar dos poderes financeiros e administrativos, tornando-se a prpria essncia destes
poderes. Assim, o poder econmico e de produo de uma empresa moderna conseguido
muito mais em funo das capacidades intelectuais de seus membros do que em funo de
seus ativos imobilizados terra, instalaes, capital financeiro, equipamento. Segundo Quinn:
41
O valor da maioria dos produtos e servios depende principalmente de como
os fatores intangveis baseados no conhecimento podem ser desenvolvidos
[Quinn, apud NONAK97].
Podem ser citados diversos exemplos onde o conhecimento utilizado para aumentar
o valor agregado dos produtos de uma determinada organizao. Atualmente, uma lata de
alumnio para o acondicionamento de lquidos aproximadamente 80% mais fina que suas
antecessoras, utilizando, assim, menos matria prima, reduzindo o gasto de energia na sua
produo, incrementando a sua eficincia. Assim, pode-se considerar que estes resultados
financeiros oriundos da produo deste tipo de recipiente so 80% incrementados pela
utilizao de conhecimento.
Outro exemplo: atualmente, pases como os Estados Unidos da Amrica so grandes
produtores de gros. A produo de alimentos nos pases desenvolvidos cresceu muito, mas a
quantidade de mo-de-obra envolvida neste processo foi drasticamente reduzida. Este
crescimento de produo e produtividade se deve basicamente pela utilizao de
conhecimento, desde a produo das sementes, das tcnicas de preparao do solo, do
maquinrio utilizado nas fases de produo, s tcnicas de administrao e gerenciamento
destas empresas. A utilizao de conhecimento tem permitido um grande incremento na
produo agrcola destes pases, mesmo com a utilizao decrescente de mo-de-obra.
Assim, a Gesto do Conhecimento passa a ser um tema de crescente importncia para
as organizaes que desejam, atravs de uma utilizao cada vez mais eficiente de seu capital
intelectual, obter vantagens competitivas.
2.2.2.4
42
Conhecimento. Alguns autores afirmam, inclusive, que no possvel construir a Gesto do
Conhecimento sem a utilizao intensiva da Tecnologia da Informao.
Segundo Jayme Teixeira:
O desafio para a rea da Tecnologia da Informao passa a ser migrar de
uma posio de suporte a processos para o suporte a competncias
[TEIXE00].
43
tcito em conhecimento explcito, muitas vezes mais produtivo colocar os
profissionais interessados em contato, para que possam resolver os problemas em
questo, que tentar extrair o conhecimento tcito, transform-lo em explcito e
dissemin-lo. Deve ficar bem claro, entretanto, que esta linha de ao no invalida
a anterior, e a recproca verdadeira.
Assim, ambas as linhas acima podem ser desenvolvidas de maneira concomitante e
complementar, sendo que cada uma delas importante para a construo da Gesto do
Conhecimento.
Alm disso, a Tecnologia da Informao pode fornecer importantes ferramentas para a
descoberta e criao de conhecimento. Aproveitando as grandes bases de dados que foram e
esto sendo criadas, em funo da utilizao crescente de sistemas informatizados pelas
organizaes, a Tecnologia da Informao, atravs da Descoberta de Conhecimento em Bases
de Dados, pode contribuir efetivamente na etapa de criao do conhecimento.
2.2.2.5
Modelos
Descrio
American Management (1) Encontrar [criar centros de conhecimento], (2) Organizar [motivar
Systems
Arthur Andersen
Consulting
44
Modelos de GC
Descrio
Implementao de mecanismo de realimentao.
Andersen Consulting
(1) Adquirir, (2) Criar, (3) Sintetizar, (4) Compartilhar, (5) Usar para
alcanar objetivos organizacionais,
(6) Ambiente que facilita o compartilhamento do conhecimento
Dataware Technologies (1) Identificar o problema do negcio, (2) Preparar para mudana, (3)
Criar a equipe de gesto do conhecimento, (4) Realizar auditoria e
anlise do conhecimento, (5) Definir as caractersticas chaves da
soluo, (6) Implementar atividades integrantes da gesto do
conhecimento (7) Ligar o conhecimento s pessoas
Buckley and Carter
Centre for International existe metodologia formal mas processos chaves do conhecimento so
Business, University of
Leeds
45
Modelos de GC
Descrio
avaliao, produo e transferncia] e (6) Externalizao do
conhecimento [inclui focalizao do alvo, Produo e Transferncia]
Knowledge Associates
The Knowledge Research (1) Fazer levantamento do conhecimento existente, (2) Criar novos
Institute
Liebowitz
46
Modelos de GC
Descrio
Marquardt
Monsanto Company
The National Technical (1) Contexto [gerao de conhecimento], (2) Objetivos da gesto do
University of Athens,
Greece
ODell American
(1) Identificar, (2) Coletar, (3) Adaptar, (4) Organizar, (5) Aplicar, (6)
Coopers
Ruggles
Skandia
Hoog
47
Modelos de GC
Descrio
Spijkervet
Van Heijst et al. CIBIT, (1) Desenvolvimento [criao de novas idias, anlise de falhas e
exame de experincia atuais], (2) Consolidao [armazenamento de
Netherlands
Wielinga et al.
Wiig
N DE MODELOS
Aquisio de conhecimento
15
Gerao de conhecimento
15
Compartilhamento de conhecimento
13
Uso de conhecimento
11
Identificao do conhecimento
Armazenamento do conhecimento
Realimentao (feedback)
Aprendizado
48
PROCESSO DO CONHECIMENTO
N DE MODELOS
Organizao do conhecimento
Aprendizado
Organizao
Codificao
Filtragem
Avaliao
49
Identificao das competncias crticas
o primeiro processo do modelo genrico de Gesto do Conhecimento, e est
relacionado a questes estratgicas, como identificar quais so as competncias realmente
importantes para o sucesso da organizao.
Quando a organizao definir quais so seus objetivos, e quais estratgias devero ser
utilizadas para que esses objetivos sejam atingidos, faz-se necessrio identificar as
competncias crticas necessrias para que estas estratgias sejam realmente implementadas.
A partir da identificao destas competncias, devem-se relacionar quais so as reas
de conhecimento que devem apoiar cada uma delas. Assim, podem ser identificados em quais
aspectos a organizao j possui o conhecimento necessrio para sustentar as respectivas
competncias, e em quais a organizao precisa adquirir, seja desenvolvendo internamente ou
no. O processo de identificao inclui:
a) Criao de agenda de competncias essenciais
b) Identificao das lacunas entre competncias existentes e necessrias;
c) Desdobramento dessas competncias nas reas de conhecimento (mapeamento de
conhecimento);
d) Identificao de fontes internas e externas de conhecimento;
e) Proposio de solues para reduo da distncia entre competncias existentes e
necessrias.
50
a) Identificao de fontes internas e externas para sua explicitao;
b) Seleo das estratgias de aquisio;
c) Aquisio, formalizao e recuperao do conhecimento.
Seleo e avaliao
O processo de seleo e avaliao, segundo Stollenwerk, visam a filtrar o
conhecimento, avaliar sua qualidade e sintetiz-lo para fins de aplicao futura [STOLL01].
Isto necessrio para se evitar que sejam armazenados pela organizao itens de
conhecimento no teis, desnecessrios ou fora do contexto dos objetivos a serem alcanados.
Para tal, necessrio avaliar questes como a relevncia do conhecimento e sua
veracidade ou confiabilidade. Tambm necessrio o estabelecimento de vises mltiplas
para casos de conhecimentos conflitantes, para se evitar que ocorram discrepncias entre o
que foi obtido, mas evitando-se descartar conhecimentos eventualmente importantes para a
organizao.
Organizao e armazenagem
Uma vez identificados os itens de conhecimento teis para a organizao, importante
que sejam armazenados de maneira a preserv-los, bem como possibilitar uma recuperao
rpida, fcil e correta. Isto pode ser obtido pela utilizao de ferramentas da Tecnologia da
Informao.
Para tal, necessrio que o conhecimento seja formalizado, e quanto mais esta
formalizao for eficiente, mais qualidade ter a informao armazenada.
Segundo Stollenwerk, as etapas deste processo so:
a) Classificao do conhecimento j validado;
b) Definio da arquitetura da Tecnologia da Informao e das ferramentas de
gerenciamento da informao;
c) Criao e gerenciamento dos bancos de dados para atuar como repositrios do
conhecimento.
Compartilhamento
51
Para que a organizao possa se beneficiar do conhecimento organizacional, este deve
estar disponvel para o acesso de seus membros, de maneira que possa ser facilmente obtido,
independentemente do horrio e da localizao dos mesmos. Assim, a Tecnologia da
Informao se constitui novamente em uma ferramenta para a implementao de processos de
armazenamento e comunicao do conhecimento. Para tal, o conhecimento deve ser altamente
formalizado e organizado para um armazenamento eletrnico eficaz e uma disseminao
facilitada.
Segundo Beckman & Liebowitz, o uso da tecnologia vital para a disponibilizao e
compartilhamento de conhecimento em larga escala, tornando-o disponvel em qualquer parte,
a qualquer tempo e em qualquer formato [Beckman 1998 apud STOLL01].
As etapas deste processo so:
a) Identificao das necessidades de informao e de conhecimento da organizao;
b) Criao de mecanismos eficazes de recuperao e disseminao do conhecimento;
c) Capacitao dos usurios em ferramentas para a recuperao do conhecimento;
d) Disseminao automtica do conhecimento em tempo hbil.
Aplicao
O processo de aplicao do conhecimento consiste na utilizao real e prtica do
conhecimento formalizado, armazenado e disponibilizado, de maneira a produzir melhoria de
desempenho e viabilizar que os objetivos da organizao sejam alcanados.
As etapas deste processo so:
a) Aplicao do conhecimento em processos decisrios, de inovao, operacionais e
de aprendizagem;
b) Registro das lies aprendidas e dos ganhos obtidos com a utilizao do
conhecimento.
Criao
aprendizagem,
externalizao
do
conhecimento,
lies
52
Para a organizao que deseja efetivamente gerar conhecimento novo, necessrio
fomentar a comunicao entre os seus membros, bem como entre seus membros e fontes
exteriores de conhecimento. Deve ser criado um ambiente propcio para a gerao e
disseminao do conhecimento.
Stollenwerk enumera as principais fontes para criao de novos conhecimentos:
a) Auto-aprendizagem
b) Aprendizagem por meio de especialistas
c) Relacionamento com clientes, fornecedores e concorrentes
d) Aprendizagem por meio da experimentao
e) Adoo do pensamento sistmico e criativo
Este processo de criao do conhecimento foi amplamente explorado por Nonaka e
Takeuchi [NONAK97]. Segundo eles, o processo de criao do conhecimento organizacional
passa pelo compartilhamento do conhecimento tcito, com o objetivo de disseminar
experincias individuais pela organizao. A seguir, o conhecimento tcito compartilhado
deve ser formalizado, convertendo-se assim em conhecimento explcito. Este conhecimento
deve ser ento justificado, ou seja, a organizao vai definir se este novo conhecimento til
e deve passar a fazer parte do conhecimento organizacional. Se for declarado til, este
conhecimento deve ser convertido em um arqutipo, e posteriormente desenvolvido.
Finalmente, o conhecimento gerado deve ser disseminado pela organizao e, em alguns
casos at fora dela.
Alm destes processos, Stollenwerk identificou ainda alguns fatores que atuam como
facilitadores da Gesto do Conhecimento:
a) Liderana: que exerce um papel crucial no processo de gesto do conhecimento,
com o aval, compromisso e o direcionamento da alta direo.
b) Cultura organizacional: permite que a organizao atue com alto desempenho,
foco no cliente, foco em excelncia, pr-atividade, viso de futuro.
c) Tecnologia: fornece as ferramentas para o compartilhamento do conhecimento
adquirido.
d) Medio e recompensa: utilizada para incrementar a receptividade, o apoio e o
comprometimento com a organizao do conhecimento.
53
A seguir, uma representao grfica das diversas relaes dos componentes do modelo
genrico de Gesto do Conhecimento proposto por Stollenwerk:
Storage: unidades de armazenamento magntico para grandes volumes de dados, normalmente compartilhados
54
de dados armazenados [BABCO94 apud FAYYA96, p. 02]. Projetos de pesquisa, como o
Projeto Genoma, tm suas atividades diretamente ligadas manipulao de uma quantidade
muito grande de dados.
Segundo Usama Fayyad, possibilidades tradicionais de manipulao, como planilhas e
consultas ad-hoc, no so mais suficientes para o processamento de pesquisas em grandes
bases de dados. Estes mtodos podem criar relatrios sobre os dados, mas no conseguem
analis-los para destacar conhecimentos importantes [FAYYA96].
Assim, buscando-se novas solues no sentido de se obter conhecimento a partir de
bases de dados de grande volume, surgiu este novo campo de conhecimento denominado
Descoberta de Conhecimento em Bases de Dados (DCBD), do ingls Knowledge Discovering
in Databases (KDD).
2.3.1 Conceito
Segundo Fayyad [FAYYA96]:
2.3.2 Histrico
O processo de se procurar padres teis em bases de dados antecede a era dos
computadores. Desde que o homem passou a registrar informaes de maneira sistemtica,
existiram aqueles que utilizavam estas informaes registradas para a obteno de
conhecimentos no necessariamente imaginados por quem as registrou.
55
Entretanto, somente com o advento do armazenamento eletrnico de dados surgiu a
necessidade de novos mecanismos para a identificao de padres que possam ser utilizados
como geradores de conhecimento a partir de bases de dados. A crescente utilizao de
tcnicas de reconhecimento de padres e buscas em bases de dados eletrnicas deu origem ao
primeiro workshop sobre o processo de DCBD, em 1989. A partir deste evento, foram
realizados outros workshops em 1991, 1993 e 1994. Em 1995, foi realizado em Montreal,
Canad, a Primeira Conferncia Nacional de Prospeco e Minerao de Dados, evento que
ocorreu durante a Dcima Quarta Conferncia Internacional de Inteligncia Artificial
[AMARA01].
2.3.3 Etapas
O termo DCBD muitas vezes entendido como Minerao de Dados, o que gera uma
certa confuso na definio da abrangncia de cada um destes temas. De maneira geral, podese dizer que Minerao de Dados uma das fases do DCBD, talvez a fase mais importante,
mas Minerao de Dados no sinnimo de DCBD.
O termo Minerao de Dados se refere especificamente execuo de algoritmos de
reconhecimento de padres sobre uma base de dados anteriormente preparada. O resultado
deste processamento deve ser ento avaliado, e identificados eventuais padres que podem se
tornar teis para a aquisio de conhecimento.
O processo de DCBD mais abrangente, considera a origem dos dados, a sua
formatao inicial, a sua qualidade, a necessidade de pr-processamento dos dados, o contexto
onde estes esto inseridos, a definio dos mtodos mais adequados de Minerao de Dados,
a avaliao dos eventuais padres obtidos e a sua utilidade na gerao de conhecimento sobre
a base de dados original. tambm cclico, devendo ser repetido tantas vezes quanto for
necessrio para a obteno de resultados satisfatrios.
Segundo Usama Fayyad, DCBD um processo interativo e repetitivo, envolvendo
numerosos passos com muitas decises tomadas pelo usurio [FAYYA96].
A figura a seguir identifica as principais etapas do processo de DCBD.
56
2.3.3.1
Seleo
57
ser um processo cclico, executado tantas vezes quanto for necessrio para a obteno de
conhecimento a partir da base de dados investigada. Os sucessivos aprimoramentos do
conjunto de dados tratado, e o constante aprendizado dos analistas a partir da manipulao da
base de dados podem propiciar um resultado final satisfatrio.
2.3.3.2
Pr-processamento
58
2.3.3.3
Transformao
Para que seja produtivo o processo de obteno de padres, uma srie de modificaes
dos dados das tabelas de origem podem ser implementadas. Atributos redundantes devem ser
eliminados, evitando-se assim desperdcio de recursos com o processamento de dados no
relevantes.
A padronizao de variveis tambm necessria, para evitar erros de interpretao e
desvio na obteno dos padres. Por exemplo, uma determinada coluna pode ter como
domnio o conjunto {1, 2, 3} representando, respectivamente, ensino fundamental, ensino
mdio, ensino superior. Outra coluna pode ter os valores {F, M, S}, para representar o
mesmo conjunto ensino fundamental, ensino mdio, ensino superior. Assim, faz-se
necessrio definir um nico padro para a representao deste conjunto de valores, alterando
as tabelas para represent-lo de maneira consistente.
Usama Fayyad prope ainda, para esta fase, a utilizao de tcnicas para a reduo de
dados e para a projeo [FAYYA96]. Este passo envolve transformao dos dados dentro de
formas mais apropriadas para os mtodos de Minerao de Dados. Estas transformaes
podem incluir redues de passos de dimensionalidade - substituindo alguns campos com um
campo derivado - ou reduo de dados - mapeando mltiplos registros para uma simples
entidade e derivando os resultados dentro de conjuntos de registros. Tambm podem ser
adicionados novos registros julgados relevantes para o problema.
2.3.3.4
Minerao de Dados
2.3.3.5
Interpretao e Avaliao
59
das informaes obtidas para a gerao de conhecimento efetivo a partir dos dados avaliados.
Nesta etapa, avaliado o conjunto de padres em funo dos objetivos iniciais, decidindo
quais deles so interessantes, para conseqentemente interpret-los de maneira que se tornem
legveis para os usurios finais do sistema, bem como torn-los acessveis para as aplicaes
que devero utiliz-los.
Como o processo de Descoberta de Conhecimento em Bases de Dados cclico, esta
etapa pode indicar a necessidade de se repetir qualquer outra das etapas anteriores, at a
obteno de resultados satisfatrios [FAYYA96].
Aps a realizao de todas as iteraes que se fizerem necessrias, os resultados
considerados positivos devem ser incorporados ao sistema, consolidando o conhecimento
obtido depois de todas as etapas anteriores.
60
estruturadas, pois normalmente so inseridos nestas bases em sua forma original. Somente
seriam considerados estruturados se as informaes que contm fossem decompostas em
colunas especficas com um domnio bem caracterizado.
Do ponto de vista metodolgico, os processos envolvidos na Descoberta de
Conhecimento em Textos so muito semelhantes aos processos de Descoberta de
Conhecimento em Bases de Dados. A diferena bsica que as tcnicas e ferramentas devem
ser aplicadas sobre o conjunto de documentos textuais a ser estudado e no sobre itens de
bancos de dados [LOH01].
Assim, sero relacionadas aqui as mesmas etapas propostas por Fayyad at al
[FAYYA96], com as devidas observaes quando da aplicao em conjuntos de dados
textuais. Sero acrescentadas, entretanto, tcnicas propostas por outros autores e que podem
ser consideradas complementares ao trabalho de Fayyad, as quais so adequadas s
especificidades encontradas no tratamento de informaes armazenadas em conjuntos de
textos.
2.4.1.1
Seleo
O processo de DCT tem incio na definio do conjunto de textos que dever ser
utilizado para a execuo do trabalho. Esta uma etapa fundamental para todo o processo.
Os objetos de estudo podem estar armazenados em diversos formatos, sejam
arquivados em papel, sejam em arquivos de formatao livre nos diversos sistemas de
arquivos hoje utilizados, sejam em arquivos de sistemas processadores de texto, sejam em
bancos de dados em colunas especficas para informaes textuais.
Nesta etapa deve-se identificar informaes que possam ser relevantes para o estudo,
discriminando seu contedo, descrio, qualidade e utilidade. necessrio mapear a
localizao, o formato e o estado dos documentos que sero processados, considerando a
propriedade, os esforos a serem empreendidos e a oportunidade da utilizao de cada um
deles em funo do custo-benefcio da operao.
Como acontece nos processos de Descoberta de Conhecimento em Bases de Dados,
esta tarefa de identificao de padres tambm muito dependente da deciso de analistas
humanos, e do seu conhecimento do assunto que estar sendo pesquisado. Um documento
desprezado nesta fase pode ser exatamente aquele que contm a maior riqueza de informaes
sobre o assunto tratado. Assim, a DCT tambm um processo cclico, executado tantas vezes
quanto for necessrio para a obteno de conhecimento a partir do conjunto de documentos
61
investigado. Os sucessivos aprimoramentos do conjunto de dados tratado, e o constante
aprendizado dos analistas a partir da manipulao da base de dados podem propiciar um
resultado final satisfatrio.
Os principais passos desta etapa:
a) Identificar o conjunto de dados que interessa para pesquisa..
b) Identificar a localizao e o formato original destes dados.
c) Estabelecer a relevncia da utilizao de cada grupo.
d) Estabelecer o custo-benefcio da utilizao de cada grupo.
e) Extrair as informaes textuais dos seus locais de origem e gerar arquivos de
trabalho.
2.4.1.2
Pr-processamento
62
As tarefas da etapa de pr-processamento podem ser realizadas com a execuo de
ferramentas para:
a) Formatar os documentos para que sejam apresentados em um nico padro.
b) Efetuar correo ortogrfica para a eliminao de termos grafados incorretamente.
c) Eliminar linhas e caracteres de controle.
d) Criar listas de palavras negativas.
2.4.1.3
Transformao
Esta etapa tem por objetivo realizar operaes sobre os objetos estudados para que
possa ser mais eficiente a etapa posterior de minerao de texto. Segundo Wives [WIVES00],
diversas tcnicas podem ser utilizadas para tornar os objetos textuais mais adequados para o
processamento posterior, tais como:
a) A estruturao do documento, considerando com peso maior palavras presentes em
ttulos, subttulos, notas de explicao [Cow 96 apud WIVES99]. Entretanto, esta
tcnica pode ser considerada uma etapa adicional, e por demais custosa, caso o
documento no seja originalmente estruturado.
b) A adaptao de vocabulrio, com a utilizao de sinnimos. A utilizao desta
tcnica facilita as tarefas de agrupamento, uma vez que palavras consideradas
diferentes a partir da grafia, depois de substitudas, podem representar um peso
maior quando submetidas aos algoritmos de identificao de freqncia.
c) A eliminao de diferenas morfolgicas de uma mesma palavra singular e
plural, masculino e feminino, entre outras. Hwee Ng prope uma tcnica que
identifica os radicas das palavras, unificando o vocabulrio [NG97]. Entretanto, a
utilizao destes recursos pode tornar os documentos muito abrangentes, j que as
palavras podem ficar muito semelhantes entre si.
d) A retirada de caracteres especiais, tornando as palavras mais simples. Esta tcnica
pode auxiliar ainda na eliminao de erros de grafia pela utilizao de caracteres
acentuados, bem como aumentar a padronizao do texto.
e) A transformao de todos os caracteres para um mesmo padro quanto utilizao
de letras maisculas e minsculas. Assim, uma mesma palavra no corre o risco de
ser considerada por diferenas de tipo de grafia em caixa alta ou caixa baixa.
63
2.4.1.4
Minerao de Texto
2.4.1.5
Interpretao e Avaliao
64
Minerao de Dados a etapa no processo de DCBD que consiste de
algoritmos particulares que, sob determinadas limitaes aceitveis dos
sistemas computacionais, produzem uma determinada quantidade de padres
sobre uma base de dados [FAYYA96].
Assim, dentro do contexto da Descoberta de Conhecimento em Bases de Dados, podese verificar que a etapa de Minerao de Dados uma das mais importantes, onde
efetivamente os dados anteriormente preparados so submetidos a algoritmos que procuram
estabelecer relaes e evidenciar padres de comportamento que possam vir a ser teis no
processo de aquisio de conhecimento.
O processo de Minerao de Dados tem dois objetivos principais, segundo Fayyad
[FAYYA96]: a predio e a descrio.
A predio envolve a utilizao de algumas variveis, normalmente atributos da base
de dados, para prever valores desconhecidos ou futuros de outras variveis de interesse.
J a descrio procura por padres que reflitam a distribuio dos itens de dados no
espao das suas dimenses e que sejam passveis de interpretao.
65
2.5.1.1
Agrupamento
66
J no processo de agrupamento no existem classes definidas O objetivo final
estabelecer parmetros de comparao entre cada instncia do conjunto de objetos, e criar
agrupamentos com os elementos que apresentarem determinadas caractersticas comuns,
embora anteriormente no se soubesse que caractersticas seriam essas.
Portanto, o objetivo da tcnica de agrupamento identificar os objetos que possuem
caractersticas em comum, agrupando-os em subconjuntos de objetos similares.
O aglomerado de objetos, ou cluster, foi definido por Everitt [EVE74 apud WIVES99]
como:
a) Um conjunto de entidades que so semelhantes. Entidades pertencentes a
aglomerados diferentes so diferentes;
b) Uma agregao de pontos no espao tal que a distncia entre os pontos em um
mesmo aglomerado menor que a distncia entre pontos de diferentes
aglomerados;
c)
67
2.5.1.2
Classificao
68
e) Classificadores de Bayes Parecidos com os conexionistas, porm tm como
base a teoria da probabilidade. Eles conseguem informar a probabilidade de
determinado objeto pertencer a uma determinada classe.
Um exemplo de classificao: uma empresa que atua no setor de concesso de crdito
pretende avaliar o risco associado a emprstimos que faz aos seus clientes. Os clientes so
classificados como bons ou indesejveis dependendo de o crdito ter sido recuperado ou no
pela empresa. A partir de informaes encontradas em cada registro, pode-se utilizar um
algoritmo de classificao para testar os valores destas variveis, e classificar os clientes em
uma das duas possibilidades, ou seja, bons ou indesejveis.
69
generalizao, a minerao baseada em padres, ou a minerao baseada em
estatstica e teorias matemticas.
70
71
Redes Neuronais Artificiais so modelos computacionais, implementados
em software ou hardware, que visam simular o comportamento dos
neurnios biolgicos atravs de um grande nmero de elementos de
processamento interconectados, os neurnios artificiais [FAUSS94].
2.5.4.1
72
Neurais Artificiais utilizam arquiteturas diferentes para tipos diferentes de tarefas [BRASI02].
A figura a seguir ilustra a semelhana entre um neurnio biolgico e um neurnio artificial.
O neurnio artificial tem sua inspirao no modelo natural, tentando imitar o seu
funcionamento atravs de funes matemticas e algoritmos computacionais. O neurnio
artificial um modelo simplificado, em vista da complexidade do sistema nervoso biolgico,
e a sua compreenso incompleta mesmo aps os grandes avanos da medicina.
As RNA so formadas por neurnios artificiais, sendo que cada um pode receber uma
ou mais entradas, processa as informaes recebidas e gera uma nica sada. A entrada pode
vir de tipos de dados naturais ou ainda vir da sada de outros neurnios, bem como a sada
pode representar a resoluo final do problema, ou pode ser a entrada para outro neurnio. Os
neurnios, em uma RNA, so agrupados em camadas, sendo a primeira camada a que recebe
os dados externos, a ultima camada a responsvel pelos dados de sada, e, entre estas, uma ou
mais camadas intermedirias. A figura a seguir mostra em exemplo de uma RNA com uma
camada intermediria [BRASI02].
73
2.5.4.2
74
2.5.4.3
75
dos fatos pesquisados, a segunda tcnica apresenta bons resultados em tarefas de explanao,
mas restringe-se a particionamentos lineares do espao de entrada.
Como exemplos de propostas de sistemas hbridos, podem ser citados:
a) Modelo Neural Combinatrio MNC: entende-se por Modelo Neural
Combinatrio uma rede neural capacitada para operaes de classificao. O
treinamento dessa rede pode ser feito atravs de um algoritmo baseado em
backpropagation9, utilizando punies e recompensas. O MNC integra os
paradigmas simblico e conexionista, e utiliza aprendizado supervisionado em
uma topologia feedforward com as seguintes caractersticas: uma camada de
entrada, uma camada combinatria e uma camada de sada [PRADO98]. Os
neurnios so conectados atravs de arcos ou sinapses.
Backpropagation: a base para o treinamento de uma rede neural supervisionada. Depois que os padres de
entrada so processados pela rede, os resultados obtidos so utilizado como parmetros para ajust-la.
76
10
Aprendizagem de Mquina: do ingls Machine Learning, um ramo da Inteligncia Artificial que estuda
algoritmos que permitam aos computadores efetivar aprendizado a partir de exemplos anteriores e estmulos
(entradas) no sistema.
77
O WEKA contm ferramentas para classificao, regresso, agrupamento e
associao. Pode ser utilizado tanto atravs de instrues em linha de comando, como a partir
de uma verso que implementa uma interface grfica em Java. Pode tambm ter suas
bibliotecas utilizadas em outros programas, que podem ser construdos para utilizar os
algoritmos ali implementados.
2.5.6.1
Estrutura
78
DESCRIO
Associations
AttributeSelection
Classifiers
Core
79
PACOTE
DESCRIO
determinado valor, o nmero de instncias com alguns
valores ausentes.
Filters
GUI
Estimator
Diferentes
tipos
de
clculo
para
distribuio
de
2.5.6.2
Arquivo de entrada
O WEKA define um padro de entrada especfico que deve ser obedecido para o
correto processamento das informaes. um arquivo com extenso .ARFF, dividido
basicamente em trs partes:
a) O nome a ser atribudo ao trabalho de minerao correspondente quele arquivo.
precedido pelo rtulo @RELATION.
b) Descrio dos atributos: nesta seo, devem ser relacionados todos os atributos
que sero processados. Podem ser descritos alguns nveis de detalhamento.
precedido pelo rtulo @ATTRIBUTE.
c) Seqncia de dados: so os dados que sero processados. Cada linha contm
valores para os atributos relacionados em (b). Inicia com uma linha com o rtulo
@DATA.
Na figura a seguir mostrado um exemplo de um arquivo de entrada do WEKA.
80
@RELATION Producao_Grupo_Tipo_0001
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
NME_RH STRING
Complementares {sim,nao}
Demais {sim,nao}
Orientao {sim,nao}
Artstica_Cultural {sim,nao}
Produo_bibliogrfica {sim,nao}
Produao_Tcnica {sim,nao}
Total_Global REAL
@data
"Andr Fernando da Silva Nobre",nao,nao,nao,nao,sim,nao,1
"Bruno Pacheno Novais Clemente",nao,nao,nao,nao,sim,nao,1
"Carlos Campos Silveira Brito",nao,nao,nao,nao,sim,nao,1
"Douglas Cerqueira Silva Pacheco Meireles",nao,nao,nao,nao,sim,nao,1
"Edimria Vanessa da Silva Soares",nao,nao,nao,nao,nao,sim,1
Este tipo de arquivo pode ser gerado a partir de ferramentas dos principais bancos de
dados, que permitem a criao de listas separadas por um determinado caractere, neste caso, a
vrgula.
2.5.6.3
Algoritmos
O WEKA implementa uma srie de algoritmos especialistas que podem ser utilizados
em tarefas de minerao de dados. Estes algoritmos so organizados em pacotes especficos:
a) Associations
b) Classifiers
c) Clusteres
Associations
As regras de associao so utilizadas na tentativa de se encontrar relacionamentos
significativos entre informaes de mesma natureza. Estas bases de dados esto se tornando
cada vez mais extensas, o que demanda a utilizao de algoritmos eficientes para viabilizar a
pesquisa em um tempo aceitvel.
Para a tarefa de estabelecer regras de associao, o WEKA implementa o algoritmo
Apriori. Este algoritmo foi proposto por Agrawal e Srikant [AGRAW94] em 1994, na
inteno de proporcionar uma maneira mais eficiente de percorrer bases de dados e gerar
regras de associao.
81
O algoritmo percorre a base de dados e encontra os conjuntos de itens freqentes,
denominados frequent itemsets. Os algoritmos existentes at ento geravam um conjunto
muito grande de itemsets. O Apriori parte da proposta que todo subset de um grande itemset
deve ser grande tambm. Assim, grandes itemsets podem ser agrupados, e eliminados aqueles
que cujos subsets no so grandes o suficiente. Isto permite a gerao de um nmero menor
de itemsets candidatos [AGRAW94].
O algoritmo principal utiliza duas funes:
a) A funo Apriori-gen, que tem a funo de gerar o conjunto de candidatos e
eliminar os subsets que no so significativos.
b) A funo Genrules, que tem por objetivo extrair as regras de associao
propriamente ditas.
A primeira operao realizada pelo algoritmo uma contagem de ocorrncia dos itens
para determinar os frequent itemsets de tamanho unitrio (1 frequent itemsets). A seguir, so
executadas duas fases posteriores k. Primeiro, os frequent itemsets Lk-1 encontrados na
operao anterior (K-1) so utilizados para gerar a lista dos conjuntos de potencialmente
freqentes, chamados de itemsets candidatos (Ck).
Feito isso, realizada uma nova varredura no banco de dados, contando-se o suporte
de cada itemset candidato em Ck.
A gerao dos itemsets candidatos, de antemo, toma como argumento Lk-1, o
conjunto de todos (k-1)-itemsets freqentes. Para tal, utiliza-se a funo Apriori_gen (Anexo
II), que retorna umsuperconjunto de todos os k-itemsets freqentes A funo, em um primeiro
estgio, une Lk-1 com Lk-1. No estgio seguinte, so eliminados os itemsets ck pertencentes a Ck,
desde que um dado (k-1)-subset de ck no pertena a Lk-1.
A seguir, uma figura com a rotina principal do algoritmo Apriori [AGRAW94]:
82
Classifiers
O objetivo das rotinas de classificao associar uma determinada instncia a uma
classe. Estas rotinas tm por resultado, normalmente, rvores de deciso ou um conjunto de
regras que definam os critrios necessrios para realizar a associao do item considerado
com a classe adequada.
O WEKA implementa vrios algoritmos de classificao, relacionados na figura a
seguir [WITTE99]:
83
Dos algoritmos de classificao implementados pelo WEKA, ser tratado neste
trabalho somente o algoritmo j48, que a implementao do algoritmo padro C4.5, reviso
8. Este algoritmo largamente utilizado em tarefas de aprendizagem de mquina.
O C4.5 gera um classificador na forma de uma rvore de deciso. Adota uma
estratgia top-down que permite efetuar a classificao em partes da estrutura, o que
possibilita a criao de rvores de estrutura relativamente simples, embora no
necessariamente simplistas. [CHEN96]. O algoritmo utiliza uma abordagem direcionada a
minimizar a quantidade de testes que devem ser realizados com cada objeto, no intuito de
possibilitar tempos de respostas mais adequados.
O algoritmo utiliza a seguinte funo de avaliao:
Clusteres
O WEKA oferece tambm um pacote que contm algoritmos de agrupamento,
chamado weka.clusteres. A figura abaixo relaciona as classes implementadas [WITTE99]:
weka.clusterers.Cobweb
weka.clusterers.EM
weka.clusterers.SimpleKMeans
Figura 14: algoritmos de agrupamento do WEKA
84
de agrupamento, o EM permite que um objeto esteja presente em mais de um agrupamento
[SALGA02].
J o SimpleKMeans uma implementao do algoritmo k-Means, um mtodo nohierrquico que divide um conjunto de dados em grupos de elementos semelhantes, onde k o
nmero de agrupamentos desejados, informado inicialmente. O algoritmo apresenta o
seguinte funcionamento [WIVES99]:
a) Determina a posio inicial dos k centrides dos agrupamentos.
b) Direciona cada atributo ao agrupamento do centride mais prximo.
c) Recalcula os centros dos agrupamentos a partir dos elementos direcionados.
d) Repete os itens anteriores seguindo um critrio de convergncia, que pode ser uma
informao sobre o nmero mximo de interaes desejadas, ou at que os centros
no se movam mais.
2.5.6.4
Interface
85
86
2.6.2.1
Agrupamento
Segundo Wives:
O objetivo do agrupamento de informaes textuais separar uma srie de
documentos dispostos de forma desorganizada em um conjunto de grupos
que contenham documentos de assuntos similares [WIVES99].
87
a) Constantes: so utilizados para se limitar o tempo mximo de execuo de um
determinado conjunto de dados, evitando uma elevao exponencial deste tempo
quando da insero de novos conjuntos [SIL 97 apud WIVES99].
b) Lineares: aumentam o tempo de processamento de maneira linear de acordo com o
aumento do conjunto de dados processados. Normalmente, neste caso so
utilizados algoritmos que no exigem a comparao de todos os objetos entre si.
c) Quadrticos: o tempo de processamento sobre um aumento exponencial com a
incluso de novos conjuntos de objetos a serem processados. Isto ocorre como
conseqncia da necessidade de se comparar todos os objetos entre si. Assim, com
a insero de um novo objeto provocar a comparao deste com todos os outros, e
tambm dos outros entre si novamente [CUT 92 apud WIVES99].
2.6.2.2
Classificao
88
89
Os documentos que o Eurekha analisa podem ser das origens mais variadas, uma vez
que a ferramenta foi construda para utilizar textos no formatados e sem uma estrutura
padro. Isto permite que sejam analisadas inclusive pginas da Web [VARGA00].
O Eurekha apresenta algumas funes que permitem uma anlise de contedo de uma
coleo de documentos, como uma anlise lexical, onde so relacionadas as palavras contidas
em cada documento e seus respectivos valores de freqncia e relevncia. Tambm podem ser
listadas as palavras mais relevantes de um determinado agrupamento, normalmente as que so
determinantes para a classificao do documento em determinado agrupamento.
O aplicativo oferece tambm uma considervel lista de palavras que podem ser
consideradas palavras negativas, ou stop words. Estas palavras normalmente tm carter
genrico, e no agregam sentido no contexto da pesquisa, devendo ser desprezadas. Assim, o
Eurekha j traz cadastrados conjuntos de stop words, tais como advrbios, pronomes,
preposies, artigos, numerais cardinais e ordinais, entre outras. possvel ainda definir
grupos de stop words que sejam relacionados ao assunto pesquisado. A figura a seguir
apresenta a janela de escolha dos grupos de stop words do Eurekha.
90
2.6.3.1
Frel x =
F abs x
N
(1)
91
k
gs ( X , Y ) =
gih(a, b)
h =1
(2)
onde:
a) gs o grau de similaridade entre os documentos X e Y;
b) gi o grau de igualdade entre os pesos do termo h (peso a no documento X e peso
b no documento Y);
c) h um ndice para os termos comuns aos dois documentos;
d) k o nmero total de termos comuns aos dois documentos;
e) n o nmero total de termos nos dois documentos, sem contagem repetida.
(3)
onde:
Na frmula (2) utilizado um contador incrementado a cada vez que uma palavra
encontrada nos dois documentos comparados. A frmula (3) utilizada para introduzir um
fator qualitativo no clculo, estabelecendo pesos a partir da freqncia relativa do termo nos
dois documentos.
Ao final do processo, obtm-se uma matriz de similaridade onde os valores variam no
intervalo [0,1], o valor [0] indica documentos sem nenhuma semelhana, e o valor [1] indica
documentos muito similares [WIVES99].
92
como a Gesto do Conhecimento ou reas ligadas Tecnologia da Informao, implicaria
numa abordagem mais fenomenolgica, em que se procuraria concentrar mais nos fenmenos
propriamente ditos que em suas explicaes. Ainda que essa caracterizao no seja
rigorosamente seguida nas reas mencionadas, definies como a de Gruber, em que uma
ontologia uma representao formal e explcita de uma conceitualizao compartilhada
[GRUBE93], permitem a formalizao de conceitos e aspectos que, ao final, ajudam a
compreender os intrincados e complexos processos interpretativos decorrentes da condio
humana.
A Ontologia da Linguagem proposta por Flores, Winograd, Graves, Echeverra e
vrios outros, segue esta linha, quando tratam da linguagem como ao e qual atribuem um
carter formal e estruturado. Nos termos de Echeverra [ECHEV99], por exemplo, ao mesmo
tempo em que se considera que "a linguagem no o foco nem a preocupao principal da
ontologia da linguagem, mas seu interesse principal so os seres humanos", tambm se
considera que, enquanto humanos, nos constitumos na ao. Segundo Echeverra, no s
atuamos conforme somos, mas tambm somos conforme atuamos [ECHEV99], o que
confere um poderoso e sugestivo vnculo dos fenmenos interpretativos relacionados ao ser
humano s aes destes. Tal caracterstica vem sendo progressivamente explorada na
constituio de um potente ferramental com aplicaes as mais diversas e, em particular, nas
reas relacionadas gesto. A Ontologia da Linguagem considera que as pessoas so seres
lingsticos, e apresenta uma srie de postulados que justificam essa considerao, tornandose, assim, um assunto bastante extenso. No contexto deste trabalho sero apresentadas apenas
as principais consideraes sobre atos lingsticos e juzos, itens considerados fundamentais
para a realizao deste estudo.
93
As declaraes so atos lingsticos que, de forma muito mais eloqente, alteram o
ambiente em que se inserem o observador declarante com os que com ele esto associados no
contexto em que se d a declarao.
observador declarante tem para proferi-las, e, ao faz-lo, estabelece uma nova realidade a
partir de sua declarao. Com as declaraes, ao contrrio das afirmaes, o mundo segue a
palavra.
A tabela a seguir descreve sumariamente conceitos relacionados s afirmaes e s
declaraes[ECHEV99]:
DECLARAES
COMPROMISSO
COMPROMISSOS
COMPONENTE
Orador
Ouvinte
Ao
Fator tempo
Processos
Fazer a promessa
Cumprir a promessa
Aes lingsticas
94
ITEM
COMPONENTE
Petio + declarao de aceitao
Domnios
2.7.2 Juzos
Juzos pertencem classe das declaraes. Como toda declarao, os juzos podem
ser: vlidos ou invlidos, de acordo com a autoridade conferida a quem os faz. Alm disso, os
juzos podem ser ainda: fundamentados ou no-fundamentados (ou fundados ou infundados),
de acordo com as aes executadas no passado que so utilizados para respald-los.
Juzos so como bssolas para o futuro. Quando se estabelecem juzos, utiliza-se no
presente experincias do passado como guia para o futuro. Por exemplo, toma-se a
declarao: Miguel uma pessoa sensata. A partir de alguma observao do passado - Miguel
realizou algo no passado - emite-se a declarao que Miguel se mostra, aqui e agora, no
presente, uma pessoa sensata. Ento, podem-se esperar, no futuro, atitudes sensatas de
Miguel.
Fundamentao de juzos
So cinco os passos para a fundamentao de juzos, a saber:
a) Definir com qual propsito se estabelece o juzo: sempre existe um motivo para a
emisso de um juzo. Quando emitido, abrem-se ou fecham-se possibilidades no
futuro. Por exemplo: quando emitido o juzo Mrio um executivo eficiente
antecipam-se algumas aes no futuro, como a delegao a Mrio de tarefas
relevantes que somente pessoas eficientes podem cumprir.
95
b) Definir em que domnio est sendo julgado: quando se emite um juzo,
normalmente isto feito dentro de um domnio particular de observao, ou seja, o
conjunto de parmetros que se possui ao emitir o juzo.
c) Definir com que padres est sendo julgado: os padres de julgamento se
constituem do conjunto de comportamentos normalmente praticados, do ponto de
vista histrico, cultural, moral e social.
d) Definir quais so as afirmaes de suporte que respaldam este juzo: as afirmaes
de suporte podem ou no validar os juzos. Estas so constitudas de observaes
objetivas de fatos que podem ser descritos e comprovados.
e) Fundamentar o juzo com outras pessoas: os juzos, por serem essencialmente
discrepveis (uma vez que dependem genuinamente do observador que os emite) e
em geral temporrios (uma vez que ao mata juzo e novas aes por parte da
entidade julgada podem perfeitamente descaracterizar o juzo original!), cumpre
resguardar-se no processo de fundamentao, compartilhar esse processo com
outras pessoas, as quais, por virem de outras histrias e experincias podem trazer
nova luz s interpretaes vigentes.
96
CAPTULO 3
3 METODOLOGIA
3.1 Consideraes gerais
3.1.1 Coleta e anlise de dados
Os dados necessrios para a pesquisa foram obtidos a partir da explorao de um
recorte da base de dados do Currculo Lattes. Esta base de dados encontra-se atualmente
hospedada em computadores do CNPq. O sistema de armazenamento composto por
servidores Sun, sistema operacional Solaris 5.7 e gerenciador de bancos de dados Oracle
Server 8i. A partir da extrao de um nmero limitado de registros desta base, foram aplicadas
tcnicas de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento
em Textos para efetuar a preparao dos dados para o processo de minerao, tantas vezes
quanto foi necessrio para a obteno de padres de comportamento teis.
97
Plataforma Lattes, respectivamente: definio do perfil dos docentes que orientam alunos de
iniciao cientfica, a partir de informaes sobre concesses de bolsas do PIBIC Programa
de Institucional de Bolsa de Iniciao Cientfica; e gerao de agrupamentos para a
identificao de linhas de pesquisa em uma universidade a partir de informaes sobre
publicaes de seus pesquisadores e docentes, a partir dos ttulos das publicaes e de suas
palavras-chave.
98
Enquanto gestor do programa, o CNPq necessita de parmetros para avaliar o
desempenho dos bolsistas e dos orientadores, com o objetivo de corrigir eventuais distores
e proporcionar uma distribuio mais eficiente dos valores destinados ao programa.
Um dos indicadores que se deseja apurar o perfil dos orientadores que obtiveram
maior sucesso em seu trabalho de orientao. Para tal, foi definido como problema para
Minerao de Dados o estabelecimento de uma relao entre os alunos que receberam bolsas
do programa de iniciao cientfica, e que posteriormente obtiveram titulao em programas
de mestrado e/ou doutorado.
A partir de informaes obtidas nos sistemas de administrao dos programas de
fomento do CNPq e da base de dados da Plataforma Lattes, procurou-se caracterizar os
orientadores conforme o sucesso de seus ex-orientados em um programa de mestrado ou
doutorado.
99
100
101
E ainda: ambas agregam novos conhecimentos ao macroprocesso de Gesto de
Conhecimento das organizaes [STOLL01]. Assim, optou-se neste trabalho por utilizar as
sub-etapas destas duas etapas concomitantemente, por melhor se adequar ao escopo proposto
e base de dados utilizada.
A seguir, o detalhamento de cada uma das etapas cumpridas. Para fins de organizao
dos itens apresentados, sero apresentas em um mesmo grupo as tarefas relativas Gesto do
Conhecimento, e posteriormente, em outro grupo, as tarefas relativas aos processos de
Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Texto.
102
das tcnicas de Descoberta de Conhecimento em Bases de Dados que permitissem
reduzir a distncia entre a competncia existente e a competncia desejada.
c) Desdobramento dessas competncias nas reas de conhecimento: a
competncia essencial identificada foi relacionada com conhecimentos em
tecnologia da informao, de onde vieram as ferramentas para a explorao da
base de dados e para a gerao de conhecimento a partir da execuo de
algoritmos apropriados e utilizando recursos computacionais.
d) Identificao das fontes internas e externas de conhecimento: foi definida,
como fonte potencial para a gerao do conhecimento necessrio para a
competncia estabelecida, a base de dados da Plataforma Lattes.
e) Proposio de solues para a reduo da distncia entre as competncias
existentes e as competncias necessrias: para a reduo desta distncia, foi
proposta a explorao de informaes armazenadas na base de dados da
Plataforma Lattes no intuito de se gerar conhecimento organizacional que
permitisse o incremento da capacidade de deciso dos gestores de Cincia e
Tecnologia.
3.4.1.2
103
c) O terceiro passo se constituiu na aquisio e formalizao do conhecimento.
Utilizou-se das metodologias de Descoberta de Conhecimento em Bases de Dados
e Descoberta de Conhecimento em Textos para explorar partes da base de dados da
Plataforma Lattes. Estas tarefas de explorao sero detalhadas em sees
posteriores.
Os trabalhos de Descoberta de Conhecimento em Bases de Dados so fortemente
relacionados experimentao, pois necessrio executar os algoritmos, avaliar os resultados
e submeter ciclicamente os dados at que sejam definidos os melhores algoritmos e
parmetros para um determinado conjunto de informaes.
3.4.1.3
Seleo e validao
3.4.1.4
Etapas posteriores
104
bancos de dados que podero ser posteriormente implementados no intuito de cumprir as
etapas do Modelo Genrico de Gesto do Conhecimento de Stollenwerk. Sero aqui
apresentados para se contextualizar os processos de Descoberta de Conhecimento em Bases
de Dados e Descoberta de Conhecimento em Textos com a Gesto do Conhecimento.
Organizao e armazenagem
A etapa posterior seleo e validao do conhecimento a sua organizao e
armazenagem, para permitir que o conhecimento capturado ou gerado seja preservado para a
sua posterior utilizao pelos componentes da instituio.
A formalizao do conhecimento capturado ou gerado tem por objetivo ainda
possibilitar uma recuperao rpida, fcil, correta e segura deste conhecimento.
Apesar de no ser uma obrigatoriedade, a utilizao de ferramentas da Tecnologia da
Informao importante para a organizao e o armazenamento do conhecimento obtido.
Para isso, os seguintes itens devero ser observados:
a) Classificar o conhecimento anteriormente avaliado e selecionado.
b) Definir a arquitetura de Tecnologia da Informao que sero utilizadas.
c) Definir as ferramentas de Tecnologia da Informao que podero ser utilizadas ou
construdas
para
armazenamento,
manuteno
disponibilizao
do
conhecimento.
d) Criar e gerenciar os bancos de dados que armazenaro o conhecimento
formalizado.
Compartilhamento
Para que possa ser convertido em vantagens competitivas para a organizao, o
conhecimento deve ser tratado de forma que possa ser compartilhado entre os membros desta
organizao. Entretanto, a prtica demonstra, em geral, que muitas informaes e
conhecimento ficam restritos a pequenos grupos de indivduos.
Novamente, a importncia de se utilizar de recursos da Tecnologia da Informao
salientada, no intuito de se permitir que o conhecimento organizacional esteja disponvel para
a utilizao por todos os que dele vierem necessitar.
105
Aplicao
O objetivo do processo de Descoberta de Conhecimento a possibilidade de aplicao
prtica dos conhecimentos criados ou apreendidos. No basta que estes sejam descobertos,
selecionados, avaliados, armazenados, distribudos. No geraro nenhuma vantagem
competitiva se no forem efetivamente aplicados nas atividades da organizao.
Para tal, necessrio que as organizaes se empenhem no sentido de utilizar o
conhecimento organizacional para produzir benefcios concretos, na melhoria do desempenho,
no lanamento de novos produtos, na conquistas de novos mercados, no atendimento
satisfatrio de seus clientes [STOLL01].
importante observar que a prpria aplicao do conhecimento organizacional pode
gerar mais conhecimento para a organizao, se este processo for devidamente registrado,
avaliando-se objetivamente os ganhos obtidos, as dificuldades encontradas, os benefcios
alcanados. um processo cclico que pode aumentar continuamente o conhecimento da
organizao.
106
d) Planilha Microsoft Excel
e) Aplicativo de minerao de dados WEKA
O estudo de caso foi delimitado a partir de algumas consideraes sobre os dados
armazenados e seus perodos de coleta e processamento, conforme segue:
a) O CNPq armazena em seus arquivos informaes histricas sobre o programa de
bolsas para iniciao cientfica. Entretanto, encontrava-se disposio na base de
dados relacionais Oracle 8i apenas os dados coletados a partir do ano de 1994.
Essa foi ento a data inicial para a extrao de informaes sobre os alunos
beneficirios e os docentes que os orientaram.
b) O principal fator para definir o sucesso do programa da iniciao cientfica, no
contexto deste estudo de caso, foi a avaliao da quantidade de alunos
beneficirios do programa que posteriormente obtiveram titulao stricto sensu.
Assim, foi necessrio estabelecer um perodo de corte dos dados de entrada das
bolsas de PIBIC em uma data que fosse coerente com uma mdia de tempo que o
aluno leva para ingressar em um programa de ps-graduao, curs-lo e conclu-lo,
contado aps a concluso do curso de graduao. O tempo mnimo estipulado para
tal foi de dois anos. Portanto, foram coletados dados relativos s bolsas de PIBIC
at o perodo de 1999, este inclusive.
c) Todos os orientadores considerados para este estudo de caso deveriam possuir
cadastrado o seu Currculo Lattes, uma vez que esta foi a fonte principal de
informaes para a identificao do perfil do pesquisador.
A seguir, sero apresentadas as atividades executadas em cada uma das etapas da
referida metodologia.
3.4.2.1
Seleo
A partir das definies sobre o conjunto de dados que seria utilizado, o trabalho de
seleo se constituiu em um esforo para coletar o conjunto de registros necessrios a partir
das tabelas relacionais dos Sistemas de Fomento, da Plataforma Lattes e da base de alunos
titulados da CAPES.
Do sistema de controle das operaes de Fomento do CNPq foram extradas as
informaes a respeito das bolsas de PIBIC concedidas no perodo de 1994 a 1999. Estes
dados
foram
coletados
ORIENTADORES_PROCESSOS.
partir
das
tabelas
relacionais
PROCESSOS
107
Das tabelas relacionais do Currculo Lattes foram retiradas as informaes pessoais
dos orientadores envolvidos com as bolsas de PIBIC.
Da tabela relacional ALUNOS_TITULADOS_CAPES foram retiradas as informaes
sobre os estudantes que obtiveram titulao stricto sensu no perodo de 1996 a 2002. Estas
datas foram definidas seguindo a orientao inicial de utilizar o tempo mnimo de dois anos
aps a concluso do curso de graduao pelo aluno beneficirio de bolsas do PIBIC como
referncia para o ingresso e concluso de programas de ps-graduao.
Das tabelas do Diretrio de Instituies foram retiradas informaes sobre as instituies
relacionadas aos orientadores e alunos de PIBIC.
Ao fim desta etapa, obteve-se como resultado um conjunto de tabelas populadas com
os recortes de informaes correspondentes das tabelas originais. A seguir, um resumo da
quantidade de registros contemplados:
1996
13.963
1997
15.433
1998
16.902
1999
16.555
2000
16.403
2001
18.045
2002
17.645
2003
15.506
TOTAL
130.452
108
1996
13.509
1997
15.637
1998
16.745
1999
20.243
2000
23.724
2002
45.503
TOTAL
135.361
3.4.2.2
Pr-processamento
A partir dos dados obtidos na etapa de seleo, foram geradas tabelas de trabalho com
as informaes necessrias ao estudo de caso. Estas tabelas contm as informaes de
detalhes dos processos de PIBIC, os cdigos dos orientadores e alunos, as informaes
curriculares dos orientadores, enfim, os dados necessrios para a montagem dos arquivos de
entrada para a ferramenta de minerao de dados.
Como o foco inicial no orientador, os dados foram organizados e modelados
considerando o cdigo do orientador como chave principal. Este formato viria a facilitar as
etapas posteriores de transformao e minerao de dados.
Uma das atividades desta etapa a seleo de colunas das tabelas principais. Para a
gerao das tabelas de trabalho, foram selecionadas apenas as colunas que traziam as
informaes consideradas necessrias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados trabalhados, com reflexos positivos no tempo de processamento.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de rudo, ou seja, alguma inconsistncia. Foram encontrados alguns
registros com datas incoerentes, mas, em geral, a qualidade dos dados de entrada foi
considerada satisfatria. Esta boa qualidade dos dados decorreu da utilizao de restries de
entrada implementadas tanto no nvel do banco de dados quanto no nvel da aplicao,
diminuindo consideravelmente a necessidade de aplicao de algoritmos para a reduo de
rudos nesta etapa.
109
Nesta etapa foi ainda realizado um trabalho para identificar os bolsistas do programa
de bolsa de iniciao cientfica que constavam da base de titulados da CAPES. Como as bases
de dados do CNPq e da CAPES no so originalmente integradas , foi necessrio utilizar de
algoritmos de comparao textual para incrementar a qualidade da pesquisa. O primeiro passo
foi efetuar uma pesquisa a partir do nome dos alunos. Para aumentar o nmero de acertos, foi
utilizada uma rotina para eliminar caracteres especiais e excessos de espaos das colunas de
nome nas tabelas envolvidas. A seguir, todos os nomes tiveram seus caracteres transformados
em letras maisculas.
Para evitar problemas com homnimos, foi utilizada a coluna da tabela da CAPES que
traz informaes sobre um documento de identificao do aluno, utilizando esta para
comparar com as informaes armazenadas na base de dados do CNPq. Ao final deste
trabalho, foram identificados 7.325 ex-bolsistas do programa de bolsas de iniciao cientfica
que constavam da base de dados de alunos titulados da CAPES.
3.4.2.3
EX-BOLSISTAS TITULADOS
1996
127
1997
180
1998
485
1999
1.158
2000
2.007
2002
3.368
TOTAL
7.325
Transformao
Uma vez escolhidas as tabelas e as colunas necessrias para o estudo a ser realizado,
fez-se necessrio efetuar uma srie de alteraes nos dados, tanto na sua forma de
apresentao quanto no contedo de algumas colunas. Foram realizadas:
a) Totalizaes por orientador: para utilizao da ferramenta de minerao de dados,
foi necessrio transformar informaes sobre a produo cientfica e tecnolgica
em colunas que representam quantidade. As tabelas originais, segundo sua
modelagem, armazenam um registro para cada produo cadastrada. Este formato
110
no adequado para servir de entrada para os algoritmos de minerao. Assim,
fez-se necessrio criar colunas especficas para os tipos de produo que seriam
considerados, e armazenar nestas colunas os totais de trabalhos publicados. Para
isso, foram utilizadas rotinas escritas na linguagem PLSQL e executadas no banco
de dados onde estavam armazenadas as tabelas temporrias. Estes totais foram
obtidos a partir dos seguintes tipos de trabalho:
a.1. Produo artstica e cultural
a.2. Artigos publicados
a.3. Livros publicados
a.4. Captulos de livros publicados
a.5. Dissertaes orientadas
a.6. Teses orientadas
b) Substituio de valores para torn-los compatveis entre si: foi necessrio realizar
alteraes no contedo de algumas colunas para compatibilizar os seus valores.
Por exemplo: algumas datas estavam no formato DD/MM/AAAA, enquanto outras
foram armazenadas como campos texto no formato dd-mm-aa. Foram ento
utilizadas rotinas escritas em linguagem PLSQL e executadas no banco de dados
para a adequao destes valores.
c) Discretizao de variveis11: para a utilizao dos algoritmos de minerao de
dados, foi necessrio efetuar um trabalho de discretizao de variveis, onde
valores de domnios que apresentam um conjunto muito elevado de valores foram
transformados em faixas especficas. Por exemplo: a coluna idade, obtida
inicialmente pela aplicao de um clculo a partir da data de nascimento
armazenada, foi transformada em um nmero que representa sua posio em uma
faixa de valores. Assim, foram criadas inicialmente quatro faixas para representar
a idade do orientador:
c.1. Menor que 40 anos
c.2. Entre 40 e 50 anos
c.3. Entre 50 e 60 anos
11
Discretizao de variveis: processo que consiste em estabelecer faixas de valores para itens excessivamente
granulares.
111
c.4. Maior que 60 anos
d) Transformaes e filtros de caracteres: foi necessrio utilizar rotinas para efetuar
algumas transformaes em campos de natureza textual, para aumentar a eficincia
dos algoritmos de minerao que seriam posteriormente utilizados. Destas colunas
foram retirados os caracteres especiais, os espaos em excesso, todos os caracteres
alfabticos foram transformados em letras maisculas. Este processo foi realizado
atravs da aplicao de rotinas escritas na linguagem PLSQL e executadas no
banco de dados onde se encontravam armazenadas as tabelas temporrias.
Para que a ferramenta de minerao de dados pudesse ser utilizada, foi necessrio
preparar um conjunto de arquivos no formato indicado pelo WEKA. Para tal, as tabelas
relacionais utilizadas foram consolidadas em um modelo desnormalizado, onde um registro
contm todas as informaes totalizadas de um determinado orientador.
Abaixo, um exemplo de arquivo gerado para a ferramenta WEKA:
@RELATION Orientadores_0015
@ATTRIBUTE COD_RH_ORIENTADOR NUMERIC
@ATTRIBUTE STA_CURRICULO {S,N}
@ATTRIBUTE TIT_MAXIMA {Graduacao,Especializacao,Mestrado,Doutorado,Posdoutorado,Livre-docencia,Nivel_tecnico}
@ATTRIBUTE ANOS_TITULACAO NUMERIC
@ATTRIBUTE IDADE NUMERIC
@ATTRIBUTE SEXO {M,F}
@ATTRIBUTE FAIXA_IDADE {<40,40-50,50-60,>60}
@ATTRIBUTE QTD_ORIENT_TOTAL NUMERIC
@ATTRIBUTE QTD_ORIENT_TITUL NUMERIC
@ATTRIBUTE PRD_ART_COMP NUMERIC
@ATTRIBUTE PRD_TRB_PUBL NUMERIC
@ATTRIBUTE PRD_LVR_PUBL NUMERIC
@ATTRIBUTE PRD_LVR_CAPT NUMERIC
@ATTRIBUTE PRD_ORT_DISS NUMERIC
@ATTRIBUTE PRD_ORT_TESE NUMERIC
@ATTRIBUTE PERC_ORIENT_TITUL NUMERIC
@ATTRIBUTE FAIXA_TITUL_TOTAL {0,1,2,3,4,5,6,7,8,9}
@ATTRIBUTE FAIXA_ORIENT_TOTAL {1,2,3,4,5,6,7,8,9}
@ATTRIBUTE FAIXA_ANOS_TITUL {1-10,10-20,20-30,30-40,40-50,50-60,<1}
@ATTRIBUTE CLASSE {BM,FR,OT}
@data
0000849502,N,Nivel_tecnico,999,43,M,40-50,9,1,0,0,0,0,0,0,10,1,6,?,BM
0000858587,N,Nivel_tecnico,999,55,M,50-60,4,0,0,0,0,0,0,0,0,0,4,?,FR
0000009890,S,Pos-doutorado,4,53,F,50-60,4,0,1,1,1,5,2,0,0,0,4,1-10,FR
0000088129,S,Doutorado,3,54,F,50-60,8,0,1,8,0,4,1,0,0,0,6,1-10,OT
0000088137,S,Doutorado,23,57,M,50-60,13,2,0,14,1,0,12,0,10,2,7,20-30,BM
112
Esta etapa demandou um considervel esforo, uma vez que foram necessrias
sucessivas operaes de transformao de dados. Ao final desta, obteve-se como resultado as
tabelas temporrias carregadas e transformadas e os arquivos de entrada do WEKA gerados.
3.4.2.4
Minerao de Dados
Uma vez que a base de dados estava consolidada e preparada para gerar os arquivos no
formato do aplicativo que seria utilizado para a minerao de dados, passou-se etapa de
minerao propriamente dita.
Para tal, foi necessrio gerar um arquivo no formato definido pela ferramenta, onde
cada registro contm informaes consolidadas do fato que se deseja estudar. Como o foco da
pesquisa orientador de iniciao cientfica, os registros foram agrupados pela chave do
orientador.
A partir dos dados consolidados, utilizou-se o aplicativo WEKA para realizar diversas
sesses de minerao de dados. Foi escolhido o algoritmo de classificao J48, que gera
rvores de deciso, utilizadas para o processo de classificao das informaes.
3.4.2.5
Interpretao e avaliao
Aps a etapa de minerao, Fayyad [FAYYA96] prope uma etapa onde o produto
final interpretado e avaliado com o objetivo de identificar os resultados potencialmente teis
para a organizao.
Por questes de organizao deste trabalho, esse assunto ser tratado no captulo
seguinte.
113
As informaes necessrias para a conduo do estudo de caso foram obtidas da base
de dados do Currculo Lattes, e da base de dados do sistema de controle de recursos humanos
da Universidade Catlica de Braslia.
Os dados originais do Currculo Lattes se encontravam armazenados em bases de
dados relacionais Oracle 8i, instaladas em servidores Sun Microsystems.
As ferramentas utilizadas para a extrao e manipulao dos dados foram:
a) Oracle SQL*PLUS
b) Linguagem de programao Oracle PLSQL
c) Editor de textos vi
d) Planilha Microsoft Excel
e) Aplicativo de minerao de texto Eurekha
O estudo de caso foi delimitado a partir de algumas consideraes sobre os dados
armazenados e seus perodos de coleta e processamento, conforme segue:
f) As informaes sobre a produo cientfica e tecnolgica de cada docente foram
extradas da base de dados de currculos da Plataforma Lattes. Assim, somente os
itens de produo que se encontravam cadastrados naquela base de dados na data
da coleta foram considerados.
g) Foram consideradas as datas de publicao de cada trabalho, para fins de
identificao da produo realizada pelo docente enquanto pertencente aos quadros
da Universidade Catlica de Braslia.
Foi utilizada a metodologia para Descoberta de Conhecimento em Textos adaptada da
metodologia de Descoberta de Conhecimento em Bases de Dados proposta por Fayyad
[FAYYA96]. A seguir, sero apresentadas as atividades executadas em cada uma das etapas
da referida metodologia.
3.4.3.1
Seleo
A partir das definies sobre o conjunto de dados que seria utilizado, o trabalho de
seleo se constituiu em um esforo para coletar o conjunto de registros necessrios a partir
das tabelas relacionais do Currculo Lattes, bem como obter as informaes institucionais
necessrias sobre os docentes a partir de consultas ao setor de administrao de pessoal da
Universidade Catlica de Braslia.
114
Do Currculo Lattes foram extradas as informaes sobre a produo cientfica e
tecnolgica dos envolvidos na pesquisa. A partir da relao de nomes dos docentes do
MGCTI, foram executadas rotinas de extrao de dados sobre a base do Currculo Lattes, com
a gerao de tabelas de trabalho que passaram a armazenar o conjunto de registros que dizia
respeito s informaes curriculares e produo de cada docente. As ferramentas utilizadas
nesta etapa foram:
a) Oracle SQL*PLUS: interface de acesso ao banco de dados
b) Comandos SQL
c) Linguagem PLSQL
QUANTIDADE
Docentes
TABELA
22 DOCENTES
1.341 PRODUCAO_CIENTIF_TECNOL
Palavras-chave
1.007 PLV_CHAVE
3.4.3.2
Pr-processamento
A partir dos dados obtidos na etapa de seleo, foram geradas tabelas de trabalho com
as informaes necessrias ao estudo de caso. Estas tabelas contm as informaes
curriculares dos orientadores, e detalhes sobre a sua produo cientfica e tecnolgica, dados
necessrios para a montagem dos arquivos de entrada para a ferramenta de minerao de
texto.
115
Uma das atividades desta etapa a seleo de colunas das tabelas principais. As
tabelas de trabalho foram reestruturadas, mantendo somente as colunas que traziam as
informaes consideradas necessrias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados manuseado, com reflexos positivos no tempo de processamento e
na complexidade do conjunto de informaes tratado.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de rudo, ou seja, alguma inconsistncia. Em geral, a qualidade de
dos dados de entrada foi considerada satisfatria. Esta boa qualidade dos dados decorreu da
utilizao, pelos sistemas de origem, de restries de entrada implementadas tanto no nvel do
banco de dados quanto no nvel da aplicao, diminuindo a necessidade de aplicao de
algoritmos para a reduo de rudos.
Outras tarefas cumpridas nesta etapa:
a) Formatao para preparar os documentos com um nico padro: a entrada de
dados para a ferramenta Eurekha, utilizada na etapa de minerao de textos, so
arquivos textuais, sem a necessidade de uma estruturao prvia. Assim, os dados
que seriam utilizados foram formatados nas tabelas de trabalho de maneira a
facilitar a gerao destes arquivos de texto.
b) Eliminao de linhas e caracteres de controle: os arquivos de texto foram gerados a
partir das tabelas de trabalho sem a existncia de caracteres de controle, exceto o
caractere de fim de linha. Outros controles, como definio de pargrafos, tabelas,
tabulaes, entre outros, no foram utilizados.
c) Criao de uma lista de palavras negativas: com o objetivo de remover dos textos
gerados palavras que no agregam significado especial, foram geradas listas de
palavras negativas (stop words), e acrescentadas ao conjunto de listas de palavras
negativas j existentes no Eurekha. Estas novas listas geradas dizem respeito ao
conjunto de dados pesquisado, e foram identificadas tanto anteriormente primeira
execuo das rotinas de minerao de texto, quanto incrementadas aps a obteno
dos primeiros resultados. Como o processo Descoberta de Conhecimento em
Textos cclico, aps cada execuo das tarefas de agrupamento procurava-se
identificar novas palavras candidatas listas de palavras negativas, buscando
evidenciar o conjunto de palavras que realmente poderia acrescentar sentido ao
conjunto de textos pesquisado. A seguir, so relacionadas as principais palavras
negativas identificadas:
116
EMBRAPA
EN
ENTRE
ESPECIE
ESTADO
ESTUDO
FEDERAL
FOI
FUNCAO
GO
HA
III
INTERNACIONAL
MEDICO
MG
MODELO
PERIODO
PROBLEMA
PROBLEMAS
PROCESS
PRODUCAO
PROJETO
PROJETOS
PROPOSTA
REGIAO
SANTOS
SAO
SERVICO
SISTEMA
SISTEMAS
SOFTWARE
SP
SUA
SUAS
TAMBEM
TESTE
UCB
USO
UTILIZACAO
UTILIZANDO
3.4.3.3
Transformao
Com o objetivo de tornar os textos que seriam gerados mais adequados para o
processamento posterior de minerao, os registros das tabelas de trabalho foram submetidos
a alguns processos de transformao, conforme segue:
a) Adaptao do vocabulrio: esta tarefa teve como objetivo a substituio de
palavras semelhantes, ou de mesmo significado, por um nico termo que
representasse o significado de todas elas. Este processo tem conseqncias diretas
no tempo de processamento e na qualidade dos grupos formados, uma vez que
aumenta a repetio de uma determinada palavra que expressa o significado de
todas as que foram substitudas, reduzindo o universo de palavras tratadas, bem
como passando a ter um peso maior na identificao dos grupos. Para viabilizar
esta tarefa foi construda uma rotina no banco de dados, composta por uma tabela
117
de apoio e rotinas de programao escritas na linguagem PLSQL. A partir das
tabelas de trabalho que armazenavam os campos textuais que representavam os
ttulos da produo cientfica e tecnolgica de cada docente, bem como as
palavras-chaves a ela relacionadas, estas rotinas foram executadas substituindo-se
as palavras que constavam da lista armazenada na tabela de sinnimos. Este
processo se repetiu vrias vezes, devido a caracterstica cclica dos processos de
Descoberta de Conhecimento, onde, aps cada execuo do aplicativo de
minerao de textos, eram identificadas mais algumas palavras candidatas lista
de sinnimos.
b) Eliminao de diferenas morfolgicas de determinadas palavras: segundo o
que props Hwee [NG97], podem ser utilizadas tcnicas que identificam os
radicais das palavras, buscando uma maior unificao dos termos utilizados pela
substituio de variaes morfolgicas da uma mesma palavra pelo seu radical.
Uma aplicao mais generalizada destas tcnicas no foi a opo adotada neste
estudo de caso, uma vez que o tempo de processamento para este tipo de tarefa
relevante, bem como existe uma necessidade de constituio ou utilizao de uma
extensa base de palavras e seus radicais. Entretanto, foi utilizada a mesma
estrutura criada para o tratamento dos sinnimos para a substituio de alguns
termos que causavam um certo desvio na gerao dos agrupamentos. Estes termos
foram identificados aps cada execuo do aplicativo de minerao de textos, e
passavam a integrar a lista de sinnimos armazenada na referida tabela de apoio.
c) Eliminao de caracteres especiais: este processo tem por objetivo tornar mais
simples o conjunto de palavras considerado. Atravs da eliminao de caracteres
especiais, e da substituio de caracteres que representam a acentuao
caracterstica no conjunto de caracteres que compe as lnguas latinas por seus
correspondentes sem acentuao, obteve-se um conjunto de palavras mais similar.
Outro beneficio obtido foi a correo de algumas palavras grafadas incorretamente
em conseqncia da utilizao equivocada de caracteres acentuados. Para realizar
esta tarefa foram utilizadas rotinas escritas na linguagem de programao PLSQL,
e aplicadas sobre as tabelas de trabalho armazenadas no banco de dados.
d) Transformao de todos os caracteres para um mesmo padro quanto
utilizao de letras maisculas e minsculas: todos os termos utilizados para a
gerao dos arquivos para a ferramenta de minerao de textos teve seu conjunto
118
de caracteres transformados para caracteres maisculos. Assim,uma mesma
palavra no corre o risco de ser considerada em grupos distintos por diferenas de
tipo de grafia em caixa alta ou caixa baixa. Estas rotinas tambm foram escritas em
linguagem de programao PLSQL e aplicadas sobre as tabelas de trabalho
armazenadas no banco de dados.
Aps a execuo das rotinas de transformao acima citadas, as tabelas de trabalho
encontravam-se prontas para permitir a gerao dos arquivos de texto que foram utilizados
como entrada para a ferramenta de minerao de textos.
Para facilitar a identificao dos membros dos agrupamentos que seriam gerados, foi
criado um arquivo textual para cada docente, contendo os ttulos de sua produo cientfica e
tecnolgica e as palavras-chave relacionadas.
3.4.3.4
Minerao de Texto
Criao de projeto
Criao de um novo projeto na tela inicial da ferramenta, ou a abertura de um projeto
criado anteriormente.
119
120
121
122
123
124
O coeficiente de sensibilidade tambm foi avaliado, e o melhor valor de ajuste foi
coloc-lo na posio inicial. Isso se explica pela caracterstica dos arquivos de entrada,
constitudos de um nmero relativamente pequeno de palavras. Para arquivos com essa
caracterstica, o coeficiente de similaridade, no caso de utilizao do algoritmo Best Star,
apresenta melhores resultados se ajustado para a posio inicial, que significa a aceitao de
uma distncia proporcionalmente maior entre os termos identificados. Caso este coeficiente
seja aumentado, o nmero de grupos unitrios aumenta diretamente, o que no desejvel.
125
sua produo cientfica e tecnolgica cadastradas no Currculo Lattes com data entre 1998 e
1999, extradas da base de dados de trabalho, a qual representa os resultados das etapas
anteriores de seleo, pr-processamento e transformao.
Depois de todos os ajustes considerados necessrios, como adequao do dicionrio de
sinnimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:
126
127
128
3.4.3.5
Interpretao e avaliao
129
d) Os padres de julgamento
Avaliados luz destes itens, os resultados das etapas anteriores de Descoberta de
Conhecimento podem constituir-se em novos conhecimentos organizacionais devidamente
constitudos, resultados de uma anlise sistemtica.
Os resultados desta etapa sero tratados no Captulo 4.
130
CAPTULO 4
131
conhecer com maior profundidade o conjunto de informaes que se tem disponvel sobre os
bolsistas, sobre os orientadores e sobre o processo de concesso de bolsas de uma maneira
geral.
A partir destes novos conhecimentos adquiridos no decorrer do processo, foi possvel
obter outros resultados, descritos a seguir:
1000
1
2000
3
3000
4000
5000
6000
7000
8000
10
11
12
13
14
981
586
345
197
89
53
27
13
132
Verificou-se que a maioria dos orientadores trabalhou com apenas um orientando
neste perodo. Assim, para eliminar distores causadas por pequenas quantidades, optou-se
por trabalhar apenas com o grupo que orientou cinco ou mais alunos.
Este grupo de aproximadamente 2.300 docentes orientou aproximadamente quinze mil
alunos uma mdia de 7,2 alunos por orientador, enquanto os outros 16.700 docentes
orientaram aproximadamente 30.000 alunos, uma mdia de 1,7 alunos por orientador. Existe
uma pequena distoro nestes valores, provocada pelo fato de um aluno eventualmente ter
sido orientado por mais de um docente ao longo de sua formao.
35000
30000
25000
20000
Orientadores
15000
Bolsistas
10000
5000
0
1
133
Alunos titulados
6
4
2
0
0
Qtd. Orientadores
100
200
300
400
500
600
700
800
1073
673
363
136
50
12
134
Orientadores por sexo
25%
41%
01-10
42%
75%
Feminio
10-20
Masculino
20- 30
34%
42%
66%
58%
Dout orado
40-50
Pos-dout orado
50-60
27%
42%
19%
5%
3%
73%
17%
Est adual
Federal
Artigo
Trabalhos em eventos
Livro publicado
Capit ulo de livro
Orient aao - dissertao
Orient ao - t ese
135
4.2.1.1
12
136
No terceiro perodo foram identificados quatro agrupamentos: (i) {conhecimento,
informao, gesto, mquina}; (ii) {conhecimento, gesto, virtual, informao}; (iii)
{qualidade, objeto, Java}; (iv) {mtrica, engenharia, qualidade}. Percebe-se ento uma maior
definio das reas de interesse e uma maior caracterizao interdisciplinar do MGCTI.
No quarto perodo a identificao multidisciplinar do programa confirmada, a partir
da identificao de cinco agrupamentos caracterizados pelos centrides: (i) {neural, modelo,
conhecimento, inteligente}; (ii) {conhecimento, gesto, informao, modelo}; (iii)
{qualidade, objeto, desenvolvimento}; (iv) {competncias, aprendizagem, ontologia,
suporte}; (v) {mtrica, engenharia, qualidade}.
2000-2001
2002-2004
1998-2004
137
1998
3
2
9
TOTAL
8
26
3
29
46
17
10
9
2
20
2
8
98
23
3
27
158
11
500
12
Total
11
10
9
8
Tipo de Produo
Apresentao de Trabalho
Artigo publicado em peridicos
Demais trabalhos relevantes
Livro ou captulo de livro
Trabalhos tcnicos
5
4
3
0
1998
1999
2000
2001
2002
ANO_
2003
138
90
Total
80
77
70
64
60
Tipo de Produo
Dissertao de mestrado
50
40
39
32
30
27
22
20
10
10
3
2
0
1998
1999
2000
9
6
2002
2003
6
5
4
2001
ANO_
100%
Soma de QTDE
80%
8
60%
8
39
25
73
143
CATEGORIA
Nacional
Internacional
40%
7
20%
13
29
2002
2003
0%
1998
1999
2000
2001
ANO
139
4.2.1.2
Juzos emitidos
4.2.1.3
Propsito da pesquisa
Desejando identificar as vocaes do MGCTI, surgiu a oportunidade de verificao
das linhas de produo dos docentes que participam do programa. A partir das informaes
sobre a produo cientfica e tecnolgica contida no Currculo Lattes, decidiu-se utilizar estes
dados para relacionar os docentes entre si, com o objetivo de identificar reas de afinidade.
Assim, o propsito desta avaliao identificar as linhas de pesquisa possveis, a
partir da produo de cada docente.
Domnios
Os principais domnios considerados na avaliao foram:
a) Espao das publicaes (nacionais ou internacionais)
b) Idioma de publicao
140
Padres de julgamento
a) Qualis Multidisciplinar da CAPES
b) Qualidade dos eventos
c) Tipo de eventos
Afirmaes de suporte
a) Os agrupamentos resultantes dos processos de minerao de texto passaram de
dois para quatro do perodo inicial para o perodo final avaliado.
b) Os nmeros da produo cientfica e tecnolgica do MGCTI cresceram ano a ano.
c) Apesar de pequeno, ocorreu um aumento no percentual de publicaes e
participaes em eventos internacionais.
d) Algumas publicaes ocorreram em veculos citados no Qualis14 Multidisciplinar.
14
Qualis: lista com a classificao dos veculos utilizados pelos programas de ps-graduao para a divulgao
dos resultados da produo cientfica e tecnolgica de seus alunos e professores, elaborado pela CAPES
Coordenao de Aperfeioamento de Pessoal de Nvel Superior do Ministrio da Educao.
141
142
J o segundo estudo de caso, sobre os docentes do Programa MGCTI da Universidade
Catlica de Braslia, demonstrou que os resultados da DCBD podem ser potencializados pela
utilizao metdica da definio de juzos e de sua fundamentao. Uma percepo anterior,
informal, que indicava a vocao interdisciplinar do programa MGCTI foi confirmada com a
minerao de texto e com a identificao dos agrupamentos por perodo. Os juzos
estabelecidos, uma vez devidamente fundamentados, tm proporcionado uma discusso muito
mais detalhada de cada um dos itens estudados.
O processo como um todo trouxe uma percepo mais apurada e clara dos desgnios
vocacionais e dos rumos do Programa objeto do estudo, trazendo mais visibilidade e
conhecimento organizacional sobre o MGCTI, seus docentes, sua produo cientfica e
tecnolgica, suas linhas de interesse, etc. Tudo isso pode ser acrescentado base de
conhecimento da instituio, e ser importante para a definio dos rumos a seguir. Remete-se
novamente Ontologia da Linguagem, que traz o conceito de que os juzos podem fechar ou
abrir possibilidades no futuro. Acredita-se, neste caso, que vrias possibilidades possam ser (e
tm sido) abertas.
Finalmente, pode concluir que o processo de DCBD representa uma excelente
oportunidade para as organizaes que desejam utilizar melhor suas bases de dados, no
sentido de se obter conhecimento, e conseqentemente, incrementar os seus negcios a partir
deste conhecimento organizacional descoberto.
Trabalhos futuros podem ser desenvolvidos a partir das reflexes iniciadas, tais como:
a) Agregao, ao processo de minerao de texto da produo cientfica e
tecnolgica, dos resumos dos respectivos trabalhos. O presente estudo utilizou
somente os ttulos das publicaes e as palavras-chave, que era o material
disponvel na Plataforma Lattes. O acrscimo dos resumos dos trabalhos pode
trazer uma maior quantidade de palavras que podem ser associadas, aumentando as
possibilidades de identificao das linhas de interesse.
b) Minerao de texto para a gerao de uma taxonomia relativa aos grupos de
pesquisa.
c) Minerao de texto para a verificao de consistncia entre linhas de pesquisa
declaradas e a real produo cientfica e tecnolgica.
d) Identificao de competncias dos pesquisadores e docentes a partir de suas
informaes curriculares.
143
REFERNCIAS BIBLIOGRFICAS
[AGRAW94] AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules.
IBM Research Report RJ 9839. IBM Almaden Research Center, Junho
de 1994
[AMARA01] AMARAL, Fernanda C. N. do Data Mining Tcnicas e Aplicaes para o
Marketing Direto, So Paulo: Berkeley Brasil, 2001.
[BABCO94] BABCOCK, C. Parallel Processing Mines Retail Data, Computerwork, n. 6,
set. 1994.
[BISHO95]
[BRASI02]
[CHEN96]
[CNPQ03]
[CNPQ03a]
CNPq, PIBIC
Disponvel em: http://www.cnpq.br/bolsas_auxilios/modalidades/pibic.htm
Acesso em: 27 de maio de 2003
[CNPQ03b]
144
[DRUCK94] DRUCKER, Peter F. The Age of Social Transformation, The Atlantic Monthly,
Boston, United States
Disponvel em:
http://www.theatlantic.com/politics/ecbig/soctrans.htm#Drucker
[FLORE88]
145
[GRECO02] GREGO, Maurcio A Petrobras doma seus terabytes, InfoExame, So Paulo:
ano 18, n. 203, p. 78-79, fev. 2003.
[GRUBE93] GRUBER,
T.
R.
Translation
Approach
to
Portable
Ontology
Gerald.
Information
retrieval
systems:
theory
and
[LOH01]
[LUCEN01] LUCENA, Percival de; Paula, Marcos Ferreira de, rvores de Deciso Fuzzy
Disponvel em: www.icmc.sc.usp.br/~percival/download/fidt.pdf
Acesso em: 21 mai. 2003.
[LUCEN02] LUCENA FILHO, Gentil. J. Notas de Aula Universidade Catlica de Braslia,
Braslia, 2002.
[MEDLE98] MEDLER, David A. A brief history of connectionism. Department of
Psychology, University of Alberta, Alberta, Canada, In: Neural
146
Computing Survey 1, p. 61-101, 1998.
Disponvel em: http://www.icsi.berkeley.edu/~jagota/NCS/vol1.html
Acesso em: 25 mai. 2003.
[NG97]
[SILVA02]
147
Conhecimento e da Tecnologia da Informao) - Universidade Catlica
de Braslia
[SOUSA03] SOUSA, Paulo de Tarso Costa de. Minerao de Dados para Induo de um
Modelo de Gesto do Conhecimento. 2003. Dissertao (Gesto do
Conhecimento e da Tecnologia da Informao) - Universidade Catlica
de Braslia
[STOLL01]
[TEIXE00]
[TOFFL94]
[WEKA01]
148
Disponvel em: http://www.cs.waikato.ac.nz/ml/weka/
Acesso em: 12 jun. 2003
[WIIG93]
[WITTE99]
WITTEN, Ian H., FRANK, Eibe: Data Mining: Practical Machine Learning
Tools e Techniques with Java Implementations . Morgan Kaufmann
Publ., 1999.