Вы находитесь на странице: 1из 148

UNIVERSIDADE CATLICA DE BRASLIA

PROGRAMA DE PS-GRADUAO STRICTO SENSU GESTO


DO CONHECIMENTO E DA TECNOLOGIA DA INFORMAO

EXPLORANDO O POTENCIAL DA PLATAFORMA


LATTES COMO FONTE DE CONHECIMENTO
ORGANIZACIONAL EM CINCIA E TECNOLOGIA

Marcelo Vicente de Paula

BRASLIA
2004

MARCELO VICENTE DE PAULA

EXPLORANDO O POTENCIAL DA PLATAFORMA


LATTES COMO FONTE DE CONHECIMENTO
ORGANIZACIONAL EM CINCIA E TECNOLOGIA

Dissertao apresentada ao programa de psgraduao stricto sensu em Gesto do Conhecimento


e da Tecnologia da Informao da Universidade
Catlica de Braslia, como requisito para obteno
do ttulo de Mestre.

Orientador: Prof. Dr. Hrcules Antnio do Prado


Co-orientador: Prof. Dr. Rogrio Alvarenga

BRASLIA
2004

Ariadne e Luciana

Minha esposa e minha filha, doura e fora


femininas que tanto emocionam a minha vida.

Aos meus pais, Joo e Julia

Que sempre me apoiaram, da maneira que lhes


foi possvel, com amor e sacrifcio, incentivando
em mim o gosto pelos estudos e o desejo do
saber.

Ao Criador, pelos milagres de cada dia e pela


oportunidade de conviver com tantas pessoas
especiais durante este projeto.

Em especial aos meus orientadores, Prof. Dr.


Hrcules Prado e Prof. Dr. Rogrio Alvarenga,
que, mesmo nos momentos de maior dificuldade,
to bem souberam trazer a orientao necessria
para continuar.

Aos professores do programa de Gesto do


Conhecimento e da Tecnologia da Informao,
principalmente: Prof. Dra. Adelaide, Prof. Dr.
Edlson, Prof. Dr. Gentil, Prof. Dra. Ktia, Prof.
Dr. Nicolas, Prof. Dr. Paulo Fresneda.

Ao CNPq, disponibilizou acesso aos seus bancos


de dados, e a ateno de seus colaboradores,
principalmente o Sr. Geraldo Sorte, Coordenador
Geral de Informtica, a Sra. Silvana Cosac,
Assessora da Diretoria, e o Sr. Ricardo Loureno,
Consultor em C&T.

Ao

Grupo

Stela,

participante

do

projeto

Plataforma Lattes, nas pessoas da Srta. Isabela


Anciutti e do Sr. Denlson Sell.

RESUMO
A Plataforma Lattes um conjunto de sistemas de informao, bases de dados e portais
Web voltados para a gesto de Cincia e Tecnologia, mantida pelo CNPq Conselho
Nacional de Desenvolvimento Cientfico e Tecnolgico, fundao ligada ao Ministrio
da Cincia e Tecnologia. A disponibilidade de uma rica fonte de informaes sobre a
pesquisa nacional existente na Plataforma Lattes abre oportunidades para a gerao de
conhecimento em Cincia & Tecnologia. Para explorar este potencial de conhecimento,
sero apresentados dois estudos de caso. No primeiro buscou-se caracterizar
orientadores responsveis por casos de sucesso do Programa de Iniciao Cientfica do
CNPq. No segundo estudo, o objetivo foi a identificao de linhas de pesquisa de um
grupo de docentes, coerente com a sua produo cientfica e tecnolgica, tomada da
base de dados de currculos da Plataforma Lattes. No desenvolvimento dos estudos de
caso foram aplicadas tcnicas de Minerao de Dados (MD), no primeiro caso, e de
Minerao de Texto (MT), no segundo. Os padres encontrados nos processos de MD e
MT foram interpretados por especialistas visando facilitar a transio padroconhecimento situada na interface entre as reas de Descoberta de Conhecimento em
Bases de Dados (DCBD) e Gesto do Conhecimento (GC). As principais contribuies
deste trabalho foram: (a) um mtodo para interpretao de padres desenvolvidos a
partir da Ontologia da Linguagem, no contexto de DCBD; (b) gerao de conhecimento
organizacional; e (c) explorao de novas possibilidades para a gerao de
conhecimento organizacional a partir da Plataforma Lattes.

Palavras-chave: gesto do conhecimento, minerao de dados, minerao de texto,


descoberta de conhecimento, Plataforma Lattes.

ABSTRACT
The Plataforma Lattes is a framework composed by a set of information systems,
databases, and Web portals addressed to Research and Development (R&D)
management. CNPq - Brazilian Council of National Research and Technological
Development, a foundation from the Ministry of R&D, maintains this framework. The
availability of a rich source of information about R&D represents opportunities for
creating knowledge in this realm. Exploring this potential of knowledge generation, two
cases will be described. Firstly, the search for the characterization of professors who
oriented students in Scientific Started Programs of CNPq. Secondly, the identification of
research lines made by a group of professors, consistent with their scientific and
technological production, extracted by Plataforma Lattess databases. In the study
cases, techniques of Data Mining (DM) and Text Mining (TM) were used. The patterns
that have been found by DM and TM processes were interpreted by experts, envisioning
to improve the transition pattern/knowledge that exist into the interface between
Knowledge Discovery in Databases (KDD) and Knowledge Management (KM). The
main contributions of this dissertation were: (a) an interpretation method for patterns
developed using the Language Ontology as example; (b) organizational knowledge
creation; (c) explore new ways to create organizational knowledge using the
Plataforma Lattes.
Keywords: knowledge management, data mining, text mining, knowledge discovery,
Plataforma Lattes.

SUMRIO
RESUMO ...............................................................................................................................................VI
ABSTRACT......................................................................................................................................... VII
LISTA DE FIGURAS ........................................................................................................................... 10
LISTA DE TABELAS........................................................................................................................... 12
LISTA DE TABELAS........................................................................................................................... 12
CAPTULO 1......................................................................................................................................... 13
1

INTRODUO ........................................................................................................................... 13
1.1

CONTEXTO DA PESQUISA ...................................................................................................... 13

1.2

DESCRIO DO PROBLEMA ................................................................................................... 14

1.3

JUSTIFICATIVA ...................................................................................................................... 15

1.4

OBJETIVOS ............................................................................................................................ 16

1.4.1

Objetivo Geral ................................................................................................................. 16

1.4.2

Objetivos Especficos ...................................................................................................... 16

1.5

REVISO DA LITERATURA..................................................................................................... 17

1.6

POSSIBILIDADES DE APLICAO DE DCDB NA PLATAFORMA LATTES ................................. 17

1.7

CLASSIFICAO DA PESQUISA ............................................................................................... 18

1.8

SUPOSIES .......................................................................................................................... 18

CAPTULO 2......................................................................................................................................... 19
2

REVISO DA LITERATURA................................................................................................... 19
2.1

A PLATAFORMA LATTES....................................................................................................... 19

2.1.1

Sistemas de Informao da Plataforma Lattes................................................................. 19

2.1.2

Estrutura da Plataforma Lattes ........................................................................................ 21

2.2

GESTO DO CONHECIMENTO ................................................................................................ 29

2.2.1

Conceitos Iniciais ............................................................................................................ 29

2.2.2

Gesto do Conhecimento................................................................................................. 36

2.3

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ...................................................... 53

2.3.1

Conceito .......................................................................................................................... 54

2.3.2

Histrico.......................................................................................................................... 54

2.3.3

Etapas .............................................................................................................................. 55

2.4

DESCOBERTA DE CONHECIMENTO EM TEXTOS ..................................................................... 59

2.5

TCNICAS DE MINERAO DE DADOS .................................................................................. 63

2.5.1

Tarefas Bsicas................................................................................................................ 64

2.5.2

Caracterizao da Minerao de Dados........................................................................... 68

2.5.3

rvores de Deciso ......................................................................................................... 69

2.5.4

Redes Neuronais Artificiais............................................................................................. 70

2.5.5

Abordagens Hbridas....................................................................................................... 74

2.5.6

Ferramenta para a Minerao de Dados .......................................................................... 76

2.6

TCNICAS DE MINERAO DE TEXTOS ................................................................................. 85

2.6.1

Minerao de Texto......................................................................................................... 85

2.6.2

Tarefas Bsicas................................................................................................................ 86

2.6.3

Ferramenta para a Minerao de Texto ........................................................................... 87

2.7

ONTOLOGIA DA LINGUAGEM ................................................................................................. 91

2.7.1

Atos lingsticos bsicos ................................................................................................. 92

2.7.2

Juzos............................................................................................................................... 94

CAPTULO 3......................................................................................................................................... 96
3

METODOLOGIA........................................................................................................................ 96
3.1

CONSIDERAES GERAIS ...................................................................................................... 96

3.1.1

Coleta e anlise de dados................................................................................................. 96

3.1.2

Delimitao do estudo ..................................................................................................... 96

3.2

ESPECIFICAO DA PESQUISA ............................................................................................... 96

3.2.1

Perfil do orientador do PIBIC ......................................................................................... 97

3.2.2

Agrupamento de docentes a partir de suas publicaes................................................... 98

3.3

METODOLOGIA UTILIZADA NOS ESTUDOS DE CASO ............................................................... 99

3.4

ETAPAS DA PESQUISA .......................................................................................................... 100

3.4.1

Gesto do Conhecimento............................................................................................... 101

3.4.2

Descoberta de Conhecimento em Bases de Dados ........................................................ 105

3.4.3

Descoberta de Conhecimento em Textos ...................................................................... 112

CAPTULO 4....................................................................................................................................... 130


4

ANLISE DOS RESULTADOS .............................................................................................. 130


4.1
4.1.1

Resultados da Minerao de Dados............................................................................... 130

4.1.2

Resultados finais ........................................................................................................... 131

4.2
4.2.1
5

ESTUDO DE CASO: PERFIL DO ORIENTADOR DO PIBIC ........................................................ 130

ESTUDO DE CASO: AGRUPAMENTO DE DOCENTES ............................................................... 134


Resultados da Minerao de Texto................................................................................ 135

CONCLUSES E TRABALHOS FUTUROS ........................................................................ 141

REFERNCIAS BIBLIOGRFICAS .............................................................................................. 143

LISTA DE FIGURAS

FIGURA 1: ESTRUTURA DO CURRCULO LATTES .................................................................................................... 23


FIGURA 3: ESTRUTURA DO DIRETRIO DOS GRUPOS DE PESQUISA ........................................................................ 26
FIGURA 4: MODELO GENRICO DO GC [STOLL01 APUD SOUSA03] ................................................................... 53
FIGURA 6: PRINCIPAIS ETAPAS DO PROCESSO DE DCBD ........................................................................................ 56
FIGURA 7: APRESENTAO GEOMTRICA DE UMA RVORE DE DECISO [LUCEN01] ........................................... 70
FIGURA 8: MODELO DE NEURNIO BIOLGICO E ARTIFICIAL [MEDLE98] ............................................................ 72
FIGURA 9: REDE NEURONAL ARTIFICIAL COM UMA CAMADA INTERMEDIRIA [BRASI02]................................... 73
FIGURA 10: MODELO NEURAL COMBINATRIO [PRADO98] ................................................................................ 75
FIGURA 11: FUNES DE UM MODELO KBANN [OSORI99] ................................................................................. 76
FIGURA 12: RELAO DOS PACOTES DO WEKA ADAPTAO DE [SALGA02] ................................................... 78
FIGURA 13: EXEMPLO DE ARQUIVO .ARFF DO WEKA............................................................................................ 80
FIGURA 14: ALGORITMO APRIORI ROTINA PRINCIPAL.......................................................................................... 82
FIGURA 15: CLASSIFICADORES NO WEKA ............................................................................................................. 82
FIGURA 16: ALGORITMOS DE AGRUPAMENTO DO WEKA....................................................................................... 83
FIGURA 17: TELA INICIAL DO WEKA .................................................................................................................... 84
FIGURA 18: CONFIGURAO DE PARMETROS NO WEKA ..................................................................................... 85
FIGURA 19: TELA DE ENTRADA DO EUREKHA......................................................................................................... 88
FIGURA 20: GRUPOS NO EUREKHA ......................................................................................................................... 89
FIGURA 21: JANELA DE STOP WORDS DO EUREKHA................................................................................................. 90
FIGURA 25: GESTO DO CONHECIMENTO E DESCOBERTA DE CONHECIMENTO EM BD .......................................... 99
FIGURA 27: INTERAO DA GESTO DO CONHECIMENTO E DA DESCOBERTA DE CONHECIMENTO ...................... 100
FIGURA 28: ARQUIVO DE ENTRADA PARA O WEKA ............................................................................................. 111
FIGURA 29: EUREKHA NOVO PROJETO/ABRIR PROJETO ................................................................................... 119
FIGURA 30: EUREKHA ADICIONAR ARQUIVOS ................................................................................................... 120
FIGURA 31: EUREKHA LISTAS DE PALAVRAS NEGATIVAS .................................................................................. 121
FIGURA 32: EUREKHA IDENTIFICAR RELACIONAMENTOS .................................................................................. 122
FIGURA 33: EUREKHA VISUALIZAR GRUPOS ...................................................................................................... 123
FIGURA 34: EUREKHA REAGRUPAR ................................................................................................................... 124
FIGURA 35: AGRUPAMENTO 1998/1999 ............................................................................................................... 125
FIGURA 36: AGRUPAMENTO 2000/2001 ............................................................................................................... 126
FIGURA 37: AGRUPAMENTO 2002 A 2004 ............................................................................................................ 127
FIGURA 38: AGRUPAMENTO 1998 A MARO DE 2004........................................................................................... 128
FIGURA 39: BOLSISTAS POR ORIENTADOR ............................................................................................................ 131
FIGURA 40: GRUPOS DE BOLSISTAS POR ORIENTADOR .......................................................................................... 132
FIGURA 41: ALUNOS TITULADOS POR ORIENTADOR .............................................................................................. 133

FIGURA 42: RESUMO DO PERFIL DO ORIENTADOR ................................................................................................. 134


FIGURA 43: PRODUO POR ANO I .................................................................................................................... 137
FIGURA 44: PRODUO POR ANO II................................................................................................................... 138
FIGURA 45: PERCENTUAL DE TRABALHOS POR IDIOMA DE PUBLICAO .............................................................. 138

LISTA DE TABELAS

TABELA 1: MODELOS DE GC [RUBESTEIN-MONTANO AT AL. APUD FERREI03]. .. 43


TABELA 2: PROCESSOS DO CONHECIMENTO [FERREI03].......................................................... 47
TABELA 3: DESCRIO DOS PACOTES DO WEKA ADAPTADO DE [SALGA02] ............. 78
TABELA 4: SOBRE AFIRMAES E DECLARAES........................................................................... 93
TABELA 5: SOBRE PROMESSAS ................................................................................................................ 93
TABELA 6: QUANTIDADE DE PROCESSOS DE IC POR ANO........................................................... 107
TABELA 7: QUANTIDADE DE ALUNOS TITULADOS POR ANO ..................................................... 108
TABELA 8: EX-BOLSISTAS PIBIC TITULADOS STRICTO SENSU ................................................. 109
TABELA 9: QUANTIDADES DE REGISTROS DE DOCENTES E PRODUO................................ 114
TABELA 10: LISTA DE PALAVRAS NEGATIVAS ................................................................................ 116
TABELA 11: CENTRIDES DOS AGRUPAMENTOS POR PERODO ............................................... 136
TABELA 12: MGCTI TOTAIS DE PRODUO POR ANO ............................................................ 137

13

CAPTULO 1

1 INTRODUO
1.1 Contexto da Pesquisa
Nos ltimos anos, a larga utilizao de sistemas de informtica deu origem a grandes
bases de dados, a partir do armazenamento de informaes coletadas incessantemente atravs
dos mais diversos sistemas de automao.
Segundo diversos autores, a maior riqueza destas grandes bases ainda no est sendo
devidamente explorada, e sugerem que podem ser utilizadas tcnicas especficas para se
extrair delas conhecimentos no explcitos. Este assunto tratado atravs de DCBD Descoberta de Conhecimento de Bases de Dados, do ingls KDD - Knowledge Discovery in
Databases. Segundo Fayyad [FAYYA96], DCBD o processo no trivial de identificar, em
dados, padres vlidos, novos e potencialmente teis.
Minerao de Dados a parte deste processo onde se produzem conjuntos de padres
a partir da aplicao de algoritmos de explorao. Vale-se de diversos algoritmos que
processam os dados e encontram esses "padres vlidos, novos e potencialmente teis".
Entretanto, embora os algoritmos atuais sejam capazes de descobrir padres "vlidos e
novos", ainda no existe uma soluo eficaz para determinar padres potencialmente teis.
Assim, Minerao de Dados ainda requer uma interao muito forte com analistas humanos,
que so, em ltima instncia, os principais responsveis pela determinao do valor dos
padres encontrados. Alm disso, a conduo do direcionamento da explorao de dados
tambm tarefa fundamentalmente confiada a analistas humanos.
A Plataforma Lattes, uma iniciativa do Ministrio da Cincia e Tecnologia atravs do
CNPq1, constitui-se atualmente em um grande acervo de informaes sobre os pesquisadores
e sua produo cientfica e tecnolgica, atravs do Currculo Lattes, o formulrio eletrnico

CNPq: Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico.

14
do MCT2, do CNPq, da FINEP3 e da CAPES4; sobre os grupos de pesquisa existentes nas
universidades, nas empresas e outras instituies ligadas pesquisa cientfica; sobre as
instituies que participam de projetos ligados ao CNPq e/ou mantm grupos de pesquisa.
No contexto da Gesto do Conhecimento, a Plataforma Lattes apresenta um grande
potencial de gerao de conhecimento que pode ser utilizado na gesto da Cincia e
Tecnologia. As diversas possibilidades de explorao dos dados armazenados podem trazer
valiosas informaes sobre o modus operandi da produo cientfica e tecnolgica
desenvolvida no pas.
Este trabalho apresenta uma proposta de utilizao de tcnicas de Descoberta de
Conhecimento em Bases de Dados sobre os dados da Plataforma Lattes, com o objetivo de
gerar conhecimento que possa ser utilizado na gesto de Cincia e Tecnologia.
Tem o objetivo tambm de demonstrar que a Descoberta de Conhecimento em Bases
de Dados pode ser utilizada como uma poderosa ferramenta para a gerao de conhecimento,
etapa fundamental dos processos de Gesto do Conhecimento.

1.2 Descrio do Problema


O mundo cada vez mais globalizado e competitivo exige incrementos de qualidade e
produtividade de quem pretende manter-se inserido no mercado mundial. Neste contexto, a
produo cientfica e tecnolgica fundamental para o desenvolvimento do pas, permitindo a
obteno de produtos e servios com maior valor agregado para este mercado.
Assim, aes no sentido de gerar conhecimento organizacional que possa ser utilizado
na gesto da Cincia & Tecnologia so muito bem-vindas, sejam pelas agncias do governo
federal, pelas universidades, pelas empresas e instituies que mantm atividades de pesquisa.
O desenvolvimento da Plataforma Lattes representa uma iniciativa de se manter um
grande conjunto de informaes sobre a produo cientfica e tecnolgica do pas, de seus
pesquisadores, dos trabalhos realizados, dos grupos de pesquisa e das operaes de fomento
pesquisa patrocinados pelo CNPq.

MCT: Ministrio da Cincia e da Tecnologia

FINEP: Financiadora de Estudos e Projetos do MCT

CAPES: Coordenao de Aperfeioamento de Pessoal de Nvel Superior

15
A explorao das informaes tratadas pela Plataforma Lattes representa uma
oportunidade para a descoberta de conhecimento. Encontram-se armazenados vrios
gigabytes de dados sobre os itens anteriormente citados.
Entretanto, esta explorao no uma atividade simples. O grande volume de dados, a
diversidade de informaes coletadas, o grande nmero de relaes possveis torna o trabalho
de extrao de conhecimento uma tarefa que exige a utilizao de tcnicas sofisticadas.
Outro desafio observado est na necessidade de facilitar o processo de anlise e
avaliao dos resultados dos algoritmos de minerao de dados e minerao de texto. A
identificao do que realmente til e que pode acrescentar conhecimento organizao
uma das tarefas mais importantes de todo o processo.
Atualmente, os gestores de cincia e tecnologia se beneficiariam da obteno de
informaes como:
a) Definio de perfis de pesquisadores.
b) Definio de padres de produtividade.
c) Identificao de taxonomia.
d) Descoberta de relaes entre pesquisadores.
e) Descoberta de relaes entre grupos de pesquisa.
f) Identificao de pesquisadores por rea de atuao e sua relao com grupos de
pesquisa.
O problema a ser explorado neste trabalho refere-se utilizao de tcnicas de
Minerao de Dados e Minerao de Texto na Plataforma Lattes, com o objetivo de gerar
conhecimento organizacional a partir do estabelecimento de relaes entre os dados
armazenados. Atravs de modelos de Descoberta de Conhecimento em Bases de Dados e de
Gesto de conhecimento, pretende-se estabelecer um conjunto de possveis aplicaes para a
Minerao de Dados na Plataforma Lattes, com a conseqente gerao de conhecimento para
a gesto de Cincia & Tecnologia.

1.3 Justificativa
A realizao deste trabalho justifica-se pela necessidade de se obter conhecimento
organizacional em gesto de Cincia & Tecnologia para subsidiar as decises relacionadas a
esta atividade (e.g. definio de prioridades, organizao de grupos de pesquisa, alocao de
recursos, entre outras), explorando a possibilidade de obteno de conhecimento

16
organizacional a partir da aplicao de tcnicas de Minerao de Dados e Minerao de
Textos na base da Plataforma Lattes, utilizando um enfoque relacionado com a Gesto do
Conhecimento. A utilizao de algoritmos e ferramentas de Minerao de Dados pode revelar
relaes importantes entre os dados armazenados, e permitir uma conseqente gerao de
conhecimento organizacional.
Este conhecimento, devidamente tratado em um contexto de Gesto de Conhecimento
pode vir a ser til nos processos de tomada de deciso dos gestores de Cincia e Tecnologia,
seja a nvel federal, estadual, acadmico ou empresarial.

1.4 Objetivos
1.4.1 Objetivo Geral
O objetivo deste trabalho estudar tcnicas de Minerao de Dados e definir
aplicaes destas tcnicas na base de dados do Currculo Lattes, para prover os gestores de
Cincia & Tecnologia de ferramentas que permitam utilizar o conhecimento no explcito
presente neste grande conjunto de dados sobre a produo cientfica e sobre os pesquisadores.
Esse conhecimento gerado dever ser tratado em um contexto de Gesto do Conhecimento
para sua utilizao em processos de gesto de Cincia & Tecnologia.

1.4.2 Objetivos Especficos


a) Apresentar conceitos envolvendo Minerao de Dados, Minerao de Textos e
Gesto do Conhecimento.
b) Enumerar possibilidades de Descoberta de Conhecimento em Bases de Dados na
Plataforma Lattes.
c) Apresentar estudo de caso de Minerao de Dados na Plataforma Lattes.
d) Apresentar estudo de caso de Minerao de Texto na Plataforma Lattes.
e) Apresentar um mtodo para a interpretao de resultados de algoritmos de
agrupamento.
f) Contextualizar os resultados obtidos com a Minerao de Dados em relao a
Gesto do Conhecimento

17

1.5 Reviso da Literatura


Neste trabalho, os temas principais so: Descoberta de Conhecimento em Bases de
Dados, notadamente as tcnicas de Minerao de Dados e Minerao de Texto; e Gesto do
Conhecimento. Assim, a reviso literria enfocou principalmente estes temas.
No tpico Descoberta de Conhecimento em Bases de Dados, um dos principais autores
Fayyad [FAYYA96]. Citado em diversos artigos e livros sobre o tema, o autor props uma
metodologia para orientar os trabalhos em DCBD. Para a realizao deste trabalho, esta
metodologia foi considerada. Alm de Fayyad, outros autores como Witten e Eibe
[WITTE99] aplicativo de Minerao de Dados WEKA, e Ming-Syan Chen [CHEN96]
Minerao de Dados e Bancos de Dados, foram consultados. Tambm foram de grande valia
dissertaes de mestrado de Sousa [SOUSA03] e Edilberto Silva [SILVA02], assim como os
trabalhos de minerao de texto de Wives [WIVES99].
Para a interpretao de resultados em Descoberta de Conhecimento, utilizou-se os
trabalhos de Flores [FLORE88], Echeverra [ECHEV99] e Lucena [LUCEN02] sobre a
Ontologia da Linguagem.
No tpico Gesto do Conhecimento, os principais autores consultados foram Nonaka e
Takeuchi [NONAK97] com importantes colaboraes sobre a criao de conhecimento na
empresa; Karl Wiig [WIIG93] tambm sobre a Gesto do Conhecimento empresarial; e a
pesquisadora Stollenwerk [STOLL01], que elaborou um importante modelo de Gesto de
Conhecimento, tambm utilizado neste trabalho.

1.6 Possibilidades de Aplicao de DCDB na Plataforma Lattes


A pluralidade e o volume da base de dados da Plataforma Lattes um ambiente
propcio para a descoberta de conhecimento, a partir da aplicao de tcnicas de Descoberta
de Conhecimento em Bases de Dados.

Alguns exemplos de exploraes que podem ser efetuadas:


a) Minerao de texto para a gerao de taxonomia dos Grupos de Pesquisa.
b) Minerao de texto para a verificao da consistncia entre as linhas de pesquisa e
a produo cientfica e tecnolgica.
c) Agrupamento de pesquisadores a partir de sua produo cientfica e tecnolgica.

18
d) Identificao de perfis de pesquisadores a partir de suas informaes curriculares.
e) Identificao de competncias dos pesquisadores a partir de suas informaes
curriculares.
f) Identificao de linhas de pesquisa a partir das informaes da produo cientfica
e tecnolgica dos pesquisadores.

1.7 Classificao da pesquisa


Quanto aos fins, este trabalho classificado como uma proposta de pesquisa aplicada,
uma vez que tem por objetivo o estudo e a utilizao de tcnicas de Minerao de Dados e
Minerao de Texto na base do Currculo Lattes, para oferecer recursos de gesto de
conhecimento em Cincia & Tecnologia.
Quanto aos meios de investigao, foi utilizada a pesquisa bibliogrfica, para a
identificao das tcnicas de Minerao de Dados aderentes ao objeto pesquisado; e a
pesquisa documental, em documentos que tratam de questes sobre gesto da Cincia &
Tecnologia.
Foi utilizada tambm a pesquisa de laboratrio, onde se experimentou a aplicao dos
algoritmos selecionados em amostras da base de dados pesquisada; e estudos de casos, onde
dados da Plataforma Lattes foram submetidos a algoritmos de Minerao de Dados e
Minerao de Texto.

1.8 Suposies
O trabalho proposto tratou das seguintes suposies:
a) vivel a utilizao de tcnicas de Minerao de Dados e Minerao de Textos
para disponibilizar ao usurio final acesso facilitado aos resultados obtidos em
pesquisas na base de dados.
b) possvel extrair conhecimento til da base de dados do Currculo Lattes atravs
da utilizao de tcnicas de Minerao de Dados e Minerao de Textos.
a) A Descoberta de Conhecimento em Bases de Dados pode ser utilizada no contexto
da Gesto do Conhecimento para a gerao de conhecimento organizacional.

19

CAPTULO 2

2 REVISO DA LITERATURA
2.1 A Plataforma Lattes
A Plataforma Lattes um conjunto de sistemas de informao, bases de dados e
portais Web voltados para a gesto de Cincia e Tecnologia [CNPQ03].
composta pela integrao de sistemas de informaes distintos:
a) Currculo Lattes
b) Diretrio de Grupos de Pesquisa
c) Diretrio de Instituies
d) Sistema Gerencial de Fomento

2.1.1 Sistemas de Informao da Plataforma Lattes


2.1.1.1

Currculo Lattes

Em 1998 foi iniciado um processo para a gerao de um sistema informatizado que


viesse padronizar e consolidar as informaes curriculares dos pesquisadores interessados na
obteno de recursos de fomento pesquisa.
At ento, vinham sendo utilizados diversos formulrios, informatizados ou no, que
demandavam o preenchimento das mesmas informaes em locais diferentes. Esta prtica
provocava um considervel transtorno em vrias fases do processo, tanto para o pesquisador,
que se via obrigado a prestar a mesma informao diversas vezes, em locais e formatos
diferentes, quanto para os gestores das agncias de governo responsveis pela avaliao dos

20
processos. O projeto foi lanado em agosto de 1999, e, de uma base inicial de
aproximadamente 35 mil currculos cadastrados, passou-se atualmente para um total de
aproximadamente 350 mil currculos, um aumento de aproximadamente 1.000%.
O Currculo Lattes est se consolidando como uma importante ferramenta de apoio
gesto de Cincia & Tecnologia, uma vez que permitiu uma racionalizao no processo de
cadastramento, armazenamento e consulta de dados curriculares, eliminando uma srie de
outros processos semelhantes e redundantes.

2.1.1.2

Diretrios de Grupos de Pesquisa

O Diretrio de Grupos de Pesquisa um sistema que mantm uma base de dados com
informaes coletadas a partir de 1992. Foi desenvolvido pelo CNPq para manter informaes
sobre os grupos de pesquisa existentes no pas.
Os grupos de pesquisa podem ser definidos como um conjunto de pessoas organizadas
hierarquicamente, a partir de uma liderana de destaque no ambiente de cincia e tecnologia,
envolvidos permanentemente em atividades de pesquisa, cujo trabalho se organiza em linhas
comuns aos membros do grupo, e que, de alguma maneira, compartilhem instalaes e
equipamentos. Esto localizados em universidades, instituies isoladas de ensino superior,
institutos de pesquisa cientfica, institutos tecnolgicos, laboratrios de pesquisa e
desenvolvimento de empresas estatais ou ex-estatais e em algumas organizaes nogovernamentais com atuao em pesquisa cientfica ou tecnolgica [CNPQ03].
Os principais objetivos deste sistema so:
a) Manter um histrico das atividades dos grupos de pesquisa, preservando sua
memria.
b) Servir de base de consulta para a comunidade cientfica, que passa a contar com
uma ferramenta que permite a identificao dos membros, dos trabalhos
realizados, das linhas de pesquisa, facilitando o intercmbio entre os
pesquisadores.
c) Prover os gestores de Cincia & Tecnologia de uma ferramenta para avaliao e
planejamento dos investimentos em atividades de pesquisa, a partir de informaes
qualitativas e quantitativas sobre os trabalhos realizados no mbito dos grupos.

21

2.1.1.3

Diretrio de Instituies

O Diretrio de Instituies um sistema que armazena informaes sobre as


universidades, institutos de pesquisa, empresas e organizaes no-governamentais que
mantenham algum tipo de relacionamento com a pesquisa cientfica e tecnolgica.
fundamental para a gesto e operacionalizao dos processos de fomento pesquisa
mantidos pelo CNPq, bem como na elaborao de informaes estatsticas.

2.1.1.4

Sistema Gerencial de Fomento

Segundo o CNPq, a funo de fomento constitui-se na principal ao desenvolvida


pelo CNPq, com vistas promoo do desenvolvimento cientfico e tecnolgico do Pas
[CNPQ03]. So disponibilizados recursos para a capacitao tecnolgica e cientfica, bem
como so financiados projetos que possam estimular a gerao do conhecimento necessrio
para o desenvolvimento econmico, social e cultural do pas.
As aes de fomento so operacionalizadas atravs de vrios sistemas de informao.
O sistema gerencial de fomento uma iniciativa para permitir mais facilidade na execuo de
pesquisas nestas bases de dados, voltadas tanto para os gestores de Cincia e Tecnologia,
quanto para a comunidade cientfica em geral, atravs de consultas disponibilizadas na
Internet atravs da Plataforma Lattes.

2.1.2 Estrutura da Plataforma Lattes


A Plataforma Lattes resultado de um esforo para integrar sistemas de informaes
ligados gesto de Cincia e Tecnologia.
Alm disso, o Projeto de Institucionalizao da Plataforma Lattes est levando os
sistemas da Plataforma para instituies de ensino e pesquisa que tm interesse em manter em
bases locais as informaes curriculares de seus pesquisadores, funcionrios e quaisquer
outros envolvidos em atividades de pesquisa e docncia.
A seguir, ser apresentada a estrutura fundamental dos principais sistemas da
Plataforma Lattes.

2.1.2.1

Currculo Lattes

O Currculo Lattes composto por mdulos distintos:

22
a) Atualizao off-line: o usurio pode instalar em seus computadores um conjunto
de programas que permite o cadastramento das informaes necessrias do
Currculo Lattes, fazer todos os ajustes necessrios e, posteriormente, transmiti-lo
para a base de dados do CNPq. Para quem no dispe de acesso rpido Internet,
ou que deseja manter as informaes em seus computadores pessoais, este o
mdulo indicado para o cadastramento e manuteno de seu currculo.
b) Atualizao on-line: o usurio pode acessar, em tempo real, a base de dados do
CNPq e efetuar o cadastramento ou a atualizao de seu currculo. Atravs de uma
interface que pode ser acessada via navegadores Web, as informaes curriculares
so cadastradas, recuperadas e atualizadas sem a necessidade de armazenamento
local.
c) Buscas textuais: a partir da base operacional do Currculo Lattes, onde esto
armazenadas as informaes cadastradas tanto via Internet quanto via programas
locais, so extradas e consolidadas as informaes curriculares necessrias ao
servio de busca textual. Atravs de um processo de indexao textual, so
disponibilizadas diversas consultas, que utilizam como parmetro tanto o nome do
usurio quanto palavras-chaves relacionadas sua produo cientfica e
tecnolgica.

A base de dados do Currculo Lattes formada fundamentalmente por dois


componentes:
a) Base de dados operacional: onde esto armazenadas as informaes originais
providas pelos usurios, no momento do cadastramento ou da atualizao de seus
currculos. uma base de dados relacional composta por tabelas que mantm os
dados em formato estruturado, adequado para a atualizao on-line e off-line.
b) Base de dados para as consultas textuais: uma base de dados relacional com
ndices textuais, resultado de processos de extrao e consolidao de dados
oriundos da base operacional. Permite consultas a informaes no estruturadas.

A seguir, um figura com o organograma que representa o conjunto de informaes


armazenados na base de dados do Currculo Lattes:

23

Figura 1: Estrutura do Currculo Lattes

a) Informaes gerais
a.1. Identificao
a.2. Endereo
a.3. Formao Acadmica e Titulao
a.4. Atuao profissional
a.5. reas de atuao
a.6. Idiomas
a.7. Prmios e ttulos
b) Produo Cientfica e Tecnolgica
b.1. Produo bibliogrfica
b.1.1. Trabalhos em eventos
b.1.2. Artigos publicados
b.1.3. Livros e captulos
b.1.4. Texto em jornal ou revista (magazine)
b.1.5. Demais tipos de produo bibliogrfica
b.2. Produo tcnica
b.2.1. Softwares
b.2.2. Produtos

24
b.2.3. Processos
b.2.4. Trabalhos tcnicos
b.2.5. Demais tipos de produo tcnica
b.2.6. Propriedade intelectual
b.3. Outra produo
b.3.1. Produo artstica e cultural
b.3.2. Orientaes concludas
b.3.3. Demais trabalhos
b.3.4. Outras informaes relevantes
c) Informaes complementares
c.1. Formao complementar
c.2. Participao em banca de trabalhos de concluso
c.3. Participaes em eventos, congressos e outros
c.4. Participaes em bancas de comisses julgadoras
c.5. Orientaes em andamento

2.1.2.2

Diretrio dos Grupos de Pesquisa

O Diretrio de Grupos de Pesquisa composto basicamente por dois mdulos:


a) Base corrente: organizado de maneira a permitir acesso diferenciado aos
diferentes tipos de membros do Grupo, permite o cadastro e a manuteno das
informaes dos grupos de pesquisa constantemente atualizados. Tem por objetivo
manter a base de dados operacional do Diretrio, e registrar todas as informaes
pertinentes. Pode ser acessado atravs da Internet, e existem opes diferenciadas
para:
a.1. Dirigentes Institucionais de Pesquisa
a.2. Lderes de Grupos de Pesquisa
a.3. Pesquisadores de Grupos de Pesquisa
a.4. Estudantes de Grupos de Pesquisa

25
b) Base censitria: permite consultas base de dados censitria, que o resultado de
operaes de extrao, anlise, avaliao e consolidao de informaes oriundas
da base corrente. Est disponvel para acesso atravs da Internet. Atualmente, a
ltima verso de dados disponibilizados refere-se ao Censo 2002, a partir da
apurao de informaes da verso 5.0 do sistema de captura. De acordo com
informaes do CNPq, o planejamento atual para a realizao de censos bienais,
mas, graas nova estrutura do sistema, possvel realizar a qualquer momento
totalizaes especficas, de acordo com as necessidades do governo e da
sociedade.
A base de dados do Diretrio de Grupos de Pesquisa tambm formada por dois
mdulos:
a) Base corrente: uma base de dados relacional onde esto armazenadas as
informaes dos grupos de pesquisa, cadastradas pelos seus membros. a base de
dados operacional do sistema.
b) Base censitria: uma base de dado modelada para consultas gerenciais,
utilizando totalizadores e aglomeraes. So originadas da extrao, anlise,
avaliao e consolidao de informaes oriundas da base corrente. Possui
indexao textual, o que permite a realizao de consultas sobre dados no
estruturados. Atualmente, existem consultas disponveis s bases censitrias de
1993, 1995, 1997, 2000 e 2002.

As principais informaes armazenadas na base operacional do Diretrio de Grupos de


Pesquisa so:
a) Informaes dos Grupos:
a.1. Identificao
a.2. Componentes
a.3. rea do conhecimento
a.4. Linhas de pesquisa
b) Informaes dos pesquisadores e alunos: as informaes dos pesquisadores e
alunos so obtidas atravs do Currculo Lattes. Para a participao em qualquer
grupo de pesquisa, necessrio manter o Currculo Lattes atualizado.

26
c) Informaes das Instituies: as informaes das instituies so obtidas a partir
do Diretrio de Instituies.

Figura 2: Estrutura do Diretrio dos Grupos de Pesquisa

As principais consultas disponveis a partir dos dados armazenados nas bases


censitrias do Diretrio de Grupos de Pesquisa so [CNPQ03]:
a) Sries Histricas: as Sries Histricas contm tabelas e grficos selecionados,
com informaes que sintetizam a evoluo temporal e agregada do perfil dos
grupos de pesquisa.
b) Smula Estatstica: a smula estatstica apresenta um pequeno conjunto de tabelas
e grficos selecionados, com informaes que sintetizam o contedo da base de
dados e fornecem um retrato bastante ntido da capacidade instalada de pesquisa
no pas em 2002.
c) Plano Tabular: o Plano Tabular objetiva estabelecer o perfil da pesquisa no Brasil
em termos quantitativos. Organiza-se segundo configuraes de montagem e de
visualizao, realizadas dinamicamente pelo usurio. As tabelas desse mdulo so
grandemente inclusivas e oferecem a possibilidade de cruzamento de variveis
capazes de gerar diversas combinaes.
d) Busca Textual: a busca textual permite recuperar, dinamicamente, informaes
individualizadas sobre dados presentes na base do Diretrio. Inclui trs
possibilidades de recuperao de informaes, em nveis crescentes de

27
complexidade - busca simples, orientada e avanada. Organiza-se a partir de trs
decises iniciais tomadas pelo usurio: (i) qual informao dever ser recuperada
(busca simples); (ii) onde esta informao dever ser procurada (orientada e
avanada); e (iii) segundo quais critrios dever ser buscada (orientada e
avanada).
e) Estratificao dos grupos: o mdulo de Estratificao dos Grupos de Pesquisa
contidos no Diretrio permite classificar os grupos pertencentes s instituies de
ensino superior e a institutos de pesquisa que possuem programas de psgraduao em estratos de qualidade5.
f) Anexos: apresentada sob a rubrica de Anexos a rvore de especialidades do
conhecimento do CNPq, a lista dos setores de atividades utilizadas nesta verso do
Diretrio, a relao das instituies cujos grupos de pesquisa constam da base de
dados, a relao das instituies que no responderam solicitao do CNPq,
embora contatadas, e a lista das unidades da Federao. Essas informaes so
teis para a utilizao dos dispositivos de busca textual e de construo de
tabelas.

2.1.2.3

Diretrio de Instituies

O Diretrio de Instituies o mdulo da Plataforma Lattes responsvel pela gesto


de informaes institucionais.
Este sistema um dos mais antigos do CNPq, iniciado no incio dos anos setenta, em
um esforo para sistematizar as informaes sobre as instituies que se relacionavam com o
CNPq. Passou por vrias reformulaes, at ser incorporado Plataforma Lattes. Neste
momento, est passando por mais uma manuteno evolutiva, no intuito de facilitar o
cadastramento e a manuteno dos dados das instituies [CNPQ03].
O Diretrio de Instituies composto fundamentalmente por dois mdulos:
a) Cadastramento e manuteno: possvel incluir e atualizar informaes sobre as
instituies a partir de uma interface na Internet, ou atravs da interface do
Currculo Lattes.

Estratos de Qualidade: obtidos a partir de algoritmos desenvolvidos no CNPq para a identificao de nveis de

qualidade, a partir de informaes das bases de coleta e de parmetros de produtividade e desempenho


[CNPQ03b].

28
b) Consulta Instituies: atravs deste mdulo, possvel efetuar consultas sobre as
instituies cadastradas. Est disponvel atravs de uma interface Web.
A base de dados composta por tabelas relacionais que apresentam interaes com
todos os outros mdulos da Plataforma Lattes.

2.1.2.4

Sistema Gerencial de Fomento

O Sistema Gerencial de Fomento composto por mdulos que tm por objetivo


fornecer informaes de natureza gerencial sobre as operaes de fomento realizadas pelo
CNPq.
Estas transaes so inicialmente tratadas por sistemas especficos, de natureza
operacional, cujos dados so armazenados em tabelas relacionais. A partir de extraes,
anlises e consolidaes dos dados da base operacional, constituda outra base de dados de
cunho gerencial.
So os seguintes os mdulos do Sistema Gerencial de Fomento:
a) Busca por histrico de fomento: este servio permite a realizao de consultas na
base de dados de fomento, a partir de um dos parmetros abaixo:
a.1. Nome
a.2. rea do conhecimento
a.3. Instituio
a.4. UF da instituio
a.5. Modalidade
b) Investimentos do CNPq em C&T: este servio permite a realizao de consultas
na base de dados gerenciais de fomento, e fornece diversas resultados a de:
b.1. Capacitao de recursos humanos para a pesquisa
b.1.1. Bolsas no pas
b.1.2. Bolsas no exterior
b.2. Fomento pesquisa
b.2.1. Apoio a projetos de pesquisa
b.2.2. Apoio editorao
b.2.3. Apoio a eventos

29

2.2 Gesto do Conhecimento


A utilizao da Plataforma Lattes como fonte de conhecimento organizacional uma
iniciativa que tem por objetivo gerar conhecimento til no processo de gesto de Cincia e
Tecnologia. Para tal, utilizou-se de conceitos de Gesto de Conhecimento, particularmente o
modelo proposto pela pesquisadora Maria de Ftima Stollenwerk [STOLL01], e de
Descoberta de Conhecimento em Bases de Dados, modelo proposto por Usama Fayyad
[FAYYA96].
Este tpico trata de aspectos tericos da Gesto do Conhecimento e da Descoberta de
Conhecimento em Bases de Dados.

2.2.1 Conceitos Iniciais


Para conduzir a apresentao deste tpico, conceitos iniciais relacionados ao assunto
devem ser considerados. A seguir, sero enumerados alguns conceitos sobre dado,
informao, sistemas, sistemas de informao, sistemas gerenciadores de bancos de dados e
conhecimento.

2.2.1.1

Dado

De acordo com a Prof. Solange Oliveira Resende, dado a estrutura fundamental


sobre a qual um sistema de informao construdo [REZEN03]. J segundo o Prof.
Valdemar Setzer, dado uma seqncia de smbolos quantificados ou quantificveis
[SETZE03]. Esta seqncia de smbolos identifica condies especficas a respeito das
entidades a eles relacionados, mesmo que eventualmente o observador no possa entend-los.
Neste contexto, um literal pode ser um dado, uma seqncia de literais pode ser um dado, um
texto pode ser um dado, uma foto pode ser um dado. Por serem unidades de representao de
valores, tm um carter puramente sinttico, significando que podem ser totalmente descritos
atravs de representaes formais, estruturais [SETZE03]. Esta caracterstica permite que
dados possam ser definidos e armazenados em sistemas computacionais, bem como possam
ser processados, ou seja, utilizados em operaes como adio, contagem, concatenao,
comparao, entre outras.
Os dados podem ser ainda combinados em estruturas, de forma a formarem dados
mais complexos. Por exemplo, a estruturao dos dados sobre cada ponto de uma em uma
matriz pode formar uma foto, sendo dados de cada ponto itens como cor e brilho.

30

2.2.1.2

Informao

Vrios autores tentam estabelecer um conceito para informao. Paulo Foina afirma
que informao um valor, ou dado, que possa ser til para alguma aplicao ou pessoa
[FOINA01].
J Solange Resende define informao como um dado que tem o contedo e forma
apresentada de uma maneira que seja til para um processo de tomada de deciso
[REZEN03].
Entretanto, o professor Setzer prefere estabelecer uma caracterizao do termo, e no
propor uma definio. Afirma que informao uma abstrao informal (isto , no pode ser
formalizada atravs de uma teoria lgica ou matemtica), que est na mente de algum,
representando algo significativo para essa pessoa [SETZE03]. Portanto, informao tem
sentido somente quando uma pessoa recebe dados sobre um determinado elemento e forma
uma imagem mental a partir deles, ou de sua correlao com outros dados. Por exemplo, a
leitura da manchete de um jornal que estampa as aes da Petrobrs subiram 5% no ltimo
prego pode representar uma informao para uma pessoa que saiba o que Petrobrs, e que
tenha conhecimentos mnimos do mercado acionrio. Sem isso, a frase somente um
conjunto de dados.
Para ser armazenada em um computador, a informao deve ser representada na forma
de dados. Mas, ainda segundo Setzer [SETZE03], o que armazenado no computador no
informao, mas os dados que a representam. Atravs de processamento, esta representao
da informao, ou o conjunto de dados, pode ser manipulado, mas somente do ponto de vista
sinttico. O computador no altera o sentido de um conjunto de dados. Pode at modific-los
de maneira que no sejam mais inteligveis, atravs de criptografia, ou substituir uma palavra
por outra, mas o que ocorreu na mquina foi somente uma mudana sinttica, somente o
receptor humano pode empreender uma mudana semntica.
Dados e informaes so essencialmente diferentes. O primeiro tem uma caracterstica
sinttica, enquanto o segundo tem sentido somente com uma componente semntica, isto ,
deve poder ser interpretado pelo agente humano. Os computadores so fundamentalmente
sintticos, possuindo capacidade apenas para a manipulao de dados, o que no
caracterizaria o processamento de informao. Quando o computador Deep Blue6 derrotou o

Deep Blue: supercomputador da IBM Research.

31
enxadrista Garry Kasparov, o que prevaleceu foi a capacidade fenomenal de realizao de
operaes matemticas do computador. Neste caso, o computador manipulava dados, e no
informao.

2.2.1.3

Sistemas
1. Conjunto de elementos, materiais ou ideais, entre os quais se possa
encontrar ou definir alguma relao. 2. Disposio das partes ou dos
elementos de um todo, coordenados entre si, e que funcionam como estrutura
organizada [FERREI01].

As definies acima so suficientes para introduzir o conceito de sistema, que pode ser
entendido como a unio de partes coerentes para a formao de um todo. Um sistema,
normalmente, no existe de forma isolada, mas se relaciona com outros sistemas mais
abrangentes. Um sistema pode ser parte de outro maior, e ser compostos por sistemas
menores. Para cada sistema pode ser definido um espao de existncia, com fronteiras
estabelecidas. A maior ou a menor proximidade de outros sistemas definitiva para o grau de
interatividade entre eles.
Este texto no pretende explorar toda a complexidade que envolve o estudo dos
sistemas, tratado na Teoria Geral dos Sistemas. No ocidente, os trabalhos do bilogo austraco
Ludwig Von Bertalanffy representam um marco, com a apresentao de propostas para
abordagens cientficas do que se chamou todos integrados, na dcada de 1950. Este termo
teria sido citado anteriormente pelo mdico, filsofo e economista russo Alexander
Bogdanov, em 1922, mas seus trabalhos foram pouco divulgados no ocidente [UHLMA02].

2.2.1.4

Sistemas de Informao

A partir dos conceitos de sistema, apresentados no item anterior, pode-se definir


Sistema de Informao como um conjunto de partes organizadas que se inter-relacionam para
a formao de um conjunto adequado ao fornecimento de informaes para a organizao,
seja ela domstica, de pequeno ou de grande porte.
Um sistema de informao pode ser utilizado para reunir, armazenar, processar e
fornecer informaes relevantes para um grupo interessado. Pode ou no contar com a
utilizao de recursos computacionais na sua construo, mas isto no obrigatrio.
Entretanto, devido a sua existncia estar normalmente ligada utilizao de tecnologia

32
computacional e eletrnica, os sistemas de informao normalmente so associados
utilizao de computadores.
Afirma o professor Antnio Vidal:
Um sistema de informao um componente do sistema organizacional,
constitudo por uma rede difundida pela empresa inteira e utilizado por todos
os seus componentes. Seu propsito obter informaes dentro e fora da
empresa, torn-las disponveis para os outros componentes, quando
necessitarem, e apresentar as informaes exigidas pelos que esto fora
[VIDAL98].

Os sistemas de informao, em geral, so utilizados para orientar a tomada de deciso


em trs nveis diferentes na administrao de uma empresa: o operacional, o ttico e o
estratgico.
O primeiro nvel, o operacional, se responsabiliza pelo comprimento de tarefas da
maneira mais eficiente possvel. O nvel ttico j se responsabiliza para que as tarefas sejam
cumpridas com eficincia, mas se responsabilizando enfaticamente com os objetivos da
empresa, e se preocupa com o fornecimento de recursos para a viabilidade do cumprimento
das tarefas. J o nvel estratgico responsvel por definir os rumos da empresa, seus
objetivos e estratgias para atingir estes objetivos.
Os sistemas de informao devem atender a todos os nveis acima citados, com a
devida ateno para as caractersticas de cada um deles, e oferecer a todos os envolvidos
ferramentas adequadas ao bom cumprimento de suas atividades. Segundo Vidal, os sistemas
de informao podem ser divididos em duas grandes categorias [VIDAL98]:
a) Sistemas de uso operacional: voltados para o apoio s atividades operacionais,
normalmente orientados transaes, com necessidade de timo tempo de
resposta.
b) Sistemas gerenciais: voltados para a produo de informaes de apoio gesto,
normalmente utilizados por um nmero menor de usurios, interessados em
consultar totais, resumos, associaes de dados. So menos sensveis ao tempo de
resposta, mas processam grandes quantidades de dados.

2.2.1.5

Sistemas Gerenciadores de Bancos de Dados

Considerando os conceitos apresentados nos tpicos acima, pode-se fazer o seguinte


exerccio: os computadores no processam informaes, mas dados. O conhecimento

33
intrnseco ao agente, que pode se valer de recursos computacionais para incrementar sua
capacidade de aprendizado, e a construo de conhecimento.
Assim, pode-se perceber a importncia que o item dados tem no ambiente de sistemas
de informaes. Os dados so, em resumo, o que se pode efetivamente armazenar, processar,
manipular, organizar, transformar e recuperar. Em conjunto com os programas que atuam
sobre eles, os dados se constituem em uma das unidades fundamentais de qualquer sistema de
informao.
Inicialmente, os dados eram armazenados na forma de seqncias, ordenadas ou no, e
toda sua manipulao era realizada atravs de rotinas construdas pelas equipes de
programao, especficas para cada sistema. Para tal, era necessrio programar, a cada sistema
construdo, o mtodo de acesso, as rotinas de ordenao, as rotinas de controle.
Com o crescimento da utilizao dos computadores pelas empresas, e com o grande
aumento do volume de dados armazenados, fez-se necessrio o desenvolvimento de produtos
especficos para o tratamento destes dados, os quais livrassem as equipes de desenvolvimento
da necessidade de construir todas as rotinas para o seu armazenamento, processamento e
recuperao. Surgiram assim os DBMS Database Management Systems, ou sistemas
gerenciadores de bancos de dados.
Estes DBMS so constitudos de rotinas que implementam recursos para:
a) A definio da base de dados (DDL Data Definition Language), por exemplo, a
criao de tabelas, vises, ndices;
b) O controle da base de dados (DCL Data Control Language), por exemplo, a
criao de usurios, a atribuio de privilgios;
c) A manipulao dos dados (DML Data Manipulation Language), por exemplo,
para a insero, alterao e recuperao de registros nas tabelas.
So constitudos tambm de sistemas de arquivos que permitem o armazenamento de
grandes volumes de dados.
Os DBMS podem ser classificados, quanto sua estratgia de armazenamento e busca,
em:
a) Hierrquicos: as tabelas so organizadas de maneira que ocorra uma hierarquia
entre elas. Por exemplo, a tabela DEPARTAMENTOS est em uma posio
hierarquicamente superior tabela FUNCIONRIOS. Este modelo pouco
utilizado atualmente. Como vantagem, pode ser citada a capacidade de definio

34
de relaes um-para-muitos, facilitando buscas atravs da hierarquia. Como
desvantagem, o fato das definies das classes e estruturas serem fixas, no
permitindo a relao muitos-para-muitos;
b) Redes: os registros so organizados de maneira a manter apontamentos uns para
os outros. Como vantagens, possibilita flexibilidade na insero de novas
estruturas, e pesquisas complexas. Como desvantagem, a dificuldade de mapear
relaes entre diferentes conjuntos.
c) Relacionais: apresentam uma estrutura tabular inter-relacionada que contm dados
organizados em conjuntos lgicos. Foi definido formalmente pelo Dr. Codd em
1969. a tecnologia mais utilizada atualmente, atendendo a praticamente todas as
necessidades de gerenciamento de bases de dados. Como vantagens, pode ser
citada a sua estrutura que evita a redundncia de dados, a facilidade na alterao
das estruturas e a alta performance. Como desvantagens, a dificuldade para se
tratar dados complexos (e.g. vdeo, imagens), e a necessidade de grande
capacidade de processamento.
d) Orientados a objetos: ainda so considerados em um estgio de desenvolvimento,
sem que os grandes fornecedores tenham implementado verses puramente
orientadas a objetos para a utilizao em sistemas de grande porte. Utiliza
estruturas semelhantes aos bancos hierrquicos, mas oferece recursos como
herana e encapsulamento. Como vantagens, oferecem facilidades para a
implantao de projetos orientados a objetos e tratamento de dados complexos, e
como desvantagem, a necessidade de grande poder de processamento e o grande
volume de informaes trafegadas.

2.2.1.6

Conhecimento

O tema conhecimento talvez seja o que mais provoca discusses sobre o seu
entendimento, discusses essas originadas h milnios. Formalmente, o estudo dos
fundamentos filosficos do conhecimento chamado epistemologia7. Nonaka e Takeuchi
[NONAK97], estudiosos da gesto do conhecimento, defendem que a resposta para a

Epistemologia: Conjunto de conhecimentos que tm por objeto o conhecimento cientfico, visando a explicar

os seus condicionamentos (sejam eles tcnicos, histricos, ou sociais, sejam lgicos, matemticos, ou

35
pergunta o que o conhecimento? orienta a histria da filosofia ocidental desde o perodo
grego. Esta histria, da epistemologia ocidental, divide-se em duas correntes opostas, uma
racionalista e outra empirista, consideradas estas complementares pelos autores acima citados.
a) Racionalismo: afirma ser possvel adquirir conhecimento por deduo, atravs do
raciocnio.
b) Empirismo: afirma ser possvel adquirir conhecimento por induo, a partir de
experincias sensoriais.
Segundo Nonaka e Takeuchi, [NONAK97] os racionalistas argumentam que o
verdadeiro conhecimento no produto da experincia sensorial, mas sim de um processo
mental ideal. Segundo essa viso, existe um conhecimento a priori que no precisa ser
justificado pela experincia sensorial. A verdade absoluta deduzida a partir de uma
argumentao racional baseada em axiomas. Para os racionalistas os paradigmas de
conhecimento so a matemtica e a lgica, onde verdades necessrias so obtidas por intuio
e inferncias racionais. Por outro lado, os empiristas alegam no existir conhecimento a priori
e que a nica fonte de conhecimento a experincia sensorial. Por esta viso, todas as pessoas
tm uma existncia intrinsecamente objetiva, mesmo quando se tem uma percepo ilusria.
O prprio fato de se perceber alguma coisa j significativo. O paradigma desta escola a
cincia natural, onde as observaes e os experimentos so cruciais investigao.
Ambas as correntes da filosofia ocidental convergem para a mesma questo: o
conhecimento pode ser adquirido, intrnseco ao ser, e depende totalmente da experincia
individual do agente com a questo a ser transformada em conhecimento.
Quando a discusso voltada para ambientes computacionais, a questo torna-se ainda
mais complexa. Podem as mquinas desenvolver conhecimento? O que processado dado,
informao ou conhecimento? Para Valdemar Setzer [SETZE03], conhecimento uma
abstrao interior, pessoal, de algo que foi experimentado, vivenciado por algum. O
conhecimento no poderia ser formalmente descrito, o que pode ser descrito a informao.
Assim, os computadores no armazenariam nem informao nem conhecimento, mas apenas
dados.
Conhecimento diferente de informao. Informao existe quando o agente capaz
de associar conceitos. Conhecimento est relacionado com a experincia do agente em

lingsticos), sistematizar as suas relaes, esclarecer os seus vnculos, e avaliar os seus resultados e aplicaes
[FERREI01]

36
determinada situao, seja ela real ou filosfica. A vivncia de determinada situao, as
reflexes sobre um tema, associados experincia anterior constroem novos conhecimentos,
que so intrnsecos ao agente. O conhecimento no pode ser simplesmente transportado de um
agente para outro. Para tal, deve ser convertido em informaes, submetido ao outro agente,
que, a partir de suas prprias experincias e conhecimentos anteriores, vai construir mais um
conjunto de novos conhecimentos.

2.2.2 Gesto do Conhecimento


Foi dito anteriormente que conhecimento est relacionado com a experincia do
agente em determinada situao, sendo, assim, intrnseco pessoa. Portanto, so as pessoas as
legtimas portadoras do conhecimento.
A Gesto do Conhecimento um tema recente que est sendo tratado com interesse
cada vez maior pelas organizaes, empresas, instituies. Como criar conhecimento que
possa ser utilizado pela organizao? Como armazenar esse conhecimento, uma vez que
conhecimento intrnseco pessoa? Como disseminar o conhecimento j adquirido? So
perguntas que a Gesto do Conhecimento se esfora em responder, com o objetivo de dotar as
organizaes de mecanismos que possam permitir uma correta administrao de seu capital
intelectual, considerado por muitos autores como o bem mais precioso das organizaes
modernas.

2.2.2.1

Conceitos

Alguns conceitos de Gesto do Conhecimento:

Gesto do conhecimento a construo sistemtica, explcita e intencional


do conhecimento e sua aplicao para maximizar a eficincia e o retorno
sobre os ativos de conhecimento da organizao [Wiig, 1993 apud
STOLL01].

Gesto do conhecimento a disponibilizao do conhecimento certo para as


pessoas certas, no momento certo, de modo que estas possam tomar as
melhores decises para a organizao [Petrash, 1996 apud STOLL01].

37
Gesto do conhecimento o processo de busca e organizao da expertise
coletiva da organizao, em qualquer lugar em que se encontre, e de sua
distribuio para onde houver o maior retorno [Hibbard, 1997 apud
STOLL01].

Gesto do conhecimento o controle e o gerenciamento explcito do


conhecimento dentro da organizao, de forma a atingir seus objetivos
estratgicos [Spek & Spijkevert, 1997 apud STOLL01].

Gesto do conhecimento a formalizao das experincias, conhecimentos e


expertise, de forma que se tornem acessveis para a organizao, e esta possa
criar novas competncias, alcanar desempenho superior, estimular a
inovao e criar valor para seus clientes [Beckman, 1999 apud STOLL01].

Assim, a Gesto do Conhecimento se prope a tratar de questes ligadas gerao,


catalogao, ao armazenamento e disseminao de conhecimento que possa ser utilizado
pelas organizaes para incrementar seu desempenho, cativar os clientes e conquistar o
mercado.
Neste sentido, as organizaes esto procurando estabelecer polticas que permitam
gerar condies para que o conhecimento dos seus membros seja utilizado da melhor maneira
possvel como forma de atingir os seus objetivos.
Para tratar deste conhecimento, que as organizaes se esforam a criar, catalogar,
armazenar e disseminar, importante apresentar algumas distines. Segundo Nonaka e
Takeuchi [NONAK97], o conhecimento na organizao pode ser classificado basicamente em
dois tipos: tcito e explcito:
a) Conhecimento tcito: altamente pessoal e de difcil formalizao. o
conhecimento na sua forma mais original, resultado das experincias do indivduo,
em conjunto com suas crenas e emoes. Por ser inerente pessoa, a sua
disseminao mais complexa, pois no simples formalizar todo o conjunto de
variveis envolvidas na construo de determinado conhecimento. Por exemplo:
concluses, palpites subjetivos, intuio. O conhecimento tcito aquele que as
pessoas possuem, mas no est descrito em lugar nenhum [TEIXE00].

38
b) Conhecimento explcito: formal e sistemtico, pode ser expresso em palavras e
nmeros e, portanto, ser mais facilmente disseminado. o conhecimento que
passou pelo processo de formalizao que permite que seja expresso de maneira
estruturada, podendo, assim, ser armazenado artificialmente. Por exemplo: frmula
matemtica, texto cientfico, procedimentos codificados. O conhecimento
explcito aquele que est registrado de alguma forma, e assim disponvel para as
demais pessoas [TEIXE00].
Assim, o conhecimento organizacional pode ser entendido com o conhecimento,
formalizado ou no, que pode ser utilizado pelas organizaes para alcanar vantagens
competitivas. Na medida em que as organizaes forem eficientes em oferecer condies para
a criao e disseminao deste conhecimento, estar efetivamente caminhando na direo de
galgar posies no mercado.

2.2.2.2

Histrico

Mesmo antes de ser utilizada esta denominao, a Gesto do Conhecimento j existia


nas formas de organizao mais primitivas. Quando um caador estabelecia tticas mais
eficientes para o abate e a captura de animais, e o grupo aprendia com ele, ocorria uma
transferncia de conhecimento. Quando o funcionrio de um fara contabilizava os estoques
de gros do reino, o fazia utilizando o conhecimento da escrita, restrito a poucos. Quando o
arteso medieval ensinava sua tcnica a seu filho, transmitia o conhecimento necessrio para a
execuo das tarefas especficas de seu ofcio.
Assim, o conhecimento, e a sua gesto, mesmo que intuitiva, informal e no
estruturada, sempre esteve presente nas atividades humanas. Entretanto, somente nos ltimos
anos o assunto est sendo tratado com destaque, pesquisado, formalizado, e aplicado s
organizaes. Foi na dcada passada que alguns autores, como Drucker, Senge, Nonaka e
Takeuchi escreveram sobre sociedade do conhecimento, organizaes que aprendem,
criao de conhecimento nas organizaes. Este movimento, aliado ao avano da
Tecnologia da Informao, com a crescente utilizao de sistemas gerenciadores de bancos de
dados, da popularizao dos computadores, do crescimento da Internet, da popularizao do
e-mail, permitiu o desenvolvimento do tema Gesto do Conhecimento.

39

2.2.2.3

A sociedade do conhecimento

Observando o passado recente, percebe-se que profundas transformaes ocorreram


no ltimo sculo, em uma velocidade nunca antes observada. Um acentuado progresso
cientfico, mudanas profundas no cenrio geopoltico mundial, conflitos de propores
globais, revolues nas teorias econmicas.
Entretanto, segundo Peter Drucker [DRUCK94], uma importante revoluo deste
sculo se deu de forma quase silenciosa, sem grande alarde, sem grandes manifestaes.
Antes da Primeira Guerra Mundial, as atividades agrcolas, pecurias e pastoris se constituam
naquelas que envolviam a maior quantidade de pessoas. Assim, o grupo dos fazendeiros podia
ser considerado como o mais numeroso, na grande maioria dos pases. As atividades deste
grupo esto diretamente ligadas a terra, neste momento com nfase no trabalho manual. O
principal fator de produo era a terra.
Outro grande grupo existente no incio do sculo passado era dos trabalhadores
domsticos, formado por pessoas com pouca instruo formal, cujo trabalho era
essencialmente manual.
Entretanto, nos pases desenvolvidos, alguns anos aps a Primeira Grande Guerra, o
nmero desses trabalhadores caiu de maneira drstica. Segundo Drucker [DRUCK94], essa
mudana se deu de forma relativamente pacfica e silenciosa. Ocorreu uma migrao de mode-obra anteriormente ocupada com o trabalho nos campos, e da mo-de-obra domstica, para
atividades industriais.
Mas esse trabalhador da indstria era responsvel por atividades pouco complexas,
com baixa exigncia de instruo formal. O trabalho continuava essencialmente manual, com
tarefas repetitivas e de pouca elaborao mental. O principal fator de produo era o capital.
No fim do sculo passado, o mesmo processo de reduo de nmero de empregos
acometeu o trabalhador da indstria. A crescente automatizao e incrementos de
produtividade acabaram por eliminar a maioria dos postos de trabalho neste segmento da
economia. O trabalho torna-se cada vez mais elaborado, exigindo maior instruo formal.
Assim, neste ltimo sculo, os meios de produo sofreram sucessivas revolues. Se
h pouco mais de cem anos a grande maioria dos trabalhadores concentrava-se na produo
agrcola, pecuria e pastoril e no trabalho domstico, em poucos anos esse massa migrou para
o trabalho industrial ainda pouco elaborado, repetitivo e pouco exigente do ponto de vista
intelectual.

40
Pouco tempo tambm foi necessrio para que esse tipo de trabalhador da indstria
fosse substitudo por maquinrio, no crescente processo de automatizao das plantas de
fbrica. Nestas ltimas dcadas o espao para o trabalhador braal est sendo visivelmente
reduzido.
Neste contexto, surge a figura do trabalhador do conhecimento. Para atender aos
desafios de aumento de produtividade e reduo de custos das organizaes, fundamental a
presena de um novo perfil de trabalhador: um indivduo com considervel educao formal,
com alta capacidade de aprendizado, com capacidade de autogesto. Este trabalhador passa do
mero executor de tarefas para o trabalhador do conhecimento, deixa de ter seu ritmo ditado
pela mquina e passa a estabelecer a sua prpria lgica de trabalho.
Entretanto, a passagem do trabalho industrial para o trabalho com o conhecimento no
uma tarefa fcil. Ao contrrio do que ocorreu nas transformaes anteriores, onde a
necessidade de educao formal no era acentuada, permitindo que indivduos originados do
campo e de trabalhos domsticos pudessem com certa facilidade desenvolver as tarefas
necessrias nas plataformas industriais, a passagem para a nova realidade exige uma apurada
educao formal. Alm disso, habilidades manuais ainda so necessrias. Um operrio deve
ser capaz de operar uma mquina complexa, o que exige conhecimento tcnico e habilidade
manual. Drucker cita como exemplo o neurocirurgio, que um profissional que necessita de
uma excelente educao formal, obtida atravs de entidades educacionais de alto nvel, mas
que no pode abrir mo das habilidades manuais, sem as quais torna-se desqualificado
profissionalmente.
Este trabalhador do conhecimento atua em empresas e organizaes que esto
descobrindo a necessidade de se gerenciar esse conhecimento. Vrios autores citam o
conhecimento como o fator de produo mais importante deste novo mundo.
A terra, o capital e o trabalho os tradicionais fatores de produo, passam a ter um
papel secundrio diante do conhecimento [DRUCK94].
J Toffler [TOFFL94] anuncia que o conhecimento fundamental para a obteno do
poder, notadamente do poder de mais alta qualidade, e que o conhecimento tambm fator
crtico para a mudana de poder. O autor defende que o conhecimento deixou de ser um de
mero auxiliar dos poderes financeiros e administrativos, tornando-se a prpria essncia destes
poderes. Assim, o poder econmico e de produo de uma empresa moderna conseguido
muito mais em funo das capacidades intelectuais de seus membros do que em funo de
seus ativos imobilizados terra, instalaes, capital financeiro, equipamento. Segundo Quinn:

41
O valor da maioria dos produtos e servios depende principalmente de como
os fatores intangveis baseados no conhecimento podem ser desenvolvidos
[Quinn, apud NONAK97].

Podem ser citados diversos exemplos onde o conhecimento utilizado para aumentar
o valor agregado dos produtos de uma determinada organizao. Atualmente, uma lata de
alumnio para o acondicionamento de lquidos aproximadamente 80% mais fina que suas
antecessoras, utilizando, assim, menos matria prima, reduzindo o gasto de energia na sua
produo, incrementando a sua eficincia. Assim, pode-se considerar que estes resultados
financeiros oriundos da produo deste tipo de recipiente so 80% incrementados pela
utilizao de conhecimento.
Outro exemplo: atualmente, pases como os Estados Unidos da Amrica so grandes
produtores de gros. A produo de alimentos nos pases desenvolvidos cresceu muito, mas a
quantidade de mo-de-obra envolvida neste processo foi drasticamente reduzida. Este
crescimento de produo e produtividade se deve basicamente pela utilizao de
conhecimento, desde a produo das sementes, das tcnicas de preparao do solo, do
maquinrio utilizado nas fases de produo, s tcnicas de administrao e gerenciamento
destas empresas. A utilizao de conhecimento tem permitido um grande incremento na
produo agrcola destes pases, mesmo com a utilizao decrescente de mo-de-obra.
Assim, a Gesto do Conhecimento passa a ser um tema de crescente importncia para
as organizaes que desejam, atravs de uma utilizao cada vez mais eficiente de seu capital
intelectual, obter vantagens competitivas.

2.2.2.4

Gesto do Conhecimento e Tecnologia da Informao

A Gesto do Conhecimento um tema novo, tratado principalmente no domnio da


Administrao.
Ainda assim, apesar desta afinidade inicial com a rea de Administrao, a Gesto do
Conhecimento est intimamente ligada utilizao de recursos computacionais e tecnolgicos
para sua implementao. Assim, a Tecnologia da Informao tem muito a contribuir com o
desenvolvimento, com a implementao e com a disseminao da Gesto do Conhecimento.
Neste contexto, pode-se dizer que a Gesto do Conhecimento no uma extenso da
Tecnologia da Informao, conforme muitas vezes pode se dar a entender, mas sim que
Tecnologia da Informao uma importante ferramenta na construo da Gesto do

42
Conhecimento. Alguns autores afirmam, inclusive, que no possvel construir a Gesto do
Conhecimento sem a utilizao intensiva da Tecnologia da Informao.
Segundo Jayme Teixeira:
O desafio para a rea da Tecnologia da Informao passa a ser migrar de
uma posio de suporte a processos para o suporte a competncias
[TEIXE00].

Assim, a Tecnologia da Informao precisa expandir sua atuao. Alm de cuidar do


processamento de transaes, armazenamento de dados, comunicao entre processos,
necessrio agora viabilizar recursos computacionais que possibilitem uma maior integrao
entre as pessoas, com a construo de novas formas de comunicao, de conversao e de
aprendizado, com o desenvolvimento de comunidades virtuais, com estruturao,
armazenamento e recuperao de idias e experincias.
Para tal, a organizao necessita de [TEIXE00]:
a) Uma nova arquitetura de informao que inclua novas linguagens, categorias e
metforas para identificar e promover perfis e competncias.
b) Uma nova arquitetura tecnolgica que seja mais social, aberta, flexvel, que
respeite e atenda s necessidades individuais e que d poder aos usurios.
c) Uma nova arquitetura de aplicaes orientada mais soluo de problemas e
representao do conhecimento, do que somente voltada a transaes e
informaes.
Assim, a nfase de utilizao da Tecnologia da Informao pela Gesto do
Conhecimento busca a integrao entre as pessoas, utilizando para tal recursos tecnolgicos e
computacionais que facilitem a criao, o armazenamento e a disseminao de conhecimento.
Isto pode ser alcanado atravs de duas linhas de ao principais:
a) Sistemas para a criao de bases de conhecimento: a nfase neste caso a
utilizao de recursos computacionais para facilitar a criao de conhecimento
organizacional e seu armazenamento, para posterior disponibilizao e consulta.
Neste caso, tcnicas de criao e disseminao de conhecimento devem ser
utilizadas.
b) Sistemas de comunicao: neste caso, a nfase a construo de sistemas e bases
de dados que permitam o estabelecimento de comunicao rpida e eficaz entre os
portadores do conhecimento. Dada a dificuldade de se transformar conhecimento

43
tcito em conhecimento explcito, muitas vezes mais produtivo colocar os
profissionais interessados em contato, para que possam resolver os problemas em
questo, que tentar extrair o conhecimento tcito, transform-lo em explcito e
dissemin-lo. Deve ficar bem claro, entretanto, que esta linha de ao no invalida
a anterior, e a recproca verdadeira.
Assim, ambas as linhas acima podem ser desenvolvidas de maneira concomitante e
complementar, sendo que cada uma delas importante para a construo da Gesto do
Conhecimento.
Alm disso, a Tecnologia da Informao pode fornecer importantes ferramentas para a
descoberta e criao de conhecimento. Aproveitando as grandes bases de dados que foram e
esto sendo criadas, em funo da utilizao crescente de sistemas informatizados pelas
organizaes, a Tecnologia da Informao, atravs da Descoberta de Conhecimento em Bases
de Dados, pode contribuir efetivamente na etapa de criao do conhecimento.

2.2.2.5

Modelos

Empresas e pesquisadores tm trabalhado para elaborar modelos de Gesto do


Conhecimento que possam ser utilizados para definir, de maneira estruturada, as atividades
necessrias para a implantao dos processos adequados para a este tipo de gesto.
Diante destes diversos modelos existentes, alguns autores se dedicaram a estud-los,
com o objetivo de identificar pontos comuns e propor um modelo mais genrico.
Rubestein-Montano [RUBESTEIN-MONTANO et al. apud FERREI03] avaliaram
vrios modelos, e identificaram os itens que mais se fizeram presentes em cada um deles. A
tabela abaixo apresenta um resumo dos modelos estudados e suas principais caractersticas:

Tabela 1: Modelos de GC [RUBESTEIN-MONTANO at al. apud FERREI03].


Modelos de GC

Descrio

American Management (1) Encontrar [criar centros de conhecimento], (2) Organizar [motivar
Systems

e conhecer pessoas] e (3) Compartilhar

Arthur Andersen

(1) Avaliar, (2) Definir o papel do conhecimento, (3) Criar uma

Consulting

estratgia de conhecimento ligada aos objetivos do negcio, (4)


Identificar processos, culturas e tecnologias necessrias para a
implementao de uma estratgia de conhecimento e (5)

44
Modelos de GC

Descrio
Implementao de mecanismo de realimentao.

Andersen Consulting

(1) Adquirir, (2) Criar, (3) Sintetizar, (4) Compartilhar, (5) Usar para
alcanar objetivos organizacionais,
(6) Ambiente que facilita o compartilhamento do conhecimento

Dataware Technologies (1) Identificar o problema do negcio, (2) Preparar para mudana, (3)
Criar a equipe de gesto do conhecimento, (4) Realizar auditoria e
anlise do conhecimento, (5) Definir as caractersticas chaves da
soluo, (6) Implementar atividades integrantes da gesto do
conhecimento (7) Ligar o conhecimento s pessoas
Buckley and Carter

Mtodo de processo de negcios para gesto do conhecimento [no

Centre for International existe metodologia formal mas processos chaves do conhecimento so
Business, University of

identificados]: (1) Caractersticas do conhecimento, (2) Valor

Leeds

adicionado da combinao de conhecimento, (3) Participantes, (4)


Mtodos de transferncia do conhecimento, (5) controle e (6)
execuo

The Delphi Group

No publicaram detalhes de uma metodologia, mas as seguintes


questes so tratadas: (1) Conceitos chaves e estruturas para gesto do
conhecimento, (2) Como usar gesto do conhecimento como uma
ferramenta competitiva, (3) Aspectos culturais e organizacionais da
gesto do conhecimento, (4) Melhores prticas na gesto do
conhecimento, (5) A tecnologia da gesto do conhecimento, (6)
Anlise de mercado,
(7) Justificao da gesto do conhecimento e (8) Implementao da
gesto do conhecimento.

Ernst & Young

(1) Gerao do conhecimento, (2) Representao do conhecimento,


(3) Codificao do conhecimento e
(4) Aplicao do conhecimento.

Holsapple and Joshi

(1) Aquisio do conhecimento [inclui extrao, interpretao e

Kentucky Initiative for

transferncia], (2) Seleo do conhecimento [inclui localizao,

Knowledge Management recuperao e transferncia] , (3) Internalizao do conhecimento


[inclui avaliao, focalizao do alvo e depsito], (4) Uso de
conhecimento, (5) Gerao de conhecimento [inclui monitorao,

45
Modelos de GC

Descrio
avaliao, produo e transferncia] e (6) Externalizao do
conhecimento [inclui focalizao do alvo, Produo e Transferncia]

Holsapple and Joshi

(1) Influncias gerenciais [inclui liderana, coordenao, controle,


medida], (2) Influncia de recursos [inclui humano, conhecimento,
financeiro, material] , (3) Influncias do ambiente [inclui costumes,
mercador, competidores, tecnologia, equipe, clima] , (4) Atividades
[inclui aquisio, seleo, internalizao, uso], (5) Aprendizado e
projeo como resultados.

Knowledge Associates

(1) Adquirir, (2) Desenvolver, (3) Reter e (4) Compartilhar

The Knowledge Research (1) Fazer levantamento do conhecimento existente, (2) Criar novos
Institute

conhecimentos, (3) Capturar e armazenar conhecimento, (4)


Organizar e transformar conhecimento e (5) Desenvolver
conhecimento.

Liebowitz

(1) Transformar informao em conhecimento, (2) Identificar e


verificar conhecimentos, (3) Capturar e adquirir conhecimento, (4)
Organizar conhecimento, (5) Recuperar e aplicar conhecimento, (6)
Combinar conhecimento, (7) Aprender conhecimento, (8) Criar
conhecimento [retornar para (3)] e (9) Distribuir/Vender
conhecimento.

Liebowitz and Beckman (1) Identificar [Determinar as competncias principais, estratgia de


obteno e domnio de conhecimento], (2) Capturar [Formalizar
conhecimento existente], (3) Selecionar [Avaliar relevncia do
conhecimento, valor e preciso e resolver conflitos entre
conhecimentos], (4) Armazenar [Representar a memria corporativa
em repositrio de conhecimento], (5) Compartilhar [Distribuir
conhecimentos automaticamente para os usurios baseado no interesse
e trabalho e colaborar com o trabalho de conhecimento atravs de
equipes virtuais], (6) Aplicar [Recuperar e usar conhecimento para
tomar decises, solucionar problemas, automatizar ou apoiar trabalhos
e treinamentos], (7) Criar [Descobrir novos conhecimentos atravs de
pesquisas, experimentao, ou pensamento criativo] e (8) Vender
[Desenvolver e comercializar novos produtos e servios baseados no
conhecimento]

46
Modelos de GC

Descrio

Marquardt

(1) Aquisio, (2) Criao, (3) Transferncia e utilizao e (4)


Armazenamento

Monsanto Company

No existe metodologia de gesto do conhecimento formal: Uso de


mapa de aprendizado, mapa de valores, mapas de informao, mapas
de conhecimento, medidas e mapas de tecnologia da informao.

The Mutual Group

Estrutura do capital: (1) Coletar informao [construo de


infraestrutura explicita de conhecimento], (2) Aprender
[desenvolvimento de conhecimento tcito], (3) Transferir e (4) Agir
[desenvolvimento de capacidade atravs de desenvolvimento de
valores]

The National Technical (1) Contexto [gerao de conhecimento], (2) Objetivos da gesto do
University of Athens,

conhecimento [organizao do conhecimento], (3) Estratgia

Greece

[desenvolvimento e distribuio de conhecimento] e (4) Cultura

ODell American

(1) Identificar, (2) Coletar, (3) Adaptar, (4) Organizar, (5) Aplicar, (6)

Productivity and Quality Compartilhar e (7) Criar


Center
PriceWaterhouse

(1) Encontrar, (2) Filtrar [por relevncia], (3) Formatar [para o

Coopers

problema], (4) Transferir para as pessoas certas e (5)


Realimentao/Avaliao feita pelos usurios

Ruggles

(1) Gerao [inclui criao, aquisio, sntese, fuso, adaptao], (2)


Codificao [inclui captura e representao] e (3) Transferncia

Skandia

Universal Networking Intellectual Capital: Enfatiza (1) Transmisso e


compartilhamento do conhecimento, (2) Navegao pelo
conhecimento pelas equipes de projetos, (3) Instrumentos de trabalho
de desenvolvimento do capital intelectual

Van der Spek and de

(1) Conceituar [inclui fazer um inventrio do conhecimento existente

Hoog

e analisar os pontos fortes e fracos], (2) Refletir [inclui tomar


decises sobre as melhorias requeridas e fazer planos para melhorar o
processo] , (3) Agir [inclui adquirir conhecimento, combinar
conhecimento, distribuir conhecimento e desenvolver conhecimento]
e (4) Revisar [inclui comparar situaes velhas e novas e avaliar
resultados alcanados]

Van der Spek and

(1) Desenvolvimento de novos conhecimentos, (2) Aquisio de

47
Modelos de GC

Descrio

Spijkervet

conhecimentos novos e existentes, (3) Distribuio de conhecimento e


(4) Combinao de conhecimentos disponveis

Van Heijst et al. CIBIT, (1) Desenvolvimento [criao de novas idias, anlise de falhas e
exame de experincia atuais], (2) Consolidao [armazenamento de

Netherlands

conhecimentos individuais, avaliao e indexao] , (3) Distribuio


[informao de usurios] e (4) Combinao [combinao de
informaes muito diferentes e aumento de acesso para distribuir
dados]
Aplicar a metodologia CommonKADS para a GC: (1) Conceituar

Wielinga et al.

University of Amsterdam [identificar/resumir, representar, classificar], (2) Refletir [modelos de


desenvolvimento e criao de conhecimento, modelos para
identificao de fontes de conhecimento e resultados] e (3) Agir
[combinar e consolidar conhecimento, integrar conhecimento,
desenvolver e distribuir conhecimento]
(1) Criao e obteno (2) Compilao e transformao, (3)

Wiig

Disseminao e aplicao e (4) Compreenso do valor

A partir da relao acima, os autores relacionaram os principais itens que foram


tratados por cada um dos modelos. A tabela abaixo mostra os principais processos do
conhecimento e o total de modelos em que so citados.

Tabela 2: Processos do Conhecimento [FERREI03].


PROCESSO DO CONHECIMENTO

N DE MODELOS

Aquisio de conhecimento

15

Gerao de conhecimento

15

Compartilhamento de conhecimento

13

Uso de conhecimento

11

Identificao do conhecimento

Armazenamento do conhecimento

Realimentao (feedback)

Aprendizado

48
PROCESSO DO CONHECIMENTO

N DE MODELOS

Organizao do conhecimento

Aprendizado

Organizao

Codificao

Filtragem

Avaliao

Os destaques so para os processos Aquisio de Conhecimento, Gerao de


Conhecimento, Compartilhamento de Conhecimento e Uso do Conhecimento, que tiveram
referncia em mais de dez modelos.
Estes processos tambm foram identificados pela pesquisadora Maria de Ftima
Stollenwerk que, em seu modelo de Gesto de Conhecimento, procura compor um modelo
genrico que melhor caracterize a conceituao, importncia e a aplicabilidade da Gesto do
Conhecimento a processos intensivos em conhecimento nas organizaes [STOLL01].
Com base em um estudo de diversos modelos de Gesto do Conhecimento e
Planejamento Estratgico, buscou-se agrupar os processos por afinidade de conceitos. A partir
da anlise comparativa dos modelos, foram identificadas idias bsicas presentes em todos
eles, embora existam particularidades e contribuies especficas em cada um deles.
Foram ento identificados sete processos principais e, a partir deles, a autora definiu
um modelo genrico de Gesto do Conhecimento. Os referidos processos esto relacionados
abaixo:
a) Identificao das competncias crticas
b) Captura e aquisio de conhecimento
c) Seleo e validao do conhecimento
d) Organizao e armazenagem
e) Compartilhamento
f) Aplicao
g) Criao

49
Identificao das competncias crticas
o primeiro processo do modelo genrico de Gesto do Conhecimento, e est
relacionado a questes estratgicas, como identificar quais so as competncias realmente
importantes para o sucesso da organizao.
Quando a organizao definir quais so seus objetivos, e quais estratgias devero ser
utilizadas para que esses objetivos sejam atingidos, faz-se necessrio identificar as
competncias crticas necessrias para que estas estratgias sejam realmente implementadas.
A partir da identificao destas competncias, devem-se relacionar quais so as reas
de conhecimento que devem apoiar cada uma delas. Assim, podem ser identificados em quais
aspectos a organizao j possui o conhecimento necessrio para sustentar as respectivas
competncias, e em quais a organizao precisa adquirir, seja desenvolvendo internamente ou
no. O processo de identificao inclui:
a) Criao de agenda de competncias essenciais
b) Identificao das lacunas entre competncias existentes e necessrias;
c) Desdobramento dessas competncias nas reas de conhecimento (mapeamento de
conhecimento);
d) Identificao de fontes internas e externas de conhecimento;
e) Proposio de solues para reduo da distncia entre competncias existentes e
necessrias.

Captura e aquisio de conhecimento

O processo de captura representa a aquisio de conhecimento, habilidades e


experincias necessrias para criar e manter as competncias essenciais e
reas de conhecimento mapeadas [STOLL01].

importante conhecer as fontes internas e externas de conhecimento disponveis para


a organizao, com o objetivo de se obter conhecimento til destas fontes. Entre as fontes
internas, podem ser citadas: especialistas, profissionais experientes, clientes e fornecedores
internos, sistemas de gesto da organizao, treinamento interno e documentao de
processos. Como fontes externas, podem ser relacionadas: consultorias, sistemas especialistas,
bancos de dados comerciais, publicaes, conferncias e congressos [STOLL01].
Segundo Stollenwerk, as etapas deste processo so:

50
a) Identificao de fontes internas e externas para sua explicitao;
b) Seleo das estratgias de aquisio;
c) Aquisio, formalizao e recuperao do conhecimento.

Seleo e avaliao
O processo de seleo e avaliao, segundo Stollenwerk, visam a filtrar o
conhecimento, avaliar sua qualidade e sintetiz-lo para fins de aplicao futura [STOLL01].
Isto necessrio para se evitar que sejam armazenados pela organizao itens de
conhecimento no teis, desnecessrios ou fora do contexto dos objetivos a serem alcanados.
Para tal, necessrio avaliar questes como a relevncia do conhecimento e sua
veracidade ou confiabilidade. Tambm necessrio o estabelecimento de vises mltiplas
para casos de conhecimentos conflitantes, para se evitar que ocorram discrepncias entre o
que foi obtido, mas evitando-se descartar conhecimentos eventualmente importantes para a
organizao.

Organizao e armazenagem
Uma vez identificados os itens de conhecimento teis para a organizao, importante
que sejam armazenados de maneira a preserv-los, bem como possibilitar uma recuperao
rpida, fcil e correta. Isto pode ser obtido pela utilizao de ferramentas da Tecnologia da
Informao.
Para tal, necessrio que o conhecimento seja formalizado, e quanto mais esta
formalizao for eficiente, mais qualidade ter a informao armazenada.
Segundo Stollenwerk, as etapas deste processo so:
a) Classificao do conhecimento j validado;
b) Definio da arquitetura da Tecnologia da Informao e das ferramentas de
gerenciamento da informao;
c) Criao e gerenciamento dos bancos de dados para atuar como repositrios do
conhecimento.

Compartilhamento

51
Para que a organizao possa se beneficiar do conhecimento organizacional, este deve
estar disponvel para o acesso de seus membros, de maneira que possa ser facilmente obtido,
independentemente do horrio e da localizao dos mesmos. Assim, a Tecnologia da
Informao se constitui novamente em uma ferramenta para a implementao de processos de
armazenamento e comunicao do conhecimento. Para tal, o conhecimento deve ser altamente
formalizado e organizado para um armazenamento eletrnico eficaz e uma disseminao
facilitada.
Segundo Beckman & Liebowitz, o uso da tecnologia vital para a disponibilizao e
compartilhamento de conhecimento em larga escala, tornando-o disponvel em qualquer parte,
a qualquer tempo e em qualquer formato [Beckman 1998 apud STOLL01].
As etapas deste processo so:
a) Identificao das necessidades de informao e de conhecimento da organizao;
b) Criao de mecanismos eficazes de recuperao e disseminao do conhecimento;
c) Capacitao dos usurios em ferramentas para a recuperao do conhecimento;
d) Disseminao automtica do conhecimento em tempo hbil.

Aplicao
O processo de aplicao do conhecimento consiste na utilizao real e prtica do
conhecimento formalizado, armazenado e disponibilizado, de maneira a produzir melhoria de
desempenho e viabilizar que os objetivos da organizao sejam alcanados.
As etapas deste processo so:
a) Aplicao do conhecimento em processos decisrios, de inovao, operacionais e
de aprendizagem;
b) Registro das lies aprendidas e dos ganhos obtidos com a utilizao do
conhecimento.

Criao

O processo de criao de um novo conhecimento envolve as seguintes


dimenses:

aprendizagem,

externalizao

do

conhecimento,

lies

aprendidas, pensamento criativo, pesquisa, experimentaes, descoberta e


inovao [STOLL01].

52
Para a organizao que deseja efetivamente gerar conhecimento novo, necessrio
fomentar a comunicao entre os seus membros, bem como entre seus membros e fontes
exteriores de conhecimento. Deve ser criado um ambiente propcio para a gerao e
disseminao do conhecimento.
Stollenwerk enumera as principais fontes para criao de novos conhecimentos:
a) Auto-aprendizagem
b) Aprendizagem por meio de especialistas
c) Relacionamento com clientes, fornecedores e concorrentes
d) Aprendizagem por meio da experimentao
e) Adoo do pensamento sistmico e criativo
Este processo de criao do conhecimento foi amplamente explorado por Nonaka e
Takeuchi [NONAK97]. Segundo eles, o processo de criao do conhecimento organizacional
passa pelo compartilhamento do conhecimento tcito, com o objetivo de disseminar
experincias individuais pela organizao. A seguir, o conhecimento tcito compartilhado
deve ser formalizado, convertendo-se assim em conhecimento explcito. Este conhecimento
deve ser ento justificado, ou seja, a organizao vai definir se este novo conhecimento til
e deve passar a fazer parte do conhecimento organizacional. Se for declarado til, este
conhecimento deve ser convertido em um arqutipo, e posteriormente desenvolvido.
Finalmente, o conhecimento gerado deve ser disseminado pela organizao e, em alguns
casos at fora dela.
Alm destes processos, Stollenwerk identificou ainda alguns fatores que atuam como
facilitadores da Gesto do Conhecimento:
a) Liderana: que exerce um papel crucial no processo de gesto do conhecimento,
com o aval, compromisso e o direcionamento da alta direo.
b) Cultura organizacional: permite que a organizao atue com alto desempenho,
foco no cliente, foco em excelncia, pr-atividade, viso de futuro.
c) Tecnologia: fornece as ferramentas para o compartilhamento do conhecimento
adquirido.
d) Medio e recompensa: utilizada para incrementar a receptividade, o apoio e o
comprometimento com a organizao do conhecimento.

53
A seguir, uma representao grfica das diversas relaes dos componentes do modelo
genrico de Gesto do Conhecimento proposto por Stollenwerk:

Figura 3: Modelo genrico do GC [STOLL01 apud SOUSA03]

2.3 Descoberta de Conhecimento em Bases de Dados


Os avanos obtidos com a utilizao de computadores em praticamente todas as
atividades humanas esto provocando a construo de grandes bases de dados, armazenando
informaes relacionadas aos assuntos os mais diversos possveis. Atualmente, no
incomum a ocorrncia de sistemas de informao que mantenham vrios terabytes de espao
ocupado.
A Petrobrs, por exemplo, nas atividades de identificao geolgica de terrenos para a
deteco de petrleo, armazena um grande volume de dados em sistemas envolvendo
mainframes e grandes equipamentos de storage8 [GRECO02]. A americana Wal-Mart
manipula mais de vinte milhes de transaes por dia, gerando uma quantidade proporcional

Storage: unidades de armazenamento magntico para grandes volumes de dados, normalmente compartilhados

por diversos computadores.

54
de dados armazenados [BABCO94 apud FAYYA96, p. 02]. Projetos de pesquisa, como o
Projeto Genoma, tm suas atividades diretamente ligadas manipulao de uma quantidade
muito grande de dados.
Segundo Usama Fayyad, possibilidades tradicionais de manipulao, como planilhas e
consultas ad-hoc, no so mais suficientes para o processamento de pesquisas em grandes
bases de dados. Estes mtodos podem criar relatrios sobre os dados, mas no conseguem
analis-los para destacar conhecimentos importantes [FAYYA96].
Assim, buscando-se novas solues no sentido de se obter conhecimento a partir de
bases de dados de grande volume, surgiu este novo campo de conhecimento denominado
Descoberta de Conhecimento em Bases de Dados (DCBD), do ingls Knowledge Discovering
in Databases (KDD).

2.3.1 Conceito
Segundo Fayyad [FAYYA96]:

Descoberta de Conhecimento em Bases de Dados o processo no trivial de


identificar, em dados, padres vlidos, novos e potencialmente teis.

O processo de Descoberta de Conhecimento em Bases de Dados utiliza diversos


algoritmos que processam os dados e encontram esses "padres vlidos, novos e
potencialmente teis". Entretanto, embora os algoritmos atuais sejam capazes de descobrir
padres "vlidos e novos", ainda no existe uma soluo eficaz para determinar padres
potencialmente teis.
Assim, DCBD ainda requer uma interao muito forte com analistas humanos, que
so, em ltima instncia, os principais responsveis pela determinao do valor dos padres
encontrados. Alm disso, a conduo do direcionamento da explorao de dados tambm
tarefa fundamentalmente confiada a analistas humanos.

2.3.2 Histrico
O processo de se procurar padres teis em bases de dados antecede a era dos
computadores. Desde que o homem passou a registrar informaes de maneira sistemtica,
existiram aqueles que utilizavam estas informaes registradas para a obteno de
conhecimentos no necessariamente imaginados por quem as registrou.

55
Entretanto, somente com o advento do armazenamento eletrnico de dados surgiu a
necessidade de novos mecanismos para a identificao de padres que possam ser utilizados
como geradores de conhecimento a partir de bases de dados. A crescente utilizao de
tcnicas de reconhecimento de padres e buscas em bases de dados eletrnicas deu origem ao
primeiro workshop sobre o processo de DCBD, em 1989. A partir deste evento, foram
realizados outros workshops em 1991, 1993 e 1994. Em 1995, foi realizado em Montreal,
Canad, a Primeira Conferncia Nacional de Prospeco e Minerao de Dados, evento que
ocorreu durante a Dcima Quarta Conferncia Internacional de Inteligncia Artificial
[AMARA01].

2.3.3 Etapas
O termo DCBD muitas vezes entendido como Minerao de Dados, o que gera uma
certa confuso na definio da abrangncia de cada um destes temas. De maneira geral, podese dizer que Minerao de Dados uma das fases do DCBD, talvez a fase mais importante,
mas Minerao de Dados no sinnimo de DCBD.
O termo Minerao de Dados se refere especificamente execuo de algoritmos de
reconhecimento de padres sobre uma base de dados anteriormente preparada. O resultado
deste processamento deve ser ento avaliado, e identificados eventuais padres que podem se
tornar teis para a aquisio de conhecimento.
O processo de DCBD mais abrangente, considera a origem dos dados, a sua
formatao inicial, a sua qualidade, a necessidade de pr-processamento dos dados, o contexto
onde estes esto inseridos, a definio dos mtodos mais adequados de Minerao de Dados,
a avaliao dos eventuais padres obtidos e a sua utilidade na gerao de conhecimento sobre
a base de dados original. tambm cclico, devendo ser repetido tantas vezes quanto for
necessrio para a obteno de resultados satisfatrios.
Segundo Usama Fayyad, DCBD um processo interativo e repetitivo, envolvendo
numerosos passos com muitas decises tomadas pelo usurio [FAYYA96].
A figura a seguir identifica as principais etapas do processo de DCBD.

56

Figura 4: Principais etapas do processo de DCBD

2.3.3.1

Seleo

J foi mencionado que a utilizao dos sistemas computacionais tem gerado um


grande volume de dados armazenados. O processo de DCBD tem incio na definio do
universo de dados que dever ser utilizado para a execuo do trabalho. Esta uma etapa
fundamental para todo o processo. Na maioria dos casos, os sistemas armazenam os dados em
tabelas com dezenas de colunas, sendo que nem todas podem ser necessrias para a anlise
em questo. Assim, faz-se necessrio estabelecer qual o conjunto de dados deve ser utilizado,
executando-se um criterioso trabalho de anlise das tabelas e seus atributos, dos seus
relacionamentos e contedo. Devem ser identificadas as colunas que realmente agregam
informaes ao conjunto de dados.
A qualidade dos dados armazenada deve ser constantemente verificada. Os resultados
finais sero positivos de forma diretamente proporcional qualidade dos dados inicialmente
selecionados. Em muitos casos, o processo de DCBD gera uma completa reviso nos sistemas
responsveis pela aquisio e manuteno da base de dados. Quanto maior a qualidade dos
dados armazenados, sua integridade e completeza, mais facilitadas sero as etapas posteriores
do processo de DCBD.
Entretanto, deve-se ter em mente que a identificao de padres ainda muito
dependente da deciso de analistas humanos, e do seu conhecimento do assunto que estar
sendo pesquisado. Uma coluna no selecionada nesta fase pode ser exatamente a que contm
as informaes mais importantes para o resultado final. Da a afirmao de que DCBD deve

57
ser um processo cclico, executado tantas vezes quanto for necessrio para a obteno de
conhecimento a partir da base de dados investigada. Os sucessivos aprimoramentos do
conjunto de dados tratado, e o constante aprendizado dos analistas a partir da manipulao da
base de dados podem propiciar um resultado final satisfatrio.

2.3.3.2

Pr-processamento

Selecionado o conjunto de dados que ser utilizado para o trabalho de descoberta de


conhecimento, pode ser necessrio efetuar atividades de pr-processamento no sentido de
permitir, e muitas vezes viabilizar, as etapas posteriores. Quanto maior a quantidade de
colunas utilizadas, maior a complexidade dos processos de Minerao de Dados posteriores.
Uma quantidade muito grande de colunas pode inclusive inviabilizar o trabalho de minerao,
uma vez que os recursos computacionais podem no ser suficientes para processar toda a
coleo de dados selecionados.
Outra questo importante a existncia de rudos nos dados de entrada. Por mais que a
engenharia de software venha se desenvolvendo, no necessariamente os sistemas so
construdos seguindo o rigor metodolgico necessrio para a criao de aplicativos que
primem pela qualidade dos dados armazenados. muito comum encontrar-se inconsistncias,
colunas vazias, valores indevidos. A existncia de rudos pode causar problemas como a
gerao de padres distorcidos, e posteriormente, a utilizao destes padres na manipulao
da base completa [AMARA01].
Assim, uma das atividades desta etapa a limpeza dos dados a serem utilizados no
processo, para evitar, ou minimizar a ocorrncia de rudos.
Segundo Fernanda Amaral, a limpeza de dados , na realidade, um processo
ambguo [AMARA01]. Corre-se sempre o risco de se confundir um fenmeno interessante
do ponto de vista de gerao de padres de comportamento com um erro de entrada. Por
exemplo, campos vazios podem ser interpretados como erro de entrada de dados, quando, na
realidade, podem se constituir em um fenmeno determinante de um certo comportamento.
Tambm nesta fase devem ser tratadas questes referentes a dados necessrios
inexistentes ou incompletos. Pode ser que o conjunto disponvel no disponha de informaes
suficientes para o trabalho a ser realizado. Neste caso, devem ser utilizadas tcnicas de coleta
e complementao dos dados, e decididas as estratgias a serem adotadas no tratamento dos
dados irremediavelmente perdidos [FAYYA96].

58

2.3.3.3

Transformao

Para que seja produtivo o processo de obteno de padres, uma srie de modificaes
dos dados das tabelas de origem podem ser implementadas. Atributos redundantes devem ser
eliminados, evitando-se assim desperdcio de recursos com o processamento de dados no
relevantes.
A padronizao de variveis tambm necessria, para evitar erros de interpretao e
desvio na obteno dos padres. Por exemplo, uma determinada coluna pode ter como
domnio o conjunto {1, 2, 3} representando, respectivamente, ensino fundamental, ensino
mdio, ensino superior. Outra coluna pode ter os valores {F, M, S}, para representar o
mesmo conjunto ensino fundamental, ensino mdio, ensino superior. Assim, faz-se
necessrio definir um nico padro para a representao deste conjunto de valores, alterando
as tabelas para represent-lo de maneira consistente.
Usama Fayyad prope ainda, para esta fase, a utilizao de tcnicas para a reduo de
dados e para a projeo [FAYYA96]. Este passo envolve transformao dos dados dentro de
formas mais apropriadas para os mtodos de Minerao de Dados. Estas transformaes
podem incluir redues de passos de dimensionalidade - substituindo alguns campos com um
campo derivado - ou reduo de dados - mapeando mltiplos registros para uma simples
entidade e derivando os resultados dentro de conjuntos de registros. Tambm podem ser
adicionados novos registros julgados relevantes para o problema.

2.3.3.4

Minerao de Dados

Esta a etapa onde realizado o processo de descoberta de padres propriamente dito.


Com a utilizao de algoritmos especficos, os dados que foram previamente selecionados,
pr-processados, transformados, passam por vrias iteraes at que sejam descobertos
padres de relacionamento, agrupamentos, tipos de comportamento. Por ser considerada uma
das etapas mais importantes do processo de Descoberta de Conhecimento, este item ser
detalhado em seo posterior .

2.3.3.5

Interpretao e Avaliao

Os resultados da etapa de Minerao de Dados devem ser examinados e interpretados


por pessoas que conheam profundamente o negcio, para que sejam identificados como
padres teis ou no. Os especialistas no negcio so as pessoas indicadas para avaliar os
produtos da etapa de minerao, so os responsveis por verificar a oportunidade de utilizao

59
das informaes obtidas para a gerao de conhecimento efetivo a partir dos dados avaliados.
Nesta etapa, avaliado o conjunto de padres em funo dos objetivos iniciais, decidindo
quais deles so interessantes, para conseqentemente interpret-los de maneira que se tornem
legveis para os usurios finais do sistema, bem como torn-los acessveis para as aplicaes
que devero utiliz-los.
Como o processo de Descoberta de Conhecimento em Bases de Dados cclico, esta
etapa pode indicar a necessidade de se repetir qualquer outra das etapas anteriores, at a
obteno de resultados satisfatrios [FAYYA96].
Aps a realizao de todas as iteraes que se fizerem necessrias, os resultados
considerados positivos devem ser incorporados ao sistema, consolidando o conhecimento
obtido depois de todas as etapas anteriores.

2.4 Descoberta de Conhecimento em Textos


O tema DCT - Descoberta de Conhecimento em Textos (do ingls KDT Knowledge
Discovery in Texts) deriva, de certa forma, do conceito de Descoberta de Conhecimento em
Bases de Dados. A diferena principal que, em se tratando de textos, as informaes
geralmente se encontram de forma no estruturada, diferente do que ocorre com as
informaes armazenadas nos bancos de dados.
Apesar da utilizao crescente de sistemas que utilizam bancos de dados como
repositrio de informaes, o volume de informaes textuais preponderante na grande
maioria das organizaes. Relatrios, atas, formulrios, manuais, mensagens de correio
eletrnico, memorandos, entre outros, so exemplos de documentos que utilizam textos livres
para o registro de informaes.
Apesar do grande volume de informaes armazenadas nestes tipos de instrumentos,
as pessoas tm dificuldades para trat-las adequadamente, por no estarem estruturadas
[LOH01].
Assim, Descoberta de Conhecimento em Textos pode ser definida como o processo
de extrair padres ou conhecimentos interessantes e no triviais a partir de documentos
textuais [Tan 1999, apud LOH01].
necessrio destacar que muitos destes textos encontram-se armazenados fisicamente
em bancos de dados, mas mesmo assim no podem ser considerados informaes

60
estruturadas, pois normalmente so inseridos nestas bases em sua forma original. Somente
seriam considerados estruturados se as informaes que contm fossem decompostas em
colunas especficas com um domnio bem caracterizado.
Do ponto de vista metodolgico, os processos envolvidos na Descoberta de
Conhecimento em Textos so muito semelhantes aos processos de Descoberta de
Conhecimento em Bases de Dados. A diferena bsica que as tcnicas e ferramentas devem
ser aplicadas sobre o conjunto de documentos textuais a ser estudado e no sobre itens de
bancos de dados [LOH01].
Assim, sero relacionadas aqui as mesmas etapas propostas por Fayyad at al
[FAYYA96], com as devidas observaes quando da aplicao em conjuntos de dados
textuais. Sero acrescentadas, entretanto, tcnicas propostas por outros autores e que podem
ser consideradas complementares ao trabalho de Fayyad, as quais so adequadas s
especificidades encontradas no tratamento de informaes armazenadas em conjuntos de
textos.

2.4.1.1

Seleo

O processo de DCT tem incio na definio do conjunto de textos que dever ser
utilizado para a execuo do trabalho. Esta uma etapa fundamental para todo o processo.
Os objetos de estudo podem estar armazenados em diversos formatos, sejam
arquivados em papel, sejam em arquivos de formatao livre nos diversos sistemas de
arquivos hoje utilizados, sejam em arquivos de sistemas processadores de texto, sejam em
bancos de dados em colunas especficas para informaes textuais.
Nesta etapa deve-se identificar informaes que possam ser relevantes para o estudo,
discriminando seu contedo, descrio, qualidade e utilidade. necessrio mapear a
localizao, o formato e o estado dos documentos que sero processados, considerando a
propriedade, os esforos a serem empreendidos e a oportunidade da utilizao de cada um
deles em funo do custo-benefcio da operao.
Como acontece nos processos de Descoberta de Conhecimento em Bases de Dados,
esta tarefa de identificao de padres tambm muito dependente da deciso de analistas
humanos, e do seu conhecimento do assunto que estar sendo pesquisado. Um documento
desprezado nesta fase pode ser exatamente aquele que contm a maior riqueza de informaes
sobre o assunto tratado. Assim, a DCT tambm um processo cclico, executado tantas vezes
quanto for necessrio para a obteno de conhecimento a partir do conjunto de documentos

61
investigado. Os sucessivos aprimoramentos do conjunto de dados tratado, e o constante
aprendizado dos analistas a partir da manipulao da base de dados podem propiciar um
resultado final satisfatrio.
Os principais passos desta etapa:
a) Identificar o conjunto de dados que interessa para pesquisa..
b) Identificar a localizao e o formato original destes dados.
c) Estabelecer a relevncia da utilizao de cada grupo.
d) Estabelecer o custo-benefcio da utilizao de cada grupo.
e) Extrair as informaes textuais dos seus locais de origem e gerar arquivos de
trabalho.

2.4.1.2

Pr-processamento

Esta etapa trata de atividades de limpeza, correes, eliminao de rudos, no sentido


de se preparar o conjunto de dados tratado para as etapas posteriores.
No caso de Descoberta de Conhecimento em Textos, estas atividades esto
relacionadas com o tratamento dos documentos textuais para que sejam colocados em um
formato padro definido, e que tenham o mnimo de incorrees e rudos.
necessrio tambm estabelecer um mtodo que identifique as caractersticas mais
significativas de cada texto. Neste tipo de objeto objetos textuais as palavras so utilizadas
como atributos. Entretanto, muitas das palavras mais freqentes em um texto no agregam
significado especial e distinto, mesmo sendo importantes para o entendimento do mesmo.
Estas palavras possuem baixo valor de discriminao. So as conjunes, as preposies, os
artigos e os numerais [WIVES99]. Palavras deste tipo so denominadas palavras negativas, ou
stop words, e, segundo Wives, devem ser retiradas em uma etapa de pr-processamento
conhecida como remoo de stop words [WIVES99].
importante salientar que estas classes de palavras podem ter nveis de importncia
diferentes, dependendo do contexto onde so utilizadas. Somente a partir da avaliao de
especialistas no assunto pesquisado que podem ser definidos quais os grupos devem ser
eliminados dos textos. Outras palavras podem ser acrescentadas s listas das palavras
negativas, aquelas que ocorram muitas vezes nos textos, mas que no representem potencial
de discriminao para o assunto tratado.

62
As tarefas da etapa de pr-processamento podem ser realizadas com a execuo de
ferramentas para:
a) Formatar os documentos para que sejam apresentados em um nico padro.
b) Efetuar correo ortogrfica para a eliminao de termos grafados incorretamente.
c) Eliminar linhas e caracteres de controle.
d) Criar listas de palavras negativas.

2.4.1.3

Transformao

Esta etapa tem por objetivo realizar operaes sobre os objetos estudados para que
possa ser mais eficiente a etapa posterior de minerao de texto. Segundo Wives [WIVES00],
diversas tcnicas podem ser utilizadas para tornar os objetos textuais mais adequados para o
processamento posterior, tais como:
a) A estruturao do documento, considerando com peso maior palavras presentes em
ttulos, subttulos, notas de explicao [Cow 96 apud WIVES99]. Entretanto, esta
tcnica pode ser considerada uma etapa adicional, e por demais custosa, caso o
documento no seja originalmente estruturado.
b) A adaptao de vocabulrio, com a utilizao de sinnimos. A utilizao desta
tcnica facilita as tarefas de agrupamento, uma vez que palavras consideradas
diferentes a partir da grafia, depois de substitudas, podem representar um peso
maior quando submetidas aos algoritmos de identificao de freqncia.
c) A eliminao de diferenas morfolgicas de uma mesma palavra singular e
plural, masculino e feminino, entre outras. Hwee Ng prope uma tcnica que
identifica os radicas das palavras, unificando o vocabulrio [NG97]. Entretanto, a
utilizao destes recursos pode tornar os documentos muito abrangentes, j que as
palavras podem ficar muito semelhantes entre si.
d) A retirada de caracteres especiais, tornando as palavras mais simples. Esta tcnica
pode auxiliar ainda na eliminao de erros de grafia pela utilizao de caracteres
acentuados, bem como aumentar a padronizao do texto.
e) A transformao de todos os caracteres para um mesmo padro quanto utilizao
de letras maisculas e minsculas. Assim, uma mesma palavra no corre o risco de
ser considerada por diferenas de tipo de grafia em caixa alta ou caixa baixa.

63

2.4.1.4

Minerao de Texto

Esta a etapa onde realizado o processo de descoberta de padres propriamente dito.


Com a utilizao de algoritmos especficos, os textos que foram previamente selecionados,
pr-processados, transformados, passam por vrias iteraes at que sejam descobertos
padres de relacionamento, agrupamentos, tipos de comportamento. Por ser considerada uma
das etapas mais importantes do processo de Descoberta de Conhecimento em Texto, este item
ser detalhado em seo posterior.

2.4.1.5

Interpretao e Avaliao

Como na Descoberta de Conhecimento em Bases de Dados, esta etapa na Descoberta


de Conhecimento em Texto tambm requer a participao de especialistas no negcio para
avaliar e interpretar os resultados obtidos nas fases anteriores.
O resultado produzido pelos algoritmos de minerao de texto normalmente so
agrupamentos que podem ser mais ou menos significativos. A anlise dos especialistas no
negcio fundamental para o ajuste dos parmetros utilizados, e at para a definio das
tcnicas que podem ser utilizadas.
Avaliado o conjunto de padres em funo dos objetivos iniciais, decide-se quais deles
so interessantes, para conseqentemente interpret-los de maneira que se tornem legveis
para os usurios finais do sistema, e ainda torn-los acessveis para as aplicaes que devero
utiliz-los.
Tambm a Descoberta de Conhecimento em Texto composta por um conjunto de
processos que podem ser cclicos. Assim, esta etapa pode indicar a necessidade de se repetir
qualquer outra das etapas anteriores, at a obteno de resultados satisfatrios [FAYYA96].
Aps a realizao de todas as repeties que se fizerem necessrias, os resultados
considerados relevantes devem ser incorporados ao sistema, consolidando o conhecimento
obtido depois de todas as etapas anteriores.

2.5 Tcnicas de Minerao de Dados


Minerao de Dados, do ingls Data Mining, a etapa de DCBD onde ocorre a
aplicao de algoritmos com a finalidade de identificar padres de comportamento em uma
base de dados. Segundo FAYYAD:

64
Minerao de Dados a etapa no processo de DCBD que consiste de
algoritmos particulares que, sob determinadas limitaes aceitveis dos
sistemas computacionais, produzem uma determinada quantidade de padres
sobre uma base de dados [FAYYA96].

Assim, dentro do contexto da Descoberta de Conhecimento em Bases de Dados, podese verificar que a etapa de Minerao de Dados uma das mais importantes, onde
efetivamente os dados anteriormente preparados so submetidos a algoritmos que procuram
estabelecer relaes e evidenciar padres de comportamento que possam vir a ser teis no
processo de aquisio de conhecimento.
O processo de Minerao de Dados tem dois objetivos principais, segundo Fayyad
[FAYYA96]: a predio e a descrio.
A predio envolve a utilizao de algumas variveis, normalmente atributos da base
de dados, para prever valores desconhecidos ou futuros de outras variveis de interesse.
J a descrio procura por padres que reflitam a distribuio dos itens de dados no
espao das suas dimenses e que sejam passveis de interpretao.

2.5.1 Tarefas Bsicas


Fayyad [FAYYA96] relaciona algumas tarefas, as quais considera bsicas para o
processo de Descoberta de Conhecimento em Bases de Dados. Abaixo, encontram-se
enumeradas as principais:
a) Classificao: consiste em identificar e classificar objetos em grupos previamente
definidos.
b) Regresso: tem por objetivo estimar o valor de uma varivel a partir de outros
dados.
c) Agrupamento: consiste em identificar similaridades entre objetos e agrup-los,
sem a definio prvia das caractersticas destes grupos.
d) Sumarizao: consiste em definir um conjunto mnimo de caractersticas que
venham a identificar um subconjunto de objetos.
Para o desenvolvimento deste trabalho, foram utilizadas principalmente as tcnicas de
agrupamento e classificao. Assim, estas sero detalhadas a seguir.

65

2.5.1.1

Agrupamento

Fayyad define o processo de agrupamento, tambm denominado clustering, como uma


tarefa comum de descrio onde se busca identificar um conjunto finito de categorias para
descrever os dados [FAYYA96]. O objetivo do agrupamento tomar um conjunto de
entidades representativas como registros em banco de dados e posicion-los dentro de um
nmero de grupos ou clusters, aonde cada cluster contm registros similares.
As categorias podem ser mutuamente exclusivas, ou podem compartilhar algumas
caractersticas, sobrepondo-se em alguns casos.
Os dados agrupados formam um aglomerado que, segundo Kowalsky, um grupo de
objetos similares, geralmente uma classe, que possui um ttulo mais genrico capaz de
representar todos os elementos nela contidos [KOWAL97].
Tarefas de agrupamento so muito mais antigas que o computador. Desde os tempos
remotos, objetos similares so agrupados, facilitando o entendimento do conjunto e a
localizao de informaes.
Com o advento dos computadores, estes passaram a ser utilizados tambm para
realizar funes de agrupamento. Com o surgimento da Inteligncia Artificial, muitos
algoritmos de agrupamento foram desenvolvidos. Segundo Jiawei Han:

O agrupamento de objetos/informaes uma tcnica de Descoberta de


Conhecimento em Bases de Dados e Minerao de Dados estudada pela rea
da Inteligncia Artificial [Han96 apud WIVES99].

Assim, reas de conhecimento que tm utilizado conceitos de Inteligncia Artificial


so as que mais utilizam tcnicas de agrupamento. Psicologia, arqueologia, medicina,
gentica, economia, marketing so exemplos de reas de conhecimento que se valem dos
algoritmos de agrupamento para tarefas como organizao de dados e recuperao de dados
similares.
O processo de agrupamento , at certo ponto, similar ao processo de classificao.
Entretanto, estes dois conceitos no devem ser confundidos.
O processo de classificao pressupe que se conhea as caractersticas que
identificam os membros de uma determinada classe. Assim, a tarefa de classificao consiste
em encontrar atributos e valores que melhor caracterizem cada classe.

66
J no processo de agrupamento no existem classes definidas O objetivo final
estabelecer parmetros de comparao entre cada instncia do conjunto de objetos, e criar
agrupamentos com os elementos que apresentarem determinadas caractersticas comuns,
embora anteriormente no se soubesse que caractersticas seriam essas.
Portanto, o objetivo da tcnica de agrupamento identificar os objetos que possuem
caractersticas em comum, agrupando-os em subconjuntos de objetos similares.
O aglomerado de objetos, ou cluster, foi definido por Everitt [EVE74 apud WIVES99]
como:
a) Um conjunto de entidades que so semelhantes. Entidades pertencentes a
aglomerados diferentes so diferentes;
b) Uma agregao de pontos no espao tal que a distncia entre os pontos em um
mesmo aglomerado menor que a distncia entre pontos de diferentes
aglomerados;
c)

Os aglomerados podem ser descritos como regies conexas de um espao


multidimensional que contm uma grande densidade relativa de pontos. As regies
esto separadas umas das outras por regies de baixa densidade relativa de pontos.

As tarefas de agrupamento devem considerar, inicialmente, o tipo de organizao das


informaes, se estruturadas ou no estruturadas.
Por bases estruturadas pode-se entender o conjunto de informaes armazenadas, por
exemplo, em tabelas relacionais de bancos de dados. So chamadas estruturadas por serem
resultado de um projeto que abstraiu do mundo real uma representao adequada para o
armazenamento e a recuperao de informaes. Nestes casos, os dados normalmente so
bem definidos, pertencem a um domnio especfico e apresentam relacionamentos e
interaes.
Para informaes deste tipo, existem vrios algoritmos de agrupamento, uma vez que,
desde os primeiros sistemas informatizados, os computadores vm sendo utilizados para
tarefas desta natureza. Segundo Feldman [FELDM97], a maioria das tcnicas de agrupamento
foi desenvolvida para atuar sobre dados estruturados.
Quanto s informaes no estruturadas, so assim definidas aquelas sem uma
organizao previamente definida, e nesta categoria se enquadram as informaes textuais.

67

2.5.1.2

Classificao

A classificao um processo de aprendizado em que um objeto mapeado em uma


das classes pr-definidas [Hand91 apud FAYYA96]. A partir de um conjunto de atributos
previamente escolhidos, o algoritmo de classificao procura estabelecer relaes entre os
dados, classificando os registros de acordo com as caractersticas de cada um, confrontandoos com as caractersticas das classes previamente determinadas.
A classificao pode, ento, identificar a qual classe este objeto pertence, a partir de
seu contedo. Para tal, necessrio que as classes tenham sido previamente descritas,
expressando suas caractersticas por meio de definies, frmulas e/ou atributos.
Segundo Wives, os sistemas de classificao de objetos geralmente utilizam uma das
seguintes tcnicas [WIVES00]:
a) Regras de inferncia: baseadas em um conjunto de caractersticas que devem ser
encontradas no objeto para que esse seja identificado como pertencendo a
determinada categoria. Necessitam de muito tempo para serem elaboradas e devem
ser adaptadas caso o domnio mude. Geralmente so desenvolvidas para uma
tarefa e domnio especfico. O conhecimento modelado facilmente compreendido
e seus resultados so, na maioria dos casos, melhores do que os apresentados pelos
outros mtodos.
b) Modelos conexionistas redes neurais artificiais: Esses sistemas induzem
automaticamente um modelo matemtico ou um conjunto de regras a partir de um
conjunto de objetos de treinamento. Podem ser colocados em prtica rapidamente
e so capazes de se adaptar as mudanas do ambiente de dados. Eles no
necessitam de um especialista ou pessoa para a anlise do domnio. Por outro lado,
necessitam do conjunto de treinamento e seu modelo ou regras no so to
facilmente compreensveis.
c) Mtodo de similaridade de vetores ou de centrides nesse caso as classes so
representadas por vetores de palavras, denominados centrides. O documento
comparado com o vetor descritivo de cada classe. A classe que apresentar maior
similaridade com o documento tomada como classe do documento.
d) rvores de deciso Uma abordagem parecida com a primeira, porm, utiliza
tcnicas de aprendizado de mquina para induzir as regras. Para cada classe uma
rvore de deciso criada.

68
e) Classificadores de Bayes Parecidos com os conexionistas, porm tm como
base a teoria da probabilidade. Eles conseguem informar a probabilidade de
determinado objeto pertencer a uma determinada classe.
Um exemplo de classificao: uma empresa que atua no setor de concesso de crdito
pretende avaliar o risco associado a emprstimos que faz aos seus clientes. Os clientes so
classificados como bons ou indesejveis dependendo de o crdito ter sido recuperado ou no
pela empresa. A partir de informaes encontradas em cada registro, pode-se utilizar um
algoritmo de classificao para testar os valores destas variveis, e classificar os clientes em
uma das duas possibilidades, ou seja, bons ou indesejveis.

2.5.2 Caracterizao da Minerao de Dados


O processo de Minerao de Dados fortemente relacionado aos mtodos utilizados
no tratamento dos dados da base pesquisada, e comum classificar o tipo de Minerao de
Dados a partir do mtodo escolhido. Atualmente, podem-se observar grandes avanos em
pesquisas e desenvolvimento destes mtodos. Ming-Syan Chen apresentou uma proposta de
classificao abrangente, que considera os mtodos utilizados, o tipo de conhecimento
pesquisado e o tipo de banco de dados que suporta as informaes tratadas. Assim, um
sistema de Minerao de Dados pode ser classificado de acordo com os seguintes critrios
[CHEN96]:
a) O tipo de base de dados utilizada: os sistemas de minerao de dados podem ser
classificados segundo o tipo da base de dados onde esto sendo executados. Por
exemplo, se este sistema faz minerao de dados em uma base relacional,
classificado com o minerador relacional, ou um minerador de dados orientado a
objetos quando executado em uma base orientada a objetos;
b) O tipo de conhecimento pesquisado: vrios tipos de conhecimento podem ser
descobertos por tcnicas de Minerao de Dados. Assim, os sistemas de minerao
podem ser classificados como: conhecimento generalista, conhecimento de
primeiro nvel, conhecimento de mltiplos nveis. Um sistema de Minerao de
Dados flexvel pode descobrir conhecimento em vrios nveis de abstrao.
c) O tipo de mtodo utilizado: a escolha do mtodo est fortemente relacionada com
o tipo de conhecimento que se deseja extrair ou com os dados aos quais se aplicam
tais tcnicas. Entretanto, de forma mais genrica, o tipo de minerao pode ser
caracterizado pelo tipo de abordagem utilizada, seja a minerao baseada em

69
generalizao, a minerao baseada em padres, ou a minerao baseada em
estatstica e teorias matemticas.

2.5.3 rvores de Deciso


Amplamente utilizadas em algoritmos de classificao, as rvores de deciso so
representaes simples do conhecimento e, um meio eficiente de construir classificadores que
predizem classes baseadas nos valores de atributos de um conjunto de dados.
rvores de deciso podem ser conceituadas como um mapa de processamento lgico.
Uma rvore de Deciso uma estrutura de dados recursivamente definida como:
a) Um n folha, que indica uma classe.
b) Um n de deciso, que contm um teste sobre o valor de um atributo. Para cada
um dos possveis valores do atributo, tem-se um ramo para uma outra rvore de
deciso, ou seja, uma sub-rvore. Cada sub-rvore contm a mesma estrutura de
uma rvore.
Uma rvore de deciso pode ser reescrita no formato de regras de produo, sendo que
este modelo de regras gerado tambm mantm a propriedade de dividir o espao de descrio
em regies disjuntas. Outra propriedade importante de rvores de deciso que o espao de
descrio do problema dividido de forma completa, isto , qualquer ponto do espao
coberto por uma regio da rvore de deciso [LUCEN01].
Uma rvore de deciso tem a funo de particionar recursivamente um conjunto de
treinamento, at que cada subconjunto obtido deste particionamento contenha casos de uma
nica classe. Para atingir esta meta, a tcnica de rvores de deciso examina e compara a
distribuio de classes durante a construo da rvore. O resultado obtido, aps a construo
de uma rvore de deciso, so dados organizados de maneira compacta, que so utilizados
para classificar novos casos.
Na figura a seguir apresentada uma interpretao geomtrica de uma rvore de
deciso com duas classes (+ e o) e dois atributos (X1 e X2) [PRA01 apud LUCEN01].

70

Figura 5: Apresentao geomtrica de uma rvore de deciso [LUCEN01]

A qualidade de uma rvore de deciso depende tanto da exatido da classificao


quanto do tamanho da rvore. O mtodo primeiro escolhe um subconjunto para realizar o
treinamento da rvore. Se a rvore no apresenta a resposta correta para todos os objetos, a
seleo de excees armazenada e o processo continua, at que um conjunto correto de
solues seja encontrado [CHEN96].
Segundo Usama Fayyad, rvores de deciso so principalmente utilizadas em modelos
preditivos, tanto para classificao quanto para regresso, embora tambm sejam utilizadas
em modelos de sumarizao descritiva [FAYYA96].
Vrios algoritmos de classificao elaboram rvores de deciso. Normalmente,
considera-se que no existe uma forma direta de se determinar qual o melhor algoritmo,
sendo que um pode ter melhor desempenho em determinada situao, enquanto outro
algoritmo pode ser mais eficiente para outro conjunto de dados.
Alguns exemplos: o algoritmo ID3 foi um dos primeiros para implementar uma rvore
de deciso, sendo sua elaborao baseada em sistemas de inferncia e em conceitos de
sistemas de aprendizagem. Outros algoritmos, como o C4.5, o CART (Classification and
Regression Trees), o CHAID (Chi Square Automatic Interaction Detection) so tambm
bastante utilizados.

2.5.4 Redes Neuronais Artificiais


As Redes Neuronais Artificiais podem ser definidas como uma tcnica que procura
simular a inteligncia humana. Segundo Laurene Fausset:

71
Redes Neuronais Artificiais so modelos computacionais, implementados
em software ou hardware, que visam simular o comportamento dos
neurnios biolgicos atravs de um grande nmero de elementos de
processamento interconectados, os neurnios artificiais [FAUSS94].

As pesquisas no sentido de emular a inteligncia atravs de recursos artificiais


surgiram na dcada de 1940, logo aps o incio da utilizao dos primeiros computadores. Na
dcada seguinte destacaram-se duas principais correntes de pesquisa:
a) Inteligncia Artificial Simblica: procurava simular o raciocnio dedutivo no
computador, atravs de algoritmos especiais, objetivando implementar a
manifestao da inteligncia.
b) Inteligncia Artificial Conexionista: nasceu das pesquisas por modelos que
simulavam o funcionamento fisiolgico do crebro para reproduzirem a
inteligncia. Esta corrente originou as Redes Neuronais Artificiais (RNA).
Aps alguns anos onde as pesquisas em Inteligncia Artificial tiveram um progresso
menos acelerado, a partir dos anos 80 as RNA tm sido utilizadas na resoluo da mais
variada gama de problemas. Com o crescimento da utilizao de tcnicas de extrao de
conhecimento a partir de bases de dados, esta tcnica tem sido empregada para a descoberta
de informaes contidas em bancos de dados.
As RNA possuem algumas caractersticas relevantes na concepo de uma grande
variedade de aplicaes, tais como [BISHO95]:
a) Adaptabilidade: algoritmos de aprendizagem e regras auto-organizveis permitem
a adaptao em ambientes dinmicos.
b) Processamento no-linear: habilidade de executar tarefas que envolvam
relacionamentos no lineares e tolerantes a rudos, tornando as Redes Neurais
Artificiais uma boa tcnica para classificao, predio e agrupamentos.
c) Processamento paralelo: o grande nmero de unidades de processamento
promove vantagens para o armazenamento de informaes distribudas, bem como
para o processamento paralelo.

2.5.4.1

Arquitetura das Redes Neurais Artificiais

Os sistemas biolgicos so formados por uma grande variedade de arquiteturas


especficas, dispostas em um grande emaranhado de conexes. Da mesma forma, as Redes

72
Neurais Artificiais utilizam arquiteturas diferentes para tipos diferentes de tarefas [BRASI02].
A figura a seguir ilustra a semelhana entre um neurnio biolgico e um neurnio artificial.

Figura 6: Modelo de neurnio biolgico e artificial [MEDLE98]

O neurnio artificial tem sua inspirao no modelo natural, tentando imitar o seu
funcionamento atravs de funes matemticas e algoritmos computacionais. O neurnio
artificial um modelo simplificado, em vista da complexidade do sistema nervoso biolgico,
e a sua compreenso incompleta mesmo aps os grandes avanos da medicina.
As RNA so formadas por neurnios artificiais, sendo que cada um pode receber uma
ou mais entradas, processa as informaes recebidas e gera uma nica sada. A entrada pode
vir de tipos de dados naturais ou ainda vir da sada de outros neurnios, bem como a sada
pode representar a resoluo final do problema, ou pode ser a entrada para outro neurnio. Os
neurnios, em uma RNA, so agrupados em camadas, sendo a primeira camada a que recebe
os dados externos, a ultima camada a responsvel pelos dados de sada, e, entre estas, uma ou
mais camadas intermedirias. A figura a seguir mostra em exemplo de uma RNA com uma
camada intermediria [BRASI02].

73

Figura 7: Rede Neuronal Artificial com uma camada intermediria [BRASI02]

2.5.4.2

Aprendizado em Redes Neuronais Artificiais

O processo de aprendizado na rede acontece, basicamente, de duas formas: o


aprendizado supervisionado e o aprendizado no supervisionado.
No aprendizado supervisionado, durante a seo de treinamento, um estmulo de
entrada aplicado e resulta numa sada. Esta sada ento comparada com um padro inicial
informado para a rede. Caso a resposta atual da rede seja diferente da resposta fornecida pelo
padro, a rede gera um sinal de erro, que utilizado para a correo dos pesos atuais da rede.
Concludo este processo, o estmulo fornecido novamente para a rede, resultando numa nova
sada. Se essa sada se aproximar do padro informado, a rede estar treinada para esse
estmulo; caso contrrio, todo o processo de correo deve ser repetido.
No aprendizado no supervisionado, no h sada desejada. Durante a sesso de
treinamento, a rede recebe em sua entrada diferentes padres, e os organiza arbitrariamente
em categorias. Assim, quando uma entrada aplicada rede, esta fornece uma resposta de
sada indicando a categoria a qual a entrada pertence. Se uma categoria no pode ser
encontrada para o padro de entrada, uma nova classe gerada [BRASI02]. Nesta forma, as
redes tm a capacidade de determinar uma correlao entre os possveis padres de entrada e
so particularmente teis nos problemas em que as entradas variam com o tempo de forma
conhecida. Este mecanismo pode ser considerado como sendo a capacidade da rede de
abstrair correlaes entre os estmulos de modo a obter as respostas desejadas.

74

2.5.4.3

Aplicaes de Redes Neuronais Artificiais

As Redes Neuronais Artificiais so utilizadas em uma grande variedade de


aplicaes:

a) Reconhecimento de padres: um sistema de reconhecimento de padres pode ser


dividido em algumas tarefas, tais como: particionamento de imagem em objetos
isolados, extrao de caractersticas e anlise de contexto. Um dos tipos de RNA
utilizada para tarefas deste tipo a Kohonen.
b) Classificao: a classificao pertence a uma categoria de problemas na qual
objetos so associados determinadas classes. Esta categoria de rede neuronal
produz sadas que representam um conjunto de caractersticas apresentadas atravs
de um padro de entrada [FAUSE94]. Redes Backpropagation podem ser
utilizadas neste tipo de problema.
c) Previso: a utilidade da tecnologia de RNA para a realizao de previses est no
fornecimento de subsdios ao processo de tomada de deciso. Redes de Funo de
Base Radial so exemplos de redes utilizadas neste tipo de aplicao.
d) Controle: as Redes Neurais Artificiais esto sendo cada vez mais utilizadas em
processos de controle em tempo real, onde a principal vantagem desta abordagem
em relao aos sistemas industriais de controle tradicionais est na habilidade de
aprender atravs de experincias. Pode ser utilizado, por exemplo, no controle de
um manipulador industrial de robtica.

2.5.5 Abordagens Hbridas


Pode-se definir como abordagens hbridas a estratgia de se utilizar mais de uma
tcnica para a resoluo de um determinado problema [PRADO98]. Tambm na Minerao
de Dados, a combinao de tcnicas pode apresentar resultados superiores aos obtidos com a
utilizao de abordagens puras.
A partir da utilizao em conjunto de tcnicas que individualmente j tenham
demonstrado utilidade prtica, a construo de modelos hbridos pode aproveitar os benefcios
de cada uma delas. Prado [PRADO98] cita, como exemplo, a utilizao de RNAs em
conjunto com rvores de deciso. Enquanto a primeira tcnica se mostra til na modelagem de
funes no lineares, porm com resultados no satisfatrios quando se trata de explanao

75
dos fatos pesquisados, a segunda tcnica apresenta bons resultados em tarefas de explanao,
mas restringe-se a particionamentos lineares do espao de entrada.
Como exemplos de propostas de sistemas hbridos, podem ser citados:
a) Modelo Neural Combinatrio MNC: entende-se por Modelo Neural
Combinatrio uma rede neural capacitada para operaes de classificao. O
treinamento dessa rede pode ser feito atravs de um algoritmo baseado em
backpropagation9, utilizando punies e recompensas. O MNC integra os
paradigmas simblico e conexionista, e utiliza aprendizado supervisionado em
uma topologia feedforward com as seguintes caractersticas: uma camada de
entrada, uma camada combinatria e uma camada de sada [PRADO98]. Os
neurnios so conectados atravs de arcos ou sinapses.

Figura 8: Modelo Neural Combinatrio [PRADO98]

b) Redes Neurais Baseadas em Conhecimento (knowledge-based artificial neural


network KBANN): este um modelo de classificao supervisionada de dados.
composto por trs funes principais: insero de conhecimento simblico na
rede, refinamento do conhecimento prvio com base em dados e extrao de
conhecimento simblico. O aprendizado feito a partir de um algoritmo de
backpropagation sobre o conhecimento prvio inserido [PRADO98].

Backpropagation: a base para o treinamento de uma rede neural supervisionada. Depois que os padres de

entrada so processados pela rede, os resultados obtidos so utilizado como parmetros para ajust-la.

76

Figura 9: Funes de um modelo KBANN [OSORI99]

2.5.6 Ferramenta para a Minerao de Dados


Com o crescente interesse na utilizao de tcnicas de Descoberta de Conhecimento
em Bases de Dados e Minerao de Dados, tm sido construdas ferramentas que
implementam algoritmos para esse fim. Para este trabalho, optou-se por utilizar a ferramenta
WEKA
O WEKA (Waikato Environment for Knowledge Analysis) um projeto desenvolvido
pela Universidade de Waikato Nova Zelndia, que tem por objetivo manter um ambiente de
aprendizagem de mquina10. Encontra-se disponvel de forma inteiramente gratuita para a
comunidade cientfica, e implementa os principais algoritmos que podem ser utilizados em
Minerao de Dados.
O WEKA implementado na linguagem JAVA, utilizando conceitos de orientao a
objetos. Como foi estabelecido que seria de domnio pblico, tanto os programas fontes como
o prprio aplicativo se encontram disponveis para serem livremente copiados na pgina WEB
do projeto [WEKA01].
Como foi implementado em linguagem JAVA, o WEKA pode ser executado na maior
parte dos sistemas operacionais existentes, sem necessidade de recompilao ou alterao do
aplicativo. O WEKA pode ser executado em ambiente Windows, Linux, Unix e Macintosh,
desde que o computador possua instalada a JVM (Java Virtual Machine).

10

Aprendizagem de Mquina: do ingls Machine Learning, um ramo da Inteligncia Artificial que estuda

algoritmos que permitam aos computadores efetivar aprendizado a partir de exemplos anteriores e estmulos
(entradas) no sistema.

77
O WEKA contm ferramentas para classificao, regresso, agrupamento e
associao. Pode ser utilizado tanto atravs de instrues em linha de comando, como a partir
de uma verso que implementa uma interface grfica em Java. Pode tambm ter suas
bibliotecas utilizadas em outros programas, que podem ser construdos para utilizar os
algoritmos ali implementados.

2.5.6.1

Estrutura

O WEKA foi estruturado dentro dos padres de construo de aplicativos orientados a


objetos. Como foi construdo utilizando a linguagem de programao Java, para falar da
estrutura do aplicativo importante discriminar alguns aspectos desta linguagem.
Em Java, cada programa implementado como uma classe, conceito oriundo da
programao orientada a objetos. Uma classe pode ser definida como um conjunto estruturado
de variveis ou dados, e os algoritmos que interagem com esses dados e variveis, chamados
mtodos. Um objeto definido como uma instncia da classe qual pertence.
Um conjunto de classes denominado pacote, normalmente organizado para agrupar
classes relacionadas entre si, ou relacionadas a um determinado assunto.
Assim, o WEKA formado por diversos pacotes de classes Java que podem ser
entendidos como mdulos do sistema - que por sua vez implementam diversos mtodos sobre
os dados tratados [WITTE99].
A figura seguinte mostra os principais pacotes que compe o WEKA e a dependncia
entre eles, e a tabela, logo a seguir, uma descrio sumria de cada um deles.

78

Figura 10: relao dos pacotes do WEKA adaptao de [SALGA02]

Tabela 3: Descrio dos pacotes do WEKA adaptado de [SALGA02]


PACOTE

DESCRIO

Associations

Implementa o algoritmo Apriori para a gerao de regras


de associao.
Implementa algoritmos para seleo de atributos de um
conjunto de treinamento.
Implementa vrios tipos de classificadores comuns:

AttributeSelection
Classifiers

rvores de deciso (ID3, C4.5), redes neurais, tabelas de


deciso, algoritmos bayesianos, bagging, boosting.
Clusterers

Implementa os seguintes algoritmos para clustering:


EM, SimpleKMeans e CobWeb.

Core

Implementa funes de IO e de estatsticas de instncias.


Calcula por exemplo o nmero de atributos com um

79
PACOTE

DESCRIO
determinado valor, o nmero de instncias com alguns
valores ausentes.

Filters

Implementa vrios filtros aplicados na fase de prprocessamento dos dados.

GUI

Implementa toda a parte de interface com o usurio.


importante ressaltar que estas classes no dispem de
nenhum algoritmo de minerao de dados implementado,
o que torna o software mais flexvel para eventuais
mudanas.

Estimator

Diferentes

tipos

de

clculo

para

distribuio

de

probabilidades. usada, por exemplo, pelo algoritmo


Naive Bayes.

2.5.6.2

Arquivo de entrada

O WEKA define um padro de entrada especfico que deve ser obedecido para o
correto processamento das informaes. um arquivo com extenso .ARFF, dividido
basicamente em trs partes:
a) O nome a ser atribudo ao trabalho de minerao correspondente quele arquivo.
precedido pelo rtulo @RELATION.
b) Descrio dos atributos: nesta seo, devem ser relacionados todos os atributos
que sero processados. Podem ser descritos alguns nveis de detalhamento.
precedido pelo rtulo @ATTRIBUTE.
c) Seqncia de dados: so os dados que sero processados. Cada linha contm
valores para os atributos relacionados em (b). Inicia com uma linha com o rtulo
@DATA.
Na figura a seguir mostrado um exemplo de um arquivo de entrada do WEKA.

80
@RELATION Producao_Grupo_Tipo_0001
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE
@ATTRIBUTE

NME_RH STRING
Complementares {sim,nao}
Demais {sim,nao}
Orientao {sim,nao}
Artstica_Cultural {sim,nao}
Produo_bibliogrfica {sim,nao}
Produao_Tcnica {sim,nao}
Total_Global REAL

@data
"Andr Fernando da Silva Nobre",nao,nao,nao,nao,sim,nao,1
"Bruno Pacheno Novais Clemente",nao,nao,nao,nao,sim,nao,1
"Carlos Campos Silveira Brito",nao,nao,nao,nao,sim,nao,1
"Douglas Cerqueira Silva Pacheco Meireles",nao,nao,nao,nao,sim,nao,1
"Edimria Vanessa da Silva Soares",nao,nao,nao,nao,nao,sim,1

Figura 11: Exemplo de arquivo .arff do WEKA

Este tipo de arquivo pode ser gerado a partir de ferramentas dos principais bancos de
dados, que permitem a criao de listas separadas por um determinado caractere, neste caso, a
vrgula.

2.5.6.3

Algoritmos

O WEKA implementa uma srie de algoritmos especialistas que podem ser utilizados
em tarefas de minerao de dados. Estes algoritmos so organizados em pacotes especficos:
a) Associations
b) Classifiers
c) Clusteres

Associations
As regras de associao so utilizadas na tentativa de se encontrar relacionamentos
significativos entre informaes de mesma natureza. Estas bases de dados esto se tornando
cada vez mais extensas, o que demanda a utilizao de algoritmos eficientes para viabilizar a
pesquisa em um tempo aceitvel.
Para a tarefa de estabelecer regras de associao, o WEKA implementa o algoritmo
Apriori. Este algoritmo foi proposto por Agrawal e Srikant [AGRAW94] em 1994, na
inteno de proporcionar uma maneira mais eficiente de percorrer bases de dados e gerar
regras de associao.

81
O algoritmo percorre a base de dados e encontra os conjuntos de itens freqentes,
denominados frequent itemsets. Os algoritmos existentes at ento geravam um conjunto
muito grande de itemsets. O Apriori parte da proposta que todo subset de um grande itemset
deve ser grande tambm. Assim, grandes itemsets podem ser agrupados, e eliminados aqueles
que cujos subsets no so grandes o suficiente. Isto permite a gerao de um nmero menor
de itemsets candidatos [AGRAW94].
O algoritmo principal utiliza duas funes:
a) A funo Apriori-gen, que tem a funo de gerar o conjunto de candidatos e
eliminar os subsets que no so significativos.
b) A funo Genrules, que tem por objetivo extrair as regras de associao
propriamente ditas.
A primeira operao realizada pelo algoritmo uma contagem de ocorrncia dos itens
para determinar os frequent itemsets de tamanho unitrio (1 frequent itemsets). A seguir, so
executadas duas fases posteriores k. Primeiro, os frequent itemsets Lk-1 encontrados na
operao anterior (K-1) so utilizados para gerar a lista dos conjuntos de potencialmente
freqentes, chamados de itemsets candidatos (Ck).
Feito isso, realizada uma nova varredura no banco de dados, contando-se o suporte
de cada itemset candidato em Ck.
A gerao dos itemsets candidatos, de antemo, toma como argumento Lk-1, o
conjunto de todos (k-1)-itemsets freqentes. Para tal, utiliza-se a funo Apriori_gen (Anexo
II), que retorna umsuperconjunto de todos os k-itemsets freqentes A funo, em um primeiro
estgio, une Lk-1 com Lk-1. No estgio seguinte, so eliminados os itemsets ck pertencentes a Ck,
desde que um dado (k-1)-subset de ck no pertena a Lk-1.
A seguir, uma figura com a rotina principal do algoritmo Apriori [AGRAW94]:

82

Figura 12: algoritmo Apriori rotina principal

Classifiers
O objetivo das rotinas de classificao associar uma determinada instncia a uma
classe. Estas rotinas tm por resultado, normalmente, rvores de deciso ou um conjunto de
regras que definam os critrios necessrios para realizar a associao do item considerado
com a classe adequada.
O WEKA implementa vrios algoritmos de classificao, relacionados na figura a
seguir [WITTE99]:

Figura 13: classificadores no WEKA

83
Dos algoritmos de classificao implementados pelo WEKA, ser tratado neste
trabalho somente o algoritmo j48, que a implementao do algoritmo padro C4.5, reviso
8. Este algoritmo largamente utilizado em tarefas de aprendizagem de mquina.
O C4.5 gera um classificador na forma de uma rvore de deciso. Adota uma
estratgia top-down que permite efetuar a classificao em partes da estrutura, o que
possibilita a criao de rvores de estrutura relativamente simples, embora no
necessariamente simplistas. [CHEN96]. O algoritmo utiliza uma abordagem direcionada a
minimizar a quantidade de testes que devem ser realizados com cada objeto, no intuito de
possibilitar tempos de respostas mais adequados.
O algoritmo utiliza a seguinte funo de avaliao:

onde pi a probabilidade de um objeto pertencer uma classe i [CHEN96].

Clusteres
O WEKA oferece tambm um pacote que contm algoritmos de agrupamento,
chamado weka.clusteres. A figura abaixo relaciona as classes implementadas [WITTE99]:

weka.clusterers.Cobweb
weka.clusterers.EM
weka.clusterers.SimpleKMeans
Figura 14: algoritmos de agrupamento do WEKA

O Cobweb um algoritmo de agrupamento incremental baseado em conceitos


probabilsticos. Esses conceitos possuem um conjunto de atributos com seus possveis
valores. A busca por bons agrupamentos direcionada pela mensurao da qualidade das
parties de dados [FISHE87].
Por sua vez, o EM um algoritmo que assume que os atributos no conjunto de dados
representam variveis randmicas independentes. De maneira diferente de outros algoritmos

84
de agrupamento, o EM permite que um objeto esteja presente em mais de um agrupamento
[SALGA02].
J o SimpleKMeans uma implementao do algoritmo k-Means, um mtodo nohierrquico que divide um conjunto de dados em grupos de elementos semelhantes, onde k o
nmero de agrupamentos desejados, informado inicialmente. O algoritmo apresenta o
seguinte funcionamento [WIVES99]:
a) Determina a posio inicial dos k centrides dos agrupamentos.
b) Direciona cada atributo ao agrupamento do centride mais prximo.
c) Recalcula os centros dos agrupamentos a partir dos elementos direcionados.
d) Repete os itens anteriores seguindo um critrio de convergncia, que pode ser uma
informao sobre o nmero mximo de interaes desejadas, ou at que os centros
no se movam mais.

2.5.6.4

Interface

O WEKA apresenta duas possibilidades de interface: por linha de comando,


executando uma sintaxe especfica para a execuo do aplicativo utilizando a JVM, e uma
interface grfica desenvolvida em Java que facilita a interao com o aplicativo. Abaixo, as
figuras ilustram a interface grfica da ferramenta.

Figura 15: Tela inicial do WEKA

85

Figura 16: configurao de parmetros no WEKA

2.6 Tcnicas de Minerao de Textos


2.6.1 Minerao de Texto
A maneira mais comum de se registrar informaes utilizando textos livres, onde
idias, opinies, consideraes, observaes, pensamentos so expressos e armazenados. Nas
organizaes, h muito conhecimento deste tipo armazenado na forma de formulrios, atas,
manuais, normas, procedimentos, correio eletrnico, memorandos, comunicaes formais,
entre outras.
Segundo Mark Dixon, a Minerao de Texto combina tcnicas de extrao,
recuperao de informaes, processamento da linguagem natural e sumarizao de
documentos com os mtodos de Minerao de Dados [DIXON97]. Entretanto, por
normalmente utilizar dados no estruturados, os processos de Minerao de Texto so
considerados mais complexos que os processos de Minerao de Dados.
Este tema bastante recente, com poucas ferramentas disponveis. Trabalhos tm sido
realizados no sentido de definir algoritmos mais adequados para este fim, bem como
estabelecer ferramentas que possam combinar o conhecimento disponvel em textos com
conhecimentos formalizados de maneira estruturada, como nos bancos de dados.

86

2.6.2 Tarefas Bsicas


Assim como na Minerao de Dados, o conceito de tarefas bsicas pode ser aplicado
Minerao de Texto.

2.6.2.1

Agrupamento

Segundo Wives:
O objetivo do agrupamento de informaes textuais separar uma srie de
documentos dispostos de forma desorganizada em um conjunto de grupos
que contenham documentos de assuntos similares [WIVES99].

Em se tratando de informaes textuais, os algoritmos de agrupamento consideram as


palavras que compem os documentos analisados como atributos a serem utilizados para a
comparao. So as palavras as unidades que podem ser identificadas, quantificadas,
caracterizadas e medidas.
Quando se utiliza as palavras de um documento como atributos, pode ocorrer a perda
de informaes de carter semntico. Estudos recentes procuram considerar a relao
semntica entre as palavras de um documento [LOH99], para permitir um processo mais
eficiente de agrupamento, onde os grupos de documentos possam representar melhor os
assuntos a que dizem respeito. Entretanto, estas modalidades de pesquisa requerem um grande
volume de recursos computacionais para sua efetivao, o que ainda representa um limitador
para estas tcnicas.
Os agrupamentos de informaes textuais podem ser classificados em relao forma
como os grupos so construdos e em relao complexidade do tempo de execuo dos
algoritmos utilizados.
Quanto forma, podem ser [CUT 92 apud WIVES99]:
a) Partio Total (flat partition): os objetos so distribudos em classes distintas, no
havendo relao direta entre as classes. Os documentos so separados
exaustivamente e colocados em grupos totalmente diferentes.
b) Partio hierrquica (hierarchic partition): o processo de identificao de grupos
geralmente realimentado recursivamente, utilizando tanto objetos quanto grupos j
identificados previamente como entrada para o processamento. Deste modo,
constri-se uma hierarquia de grupos de objetos na forma de uma rvore.
Quanto complexidade do tempo de execuo, podem ser:

87
a) Constantes: so utilizados para se limitar o tempo mximo de execuo de um
determinado conjunto de dados, evitando uma elevao exponencial deste tempo
quando da insero de novos conjuntos [SIL 97 apud WIVES99].
b) Lineares: aumentam o tempo de processamento de maneira linear de acordo com o
aumento do conjunto de dados processados. Normalmente, neste caso so
utilizados algoritmos que no exigem a comparao de todos os objetos entre si.
c) Quadrticos: o tempo de processamento sobre um aumento exponencial com a
incluso de novos conjuntos de objetos a serem processados. Isto ocorre como
conseqncia da necessidade de se comparar todos os objetos entre si. Assim, com
a insero de um novo objeto provocar a comparao deste com todos os outros, e
tambm dos outros entre si novamente [CUT 92 apud WIVES99].

2.6.2.2

Classificao

As peculiaridades relativas classificao em minerao de texto so estabelecidas


principalmente pelo fato de se considerar as palavras de um documento como os atributos de
comparao. Assim, operaes de classificao em uma base textual exigem volumes de
processamento muito superiores aos correspondentes em bases estruturadas.
Assim, podem ser utilizadas as mesmas estratgias empregadas na minerao de
dados, quais sejam [WIVES00]:
a) Regras de inferncia
b) Modelos conexionistas
c) Mtodo de similaridade de vetores
d) rvores de deciso
e) Classificadores de Bayes

2.6.3 Ferramenta para a Minerao de Texto


Para a minerao de texto, utilizou-se como ferramenta de apoio o aplicativo Eurekha,
desenvolvido pelo pesquisador Leandro Wives [WIVES99]. Abaixo, a tela de entrada do
Eurekha, com arquivos j carregados.

88

Figura 17: tela de entrada do Eurekha.

O Eurekha tem por objetivo auxiliar o processo de anlise e recuperao de


informaes provenientes de bases de dados textuais [VARGA00].
As operaes fundamentais do aplicativo so relacionadas anlise do contedo de
textos, buscando identificar aqueles que contm assuntos similares. Os documentos
identificados como similares so unidos em um conjunto, utilizando tcnicas especficas de
agrupamento (clustering). Ao final do processo de anlise, o aplicativo apresenta os diferentes
grupos encontrados e seus respectivos documentos.

89

Figura 18: grupos no Eurekha

Os documentos que o Eurekha analisa podem ser das origens mais variadas, uma vez
que a ferramenta foi construda para utilizar textos no formatados e sem uma estrutura
padro. Isto permite que sejam analisadas inclusive pginas da Web [VARGA00].
O Eurekha apresenta algumas funes que permitem uma anlise de contedo de uma
coleo de documentos, como uma anlise lexical, onde so relacionadas as palavras contidas
em cada documento e seus respectivos valores de freqncia e relevncia. Tambm podem ser
listadas as palavras mais relevantes de um determinado agrupamento, normalmente as que so
determinantes para a classificao do documento em determinado agrupamento.
O aplicativo oferece tambm uma considervel lista de palavras que podem ser
consideradas palavras negativas, ou stop words. Estas palavras normalmente tm carter
genrico, e no agregam sentido no contexto da pesquisa, devendo ser desprezadas. Assim, o
Eurekha j traz cadastrados conjuntos de stop words, tais como advrbios, pronomes,
preposies, artigos, numerais cardinais e ordinais, entre outras. possvel ainda definir
grupos de stop words que sejam relacionados ao assunto pesquisado. A figura a seguir
apresenta a janela de escolha dos grupos de stop words do Eurekha.

90

Figura 19: Janela de stop words do Eurekha

2.6.3.1

Algoritmos de minerao de texto

O Eurekha utiliza algoritmos de agrupamento descritos por Wives [WIVES99]. Para o


clculo da freqncia relativa, utilizada uma frmula prevista por Salton [SAL 83 apud
WIVES99], a qual indica o quanto uma palavra relevante para o documento a partir do
estabelecimento do nmero de ocorrncias da mesma no referido documento.

Frel x =

F abs x
N

(1)

Na frmula (1), a freqncia relativa (Frel) de uma palavra x em um documento


calculada dividindo-se sua freqncia absoluta (Fabs) pelo nmero total de palavras (N).
Para o clculo de similaridades, Wives desenvolveu uma frmula a partir da proposta
de Oliveira [OLI 96 apud WIVES99], denominada mdia por operadores fuzzy, apresentada a
seguir:

91
k

gs ( X , Y ) =

gih(a, b)
h =1

(2)

onde:
a) gs o grau de similaridade entre os documentos X e Y;
b) gi o grau de igualdade entre os pesos do termo h (peso a no documento X e peso
b no documento Y);
c) h um ndice para os termos comuns aos dois documentos;
d) k o nmero total de termos comuns aos dois documentos;
e) n o nmero total de termos nos dois documentos, sem contagem repetida.

Na frmula acima, o termo gi a representao de:

(3)
onde:

Na frmula (2) utilizado um contador incrementado a cada vez que uma palavra
encontrada nos dois documentos comparados. A frmula (3) utilizada para introduzir um
fator qualitativo no clculo, estabelecendo pesos a partir da freqncia relativa do termo nos
dois documentos.
Ao final do processo, obtm-se uma matriz de similaridade onde os valores variam no
intervalo [0,1], o valor [0] indica documentos sem nenhuma semelhana, e o valor [1] indica
documentos muito similares [WIVES99].

2.7 Ontologia da linguagem


Na filosofia, o termo ontologia significa o estudo do ser enquanto ser e de suas
propriedades transcendentais. A preservar essa caracterstica, sua aplicao em reas tais

92
como a Gesto do Conhecimento ou reas ligadas Tecnologia da Informao, implicaria
numa abordagem mais fenomenolgica, em que se procuraria concentrar mais nos fenmenos
propriamente ditos que em suas explicaes. Ainda que essa caracterizao no seja
rigorosamente seguida nas reas mencionadas, definies como a de Gruber, em que uma
ontologia uma representao formal e explcita de uma conceitualizao compartilhada
[GRUBE93], permitem a formalizao de conceitos e aspectos que, ao final, ajudam a
compreender os intrincados e complexos processos interpretativos decorrentes da condio
humana.
A Ontologia da Linguagem proposta por Flores, Winograd, Graves, Echeverra e
vrios outros, segue esta linha, quando tratam da linguagem como ao e qual atribuem um
carter formal e estruturado. Nos termos de Echeverra [ECHEV99], por exemplo, ao mesmo
tempo em que se considera que "a linguagem no o foco nem a preocupao principal da
ontologia da linguagem, mas seu interesse principal so os seres humanos", tambm se
considera que, enquanto humanos, nos constitumos na ao. Segundo Echeverra, no s
atuamos conforme somos, mas tambm somos conforme atuamos [ECHEV99], o que
confere um poderoso e sugestivo vnculo dos fenmenos interpretativos relacionados ao ser
humano s aes destes. Tal caracterstica vem sendo progressivamente explorada na
constituio de um potente ferramental com aplicaes as mais diversas e, em particular, nas
reas relacionadas gesto. A Ontologia da Linguagem considera que as pessoas so seres
lingsticos, e apresenta uma srie de postulados que justificam essa considerao, tornandose, assim, um assunto bastante extenso. No contexto deste trabalho sero apresentadas apenas
as principais consideraes sobre atos lingsticos e juzos, itens considerados fundamentais
para a realizao deste estudo.

2.7.1 Atos lingsticos bsicos


Basicamente, os atos lingsticos se constituem de afirmaes e declaraes.
As afirmaes so atos lingsticos originados da observao factual sobre uma
realidade externa que interlocutores possam observar. Decorrem da percepo sensorial
humana e so, em geral, tidas como objetivas (embora o mais correto fosse consider-las
intersubjetivas, dado que no dependem exclusivamente da pessoa que as enuncia). So
verdadeiras ou falsas, conforme se revelem (ou no) bvias de imediato ou sejam passveis de
serem evidenciadas por qualquer testemunha. Segundo essa perspectiva, com as afirmaes,
a palavra segue o mundo.

93
As declaraes so atos lingsticos que, de forma muito mais eloqente, alteram o
ambiente em que se inserem o observador declarante com os que com ele esto associados no
contexto em que se d a declarao.

As declaraes se pautam na autoridade que o

observador declarante tem para proferi-las, e, ao faz-lo, estabelece uma nova realidade a
partir de sua declarao. Com as declaraes, ao contrrio das afirmaes, o mundo segue a
palavra.
A tabela a seguir descreve sumariamente conceitos relacionados s afirmaes e s
declaraes[ECHEV99]:

Tabela 4: Sobre afirmaes e declaraes


AFIRMAES

DECLARAES

Observador relata o que observa.


A palavra segue o mundo.
Podem ser:
Falsas ou verdadeiras de acordo com a
evidncia que se prove seja aceita pelos
demais;
Relevantes ou irrelevantes de acordo com
nossas inquietaes.

COMPROMISSO

COMPROMISSOS

Observador gera novos contextos atravs do falar.


O observador opta, toma decises.
O mundo segue a palavra.
Podem ser: vlidas ou invlidas, de acordo com a
autoridade conferida a quem as profere.

Quando afirma, o observador assume o Quando declara, o observador assume os seguintes


compromisso de que suas afirmaes so
compromissos:
verdadeiras.
Que suas declaraes sejam vlidas (ou seja, que
tenha autoridade para faz-las).
Que atuar de forma consistente com o que
declara.

A tabela abaixo relaciona os principais itens relacionados s promessas [ECHEV99]:

Tabela 5: Sobre promessas


ITEM
Elementos

COMPONENTE
Orador
Ouvinte
Ao
Fator tempo

Processos

Fazer a promessa
Cumprir a promessa

Aes lingsticas

Oferta + declarao de aceitao

94
ITEM

COMPONENTE
Petio + declarao de aceitao

Domnios

Sinceridade: o contedo de conversaes e compromissos


pblicos igual ao contedo de conversaes e compromissos
privados
Competncia: condio de efetiva execuo da parte de quem
se compromete

2.7.2 Juzos
Juzos pertencem classe das declaraes. Como toda declarao, os juzos podem
ser: vlidos ou invlidos, de acordo com a autoridade conferida a quem os faz. Alm disso, os
juzos podem ser ainda: fundamentados ou no-fundamentados (ou fundados ou infundados),
de acordo com as aes executadas no passado que so utilizados para respald-los.
Juzos so como bssolas para o futuro. Quando se estabelecem juzos, utiliza-se no
presente experincias do passado como guia para o futuro. Por exemplo, toma-se a
declarao: Miguel uma pessoa sensata. A partir de alguma observao do passado - Miguel
realizou algo no passado - emite-se a declarao que Miguel se mostra, aqui e agora, no
presente, uma pessoa sensata. Ento, podem-se esperar, no futuro, atitudes sensatas de
Miguel.

Fundamentao de juzos
So cinco os passos para a fundamentao de juzos, a saber:

a) Definir com qual propsito se estabelece o juzo: sempre existe um motivo para a
emisso de um juzo. Quando emitido, abrem-se ou fecham-se possibilidades no
futuro. Por exemplo: quando emitido o juzo Mrio um executivo eficiente
antecipam-se algumas aes no futuro, como a delegao a Mrio de tarefas
relevantes que somente pessoas eficientes podem cumprir.

95
b) Definir em que domnio est sendo julgado: quando se emite um juzo,
normalmente isto feito dentro de um domnio particular de observao, ou seja, o
conjunto de parmetros que se possui ao emitir o juzo.
c) Definir com que padres est sendo julgado: os padres de julgamento se
constituem do conjunto de comportamentos normalmente praticados, do ponto de
vista histrico, cultural, moral e social.
d) Definir quais so as afirmaes de suporte que respaldam este juzo: as afirmaes
de suporte podem ou no validar os juzos. Estas so constitudas de observaes
objetivas de fatos que podem ser descritos e comprovados.
e) Fundamentar o juzo com outras pessoas: os juzos, por serem essencialmente
discrepveis (uma vez que dependem genuinamente do observador que os emite) e
em geral temporrios (uma vez que ao mata juzo e novas aes por parte da
entidade julgada podem perfeitamente descaracterizar o juzo original!), cumpre
resguardar-se no processo de fundamentao, compartilhar esse processo com
outras pessoas, as quais, por virem de outras histrias e experincias podem trazer
nova luz s interpretaes vigentes.

96

CAPTULO 3

3 METODOLOGIA
3.1 Consideraes gerais
3.1.1 Coleta e anlise de dados
Os dados necessrios para a pesquisa foram obtidos a partir da explorao de um
recorte da base de dados do Currculo Lattes. Esta base de dados encontra-se atualmente
hospedada em computadores do CNPq. O sistema de armazenamento composto por
servidores Sun, sistema operacional Solaris 5.7 e gerenciador de bancos de dados Oracle
Server 8i. A partir da extrao de um nmero limitado de registros desta base, foram aplicadas
tcnicas de Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento
em Textos para efetuar a preparao dos dados para o processo de minerao, tantas vezes
quanto foi necessrio para a obteno de padres de comportamento teis.

3.1.2 Delimitao do estudo


Este trabalho contemplou a pesquisa de algoritmos de Minerao de Dados e
Minerao de Texto, no contexto do assunto Descoberta de Conhecimento em Bases de
Dados e da Gesto do Conhecimento.
No foi construda uma ferramenta completa e acabada, mas sim o desenvolvimento
de estudos de casos com a utilizao de algoritmos de Minerao de Dados e Minerao de
Texto sobre dados da Plataforma Lattes, para a gerao de conhecimento organizacional.

3.2 Especificao da Pesquisa


Este trabalho apresenta dois estudos de caso, um utilizando Minerao de Dados e
outro utilizando Minerao de Textos. Ambos foram realizados a partir de dados obtidos da

97
Plataforma Lattes, respectivamente: definio do perfil dos docentes que orientam alunos de
iniciao cientfica, a partir de informaes sobre concesses de bolsas do PIBIC Programa
de Institucional de Bolsa de Iniciao Cientfica; e gerao de agrupamentos para a
identificao de linhas de pesquisa em uma universidade a partir de informaes sobre
publicaes de seus pesquisadores e docentes, a partir dos ttulos das publicaes e de suas
palavras-chave.

3.2.1 Perfil do orientador do PIBIC


Com o objetivo de exemplificar o potencial de gerao de conhecimento
organizacional da Plataforma Lattes, preparou-se, seguindo as metodologias citadas
anteriormente, um estudo para a definio do perfil de orientadores do PIBIC Programa
Institucional de Bolsa de Iniciao Cientfica.
O PIBIC Programa Institucional de Bolsa de Iniciao Cientfica, patrocinado pelo
CNPq, e foi criado para promover a iniciao do aluno na produo do conhecimento e sua
convivncia cotidiana com o procedimento cientfico em suas tcnicas, organizao e
mtodos, despertar vocao cientfica e incentivar novos talentos potenciais entre estudantes
de graduao, mediante suas participaes em projetos de pesquisa, preparando-os para o
ingresso na ps-graduao.
Segundo o CNPq, os objetivos especficos do programa so [CNPQ03a]:
a) Propiciar instituio um instrumento de formulao de poltica de iniciao
pesquisa para alunos de graduao.
b) Estimular uma maior articulao entre a graduao e ps-graduao.
c) Contribuir para a formao de recursos humanos para a pesquisa.
d) Contribuir de forma decisiva para reduzir o tempo mdio de permanncia dos
alunos na ps-graduao.
e) Estimular pesquisadores produtivos a envolverem alunos de graduao nas
atividades cientfica, tecnolgica e artstico-cultural.
f) Proporcionar ao bolsista, orientado por pesquisador qualificado, a aprendizagem
de tcnicas e mtodos de pesquisa, bem como estimular o desenvolvimento do
pensar cientificamente e da criatividade, decorrentes das condies criadas pelo
confronto direto com os problemas de pesquisa.

98
Enquanto gestor do programa, o CNPq necessita de parmetros para avaliar o
desempenho dos bolsistas e dos orientadores, com o objetivo de corrigir eventuais distores
e proporcionar uma distribuio mais eficiente dos valores destinados ao programa.
Um dos indicadores que se deseja apurar o perfil dos orientadores que obtiveram
maior sucesso em seu trabalho de orientao. Para tal, foi definido como problema para
Minerao de Dados o estabelecimento de uma relao entre os alunos que receberam bolsas
do programa de iniciao cientfica, e que posteriormente obtiveram titulao em programas
de mestrado e/ou doutorado.
A partir de informaes obtidas nos sistemas de administrao dos programas de
fomento do CNPq e da base de dados da Plataforma Lattes, procurou-se caracterizar os
orientadores conforme o sucesso de seus ex-orientados em um programa de mestrado ou
doutorado.

3.2.2 Agrupamento de docentes a partir de suas publicaes


A revoluo tecnolgica e o grande avano nas reas de pesquisa esto gerando, cada
vez mais, linhas de trabalho e pesquisa que abrangem uma grande variedade de assuntos.
Os gestores de programas de graduao e ps-graduao nas instituies de ensino,
bem como os gestores de unidades de pesquisa, geralmente necessitam de informaes sobre
as reas de atuao e reas de interesse de seus colaboradores, no intuito de aproveitar melhor
o potencial criativo do grupo para o desenvolvimento dos trabalhos de educao e pesquisa.
Procurando contribuir com a gerao de conhecimento organizacional sobre essa
questo, este estudo de caso buscou identificar, a partir de tcnicas de Minerao de Textos,
as principais linhas de pesquisa de um determinado conjunto de docentes e pesquisadores, a
partir de explorao das informaes armazenadas no Currculo Lattes.
Foram utilizadas informaes sobre os trabalhos cientficos e tecnolgicos do grupo de
professores do programa Mestrado em Gesto do Conhecimento e da Tecnologia da
Informao da Universidade Catlica de Braslia, armazenados na base de dados da
Plataforma Lattes, utilizando-se os ttulos dos trabalhos e publicaes, suas palavras-chaves e
as reas de interesse cadastrados no Currculo Lattes.

99

3.3 Metodologia utilizada nos estudos de caso


Foram utilizadas duas metodologias para o desenvolvimento dos estudos de caso. Do
ponto de vista de Gesto do Conhecimento, utilizou-se o Modelo Genrico de Gesto do
Conhecimento proposto por Stollenwerk [STOLL01]. Do ponto de vista de Descoberta de
Conhecimento em Bases de Dados e Descoberta de Conhecimento de Texto, utilizou-se o
mtodo proposto por Fayyad [FAYYA96].
Tanto o Modelo Genrico de Gesto do Conhecimento quanto o Mtodo de
Descoberta de Conhecimento em Bases de Dados foram descritos no Captulo 2 .
A utilizao destes mtodos foi de fundamental importncia para o desenvolvimento
dos estudos de caso. Inicialmente, procurou-se identificar os pontos de convergncia entre
eles, e concluiu-se que os dois modelos podem ser utilizados em conjunto, sendo que a
Descoberta de Conhecimento pode ser utilizada como uma das etapas do processo de Gesto
do Conhecimento.
A partir do Modelo Genrico de Gesto do Conhecimento de Stollenwerk, verificou-se
que a Descoberta de Conhecimento em Bases de Dados possui maior afinidade com a fase de
Criao, por considerar que o conhecimento descoberto a partir de bases de dados um
conhecimento novo, fruto da explorao e do relacionamento de informaes anteriormente
armazenadas, mas que ainda no representavam conhecimento organizacional. Neste
contexto, a Descoberta de Conhecimento em Bases de Dados mais uma das ferramentas que
podem ser utilizadas para a gerao de conhecimento nas organizaes. No o nico meio,
mas pode ser considerado um importante recurso para a gerao de conhecimento. As figuras
a seguir representam o relacionamento entre os dois modelos.

Figura 20: Gesto do Conhecimento e Descoberta de Conhecimento em BD

100

Figura 21: interao da Gesto do Conhecimento e da Descoberta de Conhecimento

A nfase deste trabalho na gerao de conhecimento organizacional a partir da


aplicao de tcnicas de Minerao de Dados e Minerao de Textos. Considerando que estas
tcnicas esto localizadas na etapa Criao do Conhecimento do Modelo Genrico de Gesto
do Conhecimento de Stollenwerk, as outras etapas deste modelo sero citadas apenas para
contextualizar a pesquisa no mbito da Gesto do Conhecimento, mas no sero
profundamente exploradas.

3.4 Etapas da pesquisa


A partir das metodologias acima mencionadas, procedeu-se a execuo do conjunto de
etapas relacionadas em cada uma delas. necessrio esclarecer que o Modelo Genrico de
Gesto de Conhecimento proposto por Stollenwerk [STOLL01] prope duas etapas que so
relativamente similares, quais sejam: a etapa de captura e aquisio de conhecimento e a etapa
de criao de conhecimento. Segundo Stollenwerk [STOLL01]:

Uma questo discutida na literatura se h uma diferena significativa entre


as aes de captura do conhecimento j existente na organizao e as de criar
novo conhecimento.

101
E ainda: ambas agregam novos conhecimentos ao macroprocesso de Gesto de
Conhecimento das organizaes [STOLL01]. Assim, optou-se neste trabalho por utilizar as
sub-etapas destas duas etapas concomitantemente, por melhor se adequar ao escopo proposto
e base de dados utilizada.
A seguir, o detalhamento de cada uma das etapas cumpridas. Para fins de organizao
dos itens apresentados, sero apresentas em um mesmo grupo as tarefas relativas Gesto do
Conhecimento, e posteriormente, em outro grupo, as tarefas relativas aos processos de
Descoberta de Conhecimento em Bases de Dados e Descoberta de Conhecimento em Texto.

3.4.1 Gesto do Conhecimento


3.4.1.1

Identificao das competncias crticas

Nesta etapa definiu-se, como competncia crtica para a gesto de Cincia e


Tecnologia, dentro do escopo desta pesquisa, o conhecimento dos perfis profissionais e de
produtividade dos pesquisadores e docentes que fizeram parte do conjunto de dados
pesquisado.
Esta identificao ocorreu a partir de reunies com docentes da Universidade Catlica
de Braslia, e foi corroborada por gestores de Cincia e Tecnologia do CNPq, organizao
responsvel pela Plataforma Lattes.
Esta etapa seguiu as seguintes orientaes [STOLL01]:
a) Criao de agenda de competncias essenciais: segundo mencionado
anteriormente, foi definido como competncia essencial, para este trabalho, o
conhecimento dos perfis profissionais e de produtividade dos pesquisadores e
docentes que fizeram parte do conjunto de dados pesquisado. Este item foi
considerado suficiente e adequado como competncia necessria para o
desenvolvimento deste estudo.
b) Identificao de lacunas entre as competncias existentes e as competncias
necessrias: a partir da competncia essencial definida, foi estabelecido que seria
importante a construo de mecanismos para melhor aproveitar as informaes
sobre os pesquisadores e docentes armazenadas nos diversos mdulos da
Plataforma Lattes. Apesar de j existirem ferramentas de consultas s informaes
ali armazenadas, buscar-se-ia a gerao de conhecimento organizacional a partir

102
das tcnicas de Descoberta de Conhecimento em Bases de Dados que permitissem
reduzir a distncia entre a competncia existente e a competncia desejada.
c) Desdobramento dessas competncias nas reas de conhecimento: a
competncia essencial identificada foi relacionada com conhecimentos em
tecnologia da informao, de onde vieram as ferramentas para a explorao da
base de dados e para a gerao de conhecimento a partir da execuo de
algoritmos apropriados e utilizando recursos computacionais.
d) Identificao das fontes internas e externas de conhecimento: foi definida,
como fonte potencial para a gerao do conhecimento necessrio para a
competncia estabelecida, a base de dados da Plataforma Lattes.
e) Proposio de solues para a reduo da distncia entre as competncias
existentes e as competncias necessrias: para a reduo desta distncia, foi
proposta a explorao de informaes armazenadas na base de dados da
Plataforma Lattes no intuito de se gerar conhecimento organizacional que
permitisse o incremento da capacidade de deciso dos gestores de Cincia e
Tecnologia.

3.4.1.2

Captura, aquisio e criao de conhecimento

Definida a competncia essencial relacionada com o escopo deste trabalho, passou-se


a tratar da etapa de captura e aquisio de conhecimento. Esta etapa seguiu os seguintes
passos [STOLL01]:
a) O primeiro passo foi procurar identificar fontes internas ou externas do
conhecimento pretendido, ou seja, conhecimento sobre o perfil dos pesquisadores
e docentes que fizeram parte dos estudos de caso. Como o objeto principal deste
estudo a gerao de conhecimento organizacional a partir da Plataforma Lattes,
esta foi naturalmente escolhida como principal fonte a ser pesquisada e tratada
para no intuito de se adquirir o conhecimento desejado.
b) O passo seguinte foi a seleo das estratgias de aquisio. Como o objeto deste
estudo a utilizao de tcnicas de Descoberta de Conhecimento em Bases de
Dados e Descoberta de Conhecimento em Texto para a gerao de conhecimento
organizacional, definiu-se como mtodo de aquisio a explorao de dados da
Plataforma Lattes utilizando procedimentos e algoritmos especficos para extrao
de conhecimento.

103
c) O terceiro passo se constituiu na aquisio e formalizao do conhecimento.
Utilizou-se das metodologias de Descoberta de Conhecimento em Bases de Dados
e Descoberta de Conhecimento em Textos para explorar partes da base de dados da
Plataforma Lattes. Estas tarefas de explorao sero detalhadas em sees
posteriores.
Os trabalhos de Descoberta de Conhecimento em Bases de Dados so fortemente
relacionados experimentao, pois necessrio executar os algoritmos, avaliar os resultados
e submeter ciclicamente os dados at que sejam definidos os melhores algoritmos e
parmetros para um determinado conjunto de informaes.

3.4.1.3

Seleo e validao

Esta etapa do Modelo Genrico de Gesto do Conhecimento tem objetivos


semelhantes aos objetivos da etapa de Interpretao e Avaliao da metodologia de
Descoberta de Conhecimento. Em ambos os casos, esta etapa procura identificar, entre os
produtos gerados pelas etapas anteriores, aqueles que so significativos.
Assim, os seguintes itens devero ser observados:
a) Analisar o conjunto de padres obtidos e os grupos gerados da Minerao de
Dados e Minerao de Texto.
b) Identificar, a partir do conhecimento j existente, os grupos e padres que podem
agregar novos conhecimentos que sejam teis organizao.
c) Indicar a necessidade de repetio das etapas anteriores, se isto representar a
possibilidade de obteno de padres e grupos mais interessantes para a gerao de
conhecimento til organizao.
Esta validao dever ser feita por especialistas no assunto pesquisado, que, utilizando
o conhecimento prvio, o histrico da organizao, as experincias pessoais, analisaro os
padres e grupos gerados pelas tcnicas de Descoberta de Conhecimento em Bases de Dados
e Descoberta de Conhecimento em Texto em busca daqueles padres e agrupamentos que
podem gerar novos conhecimentos para organizao.

3.4.1.4

Etapas posteriores

Como no objetivo deste trabalho implementar uma estrutura computacional


completa, e sim elaborar estudos de casos que validem as discusses apresentadas, os itens a
seguir se constituiro em propostas de arquitetura de Tecnologia da Informao, ferramentas e

104
bancos de dados que podero ser posteriormente implementados no intuito de cumprir as
etapas do Modelo Genrico de Gesto do Conhecimento de Stollenwerk. Sero aqui
apresentados para se contextualizar os processos de Descoberta de Conhecimento em Bases
de Dados e Descoberta de Conhecimento em Textos com a Gesto do Conhecimento.

Organizao e armazenagem
A etapa posterior seleo e validao do conhecimento a sua organizao e
armazenagem, para permitir que o conhecimento capturado ou gerado seja preservado para a
sua posterior utilizao pelos componentes da instituio.
A formalizao do conhecimento capturado ou gerado tem por objetivo ainda
possibilitar uma recuperao rpida, fcil, correta e segura deste conhecimento.
Apesar de no ser uma obrigatoriedade, a utilizao de ferramentas da Tecnologia da
Informao importante para a organizao e o armazenamento do conhecimento obtido.
Para isso, os seguintes itens devero ser observados:
a) Classificar o conhecimento anteriormente avaliado e selecionado.
b) Definir a arquitetura de Tecnologia da Informao que sero utilizadas.
c) Definir as ferramentas de Tecnologia da Informao que podero ser utilizadas ou
construdas

para

armazenamento,

manuteno

disponibilizao

do

conhecimento.
d) Criar e gerenciar os bancos de dados que armazenaro o conhecimento
formalizado.

Compartilhamento
Para que possa ser convertido em vantagens competitivas para a organizao, o
conhecimento deve ser tratado de forma que possa ser compartilhado entre os membros desta
organizao. Entretanto, a prtica demonstra, em geral, que muitas informaes e
conhecimento ficam restritos a pequenos grupos de indivduos.
Novamente, a importncia de se utilizar de recursos da Tecnologia da Informao
salientada, no intuito de se permitir que o conhecimento organizacional esteja disponvel para
a utilizao por todos os que dele vierem necessitar.

105
Aplicao
O objetivo do processo de Descoberta de Conhecimento a possibilidade de aplicao
prtica dos conhecimentos criados ou apreendidos. No basta que estes sejam descobertos,
selecionados, avaliados, armazenados, distribudos. No geraro nenhuma vantagem
competitiva se no forem efetivamente aplicados nas atividades da organizao.
Para tal, necessrio que as organizaes se empenhem no sentido de utilizar o
conhecimento organizacional para produzir benefcios concretos, na melhoria do desempenho,
no lanamento de novos produtos, na conquistas de novos mercados, no atendimento
satisfatrio de seus clientes [STOLL01].
importante observar que a prpria aplicao do conhecimento organizacional pode
gerar mais conhecimento para a organizao, se este processo for devidamente registrado,
avaliando-se objetivamente os ganhos obtidos, as dificuldades encontradas, os benefcios
alcanados. um processo cclico que pode aumentar continuamente o conhecimento da
organizao.

3.4.2 Descoberta de Conhecimento em Bases de Dados


Para este estudo de caso, foi escolhida uma avaliao do perfil dos orientadores de
alunos de orientao cientfica do PIBIC Programa Institucional de Bolsa de Iniciao
Cientfica.
A partir de uma necessidade prtica dos gestores do programa no CNPq, buscou-se
identificar, atravs da aplicao de tcnicas de Descoberta de Conhecimento em Bases de
Dados, o perfil dos orientadores do PIBIC que obtiveram os melhores resultados junto aos
seus alunos participantes do programa.
As informaes necessrias para a conduo do estudo de caso foram obtidas da base
de dados da Plataforma Lattes, dos sistemas de Fomento do CNPq e da base de dados de
alunos titulados da CAPES.
Os dados originais se encontravam armazenados em bases de dados relacionais Oracle
8i, instaladas em servidores Sun Microsystems.
As ferramentas utilizadas para a extrao e manipulao dos dados foram:
a) Oracle SQL*PLUS
b) Linguagem de programao Oracle PLSQL
c) Editor de textos vi

106
d) Planilha Microsoft Excel
e) Aplicativo de minerao de dados WEKA
O estudo de caso foi delimitado a partir de algumas consideraes sobre os dados
armazenados e seus perodos de coleta e processamento, conforme segue:
a) O CNPq armazena em seus arquivos informaes histricas sobre o programa de
bolsas para iniciao cientfica. Entretanto, encontrava-se disposio na base de
dados relacionais Oracle 8i apenas os dados coletados a partir do ano de 1994.
Essa foi ento a data inicial para a extrao de informaes sobre os alunos
beneficirios e os docentes que os orientaram.
b) O principal fator para definir o sucesso do programa da iniciao cientfica, no
contexto deste estudo de caso, foi a avaliao da quantidade de alunos
beneficirios do programa que posteriormente obtiveram titulao stricto sensu.
Assim, foi necessrio estabelecer um perodo de corte dos dados de entrada das
bolsas de PIBIC em uma data que fosse coerente com uma mdia de tempo que o
aluno leva para ingressar em um programa de ps-graduao, curs-lo e conclu-lo,
contado aps a concluso do curso de graduao. O tempo mnimo estipulado para
tal foi de dois anos. Portanto, foram coletados dados relativos s bolsas de PIBIC
at o perodo de 1999, este inclusive.
c) Todos os orientadores considerados para este estudo de caso deveriam possuir
cadastrado o seu Currculo Lattes, uma vez que esta foi a fonte principal de
informaes para a identificao do perfil do pesquisador.
A seguir, sero apresentadas as atividades executadas em cada uma das etapas da
referida metodologia.

3.4.2.1

Seleo

A partir das definies sobre o conjunto de dados que seria utilizado, o trabalho de
seleo se constituiu em um esforo para coletar o conjunto de registros necessrios a partir
das tabelas relacionais dos Sistemas de Fomento, da Plataforma Lattes e da base de alunos
titulados da CAPES.
Do sistema de controle das operaes de Fomento do CNPq foram extradas as
informaes a respeito das bolsas de PIBIC concedidas no perodo de 1994 a 1999. Estes
dados

foram

coletados

ORIENTADORES_PROCESSOS.

partir

das

tabelas

relacionais

PROCESSOS

107
Das tabelas relacionais do Currculo Lattes foram retiradas as informaes pessoais
dos orientadores envolvidos com as bolsas de PIBIC.
Da tabela relacional ALUNOS_TITULADOS_CAPES foram retiradas as informaes
sobre os estudantes que obtiveram titulao stricto sensu no perodo de 1996 a 2002. Estas
datas foram definidas seguindo a orientao inicial de utilizar o tempo mnimo de dois anos
aps a concluso do curso de graduao pelo aluno beneficirio de bolsas do PIBIC como
referncia para o ingresso e concluso de programas de ps-graduao.
Das tabelas do Diretrio de Instituies foram retiradas informaes sobre as instituies
relacionadas aos orientadores e alunos de PIBIC.
Ao fim desta etapa, obteve-se como resultado um conjunto de tabelas populadas com
os recortes de informaes correspondentes das tabelas originais. A seguir, um resumo da
quantidade de registros contemplados:

Tabela 6: quantidade de processos de IC por ano


ANO

QUANTIDADE DE PROCESSO DE INICIAO CIENTFICA

1996

13.963

1997

15.433

1998

16.902

1999

16.555

2000

16.403

2001

18.045

2002

17.645

2003

15.506

TOTAL

130.452

A seguir, foram obtidas as informaes da CAPES sobre os alunos titulados stricto


sensu, no perodo de 1996 a 2002. A seguir, a distribuio por ano dos registros selecionados:

108

Tabela 7: Quantidade de alunos titulados por ano


ANO

QUANTIDADE DE ALUNOS TITULADOS

1996

13.509

1997

15.637

1998

16.745

1999

20.243

2000

23.724

2002

45.503

TOTAL

135.361

3.4.2.2

Pr-processamento

A partir dos dados obtidos na etapa de seleo, foram geradas tabelas de trabalho com
as informaes necessrias ao estudo de caso. Estas tabelas contm as informaes de
detalhes dos processos de PIBIC, os cdigos dos orientadores e alunos, as informaes
curriculares dos orientadores, enfim, os dados necessrios para a montagem dos arquivos de
entrada para a ferramenta de minerao de dados.
Como o foco inicial no orientador, os dados foram organizados e modelados
considerando o cdigo do orientador como chave principal. Este formato viria a facilitar as
etapas posteriores de transformao e minerao de dados.
Uma das atividades desta etapa a seleo de colunas das tabelas principais. Para a
gerao das tabelas de trabalho, foram selecionadas apenas as colunas que traziam as
informaes consideradas necessrias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados trabalhados, com reflexos positivos no tempo de processamento.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de rudo, ou seja, alguma inconsistncia. Foram encontrados alguns
registros com datas incoerentes, mas, em geral, a qualidade dos dados de entrada foi
considerada satisfatria. Esta boa qualidade dos dados decorreu da utilizao de restries de
entrada implementadas tanto no nvel do banco de dados quanto no nvel da aplicao,
diminuindo consideravelmente a necessidade de aplicao de algoritmos para a reduo de
rudos nesta etapa.

109
Nesta etapa foi ainda realizado um trabalho para identificar os bolsistas do programa
de bolsa de iniciao cientfica que constavam da base de titulados da CAPES. Como as bases
de dados do CNPq e da CAPES no so originalmente integradas , foi necessrio utilizar de
algoritmos de comparao textual para incrementar a qualidade da pesquisa. O primeiro passo
foi efetuar uma pesquisa a partir do nome dos alunos. Para aumentar o nmero de acertos, foi
utilizada uma rotina para eliminar caracteres especiais e excessos de espaos das colunas de
nome nas tabelas envolvidas. A seguir, todos os nomes tiveram seus caracteres transformados
em letras maisculas.
Para evitar problemas com homnimos, foi utilizada a coluna da tabela da CAPES que
traz informaes sobre um documento de identificao do aluno, utilizando esta para
comparar com as informaes armazenadas na base de dados do CNPq. Ao final deste
trabalho, foram identificados 7.325 ex-bolsistas do programa de bolsas de iniciao cientfica
que constavam da base de dados de alunos titulados da CAPES.

Tabela 8: Ex-bolsistas PIBIC titulados stricto sensu


ANO

3.4.2.3

EX-BOLSISTAS TITULADOS

1996

127

1997

180

1998

485

1999

1.158

2000

2.007

2002

3.368

TOTAL

7.325

Transformao

Uma vez escolhidas as tabelas e as colunas necessrias para o estudo a ser realizado,
fez-se necessrio efetuar uma srie de alteraes nos dados, tanto na sua forma de
apresentao quanto no contedo de algumas colunas. Foram realizadas:
a) Totalizaes por orientador: para utilizao da ferramenta de minerao de dados,
foi necessrio transformar informaes sobre a produo cientfica e tecnolgica
em colunas que representam quantidade. As tabelas originais, segundo sua
modelagem, armazenam um registro para cada produo cadastrada. Este formato

110
no adequado para servir de entrada para os algoritmos de minerao. Assim,
fez-se necessrio criar colunas especficas para os tipos de produo que seriam
considerados, e armazenar nestas colunas os totais de trabalhos publicados. Para
isso, foram utilizadas rotinas escritas na linguagem PLSQL e executadas no banco
de dados onde estavam armazenadas as tabelas temporrias. Estes totais foram
obtidos a partir dos seguintes tipos de trabalho:
a.1. Produo artstica e cultural
a.2. Artigos publicados
a.3. Livros publicados
a.4. Captulos de livros publicados
a.5. Dissertaes orientadas
a.6. Teses orientadas
b) Substituio de valores para torn-los compatveis entre si: foi necessrio realizar
alteraes no contedo de algumas colunas para compatibilizar os seus valores.
Por exemplo: algumas datas estavam no formato DD/MM/AAAA, enquanto outras
foram armazenadas como campos texto no formato dd-mm-aa. Foram ento
utilizadas rotinas escritas em linguagem PLSQL e executadas no banco de dados
para a adequao destes valores.
c) Discretizao de variveis11: para a utilizao dos algoritmos de minerao de
dados, foi necessrio efetuar um trabalho de discretizao de variveis, onde
valores de domnios que apresentam um conjunto muito elevado de valores foram
transformados em faixas especficas. Por exemplo: a coluna idade, obtida
inicialmente pela aplicao de um clculo a partir da data de nascimento
armazenada, foi transformada em um nmero que representa sua posio em uma
faixa de valores. Assim, foram criadas inicialmente quatro faixas para representar
a idade do orientador:
c.1. Menor que 40 anos
c.2. Entre 40 e 50 anos
c.3. Entre 50 e 60 anos

11

Discretizao de variveis: processo que consiste em estabelecer faixas de valores para itens excessivamente

granulares.

111
c.4. Maior que 60 anos
d) Transformaes e filtros de caracteres: foi necessrio utilizar rotinas para efetuar
algumas transformaes em campos de natureza textual, para aumentar a eficincia
dos algoritmos de minerao que seriam posteriormente utilizados. Destas colunas
foram retirados os caracteres especiais, os espaos em excesso, todos os caracteres
alfabticos foram transformados em letras maisculas. Este processo foi realizado
atravs da aplicao de rotinas escritas na linguagem PLSQL e executadas no
banco de dados onde se encontravam armazenadas as tabelas temporrias.
Para que a ferramenta de minerao de dados pudesse ser utilizada, foi necessrio
preparar um conjunto de arquivos no formato indicado pelo WEKA. Para tal, as tabelas
relacionais utilizadas foram consolidadas em um modelo desnormalizado, onde um registro
contm todas as informaes totalizadas de um determinado orientador.
Abaixo, um exemplo de arquivo gerado para a ferramenta WEKA:
@RELATION Orientadores_0015
@ATTRIBUTE COD_RH_ORIENTADOR NUMERIC
@ATTRIBUTE STA_CURRICULO {S,N}
@ATTRIBUTE TIT_MAXIMA {Graduacao,Especializacao,Mestrado,Doutorado,Posdoutorado,Livre-docencia,Nivel_tecnico}
@ATTRIBUTE ANOS_TITULACAO NUMERIC
@ATTRIBUTE IDADE NUMERIC
@ATTRIBUTE SEXO {M,F}
@ATTRIBUTE FAIXA_IDADE {<40,40-50,50-60,>60}
@ATTRIBUTE QTD_ORIENT_TOTAL NUMERIC
@ATTRIBUTE QTD_ORIENT_TITUL NUMERIC
@ATTRIBUTE PRD_ART_COMP NUMERIC
@ATTRIBUTE PRD_TRB_PUBL NUMERIC
@ATTRIBUTE PRD_LVR_PUBL NUMERIC
@ATTRIBUTE PRD_LVR_CAPT NUMERIC
@ATTRIBUTE PRD_ORT_DISS NUMERIC
@ATTRIBUTE PRD_ORT_TESE NUMERIC
@ATTRIBUTE PERC_ORIENT_TITUL NUMERIC
@ATTRIBUTE FAIXA_TITUL_TOTAL {0,1,2,3,4,5,6,7,8,9}
@ATTRIBUTE FAIXA_ORIENT_TOTAL {1,2,3,4,5,6,7,8,9}
@ATTRIBUTE FAIXA_ANOS_TITUL {1-10,10-20,20-30,30-40,40-50,50-60,<1}
@ATTRIBUTE CLASSE {BM,FR,OT}
@data
0000849502,N,Nivel_tecnico,999,43,M,40-50,9,1,0,0,0,0,0,0,10,1,6,?,BM
0000858587,N,Nivel_tecnico,999,55,M,50-60,4,0,0,0,0,0,0,0,0,0,4,?,FR
0000009890,S,Pos-doutorado,4,53,F,50-60,4,0,1,1,1,5,2,0,0,0,4,1-10,FR
0000088129,S,Doutorado,3,54,F,50-60,8,0,1,8,0,4,1,0,0,0,6,1-10,OT
0000088137,S,Doutorado,23,57,M,50-60,13,2,0,14,1,0,12,0,10,2,7,20-30,BM

Figura 22: arquivo de entrada para o WEKA

112
Esta etapa demandou um considervel esforo, uma vez que foram necessrias
sucessivas operaes de transformao de dados. Ao final desta, obteve-se como resultado as
tabelas temporrias carregadas e transformadas e os arquivos de entrada do WEKA gerados.

3.4.2.4

Minerao de Dados

Uma vez que a base de dados estava consolidada e preparada para gerar os arquivos no
formato do aplicativo que seria utilizado para a minerao de dados, passou-se etapa de
minerao propriamente dita.
Para tal, foi necessrio gerar um arquivo no formato definido pela ferramenta, onde
cada registro contm informaes consolidadas do fato que se deseja estudar. Como o foco da
pesquisa orientador de iniciao cientfica, os registros foram agrupados pela chave do
orientador.
A partir dos dados consolidados, utilizou-se o aplicativo WEKA para realizar diversas
sesses de minerao de dados. Foi escolhido o algoritmo de classificao J48, que gera
rvores de deciso, utilizadas para o processo de classificao das informaes.

3.4.2.5

Interpretao e avaliao

Aps a etapa de minerao, Fayyad [FAYYA96] prope uma etapa onde o produto
final interpretado e avaliado com o objetivo de identificar os resultados potencialmente teis
para a organizao.
Por questes de organizao deste trabalho, esse assunto ser tratado no captulo
seguinte.

3.4.3 Descoberta de Conhecimento em Textos


Para este estudo de caso, foi realizada uma anlise da produo cientfica e
tecnolgica dos docentes do programa MGCTI Mestrado em Gesto do Conhecimento e da
Tecnologia da Informao da Universidade Catlica de Braslia, a partir das informaes
cadastradas no Currculo Lattes, com o objetivo de identificar as linhas de pesquisa destes
docentes. A partir desta identificao, gerar conhecimento organizacional para ser utilizado na
gerao de polticas de gesto do referido programa.

113
As informaes necessrias para a conduo do estudo de caso foram obtidas da base
de dados do Currculo Lattes, e da base de dados do sistema de controle de recursos humanos
da Universidade Catlica de Braslia.
Os dados originais do Currculo Lattes se encontravam armazenados em bases de
dados relacionais Oracle 8i, instaladas em servidores Sun Microsystems.
As ferramentas utilizadas para a extrao e manipulao dos dados foram:
a) Oracle SQL*PLUS
b) Linguagem de programao Oracle PLSQL
c) Editor de textos vi
d) Planilha Microsoft Excel
e) Aplicativo de minerao de texto Eurekha
O estudo de caso foi delimitado a partir de algumas consideraes sobre os dados
armazenados e seus perodos de coleta e processamento, conforme segue:
f) As informaes sobre a produo cientfica e tecnolgica de cada docente foram
extradas da base de dados de currculos da Plataforma Lattes. Assim, somente os
itens de produo que se encontravam cadastrados naquela base de dados na data
da coleta foram considerados.
g) Foram consideradas as datas de publicao de cada trabalho, para fins de
identificao da produo realizada pelo docente enquanto pertencente aos quadros
da Universidade Catlica de Braslia.
Foi utilizada a metodologia para Descoberta de Conhecimento em Textos adaptada da
metodologia de Descoberta de Conhecimento em Bases de Dados proposta por Fayyad
[FAYYA96]. A seguir, sero apresentadas as atividades executadas em cada uma das etapas
da referida metodologia.

3.4.3.1

Seleo

A partir das definies sobre o conjunto de dados que seria utilizado, o trabalho de
seleo se constituiu em um esforo para coletar o conjunto de registros necessrios a partir
das tabelas relacionais do Currculo Lattes, bem como obter as informaes institucionais
necessrias sobre os docentes a partir de consultas ao setor de administrao de pessoal da
Universidade Catlica de Braslia.

114
Do Currculo Lattes foram extradas as informaes sobre a produo cientfica e
tecnolgica dos envolvidos na pesquisa. A partir da relao de nomes dos docentes do
MGCTI, foram executadas rotinas de extrao de dados sobre a base do Currculo Lattes, com
a gerao de tabelas de trabalho que passaram a armazenar o conjunto de registros que dizia
respeito s informaes curriculares e produo de cada docente. As ferramentas utilizadas
nesta etapa foram:
a) Oracle SQL*PLUS: interface de acesso ao banco de dados
b) Comandos SQL
c) Linguagem PLSQL

Da Universidade Catlica, foram levantadas informaes sobre a data de ingresso de


cada docente no programa MGCTI, informaes estas obtidas atravs de uma solicitao
secretaria deste programa, que por sua vez obteve os dados do setor responsvel pela
administrao de pessoal.
Ao fim desta etapa, obteve-se como resultado um conjunto de tabelas de trabalho
populadas com os recortes de informaes correspondentes das tabelas originais. Abaixo, um
resumo da quantidade de registros contemplados:

Tabela 9: Quantidades de registros de docentes e produo


ITEM

QUANTIDADE

Docentes

TABELA

22 DOCENTES

Produo Cientfica e Tecnolgica

1.341 PRODUCAO_CIENTIF_TECNOL

Palavras-chave

1.007 PLV_CHAVE

3.4.3.2

Pr-processamento

A partir dos dados obtidos na etapa de seleo, foram geradas tabelas de trabalho com
as informaes necessrias ao estudo de caso. Estas tabelas contm as informaes
curriculares dos orientadores, e detalhes sobre a sua produo cientfica e tecnolgica, dados
necessrios para a montagem dos arquivos de entrada para a ferramenta de minerao de
texto.

115
Uma das atividades desta etapa a seleo de colunas das tabelas principais. As
tabelas de trabalho foram reestruturadas, mantendo somente as colunas que traziam as
informaes consideradas necessrias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados manuseado, com reflexos positivos no tempo de processamento e
na complexidade do conjunto de informaes tratado.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de rudo, ou seja, alguma inconsistncia. Em geral, a qualidade de
dos dados de entrada foi considerada satisfatria. Esta boa qualidade dos dados decorreu da
utilizao, pelos sistemas de origem, de restries de entrada implementadas tanto no nvel do
banco de dados quanto no nvel da aplicao, diminuindo a necessidade de aplicao de
algoritmos para a reduo de rudos.
Outras tarefas cumpridas nesta etapa:
a) Formatao para preparar os documentos com um nico padro: a entrada de
dados para a ferramenta Eurekha, utilizada na etapa de minerao de textos, so
arquivos textuais, sem a necessidade de uma estruturao prvia. Assim, os dados
que seriam utilizados foram formatados nas tabelas de trabalho de maneira a
facilitar a gerao destes arquivos de texto.
b) Eliminao de linhas e caracteres de controle: os arquivos de texto foram gerados a
partir das tabelas de trabalho sem a existncia de caracteres de controle, exceto o
caractere de fim de linha. Outros controles, como definio de pargrafos, tabelas,
tabulaes, entre outros, no foram utilizados.
c) Criao de uma lista de palavras negativas: com o objetivo de remover dos textos
gerados palavras que no agregam significado especial, foram geradas listas de
palavras negativas (stop words), e acrescentadas ao conjunto de listas de palavras
negativas j existentes no Eurekha. Estas novas listas geradas dizem respeito ao
conjunto de dados pesquisado, e foram identificadas tanto anteriormente primeira
execuo das rotinas de minerao de texto, quanto incrementadas aps a obteno
dos primeiros resultados. Como o processo Descoberta de Conhecimento em
Textos cclico, aps cada execuo das tarefas de agrupamento procurava-se
identificar novas palavras candidatas listas de palavras negativas, buscando
evidenciar o conjunto de palavras que realmente poderia acrescentar sentido ao
conjunto de textos pesquisado. A seguir, so relacionadas as principais palavras
negativas identificadas:

116

Tabela 10: Lista de palavras negativas


A
ANO
APLICACAO
ATRAVES
AVALIACAO
BASEADO
BR
BRASIL
BRASILEIRA
BRASILEIRO
BRS
CARACTERISTICA
CARACTERISTICAS
CASO
DATA
DESENVOLVIMENTO
DF
DIFERENTE
DISTRITO
DURANTE

EMBRAPA
EN
ENTRE
ESPECIE
ESTADO
ESTUDO
FEDERAL
FOI
FUNCAO
GO
HA
III
INTERNACIONAL
MEDICO
MG
MODELO
PERIODO
PROBLEMA
PROBLEMAS
PROCESS

PRODUCAO
PROJETO
PROJETOS
PROPOSTA
REGIAO
SANTOS
SAO
SERVICO
SISTEMA
SISTEMAS
SOFTWARE
SP
SUA
SUAS
TAMBEM
TESTE
UCB
USO
UTILIZACAO
UTILIZANDO

Ao final desta etapa, obteve-se um conjunto de tabelas de trabalho que contavam


somente com as colunas necessrias para a pesquisa.

3.4.3.3

Transformao

Com o objetivo de tornar os textos que seriam gerados mais adequados para o
processamento posterior de minerao, os registros das tabelas de trabalho foram submetidos
a alguns processos de transformao, conforme segue:
a) Adaptao do vocabulrio: esta tarefa teve como objetivo a substituio de
palavras semelhantes, ou de mesmo significado, por um nico termo que
representasse o significado de todas elas. Este processo tem conseqncias diretas
no tempo de processamento e na qualidade dos grupos formados, uma vez que
aumenta a repetio de uma determinada palavra que expressa o significado de
todas as que foram substitudas, reduzindo o universo de palavras tratadas, bem
como passando a ter um peso maior na identificao dos grupos. Para viabilizar
esta tarefa foi construda uma rotina no banco de dados, composta por uma tabela

117
de apoio e rotinas de programao escritas na linguagem PLSQL. A partir das
tabelas de trabalho que armazenavam os campos textuais que representavam os
ttulos da produo cientfica e tecnolgica de cada docente, bem como as
palavras-chaves a ela relacionadas, estas rotinas foram executadas substituindo-se
as palavras que constavam da lista armazenada na tabela de sinnimos. Este
processo se repetiu vrias vezes, devido a caracterstica cclica dos processos de
Descoberta de Conhecimento, onde, aps cada execuo do aplicativo de
minerao de textos, eram identificadas mais algumas palavras candidatas lista
de sinnimos.
b) Eliminao de diferenas morfolgicas de determinadas palavras: segundo o
que props Hwee [NG97], podem ser utilizadas tcnicas que identificam os
radicais das palavras, buscando uma maior unificao dos termos utilizados pela
substituio de variaes morfolgicas da uma mesma palavra pelo seu radical.
Uma aplicao mais generalizada destas tcnicas no foi a opo adotada neste
estudo de caso, uma vez que o tempo de processamento para este tipo de tarefa
relevante, bem como existe uma necessidade de constituio ou utilizao de uma
extensa base de palavras e seus radicais. Entretanto, foi utilizada a mesma
estrutura criada para o tratamento dos sinnimos para a substituio de alguns
termos que causavam um certo desvio na gerao dos agrupamentos. Estes termos
foram identificados aps cada execuo do aplicativo de minerao de textos, e
passavam a integrar a lista de sinnimos armazenada na referida tabela de apoio.
c) Eliminao de caracteres especiais: este processo tem por objetivo tornar mais
simples o conjunto de palavras considerado. Atravs da eliminao de caracteres
especiais, e da substituio de caracteres que representam a acentuao
caracterstica no conjunto de caracteres que compe as lnguas latinas por seus
correspondentes sem acentuao, obteve-se um conjunto de palavras mais similar.
Outro beneficio obtido foi a correo de algumas palavras grafadas incorretamente
em conseqncia da utilizao equivocada de caracteres acentuados. Para realizar
esta tarefa foram utilizadas rotinas escritas na linguagem de programao PLSQL,
e aplicadas sobre as tabelas de trabalho armazenadas no banco de dados.
d) Transformao de todos os caracteres para um mesmo padro quanto
utilizao de letras maisculas e minsculas: todos os termos utilizados para a
gerao dos arquivos para a ferramenta de minerao de textos teve seu conjunto

118
de caracteres transformados para caracteres maisculos. Assim,uma mesma
palavra no corre o risco de ser considerada em grupos distintos por diferenas de
tipo de grafia em caixa alta ou caixa baixa. Estas rotinas tambm foram escritas em
linguagem de programao PLSQL e aplicadas sobre as tabelas de trabalho
armazenadas no banco de dados.
Aps a execuo das rotinas de transformao acima citadas, as tabelas de trabalho
encontravam-se prontas para permitir a gerao dos arquivos de texto que foram utilizados
como entrada para a ferramenta de minerao de textos.
Para facilitar a identificao dos membros dos agrupamentos que seriam gerados, foi
criado um arquivo textual para cada docente, contendo os ttulos de sua produo cientfica e
tecnolgica e as palavras-chave relacionadas.

3.4.3.4

Minerao de Texto

O objetivo deste estudo verificar a possibilidade de agrupamentos de docentes a


partir de sua produo cientfica e tecnolgica, para a identificao de linhas de pesquisa
comuns. Uma diretiva utilizada foi a fixao da pesquisa durante o perodo em que o docente
passou a ser colaborador do programa MGCTI, justamente buscando identificar as linhas de
produo enquanto vinculado ao referido programa.
Outra diretiva foi a observao da evoluo do grupo no tempo. Como o programa
MGCTI foi iniciado em 1998, este foi o ano inicial definido para a de coleta dos dados. Foram
estabelecidos quatro perodos para a avaliao: os binios 1998/1999, 2000/2001, o perodo
de 2002 a 2004 e o perodo total de 1998 a 2004. Entretanto, necessrio registrar que, do ano
de 2004, foram utilizados apenas os trs primeiros meses.
Para as tarefas de minerao de texto foi utilizada a ferramenta Eurekha, descrita no
segundo captulo deste trabalho.
Os principais passos para a gerao de agrupamentos pelo Eurekha foram:

Criao de projeto
Criao de um novo projeto na tela inicial da ferramenta, ou a abertura de um projeto
criado anteriormente.

119

Figura 23: Eurekha Novo Projeto/Abrir Projeto

Adio dos arquivos


Adicionar o conjunto de arquivos que ser avaliado. Ser solicitada a localizao dos
arquivos que sero utilizados pelo Eurekha para a realizao dos agrupamentos. Estes
arquivos podem ser do formato texto, html ou arquivos-fonte das linguagens C e Pascal.
Para este estudo de caso foram utilizados arquivos no formato texto livre, gerados a partir das
tabelas de trabalho do banco de dados. A seguir, a tela utilizada para adicionar arquivos.

120

Figura 24: Eurekha adicionar arquivos

Definio das palavras negativas


Escolher as listas de palavras negativas (stop words). Podem ainda ser criadas novas
listas de palavras negativas, e utilizadas em conjunto com as listas previamente fornecidas
pela ferramenta. Para este estudo de caso foi criada a lista Currculo_001, com o conjunto
de palavras negativas identificadas na etapa de pr-processamento. A seguir, uma figura que
ilustra a utilizao de listas de palavras negativas.

121

Figura 25: Eurekha listas de palavras negativas

Identificao dos relacionamentos


Acionar o boto Identificar relacionamentos, para executar a primeira fase do
processo de agrupamento. Esta etapa pode ser bastante demorada, dependendo do volume de
texto presente nos arquivos selecionados.

122

Figura 26: Eurekha identificar relacionamentos

Identificao dos grupos


Esta etapa constituda de duas fases: na primeira, deve-se acionar o boto
Visualizar grupos, para verificar os agrupamentos identificados. Ser aberta outra janela do
Eurekha com a relao dos agrupamentos identificados.

123

Figura 27: Eurekha visualizar grupos

A seguir, escolher o algoritmo que ser utilizado para o agrupamento, o coeficiente de


similaridade desejado e acionar o boto Reagrupar.
Para este estudo de caso, foi escolhido o algoritmo Best Star. Segundo Wives
[WIVES99], este algoritmo foi desenvolvido com o objetivo de solucionar o problema do
algoritmo stars, que atribui um objeto ao primeiro grupo cujo grau de similaridade satisfaa a
restrio do grau mnimo. Esta situao no desejada neste estudo de caso, porque podem
existir grupos onde o objeto teria um grau de afinidade maior.
Assim, no algoritmo Best Star, os objetos identificados como sendo mais similares a
um determinado grupo, mesmo que j agrupados, so reorganizados e atribudos ao grupo de
maior afinidade.
Outra vantagem deste algoritmo diz respeito ao fato de identificar uma relao mais
natural entre os objetos, elaborando grupos mais coerentes com a realidade, uma vez que os
objetos so colocados automaticamente no grupo com o qual possui relao mais forte.
A partir de testes realizados com os outros algoritmos, verificou-se que o Best Star era
realmente o mais indicado, uma vez que foi a escolha que permitia a gerao de grupos mais
coesos e uma quantidade menor de grupos unitrios.

124
O coeficiente de sensibilidade tambm foi avaliado, e o melhor valor de ajuste foi
coloc-lo na posio inicial. Isso se explica pela caracterstica dos arquivos de entrada,
constitudos de um nmero relativamente pequeno de palavras. Para arquivos com essa
caracterstica, o coeficiente de similaridade, no caso de utilizao do algoritmo Best Star,
apresenta melhores resultados se ajustado para a posio inicial, que significa a aceitao de
uma distncia proporcionalmente maior entre os termos identificados. Caso este coeficiente
seja aumentado, o nmero de grupos unitrios aumenta diretamente, o que no desejvel.

Figura 28: Eurekha reagrupar

Identificao de necessidade de ajustes e re-processamento.


Aps a avaliao dos grupos gerados, deve ser verificada a necessidade de realizar
alteraes nos arquivos de entrada que possam aprimorar a qualidade dos agrupamentos
gerados, e re-executar todo o processo, se for o caso.
A seguir, sero apresentadas as tarefas executadas para a avaliao dos quatro
perodos acima mencionados:

Primeiro perodo 1998 a 1999


Cinco dos atuais professores do MGCTI que se encontravam vinculados ao programa
neste perodo registraram produo no Currculo Lattes. Foram utilizadas as informaes de

125
sua produo cientfica e tecnolgica cadastradas no Currculo Lattes com data entre 1998 e
1999, extradas da base de dados de trabalho, a qual representa os resultados das etapas
anteriores de seleo, pr-processamento e transformao.
Depois de todos os ajustes considerados necessrios, como adequao do dicionrio de
sinnimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:

Figura 29: Agrupamento 1998/1999

Segundo perodo 2000 a 2001


Oito dos atuais professores do MGCTI que se encontravam vinculados ao programa
neste perodo registraram produo no Currculo Lattes. Foram utilizadas as informaes de
sua produo cientfica e tecnolgica cadastradas no Currculo Lattes com data entre 2000 e
2001, extradas da base de dados de trabalho, a qual representa os resultados das etapas
anteriores de seleo, pr-processamento e transformao.
Depois de todos os ajustes considerados necessrios, como adequao do dicionrio de
sinnimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:

126

Figura 30: Agrupamento 2000/2001

Terceiro perodo 2004 a maro de 2004


Dezesseis dos atuais professores do MGCTI que se encontravam vinculados ao
programa neste perodo registraram produo no Currculo Lattes. Foram utilizadas as
informaes de sua produo cientfica e tecnolgica cadastradas no Currculo Lattes com
data entre 2002 a 2004, extradas da base de dados de trabalho, a qual representa os resultados
das etapas anteriores de seleo, pr-processamento e transformao.
Depois de todos os ajustes considerados necessrios, como adequao do dicionrio de
sinnimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:

127

Figura 31: Agrupamento 2002 a 2004

Quarto perodo 1998 a maro de 2004


Foram utilizadas as informaes de sua produo cientfica e tecnolgica cadastradas
no Currculo Lattes com data entre 1998 e maro de 2004, extradas da base de dados de
trabalho, a qual representa os resultados das etapas anteriores de seleo, pr-processamento e
transformao.
Depois de todos os ajustes considerados necessrios, como adequao do dicionrio de
sinnimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:

128

Figura 32: Agrupamento 1998 a maro de 2004

3.4.3.5

Interpretao e avaliao

Esta etapa de interpretao e avaliao dos resultados da minerao de texto


normalmente realizada em conjunto com especialistas no assunto tratado, com o objetivo de
identificar resultados significativos e teis para a organizao.
Este trabalho feito normalmente a partir da experincia pessoal dos especialistas,
sem a utilizao de um mtodo especfico para este fim.
Neste estudo de caso, ser proposta a utilizao de um mtodo para esta etapa, no
sentido de facilitar o trabalho dos profissionais diretamente envolvidos com as tarefas de
interpretao e avaliao.
Este mtodo corresponde a uma adaptao dos estudos de Flores, que props uma
Ontologia da Linguagem, descrita sumariamente no segundo captulo deste trabalho.
A partir de juzos estabelecidos durante o processo de Descoberta de Conhecimento
em Texto, nesta etapa sero utilizados os mecanismos propostos de se identificar, a respeito
destes juzos:
a) Os propsitos
b) Os domnios
c) As afirmaes de suporte

129
d) Os padres de julgamento
Avaliados luz destes itens, os resultados das etapas anteriores de Descoberta de
Conhecimento podem constituir-se em novos conhecimentos organizacionais devidamente
constitudos, resultados de uma anlise sistemtica.
Os resultados desta etapa sero tratados no Captulo 4.

130

CAPTULO 4

4 ANLISE DOS RESULTADOS


4.1 Estudo de caso: perfil do orientador do PIBIC
Com o objetivo de exemplificar o potencial de gerao de conhecimento
organizacional da Plataforma Lattes, preparou-se, seguindo as metodologias citadas
anteriormente, um estudo preliminar sobre a definio do perfil de orientadores do PIBIC
Programa Institucional de Bolsa de Iniciao Cientfica.

4.1.1 Resultados da Minerao de Dados


Aps as vrias sesses de minerao de dados executadas, o resultado obtido foi
pouco satisfatrio. Em funo da base de orientadores ser muito pulverizada cada orientador
teve poucos bolsistas, e poucos destes bolsistas j obtiveram titulao stricto sensu o
algoritmo de classificao no conseguiu estabelecer um conjunto de regras que apresentasse
utilidade prtica. A maioria dos resultados apresentou somente classificaes bvias, e pouco
relevantes. Alm disso, o fator de certeza da maioria das regras geradas foi menor que 50%.
Entretanto, apesar de insatisfatrio do ponto de vista da Minerao de Dados,
constatou-se um ganho em termos de conhecimento organizacional dado pela reviso das
premissas em que o especialista se orientou para definir o problema. O estudo permitiu que
fosse verificado que no poderia ser estabelecido como medida de sucesso de uma orientao
em iniciao cientfica o fato de o indivduo concluir um programa de mestrado, contando
somente com as informaes armazenadas.
Apesar das diversas sesses de minerao de dados no terem apresentado padres
novos e com elevado fator de certeza, o processo de DCBD, nas fases anteriores, foi relevante
para a descoberta de conhecimento. A partir do manuseio dos dados e informaes, das
transformaes realizadas, e do prprio resultado da minerao de dados, passou-se a

131
conhecer com maior profundidade o conjunto de informaes que se tem disponvel sobre os
bolsistas, sobre os orientadores e sobre o processo de concesso de bolsas de uma maneira
geral.
A partir destes novos conhecimentos adquiridos no decorrer do processo, foi possvel
obter outros resultados, descritos a seguir:

4.1.2 Resultados finais


A gerao de conhecimento em DCBD pode acontecer em todas as etapas, e no
somente na Minerao de Dados. No estudo preliminar realizado, as etapas iniciais de
seleo, pr-processamento e transformao j forneceram informaes relevantes.
Como o objetivo deste estudo preliminar identificar um perfil dos orientadores de
iniciao cientfica, selecionou-se um conjunto de dados sobre bolsistas que pudesse ser
confrontado com a base de dados sobre titulados em cursos de mestrado e doutorado da
CAPES. Assim, a orientao inicial era identificar os alunos que participaram do programa do
PIBIC e que posteriormente obtiveram titulao stricto sensu. Optou-se, ento, por selecionar
dados dos bolsistas de iniciao cientfica no perodo de 1994 a 1999, considerando o tempo
mdio para a concluso de programas de mestrado e o posterior cadastramento destas
informaes na base de dados da CAPES.
Neste perodo, passaram pelo programa PIBIC aproximadamente 45 mil alunos, sendo
orientados por aproximadamente 19 mil docentes. O grfico a seguir mostra a distribuio da
quantidade de bolsistas por orientador.
Bolsistas por orientador
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0

1000
1

2000
3

Orientadores 7422 5037 2865 1813

Figura 33: bolsistas por orientador

3000

4000

5000

6000

7000

8000

10

11

12

13

14

981

586

345

197

89

53

27

13

132
Verificou-se que a maioria dos orientadores trabalhou com apenas um orientando
neste perodo. Assim, para eliminar distores causadas por pequenas quantidades, optou-se
por trabalhar apenas com o grupo que orientou cinco ou mais alunos.
Este grupo de aproximadamente 2.300 docentes orientou aproximadamente quinze mil
alunos uma mdia de 7,2 alunos por orientador, enquanto os outros 16.700 docentes
orientaram aproximadamente 30.000 alunos, uma mdia de 1,7 alunos por orientador. Existe
uma pequena distoro nestes valores, provocada pelo fato de um aluno eventualmente ter
sido orientado por mais de um docente ao longo de sua formao.

35000
30000
25000
20000

Orientadores

15000

Bolsistas

10000
5000
0
1

Figura 34: grupos de bolsistas por orientador

Utilizou-se, ento, o conjunto de orientadores com maior percentual de bolsistas,


como base de entrada para a definio de perfil. Deste grupo, verificou-se a quantidade de
alunos orientados que posteriormente obtiveram titulao stricto sensu. Observou-se que, do
conjunto de 2.313 orientadores, 1.073 no tiveram nenhum aluno titulado. Abaixo, um grfico
com essa variao.

133

Alunos titulados

Quantidade de Alunos Titulados por Orientador

6
4
2
0
0

Qtd. Orientadores

100

200

300

400

500

600

700

800

900 1000 1100

1073

673

363

136

50

12

Figura 35: alunos titulados por orientador

Selecionou-se, ento, os orientadores que tiveram alunos titulados em programas


stricto sensu, e, a partir deste conjunto, obteve-se um perfil inicial do orientador de PIBIC
com ndices de sucesso. A seguir, as caractersticas deste perfil:

134
Orientadores por sexo

Orientadores por tem po de titulao


17%

25%
41%

01-10

42%

75%

Feminio

10-20

Masculino

20- 30

Orientadores por faixa de idade

Orientadores por form ao

34%

42%

66%

58%

Dout orado

40-50

Pos-dout orado

50-60

Orientadores por tipo de instituio

Tipo de produo cientfica


14%

27%
42%
19%

5%
3%

73%

17%
Est adual
Federal

Artigo
Trabalhos em eventos
Livro publicado
Capit ulo de livro
Orient aao - dissertao
Orient ao - t ese

Figura 36: resumo do perfil do orientador

4.2 Estudo de caso: agrupamento de docentes


Neste estudo de caso, procurou-se utilizar as informaes curriculares dos docentes do
programa MGCTI - Mestrado em Gesto do Conhecimento e da Tecnologia da Informao da
Universidade Catlica de Braslia para gerar agrupamentos que pudessem contribuir para a
identificao das linhas de pesquisa que poderiam ser relacionadas ao programa.
Para a avaliao dos resultados, buscou-se a utilizao de conceitos ligados
ontologia da linguagem, qual foi feita referncia no segundo captulo deste trabalho.

135

4.2.1 Resultados da Minerao de Texto


Aps a execuo de todas as fases propostas pela metodologia adaptada da proposta de
Fayyad [FAYYA96], procurou-se verificar quais resultados poderiam ser aproveitados para a
gerao de conhecimento organizacional.

4.2.1.1

Seleo dos resultados da minerao de texto

Foi avaliada a produo cientfica e tecnolgica dos docentes em quatro perodos: de


1998 a 1999, de 2000 a 2001, de 2002 a 2004 e no perodo total de 1998 a 2004, que
corresponde ao perodo de existncia do programa MGCTI. Foram utilizadas as informaes
de sua produo cientfica e tecnolgica cadastradas no Currculo Lattes, extradas da base de
dados de trabalho, a qual representa os resultados das etapas anteriores de seleo, prprocessamento e transformao.
No primeiro perodo, cinco dos atuais professores do MGCTI que se encontravam
vinculados ao programa registraram informaes de seus trabalhos no Currculo Lattes. No
segundo perodo, este nmero foi de oito professores. No terceiro perodo foram encontrados
registros de dezesseis professores. No quarto perodo, que compreendeu todo o tempo de
existncia do programa (1998 a 2004), foram processados registros de dezoito professores.
Depois de todos os ajustes considerados necessrios, como a adequao do dicionrio de
sinnimos e das listas de palavras negativas12, foram obtidos os seguintes resultados:
No primeiro perodo foram identificados dois agrupamentos, caracterizados pelos
centrides13 (i) {inteligente, neural, modelo} e (ii) {gesto, construo, competncias,
estratgia}. O primeiro agrupamento est mais relacionado com temas como DCBD e
Inteligncia Artificial, ou seja, Tecnologia da Informao. O segundo est mais relacionado
com a Gesto do Conhecimento.
No segundo perodo foi identificado um agrupamento, pelos centrides {informao,
neural, modelo, desenvolvimento}, indicando temas mais relacionados Tecnologia da
Informao. O vis da Gesto do Conhecimento no foi identificado.

12

Palavras negativas (stopwords): conjunto de palavras consideradas no representativas no processo de

minerao de texto (e.g.: advrbios, numerais, conjunes, artigos).


13

Centrides: so os itens mais representativos que caracterizam determinado agrupamento.

136
No terceiro perodo foram identificados quatro agrupamentos: (i) {conhecimento,
informao, gesto, mquina}; (ii) {conhecimento, gesto, virtual, informao}; (iii)
{qualidade, objeto, Java}; (iv) {mtrica, engenharia, qualidade}. Percebe-se ento uma maior
definio das reas de interesse e uma maior caracterizao interdisciplinar do MGCTI.
No quarto perodo a identificao multidisciplinar do programa confirmada, a partir
da identificao de cinco agrupamentos caracterizados pelos centrides: (i) {neural, modelo,
conhecimento, inteligente}; (ii) {conhecimento, gesto, informao, modelo}; (iii)
{qualidade, objeto, desenvolvimento}; (iv) {competncias, aprendizagem, ontologia,
suporte}; (v) {mtrica, engenharia, qualidade}.

Tabela 11: Centrides dos agrupamentos por perodo


Perodo
1998-1999

Centrides por grupo


1-INTELIGENTE NEURAL MODELO
2-GESTAO CONSTRUCAO COMPETENCIAS ESTRATEGICA

2000-2001

1-INFORMACAO MODELO NEURAL DESENVOLVIMENTO

2002-2004

1-CONHECIMENTO INFORMACAO GESTAO MAQUINA


2-CONHECIMENTO GESTAO VIRTUAL INFORMACAO
3-QUALIDADE OBJETO J2EE
4-METRICA ENGENHARIA QUALIDADE

1998-2004

1-NEURAL MODELO CONHECIMENTO INTELIGENTE


2-CONHECIMENTO GESTAO INFORMACAO MODELO
3-QUALIDADE OBJETO DESENVOLVIMENTO
4-COMPETENCIAS APRENDIZAGEM ONTOLOGIA SUPORTE
5-METRICA ENGENHARIA QUALIDADE

Foram realizadas tambm algumas totalizaes da produo cientfica e tecnolgica


dos envolvidos na pesquisa. A tabela a seguir apresenta os totais de produo por tipo e ano.

137

Tabela 12: MGCTI Totais de produo por ano


TIPO DE PRODUCAO
Apresentao de Trabalho
Artigo publicado em peridicos
Curso de curta durao ministrado
Demais trabalhos relevantes
Dissertao de mestrado
Iniciao Cientfica
Livro ou captulo de livro
Monografia de curso de aperfeioamento
Organizao de evento
Orientao em andamento
Outra produo bibliogrfica
Banca de comisses julgadoras
Participao: banca de concluso (M/D)
Participaes em eventos
Texto em jornal ou revista
Trabalho de concluso de graduao
Trabalho publicado em anais de evento
Trabalhos tcnicos
TOTAL GERAL

1998
3

2
9

1999 2000 2001 2002 2003


4
4
5
2
4
1
11
1
2
6
2
1
9
11
5
9
32
3
2
12
1
3
2
4
2
7
2
6
14
1
1
2
5
1
6
27
64
1
4
6
9
2
1
1
4
5
17
10
8
22
39
77
3
2
1
3
2
27
16
56 122 270

TOTAL
8
26
3
29
46
17
10
9
2
20
2
8
98
23
3
27
158
11
500

Foi identificada uma acentuada elevao no quantitativo da produo cientfica e


tecnolgica dos docentes do MCGTI durante o perodo avaliado. As figuras abaixo
apresentam as curvas de crescimento dos principais tipos de produo:

12

Total

11
10
9
8
Tipo de Produo

Apresentao de Trabalho
Artigo publicado em peridicos
Demais trabalhos relevantes
Livro ou captulo de livro
Trabalhos tcnicos

5
4
3

0
1998

1999

2000

2001

2002

ANO_

Figura 37: Produo por ano I

2003

138

90

Total

80

77

70
64
60

Tipo de Produo

Dissertao de mestrado

50

40

Participao em banca de trabalhos de


concluso
Participaes em eventos

39
32

30

Trabalho publicado em anais de evento

27
22

20

10

10
3
2

0
1998

1999

2000

9
6

2002

2003

6
5
4
2001
ANO_

Figura 38: Produo por ano II

Foram realizadas tambm algumas totalizaes para a identificao qualitativa da


produo cientfica e tecnolgica dos docentes do MGCTI. A figura a seguir apresenta as
percentuais de publicaes e participaes em eventos qualificados em nacionais e
internacionais. Apesar de pequena, observa-se uma elevao do percentual de participao em
eventos e publicaes internacionais.
TIPO DE PRODUCAO (Tudo)

100%

Soma de QTDE

80%
8

60%
8

39

25

73

143

CATEGORIA
Nacional
Internacional

40%

7
20%

13

29

2002

2003

0%
1998

1999

2000

2001

ANO

Figura 39: Percentual de trabalhos por idioma de publicao

139

4.2.1.2

Juzos emitidos

Aps a seleo dos resultados do processo de minerao de texto, onde foram


identificados os agrupamentos por perodo, foram emitidos os seguintes juzos:
a) O MGCTI avana no sentido de se constituir como um grupo efetivamente
interdisciplinar.
b) As reas de interesse do programa MGCTI, no que se refere pesquisa, tornam-se
progressivamente mais claras.
c) Melhora, a cada ano, a produo tcnico-cientfica do programa.

4.2.1.3

Fundamentao dos juzos

Propsito da pesquisa
Desejando identificar as vocaes do MGCTI, surgiu a oportunidade de verificao
das linhas de produo dos docentes que participam do programa. A partir das informaes
sobre a produo cientfica e tecnolgica contida no Currculo Lattes, decidiu-se utilizar estes
dados para relacionar os docentes entre si, com o objetivo de identificar reas de afinidade.
Assim, o propsito desta avaliao identificar as linhas de pesquisa possveis, a
partir da produo de cada docente.

Propsito dos juzos


Identificar as reas de interesse dos docentes do MGCTI e o potencial de produo do
grupo. Esta identificao abre possibilidades para aes que incrementem o processo
produtivo, inclusive com possveis direcionamentos dos trabalhos para eventos e publicaes
de maior significado.

Domnios
Os principais domnios considerados na avaliao foram:
a) Espao das publicaes (nacionais ou internacionais)
b) Idioma de publicao

140
Padres de julgamento
a) Qualis Multidisciplinar da CAPES
b) Qualidade dos eventos
c) Tipo de eventos

Afirmaes de suporte
a) Os agrupamentos resultantes dos processos de minerao de texto passaram de
dois para quatro do perodo inicial para o perodo final avaliado.
b) Os nmeros da produo cientfica e tecnolgica do MGCTI cresceram ano a ano.
c) Apesar de pequeno, ocorreu um aumento no percentual de publicaes e
participaes em eventos internacionais.
d) Algumas publicaes ocorreram em veculos citados no Qualis14 Multidisciplinar.

14

Qualis: lista com a classificao dos veculos utilizados pelos programas de ps-graduao para a divulgao

dos resultados da produo cientfica e tecnolgica de seus alunos e professores, elaborado pela CAPES
Coordenao de Aperfeioamento de Pessoal de Nvel Superior do Ministrio da Educao.

141

5 CONCLUSES E TRABALHOS FUTUROS


As bases de dados formadas a partir de sistemas transacionais normalmente
armazenam uma grande quantidade de informaes passveis de serem exploradas e capazes
de revelar relaes no explcitas. Os processos de DCBD podem ser utilizados para a
obteno de conhecimento til a partir dos dados contidos nestas bases.
Das etapas mencionadas neste trabalho, as fases de seleo, pr-processamento e
transformao dos dados normalmente so as que mais consomem tempo e recursos. O tempo
gasto nestas etapas inversamente proporcional qualidade dos dados armazenados. Por isso,
pode se concluir que os sistemas que prezaram pelas etapas de projeto e que cuidaram para
uma correta implementao das regras de negcio e manuteno da integridade dos dados
podem ser muito mais facilmente explorados com tcnicas de DCBD.
Apesar das etapas iniciais de tratamento dos dados representarem uma grande parcela
do trabalho total, a etapa de Minerao de Dados pode ser considerada a mais complexa. A
escolha, ou o desenvolvimento de algoritmos de reconhecimento de padres pode representar
um grande desafio para a equipe. A grande quantidade de interaes e iteraes necessrias
para a obteno de padres que possam se tornar teis e valiosos pode exigir grandes recursos
computacionais e mo de obra altamente especializada.
Todo o processo deve contar com a presena de especialistas no negcio pesquisado,
com participao maior ou menor, dependendo da etapa. Sua presena fundamental nas
etapas de Minerao de Dados e Interpretao/Avaliao, onde os padres obtidos devem ser
avaliados buscando identificar conhecimento til que possa ser incorporado ao sistema.
A simples extrao de padres no acrescenta conhecimento organizao. Para tal,
necessrio que os especialistas identifiquem, a partir dos resultados gerados, aqueles que so
teis e possuem valor agregado. Neste sentido, a utilizao de um mtodo que auxilie o
processo de avaliao dos resultados pode facilitar a obteno de bons resultados.
O estudo relativo ao perfil dos orientadores do PIBIC pde demonstrar o potencial da
Plataforma Lattes para gerao de conhecimento organizacional. Apesar de o referido estudo
ter sido realizado sobre um volume reduzido de dados e variveis, foi possvel estabelecer
relaes para a identificao de um perfil dos docentes que orientaram alunos de iniciao
cientfica.

142
J o segundo estudo de caso, sobre os docentes do Programa MGCTI da Universidade
Catlica de Braslia, demonstrou que os resultados da DCBD podem ser potencializados pela
utilizao metdica da definio de juzos e de sua fundamentao. Uma percepo anterior,
informal, que indicava a vocao interdisciplinar do programa MGCTI foi confirmada com a
minerao de texto e com a identificao dos agrupamentos por perodo. Os juzos
estabelecidos, uma vez devidamente fundamentados, tm proporcionado uma discusso muito
mais detalhada de cada um dos itens estudados.
O processo como um todo trouxe uma percepo mais apurada e clara dos desgnios
vocacionais e dos rumos do Programa objeto do estudo, trazendo mais visibilidade e
conhecimento organizacional sobre o MGCTI, seus docentes, sua produo cientfica e
tecnolgica, suas linhas de interesse, etc. Tudo isso pode ser acrescentado base de
conhecimento da instituio, e ser importante para a definio dos rumos a seguir. Remete-se
novamente Ontologia da Linguagem, que traz o conceito de que os juzos podem fechar ou
abrir possibilidades no futuro. Acredita-se, neste caso, que vrias possibilidades possam ser (e
tm sido) abertas.
Finalmente, pode concluir que o processo de DCBD representa uma excelente
oportunidade para as organizaes que desejam utilizar melhor suas bases de dados, no
sentido de se obter conhecimento, e conseqentemente, incrementar os seus negcios a partir
deste conhecimento organizacional descoberto.
Trabalhos futuros podem ser desenvolvidos a partir das reflexes iniciadas, tais como:
a) Agregao, ao processo de minerao de texto da produo cientfica e
tecnolgica, dos resumos dos respectivos trabalhos. O presente estudo utilizou
somente os ttulos das publicaes e as palavras-chave, que era o material
disponvel na Plataforma Lattes. O acrscimo dos resumos dos trabalhos pode
trazer uma maior quantidade de palavras que podem ser associadas, aumentando as
possibilidades de identificao das linhas de interesse.
b) Minerao de texto para a gerao de uma taxonomia relativa aos grupos de
pesquisa.
c) Minerao de texto para a verificao de consistncia entre linhas de pesquisa
declaradas e a real produo cientfica e tecnolgica.
d) Identificao de competncias dos pesquisadores e docentes a partir de suas
informaes curriculares.

143

REFERNCIAS BIBLIOGRFICAS

[AGRAW94] AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules.
IBM Research Report RJ 9839. IBM Almaden Research Center, Junho
de 1994
[AMARA01] AMARAL, Fernanda C. N. do Data Mining Tcnicas e Aplicaes para o
Marketing Direto, So Paulo: Berkeley Brasil, 2001.
[BABCO94] BABCOCK, C. Parallel Processing Mines Retail Data, Computerwork, n. 6,
set. 1994.
[BISHO95]

BISHOP, Christopher M. Neural networks for pattern recognition. Oxford:


Oxford University Press, 1995

[BRASI02]

BRASIL, Lourdes M. Inteligncia Artificial Modelos Conexionistas


Departamento de Informtica, UFPB - Universidade Federal da Paraba,
2002.

[CHEN96]

CHEN, Ming-Syan, HAN, Jiawei, YU, Philip S. Data mining: an overview


from a database perspective. IEEE Transactions on Knowledge and Data
Engineering, v. 8, n.6, p.866-883, dez. 1996.

[CNPQ03]

CNPq, Plataforma Lattes


Disponvel em: lattes.cnpq.br
Acesso em: 21 de maio de 2003

[CNPQ03a]

CNPq, PIBIC
Disponvel em: http://www.cnpq.br/bolsas_auxilios/modalidades/pibic.htm
Acesso em: 27 de maio de 2003

[CNPQ03b]

CNPq, Diretrio dos Grupos de Pesquisa no Brasil, Estratificao


Disponvel em: http://lattes.cnpq.br/censo2002/estratificacao/index_estrat.htm
Acesso em: 30 de maio de 2003

144
[DRUCK94] DRUCKER, Peter F. The Age of Social Transformation, The Atlantic Monthly,
Boston, United States
Disponvel em:
http://www.theatlantic.com/politics/ecbig/soctrans.htm#Drucker

Acesso em: 15 out. 2003


[DIXON97]

DIXON, Mark An Overview of Document Mining Technology


Disponvel em:
http://www.geocities.com/ResearchTriangle/Thinktank/1997/mark/writings/dm.
html

Acesso em: 23 mai. 2003.


[ECHEV99] ECHEVERRA, Rafael. La Ontologia del Lenguaje, Chile, Dlmen, 408 pp.
1999.
[FAYYA96] FAYYAD, Usama; Piatetsky-Shapiro, G; Smyth, P. Advances In Knowledge
Discovery and Data Mining, 1a ed., Cambridge - Massachusetts: Mit
Press, 1996.
[FAUSS94]

FAUSSET, Laurene V. Fundamentals of Neural Networks - Architectures.


Algorithms, and Applications, Prentice Hall, 1994.

[FELDM97] FELDMAN, Ronen; HIRSH, Haym. Exploiting background information in


knowledge discovery from text. Journal of Intelligent Information
Systems, Boston, v.9, n.1, July/Aug 1997.
[FERREI01] FERREIRA, Aurlio Buarque de Holanda. Minidicionrio da Lngua
Portuguesa, So Paulo, Nova Fronteira, 2001.
[FERREI03] FERREIRA, L.A. BAX, M.P. A Importncia da Gesto do Conhecimento para
o Marketing de Relacionamento. In: 6 Simpsio Internacional de Gesto
do Conhecimento - ISKM, Curitiba, agosto 2003.
[FISHE87]

FISHER, D. Knowledge Acquisition via Incremental Conceptual Clustering.


Machine Learning, v.2,n.2,1987

[FLORE88]

FLORES, F., GRAVES, M., HARTFIELD, B., WINOGRAD, T. Computer


System and the Design of Organizational Interaction in ACM Trans. of
Information Systems, Vol. 6. nro. 2, USA, 1988.

145
[GRECO02] GREGO, Maurcio A Petrobras doma seus terabytes, InfoExame, So Paulo:
ano 18, n. 203, p. 78-79, fev. 2003.
[GRUBE93] GRUBER,

T.

R.

Translation

Approach

to

Portable

Ontology

Specifications.Knowledge Systems Laboratory - Stanford University,


Stanford, CA, Technical Report ,1993.
[HARRI98]

HARRISON, Thomas H. Intranet Data Warehouse: So Paulo: Berkeley


Brasil, 1998.

[UHLMA02] UHLMANN, Gnter W. Teoria Geral dos Sistemas, CISC, So Paulo.


Visitado em 30/03/2003
Disponvel em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[KOWAL97] KOWALSKI,

Gerald.

Information

retrieval

systems:

theory

and

implementation. Boston : Kluwer Academic Publishers, 1997.


[LOH99]

LOH, Stanley; WIVES, Leandro Krug; FRAINER, Antnio Severo.


Recuperao semntica de documentos textuais na internet. In:
Conferencia Latino-Americana de Informtica (CLEI), XXV, 1999,
Assuncin, Paraguay. Memrias del CLEI'99 (Tomo 2). Assuncin,
Paraguay: Universidad Autnoma de Asuncin, 1999.

[LOH01]

LOH, Stanley, REATEGUI, Eliseu, WIVES, Leandro Krug, OLIVEIRA, Jose


Palazzo Moreira de, GAMEIRO, Maurcio Almeida. Formalizando e
Explorando Conhecimento Tcito com a Tecnologia de Text Mining para
Inteligncia. In: ISKM/DM 2001, 2001, Curitiba, 13 a 15 de Agosto.
Anais. 2001

[LUCEN01] LUCENA, Percival de; Paula, Marcos Ferreira de, rvores de Deciso Fuzzy
Disponvel em: www.icmc.sc.usp.br/~percival/download/fidt.pdf
Acesso em: 21 mai. 2003.
[LUCEN02] LUCENA FILHO, Gentil. J. Notas de Aula Universidade Catlica de Braslia,
Braslia, 2002.
[MEDLE98] MEDLER, David A. A brief history of connectionism. Department of
Psychology, University of Alberta, Alberta, Canada, In: Neural

146
Computing Survey 1, p. 61-101, 1998.
Disponvel em: http://www.icsi.berkeley.edu/~jagota/NCS/vol1.html
Acesso em: 25 mai. 2003.
[NG97]

NG, Hwee et al. Feature selection, perceptron learning, and a usability


casestudy for text categorization. In: Special Interest Group on
Information Retrieval - SIGIR, 1997. New York: Association for
Computing Machinery, 1997.

[NONAK97] NONAKA, Ikujiro, TAKEUCHI, Hiro. Criao de Conhecimento na Empresa,


Traduo: Ana Beatriz Rodrigues, Priscilla Martis Celeste, Rio de
Janeiro, Campus, 1997.
[OSORI99]

OSORIO, Fernando, VIEIRA, Renata. Sistemas Hbridos Inteligentes. In:


ENIA Encontro Nacional de Inteligncia Artificial, Congresso da SBC,
Rio de Janeiro, 1999.

[PRADO98] PRADO, Hrcules A. Abordagens hbridas para minerao de dados, exame


de qualificao, Porto Alegre: CPGCC da UFRGS, 1998.
[REZEN03]

REZENDE, Solange Oliveira. Introduo Inteligncia Artificial, Institutuo


de Cincias Matemticas e de Computao, USP, So Paulo.
Visitado em 29/03/2003
Disponvel em:
http://www.icmc.sc.usp.br/~solange/IA/iag_int/tsld001.htm

[SALGA02] SALGADO, Cndido G. Comportamento de Regras de Associao e sua


Aplicao para Anlise de Dados Mdicos. 2002. Dissertao (Mestrado
em Cincia da Computao) - Universidade de Braslia
[SETZE03]

SETZER, Valdemar W. Dado, Informao, Conhecimento e Competncia,


Instituto de Matemtica e Estatstica - IME, So Paulo.
Visitado em 29/03/2003
Disponvel em:
http://www.cidade.usp.br/educar2001/mod5ses2.php

[SILVA02]

SILVA, Edilberto M. Descoberta de Conhnecimento com o uso de Text


Mining: Cruzando o Abismo de Moore. 2002. Dissertao (Gesto do

147
Conhecimento e da Tecnologia da Informao) - Universidade Catlica
de Braslia
[SOUSA03] SOUSA, Paulo de Tarso Costa de. Minerao de Dados para Induo de um
Modelo de Gesto do Conhecimento. 2003. Dissertao (Gesto do
Conhecimento e da Tecnologia da Informao) - Universidade Catlica
de Braslia
[STOLL01]

STOLLENWERK, Maria de Ftima Ludovico. Gesto do Conhecimento:


conceitos e modelos. In: Inteligncia Organizacional e Competitiva. Kira
Tarapanoff (organizadora). Braslia, Editora Universidade de Braslia,
2001.

[TEIXE00]

TEIXEIRA FILHO, Jayme. Gerenciando o Conhecimento. Rio de Janeiro,


SENAC, 2000.

[TOFFL94]

TOFFLER, A. Powershift: As Mudanas do Poder. Rio de Janeiro, Record,


1994

[UHLMA02] UHLMANN, Gnter W. Teoria Geral dos Sistemas, CISC, So Paulo.


Visitado em 30/03/2003
Disponvel em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[VARGA00] VARGA, Lilia M. Inteligncia Competitiva na Empresa, UFRGS, Porto
Alegre.
Visitado em 12/01/2004
Disponvel em:
http://read.adm.ufrgs.br/read17/artigo/artigo1.htm
[VIDAL98]

VIDAL, Antnio Geraldo R. Projeto e Desenvolvimento de Sistemas de


Informao, FEA/USP, So Paulo.
Visitado em 30/03/2003
Disponvel em:
http://www.fea.usp.br/cursos/graduacao/arquivos/ead451-05.PDF

[WEKA01]

WEKA Projet WEKA 3: Machine Learning Software in Java. Universidade de


Waikato

148
Disponvel em: http://www.cs.waikato.ac.nz/ml/weka/
Acesso em: 12 jun. 2003
[WIIG93]

WIIG, K. M. Knowledge management foundations: thinking about thinking


how people and organizations create, represent and use knowledge.
Arligton, Texas: Schema, 1993. v.1.

[WITTE99]

WITTEN, Ian H., FRANK, Eibe: Data Mining: Practical Machine Learning
Tools e Techniques with Java Implementations . Morgan Kaufmann
Publ., 1999.

[WIVES99] WIVES, Leando Krug Um Estudo sobre Agrupamento de Documentos


Textuais em Processamento de Informaes no Estruturadas usando
Tcnicas de Clustering , Porto Alegre: UFRGS, 1999.
[WIVES00]

WIVES, Leandro Krug. Tecnologias De Descoberta de Conhecimento em


Textos Aplicadas Inteligncia Competitiva, Porto Alegre: UFRGS,
2000.

Вам также может понравиться