Вы находитесь на странице: 1из 12

Universidade Estadual do Cear -UECE

Centro de Cincias Tecnolgicas CCT



Instituto Federal de Educao Cincia e Tecnologia do Cear -IFCE
Pr-Reitoria de Ensino / Ps-Graduao ProREn/PG


MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAO APLICADA MPCOMP









PROJETO DE PESQUISA











PROPOSTA DE FRAMEWORK PARA DESCOBERTA DE
CONHECIMENTO EM INFORMAES TEXTUAIS NO ESTRUTURADAS














Aluno: Victor Manaia Gonalves Chaves
Prof. Orientador: Edilberto Strauss
Prof. Co-orientador: Flvio Mello


1. INTRODUO
Os avanos tecnolgicos das ltimas dcadas tm viabilizado a gerao e o acmulo
de um volume crescente de dados, armazenadas nos mais variados formatos bancos de dados
transacionais, imagens, pginas de internet, documentos de texto e planilhas eletrnicas,
dentre outros.
Diante desta quantidade considervel de dados, que analisados de forma isolada no
possuem significado para a tomada de deciso, as organizaes usualmente se questionam
como analis-los e transform-los em conhecimento til, objetivando principalmente a
melhoria de processos operacionais e o suporte s decises dos gestores corporativos
(FREITAS, BECKER, et al., 1997).
Conforme Carlos Barbieri (BARBIERI, 2011), a partir da dcada de 2000 houve um
crescimento no uso da inteligncia de negcios (Business Intelligence BI), cuja utilizao
visa implementar: estruturas especiais de armazenamento de dados, como o armazm de
dados (Data Warehouses DW), com o objetivo de prover anlises diferenciais, remodeladas
a partir das bases transacionais utilizadas pelos sistemas; aplicaes especiais de tratamento
desses dados, como o Processamento Analtico on-line (On-line Analytical Processing -
OLAP), possibilitando uma forma mltipla e combinada de anlise dos dados do armazm de
dados; e solues para descoberta de conhecimento (Knowledge Discover KD), que
realizam as atividades de busca e estruturao da informao, e utilizao de algoritmos que
objetivam o reconhecimento de padres escondidos nos dados e no necessariamente
revelados por outras abordagens analticas, como o OLAP.
A necessidade de definir uma sequncia padronizada de atividades a serem seguidas
nos projetos de descoberta de conhecimento - auxiliando no planejamento, execuo e
controle, reduzindo custos e riscos - motivou a proposta de diversos modelos de processos
para a descoberta de conhecimento (MARISCAL, MARBN e FERNNDEZ, 2010).
A maioria desses processos trata da descoberta de conhecimento a partir de
informaes estruturadas, como bases de dados. A literatura denomina esta subrea da
descoberta de conhecimento como descoberta de conhecimento em bases de dados
(knowledge-discovery in databases KDD), uma referncia ao nome dado do primeiro
modelo de processo proposto.
Entretanto, segundo Laudon et Laudon (LAUDON e LAUDON, 2010) apud Tan
(TAN, 1999), aproximadamente oitenta por cento de toda a informao disponvel nas
empresas consiste de dados no estruturados, como e-mails, textos normativos, ou registros de
atendimento (exemplo, incidentes em Service Desk), dentre outros. Para lidar com a anlise
destes dados, foi proposta outra subrea da descoberta de conhecimento, denominada
descoberta de conhecimento em texto (Knowledge discover in text KDT).
Os trabalhos desta subrea preocupam-se mais com os apectos tcnicos da recuperao
e estruturao da informao do que com o processo de descoberta do conhecimento em si.
Com isso, tomam como base uma adaptao do primeiro processo de KDD, considerado
incompleto do ponto de vista gerencial, mas possui um framework bastante avanado que
suporta a minerao e estruturao da informao.
A pesquisa tem como tema a descoberta de conhecimento em textos, considerando as
seguintes delimitaes: modelo de processo de descoberta de conhecimento em textos e
modelo arquitetural orientado a servios para descoberta de conhecimento em textos. Para
isso, considera como objetos de investigao: o modelo de processo de descoberta de
conhecimento CRISP-DM, uma metodologia que orienta o planejamento e execuo de
projetos de descoberta de conhecimento, dividido em fases, com atividades e artefatos
customizveis; e especificao UIMA, que define modelos de representao de dados no
estruturados e interfaces para atividades analticas, orientadas a servio e independentes de
plataforma.
Trata-se de uma pesquisa tecnolgica, aplicada e descritiva, cujo problema gerar
conhecimento a partir de dados textuais semi ou no estruturados de forma padronizada e
escalvel. A hipteses levantada que o conhecimento ser gerado a partir da utilizao de
um modelo de processo para descoberta de conhecimento aliado a um framework para
estruturao e minerao de dados textuais semi ou no-estruturados, utilizando arquitetura
orientada servios.
2. OBJETIVOS
De forma a verificar a validade da hiptese, a pesquisa tem como objetivo definir um
framework que suporte a descoberta de conhecimento em textos. Por consequncia, foram
identificados os seguintes objetivos especficos:
(i) Definio de processo para descoberta de conhecimento em textos a partir do
modelo de processo CRISP-DM;
(ii) Definio de arquitetura, baseada na especificao UIMA;
3. FUNDAMENTAO TERICA
Dado, Informao, Conhecimento e Sabedoria
Os termos dado, informao, conhecimento e sabedoria so usados indistintamente na
literatura. Entretanto, tratam de diferentes conceitos que formam um modelo terico til nas
atividades de gesto do conhecimento e sua aplicao na tecnologia da informao,
denominado DIKW (data information knowledge - wisdom) (FREITAS, BECKER, et al.,
1997).
Dados so grupos de smbolos brutos no aleatrios, que precisam ser manipulados e
colocados num contexto compreensvel antes de se tornarem teis. Informaes so dados
agregados segundo critrios racionais ou intuitivos para o usurio, com valor real ou
percebido para decises (FREITAS, BECKER, et al., 1997). Conhecimento conjunto de
padres cuja formulao relaciona dados e informaes. Em geral no pode ser abstrado das
bases de dados ou informaes textuais por recursos tradicionais da tecnologia da informao,
o que demandou a criao da rea de descoberta de conhecimento (GOLDSCHMIDT e
PASSOS, 2005). Sabedoria o conhecimento acumulado, que permite entender como aplicar
conceitos e princpios fundamentais existente em novas situaes ou problemas (JESSUP e
VALACICH, 2003) apud (ROWLEY, 2007).
Dentre as diversas possibilidades de classificao de dados, a mais relevante para a
pesquisa a distino entre dados estruturados, semiestruturados e no estruturados. Segundo
Claro (CLARO), dados estruturados utilizam esquemas rgidos, com estrutura detalhada e
restries de integridade onde o exemplo mais comum um banco de dados; dados
semiestruturados apresentam caractersticas intermedirias entre dados estruturados e no
estruturados, onde nem sempre h um esquema definido e a estrutura dos dados irregular,
fortemente evolutiva e autodescritiva cujos exemplos incluem arquivos HTML e XML; e
dados no estruturados so aqueles que no possuem nenhuma estrutura, seja ela implcita ou
explcita, utilizando metadados para definir informaes do arquivo onde textos, imagens e
vdeos so exemplos comuns.
Descoberta de conhecimento
A descoberta de conhecimento (Knowledge Discovery KD) uma rea
multidisciplinar com subreas, em funo do tipo de dado processado: a descoberta de
conhecimento em bases de dados (Knowledge Discovery in Databases KDD), que lida com
o processamento de dados estruturados; e a descoberta de conhecimento em texto,
(Knowledge Discovery from Text KDT), que trata da descoberta a partir de dados
semiestruturados ou no estruturados (como textos, por exemplo).
Segundo Morais et Ambrsio (MORAIS e AMBRSIO, 2007) apud Wives (WIVES,
2002), descobrir conhecimento significa identificar informaes relevantes e process-las,
agregando conhecimentos prvios, visando obter novos conhecimentos a partir da
identificao de padres ocultos nos dados.
KDD
O processo de KDD busca extrair conhecimentos vlidos a partir dos dados e
informaes estruturados armazenados em um banco de dados (FAYYAD, PIATETSKY-
SHAPIRO e SMYTH, 1996),(GOLDSCHMIDT e PASSOS, 2005).
comum na literatura a confuso entre os termos KDD e Data mining, que so
usualmente considerados sinnimos. Entretanto, o KDD representa todo o processo de
extrao de conhecimento, sendo o Data Mining apenas uma etapa deste processo
possivelmente a mais importante e o foco da maioria dos trabalhos, j que onde o
conhecimento de fato obtido (CIOS e KURGAN, 2005),(FAYYAD, PIATETSKY-
SHAPIRO e SMYTH, 1996).
KDT
A descoberta de conhecimento em textos busca extrair elementos-chave de conjuntos
de dados no estruturados visando a estruturao da informao. Para isso, utiliza tcnicas de
recuperao de informao, extrao de informao, processamento de linguagem natural,
data mining, aprendizado de mquina e estatstica (HOTHO, NRNBERGER e PAA,
2005).
A abordagem mais comum prope a estruturar a informao textual, permitindo que a
minerao de dados seja executada da mesma forma que no KDD ainda que sejam
utilizados algoritmos especficos para dados estruturados e dados no estruturados
(FELDMAN e DAGAN, 1995).
CRISP-DM
A processo padro para minerao de dados (Cross-Industry Standard Process of Data
Mining - CRISP-DM) uma metodologia descrita como modelo de processo hierrquico,
composto por conjuntos de tarefas em quatro nveis de abstrao: fase, tarefa genrica, tarefa
especializada e instncia do processo (CHAPMAN, CLINTON, et al., 2000).
Partindo de um alto nvel de abstrao, so definidas seis fases, que passam: pelo
entendimento do negcio da organizao e do projeto a ser executado; entendimento dos
dados disponveis de forma a identificar os que sero utilizados na minerao; preparao dos
dados, visando ajust-los para a minerao; modelagem, onde de fato so executados os
algoritmos de minerao; avaliao do conhecimento gerado, e; distribuio, onde o
conhecimento e os padres obtidos so aplicados no negcio.
As fases, por sua vez, so compostas por vrias tarefas genricas, definidas de forma a
ser geral suficiente para cobrir os diversos tipos de projetos de minerao de dados, mas
buscando ser o mais completas e estveis possvel. A sequncia de fases e tarefas genricas
apresentadas na metodologia so apenas uma referncia. O guia deixa claro que na prtica,
muitas das tarefas podem ser realizadas em ordem diferente ou devem ser estabelecidas
sequncias diferentes da proposta em funo da natureza do projeto, e por essa razo, no
menciona todos os relacionamentos possveis listando apenas os mais frequentes.
Das tarefas genricas, em funo da natureza do projeto, devem ser estabelecidas as
tarefas especficas que sero utilizadas. Se no houver nenhuma necessidade especfica,
recomendvel que seja seguida a ordem proposta na metodologia.
Finalmente, a instncia do processo um registro das aes, decises e resultados de
uma iniciativa de minerao de dados na organizao. Pode ser aplicada a apenas um projeto
ou tornar um padro para projetos da mesma natureza
UIMA
A arquitetura de gerenciamento da informao no estruturada (Unstructured
Information Management Architecture - UIMA) uma especificao criada em 2008, e define
representaes e interfaces de dados independentes de plataforma para anlise de texto,
atravs da realizao de minerao e extrao de conhecimento (STANDARD, 2008).
A principal implementao da fundao Apache e consiste em trs partes:
framework, componentes e infraestrutura. O framework auxilia na execuo dos componentes
e esto disponveis para Java e C ++. Os componentes executam a estruturao da informao
e a descoberta de conhecimento. A infraestrutura permite a orientao a servios, invocando
servios da web (FOUNDATION).
Principais tarefas da minerao de texto
Tarefas de descoberta de conhecimento so operaes relacionadas s atividades de
minerao de dados ou de texto, que podem ser executadas individualmente ou combinadas
(GOLDSCHMIDT e PASSOS, 2005). A seguir so brevemente descritas as mais comuns.
A descoberta de associaes, tambm conhecida como busca por regras de associao,
consiste em encontrar conjuntos de itens que ocorram simultaneamente e de forma frequente
no conjunto de dados utilizado.
A classificao consiste em buscar uma funo que permita associar corretamente
cada item Xi de um conjunto de dados a um nico rtulo Yj, denominado classe. Uma vez
identificada a funo, atravs da utilizao de um conjunto de dados de treinamento, esta pode
ser aplicada a novos itens, de forma a prever a classe em que um novo item se enquadra.
A regresso busca por funes, lineares ou no, que mapeiem os itens de um conjunto
de dados em valores reais. A tarefa similar de classificao, mas utilizada quando os
atributos dos dados so apenas numricos.
A clusterizao, tambm chamada de agrupamento, consiste em particionar o conjunto
de dados em subconjuntos (clusters), de forma que os elementos de cada cluster compartilhem
um conjunto de propriedades comuns e que os distinguem dos demais clusters.
Finalmente, a deteco de desvios objetiva identificar mudanas em padres
anteriormente percebidos. bastante utilizada em deteco de fraudes em cartes de crdito,
planos de sade, arrecadao, dentre outros. Diferentemente das demais tarefas que buscam
padres comuns nos itens, esta tarefa busca identificar padres com pouca incidncia e que
sejam suficientemente distintos dos demais grupos.
4. METODOLOGIA E ESTRATGIA DE AO
Para a obteno dos objetivos planejados, sero realizadas as seguintes etapas
(i) Reviso bibliogrfica acerca do tema e dos objetos de investigao, ampliando
o contedo da seo de referencial terico aqui apresentado;
(ii) Definio do framework para descoberta de conhecimento em textos a partir
do modelo de processo CRISP-DM e da especificao UIMA;
(iii) Anlise da computabilidade do conhecimento, e;
(iv) Realizao de estudo de caso.
Para validar a hiptese ser realizado um estudo de caso da rea de TI de uma empresa
pblica. Em funo de um histrico de terceirizaes e ausncia de documentao, a central
de servio no dispe de protocolos de atendimento, e usualmente ocorrncias semelhantes
tm tratamentos distintos.
As ferramentas utilizadas atualmente so: uma soluo de registro de chamados, que
armazena os dados do solicitante e o registro do problema, o histrico do registo e a resposta
da solicitao fornecida pela rea tcnica; e um gerenciador de contedo que tem sido
utilizado como repositrio de informaes, onde as pginas e os blogs registram informaes
sobre os projetos da rea e os sistemas disponveis, seus problemas mais comuns e como
solucion-los. Nota-se claramente que a maior parte dos dados no estruturada, em formato
textual.
Em funo da demanda da rea de TI por uma base de conhecimento com rotinas de
atendimento para os problemas mais comuns, a pesquisa pretende desenvolver um prottipo
que: recupere e realize o agrupamento (definio de clusters) tanto dos registros de incidentes
quanto das pginas do gerenciador de contedo; tentar associar grupos de registros de
incidentes aos grupos do gerenciador de contedo; classificar os novos registros de incidente
por similaridade entre esse e os casos existentes, sugerindo o protocolo de atendimento a
partir das pginas do gerenciador de contedo.
A proposta contempla o uso do processo construdo a partir do CRISP-DM e o
desenvolvimento de um prottipo de soluo web, desenvolvida em Java e baseada na
arquitetura que ser proposta utilizando como referncia a especificao UIMA. Se houver
tempo disponvel, ser verificada ainda possibilidade de integrao do UIMA com o WEKA -
um framework de aprendizado de mquina criado pela Universidade de Waikato (HALL,
FRANK, et al., 2009).
5. RESULTADOS E IMPACTOS ESPERADOS
Como resultados esperados, destacam-se: (i) framework desenvolvido, com processo
para descoberta de conhecimento a partir de textos mapeado e arquitetura orientada a
servios, ambos aplicados no estudo de caso; (ii) prottipo de soluo para a central de
servios da TI desenvolvido, e; (ii) melhoria da governana da TI da empresa pblica.
A anlise dos resultados obtidos se dar em duas frentes. A primeira, no mbito do
estudo de caso, consiste na avaliao da execuo do processo para descoberta de
conhecimento e seus artefatos. A segunda, na avaliao da arquitetura proposta e o do
prottipo de soluo de TI para o estudo de caso. Em ambos os casos, o objetivo identificar
pontos fortes e fracos da soluo, dificuldades e oportunidades de melhoria.
6. RISCOS E DIFICULDADES
Abaixo so listados possveis riscos e dificuldades relacionados realizao do
projeto:
(i) Dificuldade de obteno dos dados do estudo de caso, que ser mitigado
atravs da solicitao de cpia dos dados de solicitaes de servio de TI da
empresa e da base da ferramenta utilizada como repositrio de informao,
alm da antecipao das etapas de entendimento do problema e dados
(ii) Utilizao de tecnologias no dominadas, que ser mitigado atravs da
antecipao da fundamentao terica e da definio da proposta de soluo.
(iii) Ausncia de tempo para concluso das atividades previstas, que ser mitigado
atravs do controle quinzenal do projeto e da reduo do escopo do estudo de
caso, caso necessrio.

7. CRONOGRAMA FSICO DE ATIVIDADES
A seguir apresentado o cronograma para execuo das atividades.
Atividades
2013 2014
10 11 12 01 02 03 04 05 06 07
Concluir artigo de MPC X

Concluir plano de projeto X

Submeter artigo para SBSI

X

Definir arquitetura da soluo

X X

Definir processo CRISP

X X

Implementar prottipo do framework

X X

Estudo de caso

X X X X X X

Submeter artigo para ACM SIGKDD

X X

Cap 1 introduo X X X

X

Cap 2 - fundamentao terica X X X

Cap 3 Proposta de soluo

X X X X

Cap 4 Estudo de Caso

X X X X X X

Cap 5- Resultados

X X

Cap 6 Concluso

X

Reviso do Orientador

X X X X X X X X X
Montagem apresentao defesa

X X
Defesa

X

8. REFERNCIAS BIBLIOGRFICAS
ARANHA, C.; PASSOS, E. A Tecnologia de Minerao de Textos. Revista
Elernica de Sistemas de Informao, n. 2, 2006.
AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-DM: A PARALLEL
OVERVIEW. IADIS European Conference Data Mining 2008. [S.l.]: [s.n.]. 2008.
BARBIERI, C. BI2Business Intelligence-Modelagem e Qualidade. Rio de Janeiro:
Elsevier, 2011.
BURCH, J. G. J.; STRATER, F. R. J. Information systems: theory and pratice.
California: Hamilton publishing company, 1974. 494 p.
CHAPMAN, P. et al. CRISP-DM. CRISP-DM Consortium. [S.l.], p. 76. 2000.
CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide. [S.l.]: [s.n.],
2000.
CIOS, K. J. et al. Data Mining: A Knowledge Discovery Approach. [S.l.]: Springer,
2007.
CIOS, K. J.; KURGAN, L. A. Trends in Data Mining and Knowledge. Advanced
techniques in knowledge discovery and data mining. Springer, Londres, 2005. 1-26.
CIOS, K. J.; KURGAN, L. A. Trends in data mining and knowledge discovery.
Advanced techniques in knowledge discovery and data mining, Londres, 2005. 1-26.
CLARO, D. B. MATE04 - Tpicos Especiais em Banco de Dados I. Disponivel em:
<http://homes.dcc.ufba.br/~dclaro/mate04.html>. Acesso em: 15 out. 2013.
DAVIS, G. B. Management Information Systems: conceptual foundations, stucture
and development. New York: McGraw-hill, 1974. 404 p.
DAVIS, G. B.; OLSON, M. H. Sistemas de informacin gerencial. Bogot:
McGraw-Hill, 1987. 718 p.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery in databases, 17, 1996.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to
knowledge discovery in databases, 17, 1996.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to
Knowledge Discovery: An Overview. Advances in Knowledge Discovery, California, 1996.
FELDMAN, R.; DAGAN, I. Knowledge Discovery in Textual Databases (KDT).
KDD, v. 95, 1995.
FOUNDATION, A. Welcome to the Apache UIMA project. Apache UIMA.
Disponivel em: <http://uima.apache.org/index.html>. Acesso em: 14 dez. 2013.
FREITAS, H. et al. Informao e deciso: Sistemas de apoio e seu impacto, Porto
Alegre, v. 74, 1997.
GOLDSCHMIDT, R.; PASSOS, E. Data Mining: Um Guia Prtico-Conceitos,
Tcnicas, Ferramentas, Orientaes e Aplicaes. Rio de Janeiro: Campus, 2005.
HALL, M. et al. The WEKA Data Mining Software: An Update. 1. ed. [S.l.]:
SIGKDD Explorations, v. 11, 2009.
HOTHO, A.; NRNBERGER, H. A. N.; PAA, G. A Brief Survey of Text Mining.
Ldv Forum, v. 20, n. 1, 2005.
JESSUP, L. M.; VALACICH, J. S. Information Systems Today. New Jersey:
Prentice Hall, 2003.
LAUDON, K.; LAUDON, J. Sistemas de Informao Gerenciais. 9 Edio. ed. So
Paulo: Pearson Prentice Hall, 2010.
MARISCAL, G.; MARBN, .; FERNNDEZ, C. A survey of data mining and
knowledge discovery. The Knowledge Engineering Review, v. 25, n. 2, p. 137-166, 2010.
MORAIS, E. A. M.; AMBRSIO, A. P. L. Minerao de Textos. Universidade
Federal de Gois. Gois, p. 29. 2007.
MORAIS, E. A. M.; AMBRSIO, A. P. L. Minerao de Textos. Universidade
Federal de Gois. Gois, p. 29. 2007.
NEGASH, S. Business Intelligence. Communications of the Association for
Information Systems, v. 13, p. 177-195, 2004.
PRASS, F. KDD UMA VISAL GERAL DO PROCESSO.
ROWLEY, J. The wisdom hierarchy: representations of the DIKW hierarchy. Journal
of Information Science, v. 2, n. 33, p. 163-180, 2007.
STANDARD, O. Unstructured Information Management Architecture (UIMA)
Version 1.0. [S.l.]: [s.n.], 2008.
TAN, A.-H. Text mining: The state of the art and the challenges. Proceedings of the
PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases. [S.l.]: [s.n.].
1999. p. 65-70.
WIVES, L. Tecnologias de descoberta de conhecimento em textos aaplicadas
inteligncia. PPGC-UFRGS. Rio Grande do Sul, p. 116. 2002.

Encaminho a proposta atualizada ao coordenador do curso em 14 de dezembro de
2013.


__________________________________________________
Victor Manaia Gonalves Chaves

Вам также может понравиться