Instituto Federal de Educao Cincia e Tecnologia do Cear -IFCE Pr-Reitoria de Ensino / Ps-Graduao ProREn/PG
MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAO APLICADA MPCOMP
PROJETO DE PESQUISA
PROPOSTA DE FRAMEWORK PARA DESCOBERTA DE CONHECIMENTO EM INFORMAES TEXTUAIS NO ESTRUTURADAS
Aluno: Victor Manaia Gonalves Chaves Prof. Orientador: Edilberto Strauss Prof. Co-orientador: Flvio Mello
1. INTRODUO Os avanos tecnolgicos das ltimas dcadas tm viabilizado a gerao e o acmulo de um volume crescente de dados, armazenadas nos mais variados formatos bancos de dados transacionais, imagens, pginas de internet, documentos de texto e planilhas eletrnicas, dentre outros. Diante desta quantidade considervel de dados, que analisados de forma isolada no possuem significado para a tomada de deciso, as organizaes usualmente se questionam como analis-los e transform-los em conhecimento til, objetivando principalmente a melhoria de processos operacionais e o suporte s decises dos gestores corporativos (FREITAS, BECKER, et al., 1997). Conforme Carlos Barbieri (BARBIERI, 2011), a partir da dcada de 2000 houve um crescimento no uso da inteligncia de negcios (Business Intelligence BI), cuja utilizao visa implementar: estruturas especiais de armazenamento de dados, como o armazm de dados (Data Warehouses DW), com o objetivo de prover anlises diferenciais, remodeladas a partir das bases transacionais utilizadas pelos sistemas; aplicaes especiais de tratamento desses dados, como o Processamento Analtico on-line (On-line Analytical Processing - OLAP), possibilitando uma forma mltipla e combinada de anlise dos dados do armazm de dados; e solues para descoberta de conhecimento (Knowledge Discover KD), que realizam as atividades de busca e estruturao da informao, e utilizao de algoritmos que objetivam o reconhecimento de padres escondidos nos dados e no necessariamente revelados por outras abordagens analticas, como o OLAP. A necessidade de definir uma sequncia padronizada de atividades a serem seguidas nos projetos de descoberta de conhecimento - auxiliando no planejamento, execuo e controle, reduzindo custos e riscos - motivou a proposta de diversos modelos de processos para a descoberta de conhecimento (MARISCAL, MARBN e FERNNDEZ, 2010). A maioria desses processos trata da descoberta de conhecimento a partir de informaes estruturadas, como bases de dados. A literatura denomina esta subrea da descoberta de conhecimento como descoberta de conhecimento em bases de dados (knowledge-discovery in databases KDD), uma referncia ao nome dado do primeiro modelo de processo proposto. Entretanto, segundo Laudon et Laudon (LAUDON e LAUDON, 2010) apud Tan (TAN, 1999), aproximadamente oitenta por cento de toda a informao disponvel nas empresas consiste de dados no estruturados, como e-mails, textos normativos, ou registros de atendimento (exemplo, incidentes em Service Desk), dentre outros. Para lidar com a anlise destes dados, foi proposta outra subrea da descoberta de conhecimento, denominada descoberta de conhecimento em texto (Knowledge discover in text KDT). Os trabalhos desta subrea preocupam-se mais com os apectos tcnicos da recuperao e estruturao da informao do que com o processo de descoberta do conhecimento em si. Com isso, tomam como base uma adaptao do primeiro processo de KDD, considerado incompleto do ponto de vista gerencial, mas possui um framework bastante avanado que suporta a minerao e estruturao da informao. A pesquisa tem como tema a descoberta de conhecimento em textos, considerando as seguintes delimitaes: modelo de processo de descoberta de conhecimento em textos e modelo arquitetural orientado a servios para descoberta de conhecimento em textos. Para isso, considera como objetos de investigao: o modelo de processo de descoberta de conhecimento CRISP-DM, uma metodologia que orienta o planejamento e execuo de projetos de descoberta de conhecimento, dividido em fases, com atividades e artefatos customizveis; e especificao UIMA, que define modelos de representao de dados no estruturados e interfaces para atividades analticas, orientadas a servio e independentes de plataforma. Trata-se de uma pesquisa tecnolgica, aplicada e descritiva, cujo problema gerar conhecimento a partir de dados textuais semi ou no estruturados de forma padronizada e escalvel. A hipteses levantada que o conhecimento ser gerado a partir da utilizao de um modelo de processo para descoberta de conhecimento aliado a um framework para estruturao e minerao de dados textuais semi ou no-estruturados, utilizando arquitetura orientada servios. 2. OBJETIVOS De forma a verificar a validade da hiptese, a pesquisa tem como objetivo definir um framework que suporte a descoberta de conhecimento em textos. Por consequncia, foram identificados os seguintes objetivos especficos: (i) Definio de processo para descoberta de conhecimento em textos a partir do modelo de processo CRISP-DM; (ii) Definio de arquitetura, baseada na especificao UIMA; 3. FUNDAMENTAO TERICA Dado, Informao, Conhecimento e Sabedoria Os termos dado, informao, conhecimento e sabedoria so usados indistintamente na literatura. Entretanto, tratam de diferentes conceitos que formam um modelo terico til nas atividades de gesto do conhecimento e sua aplicao na tecnologia da informao, denominado DIKW (data information knowledge - wisdom) (FREITAS, BECKER, et al., 1997). Dados so grupos de smbolos brutos no aleatrios, que precisam ser manipulados e colocados num contexto compreensvel antes de se tornarem teis. Informaes so dados agregados segundo critrios racionais ou intuitivos para o usurio, com valor real ou percebido para decises (FREITAS, BECKER, et al., 1997). Conhecimento conjunto de padres cuja formulao relaciona dados e informaes. Em geral no pode ser abstrado das bases de dados ou informaes textuais por recursos tradicionais da tecnologia da informao, o que demandou a criao da rea de descoberta de conhecimento (GOLDSCHMIDT e PASSOS, 2005). Sabedoria o conhecimento acumulado, que permite entender como aplicar conceitos e princpios fundamentais existente em novas situaes ou problemas (JESSUP e VALACICH, 2003) apud (ROWLEY, 2007). Dentre as diversas possibilidades de classificao de dados, a mais relevante para a pesquisa a distino entre dados estruturados, semiestruturados e no estruturados. Segundo Claro (CLARO), dados estruturados utilizam esquemas rgidos, com estrutura detalhada e restries de integridade onde o exemplo mais comum um banco de dados; dados semiestruturados apresentam caractersticas intermedirias entre dados estruturados e no estruturados, onde nem sempre h um esquema definido e a estrutura dos dados irregular, fortemente evolutiva e autodescritiva cujos exemplos incluem arquivos HTML e XML; e dados no estruturados so aqueles que no possuem nenhuma estrutura, seja ela implcita ou explcita, utilizando metadados para definir informaes do arquivo onde textos, imagens e vdeos so exemplos comuns. Descoberta de conhecimento A descoberta de conhecimento (Knowledge Discovery KD) uma rea multidisciplinar com subreas, em funo do tipo de dado processado: a descoberta de conhecimento em bases de dados (Knowledge Discovery in Databases KDD), que lida com o processamento de dados estruturados; e a descoberta de conhecimento em texto, (Knowledge Discovery from Text KDT), que trata da descoberta a partir de dados semiestruturados ou no estruturados (como textos, por exemplo). Segundo Morais et Ambrsio (MORAIS e AMBRSIO, 2007) apud Wives (WIVES, 2002), descobrir conhecimento significa identificar informaes relevantes e process-las, agregando conhecimentos prvios, visando obter novos conhecimentos a partir da identificao de padres ocultos nos dados. KDD O processo de KDD busca extrair conhecimentos vlidos a partir dos dados e informaes estruturados armazenados em um banco de dados (FAYYAD, PIATETSKY- SHAPIRO e SMYTH, 1996),(GOLDSCHMIDT e PASSOS, 2005). comum na literatura a confuso entre os termos KDD e Data mining, que so usualmente considerados sinnimos. Entretanto, o KDD representa todo o processo de extrao de conhecimento, sendo o Data Mining apenas uma etapa deste processo possivelmente a mais importante e o foco da maioria dos trabalhos, j que onde o conhecimento de fato obtido (CIOS e KURGAN, 2005),(FAYYAD, PIATETSKY- SHAPIRO e SMYTH, 1996). KDT A descoberta de conhecimento em textos busca extrair elementos-chave de conjuntos de dados no estruturados visando a estruturao da informao. Para isso, utiliza tcnicas de recuperao de informao, extrao de informao, processamento de linguagem natural, data mining, aprendizado de mquina e estatstica (HOTHO, NRNBERGER e PAA, 2005). A abordagem mais comum prope a estruturar a informao textual, permitindo que a minerao de dados seja executada da mesma forma que no KDD ainda que sejam utilizados algoritmos especficos para dados estruturados e dados no estruturados (FELDMAN e DAGAN, 1995). CRISP-DM A processo padro para minerao de dados (Cross-Industry Standard Process of Data Mining - CRISP-DM) uma metodologia descrita como modelo de processo hierrquico, composto por conjuntos de tarefas em quatro nveis de abstrao: fase, tarefa genrica, tarefa especializada e instncia do processo (CHAPMAN, CLINTON, et al., 2000). Partindo de um alto nvel de abstrao, so definidas seis fases, que passam: pelo entendimento do negcio da organizao e do projeto a ser executado; entendimento dos dados disponveis de forma a identificar os que sero utilizados na minerao; preparao dos dados, visando ajust-los para a minerao; modelagem, onde de fato so executados os algoritmos de minerao; avaliao do conhecimento gerado, e; distribuio, onde o conhecimento e os padres obtidos so aplicados no negcio. As fases, por sua vez, so compostas por vrias tarefas genricas, definidas de forma a ser geral suficiente para cobrir os diversos tipos de projetos de minerao de dados, mas buscando ser o mais completas e estveis possvel. A sequncia de fases e tarefas genricas apresentadas na metodologia so apenas uma referncia. O guia deixa claro que na prtica, muitas das tarefas podem ser realizadas em ordem diferente ou devem ser estabelecidas sequncias diferentes da proposta em funo da natureza do projeto, e por essa razo, no menciona todos os relacionamentos possveis listando apenas os mais frequentes. Das tarefas genricas, em funo da natureza do projeto, devem ser estabelecidas as tarefas especficas que sero utilizadas. Se no houver nenhuma necessidade especfica, recomendvel que seja seguida a ordem proposta na metodologia. Finalmente, a instncia do processo um registro das aes, decises e resultados de uma iniciativa de minerao de dados na organizao. Pode ser aplicada a apenas um projeto ou tornar um padro para projetos da mesma natureza UIMA A arquitetura de gerenciamento da informao no estruturada (Unstructured Information Management Architecture - UIMA) uma especificao criada em 2008, e define representaes e interfaces de dados independentes de plataforma para anlise de texto, atravs da realizao de minerao e extrao de conhecimento (STANDARD, 2008). A principal implementao da fundao Apache e consiste em trs partes: framework, componentes e infraestrutura. O framework auxilia na execuo dos componentes e esto disponveis para Java e C ++. Os componentes executam a estruturao da informao e a descoberta de conhecimento. A infraestrutura permite a orientao a servios, invocando servios da web (FOUNDATION). Principais tarefas da minerao de texto Tarefas de descoberta de conhecimento so operaes relacionadas s atividades de minerao de dados ou de texto, que podem ser executadas individualmente ou combinadas (GOLDSCHMIDT e PASSOS, 2005). A seguir so brevemente descritas as mais comuns. A descoberta de associaes, tambm conhecida como busca por regras de associao, consiste em encontrar conjuntos de itens que ocorram simultaneamente e de forma frequente no conjunto de dados utilizado. A classificao consiste em buscar uma funo que permita associar corretamente cada item Xi de um conjunto de dados a um nico rtulo Yj, denominado classe. Uma vez identificada a funo, atravs da utilizao de um conjunto de dados de treinamento, esta pode ser aplicada a novos itens, de forma a prever a classe em que um novo item se enquadra. A regresso busca por funes, lineares ou no, que mapeiem os itens de um conjunto de dados em valores reais. A tarefa similar de classificao, mas utilizada quando os atributos dos dados so apenas numricos. A clusterizao, tambm chamada de agrupamento, consiste em particionar o conjunto de dados em subconjuntos (clusters), de forma que os elementos de cada cluster compartilhem um conjunto de propriedades comuns e que os distinguem dos demais clusters. Finalmente, a deteco de desvios objetiva identificar mudanas em padres anteriormente percebidos. bastante utilizada em deteco de fraudes em cartes de crdito, planos de sade, arrecadao, dentre outros. Diferentemente das demais tarefas que buscam padres comuns nos itens, esta tarefa busca identificar padres com pouca incidncia e que sejam suficientemente distintos dos demais grupos. 4. METODOLOGIA E ESTRATGIA DE AO Para a obteno dos objetivos planejados, sero realizadas as seguintes etapas (i) Reviso bibliogrfica acerca do tema e dos objetos de investigao, ampliando o contedo da seo de referencial terico aqui apresentado; (ii) Definio do framework para descoberta de conhecimento em textos a partir do modelo de processo CRISP-DM e da especificao UIMA; (iii) Anlise da computabilidade do conhecimento, e; (iv) Realizao de estudo de caso. Para validar a hiptese ser realizado um estudo de caso da rea de TI de uma empresa pblica. Em funo de um histrico de terceirizaes e ausncia de documentao, a central de servio no dispe de protocolos de atendimento, e usualmente ocorrncias semelhantes tm tratamentos distintos. As ferramentas utilizadas atualmente so: uma soluo de registro de chamados, que armazena os dados do solicitante e o registro do problema, o histrico do registo e a resposta da solicitao fornecida pela rea tcnica; e um gerenciador de contedo que tem sido utilizado como repositrio de informaes, onde as pginas e os blogs registram informaes sobre os projetos da rea e os sistemas disponveis, seus problemas mais comuns e como solucion-los. Nota-se claramente que a maior parte dos dados no estruturada, em formato textual. Em funo da demanda da rea de TI por uma base de conhecimento com rotinas de atendimento para os problemas mais comuns, a pesquisa pretende desenvolver um prottipo que: recupere e realize o agrupamento (definio de clusters) tanto dos registros de incidentes quanto das pginas do gerenciador de contedo; tentar associar grupos de registros de incidentes aos grupos do gerenciador de contedo; classificar os novos registros de incidente por similaridade entre esse e os casos existentes, sugerindo o protocolo de atendimento a partir das pginas do gerenciador de contedo. A proposta contempla o uso do processo construdo a partir do CRISP-DM e o desenvolvimento de um prottipo de soluo web, desenvolvida em Java e baseada na arquitetura que ser proposta utilizando como referncia a especificao UIMA. Se houver tempo disponvel, ser verificada ainda possibilidade de integrao do UIMA com o WEKA - um framework de aprendizado de mquina criado pela Universidade de Waikato (HALL, FRANK, et al., 2009). 5. RESULTADOS E IMPACTOS ESPERADOS Como resultados esperados, destacam-se: (i) framework desenvolvido, com processo para descoberta de conhecimento a partir de textos mapeado e arquitetura orientada a servios, ambos aplicados no estudo de caso; (ii) prottipo de soluo para a central de servios da TI desenvolvido, e; (ii) melhoria da governana da TI da empresa pblica. A anlise dos resultados obtidos se dar em duas frentes. A primeira, no mbito do estudo de caso, consiste na avaliao da execuo do processo para descoberta de conhecimento e seus artefatos. A segunda, na avaliao da arquitetura proposta e o do prottipo de soluo de TI para o estudo de caso. Em ambos os casos, o objetivo identificar pontos fortes e fracos da soluo, dificuldades e oportunidades de melhoria. 6. RISCOS E DIFICULDADES Abaixo so listados possveis riscos e dificuldades relacionados realizao do projeto: (i) Dificuldade de obteno dos dados do estudo de caso, que ser mitigado atravs da solicitao de cpia dos dados de solicitaes de servio de TI da empresa e da base da ferramenta utilizada como repositrio de informao, alm da antecipao das etapas de entendimento do problema e dados (ii) Utilizao de tecnologias no dominadas, que ser mitigado atravs da antecipao da fundamentao terica e da definio da proposta de soluo. (iii) Ausncia de tempo para concluso das atividades previstas, que ser mitigado atravs do controle quinzenal do projeto e da reduo do escopo do estudo de caso, caso necessrio.
7. CRONOGRAMA FSICO DE ATIVIDADES A seguir apresentado o cronograma para execuo das atividades. Atividades 2013 2014 10 11 12 01 02 03 04 05 06 07 Concluir artigo de MPC X
Concluir plano de projeto X
Submeter artigo para SBSI
X
Definir arquitetura da soluo
X X
Definir processo CRISP
X X
Implementar prottipo do framework
X X
Estudo de caso
X X X X X X
Submeter artigo para ACM SIGKDD
X X
Cap 1 introduo X X X
X
Cap 2 - fundamentao terica X X X
Cap 3 Proposta de soluo
X X X X
Cap 4 Estudo de Caso
X X X X X X
Cap 5- Resultados
X X
Cap 6 Concluso
X
Reviso do Orientador
X X X X X X X X X Montagem apresentao defesa
X X Defesa
X
8. REFERNCIAS BIBLIOGRFICAS ARANHA, C.; PASSOS, E. A Tecnologia de Minerao de Textos. Revista Elernica de Sistemas de Informao, n. 2, 2006. AZEVEDO, A.; SANTOS, M. F. KDD, SEMMA AND CRISP-DM: A PARALLEL OVERVIEW. IADIS European Conference Data Mining 2008. [S.l.]: [s.n.]. 2008. BARBIERI, C. BI2Business Intelligence-Modelagem e Qualidade. Rio de Janeiro: Elsevier, 2011. BURCH, J. G. J.; STRATER, F. R. J. Information systems: theory and pratice. California: Hamilton publishing company, 1974. 494 p. CHAPMAN, P. et al. CRISP-DM. CRISP-DM Consortium. [S.l.], p. 76. 2000. CHAPMAN, P. et al. CRISP-DM 1.0 Step-by-step data mining guide. [S.l.]: [s.n.], 2000. CIOS, K. J. et al. Data Mining: A Knowledge Discovery Approach. [S.l.]: Springer, 2007. CIOS, K. J.; KURGAN, L. A. Trends in Data Mining and Knowledge. Advanced techniques in knowledge discovery and data mining. Springer, Londres, 2005. 1-26. CIOS, K. J.; KURGAN, L. A. Trends in data mining and knowledge discovery. Advanced techniques in knowledge discovery and data mining, Londres, 2005. 1-26. CLARO, D. B. MATE04 - Tpicos Especiais em Banco de Dados I. Disponivel em: <http://homes.dcc.ufba.br/~dclaro/mate04.html>. Acesso em: 15 out. 2013. DAVIS, G. B. Management Information Systems: conceptual foundations, stucture and development. New York: McGraw-hill, 1974. 404 p. DAVIS, G. B.; OLSON, M. H. Sistemas de informacin gerencial. Bogot: McGraw-Hill, 1987. 718 p. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases, 17, 1996. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge discovery in databases, 17, 1996. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery: An Overview. Advances in Knowledge Discovery, California, 1996. FELDMAN, R.; DAGAN, I. Knowledge Discovery in Textual Databases (KDT). KDD, v. 95, 1995. FOUNDATION, A. Welcome to the Apache UIMA project. Apache UIMA. Disponivel em: <http://uima.apache.org/index.html>. Acesso em: 14 dez. 2013. FREITAS, H. et al. Informao e deciso: Sistemas de apoio e seu impacto, Porto Alegre, v. 74, 1997. GOLDSCHMIDT, R.; PASSOS, E. Data Mining: Um Guia Prtico-Conceitos, Tcnicas, Ferramentas, Orientaes e Aplicaes. Rio de Janeiro: Campus, 2005. HALL, M. et al. The WEKA Data Mining Software: An Update. 1. ed. [S.l.]: SIGKDD Explorations, v. 11, 2009. HOTHO, A.; NRNBERGER, H. A. N.; PAA, G. A Brief Survey of Text Mining. Ldv Forum, v. 20, n. 1, 2005. JESSUP, L. M.; VALACICH, J. S. Information Systems Today. New Jersey: Prentice Hall, 2003. LAUDON, K.; LAUDON, J. Sistemas de Informao Gerenciais. 9 Edio. ed. So Paulo: Pearson Prentice Hall, 2010. MARISCAL, G.; MARBN, .; FERNNDEZ, C. A survey of data mining and knowledge discovery. The Knowledge Engineering Review, v. 25, n. 2, p. 137-166, 2010. MORAIS, E. A. M.; AMBRSIO, A. P. L. Minerao de Textos. Universidade Federal de Gois. Gois, p. 29. 2007. MORAIS, E. A. M.; AMBRSIO, A. P. L. Minerao de Textos. Universidade Federal de Gois. Gois, p. 29. 2007. NEGASH, S. Business Intelligence. Communications of the Association for Information Systems, v. 13, p. 177-195, 2004. PRASS, F. KDD UMA VISAL GERAL DO PROCESSO. ROWLEY, J. The wisdom hierarchy: representations of the DIKW hierarchy. Journal of Information Science, v. 2, n. 33, p. 163-180, 2007. STANDARD, O. Unstructured Information Management Architecture (UIMA) Version 1.0. [S.l.]: [s.n.], 2008. TAN, A.-H. Text mining: The state of the art and the challenges. Proceedings of the PAKDD 1999 Workshop on Knowledge Disocovery from Advanced Databases. [S.l.]: [s.n.]. 1999. p. 65-70. WIVES, L. Tecnologias de descoberta de conhecimento em textos aaplicadas inteligncia. PPGC-UFRGS. Rio Grande do Sul, p. 116. 2002.
Encaminho a proposta atualizada ao coordenador do curso em 14 de dezembro de 2013.
__________________________________________________ Victor Manaia Gonalves Chaves