Trabalho apresentado a Fernando Demtrio, professor da disciplina Tpicos Especiais em Banco de Dados do Curso de Engenharia da Computao, da Universidade Estadual do Maranho (UEMA), para obteno da nota referente a esta disciplina.
So Lus 2013 1. INTRODUO Desde que a informtica tomou conta de nossas vidas, imensos volumes de informao tm sido sistematicamente coletados e armazenados. A simples armazenagem e recuperao dessa informao j traz um grande benefcio, pois agora j no mais necessrio procurar informao em volumosos e ineficazes arquivos de papel. O conceito de Minerao de Dados (Data Mining) est se tornando cada vez mais popular como ferramenta de descoberta de informaes que podem revelar estruturas de conhecimento, que possam guiar decises em condies de certeza limitada. Atualmente, as organizaes tm se mostrado extremamente eficientes em capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operaes dirias ou pesquisas cientficas, porm, ainda no usam adequadamente essa gigantesca montanha de dados para transform-la em conhecimentos que possam ser utilizados em suas prprias atividades, sejam elas comerciais ou cientficas. Data Mining ou Minerao de Dados consiste em um processo analtico projetado para explorar grandes quantidades de dados (tipicamente relacionados a negcios, mercado ou pesquisas cientficas), na busca de padres consistentes e/ou relacionamentos sistemticos entre variveis e, ento, valid-los aplicando os padres detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: explorao; construo de modelo ou definio do padro; e validao/verificao. Pode-se dizer que Data Mining uma tecnologia que emergiu da interseco de trs reas: estatstica clssica, inteligncia artificial e aprendizado de mquinas. Observa-se que o Data Mining parte de um processo maior conhecido como KDD (Knowledge Discovery in Databases) Descoberta de Conhecimento em Base de Dados, que seria a descoberta de um conhecimento til na base de dados, assim descobrindo os padres oferecidos por esses bancos de dados e analisando os dados a fim de refinar os conhecimentos extrados. Dentre as vrias etapas do processo KDD, a principal, que forma o ncleo do processo e que, muitas vezes, confundida com ele, chama-se Data Mining.
2. O QUE DATA MINING? Talvez a definio mais importante de Data Mining tenha sido elaborada por Usama Fayyad (Fayyad et al. 1996): "...o processo no-trivial de identificar, em dados, padres vlidos, novos, potencialmente teis e ultimamente compreensveis" Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos recentemente) que processam os dados e encontram esses "padres vlidos, novos e valiosos". preciso ressaltar um detalhe que costuma passar despercebido na literatura: embora os algoritmos atuais sejam capazes de descobrir padres "vlidos e novos", ainda no temos uma soluo eficaz para determinar padres valiosos. Por essa razo, Data Mining ainda requer uma interao muito forte com analistas humanos, que so, em ltima instncia, os principais responsveis pela determinao do valor dos padres encontrados. Alm disso, a conduo (direcionamento) da explorao de dados tambm tarefa fundamentalmente confiada a analistas humanos, um aspecto que no pode ser desprezado em nenhum projeto que queira ser bem sucedido. 3. AS ETAPAS DO KDD E DATA MINING O processo KDD constitudo de vrias etapas bem pr-definidas que so executadas de forma interativa e iterativa. Bem as etapas so interativas pois sempre vo envolver a cooperao da pessoa responsvel pela anlise de dados, cujo o conhecimento sobre o domnio orientar a execuo do processo. Por sua vez iterativa pelo fato de que esse processo no executado de forma sequencial, mas envolve repetidas selees de parmetros e conjunto de dados, aplicaes das tcnicas de Data Mining e posterior anlise dos resultados obtidos, a fim de refinar os conhecimentos extrados. Vejamos na figura como se determinam as etapas do KDD.
A partir de fontes de dados (bancos de dados, relatrios, logs de acesso, transaes, etc.) efetua-se uma limpeza (consistncia, preenchimento de informaes, remoo de rudo e redundncias, etc.). Pois como em toda anlise quantitativa, a qualidade dos dados essencial para obteno de resultados confiveis. E esses dados limpos e compreensveis so a chave para o sucesso do Data Mining. Disto nascem os repositrios organizados (Data Marts e Data Warehouses), que j so teis de diversas maneiras. Mas a partir deles que se pode selecionar algumas colunas para atravessarem o processo de minerao. Data Warehouse definido como um deposito central de dados, extrados de dados operacionais, em que a informao orientada a assuntos, no voltil e de natureza histrica. Depois dos dados agrupados e pr-processados chegamos etapa do Data Mining propriamente dito. O objetivo principal dessa tcnica a aplicao de meios de minerao nos dados pr-processados, que consiste no uso de mtodos inteligentes para a extrao de padres ou conhecimentos dos dados. Para cada problema particular, tem-se uma tcnica particular de Data Mining, pois ela se adapta a cada problema com uma tcnica particular. A etapa final de minerao consiste no ps-processamento, que a interpretao dos padres descobertos e a possibilidade de retornar a qualquer uma das etapas anteriores. Assim, a informao extrada analisada em relao ao objetivo proposto. Dessa forma o propsito do resultado do Data Mining consiste em filtrar a informao que ser apresentada sem rudos que podem surgir durante o processo. 4. PRINCIPAIS TAREFAS DO DATA MINING Em geral, as tarefas do data mining podem ser classificadas em duas categorias: descriptive data mining e predictive data mining. O primeiro descreve o conjunto de dados de uma maneira concisa e resumida e apresenta propriedades gerais interessantes dos dados; o segundo constri um ou mais conjunto de modelos, realiza inferncias sobre o conjunto de dados disponveis e tenta predizer o comportamento de novos conjuntos de dados. Um sistema de data mining pode realizar as seguintes tarefas para a minerao dos dados: 1. Descrio de classes - prov um resumo conciso e sucinto de uma coleo de dados e a distingue de outras. O resumo de uma coleo de dados chamado de caracterizao de classe; enquanto a comparao entre duas ou mais colees de dados chamada comparao ou discriminao de classe. A descrio de classe no s deveria cobrir suas propriedades de resumo tal como a contagem, somas, e clculos de mdias, mas tambm suas propriedades sobre a disperso dos dados, tais como a varincia, desvio padro, quartis, etc. 2. Associao - a descoberta de relaes de associao ou correlaes entre um conjunto de itens. Eles so expressados frequentemente na forma de regras que mostram as condies atributo-valor que acontecem frequentemente juntas em um determinado conjunto de dados. Uma regra de associao da forma X + Y interpretada como "tuplas (conjunto de valores de atributos) de base de dados que satisfazem X so provveis que satisfaam Y". Anlise de associao extensamente usada em "transaction data analysis for directed marketing", design de catlogo e outros processos de decises comerciais. Significativo esforo de pesquisa foi desenvolvido em anlise de associaes com a proposio de algoritmos eficientes, incluindo ~ level-wise", minerao em mltiplos nveis, associaes multidimensionais, minerao de associaes numricas, categricas e de intervalos de dados, minerao baseada em restries alm de minerao de correlaes como Elmasri & Navathe. 3. Classificao - analisa um conjunto de dados de treinamento (i.e., um conjunto de objetos cuja classificao j conhecida) e constri um modelo para cada classe baseado nas caractersticas dos dados. Uma rvore de deciso ou um conjunto de regras de classificao gerado por tal processo de classificao, que pode ser usado para entender melhor cada classe no banco de dados e para classificao de futuros dados. Por exemplo, algum pode classificar doenas e ajudar a prever tipos de doenas baseados nos sintomas dos pacientes. Houveram muitos mtodos de classificao desenvolvidos nos campos de aprendizagem de mquina, estatstica, banco de dados, redes neurais, conjuntos rough sets, e outros. A classificao foi usada em segmentao de clientes, modelagem de negcios e anlise de crdito. 4. Previso - esta funo de minerao prediz os possveis valores de alguns dados perdidos ou a distribuio de valores de certos atributos em um conjunto de objetos. Ela envolve a descoberta de um conjunto de atributos relevantes para o atributo de interesse (e.g., por algumas anlise estatstica) e prediz a distribuio do valor baseada no valor do conjunto de dados semelhantes ao(s) objeto(s) selecionado(s). Por exemplo, o salrio potencial de um empregado pode ser predito baseado na distribuio do salrio de empregados semelhantes na companhia. Usualmente, anlise de regresso, modelo linear generalizado, anlise de correlao e rvores de deciso so ferramentas teis em predio de qualidade. Tambm so usados algoritmos genticos e redes neurais com bastante sucesso. 5. Agrupamento - anlise de "clusters" ou de agrupamento consiste em identificar possveis agrupamentos nos dados, onde um agrupamento uma coleo de objetos que so "semelhantes" um ao outro. Diferentes medidas de similaridade, baseadas em funes de distncia podem ser especificadas para diferentes contextos de aplicao. Um bom mtodo de "cluster" assegura que a similaridade inter-cluster baixa e a similaridade intra-cluster alta. Por exemplo, pode-se agrupar as casas de uma rea de acordo com sua categoria, rea construda e localizao geogrfica. Data mining tm enfocado suas pesquisas em mtodos de "clustering" de alta qualidade para grandes bases de dados e data warehouse. 6. Anlise de srie temporal - analisa um grande conjunto de dados de sries temporais para encontrar certas regularidades e caractersticas interessantes, incluindo a pesquisa de sequncias ou subsequncias semelhantes e descobrindo assim padres sequenciais, periodicidades, tendncias e divergncias. Por exemplo, pode-se predizer a tendncia dos valores acionrios para uma companhia baseando-se em sua histria acionria, situao empresarial, desempenho dos competidores e mercado atual. 5. EXEMPLOS DE APLICAO Wal- Mart Embora recente, a histria do data mining j tem casos bem conhecidos. O mais divulgado o da cadeia americana Wal-Mart, que identificou um hbito curioso dos consumidores. H cinco anos, ao procurar eventuais relaes entre o volume de vendas e os dias da semana, o software de data mining apontou que, s Sextas- feiras, as vendas de cervejas cresciam na mesma proporo que as de fraldas. Crianas bebendo cerveja? No, uma investigao mais detalhada revelou que, ao comprar fraldas para seus bebs, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana.
6. CONCLUSO Neste trabalho foi apresentado o modelo de minerao de dados Data Mining. Destaca-se Data Mining como parte de um processo maior, denominado KDD, e que se refere ao meio pelo qual padres so extrados e enumerados a partir dos dados, ou seja, ao uso de mtodos inteligentes para se extrair novos conhecimentos. Esses mtodos inteligentes so as tcnicas especficas de Data Mining. Deve-se entender que nenhuma tcnica de Data Mining trabalha sozinha, pois sempre h a necessidade de analistas capacitados que saibam interagir com os sistemas de forma a conduzi-los para uma extrao de padres teis e relevantes.
7. REFERNCIAS BIBLIOGRFICAS
[1] ADDRIANS, P. & ZANTINGE, D. Data Mining. Inglaterra: Addison- Wesley, 1996. [2] FAYYAD, U.M. et al. Advances in Knowledge Discovery and Data Mining. California: AAAI Press, 1996b. [3] FAYYAD, U.M. et al. The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: ___. Advances In Knowledge Discovery in Data Mining. Menlo Park: AAAI Press, 1996a. [4] DINIZ, C.A. &LOUZADA-NETO, F. Data Mining: uma introduo. So Carlos: Associao Brasileira de Estatstica, 2000.