Вы находитесь на странице: 1из 8

UNIVERSIDADE ESTADUAL DO MARANHO

CENTRO DE CINCIAS TECNOLGICAS


CURSO DE ENGENHARIA DA COMPUTAO





ERYCK DE ARAUJO OLIVEIRA















Tpicos Especiais em Banco de Dados























So Lus
2013
ERYCK DE ARAUJO OLIVEIRA






















DATA MINING: Minerao de Dados


Trabalho apresentado a Fernando Demtrio,
professor da disciplina Tpicos Especiais em
Banco de Dados do Curso de Engenharia da
Computao, da Universidade Estadual do
Maranho (UEMA), para obteno da nota
referente a esta disciplina.
















So Lus
2013
1. INTRODUO
Desde que a informtica tomou conta de nossas vidas, imensos volumes de
informao tm sido sistematicamente coletados e armazenados. A simples
armazenagem e recuperao dessa informao j traz um grande benefcio, pois
agora j no mais necessrio procurar informao em volumosos e ineficazes
arquivos de papel.
O conceito de Minerao de Dados (Data Mining) est se tornando cada vez
mais popular como ferramenta de descoberta de informaes que podem revelar
estruturas de conhecimento, que possam guiar decises em condies de certeza
limitada. Atualmente, as organizaes tm se mostrado extremamente eficientes em
capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas
operaes dirias ou pesquisas cientficas, porm, ainda no usam adequadamente
essa gigantesca montanha de dados para transform-la em conhecimentos que
possam ser utilizados em suas prprias atividades, sejam elas comerciais ou
cientficas.
Data Mining ou Minerao de Dados consiste em um processo analtico
projetado para explorar grandes quantidades de dados (tipicamente relacionados a
negcios, mercado ou pesquisas cientficas), na busca de padres consistentes e/ou
relacionamentos sistemticos entre variveis e, ento, valid-los aplicando os
padres detectados a novos subconjuntos de dados. O processo consiste
basicamente em 3 etapas: explorao; construo de modelo ou definio do
padro; e validao/verificao.
Pode-se dizer que Data Mining uma tecnologia que emergiu da interseco
de trs reas: estatstica clssica, inteligncia artificial e aprendizado de mquinas.
Observa-se que o Data Mining parte de um processo maior conhecido como KDD
(Knowledge Discovery in Databases) Descoberta de Conhecimento em Base de
Dados, que seria a descoberta de um conhecimento til na base de dados, assim
descobrindo os padres oferecidos por esses bancos de dados e analisando os
dados a fim de refinar os conhecimentos extrados.
Dentre as vrias etapas do processo KDD, a principal, que forma o ncleo
do processo e que, muitas vezes, confundida com ele, chama-se Data Mining.



2. O QUE DATA MINING?
Talvez a definio mais importante de Data Mining tenha sido elaborada por
Usama Fayyad (Fayyad et al. 1996):
"...o processo no-trivial de identificar, em dados, padres vlidos, novos,
potencialmente teis e ultimamente compreensveis"
Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos
recentemente) que processam os dados e encontram esses "padres vlidos, novos
e valiosos". preciso ressaltar um detalhe que costuma passar despercebido na
literatura: embora os algoritmos atuais sejam capazes de descobrir padres "vlidos
e novos", ainda no temos uma soluo eficaz para determinar padres valiosos.
Por essa razo, Data Mining ainda requer uma interao muito forte com analistas
humanos, que so, em ltima instncia, os principais responsveis pela
determinao do valor dos padres encontrados. Alm disso, a conduo
(direcionamento) da explorao de dados tambm tarefa fundamentalmente
confiada a analistas humanos, um aspecto que no pode ser desprezado em
nenhum projeto que queira ser bem sucedido.
3. AS ETAPAS DO KDD E DATA MINING
O processo KDD constitudo de vrias etapas bem pr-definidas que so
executadas de forma interativa e iterativa. Bem as etapas so interativas pois
sempre vo envolver a cooperao da pessoa responsvel pela anlise de dados,
cujo o conhecimento sobre o domnio orientar a execuo do processo. Por sua
vez iterativa pelo fato de que esse processo no executado de forma sequencial,
mas envolve repetidas selees de parmetros e conjunto de dados, aplicaes das
tcnicas de Data Mining e posterior anlise dos resultados obtidos, a fim de refinar
os conhecimentos extrados. Vejamos na figura como se determinam as etapas do
KDD.












A partir de fontes de dados (bancos de dados, relatrios, logs de acesso,
transaes, etc.) efetua-se uma limpeza (consistncia, preenchimento de
informaes, remoo de rudo e redundncias, etc.). Pois como em toda anlise
quantitativa, a qualidade dos dados essencial para obteno de resultados
confiveis. E esses dados limpos e compreensveis so a chave para o sucesso do
Data Mining. Disto nascem os repositrios organizados (Data Marts e Data
Warehouses), que j so teis de diversas maneiras. Mas a partir deles que se
pode selecionar algumas colunas para atravessarem o processo de minerao. Data
Warehouse definido como um deposito central de dados, extrados de dados
operacionais, em que a informao orientada a assuntos, no voltil e de natureza
histrica.
Depois dos dados agrupados e pr-processados chegamos etapa do Data
Mining propriamente dito. O objetivo principal dessa tcnica a aplicao de meios
de minerao nos dados pr-processados, que consiste no uso de mtodos
inteligentes para a extrao de padres ou conhecimentos dos dados.
Para cada problema particular, tem-se uma tcnica particular de Data
Mining, pois ela se adapta a cada problema com uma tcnica particular. A etapa final
de minerao consiste no ps-processamento, que a interpretao dos padres
descobertos e a possibilidade de retornar a qualquer uma das etapas anteriores.
Assim, a informao extrada analisada em relao ao objetivo proposto. Dessa
forma o propsito do resultado do Data Mining consiste em filtrar a informao que
ser apresentada sem rudos que podem surgir durante o processo.
4. PRINCIPAIS TAREFAS DO DATA MINING
Em geral, as tarefas do data mining podem ser classificadas em duas
categorias: descriptive data mining e predictive data mining. O primeiro descreve o
conjunto de dados de uma maneira concisa e resumida e apresenta propriedades
gerais interessantes dos dados; o segundo constri um ou mais conjunto de
modelos, realiza inferncias sobre o conjunto de dados disponveis e tenta predizer
o comportamento de novos conjuntos de dados.
Um sistema de data mining pode realizar as seguintes tarefas para a
minerao dos dados:
1. Descrio de classes - prov um resumo conciso e sucinto de uma
coleo de dados e a distingue de outras. O resumo de uma coleo de dados
chamado de caracterizao de classe; enquanto a comparao entre duas ou mais
colees de dados chamada comparao ou discriminao de classe. A descrio
de classe no s deveria cobrir suas propriedades de resumo tal como a contagem,
somas, e clculos de mdias, mas tambm suas propriedades sobre a disperso
dos dados, tais como a varincia, desvio padro, quartis, etc.
2. Associao - a descoberta de relaes de associao ou correlaes
entre um conjunto de itens. Eles so expressados frequentemente na forma de
regras que mostram as condies atributo-valor que acontecem frequentemente
juntas em um determinado conjunto de dados. Uma regra de associao da forma
X + Y interpretada como "tuplas (conjunto de valores de atributos) de base de
dados que satisfazem X so provveis que satisfaam Y". Anlise de associao
extensamente usada em "transaction data analysis for directed marketing", design de
catlogo e outros processos de decises comerciais.
Significativo esforo de pesquisa foi desenvolvido em anlise de
associaes com a proposio de algoritmos eficientes, incluindo ~ level-wise",
minerao em mltiplos nveis, associaes multidimensionais, minerao de
associaes numricas, categricas e de intervalos de dados, minerao baseada
em restries alm de minerao de correlaes como Elmasri & Navathe.
3. Classificao - analisa um conjunto de dados de treinamento (i.e., um
conjunto de objetos cuja classificao j conhecida) e constri um modelo para
cada classe baseado nas caractersticas dos dados. Uma rvore de deciso ou um
conjunto de regras de classificao gerado por tal processo de classificao, que
pode ser usado para entender melhor cada classe no banco de dados e para
classificao de futuros dados. Por exemplo, algum pode classificar doenas e
ajudar a prever tipos de doenas baseados nos sintomas dos pacientes.
Houveram muitos mtodos de classificao desenvolvidos nos campos de
aprendizagem de mquina, estatstica, banco de dados, redes neurais, conjuntos
rough sets, e outros. A classificao foi usada em segmentao de clientes,
modelagem de negcios e anlise de crdito.
4. Previso - esta funo de minerao prediz os possveis valores de
alguns dados perdidos ou a distribuio de valores de certos atributos em um
conjunto de objetos. Ela envolve a descoberta de um conjunto de atributos
relevantes para o atributo de interesse (e.g., por algumas anlise estatstica) e
prediz a distribuio do valor baseada no valor do conjunto de dados semelhantes
ao(s) objeto(s) selecionado(s). Por exemplo, o salrio potencial de um empregado
pode ser predito baseado na distribuio do salrio de empregados semelhantes na
companhia. Usualmente, anlise de regresso, modelo linear generalizado, anlise
de correlao e rvores de deciso so ferramentas teis em predio de qualidade.
Tambm so usados algoritmos genticos e redes neurais com bastante sucesso.
5. Agrupamento - anlise de "clusters" ou de agrupamento consiste em
identificar possveis agrupamentos nos dados, onde um agrupamento uma coleo
de objetos que so "semelhantes" um ao outro. Diferentes medidas de similaridade,
baseadas em funes de distncia podem ser especificadas para diferentes
contextos de aplicao. Um bom mtodo de "cluster" assegura que a similaridade
inter-cluster baixa e a similaridade intra-cluster alta. Por exemplo, pode-se
agrupar as casas de uma rea de acordo com sua categoria, rea construda e
localizao geogrfica.
Data mining tm enfocado suas pesquisas em mtodos de "clustering" de
alta qualidade para grandes bases de dados e data warehouse.
6. Anlise de srie temporal - analisa um grande conjunto de dados de
sries temporais para encontrar certas regularidades e caractersticas interessantes,
incluindo a pesquisa de sequncias ou subsequncias semelhantes e descobrindo
assim padres sequenciais, periodicidades, tendncias e divergncias. Por
exemplo, pode-se predizer a tendncia dos valores acionrios para uma companhia
baseando-se em sua histria acionria, situao empresarial, desempenho dos
competidores e mercado atual.
5. EXEMPLOS DE APLICAO
Wal- Mart
Embora recente, a histria do data mining j tem casos bem conhecidos. O
mais divulgado o da cadeia americana Wal-Mart, que identificou um hbito curioso
dos consumidores. H cinco anos, ao procurar eventuais relaes entre o volume de
vendas e os dias da semana, o software de data mining apontou que, s Sextas-
feiras, as vendas de cervejas cresciam na mesma proporo que as de fraldas.
Crianas bebendo cerveja? No, uma investigao mais detalhada revelou que, ao
comprar fraldas para seus bebs, os pais aproveitavam para abastecer o estoque de
cerveja para o final de semana.




6. CONCLUSO
Neste trabalho foi apresentado o modelo de minerao de dados Data
Mining. Destaca-se Data Mining como parte de um processo maior, denominado
KDD, e que se refere ao meio pelo qual padres so extrados e enumerados a
partir dos dados, ou seja, ao uso de mtodos inteligentes para se extrair novos
conhecimentos. Esses mtodos inteligentes so as tcnicas especficas de Data
Mining. Deve-se entender que nenhuma tcnica de Data Mining trabalha sozinha,
pois sempre h a necessidade de analistas capacitados que saibam interagir com os
sistemas de forma a conduzi-los para uma extrao de padres teis e relevantes.

7. REFERNCIAS BIBLIOGRFICAS

[1] ADDRIANS, P. & ZANTINGE, D. Data Mining. Inglaterra: Addison-
Wesley, 1996.
[2] FAYYAD, U.M. et al. Advances in Knowledge Discovery and Data
Mining. California: AAAI Press, 1996b.
[3] FAYYAD, U.M. et al. The KDD Process for Extracting Useful
Knowledge from Volumes of Data. In: ___. Advances In Knowledge Discovery
in Data Mining. Menlo Park: AAAI Press, 1996a.
[4] DINIZ, C.A. &LOUZADA-NETO, F. Data Mining: uma introduo. So
Carlos: Associao Brasileira de Estatstica, 2000.

Вам также может понравиться