Вы находитесь на странице: 1из 10

Introduo ao Data Mining

Gustavo R. C. Ferreira, Marcelo S. da Silva, Roger Renan B. Camargo Universidade Luterana do Brasil (ULBRA) Caixa Postal 96.501-595 Cachoeira do Sul RS Brasil
gustavo_casanov@hotmail.com, marceloschsilva@gmail.com, renan.brendler@gmail.com

Resumo. Data Mining, ou Minerao de Dados, pode ser entendida como um processo de extrao de informaes, de forma semi-automtica e sem conhecimento prvio, para encontrar padres teis dentro de um grande banco de dados. Ou seja, a minerao de dados faz parte do processo de descoberta de conhecimento nos bancos de dados. Alguns tipos de conhecimento descoberto de um banco de dados podem ser representados por um conjunto de aplicaes. As aplicaes mais utilizadas so aqueles que exigem algum tipo de previso. Por exemplo, prever se uma pessoa que se candidatou a uma vaga de emprego, tem boas referncias. Mas tambm se tem aplicaes do tipo associaes que so utilizadas quando se quer associar algo, como por exemplo, quando uma pessoa compra algo e o vendedor tenta vender um acessrio junto. E tambm se tem a aplicao do tipo agrupamentos, que pode ser utilizada na deteco de doenas. O conhecimento pode ser representado tambm por hipteses, regras, rvores de deciso, grafos, ou dendrogramas. Tambm mostraremos as importncias e inovaes que a Data Mining pode trazer para dentro das empresas. Este artigo se prope a abordar de maneira introdutria, o assunto Data Mining, sua utilizao, aplicaes e alguns conceitos complementares necessrios ao entendimento do assunto.

1. Introduo

O Data Mining surgiu de uma necessidade. Com inovaes a cada dia que passa, os sistemas computacionais geram grandes quantidades de informaes. A Minerao de Dados como tambm chamada, surgiu como ferramenta com grande disponibilidade de dados armazenados eletronicamente onde existem grandes volumes dessas informaes teis para serem aproveitadas para prever um

conhecimento futuro e assim, ir alm do armazenamento explcito de dados. Para administrar essa quantidade de informaes, utiliza tcnicas de inteligncia artificial que procuram relaes de similaridade ou discordncia entre esses dados. Seu objetivo encontrar, automaticamente, padres, anomalias e regras com o propsito de transformar dados, aparentemente ocultos, em informaes teis para a tomada de deciso e/ou avaliao de resultados. Uma empresa com a Data Mining capaz de criar parmetros para entender o comportamento do consumidor, identificar afinidades entre as escolhas de produtos e servios, prever hbitos de compras e analisar comportamentos habituais para detectar fraudes. Isso busca dar subsdios empresa com conhecimento novo e til acerca do seu ambiente. considerado um plano estratgico. A minerao de dados busca conhecer melhor os clientes, seus padres de consumo e motivaes, resgata em organizaes grandes o papel do dono atendendo no balco e conhecendo sua clientela. Atravs do Data Mining, esses dados agora podem agregar valor s decises da empresa, sugerir tendncias, desvendar particularidades dela e de seu meio ambiente e permitir aes melhor informadas aos seus gestores.

2. Levantamento Bibliogrfico

2.1 - DESCOBERTA DO CONHECIMENTO


A descoberta do conhecimento em base de dados, tambm identificada pela sigla do ingls (KDD) a obteno de conhecimento e informaes teis a partir de grandes conjuntos de dados armazenados em algum Banco de Dados. Historicamente, o processo de encontrar padres teis em dados no seu estado bruto tem recebido diversos nomes, dentre eles a descoberta do conhecimento em bases de dados, minerao de dados, extrao de conhecimento da informao, colheita de informao, arqueologia de dados e padronizao de dados. Este processo surgiu em 1989 com o objetivo de encontrar conhecimento implcito existente em bases de dados e o interesse pela explorao de dados vem crescendo. Diversos congressos e seminrios enfocam o tema, analisando tcnicas e descobertas sobre o assunto e apresentando novas ferramentas para sua implementao.

O processo composto por 6 fases:

Limpeza dos dados; Integrao dos dados; Seleo dos dados; Transformao ou Codificao; Data Mining e, Construo de relatrios e Apresentao da informao descoberta.

Figura 1 Etapas do Processo de KDD - Adaptada de Sandra de Amo. Tcnicas de Minerao de Dados, Faculdade de Computao, Universidade Federal de Uberlndia.

Apresenta-se um exemplo:
(conforme bibliografia consultada: ELMASRI, Ramez e NAVATHE Shamkant).

Um banco de dados mantido por um comerciante. Os dados do cadastro de cliente incluem: Nome, CEP, Telefone, Data da Compra, Cdigo do Item, Preo, Quantidade e Valor Total. Notoriamente, vrias informaes sobre o cliente podem ser obtidas pelo processo de descoberta do conhecimento nesse banco de dados. Na seleo de dados, podem ser levantados dados especficos ou categorias de itens. Na limpeza de dados pode-se corrigir ou eliminar dados como CEPs ou Telefones com prefixos errados. O Enriquecimento adiciona fontes adicionais de informao, isto , possibilita saber mais dados sobre aquele cliente. A Transformao ou Codificao serve para reduo na quantidade de dados, por exemplo, agrupando-os por semelhana. Ai ento, as tcnicas de Data Mining podem ser aplicadas.

O resultado da Minerao de Dados pode descobrir os seguintes tipos de informao nova. Associao: esta tarefa tem o intuito de identificar associaes entre registros de dados que de alguma maneira esto ou devem estar relacionados. Seqencial: por exemplo, suponha-se que o cliente comprou uma cmera, e que durante trs meses ele compre materiais fotogrficos e, provavelmente, em seis meses ele comprar algum acessrio. Isto define um padro seqencial de transaes. Classificao: por exemplo, clientes podem ser classificados por frequncia de visitas, por tipo de financiamento utilizado, por quantidade comprada, afinidade por determinados tipos de itens. Isso gera estatsticas reveladoras sobre cada classe de cliente. Estimao: uma tarefa que trabalha com resultados estimados normalmente usados para executar uma tarefa de classificao. Existe um nmero grande de novas descobertas de conhecimento sobre os padres de compra, relacionando diversos fatores como idade, renda, com o que e como muitos clientes compram. Estas informaes so teis para todo o tipo de planejamento como a localizao de novas lojas, promoes, propaganda e estratgias de marketing. A Data Mining deve ser precedida de minuciosa preparao dos dados antes que ela possa gerar alguma informao significativa que influencie as decises do negcio. Depois disto, os resultados podem ser mostrados em uma srie de formatos, como listagens, grficos, ou tabelas.

2.1.1 - METAS DA DATA MINING E DA DESCOBERTA DO CONHECIMENTO

Normalmente, a Data Mining executada para se alcanar alguma meta ou aplicao de seus resultados. De forma geral, estes propsitos falham em algumas classes: predio, identificao, classificao e otimizao.

Predio A Data Mining pode mostrar como certos atributos iro se comportar no futuro baseados em comportamentos preditos dos clientes. Por exemplo: em determinado perodo, determinado produto vende mais.

Identificao Padres de dados podem ser usados para identificar a existncia de um item, um evento ou uma atividade. Nesta etapa feito o mapeamento do sistema. Por exemplo, a autenticao, uma forma de identificao j que ela verifica se o usurio realmente autorizado a acessar aquele banco de dados. Possveis ameaas tambm so detectadas, j que nesse espao que podem ser registrada a frequncia de acesso ou tentativas de acesso ao banco de dados.

Classificao A Data Mining pode particionar os dados. Baseadas em combinaes de parmetros, as diferentes classes ou categorias podem ser identificadas. A classificao pode ser utilizada em diferentes anlises de compras do cliente como uma atividade ps-minerao. Por exemplo: Em um supermercado, existem comidas saudveis, comida para festas, comida para lanches escolares que so categorias diferentes no negcio principal do supermercado. Normalmente utilizada antes de uma Data Mining mais refinada.

Otimizao A Data Mining pode otimizar o uso de recursos limitados como tempo, espao, dinheiro e maximizar variveis de sada como vendas ou lucro.

2.1.2 - APLICAO DE DESCOBERTA DO CONHECIMENTO

As tecnologias da Data Mining podem ser aplicadas numa variedade de contextos que incluem a tomada de decises empresariais e reas com significativo retorno de investimento. Entre elas: Anlise de mercado: Oferecer e/ou disponibilizar produtos ou servios de maneira que incentivam o consumo, a partir da procura de padres em compras associadas a esses produtos ou servios. Selecionar pessoal para envio de material de propaganda e de promoo baseado nos padres de vida destes. Anlise de crdito: Liberar crdito para um novo cliente identificando seu poder de compra de crdito e endividamento. Identificar clientes que esto propensos a migrar para concorrentes, a partir da descoberta de padres de consumo e de outros fatores de mercado.

Deteco de crimes: Analisar crimes ocorridos procurando encontrar padres nos dados que auxiliem na elucidao de casos e na preveno de novos crimes. Identificar transaes habituais que detectam aes fraudulentas. Medicina: Analisar histricos de pacientes a fim de melhorar o desempenho de atletas e otimizar o tratamento de doenas.

2.1.3 - TIPOS DE DESCOBERTA DO CONHECIMENTO DURANTE A MINERAO DE DADOS

O termo conhecimento comumente interpretado como o envolvimento de algum grau de inteligncia. Existe uma progresso do dado para a informao e para o conhecimento a medida que este evolu com o processamento. divido em dois tipos: Conhecimento dedutivo: deduz novas informaes baseadas na aplicao de regras lgicas predefinidas sobre dados existentes. No conhecimento indutivo, o mais usado no Data Mining, se descobre novas regras e padres nos dados fornecidos. Dois se destacam quando o assunto descrever o conhecimento encontrado durante o Data Mining:

2.1.3.1 Regras de Associao Essas regras relacionam a presena de um conjunto de itens com outra faixa de valores de um outro conjunto de variveis. Podem ser artigos comprados por um cliente, sintomas apresentados por um paciente, entre outros. Por exemplo, um supermercado. Possui o seguinte padro: Clientes que compram po tambm compram leite. Isso representa uma regra de associao que remete um padro de comportamento dos clientes do supermercado. Descobrir regras de associao entre produtos comprados por clientes numa mesma compra pode ser til para melhorar a organizao das prateleiras, facilitar as compras do usurio ou induzi-lo a comprar mais. 2.1.3.2 Hierarquias de Classificao O objetivo trabalhar em um conjunto de eventos ou transaes para criar uma hierarquia de classes. Por exemplo: uma populao pode ser dividida em cinco faixas de risco de crdito tendo como base o histrico de transaes de crdito anteriormente realizadas. Comidas em um supermercado outro exemplo, pois, classes e subclasses geram hierarquias. Porm preciso estar atento para no gerar associao dentro de uma mesma hierarquia, pois isto no ter utilidade. preciso trabalhar para uma

associao entre duas ou mais hierarquias que podem ocorrer entre itens agrupados em diferentes nveis.

2.1.3.3 Padres Sequenciais Uma sequencia de aes ou eventos investigada. Por exemplo: Se um paciente fez ponte de safena cardaca para artrias bloqueadas e um aneurisma, e depois desenvolveu uma uria alta no sangue no perodo de um ano, ele est propenso a sofrer de problemas renais nos prximos dezoito meses. A deteco de padres sequenciais equivalente deteco de associao entre eventos com algum relacionamento temporal.

2.1.3.4 Padres Com Sries Temporais Sries temporais so sequencia de eventos. Similaridades podem ser encontradas em posies de uma srie temporal de dados, que uma sequencia de dados tomada a intervalos regulares, como vendas dirias ou preo dirio de fechamento de aes. Por exemplo: Dois produtos mostram o mesmo padro de vendas no vero, mas diferentes no inverno.

2.1.3.5 Clustering (Agrupando) Uma dada populao de eventos ou novos itens podem ser particionados em conjuntos de elementos similares. Por exemplo, em empresas pode ser importante determinar grupos de clientes que tenham padres parecidos de compras, ou em medicina pode ser importante determinar grupos de pacientes que mostrem reaes parecidas a determinados medicamentos. O objetivo do agrupamento colocar os registros em grupos, de tal forma que os registros de um grupo sejam similares aos demais do mesmo grupo e diferentes daqueles dos demais grupos.

2.1.4 - FERRAMENTAS COMERCIAIS PARA DATA MINING

As ferramentas do Data Mining utilizam tcnicas para extrao do conhecimento. Tais tcnicas incluem regras de associao, agrupamento (clustering), regras neurais, sequenciamento e anlise estatstica. Existem tambm outras tcnicas consideradas mais avanadas.

A maioria das ferramentas de Data Mining usa a interface ODBC (Open Database Connectivity Conectividade de banco de dados aberta). A ODBC um padro da indstria que trabalha com banco de dados; permite o acesso aos dados na maioria dos banco de dados populares, como o Access, dBase, Informix, Oracle e SQL Server. A maior parte das ferramentas trabalha em ambiente Microsoft Windows, mas tambm existem aqueles do sistema operacional UNIX. Esses produtos trabalham no modo cliente servidor.

2.1.4.1. Interface para o Usurio Executada em ambientes com interfaces grficas para o usurio, os produtos incluem tcnicas de visualizao dos dados apontadas por alguns usurios como sofisticadas. So tambm aptos a manipular dados interativamente. Interfaces de texto so raras e so mais comuns em ferramentas disponveis para UNIX.

2.1.4.2. Application Programming Interface (API Interface para Programao de Aplicaes) A API considerada uma ferramenta opcional. A maioria dos produtos no permite o uso de suas funes internas. Entretanto, algumas permitem que o programador reutilize seus cdigos. Essas interfaces so as bibliotecas de C e as Dynamic Link Libraries (DLLs).

2.1.4.3. Tendncias Existem muitas ferramentas de Data Mining e as tendncias para o futuro apontam para o desenvolvimento de algoritmos na rea de Inteligncia Artificial, estatstica e otimizao. O processamento rpido alcanado empregando-se estas tcnicas consideradas modernas como o processamento distribudo, em arquiteturas cliente-servidor, em banco de dados paralelos e data warehousing. O quadro abaixo contm dados sobre alguns sistemas mineradores, juntamente com algumas das suas funcionalidades:

Nome Intelligent Miner

Fabricante IBM

Funes Algoritmos para regras de associao, classificao, regresso, padres

Destaque Integrado com o SGBD DB2 da IBM. Grande

sequenciais, clustering. MineSet Silicon Graphics Inc. Integral Solutions Ltd. Algoritmos para regras de associao, classificao, anlise estatstica. Algoritmos de regras de induo, redes neurais, classificao e ferramentas de visualizao. Algoritmos de regras de associao, classificao, clustering. Algoritmos de anlise de sequncias

escalabilidade dos algoritmos. Conjunto de ferramentas avanadas de visualizao. Interface orientada a objeto.

Clementine

DBMiner

DBMiner Technology Inc. Genamics Developer

Data Mining utilizando OLAP Anlise de protenas e de sequencias de DNA

Genamics Expression

Adaptado de: AMO, Sandra de. Tcnicas de Minerao de Dados, Faculdade de Computao, Universidade Federal de Uberlndia.

3. Concluso
As organizaes tm mostrado diferentes maneiras para capturar, organizar e armazenar grandes quantidades de dados, obtidos de suas operaes dirias ou pesquisas cientficas, porm, essa montanha de dados ainda no usada corretamente para transformar dados em conhecimento que possa ser utilizado em suas atividades comerciais ou cientficas. A utilizao de Data Mining contribui para a identificao de informaes relevantes. A adeso desta ferramenta torna o processo de tomada de deciso mais seguro e confivel. O Data Mining apresenta-se como uma ferramenta de gerenciamento de informao, que revela conhecimento, que possa ser usado para tomada de decises. Retirar algo que realmente tenha algum valor de um emaranhado de dados algo complicado e muitas vezes acaba sem resultado nenhum. preciso saber interagir com os sistemas de forma a conduzi-los para uma extrao de conhecimento til e relevante. Hoje, com a gerao de um volume cada vez maior de informao essencial tentar aproveitar o mximo possvel deste investimento para que a empresa no saia no prejuzo. Basicamente, todas as reas em que as tcnicas de minerao de dados podem ser usadas, aproveitam melhor o conhecimento.

4. Referncias Bibliogrficas

ELMASRI, Ramez e NAVATHE Shamkant B. (2005). Sistemas de Banco de Dados, Editora Addison Wesley, 4 Edio.

AMO, Sandra de. Tcnicas de Minerao de Dados, Faculdade de Computao, Universidade Federal de Uberlndia. POTTER Cristian (2003). Minerao de Dados: Pesquisa e Aplicao, Curso de Cincia da Computao, Universidade Luterana do Brasil de Cachoeira do Sul RS.

Вам также может понравиться