Академический Документы
Профессиональный Документы
Культура Документы
22/03/2014
- Deteco de SPAM
22/03/2014 Minerao de Dados - Aula II 2
22/03/2014
Fralda Cerveja
22/03/2014
22/03/2014
22/03/2014
22/03/2014
Minerao Descritiva:
- Procura-se extrair padres e regras que descrevam caractersticas importantes dos dados do domnio de aplicao.
22/03/2014
22/03/2014
10
5 4 3 2
Regras e Padres Dados Dados Transformados Pr-processados
Conhecimento
1
Dados Selecionados
Dados
From data mining to knowledge discovery: An overview, U.M.Fayyad et. al., 1996. 22/03/2014 Minerao de Dados - Aula II 11
Catlogo
SELEO PR-PROCESSAMNETO TRANSFORMAO CARGA ATUALIZAO
Visualizao
SUPORTA
OLAP
DATA WAREHOUSE
MINERAO DE DADOS
22/03/2014
12
22/03/2014
13
Regras de Associao
(market basket analysis)
Uma regra de associao representa um padro de relacionamento entre itens de dados do domnio da aplicao que ocorre com uma determinada freqncia na base.
Regras de Associao
(market basket analysis)
Regras de associao so extradas a partir de bases de dados que contm transaes - formadas por conjuntos de itens do domnio da aplicao.
Id-Transao (TID) 1 2 3 4 5 {fralda} {cerveja} {fralda} {leite} {leite} {fralda} {carne} {cerveja} Itens Comprados leite, po, refrigerante cerveja, carne cerveja, fralda, leite, refrigerante cerveja, fralda, leite, po fralda, leite, refrigerante confiana de 66% confiana de 100% confiana de 75% confiana de 100% (suporte mdio) (suporte alto) (suporte alto) (suporte baixo)
22/03/2014
15
Minerao de Regras/Excees
Fonte:
Ministrio da Sade Casos de AIDS diagnosticados no Brasil entre 1980 e 2001. 172.563 tuplas e 10 atributos
Entrada:
R: (Transmisso Sexual = No) (Drogas = Sim) Sup = 13,05%, Conf = 88,09% A = {Sexo, Idade, Regio}
Sada:
41 excees negativas e 5 excees positivas
22/03/2014 Minerao de Dados - Aula II 16
Exceo Negativa:
(Transmisso Sexual = No) (Drogas = Sim) [ (Sexo = F), (Regio = Norte) ]
22/03/2014
17
Minerao de Excees
Fonte:
UCI Repository of Machine Learning Databases Censo da cidade de Washington, ano de 1990 48.842 tuplas e 14 atributos
Entrada:
R: (IncomeClass = >50K) Sup = 24,08%
Sada:
20 excees positivas
22/03/2014
18
Excees Positivas:
(IncomeClass = >50K) [(Education = Doctorate)] MF+ = 0,6702 (IncomeClass = >50K) [(Education = Masters)] MF+ = 0,5682 (IncomeClass = >50K) [(HoursPerWeek = 56-60)] MF+ = 0,4474 (IncomeClass = >50K) [(HoursPerWeek = 51-55)] MF+ = 0,4428 (IncomeClass = >50K) [(Age = 46-50)] MF+ = 0,3961 (IncomeClass = >50K) [(Age = 51-55)] MF+ = 0,3934
22/03/2014
19
Padres de Seqncias
Padres de seqncias representam seqncias de conjuntos de itens que ocorrem nas transaes de diferentes consumidores, com determinada freqncia (na ordem especificada).
Consumidor
Joo Joo Joo Marcos Marcos
Data/Hora
01.08.2001/17:01 03.08.2001/14:25 10.08.2001/21:15 05.08.2001/10:16 08.08.2001/18:30
Produtos
leite, po carne, cerveja queijo, manteiga, sal leite, ovos queijo, manteiga
Classificao
Um classificador estima/prev, entre um conjunto pr-definido de classes, aquela qual pertence um elemento, a partir de seus atributos.
Salrio 3.000 4.000 7.000 6.000 7.000 6.000 6.000 7.000 4.000
Idade 30 35 50 45 30 35 35 30 45
Tipo Emprego Autnomo Indstria Pesquisa Autnomo Pesquisa Indstria Autnomo Autnomo Indstria
Classe B B A A B B A A B
21
Classificao
ID 1 2 3 4 5 6 7 8 9 Salrio 3.000 4.000 7.000 6.000 7.000 6.000 6.000 7.000 4.000 Idade Tipo Emprego 30 Autnomo 35 Indstria 50 Pesquisa 45 Autnomo 30 Pesquisa 35 Indstria 35 Autnomo 30 Autnomo 45 Indstria Classe B B A A B B A A B
elemento E
Agrupamento (Clustering)
Agrupar (clusterizar) significa identificar um conjunto finito de categorias (ou grupos - clusters) que contm objetos similares. grupos/categorias/classes no so previamente definidos.
Exemplo: Deseja-se separar os clientes em grupos de forma que aqueles que apresentam o mesmo comportamento de consumo fiquem no mesmo grupo.
Consumidor 1 2 3 4 5 6 7 8 9 Qtd.Md.Tot.Prods. Pre.Md.Prods. 2 1.700 10 1.800 2 100 3 2.000 12 2.100 3 200 4 2.300 11 2.040 3 150
Cada tupla deste exemplo indica a quantidade total de produtos consumidos e o preo mdio destes produtos relativos a cada consumidor.
22/03/2014
23
Agrupamento (Clustering)
Consumidor Qtd.Md. Pre.Md. 1 2 1.700 2 10 1.800 3 2 100 4 3 2.000 5 12 2.100 6 3 200 7 4 2.300 8 11 2.040 9 3 150
Grupo
1
Consumidor Qtd.Md. Pre.Md. 1 2 1.700 4 3 2.000 7 4 2.300 2 10 1.800 5 12 2.100 8 11 2.040 3 2 100 6 3 200 9 3 150
Cada grupo identificado caracterizado por consumidores semelhantes em relao quantidade mdia total e ao preo mdio dos produtos consumidos.
22/03/2014
24
Tcnicas
rvores de Deciso Algoritmo K-NN Classificador Bayesiano Algoritmos de Extrao de Regras de Associao/Padres
Associao/Padres
Clusterizao
22/03/2014
22/03/2014
26
Modelo
grau de confiana
22/03/2014
27
Informao
22/03/2014 Minerao de Dados - Aula II 28
Modelo
Classe de R
22/03/2014 Minerao de Dados - Aula II 29
22/03/2014
30
Conhecimento
Interpretao
22/03/2014 Minerao de Dados - Aula II 31
22/03/2014
33
Consumer analytics, 25.0% Banking, 18.9% Health Care, 16.7% Education, 16.2% Fraud Detection, 14.0% Science, 13.6% Social Networks, 13.2% Credit Scoring, 12.7% Insurance, 12.3% Direct Marketing,12.3%
Minerao de Dados - Aula II 34
Ferramenta Weka
(Waikato Environment for Knowledge Analysis) http://www.cs.waikato.ac.nz/ml/weka/
22/03/2014
35
22/03/2014
37
22/03/2014
38