Академический Документы
Профессиональный Документы
Культура Документы
Crditos
O material a seguir consiste de adaptaes e extenses:
dos originais gentilmente cedidos pelo professor Andr C. P. L. F. de Carvalho dos originais de (Tan et al., 2006)
01 11 01 10 1 0 1 1 0 0 0 0 0 1 1 0 1 0 1 1 1 0 1 0 0 1 1 0
Tpicos Parte I
Introduo Instncias e Atributos Tipos de Atributos Qualidade de Dados Preparao de Dados
Rudo Valores inconsistentes, duplicados e ausentes Outliers
3
Introduo
Dados:
coleo de instncias com seus atributos
Instncias
padres, exemplos, objetos, registros, pontos, amostras*, casos, entidades
Ex.: clientes de um banco, pacientes de um hospital
Introduo
Atributo
varivel, campo, caracterstica
Ex.: altura, sintoma, renda
cada atributo representa uma propriedade ou caracterstica especfica das instncias coleo de valores especficos dos atributos descreve uma instncia particular seus valores podem ser nmeros ou smbolos
5
Exemplo
Seja uma aplicao de AM em medicina
Descoberta de conhecimento a partir de um conjunto de dados de pacientes Conjunto possui o cadastro de vrios pacientes de um hospital
Diagnosticados de acordo com uma dada patologia em:
Saudveis Doentes
Exemplo
Atributos
Nome Febre Enjo Joo Pedro Maria Jos Ana Leila sim no sim sim sim no sim no sim no no no Mancha pequena pequena grande pequena grande grande Diagnstico doente saudvel saudvel doente saudvel doente
valor de um atributo
7
Conjunto de Dados
Criados a partir de Bases/Bancos de Dados Podem se tornar mais adequados ao uso de AM por meio de:
Integrao de bases distribudas Descarte de atributos obviamente irrelevantes ...
Integrao
Dados podem ser oriundos de diferentes fontes
Nesse caso, faz-se necessrio combinar esses dados (AM centralizado) ou o conhecimento aprendido desses dados (AM distribudo)
De qualquer forma, dados precisam ser consistentes Por exemplo, preciso gerenciar instncias duplicadas
Atributos comuns devem ter valor nico para cada instncia Atributos correspondentes podem ter nomes diferentes... Metadados podem ser teis Descrio dos dados (dados sobre dados)
9
Descarte de Atributos
Exemplo (dados originais):
Nome Febre Enjo Joo Pedro Maria Jos Ana Leila sim no sim sim sim no sim no sim no no no Mancha pequena pequena grande pequena grande grande Dor sim no no sim sim sim Salrio Diagnstico 1000 1100 600 2000 1800 900 doente saudvel saudvel doente saudvel doente
10
Descarte de Atributos
Exemplo (dados preparados):
Febre Enjo Mancha sim no sim sim sim no sim no sim no no no pequena pequena grande pequena grande grande Dor sim no no sim sim sim Diagnstico doente saudvel saudvel doente saudvel doente
11
Valores de Atributos
Para atribuir valores a atributos, necessrio uma escala de medio
Regra ou funo que associa um valor numrico ou simblico a um atributo
Mapeia grandeza fsica em valor do atributo Exemplo:
Associa-se peso a um valor numrico Associa-se sexo aos smbolos Masculino e Feminino
12
Tipos de Atributos
Nominal
cor, identificao, profisso, ...
Ordinal
gosto (ruim, mdio, bom), dias da semana, ...
Intervalar
temperatura em Celsius, ...
Racional
peso, tamanho, idade, temperatura em Kelvin, ...
13
Tipos de Atributos
Categrico (Qualitativo)
Tipo de Atributo
Nominal
Descrio
Valores so simplesmente nomes (smbolos) diferentes, i.e., atributos nominais provm apenas informao suficiente para distinguir uma instncia de outra: (=, ) Os valores de atributos ordinais provm informao suficiente para distinguir e ordenar instncias, i.e.: (=, ) e (<, >)
Exemplos
Sexo, Estado Civil, CEP,
Ordinal
Numrico (Quantitativo)
Intervalo
Atributos para os quais a diferena entre valores faz sentido, i.e., existe uma unidade de medida com referncia (zero) arbitrrio. Suporta as operaes anteriores e ainda (+, - ) Atributos para os quais no apenas a diferena entre valores faz sentido, mas tambm a razo entre valores (zero absoluto). Suporta as ops. anteriores e ainda (*, /)
Razo
Exemplo
Identificar tipo de cada atributo no cadastro de pacientes abaixo:
Nome Temp. Enjo Mancha Joo Pedro Maria Jos Ana Leila 37,7 37 38,2 39 37,3 36,9 sim no sim no no no pequena pequena grande pequena grande grande Dor sim no no sim sim sim Salrio Diagnstico 1000 1100 600 2000 1800 900 doente saudvel saudvel doente saudvel doente
15
Exemplo
Nome Temp Enjo Joo Pedro Maria Jos Ana Leila 37,7 37 38.2 39 37,3 37,7 sim no sim no no no Mancha pequena pequena grande pequena grande grande Dor sim no no sim sim sim Salrio Diagnstico 1000 1100 600 2000 1800 900 doente saudvel saudvel doente saudvel doente
16
Exerccio
Definir o tipo dos seguintes atributos:
Renda mensal Nmero de palavras de um texto Endereo de E-mail Nmero de matrcula Data de nascimento Cdigo postal Posio em uma corrida
17
Tipos de Atributos
Uma taxonomia independente para atributos pode ser estabelecida pelo nmero de valores
Discretos
assumem um nmero contvel de valores
no. finito ou infinito
Contnuos
assumem uma quantidade incontvel de valores
18
Atributos Contnuos
Assumem valores que so nmeros reais
Temperatura Peso Distncia ...
19
Atributos Discretos
No. finito ou infinito e enumervel de valores
estaes do ano, cores elementares, ... no. de filhos, no. estrelas no universo, no. de anos, ...
10
Atributos Assimtricos
Um caso ainda mais particular de atributo discreto so os atributos binrios assimtricos
Embora assuma dois valores como qualquer atributo binrio, apenas a presena de um deles relevante
indica que a instncia possui uma determinada caracterstica p. ex., aluno matriculado ou no em cada disciplina
Se no. de disciplinas disponveis for grande, alunos so todos similares com relao s disciplinas que no cursam...
Qualidade de Dados
Maioria dos dados utilizados no foram gerados especificamente para uso em AM
em geral apresentam problemas de diversos tipos
22
11
Qualidade de Dados
Dados quase nunca sero ideais Problemas podem ocorrer nas medies e coleta de dados Causas:
Erros humanos Falhas ou limitaes do dispositivo de medio Problemas no procedimento de coleta de dados
23
Qualidade de Dados
Algumas Conseqncias:
Valores errados
p. ex. inconsistentes ou fora de faixa
pessoa com 2m pesando 10 Kg temperatura ambiente 200 graus Celsius
Valores faltantes
p. ex. no mensurados ou perdidos
valor de temperatura indisponvel em determinado intervalo
12
Causas de Erros
Erros de medio
Diferena entre valor medido e valor real
p. ex. rudo ou erro humano de leitura em sensor
Erro de digitao
Por exemplo, incluir dados de jogador de cartas em um conjunto de dados de halterofilistas, ou inverter os valores de idade e nmero de filhos ao cadastrar uma dada instncia
Preciso
Proximidade entre diferentes medidas repetidas de uma dada grandeza
Usualmente calculada pelo desvio padro dos valores
26
13
Exemplo
Usando uma balana, o peso de uma pea de 1Kg medido 5 vezes produziu os valores:
1,015 Kg, 0,990 Kg, 1,013 Kg, 1,001 Kg e 0,986 Kg
Mdia das pesagens = 1,001 Bias = 1,001 1 = 0,001 Preciso = 0,012 (desvio padro)
27
28
14
Limpeza de Dados
Correo ou atenuao de erros detectados nos dados Principais problemas:
Dados com artefatos ou rudo Dados inconsistentes Dados incompletos ou ausentes Dados duplicados Dados anmalos (outliers)*
29
Artefatos x Rudo
Artefatos
Distores determinsticas
Por exemplo, problema que ocorre em uma mesma regio de um conjunto de fotografias
Rudo
Componente aleatrio de uma medida de erro
Erro randmico introduzido nos dados
Formas
Distoro dos valores de atributos Adio de instncias esprias
30
15
Rudo
Diferente dos artefatos, que so geralmente fceis de detectar e freqentemente passveis de correo, rudo normalmente um problema mais srio:
Nem sempre possvel ter certeza de que os dados apresentam rudo
Dependendo da aplicao, pode-se ter apenas indcios
Modelo gerado a partir de dados com rudo esto muito mais sujeitos a super-ajuste (overfitting)
31
Rudo (Exemplo 1)
Distoro da voz de uma pessoa falando em um rdio de m qualidade
Duas senides
16
Rudo (Exemplo 2)
Dados sem rudo Dados com rudo
Rudo
Doente Saudvel
33
Tratamento de Rudo
Em geral, o tratamento de rudo dependente de contexto
rudo em variveis temporais muitas vezes podem ser eliminados ou atenuados por ferramentas de processamento de sinais
p. ex. filtragem de sinal de voz, de srie temporal, de entrada ou sada de sistema dinmico, ...
Similarmente, muitos tipos de rudo em imagens podem ser eliminados ou atenuados por ferramentas de processamento de imagens
34
17
Tratamento de Rudo
Em muitos casos, no entanto, dadas as caractersticas dos dados, no possvel separar o rudo dos valores e instncias legtimos
Problema comum em aplicaes como classificao e minerao de dados descritiva Alternativa conviver com o rudo
algoritmos robustos !
35
Valores Inconsistentes
Dados podem conter valores inconsistentes
Exemplos:
pessoa com altura negativa cdigo postal invalido para o nome de rua especificado
erro / engano proposital (fraude)
Se a inconsistncia gerada ao acaso, pode ser vista como um determinado tipo de rudo
36
18
Valores Inconsistentes
Algumas inconsistncias so de fcil deteco
Violao de relaes conhecidas entre atributos
Ex.: Valor de atributo A sempre menor que valor de B
Valores Ausentes
No raro uma instncia no ter o valor de um ou mais atributos Possveis causas:
Atributo no foi considerado quando os primeiros dados foram coletados Desconhecimento do valor do atributo ou recusa em fornec-lo na ocasio do preenchimento Distrao na ocasio do preenchimento Inexistncia de valor para o atributo em algumas instncias Problema com dispositivo / processo de coleta ...
38
19
39
20
vrios algoritmos de classificao podem ser adaptados para lidar com valores ausentes (e.g. rvores de deciso)
41
21
Valores Ausentes
Exemplo:
Febre Enjo Mancha sim no sim sim sim no sim no sim no no no pequena pequena grande pequena grande grande Dor sim no no sim sim ??? Diagnstico doente saudvel saudvel doente saudvel doente
43
Valores Ausentes
Observao:
Existem situaes em que o valor precisa estar ausente. Por exemplo:
atributo nmero de partos para paciente do sexo masculino nesse caso, os dados so denominados assimtricos so mais difceis de tratar de forma automtica
44
22
Outliers
Outliers
45
Outliers
Existem vrias definies Basicamente, so instncias anmalas
Instncias que possuem caractersticas (valor de um ou mais atributos) diferentes da maioria dos demais Definio de diferente usualmente estatstica
23
Instncias Duplicadas
So instncias idnticas ou que diferem de maneira no significativa para o problema em questo
Podem ser legtimas ou ilegtimas. Por exemplo:
cadastro duplicado de um cliente devido a pequenas diferenas na representao do nome (ilegtima) dois pacientes com as mesmas caractersticas (legtima)
Deduplicao
Detectar e eliminar (ou combinar) duplicaes
Ilegtimas ou para uso em algoritmos de AM que no suportam duplicatas
48
24
Exemplo
Dados Duplicados
Nome Febre Enjo Joo Pedro Maria Jos Ana Z Leila sim no sim sim sim sim no sim no sim no no no no Mancha pequena pequena grande pequena grande pequena grande Dor sim no no sim sim sim sim Salrio 1000 1100 600 2000 1800 2000 900 Diagnstico doente saudvel saudvel doente saudvel doente doente
49
Exerccio
Definir problemas existentes na tabela abaixo:
Nome Joo Lia Maria Jos Srgio Ana Lusa Profisso Encanador Mdica Senadora Mdica Bancrio Professora Mdica Nvel Peso Mdio 70 Superior 200 Mdio 90 Superior 100 Superior 82 Fundam. 77 Superior 100 Altura Salrio 1,80 3000 1,74 7000 1,80 600 -6 2000 1,78 5000 1,88 1800 -6 2000 Situao adimplente inadimplente adimplente inadimplente inadimplente adimplente inadimplente
50
25
Observaes
Dependendo da aplicao, outros problemas podem aparecer:
Validade temporal dos dados
Com o tempo, alguns dados podem perder utilidade
Domnios especficos podem requer ferramentas especficas, completamente distintas de outros domnios !
Por exemplo, em sries temporais:
medir similaridade pode requer uso de correlao com tratamento de delays valores ausentes tipicamente requerem uso de interpolao tratamento de rudo tipicamente requer filtragem ...
52
26
Tpicos Parte II
Pr-Processamento de Dados Agregao Amostragem (sampling) Maldio da dimensionalidade Reduo de dimensionalidade
53
Pr-Processamento
rea de pesquisa que engloba vrias estratgias e tcnicas para melhorar o desempenho de algoritmos de AM
Tempo de Soluo Qualidade da Soluo Custo da Soluo
54
27
Pr-Processamento
Alm dos tpicos de preparao de dados j vistos anteriormente, o pr-processamento envolve tambm:
Agregao Amostragem Extrao de caractersticas Seleo de atributos Discretizao de variveis Transformao e converso de variveis
55
Agregao
Combinar mltiplas instncias ou atributos Propsito
Reduo de dados
Reduz memria e tempo de processamento Permite uso de algoritmos mais sofisticados
Exemplos
Resumir preos horrios (e.g. aes) ou transaes unitrias (e.g. vendas) em uma mdia diria /mensal stemming em text mining...
56
28
Estatstica: Obteno dos Dados completos AM: Processamento dos Dados completos
29
30
61
62
31
8000 pontos
2000 Pontos
500 Pontos
63
Tamanho da amostra
64
32
Pequeno:
Reduz custo computacional Aumenta chance de perda de informao
65
33
34
Reduo de Dimensionalidade
Alguns conjuntos de dados podem ter um nmero muito grande de atributos
p. ex. text mining: instncia um vetor com freq. relativa de palavras que aparecem em um texto no. de atributos = no. de dimenses
Reduo de Dimensionalidade
Principais Benefcios
Melhora eficcia de algoritmos de AM
ao eliminar atributos irrelevantes ou redundantes
35
Maldio da Dimensionalidade
Hiper-volume cresce exponencialmente com a adio de novos atributos
Instncias formadas por 1 atributo com 10 possveis valores: 10 possveis objetos Instncias formadas por 5 atributos com 10 possveis valores: 105 possveis objetos Obstculo em problemas com poucos exemplos e muitos atributos
Dados se tornam muito esparsos
71
Maldio da Dimensionalidade
Problemas crticos com dados esparsos
Instncias disponveis podem no estar presentes em regies do espao de objetos
muito provvel que o modelo aprendido no represente bem (generalize) essas regies overfitting (e portanto efeito de rudo nos dados) potencializado
36
Maldio da Dimensionalidade
1 0.9 0.8 0.7 0.6 x2 0.5 0.4 0.3 0.2 0.1 0
0.1
0.2
0.3
0.4
0.5 x1
0.6
0.7
0.8
0.9
73
Maldio da Dimensionalidade
Exemplos positivos
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 0.9 0.8 0.7 0.6
Exemplos negativos
x3
0.5
0.1
0.2 0.3
0.4 0.5 x1
0.6
0.7 0.8
0.9
74
37
Maldio da Dimensionalidade
Nmero de instncias necessrias para manter desempenho cresce exponencialmente com o nmero de atributos Na prtica, usualmente o nmero de instncias de treinamento fixo
No se pode obter exemplos vontade Logo, o desempenho do algoritmo de AM tende a se degradar a partir de um determinado no. de atributos
mesmo que sejam atributos teis
75
Maldio da Dimensionalidade
Desempenho do classificador
Nmero de atributos
76
38
Reduo de Dimensionalidade
Pode-se reduzir a dimensionalidade essencialmente atravs de:
Criao de outros atributos
Agregao de atributos Extrao de caractersticas
Seleo de atributos
77
Reduo de Dimensionalidade
Conforme j vimos anteriormente, uma forma elementar de reduzir complexidade dos dados agregar atributos
por exemplo, dois atributos massa e volume poderiam ser agregados em um nico atributo densidade = massa / volume sem perda de informao relevante a um dado problema de interesse em particular
78
39
Reduo de Dimensionalidade
Uma outra abordagem, indispensvel em determinadas reas de aplicao, a extrao de caractersticas
ou feature extraction em ingls
Como sugere o nome, trata-se de extrair, a partir dos dados brutos, caractersticas de alto nvel com grande riqueza de informao relevante sobre os dados
p. ex. informaes sobre bordas, contornos, sombras e formas geomtricas em fotografias, ou sobre componentes harmnicas de freqncia em sinais de udio
pixels no so bons atributos para reconhecimento de face, assim como o udio bruto no apropriado para reconhecer voz
79
Reduo de Dimensionalidade
Um tipo particular de extrao de caractersticas a Transformao do Espao de Atributos
Gera um novo conjunto de atributos a partir da combinao de projees dos atributos originais
p. ex. PCA (linear) ou Kernel PCA (no linear)
40
Reduo de Dimensionalidade
Transformao do Espao de Atributos
Vantagens:
Muito simples e computacionalmente rpida
em especial PCA linear vide (Haykin, 1999)
Desvantagens:
Limitada a atributos numricos Interpretabilidade dos atributos originais perdida
o que proibitivo em determinados cenrios de aplicao
81
Tan,Steinbach, Kumar
4/18/2004
82
41
Seleo de Atributos
Diferente das abordagens anteriores, a seleo de atributos assume que os atributos existentes j esto em uma forma apropriada, porm:
parte deles pode ser irrelevante parte deles pode ser redundante
Seleo de Atributos
Atributos irrelevantes redundantes
Irrelevantes
No possuem informao til para a tarefa em questo
Por exemplo, nome de uma ao para previso do seu valor Caso extremo: valor constante para todas as instncias
Redundantes
Possuem a mesma informao til para a tarefa em questo
Por ex., salrio e IR retido na fonte p/ anlise de crdito Caso extremo: valores iguais ou proporcionais
84
42
Seleo de Atributos
Pode ser feita por:
Ordenao
Ordena os atributos de acordo com sua relevncia e seleciona um subconjunto dos mais relevantes segundo alguma medida
relevante para discriminar classes individualmente (classificao) relevante para prever a sada individualmente (regresso)
Seleo de subconjunto
Seleciona subconjunto de atributos mutuamente relevantes
85
Seleo de Atributos
Atributos originais 1 4 1 Atributos originais 1 2 3 4 5 6 7 8 9 10 2 7 2 3 2 3 4 6 4 5 9 5 6 7 8 5 8 9 10 8 3
Atributos ordenados 1 10 6 7 9 10
Subconjunto de atributos
Seleo de Subconjunto
86
9 10
43
Exemplo Simples
Ordenar os atributos mais importantes para o diagnstico de pacientes
Febre 1 0 1 1 1 0 Enjo Mancha Dor 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 1 1 Diagnstico 0 1 1 0 1 0
87
Exemplo Simples
Dado que temos apenas atributos binrios podemos estimar a relevncia segundo uma abordagem muito simples: Febre 1 0 1 1 1 0 Enjo Mancha Dor 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 1 1 Diagnstico 0 1 1 0 1 0
Escores: Febre: 3/6 Enjo: 4/6 Manchas: 4/6 Dores: 1/6 Ranking: 1- Enjo 2- Manchas 3- Febre 4- Dores
88
44
Nota
A estimativa de relevncia anterior possui apenas um carter pedaggico, pois:
No considera que um atributo discriminante dado pela negao do atributo meta seria to exato quanto o prprio atributo meta No considera que os atributos so assimtricos
no existe sintoma que discrimine pacientes saudveis
no apresentam sintomas ou apresentam sintomas devido a outras patologias distintas daquela que se quer discriminar
89
Exerccio
Ordenar os atributos mais importantes (A1...A5) para o diagnstico correto
A1 0 1 0 1 0 1 A2 0 1 0 0 1 0 A3 1 1 1 0 0 0 A4 1 1 0 0 1 0 A5 1 0 0 0 0 0 Diagnstico 0 1 1 0 1 1
90
45
Seleo de Atributos
Vantagem da ordenao
Complexidade linear com o no. N de atributos Note que o nmero de possveis combinaes de n dentre N atributos ...
N N! = n ( N n)!n!
91
Seleo de Atributos
Deficincia da ordenao
Despreza correlao e redundncia entre atributos
atributos podem ser inteis sozinhos porm teis em conjunto ou podem ser to teis sozinhos quanto em conjunto
46
Seleo de Atributos
Taxonomia independente:
Filtros
seleo de atributos realizada a priori e no envolve o algoritmo de AM a ser aplicado depois (algoritmo alvo)
Wrappers
seleo de atributos envolve o algoritmo de AM alvo, que usado para guiar o processo de seleo
Embarcados (Embedded)
seleo de atributos ocorre naturalmente e internamente como parte do algoritmo de AM
93
Filtros
Utilizam alguma heurstica para executar uma busca, no espao de subconjuntos de atributos, guiada apenas por propriedades intrnsecas aos prprios dados
No envolve o algoritmo de AM alvo Critrios de busca podem ser, por exemplo, medidas de correlao / informao mtua entre atributos
medidas de relevncia e redundncia privilegiam conjuntos de atributos muito relacionados com a sada desejada e pouco relacionados entre si
94
47
Filtros
Tm como vantagem a rapidez de processamento
Veja o exemplo simples de seleo por ordenao ilustrado anteriormente! Trata-se de um filtro!
95
Filtros
Tm como desvantagem guiar a seleo de forma indireta, o que pode levar a resultados inferiores
96
48
Wrappers
Utilizam alguma heurstica para executar uma busca, no espao de subconjuntos de atributos, guiada pelo algoritmo de AM alvo
O uso do algoritmo alvo implica guiar a busca diretamente em direo aos atributos que maximizam o seu desempenho No entanto, em geral implica tornar o mtodo muito custoso (possivelmente proibitivo) em termos computacionais Veremos posteriormente no curso um exemplo vivel computacionalmente, baseado no classificador Naive Bayes !
97
Wrappers
98
49
Abordagens Embarcadas
Seleo de atributos faz parte da estratgia de aprendizado do modelo
ocorre naturalmente e internamente como parte do algoritmo de AM
100
50
Bibliografia
P.-N. Tan, Steinbach, M., and Kumar, V., Introduction to Data Mining, Addison-Wesley, 2006 Haykin, S., Neural Networks: A Comprehensive Foundation, 2nd Edition, 1999.
101
51