Вы находитесь на странице: 1из 51

SCC5871 Introduo ao Aprendizado de Mquina

Aula 2 Preparao e Pr-Processamento de Dados: Parte A


Prof. Ricardo J. G. B. Campello
PPG-CCMC / ICMC / USP
1

Crditos
O material a seguir consiste de adaptaes e extenses:
dos originais gentilmente cedidos pelo professor Andr C. P. L. F. de Carvalho dos originais de (Tan et al., 2006)
01 11 01 10 1 0 1 1 0 0 0 0 0 1 1 0 1 0 1 1 1 0 1 0 0 1 1 0

Tpicos Parte I
Introduo Instncias e Atributos Tipos de Atributos Qualidade de Dados Preparao de Dados
Rudo Valores inconsistentes, duplicados e ausentes Outliers
3

Introduo
Dados:
coleo de instncias com seus atributos

Instncias
padres, exemplos, objetos, registros, pontos, amostras*, casos, entidades
Ex.: clientes de um banco, pacientes de um hospital

cada instncia formada por um conjunto de atributos


4

Introduo
Atributo
varivel, campo, caracterstica
Ex.: altura, sintoma, renda

cada atributo representa uma propriedade ou caracterstica especfica das instncias coleo de valores especficos dos atributos descreve uma instncia particular seus valores podem ser nmeros ou smbolos
5

Exemplo
Seja uma aplicao de AM em medicina
Descoberta de conhecimento a partir de um conjunto de dados de pacientes Conjunto possui o cadastro de vrios pacientes de um hospital
Diagnosticados de acordo com uma dada patologia em:
Saudveis Doentes

Exemplo
Atributos
Nome Febre Enjo Joo Pedro Maria Jos Ana Leila sim no sim sim sim no sim no sim no no no Mancha pequena pequena grande pequena grande grande Diagnstico doente saudvel saudvel doente saudvel doente

valor de um atributo
7

Conjunto de Dados
Criados a partir de Bases/Bancos de Dados Podem se tornar mais adequados ao uso de AM por meio de:
Integrao de bases distribudas Descarte de atributos obviamente irrelevantes ...

Integrao
Dados podem ser oriundos de diferentes fontes
Nesse caso, faz-se necessrio combinar esses dados (AM centralizado) ou o conhecimento aprendido desses dados (AM distribudo)
De qualquer forma, dados precisam ser consistentes Por exemplo, preciso gerenciar instncias duplicadas
Atributos comuns devem ter valor nico para cada instncia Atributos correspondentes podem ter nomes diferentes... Metadados podem ser teis Descrio dos dados (dados sobre dados)
9

Descarte de Atributos
Exemplo (dados originais):
Nome Febre Enjo Joo Pedro Maria Jos Ana Leila sim no sim sim sim no sim no sim no no no Mancha pequena pequena grande pequena grande grande Dor sim no no sim sim sim Salrio Diagnstico 1000 1100 600 2000 1800 900 doente saudvel saudvel doente saudvel doente
10

Descarte de Atributos
Exemplo (dados preparados):
Febre Enjo Mancha sim no sim sim sim no sim no sim no no no pequena pequena grande pequena grande grande Dor sim no no sim sim sim Diagnstico doente saudvel saudvel doente saudvel doente
11

Valores de Atributos
Para atribuir valores a atributos, necessrio uma escala de medio
Regra ou funo que associa um valor numrico ou simblico a um atributo
Mapeia grandeza fsica em valor do atributo Exemplo:
Associa-se peso a um valor numrico Associa-se sexo aos smbolos Masculino e Feminino
12

Tipos de Atributos
Nominal
cor, identificao, profisso, ...

Ordinal
gosto (ruim, mdio, bom), dias da semana, ...

Intervalar
temperatura em Celsius, ...

Racional
peso, tamanho, idade, temperatura em Kelvin, ...
13

Tipos de Atributos
Categrico (Qualitativo)

Tipo de Atributo
Nominal

Descrio
Valores so simplesmente nomes (smbolos) diferentes, i.e., atributos nominais provm apenas informao suficiente para distinguir uma instncia de outra: (=, ) Os valores de atributos ordinais provm informao suficiente para distinguir e ordenar instncias, i.e.: (=, ) e (<, >)

Exemplos
Sexo, Estado Civil, CEP,

Ordinal

Grau de Educao, Nmeros de Endereo,

Numrico (Quantitativo)

Intervalo

Atributos para os quais a diferena entre valores faz sentido, i.e., existe uma unidade de medida com referncia (zero) arbitrrio. Suporta as operaes anteriores e ainda (+, - ) Atributos para os quais no apenas a diferena entre valores faz sentido, mas tambm a razo entre valores (zero absoluto). Suporta as ops. anteriores e ainda (*, /)

Datas, Temperatura em Fahrenheit, ...

Razo

Contagens, Massa, Largura, Corrente Eltrica, Quantidades Monetrias, ...

Exemplo
Identificar tipo de cada atributo no cadastro de pacientes abaixo:
Nome Temp. Enjo Mancha Joo Pedro Maria Jos Ana Leila 37,7 37 38,2 39 37,3 36,9 sim no sim no no no pequena pequena grande pequena grande grande Dor sim no no sim sim sim Salrio Diagnstico 1000 1100 600 2000 1800 900 doente saudvel saudvel doente saudvel doente
15

Exemplo
Nome Temp Enjo Joo Pedro Maria Jos Ana Leila 37,7 37 38.2 39 37,3 37,7 sim no sim no no no Mancha pequena pequena grande pequena grande grande Dor sim no no sim sim sim Salrio Diagnstico 1000 1100 600 2000 1800 900 doente saudvel saudvel doente saudvel doente

16

Exerccio
Definir o tipo dos seguintes atributos:
Renda mensal Nmero de palavras de um texto Endereo de E-mail Nmero de matrcula Data de nascimento Cdigo postal Posio em uma corrida
17

Tipos de Atributos
Uma taxonomia independente para atributos pode ser estabelecida pelo nmero de valores
Discretos
assumem um nmero contvel de valores
no. finito ou infinito

Contnuos
assumem uma quantidade incontvel de valores

18

Atributos Contnuos
Assumem valores que so nmeros reais
Temperatura Peso Distncia ...

19

Atributos Discretos
No. finito ou infinito e enumervel de valores
estaes do ano, cores elementares, ... no. de filhos, no. estrelas no universo, no. de anos, ...

Caso especial: Atributos Binrios


0 ou 1 V ou F ...
20

10

Atributos Assimtricos
Um caso ainda mais particular de atributo discreto so os atributos binrios assimtricos
Embora assuma dois valores como qualquer atributo binrio, apenas a presena de um deles relevante
indica que a instncia possui uma determinada caracterstica p. ex., aluno matriculado ou no em cada disciplina
Se no. de disciplinas disponveis for grande, alunos so todos similares com relao s disciplinas que no cursam...

Identificar um atributo binrio como assimtrico importante para o projeto de sistemas de AM


p. ex. text mining
21

Qualidade de Dados
Maioria dos dados utilizados no foram gerados especificamente para uso em AM
em geral apresentam problemas de diversos tipos

Algoritmos de AM precisam geralmente de dados limpos


Problemas nos dados precisam ser detectados e corrigidos Quando isso no possvel, uma alternativa
o projeto de algoritmos robustos

22

11

Qualidade de Dados
Dados quase nunca sero ideais Problemas podem ocorrer nas medies e coleta de dados Causas:
Erros humanos Falhas ou limitaes do dispositivo de medio Problemas no procedimento de coleta de dados
23

Qualidade de Dados
Algumas Conseqncias:
Valores errados
p. ex. inconsistentes ou fora de faixa
pessoa com 2m pesando 10 Kg temperatura ambiente 200 graus Celsius

Valores faltantes
p. ex. no mensurados ou perdidos
valor de temperatura indisponvel em determinado intervalo

Instncias esprias ou duplicadas


p. ex. diferentes registros para mesma pessoa que morou em endereos diferentes
24

12

Causas de Erros
Erros de medio
Diferena entre valor medido e valor real
p. ex. rudo ou erro humano de leitura em sensor

Erros de coleta de dados


Omisso (ou distoro) de valores de atributos
p. ex. perguntas sobre salrio, sexualidade, ...

Erro de digitao
Por exemplo, incluir dados de jogador de cartas em um conjunto de dados de halterofilistas, ou inverter os valores de idade e nmero de filhos ao cadastrar uma dada instncia

Ambos podem ser sistemticos ou aleatrios


25

Qualidade do Processo de Medio


Bias*
Variao sistemtica das medidas do valor real da grandeza sendo medida
Diferena entre a mdia dos valores medidos e valor correto Valor correto deve ser conhecido

Preciso
Proximidade entre diferentes medidas repetidas de uma dada grandeza
Usualmente calculada pelo desvio padro dos valores
26

13

Exemplo
Usando uma balana, o peso de uma pea de 1Kg medido 5 vezes produziu os valores:
1,015 Kg, 0,990 Kg, 1,013 Kg, 1,001 Kg e 0,986 Kg

Mdia das pesagens = 1,001 Bias = 1,001 1 = 0,001 Preciso = 0,012 (desvio padro)
27

Qualidade do Processo de Medio


Acurcia
Diz-se que um processo de medida possui maior acurcia quanto menor os valores para bias e preciso Logo, conceito depende do bias e preciso
Mas no existe uma frmula universal

28

14

Limpeza de Dados
Correo ou atenuao de erros detectados nos dados Principais problemas:
Dados com artefatos ou rudo Dados inconsistentes Dados incompletos ou ausentes Dados duplicados Dados anmalos (outliers)*
29

Artefatos x Rudo
Artefatos
Distores determinsticas
Por exemplo, problema que ocorre em uma mesma regio de um conjunto de fotografias

Rudo
Componente aleatrio de uma medida de erro
Erro randmico introduzido nos dados

Formas
Distoro dos valores de atributos Adio de instncias esprias
30

15

Rudo
Diferente dos artefatos, que so geralmente fceis de detectar e freqentemente passveis de correo, rudo normalmente um problema mais srio:
Nem sempre possvel ter certeza de que os dados apresentam rudo
Dependendo da aplicao, pode-se ter apenas indcios

Modelo gerado a partir de dados com rudo esto muito mais sujeitos a super-ajuste (overfitting)
31

Rudo (Exemplo 1)
Distoro da voz de uma pessoa falando em um rdio de m qualidade

Duas senides

Duas senides com rudo 32

16

Rudo (Exemplo 2)
Dados sem rudo Dados com rudo
Rudo

Doente Saudvel
33

Tratamento de Rudo
Em geral, o tratamento de rudo dependente de contexto
rudo em variveis temporais muitas vezes podem ser eliminados ou atenuados por ferramentas de processamento de sinais
p. ex. filtragem de sinal de voz, de srie temporal, de entrada ou sada de sistema dinmico, ...

Similarmente, muitos tipos de rudo em imagens podem ser eliminados ou atenuados por ferramentas de processamento de imagens
34

17

Tratamento de Rudo
Em muitos casos, no entanto, dadas as caractersticas dos dados, no possvel separar o rudo dos valores e instncias legtimos
Problema comum em aplicaes como classificao e minerao de dados descritiva Alternativa conviver com o rudo
algoritmos robustos !
35

Valores Inconsistentes
Dados podem conter valores inconsistentes
Exemplos:
pessoa com altura negativa cdigo postal invalido para o nome de rua especificado
erro / engano proposital (fraude)

Se a inconsistncia gerada ao acaso, pode ser vista como um determinado tipo de rudo
36

18

Valores Inconsistentes
Algumas inconsistncias so de fcil deteco
Violao de relaes conhecidas entre atributos
Ex.: Valor de atributo A sempre menor que valor de B

Valor invlido para o atributo


Ex.: atributo B sempre deve ser positivo

Uma vez detectadas, muitas vezes podem ser corrigidas


via nova coleta do dado (quando possvel)
requerimento ao funcionrio, cliente, paciente ...

via obteno do dado em outra fonte (se existente)


redundncia de sensores e bases de dados, ...
37

Valores Ausentes
No raro uma instncia no ter o valor de um ou mais atributos Possveis causas:
Atributo no foi considerado quando os primeiros dados foram coletados Desconhecimento do valor do atributo ou recusa em fornec-lo na ocasio do preenchimento Distrao na ocasio do preenchimento Inexistncia de valor para o atributo em algumas instncias Problema com dispositivo / processo de coleta ...

38

19

Tratamento de Valores Ausentes


Alternativas:
1.

Descartar instncias com atributos que apresentem valores ausentes


Simples e eficiente se as instncias remanescentes ainda forem representativas Proibitivo se parte significativa das instncias possurem ausentes

39

Tratamento de Valores Ausentes


Alternativas:
2.

Descartar atributos com valores ausentes


Simples e eficiente se esses atributos no forem fundamentais para a soluo do problema
Irrelevantes, ou Redundantes a outros que no possuem valores ausentes

Proibitivo caso contrrio


40

20

Tratamento de Valores Ausentes


Alternativas:
3.

Modificar algoritmo para lidar com ausentes


Vrios algoritmos de AM podem ser adaptados para lidar com valores ausentes. Por exemplo:
algoritmos baseados em distncia entre instncias (clustering, K-NN, ...) podem estimar essa distncia com base somente naqueles atributos conhecidos
p. ex. Distncia Euclidiana Normalizada

vrios algoritmos de classificao podem ser adaptados para lidar com valores ausentes (e.g. rvores de deciso)
41

Tratamento de Valores Ausentes


Alternativas:
4.

Estimar (imputar) valores ausentes


Alternativa se outras no forem aplicveis / eficazes Existem vrias tcnicas. Por exemplo:
interpolao (variveis temporais) mdia, mediana, medide ou moda dos valores do atributo
pode ser estratificada por classe em problemas de classificao usualmente limitada s instncias vizinhas mais prximas K-NN segundo os demais atributos
42

21

Valores Ausentes
Exemplo:
Febre Enjo Mancha sim no sim sim sim no sim no sim no no no pequena pequena grande pequena grande grande Dor sim no no sim sim ??? Diagnstico doente saudvel saudvel doente saudvel doente
43

Valores Ausentes
Observao:
Existem situaes em que o valor precisa estar ausente. Por exemplo:
atributo nmero de partos para paciente do sexo masculino nesse caso, os dados so denominados assimtricos so mais difceis de tratar de forma automtica

44

22

Outliers

Outliers
45

Outliers
Existem vrias definies Basicamente, so instncias anmalas
Instncias que possuem caractersticas (valor de um ou mais atributos) diferentes da maioria dos demais Definio de diferente usualmente estatstica

Podem ser instncias legitimas ou no


Se no forem legtimos, so o resultado de algum dos tipos de rudo discutidos anteriormente
46

23

Outlier: Friend or Toe?


Mesmo quando outliers so legtimos, podem ou no serem desejados...
Por exemplo, em deteco de anomalias essas instncias so exatamente aquilo que se procura Em outras aplicaes, podem no ser o objetivo central, mas podem ser de interesse se detectados
p. ex. genes diferenciados em bioinformtica

J em outros casos, so indesejados, como em segmentao de mercado


interesse por categorias representativas de consumidores
47

Instncias Duplicadas
So instncias idnticas ou que diferem de maneira no significativa para o problema em questo
Podem ser legtimas ou ilegtimas. Por exemplo:
cadastro duplicado de um cliente devido a pequenas diferenas na representao do nome (ilegtima) dois pacientes com as mesmas caractersticas (legtima)

Mesmo quando so legtimas, podem ou no trazer informao nova:


no trazem informao nova sob o ponto de vista de classificao trazem informao nova sob o ponto de vista de clustering (densidade)

Deduplicao
Detectar e eliminar (ou combinar) duplicaes
Ilegtimas ou para uso em algoritmos de AM que no suportam duplicatas
48

24

Exemplo
Dados Duplicados
Nome Febre Enjo Joo Pedro Maria Jos Ana Z Leila sim no sim sim sim sim no sim no sim no no no no Mancha pequena pequena grande pequena grande pequena grande Dor sim no no sim sim sim sim Salrio 1000 1100 600 2000 1800 2000 900 Diagnstico doente saudvel saudvel doente saudvel doente doente
49

Exerccio
Definir problemas existentes na tabela abaixo:
Nome Joo Lia Maria Jos Srgio Ana Lusa Profisso Encanador Mdica Senadora Mdica Bancrio Professora Mdica Nvel Peso Mdio 70 Superior 200 Mdio 90 Superior 100 Superior 82 Fundam. 77 Superior 100 Altura Salrio 1,80 3000 1,74 7000 1,80 600 -6 2000 1,78 5000 1,88 1800 -6 2000 Situao adimplente inadimplente adimplente inadimplente inadimplente adimplente inadimplente

50

25

Observaes
Dependendo da aplicao, outros problemas podem aparecer:
Validade temporal dos dados
Com o tempo, alguns dados podem perder utilidade

Representatividade dos dados


Dados coletados devem representar os dados originais
Atributos descritivos Distribuio dos dados (bias de amostragem)

Conhecer os dados fundamental:


Documentao, metadados, conhecimento de domnio, ...
51

Conhea seus Dados!


Conhecer bem a natureza dos dados algo fundamental antes de querer aprender automaticamente qualquer coisa a partir deles
Por exemplo, saber de antemo que dois atributos como salrio e imposto retido na fonte so equivalentes (redundantes) muito til !

Domnios especficos podem requer ferramentas especficas, completamente distintas de outros domnios !
Por exemplo, em sries temporais:
medir similaridade pode requer uso de correlao com tratamento de delays valores ausentes tipicamente requerem uso de interpolao tratamento de rudo tipicamente requer filtragem ...
52

26

Tpicos Parte II
Pr-Processamento de Dados Agregao Amostragem (sampling) Maldio da dimensionalidade Reduo de dimensionalidade
53

Pr-Processamento
rea de pesquisa que engloba vrias estratgias e tcnicas para melhorar o desempenho de algoritmos de AM
Tempo de Soluo Qualidade da Soluo Custo da Soluo

54

27

Pr-Processamento
Alm dos tpicos de preparao de dados j vistos anteriormente, o pr-processamento envolve tambm:
Agregao Amostragem Extrao de caractersticas Seleo de atributos Discretizao de variveis Transformao e converso de variveis

55

Agregao
Combinar mltiplas instncias ou atributos Propsito
Reduo de dados
Reduz memria e tempo de processamento Permite uso de algoritmos mais sofisticados

Dados mais estveis


Dados agregados tendem a ter menos variabilidade

Exemplos
Resumir preos horrios (e.g. aes) ou transaes unitrias (e.g. vendas) em uma mdia diria /mensal stemming em text mining...
56

28

Amostragem dos Dados


Seleo de um subconjunto de instncias (amostra) Tcnica fundamental em Estatstica e tambm em Aprendizado de Mquina
tanto para investigaes preliminares como definitivas

Estatstica: Obteno dos Dados completos AM: Processamento dos Dados completos

Muito caro ou Consumo elevado de tempo


57

Amostragem dos Dados


Geralmente leva mesma acurcia (ou similar) com um esforo computacional muito menor
Algoritmo de AM s processa parte das instncias

Amostra deve ser representativa


Se no for suficientemente representativa, o tamanho da amostra passa a representar um compromisso eficincia acurcia
58

29

Amostragem dos Dados


Amostra representativa
Aproximadamente as mesmas propriedades de interesse do conjunto de dados original
Ex.: mdiapop-original = mdiaamostra

Deve fornecer uma estimativa da informao desejada contida na populao original


Assim, uso da amostra tem efeito semelhante ao uso de toda a populao
59

Amostragem dos Dados


Amostra representativa
Deve permitir tirar concluses de um todo a partir de uma parte No possvel garantir que isso ocorra
particularmente difcil em tarefas no supervisionadas (p. ex. clustering) Para aumentar as chances, existem diferentes tcnicas de amostragem j bem investigadas
60

30

Amostragem dos Dados


Tipos clssicos de amostragem:
Amostragem aleatria simples Amostragem progressiva Amostragem estratificada

61

Amostragem dos Dados


Amostragem Aleatria Simples
Duas variaes
Sem reposio Com reposio
Mais simples de analisar, pois probabilidade de escolher qualquer objeto se mantm constante Porm permite insero de duplicatas

62

31

Amostragem dos Dados


Influncia do tamanho:

8000 pontos

2000 Pontos

500 Pontos

63

Amostragem dos Dados


Exemplo de estimao de um bom tamanho:
Que tamanho seria necessrio para obter pelo menos 1 instncia de cada um dentre 10 grupos ?
por amostragem simples

Bernoulli trials ...

Tamanho da amostra

64

32

Amostragem dos Dados


Qual o melhor tamanho?
Difcil responder Grande:
Aumenta chance da amostra ser representativa Reduz vantagens da amostragem

Pequeno:
Reduz custo computacional Aumenta chance de perda de informao
65

Amostragem dos Dados


Amostragem progressiva
Comea com pequenas amostras
Progressivamente aumenta tamanho da amostra enquanto houver variabilidade significativa nos modelos obtidos
Por exemplo, na acurcia de um modelo preditivo

Valida modelo obtido com outras amostras de tamanho semelhante escolhida


66

33

Amostragem dos Dados


Amostragem Estratificada
Usada em problemas de classificao para garantir amostragem (representatividade) de todas as classes Algumas variaes
No. de objetos proporcional ao no. de objetos de cada classe
usual em problemas com classes balanceadas

Mesmo nmero de objetos para cada classe (undersampling)


usual em problemas com classes desbalanceadas, que tendem a comprometer o desempenho de classificadores balanceia classes, mas altera propriedades dos dados originais
67

Amostragem dos Dados


Amostragem Estratificada
Pode ser adaptada para tarefas no supervisionadas envolvendo instncias descritas apenas por atributos numricos Como no se dispe de classes, estima-se regies de densidade estruturando as instncias de acordo com a distribuio espacial
instncias so organizadas em algum tipo de rvore (KD ou Quad) e as amostras estratificadas so retiradas dos ns

A organizao em rvore demanda processar todos os dados...


s vale a pena quando algoritmo de AM a ser aplicado na amostra muito mais custoso computacionalmente
68

34

Reduo de Dimensionalidade
Alguns conjuntos de dados podem ter um nmero muito grande de atributos
p. ex. text mining: instncia um vetor com freq. relativa de palavras que aparecem em um texto no. de atributos = no. de dimenses

Reduo de dimensionalidade pode trazer vrios benefcios !


69

Reduo de Dimensionalidade
Principais Benefcios
Melhora eficcia de algoritmos de AM
ao eliminar atributos irrelevantes ou redundantes

Reduz o tamanho necessrio da amostra


ao lidar com a maldio da dimensionalidade

Melhora a eficincia computacional dos algoritmos


pelas razes acima

Simplifica modelo gerado e facilita interpretao Facilita visualizao dos dados


70

35

Maldio da Dimensionalidade
Hiper-volume cresce exponencialmente com a adio de novos atributos
Instncias formadas por 1 atributo com 10 possveis valores: 10 possveis objetos Instncias formadas por 5 atributos com 10 possveis valores: 105 possveis objetos Obstculo em problemas com poucos exemplos e muitos atributos
Dados se tornam muito esparsos
71

Maldio da Dimensionalidade
Problemas crticos com dados esparsos
Instncias disponveis podem no estar presentes em regies do espao de objetos
muito provvel que o modelo aprendido no represente bem (generalize) essas regies overfitting (e portanto efeito de rudo nos dados) potencializado

Instncias parecem eqidistantes


Prejudica o desempenho de algoritmos que medem similaridade de dados por distncia
Ex.: algoritmos de clustering e deteco de outliers
72

36

Maldio da Dimensionalidade
1 0.9 0.8 0.7 0.6 x2 0.5 0.4 0.3 0.2 0.1 0

Exemplos positivos Exemplos negativos

0.1

0.2

0.3

0.4

0.5 x1

0.6

0.7

0.8

0.9

73

Maldio da Dimensionalidade
Exemplos positivos
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 0.9 0.8 0.7 0.6

Exemplos negativos

x3

0.5

0.4 0.3 0.2 0.1 0 x2

0.1

0.2 0.3

0.4 0.5 x1

0.6

0.7 0.8

0.9

74

37

Maldio da Dimensionalidade
Nmero de instncias necessrias para manter desempenho cresce exponencialmente com o nmero de atributos Na prtica, usualmente o nmero de instncias de treinamento fixo
No se pode obter exemplos vontade Logo, o desempenho do algoritmo de AM tende a se degradar a partir de um determinado no. de atributos
mesmo que sejam atributos teis
75

Maldio da Dimensionalidade
Desempenho do classificador

Nmero de atributos
76

38

Reduo de Dimensionalidade
Pode-se reduzir a dimensionalidade essencialmente atravs de:
Criao de outros atributos
Agregao de atributos Extrao de caractersticas

Seleo de atributos

77

Reduo de Dimensionalidade
Conforme j vimos anteriormente, uma forma elementar de reduzir complexidade dos dados agregar atributos
por exemplo, dois atributos massa e volume poderiam ser agregados em um nico atributo densidade = massa / volume sem perda de informao relevante a um dado problema de interesse em particular
78

39

Reduo de Dimensionalidade
Uma outra abordagem, indispensvel em determinadas reas de aplicao, a extrao de caractersticas
ou feature extraction em ingls

Como sugere o nome, trata-se de extrair, a partir dos dados brutos, caractersticas de alto nvel com grande riqueza de informao relevante sobre os dados
p. ex. informaes sobre bordas, contornos, sombras e formas geomtricas em fotografias, ou sobre componentes harmnicas de freqncia em sinais de udio
pixels no so bons atributos para reconhecimento de face, assim como o udio bruto no apropriado para reconhecer voz
79

Reduo de Dimensionalidade
Um tipo particular de extrao de caractersticas a Transformao do Espao de Atributos
Gera um novo conjunto de atributos a partir da combinao de projees dos atributos originais
p. ex. PCA (linear) ou Kernel PCA (no linear)

Atributos so ortogonais e ordenados segundo a parcela de informao que conduzem


Descarte dos atributos menos representativos permite obter um novo espao de dimenso menor que o original
retendo a maior parte possvel da informao
80

40

Reduo de Dimensionalidade
Transformao do Espao de Atributos
Vantagens:
Muito simples e computacionalmente rpida
em especial PCA linear vide (Haykin, 1999)

Desvantagens:
Limitada a atributos numricos Interpretabilidade dos atributos originais perdida
o que proibitivo em determinados cenrios de aplicao
81

Dimensionality Reduction: PCA


Dimensions = 120 Dimensions =160 206 80 40 10

Tan,Steinbach, Kumar

Introduction to Data Mining

4/18/2004

82

41

Seleo de Atributos
Diferente das abordagens anteriores, a seleo de atributos assume que os atributos existentes j esto em uma forma apropriada, porm:
parte deles pode ser irrelevante parte deles pode ser redundante

Essa parte pode ser significativa e comprometer a qualidade de AM (maldio da dimensionalidade)


em reas como text mining e bioinformtica, por ex., comum que centenas a milhares de atributos sejam desnecessrios
83

Seleo de Atributos
Atributos irrelevantes redundantes
Irrelevantes
No possuem informao til para a tarefa em questo
Por exemplo, nome de uma ao para previso do seu valor Caso extremo: valor constante para todas as instncias

Redundantes
Possuem a mesma informao til para a tarefa em questo
Por ex., salrio e IR retido na fonte p/ anlise de crdito Caso extremo: valores iguais ou proporcionais
84

42

Seleo de Atributos
Pode ser feita por:
Ordenao
Ordena os atributos de acordo com sua relevncia e seleciona um subconjunto dos mais relevantes segundo alguma medida
relevante para discriminar classes individualmente (classificao) relevante para prever a sada individualmente (regresso)

Relevncia: Estatstica ou Teoria da Informao


depende da natureza do problema e dos atributos envolvidos

Seleo de subconjunto
Seleciona subconjunto de atributos mutuamente relevantes
85

Seleo de Atributos
Atributos originais 1 4 1 Atributos originais 1 2 3 4 5 6 7 8 9 10 2 7 2 3 2 3 4 6 4 5 9 5 6 7 8 5 8 9 10 8 3

Seleo por Ordenao

Atributos ordenados 1 10 6 7 9 10

Subconjunto de atributos

Seleo de Subconjunto
86

9 10

43

Exemplo Simples
Ordenar os atributos mais importantes para o diagnstico de pacientes
Febre 1 0 1 1 1 0 Enjo Mancha Dor 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 1 1 Diagnstico 0 1 1 0 1 0
87

Exemplo Simples
Dado que temos apenas atributos binrios podemos estimar a relevncia segundo uma abordagem muito simples: Febre 1 0 1 1 1 0 Enjo Mancha Dor 1 1 1 0 0 0 0 0 1 0 1 1 1 0 0 1 1 1 Diagnstico 0 1 1 0 1 0
Escores: Febre: 3/6 Enjo: 4/6 Manchas: 4/6 Dores: 1/6 Ranking: 1- Enjo 2- Manchas 3- Febre 4- Dores

88

44

Nota
A estimativa de relevncia anterior possui apenas um carter pedaggico, pois:
No considera que um atributo discriminante dado pela negao do atributo meta seria to exato quanto o prprio atributo meta No considera que os atributos so assimtricos
no existe sintoma que discrimine pacientes saudveis
no apresentam sintomas ou apresentam sintomas devido a outras patologias distintas daquela que se quer discriminar
89

Exerccio
Ordenar os atributos mais importantes (A1...A5) para o diagnstico correto
A1 0 1 0 1 0 1 A2 0 1 0 0 1 0 A3 1 1 1 0 0 0 A4 1 1 0 0 1 0 A5 1 0 0 0 0 0 Diagnstico 0 1 1 0 1 1
90

45

Seleo de Atributos
Vantagem da ordenao
Complexidade linear com o no. N de atributos Note que o nmero de possveis combinaes de n dentre N atributos ...

N N! = n ( N n)!n!
91

Seleo de Atributos
Deficincia da ordenao
Despreza correlao e redundncia entre atributos
atributos podem ser inteis sozinhos porm teis em conjunto ou podem ser to teis sozinhos quanto em conjunto

Melhores n atributos dificilmente constituem o melhor subconjunto de n atributos


s se forem descorrelacionados (p. ex. ortogonais PCA)

O melhor subconjunto aquele mais complementar !


92

46

Seleo de Atributos
Taxonomia independente:
Filtros
seleo de atributos realizada a priori e no envolve o algoritmo de AM a ser aplicado depois (algoritmo alvo)

Wrappers
seleo de atributos envolve o algoritmo de AM alvo, que usado para guiar o processo de seleo

Embarcados (Embedded)
seleo de atributos ocorre naturalmente e internamente como parte do algoritmo de AM
93

Filtros
Utilizam alguma heurstica para executar uma busca, no espao de subconjuntos de atributos, guiada apenas por propriedades intrnsecas aos prprios dados
No envolve o algoritmo de AM alvo Critrios de busca podem ser, por exemplo, medidas de correlao / informao mtua entre atributos
medidas de relevncia e redundncia privilegiam conjuntos de atributos muito relacionados com a sada desejada e pouco relacionados entre si

94

47

Filtros
Tm como vantagem a rapidez de processamento
Veja o exemplo simples de seleo por ordenao ilustrado anteriormente! Trata-se de um filtro!

95

Filtros
Tm como desvantagem guiar a seleo de forma indireta, o que pode levar a resultados inferiores

96

48

Wrappers
Utilizam alguma heurstica para executar uma busca, no espao de subconjuntos de atributos, guiada pelo algoritmo de AM alvo
O uso do algoritmo alvo implica guiar a busca diretamente em direo aos atributos que maximizam o seu desempenho No entanto, em geral implica tornar o mtodo muito custoso (possivelmente proibitivo) em termos computacionais Veremos posteriormente no curso um exemplo vivel computacionalmente, baseado no classificador Naive Bayes !
97

Wrappers

98

49

Abordagens Embarcadas
Seleo de atributos faz parte da estratgia de aprendizado do modelo
ocorre naturalmente e internamente como parte do algoritmo de AM

Estudaremos um exemplo clssico de abordagem embarcada posteriormente no curso


Classificadores baseados em rvores de Deciso !
99

Leitura e Outros Exerccios


Captulo 2 (Tan et al., 2006)
Sees 2.1 a 2.3.5

100

50

Bibliografia
P.-N. Tan, Steinbach, M., and Kumar, V., Introduction to Data Mining, Addison-Wesley, 2006 Haykin, S., Neural Networks: A Comprehensive Foundation, 2nd Edition, 1999.

101

51

Вам также может понравиться