Вы находитесь на странице: 1из 22

Valores Ausentes

Algoritmos e estratgias para tratamento


Disciplina: Minerao de Dados (PPGEE 0138) - 2 Semestre/2014

G4: Edinaldo de Alencar / Igor Freire / Ramon Arajo / Ricardo Ribeiro

Agenda

Introduo
Mecanismos de valores ausentes
O que fazer com VAs
Tcnicas de Imputao
Imputao por Mdia e Moda
Imputao Local
kNN - Vizinhos mais prximos

Imputao por Maximizao da Esperana


Aplicaes

R
Weka

Introduo
Valores ausentes:
Omisso de dados pela prpria fonte de informao
Atributo no aplicvel
Evento no aconteceu
Dados indisponveis ou muito difceis de serem obtidos
Exemplo: Questionrio

Mecanismos de Valores Ausentes


Completamente Aleatrios (MCAR - Missing Completely at
Random)
Probabilidade de uma amostra (instncia) ter um VA
independente dos valores na base de dados.
Aleatrios (MAR - Missing at Random)
Probabilidade de uma amostra (instncia) ter um VA depende
dos valores observveis (coletados) na base.
No aleatrios (MNAR - Missing Not at Random)
Probabilidade de uma amostra (instncia) ter um VA depende
do prprio valor ausente.

Mecanismos de Valores Ausentes


Exemplo:

Mecanismos de Valores Ausentes


Observaes:
A maioria dos mtodos de imputao assume valores
ausentes
completamente
aleatrios
(MCAR).
dificil identificar a distribuio de probabilidade dos valores
ausentes, principalmente os VAs do tipo NMAR.
Poucos algoritmos de imputao supem valores ausentes
NMAR. A maioria dos algoritmos supe VAs MCAR ou
MAR.

O que fazer com valores ausentes?


Alternativas:
1. Ignorar instncias contendo VAs (listwise deletion)
Tcnica conservadora, no cria dados
Problema: pode ocasionar perda de informaes relevantes

2. Substituio de valores ausentes (imputao)


Substituio de VAs por valores provveis
Estimao dos valores utilizando o conjunto de dados
Mtodo utilizado para imputao independente do algoritmo
de aprendizagem de mquina utilizado

Tcnicas de Imputao
Imputao pela mdia ou moda (Mean-mode Imputation - MMImpute)

Mdia para atributos numricos


Moda para atributos categricos
Problema: varincia pode tornar-se subestimada

Imputao local: por Hot-deck ou Cold-deck

Em contraste ao MMImpute, substitui valores diferentes para cada


valor ausente
Passos do Algoritmo:
i. Clusterizao das amostras da base de dados
ii. Associao das instncias com VAs aos clusters mais prximos
iii. Substituio dos VAs por valores baseados nas instncias
completas (sem VAs) do cluster a que pertencem

Tcnicas de Imputao
Mtodos Preditivos:

Atributo que contm os VAs definido como atributo classe e os


demais atributos so utilizados para computao de um modelo
Baseado no modelo, faz-se a predio dos VAs
Exemplos:
rvores de Deciso (para atributos categricos)
Nave Bayes
Regresso

Imputao pela Mdia ou Moda (MMImpute)

A mdia uma estimativa razovel para variveis com


distribuio de probabilidades normal.

aconselhvel a utilizao para uma base de dados com


poucos valores ausentes do tipo MCAR.
Aplicvel tanto para valores categricos (moda) quanto
numricos (mdia), contnuos ou discretos.

Imputao pela Mdia ou Moda (MMImpute)

Imputao pela Mdia ou Moda (MMImpute)

Imputao pela Mdia ou Moda (MMImpute)

Imputao local

Imputao Hot-deck ou Cold-deck


Hot e Cold diferem quanto ao processo de agrupamento - Cold

utiliza base de dados disjunta para formar clusters


Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)

Exemplo:
Escolaridade

Filhos

Carro

Renda Mensal

Superior

Sim

R$6.000,00

Mdio

No

R$1.500,00

Superior

Sim

R$4.500,00

Superior

Sim

R$5.500,00

Mdio

No

R$1.200,00

Superior

Sim

R$7.500,00

Instncia com VA:


Superior

Sim

NA

Imputao local
Imputao Hot-deck ou Cold-deck
Hot e Cold diferem quanto ao processo de agrupamento - Cold

utiliza base de dados disjunta para formar clusters


Exemplo: Vizinhos mais prximos (K-Nearest Neighbors - kNNImpute)

Exemplo:
Escolaridade

Filhos

Carro

Renda Mensal

Superior

Sim

R$7.000,00

Mdio

No

R$1.500,00

Superior

Sim

R$4.500,00

Superior

Sim

R$5.500,00

Mdio

No

R$1.200,00

Superior

Sim

R$8.500,00

Instncia com VA:

Cluster

Superior

Sim

NA

Valor substitudo: mdia entre as rendas


das instncias do cluster
NA

Substitudo por

R$7.750,00

Imputao kNN - Vizinhos mais prximos

Exemplo ilustrativo:

Imputao kNN - Vizinhos mais prximos


Vantagens:

Pode lidar com atributos numricos e nominais.


No necessita do treinamento de um modelo para cada atributo com
valores ausentes (lazy learner).
Pode lidar com instncias com vrios valores ausentes.

Desvantagem:
Necessidade de percorrer toda a base para encontrar os vizinhos mais
prximos para cada instncia com valor ausente.

Imputao kNN - Vizinhos mais prximos

Algoritmo:

Imputao kNN - Vizinhos mais prximos


Escolha do nmero de vizinhos (k):

Relao de compromisso entre vis e


varincia.

Tendncia com a diminuio de k:


Aumento da varincia
Diminuio do vis

Tendncia com o aumento de k:


Diminuio da varincia
Aumento do vis

Imputao EM (Expectation Maximization)

Schafer: Se soubssemos os parmetros do modelo dos dados, seria possvel


obtermos predies no-tendenciosas (unbiased) dos valores ausentes.
O modelo estatstico dos dados estimado por meio da maximizao da funo
log-verossimilhana.

Sistema de equaes complexo

1: Etapa de Expectativa (Passo E)


2: Etapa de Maximizao (Passo M)

Soluo Iterativa

Imputao EM (Expectation Maximization)


Supera as deficincias do MMImpute e substituio por regresso.
Problemtico para ausncias de dados MNAR, e MAR com mais do que
20% de dados ausentes.

Opera com base de dados numrica, real/discreta.

Algoritmo preliminar em tcnicas mais complexas (imputao mltipla).

Referncias

SILVA, J. A. Substituio de valores ausentes: uma abordagem baseada em um algoritmo


evolutivo para agrupamento de dados. Dissertao ICMC-USP, Abr. 2010.

THIRUKUMARAN, S.; SUMATHI, A. Missing Value Imputation Techniques Depth Survey And
an Imputation Algorithm To Improve The Efficiency Of Imputation. 2012 Fourth International
Conference on Advanced Computing (ICoAC), Dec. 2012.

ACOCK, Alan C. Working with Missing Values. Journal of Marriage and Family 67.4(2005).

SCHAFER, Joseph L.; GRAHAM, J. W. Missing data: Our View of the State of the Art.
Psychological methods 7.2 (2002): 147.

Вам также может понравиться