Вы находитесь на странице: 1из 25

Patrones de datos faltantes

Mecanismos de datos faltantes

Datos faltantes
Claudio Bustos

22 de agosto de 2015

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Aspectos generales del analisis de datos faltantes

Los datos faltantes son aquellos que no se poseen para un caso en


particular. Pueden producirse por ausencia inesperada de la
respuesta deseada (omisi
on o error) o por dise
no, de forma
planeada.
Es uno de los problemas mas importantes en investigacion
cuantitativa, tanto por su frecuencia como por el da
no que puede
causar en las conclusiones de los estudios.

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Metodos para enfrentar los datos faltantes

Los metodos antiguos de solucionar el problema de los datos


faltantes, particularmente aquellos que implican la eliminacion de
casos, pueden sesgar fuertemente los resultados.
Existen dos metodos que constituyen el estado del arte en casos
faltantes: estimacion de maxima verosimilitud e imputacion
m
ultiple.

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Patrones y Mecanismos de datos faltantes

Patron de datos faltantes: Configuraci


on de datos observados
y perdidos en el conjunto de datos. Describe donde se
encuentran los datos faltantes, pero no porque ocurre la
ausencia.
Mecanismo de datos faltantes: Posible relaci
on entre las
variables observadas y los datos faltantes. No representa un
mecanismo causal, sino el tipo de relaciones matematicas
genericas entre lo observado y lo faltante.

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Patrones de datos faltantes:Univariado

Datos
Y1
1
3
2
5

Claudio Bustos
Datos faltantes

Y2
4
3
2
1

Y3
3
2

Datos
M1
1
1
1
1

observados y perdidos
M2 M3
1
1
1
1
1
0
1
0

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Patrones de datos faltantes: No respuesta de unidad

Datos
Y1
1
3
2
5

Claudio Bustos
Datos faltantes

Y2
4
3

Y3
3
2

Datos
M1
1
1
1
1

observados y perdidos
M2 M3
1
1
1
1
0
0
0
0

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Patrones de datos faltantes: Monotono

Datos
Y1
1
3
2

Claudio Bustos
Datos faltantes

Y2
4
3

Y3
3

Datos
M1
1
1
1
0

observados y perdidos
M2 M3
1
1
1
0
0
0
0
0

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Patrones de datos faltantes:General

Datos
Y1
1

5
3

Claudio Bustos
Datos faltantes

Y2

3
2

Y3
3

3
5
1

Datos
M1
1
0
0
1
1

observados y perdidos
M2 M3
0
1
1
0
1
1
0
1
1
1

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

Patrones de datos faltantes:Planificado

Datos
Y1

4
5
4
3

Claudio Bustos
Datos faltantes

Y2
4
3

1
3

Y3
3
2
3
5

Y4
3
2
2
1
2
3

Datos
M1
0
0
1
1
1
1

observados
M2 M3
1
1
1
1
0
1
0
1
1
0
1
0

y perdidos
M4
1
1
1
1
1
1

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

Patrones de datos faltantes:Variable latente

Datos
Y1

Claudio Bustos
Datos faltantes

Y2
4
3
2
1
1
3

Y3
3
2
3
5
3
2

Y4
3
2
2
1
2
3

Datos
M1
0
0
0
0
0
0

observados
M2 M3
1
1
1
1
1
1
1
1
1
1
1
1

y perdidos
M4
1
1
1
1
1
1

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

Mecanismos de datos faltantes

Rubin describe tres mecanismos de datos faltantes, en terminos de


la relacion entre los datos observados y faltantes. Los nombres son
un poco confusos, as que se debe tener cuidado al entenderlos.
MCAR. Missing completely at random. Datos perdidos
completamente al azar
MAR. Missing at random. Datos perdidos al azar
MNAR. Missing not at random. Datos no perdidos al azar

Claudio Bustos
Datos faltantes

Patrones de datos faltantes

Mecanismos de datos faltantes

MCAR: Datos perdidos completamente al azar

La probabilidad de aparici
on de datos perdidos observados no se
relacionan con ninguna de las variables observadas y tampoco con
el valor perdido en s. En notaci
on:p(R|)
Si la variable X tiene datos completos y la variable Y tiene datos
faltantes, la distribucion de X para los casos observados en Y
debera ser la misma que para los datos faltantes.
Es el u
nico mecanismo que se puede verificar mediante pruebas.

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

Ejemplo de MCAR

library(psych)
library(VIM)
x1<-rnorm(1000) # Normal, con M=0 y DE=1
x2<-x1+rnorm(1000) # Normal, con M=0 y DE=raiz(2)
df1<-data.frame(x1=x1,x2=x2)
describe(df1)
cor(df1) # Cercana a 0.7
is.na(df1$x2)<- runif(1000)>0.5 # Eliminamos al azar
describe(df1) # Media x2 similar
cor(df1,use="p") # No varia
scattmatrixMiss(df1) # Distribucion x1 igual

Claudio Bustos
Datos faltantes

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

MAR: Datos perdidos al azar

La probabilidad de datos perdidos observados no se relaciona con


el valor perdido en s, pero si con las otras variables observadas.En
notacion:p(R|Yobs , )
Para que un modelo sea MAR, una vez que eliminamos el efecto
de las variables observadas, el que un dato este perdido o no se
debe exclusivamente al azar.

Claudio Bustos
Datos faltantes

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

Ejemplo de MAR

library(psych)
library(VIM)
x1<-rnorm(1000) # Normal, con M=0 y DE=1
x2<-x1+rnorm(1000) # Normal, con M=0 y DE=raiz(2)
df2<-data.frame(x1=x1,x2=x2)
describe(df2)
cor(df2) # Cercana a 0.7
is.na(df2$x2)<- x1 > 0 & runif(1000)>0.5 # Eliminamos con mec
describe(df2) # Media x2 es menor
cor(df2,use="p") # Correlaci
on disminuye
scattmatrixMiss(df2) # Fijarse en X1

Claudio Bustos
Datos faltantes

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

NMAR: Datos no perdidos al azar

La probabilidad de datos perdidos observados se relaciona con el


valor perdido en s, incluso despues de controlar las otras variables
observadas. En notacion: p(R|Yobs , Yperd , )
Este caso es el mas complicado, ya que no tenemos referencia de
cuanto nos estamos alejando del valor perdido al estimar usando la
informacion disponible.

Claudio Bustos
Datos faltantes

Patrones de datos faltantes

Mecanismos de datos faltantes

Ejemplo de NMAR

library(psych)
library(VIM)
x1<-rnorm(1000) # Normal, con M=0 y DE=1
x2<-x1+rnorm(1000) # Normal, con M=0 y DE=raiz(2)
df3<-data.frame(x1=x1,x2=x2)
describe(df1)
cor(df3) # Cercana a 0.7
is.na(df3$x2)<runif(1000)>0.25 | x2 > 0.5 # azar + valor perdido
describe(df3) # Media x2 es inferior
cor(df3,use="p") # Cov disminuye
scattmatrixMiss(df3) # Mirar distribucion x2

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Ejemplos
MCAR: Se cuenta con un instrumento que registra cuantas
personas ingresan por hora a un recinto. El dispositivo tienen
una probabilidad determinada de fallar, sin que esta dependa
de ning
un factor externo.
MAR: Se tienen dos variables: gusto por los videojuegos y
asistencia promedio. A priori, no suponemos relacion entre
ambos. Los alumnos que no asisten en el da de la encuesta
no responden, pero con el dato de la asistencia promedio
puedo predecir la probabilidad que ocurra la no respuesta.
NMAR: En un cuestionario se consulta por el rendimiento
academico. Las personas con menor rendimiento suelen no
responder esta pregunta, por lo que la presencia del un dato
faltante depende, precisamente, del valor real no observado.
Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Metodos tradicionales

Caso completo (listwise): Se eliminan todos los casos con


datos faltantes.
Caso disponible (pairwase): Se eliminan los casos con datos
faltantes en los analisis espcficos.
Imputacion sencilla: Se rellena los casos faltantes para lograr
una base de datos completa

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Metodos de imputacion sencilla

Media no condicional (media de la variable)


Media condicional (regresi
on)
Regresion estocastica
mazo-caliente (hot-deck)
Promedio de tems disponibles (en escalas)

Ultima
observacion mantenida (last observation carried
forward)

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

Metodos modernos
Los dos metodos modernos de trabajo con datos perdidos son
maxima verosimilitud e imputaci
on m
ultiple. Ambos metodos
permiten realizar estimaciones insesgadas bajo MAR.
Maxima verosimilitud : Se buscan los parametros que mejor
respondan a los datos observados, asumiendo que los datos
perdidos provienen de la misma distribuci
on de los datos
observados.
Imputacion m
ultiple : Se generan m
ultiples bases de datos, en
la cual a cada valor perdido se le imputa un valor al azar,
dependiente de los datos observados. El resultado final es un
agregado de los resultados parciales.

Claudio Bustos
Datos faltantes

Patrones de datos faltantes

Mecanismos de datos faltantes

M
etodos

Ventajas y desventajas de Maxima verosimilitud

Ventaja: Mas rapida que IM. Entrega el resultado esperado


(parametro) directamente, siendo
optimo para la informacion
disponible.
Desventajas: Difcil de entender te
oricamente. Se requiere que
el metodo de estimaci
on este dise
nado para el problema
especfico a resolver.

Claudio Bustos
Datos faltantes

Patrones de datos faltantes

Mecanismos de datos faltantes

Ventajas y desventajas de Imputacion multiple

Ventaja: Facil de entender. Permite usar metodos para bases


completas. Permite calcular de forma facil el monto de
variabilidad atribuible al dato perdido.
Desventajas: Mas lento y laborioso que MV. Puede ser
complicado encontrar la forma de reunir los resultados de
m
ultiples pruebas.

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Ejemplo maxima verosimilitud

library(mvnmle)
pres.resultados<-function(x) {
est<-mlest(x);
cat("Medias\n");print(est$muhat);
cat("Correlaci
on\n");print(cov2cor(est$sigmahat)[1,2]);
}
pres.resultados(df1) # MCAR -> Bien
pres.resultados(df2) # MAR -> Bien
pres.resultados(df3) # NMAR -> MAL

Claudio Bustos
Datos faltantes

M
etodos

Patrones de datos faltantes

Mecanismos de datos faltantes

Ejemplo imputacion multiple


library(mice)
pres.resultados<-function(x) {
mi<-mice(x,method="norm",printFlag=F);
cat("Medias\n");
print(rowMeans(sapply(1:5,function(i) {
colMeans(complete(mi,i))
})));
cat("Correlaci
on\n");
print(mean(sapply(1:5,function(i) {
cor(complete(mi,i))[1,2]
})));
}
pres.resultados(df1) # MCAR -> Bien
pres.resultados(df2) # MAR -> Bien
pres.resultados(df3) # NMAR -> MAL!
Claudio Bustos
Datos faltantes

M
etodos

Вам также может понравиться