Академический Документы
Профессиональный Документы
Культура Документы
Datos faltantes
Claudio Bustos
22 de agosto de 2015
Claudio Bustos
Datos faltantes
M
etodos
Claudio Bustos
Datos faltantes
M
etodos
Claudio Bustos
Datos faltantes
M
etodos
Claudio Bustos
Datos faltantes
M
etodos
Datos
Y1
1
3
2
5
Claudio Bustos
Datos faltantes
Y2
4
3
2
1
Y3
3
2
Datos
M1
1
1
1
1
observados y perdidos
M2 M3
1
1
1
1
1
0
1
0
M
etodos
Datos
Y1
1
3
2
5
Claudio Bustos
Datos faltantes
Y2
4
3
Y3
3
2
Datos
M1
1
1
1
1
observados y perdidos
M2 M3
1
1
1
1
0
0
0
0
M
etodos
Datos
Y1
1
3
2
Claudio Bustos
Datos faltantes
Y2
4
3
Y3
3
Datos
M1
1
1
1
0
observados y perdidos
M2 M3
1
1
1
0
0
0
0
0
M
etodos
Datos
Y1
1
5
3
Claudio Bustos
Datos faltantes
Y2
3
2
Y3
3
3
5
1
Datos
M1
1
0
0
1
1
observados y perdidos
M2 M3
0
1
1
0
1
1
0
1
1
1
M
etodos
M
etodos
Datos
Y1
4
5
4
3
Claudio Bustos
Datos faltantes
Y2
4
3
1
3
Y3
3
2
3
5
Y4
3
2
2
1
2
3
Datos
M1
0
0
1
1
1
1
observados
M2 M3
1
1
1
1
0
1
0
1
1
0
1
0
y perdidos
M4
1
1
1
1
1
1
M
etodos
Datos
Y1
Claudio Bustos
Datos faltantes
Y2
4
3
2
1
1
3
Y3
3
2
3
5
3
2
Y4
3
2
2
1
2
3
Datos
M1
0
0
0
0
0
0
observados
M2 M3
1
1
1
1
1
1
1
1
1
1
1
1
y perdidos
M4
1
1
1
1
1
1
M
etodos
Claudio Bustos
Datos faltantes
La probabilidad de aparici
on de datos perdidos observados no se
relacionan con ninguna de las variables observadas y tampoco con
el valor perdido en s. En notaci
on:p(R|)
Si la variable X tiene datos completos y la variable Y tiene datos
faltantes, la distribucion de X para los casos observados en Y
debera ser la misma que para los datos faltantes.
Es el u
nico mecanismo que se puede verificar mediante pruebas.
Claudio Bustos
Datos faltantes
M
etodos
M
etodos
Ejemplo de MCAR
library(psych)
library(VIM)
x1<-rnorm(1000) # Normal, con M=0 y DE=1
x2<-x1+rnorm(1000) # Normal, con M=0 y DE=raiz(2)
df1<-data.frame(x1=x1,x2=x2)
describe(df1)
cor(df1) # Cercana a 0.7
is.na(df1$x2)<- runif(1000)>0.5 # Eliminamos al azar
describe(df1) # Media x2 similar
cor(df1,use="p") # No varia
scattmatrixMiss(df1) # Distribucion x1 igual
Claudio Bustos
Datos faltantes
M
etodos
Claudio Bustos
Datos faltantes
M
etodos
Ejemplo de MAR
library(psych)
library(VIM)
x1<-rnorm(1000) # Normal, con M=0 y DE=1
x2<-x1+rnorm(1000) # Normal, con M=0 y DE=raiz(2)
df2<-data.frame(x1=x1,x2=x2)
describe(df2)
cor(df2) # Cercana a 0.7
is.na(df2$x2)<- x1 > 0 & runif(1000)>0.5 # Eliminamos con mec
describe(df2) # Media x2 es menor
cor(df2,use="p") # Correlaci
on disminuye
scattmatrixMiss(df2) # Fijarse en X1
Claudio Bustos
Datos faltantes
M
etodos
Claudio Bustos
Datos faltantes
Ejemplo de NMAR
library(psych)
library(VIM)
x1<-rnorm(1000) # Normal, con M=0 y DE=1
x2<-x1+rnorm(1000) # Normal, con M=0 y DE=raiz(2)
df3<-data.frame(x1=x1,x2=x2)
describe(df1)
cor(df3) # Cercana a 0.7
is.na(df3$x2)<runif(1000)>0.25 | x2 > 0.5 # azar + valor perdido
describe(df3) # Media x2 es inferior
cor(df3,use="p") # Cov disminuye
scattmatrixMiss(df3) # Mirar distribucion x2
Claudio Bustos
Datos faltantes
M
etodos
Ejemplos
MCAR: Se cuenta con un instrumento que registra cuantas
personas ingresan por hora a un recinto. El dispositivo tienen
una probabilidad determinada de fallar, sin que esta dependa
de ning
un factor externo.
MAR: Se tienen dos variables: gusto por los videojuegos y
asistencia promedio. A priori, no suponemos relacion entre
ambos. Los alumnos que no asisten en el da de la encuesta
no responden, pero con el dato de la asistencia promedio
puedo predecir la probabilidad que ocurra la no respuesta.
NMAR: En un cuestionario se consulta por el rendimiento
academico. Las personas con menor rendimiento suelen no
responder esta pregunta, por lo que la presencia del un dato
faltante depende, precisamente, del valor real no observado.
Claudio Bustos
Datos faltantes
M
etodos
Metodos tradicionales
Claudio Bustos
Datos faltantes
M
etodos
Ultima
observacion mantenida (last observation carried
forward)
Claudio Bustos
Datos faltantes
M
etodos
M
etodos
Metodos modernos
Los dos metodos modernos de trabajo con datos perdidos son
maxima verosimilitud e imputaci
on m
ultiple. Ambos metodos
permiten realizar estimaciones insesgadas bajo MAR.
Maxima verosimilitud : Se buscan los parametros que mejor
respondan a los datos observados, asumiendo que los datos
perdidos provienen de la misma distribuci
on de los datos
observados.
Imputacion m
ultiple : Se generan m
ultiples bases de datos, en
la cual a cada valor perdido se le imputa un valor al azar,
dependiente de los datos observados. El resultado final es un
agregado de los resultados parciales.
Claudio Bustos
Datos faltantes
M
etodos
Claudio Bustos
Datos faltantes
Claudio Bustos
Datos faltantes
M
etodos
library(mvnmle)
pres.resultados<-function(x) {
est<-mlest(x);
cat("Medias\n");print(est$muhat);
cat("Correlaci
on\n");print(cov2cor(est$sigmahat)[1,2]);
}
pres.resultados(df1) # MCAR -> Bien
pres.resultados(df2) # MAR -> Bien
pres.resultados(df3) # NMAR -> MAL
Claudio Bustos
Datos faltantes
M
etodos
M
etodos