Академический Документы
Профессиональный Документы
Культура Документы
Dr. Edgar Acuna Departmento de Matematicas Universidad de Puerto RicoMayaguez website: academic.uprm.edu/eacuna
COMP 6315 Mineria de Datos Edgar Acuna 1
incompletos: falta valores en los atributos, carecen de algunos atributos de inters, o contienen slo totalizaciones. ruidosos: contienen errores o valores anmalos. inconsistentes: contienen discrepancias en cdigos o nombres ( Notas: A,AB,B,C,D,F,W). datos duplicados.
COMP 6315
Ruido
El ruido se refiere a la modificacin de valores originales. Ejemplos: distorsin de la voz de una persona cuando habla por telfono, nieve en la pantalla de televisin.
Outliers
Los outliers son casos con caractersticas que difieren considerablemente de la mayora de los casos en el conjunto de datos.
COMP 6315
Mineria de Datos
Edgar Acuna
Completar valores faltantes, suavizar datos ruidosos, identificar o eliminar outliers, y resolver inconsistencias. Integracin de mltiples bases de datos. Normalizacin y totalizacin. Se obtiene una representacin ms reducida en volumen pero que produce los mismos o similares resultados analticos. Parte de la reduccin de datos pero que es particularmenete mportante para datos numricos.
Mineria de Datos Edgar Acuna 5
Limpieza de Datos
Tareas de la limpieza de datos:
Completar valores faltantes. Identificar outliers y suavizar datos ruidosos. Corregir datos inconsistentes.
COMP 6315
Mineria de Datos
Edgar Acuna
E.g., muchas filas no tienen registrados valores para muchos atributos, tales como los ingresos del cliente en datos de ventas.
COMP 6315
Mineria de Datos
Edgar Acuna
COMP 6315
Mineria de Datos
Edgar Acuna
Impacto de valores faltantes: 1% datos faltantes trivial 1-5% - manejable 5-20% - requiere mtodos sofisticados 20% o mas- efecto perjudica las interpretacines
COMP 6315 Mineria de Datos Edgar Acuna 9
Para conjuntos de datos con un bajo porcentaje de valores faltantes el mecanismo se puede considerar MCAR. Para conjuntos de datos con un alto porcentaje de valores faltantes el mecanismo se puede considerar NMAR. Para conjuntos de datos con valores faltantes simulados el mecanismo se puede considerar MAR
COMP 6315 Mineria de Datos Edgar Acuna 12
Variables en Census
1- age: continua. 2- workclass: Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Neverworked. Nominal 3- fnlwgt (final weight) : Continua. 4- education: Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool. Ordinal. 5- education-num: continua. 6- marital-status: Married-civ-spouse, Divorced, Nevermarried, Separated, Widowed, Married-spouse-absent, Married-AF-spouse. Nominal 7- occupation: Nominal
COMP 6315 Mineria de Datos Edgar Acuna 14
Variables en Census
8-relationship: Wife, Own-child, Husband, Not-infamily, Other-relative, Unmarried. Nominal 9-race: White, Asian-Pac-Islander, Amer-IndianEskimo, Other, Black. Nominal 10-sex: Female[0], Male[1]. Nominal-Binaria 11-capital-gain: continua. 12-capital-loss: continua. 13-hours-per-week: continua. 14-native-country: nominal 15 Salary: >50K [2], <=50K [1].
COMP 6315
Mineria de Datos
Edgar Acuna
15
COMP 6315
Mineria de Datos
Edgar Acuna
17
COMP 6315
Mineria de Datos
Edgar Acuna
18
Explorando el conjunto de datos usando imagmiss() de la libreria dprep Instalar primero la libreria dprep de R > imagmiss(data, name=dataname")
Report on missing values for Census : Number of missing values overall: 4262 Percent of missing values overall: 0.9349485 Features with missing values (percent): V2 V6 V13 5.638647 5.660146 1.790486 Percent of features with missing values: 21.42857 Number of instances with missing values: 2399 Percent of instances with missing values: 7.36771
COMP 6315
Mineria de Datos
Edgar Acuna
20
La funcin clean
Esta funcin elimina columnas y filas que tienen un gran nmero de valores faltantes. census.cl=clean(censusn,tol.col=.5, tol.row=.3,name="cl.census")
Variables 1 V2 2 V6 3 V13
valores conocidos de ese atributo en la clase a la que la instancia con el valor faltante pertenece.
Para cada vector x en Dm: A) Dividir el vector en dos partes: una la de informacin observada y otra la de informacin faltante, x = [xo; xm]. B) Calcular la distancia entre xo y todos los vectores del conjunto o Dc. Usar solo aquellos atributos en los vectores de Dc que estn observados en el vector x. C) Usar los K vectores ms cercanos (K-nearest neighbors) y considerar la moda como un estimado de los valores faltantes para los atributos nominales. Para atributos continuos, reemplazar el valor faltante por la media del atributo en la vecindad de los k vecinos mas cercanos (knearest neighborhood).
Mineria de Datos Edgar Acuna 25
COMP 6315
COMP 6315
Mineria de Datos
Edgar Acuna
26
X1 X2 X3 3 6 7 4 5 7 6 11 4 7 11 2 3 4 13
COMP 6315
Mineria de Datos
Edgar Acuna
27
COMP 6315
Mineria de Datos
Edgar Acuna
28
COMP 6315
Mineria de Datos
Edgar Acuna
29
COMP 6315
Mineria de Datos
Edgar Acuna
32
#imputation using linear regression m2 [,1] [,2] [,3] [,4] [1,] 26 26 24 3 [2,] 25 20 25 3 [3,] 18 13 81 3 [4,] 22 27 10 4 [5,] 18 23 13 4 [6,] 25 19 14 4 [7,] 27 NA 17 4 [8,] 37 23 19 4 [9,] 33 NA 18 4 [10,] 17 5 79 5 [11,] 29 20 23 4 [12,] 22 55 9 4 [13,] 28 23 21 4 [14,] 26 23 17 5 [15,] 24 NA 17 4 [16,] 34 49 169 4 [17,] 11 15 8 4 [18,] 19 NA 21 4 [19,] 17 21 14 4 [20,] 15 17 17 4 COMP 6315 Mineria [21,] 15 16 16 4 de Datos
Edgar Acuna
33
> l1=lm(V2~.,data=as.data.frame(m2[-c(7,9,15,18),])) > l1 Call: lm(formula = V2 ~ ., data = as.data.frame(m2[-c(7, 9, 15, 18), Coefficients: (Intercept) V1 V3 V4 10.89763 0.68296 0.03664 -1.09970 > a=as.data.frame(m2[c(7,9,15,18),-2]) > colnames(a)=c("V1","V3","V4") >a V1 V3 V4 1 27 17 4 2 33 18 4 3 24 17 4 4 19 21 4 > lmimp=predict(l1,a) > lmimp 1 2 3 4 25.56156 29.69596 23.51269 20.24445 >
COMP 6315 Mineria de Datos Edgar Acuna
]))
34
COMP 6315
Mineria de Datos
Edgar Acuna
35
Imputacion en WEKA
Weka hace solo imputacion por la media en caso de de que el atributo sea continuo o por la moda en caso de que el atributo sea nominal. Para esto despues de abrir un archivo arff se usa la siguiente secuencia filters> unsupervised >attribute>ReplaceMissingValues
COMP 6315
Mineria de Datos
Edgar Acuna
36
Preprocesamiento-Normalizacin
La normalizacin de datos consiste en reescalar los valores de los datos dentro de un rango especificado, tal como -1 a 1 o 0 a 1. Tambin es conocido como normalizacion del rango.
COMP 6315
Mineria de Datos
Edgar Acuna
37
COMP 6315
Mineria de Datos
Edgar Acuna
38
COMP 6315
Mineria de Datos
Edgar Acuna
39
> bupa[1:20,] V1 1 85 2 85 3 86 4 91 5 87 6 98 7 88 8 88 9 92 10 90 11 89 12 82 13 90 14 86 15 96 16 91 17 89 18 89 19 91 20 94
COMP 6315
V2 92 64 54 78 70 55 62 67 54 60 52 62 64 77 67 78 67 79 107 116
V3 45 59 33 34 12 13 20 21 22 25 13 17 61 25 29 20 23 17 20 11
V4 27 32 16 24 28 17 17 11 20 19 24 17 32 19 20 31 16 17 20 33
V5 31 23 54 36 10 17 9 11 7 5 15 15 13 18 11 18 10 16 56 11
V6 0 0 0 0 0 0 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5
V7 1 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
40
Mineria de Datos
Edgar Acuna
Normalizacin Z-score
Los valores V son normalizados en base a la media y desviacin estndar. V' = (V - mean ) / std Este mtodo trabaja bien en los casos en que no se conoce el mximo y mnimo de los datos de entrada o cuando existen outliers que tienen un gran efecto en el rango de los datos. > zbupa=znorm(bupa)
COMP 6315 Mineria de Datos Edgar Acuna 41
Normalizacin Min-Max
Este mtodo realiza una transformacin lineal de los datos originales V en el intervalo especificado [newmin,newmax]
V' = ( V - min ) * ( newmax - newmin ) / ( max - min ) + newmin
La ventaja de este mtodo es que preserva exactamente todas las relaciones entre los datos. No introduce ningn potencial sesgo en los datos. La desventaja es que se encontrar un error fuera del lmite ("out of bounds) si un futuro ingreso de datos cae fuera del rango original. > mmbupa=mmnorm(bupa)
COMP 6315 Mineria de Datos Edgar Acuna 42
COMP 6315
Mineria de Datos
Edgar Acuna
43
Normalizacin Sigmoidal
Este mtodo realiza una transformacin no linear de los datos de entrada en el rango -1 a 1, usando una funcin sigmoidal. V' = ( 1 - e^(-a)) / ( 1 + e^(-a)) donde a = ( V - mean ) / std Los datos dentro de una desviacin estndar de la media son mapeados a la regin casi linear del sigmoide. Los puntos anmalos son comprimidos a lo largo de las colas de la funcin sigmoidal. La normalizacin sigmoidal es especialmente apropiada cuando se tienen datos anmalos que se desean incluir en el conjunto de datos. Este previene que los valores que ocurren ms comnmente sean comprimidos en los mismos valores, sin perder la habilidad de representar grandes valores anmalos. > sigbupa=signorm(bupa) > plot(sort(bupa$V1)) > plot(sort(sigbupa$V1))
COMP 6315
Mineria de Datos
Edgar Acuna
44
COMP 6315
Mineria de Datos
Edgar Acuna
45
Normalizacin Softmax
Se llama as porque llega suavemente hacia su valor mximo y mnimo. La transformacin es mas o menos lineal en el rango medio, y tiene una ligera no linealidad a ambos extremos. El rango total cubierto es 0 a 1 y la transformacin asegura que no ocurran valores futuros que caigan fuera del rango. V' = 1 / ( 1 + e^(-a) ) donde a= ( V - mean ) / std softbupa=softmaxnorm(bupa) zbupa=rangenorm(bupa,method=znorm)
COMP 6315
Mineria de Datos
Edgar Acuna
46
COMP 6315
Mineria de Datos
Edgar Acuna
47
Boxplots que muestran el efecto de la normalizacin > par(mfrow=c(2,3)) > boxplot(bupa[,1:6],main="bupa") > boxplot(zbupa[,1:6],main="znorm bupa") > boxplot(mmbupa[,1:6],main="min-max bupa") > boxplot(dsbupa[,1:6],main="dec scale bupa") > boxplot(sigbupa[,1:6],main="signorm bupa") > boxplot(softbupa[,1:6],main="softmax bupa")
COMP 6315
Mineria de Datos
Edgar Acuna
48
COMP 6315
Mineria de Datos
Edgar Acuna
49
Normalizacion en Weka
Weka realiza normalizacion de los atributos numericos transformando los valores originales a valores en el intervalo [0,1]. Despues de abrir un archivo arff siga la siguiente secuencia filters>unsupervised>attributes>Normalize. Z-normalization es llevada a cabo por el filter Standardize
COMP 6838
Mineria de Datos
Edgar Acuna
50