Вы находитесь на странице: 1из 14

Universidad de Talca

Minera de Datos

RECOPILACIN DE RUT, PESO, ESTATURA, EDAD Y GNERO DE UN GRUPO DE PERSONAS Y CARGA DE ESTA INFORMACIN A LOS SOFTWARE WEKA Y R. Jorge Antonio Poblete Prez Estudiante, Magster en Gestin de Operaciones, Universidad de Talca jpoblete@alumnos.utalca.cl Viernes 16 de Agosto de 2012

RECOPILACIN DE DATOS

La informacin requerida para el trabajo desarrollado corresponde a la recoleccin de los siguientes datos para 20 personas (11 mujeres y 9 hombres): Rut Peso (kilogramos) Altura (centmetros) Edad (aos) Gnero (F y M para femenino y masculino respectivamente)

Esta informacin fue recopilada en una planilla Excel 2010 utilizando 21 filas y 5 columnas. La primera fila corresponde a la identificacin de cada uno de los 5 tipos de datos trabajados tal como se observa en la Figura 1.

Figura 1: Recopilacin de datos en archivo Excel.

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

Cabe destacar que una de las mayores dificultades asociadas a esta etapa no fue la carga de los datos en Excel sino que la recopilacin de la informacin debido, esencialmente, a la solicitud del rut de la persona. Este dato se considera de cuidado debido a los variados usos que se le da en transacciones financieras.

SOFTWARE WEKA

Una vez recopilada la informacin en un archivo Excel se procedi a su carga en el software WEKA para su posterior anlisis. 2.1 PREPARACIN DE ARCHIVOS PARA SU LECTURA EN WEKA La primera accin correspondi a la transformacin del archivo Excel a un formato CVS (archivo delimitado por comas). Para esto, en el archivo Excel, se debe acceder a las opcin Archivo > Guardar Como, tal como se observa en la Figura 2.

Figura 2: Convertir archivo .xlsx a .csv

El archivo obtenido posee la extensin .csv y puede ser editado tanto por medio de Excel como tambin por medio del Block de Notas de Windows. El archivo obtenido, dependiendo de la configuracin regional e idioma que dispuesta en el computador que se est utilizando (ver panel de control), puede corresponder a un archivo separado por ; y no por , que es lo requerido, tal como se visualiza en la Figura 3.

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

Figura 3: Archivo .csv delimitado por ";" y no por ",".

Si este es el caso, tal como ocurri durante este trabajo, el procedimiento de modificacin del archivo se puede realizar abriendo el documento .csv en block de notas. El reemplazo se realiza accediendo a Edicin > Reemplazar, lo cual permite acceder a un men en el cual se indica en Buscar todos los smbolos ; y Reemplazar por , tal como se ve en la obteniendo el archivo que se presenta en la Figura 4.

Figura 4: Reemplazo de smbolo delimitador en archivo .csv

Fue complicado verificar que el archivo .csv es muy sensible al uso de ; en vez de ,. La nica manera de percatarse de esta situacin es por medio del intento de carga en WEKA. 2.2 CARGA DE ARCHIVOS EN WEKA Inicialmente se intent definir el archivo .csv ya obtenido anteriormente como un archivo ARFF. La manera de desarrollar esta etapa fue por medio de la estructuracin de la informacin del archivo CSV al modelo ARFF tal como se muestra en la Figura 5.

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

Figura 5: Definicin de archivo CSV como ARFF

Adems se procedi a cambiar la extensin del archivo desde .csv a .arff por medio de la opcin Guardar Como del block de nota. Al intentar cargar el archivo en el software WEKA no se logr lectura del mismo. 2.3 VISUALIZACIN DE DATOS EN WEKA Ante esta situacin se procedi a una nueva definicin del archivo CSV donde la primera fila de datos corresponde a la identificacin del tipo de atributo y las filas siguientes a la informacin propiamente tal de la manera que se expone a continuacin:
rut,peso,altura,edad,genero 16792985-0,83,167,24,F 17156973-7,49,165,23,F 16433506-2,60,160,25,F 17156722-k,69,168,23,F 17795336-9,56,157,21,F 16509971-0,73,182,25,M 17323008-7,61,171,22,F 18570460-8,62,169,18,M 16619156-4,64,168,24,F 18359802-3,75,168,19,F 6320799-3,73,158,56,F 6624291-9,90,165,60,M

Este nuevo archivo CSV fue cargado en WEKA de manera directa (sin ser transformado a ARFF) accediendo a la opcin Explorer del software. Una vez en la Weka Explorer se utiliz la opcin Open file con la cual se abre el men que permite buscar y abrir el archivo CSV desarrollado con anterioridad. Estos pasos se muestran en la Figura 6 marcados como 1, 2 y 3.

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

Figura 6: Abrir archivo CSV de manera directa en WEKA

Con esta accin se logra una carga exitosa del archivo en WEKA, lo cual permite la visualizacin de los datos en un scatterplot accediendo a la opcin Visualice del programa. La grfica obtenida se puede observar en Figura 7.

Figura 7: Visualizacin de la informacin en WEKA

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

WEKA entrega una serie de opciones que permiten modificar las caractersticas de la grfica obtenida. Estas opciones son las siguientes:

Figura 8: Opciones de modificacin de grfica en WEKA

PlotSize: permite modificar el tamao del diagrama de dispersin presentado. PointSize: altera el tamao de los puntos que representan a cada uno de los datos disponibles. Jitter: modifica las escalas utilizadas en los ejes de las grficas. Colour: permite indicar que atributo ser diferenciado por colores en WEKA. En este caso genero. Class Colour: da la opcin de seleccionar el color con el que se diferenciara el atributo genero en este caso. Select Attributes: indica los atributos que sern representados en la grfica. SubSample %: permite seleccionar la cantidad de datos o muestra a representar.

Por cada cambio realizado en alguna de las opciones anteriores se debe seleccionar Update a fin de que se hagan efectivas las modificaciones.

Figura 9: Tranformar archivo CSV en ARFF por medio de WEKA

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

Cabe mencionar que el archivo CSV puede ser transformado en ARFF por medio de WEKA una vez que ha sido ledo por el programa. Para ello se debe realizar la misma operacin requerida para la lectura de archivos CSV (Figura 6). Posterior a esto, en el men Preprocess, se debe ir a la opcin Save y guardar el archivo en formato ARFF como se presenta en la Figura 9.

Figura 10: Histograma de los atributos en WEKA.

En la misma opcin de Preprocess se puede observar que existe la posibilidad de ver los histogramas de los atributos. En caso de querer mostrar el histograma de todos los atributos disponibles se puede seleccionar la opcin Visualize All como se presenta en la Figura 10.

SOFTWARE R

Otra forma de obtener un scatterplot es por medio de la carga de datos en el software R. Inicialmente se intent utilizar el archivo CSV generado en el apartado 2.1 de este informe. Sin embargo, a pesar de que se logr la lectura de los datos, no se obtuvo un buen reconocimiento individual para cada uno de los atributos como tampoco la deteccin de una etiqueta para cada uno de ellos. 3.1 PREPARACIN DE ARCHIVOS PARA SU LECTURA EN R En consideracin de lo expuesto anteriormente se procedi a la confeccin de un archivo distinto. Tomando como base el archivo Excel que posee la informacin acumulada de las 20 personas consultadas (ver Figura 1) se guard una copia del tipo Texto con formato (delimitado por espacios) tal como se presenta en la Figura 11.

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

Figura 11: Transformacin de archivo .xlsx (Excel) a .txt separado por tabulaciones

Por medio del procedimiento ya explicado se obtiene un archivo de texto, tipo .txt, donde cada columna esta diferencia por un espacio, identificando en la primera fila el nombre de cada atributo tal como se presenta a continuacin.

Figura 12: Archivo de texto separado por tabulaciones

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

3.2 CARGA DE ARCHIVOS EN R Una vez confeccionado el archivo con extensin .txt requerido para trabajar en R se procedi a la carga de la informacin. En este caso se trabaja con R-Studio el cual corresponde a una consola que administra archivos R como tambin facilita su edicin. En la Figura 13 se muestra la consola de trabajo en R. En rojo se enmarcar el rea donde se puede escribir cdigo de tal forma que este pueda ser utilizado y consultado en oportunidades futuras. En azul se encierra el rea de ejecucin, seccin donde se presentan los resultados numricos resultantes de la ejecucin del cdigo trabajado. En la seccin verde se presentan las grficas resultantes de la implementacin de cdigos.

Figura 13: Estructura R-Studio

El cdigo requerido para la lectura de los datos es el siguiente: Personas <read.table("C:/Users/Jorge/Desktop/Utalca 2/Mineria/MinParaR.txt", header=T) 2012/Trimestre

En este cdigo, Personas corresponde al nombre bajo el cual se guarda el conjunto de atributos disponibles en el archivo de texto que contiene la informacin de 20 personas. En este caso el archivo que debe ser cargado se llama MinParaR.txt. Como se observa se ocupa la funcin read.table y entre parntesis (adems de entre comillas) se ingresa la ubicacin, dentro del computador, del archivo a ser ledo. La instruccin header=T permite indicar que la primera fila del archivo que est siendo cargado corresponde al rtulo de cada columna de atributos.

Jorge Antonio Poblete Prez

Universidad de Talca

Minera de Datos

Personas

Con esta instruccin se le indica al programa que muestre los datos que han sido registrados bajo el nombre de Personas, el resultado se muestra a continuacin (extracto).
> Personas rut peso altura edad genero 1 16792985-0 83 167 24 F 2 17156973-7 49 165 23 F 3 16433506-2 60 160 25 F 4 17156722-k 69 168 23 F 5 17795336-9 56 157 21 F 6 16509971-0 73 182 25 M

colnames(Personas)

Esta opcin permite mostrar los atributos contenidos dentro de Personas. El resultado es:
> colnames(Personas) [1] "rut" "peso" "altura" "edad" "genero"

Personas$genero

Muestra los gneros que hay dentro de Personas. El signo "$" permite acceder a un dato particular de la base datos, tal como se muestra a continuacin (extracto).
> Personas$genero [1] F F F F F M F M F F F M M F M M M M F M Levels: F M

plot(Personas$peso, Personas$edad, main="DATOS PERSONAS")

Desarrolla un diagrama de dispersin que, en este caso, muestra el peso de las personas en el eje x y la edad de las mismas en el eje y. La instruccin main= permite definir el ttulo principal del grfico. El resultado obtenido se observa en la Figura 14.

Figura 14: Grfica de dispersin 1

Jorge Antonio Poblete Prez

10

Universidad de Talca

Minera de Datos

plot(Personas$peso, Personas$edad, pch=c(21,22)[unclass(Personas$genero)], main="DATOS PERSONAS")

Unclass(Personas$genero) permite asignar un smbolo a cada especie una vez que se grafiquen los datos. Esos simbolos se definen como pch=c(21,22) donde 21 corresponde, por ejemplo, a un crculo. Esto se muestra de mejor manera en la Figura 15.

Figura 15: Grfica dispersin 2

c(21,22)[unclass(Personas$genero)]

Mapea las categoras y les asigna un valor. Por ejemplo el sexo femenino ahora es representado por un 21 en vez de F.

> c(21,22)[unclass(Personas$genero)] [1] 21 21 21 21 21 22 21 22 21 21 21 22 22 21 22 22 22 22 21 [20] 22

plot(Personas$altura, Personas$peso, pch=21, bg=c("red","green3")[unclass(Personas$genero)], main="Datos Personas")

pch=21 designa que la figura para mostrar los datos sern crculos, bg=c("red","green3","blue")[unclass(Personas$genero)] le asigna un color a cada gnero. En este caso se tendr una grfica donde todos los datos son crculos pero diferenciados por colores segn sean hombres o mujeres.

Jorge Antonio Poblete Prez

11

Universidad de Talca

Minera de Datos

Figura 16: Diferenciacin de gneros por color

En este caso particular, Figura 16, se observa en rojo a las mujeres y en verde a los hombres. En cuanto a una interpretacin superficial de esta representacin en especfico se puede notar que los hombres e concentran en valores de peso y altura mayores que las mujeres.

3.3 VISUALIZACIN DE DATOS EN R La mejor manera de representar datos multidimensionales es por medio de un scatter plot el cual permite mostrar la relacin entre atributos de manera directa. El cdigo correspondiente para efectuar este diagrama en R se presenta a continuacin.

Figura 17: Scatterplot para 4 atributos

Jorge Antonio Poblete Prez

12

Universidad de Talca

Minera de Datos

pairs(Personas[1:4], main = "Data Personas", pch = 21, bg = c("red", "green3")[unclass(Personas$genero)])

En este caso pairs() permite unir conjuntos de datos. En este caso al indicar Personas[1:4] se pretende representar los 4 primeros atributos del conjunto de datos personas. El resultado se observa en la Figura 17. Dentro de las primeras aproximaciones que se pueden hacer, respecto a la distribucin de la informacin (interpretaciones que tambin son vlidas para el resultado obtenido en WEKA), se puede visualizar que: los mayores pesos y alturas tienden a estar asociados a hombres. los rut estn ligados con la edad de cada persona, sin embargo no se marca una diferencia clara de gneros.

Una variante del cdigo presentado es el siguiente: pairs(iris[1:4], main = "Data de personas", pch = 21, bg = c("red", "green3")[unclass(Personas$genero)], lower.panel=NULL, labels=c("RUT","PESO(kg)","ALTURA(cm)","EDAD(aos)"), font.labels=4, cex.labels=1.2)

Figura 18: Scatterplot modificado

Jorge Antonio Poblete Prez

13

Universidad de Talca

Minera de Datos

En este caso se define: lower.panel=NULL: permite definir que toda grfica bajo la diagonal no sea diagramada. labels=c(,): indentifica cada fila de diagramas de dispersin identificando dentro del parntesis, entre comillas, el nombre con el cual sern denotados. font.labels=4: en este caso puntual indica que la tipografa utilizada corresponde a la nmero 4. cex.labels=1.2: puntualmente corresponde al tamao de la fuente utilizada.

La grfica, o conjunto de grficas, que se obtiene es presentada en la Figura 18.

Jorge Antonio Poblete Prez

14

Вам также может понравиться