Minería de Datos, César Pérez

INCLUY CD-ROM MINERIA Pe >) Geel TECNICAS| Y HERRAMIENTAS| iPARANINFO MINERIA DE DATOS JOSE M2, Gerente Editorial Area Universitaria. Andrés Otero Reguera Editora de Produccion Clara M® de la Fuente Rojo COPYRIGHT © 2007 International Thomson Ediciones Paraninfo, S.A, 1 Edicion, 2* Reimpresién 2008 Magallanes 25; 28015 Madrid, ESPANA Teléfono: 902'995 240 Fax: 914 456 218 clientes@paraninfo.es www. paraninfo.es Impreso en Espafia Printed in Spain ISBN: 978-84-9732-492-2 Depésito legal : M-25.036-2008 (051/84/P0) . MONTERO LORENZO Reservados los derechos para todos los paises de lengua espa: fiola. De conformidad con lo dis- puesto en el articulo 270 del Cédi- go Penal vigente, podran ser casti- gados con penas de muita y priva- cién de libertad quienes reprodu- jeren o plagiaren, en todo o en parte, una obra iteraria, artistica ientifica fjada en cualquier tipo de soporte sin la preceptiva auto- rizacién. Ninguna parte de esta publcacién, incluido el disefio de la cubierta, puede ser reproduc da, almacenada o transmitida de ninguna forma, ni por ningtin me: dio, sea éste electrénico, quimico, mecénico, electro-6ptico, graba- cién, fotocopia 0 cualquier otro, sin la previa autorizacion escrita por parte de la Editorial Disefio de cubierta: Montytexto Impresion: Closas Orcoyen,S.L. Polig. Igarsa Naves 21, 22, 23, y 24 Paracuellos de jarama (Madrid).A Luz y Maria, por el trabajo que han realizado Juntas (sin olvidar a Gema)INDICE Mntroducci 6M .........0...0.0 Capitulo 1. Minerta de datos: Conceptos, técnicas y sistemas Aproximacién al concepto de mineria de datos El proceso de extraccién del conocimiento Técnicas de mineria de dato: Sistemas de mineria de datos . Capitulo 2. Entorno de trabajo de SPSS Clementine. Introduccién a Clementine .. Usando el ratér Ayuda en Clementine Panel de control en Clementine... Ejemplo de trabajo con Clementine .. Insertar un nodo fuente (origen) de datos en el area de trabajo. Enlazar un nodo con una fuente de datos .... Controlar la carga de datos con el nodo Tabl. Definir variables predictoras con el nodo Tipo .. Utilizar un nodo de modelado Ejecutar una ruta Interpretar un modelo Predecir con un modelo .. Guardar un modelo Nodos de origenes de datos Nodos de operaciones con registros .. .. XVIT Saoue 13 13 16 16 18 21 22 23 25 27 29 29 32 34 34 35 35VIll_MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Nodos de operaciones con campos Nodos para graficos . Nodos para modelado Nodos de salida .... Capitulo 3. Entorno de trabajo de SAS Enterprise Miner. Introduccién a SAS Enterprise Miner .. Comenzando con SAS Enterprise Miner. Inicio de un proyecto nuevo... Meni principal de SAS Enterprise Miner Ejemplo de trabajo con SAS Enterprise Miner Leer ficheros y enlazarlos con Enterprise Miner mediante el nodo Input Data Source ... Definir tipos de variables con el nodo Input Data Source .. Enlace de nodos de un diagrama. El nodo Data Partition .. Utilizar un nodo de modelado Capitulo 4. Fase de seleccién en mineria de datos... Seleccién en el proceso de extraccién del conocimiento Recopilacién e integracién de datos: Data Warehouse. Data Warehouse y Data Mining Seleccién de datos mediante muestreo .. Muestreo aleatorio simple... Muestreo estratificado .. Muestreo sistematico. Muestreo unietépico de conglomerados... Muestreo bietépico de conglomerados Muestreo polietépico de conglomerado: Disefios complejos: Bietdpico con estratificacién en primera etapa Seleccién de nimeros aleatorios: Método de Montecarlo. Seleccién de caracteristicas relevantes. Anilisis de correlaciones. Capitulo 5. Fase de seleccién en SAS Enterprise Miner y SPSS Clementine........ La fase de seleccién en Enterprise Miner. El nodo Fuente de Datos El nodo Muestreo .. El nodo de Particién de Dato: El nodo de Seleccién de Variables El nodo de Series Temporales 36 37 38 40 41 41 43 47 48 58 58 63 65 67 73 73 74 77 78 82 85 91 95 99 101 101 102 104 105 109 109 17 122 125 129INDICE Ix La fase de seleccién en SPSS Clementine. Importacién de datos ASCIL... Importacién de datos de una fuente ODBC (Access, Excel, etc.) Importacién de datos de SPSS Importacién de datos de SAS Seleccién de datos Muestreo de datos ..... Capitulo 6. Fase de seleccién en SPSS Muestras Complejas y SAS Base... Técnicas de muestreo a través de SPSS .. Disefios complejos y el asistente de muestreo. Creacién de un nuevo plan de muestreo.. Asistente de muestreo: modificar un plan existente. Asistente de muestreo: ejecutar un plan de muestreo dado Preparacién de una muestra compleja para su andlisis: Creacién de un nuevo plan de andlisis Preparacién de una muestra compleja para su anilisis CAlculos en muestras complejas: Frecuencias, descriptivos, tablas de contingencia y razone’ Seleccién de casos en SPSS ... Seleccién de casos mediante criterios condicionales Seleccién de fechas, horas y fila Seleccién de una muestra aleatoria, Semilla de aleatorizacién Operadores para la seleccién en SPSS . Operadores aritméticos Operadores relacionales . Operadores l6gicos... Funciones de generacién de nuimeros aleatorios en SPSS. Seleccién de la informacién en SAS Base .. Declarando valores perdidos con la sentencia MISSING Seleccionando informacién por grupos: sentencia BY Seleccionando variables de frecuencias: sentencia FREQ. Seleccionando variables de pesos: sentencia WEIGTH... Seleccionando variables de identificacién: Sentencia ID Operadores para la seleccién en SAS Operadores aritméticos Operadores de comparacién Operadores ldgicos 0 booleanos.... Operadores MIN, MAX y concatenacién. Orden de evaluacién de los operadores en las expresiones Funciones de generacién de nimeros aleatorios en SAS CAlculos con funciones en SAS.. 139 140 140 143 145 148 149 151 151 152 161 164 164 168 168 174 174 175 175 176 176 176 177 177 177 180 180 180 182 183 184 184 185 185 186 187 188 189 191X_MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS. Capitulo 7. Fase de exploracién en mineria de datos Exploracién en el proceso de extraccién del conocimiento ... Analisis exploratorio Herramientas de exploracién visual .. Histograma de frecuencias .. Diagrama de tallo y hojas. Grafico de caja y bigotes Gréfico multiple de caja y bigotes Grafico de simetria Grafico de dispersién. Graficos para variables cualitativa Herramientas de exploracién formal Contrastes de la bondad de ajuste a una distribucién: Test de la Chi-cuadrado. Contraste de Kolmogorov-Smirnov Lilliefors de la bondad de ajuste auna distribucién . Estadisticos robustos de centralizacién Estadisticos robustos de dispersién ... Estadisticos robustos de asimetria y curtosis. Contrastes de aleatoriedad.. Transformaciones de las variables. Supuestos subyacentes en las técnicas de mineria de datos ‘Normalidad . Heteroscedasticida Multicolinealidad. Autocorrelacién.. Linealidad... Un ejemplo .. Capitulo 8. Fase de exploracién en SAS Enterprise Miner y SPSS Clementine . La fase de exploracién en Enterprise Miner. El nodo Explorador de distribuciones.. El nodo Multigréfico: El nodo de exploracién de patrones.. La fase de exploracién en SPSS Clementin El nodo Grafico . El nodo Distribucién El nodo Histograma .. El nodo Malla El nodo Malla Direccional.. El nodo Gréfico Miltiple El nodo Recolectar... 193 193 194, 194 195 196, 198 199 201 203 205 207 208 209 21 212 214 216 220 221 221 225 227 227 228 230 239 239 239 243 250 266 267 270 271 273 274 275 276INDICE xi Capitulo 9. Fase de exploracién en SPSS y SAS. Anilisis exploratorio de datos con SPSS. Procedimiento Explorar. Graficos de andlisis exploratorio con SPSS... Tipos de graficos Histogramas... Graficos de normalidad Graficos de caja y bigotes Graficos de dispersion... Graficos interactivos dindmicos de analisis exploratorio con SPSS Creacién interactiva de graficos a partir de tablas. Graficos interactivos de caja y bigotes Histogramas interactivos Diagramas interactivos de dispersién... Anilisis exploratorio formal con SPSS. Contraste de aleatoriedad. Procedimiento Prueba de rachas Contraste de ajuste a una distribucién de frecuencias. Procedimiento Prueba de Kolmogorov-Smirnov... Anilisis exploratorio de los datos con SAS Base. Procedimiento Univariate Graficos de andlisis exploratorio con SAS. Graficos exploratorios de alta resolucién. Procedimiento GCHAR’ Graficos exploratorios de mapas: Procedimiento GMAP ... Graficos exploratorios de caja y bigotes: Procedimiento BOXPLOT .. Capitulo 10. Fases de limpieza y transformacién de datos ... Limpieza y transformacién de datos en el proceso de extraccién del conocimiento ... Valores atipicos (Outliers) .. Informacién faltante (Datos missing) Soluciones para los datos ausentes: Supresion de datos e imputacion de informacién faltante. Transformacién de datos . Transponer, fusionar, agregar, segmentar y ordenar atchivos. Ponderar casos y categorizar y numerizar variables. Pareamiento 0 matching .. Transformacién de datos mediante técnicas de reduccién de la dimensién Componentes principales Anilisis factorial. 277 277 282 282 283 283 286 288 290 297 298 299 301 303 303 304 305 318 318 322 328 333 333 333 337 343 346 346 347 348 349 350 357XIl_MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 11. Las fases de limpieza y transformacién de datos en ‘SAS Enterprise Miner y SPSS Clementin Las fases de limpieza y transformacién de datos en Enterprise Miner El nodo Transformacién de variables .. El nodo Asignacién de atributos ... Tratamiento de los datos atipicos con el nodo Filtro de Outliers El nodo Imputacién de datos missin; El nodo Exploracién de patrones para Componentes Principales Lasa fases de limpieza y transformacién de datos en Clementine El nodo Seleccionar El nodo Muestra para procesos de muestre El nodo Combinar para procesos de matchin; El nodo Equilibrar. El nodo Ordenar. El nodo Agregar para calcular estadisticos por subgrupos El nodo Distinguir El nodo Aftadir para concatenacién de archivos El nodo Filtra El nodo Derivar para transformacién de variables El nodo Tipo para asignar atributos a variables. El nodo Rellenar para imputacién de datos missing El nodo Factor/PCA para Anélisis Factorial y Componentes Principales . Capitulo 12. Fases de limpieza y transformacién de datos en SPSS y SAS... Técnicas de reduccién de la dimensién en SPSS Base. Componentes principales con SPSS.. Anilisis factorial con SPSS... Transformacién de datos en SPSS Base Transformacién de valores de datos. Remodificacién de variables .. Ordenar casos Transponer, fusionar, agregar y segmentar archivos. Matching Ponderar casos... Categorizar variables: Categorizador visual Asignar rangos a casos y tipificar variables SPSS y el anilisis de datos missing. Imputacién Reemplazar valores perdidos.. Deteccién de valores atipicos en SPSS Deteccién de casos atipicos mediante graficos de control .. Deteccién de casos atipicos mediante grificos de caja y bigotes.. Técnicas de reduccién de la dimensién en SAS STAT... 365 365 365 371 378 384 393 400 402 404 405 407 408 409 411 411 412 413 415 416 4l7 427 427 428 439 447 447 449 451 451 458 459 462 463 469 470 470 472 475INDICE XII Componentes principales en SAS. Procedimiento PRINCOMP y Procedimiento FACTOR Analisis factorial en SAS. Procedimiento FACTOR Transformacién de datos en SAS Base Operaciones con ficheros: Concatenacién y Matching Actualizando ficheros de datos SAS Afiadir informacién. Procedimiento APPEND... Tipificacién de datos: Procedimiento STANDAR. 475 482 487 487 489 491 494 Capitulo 13. Fase de mineria de datos.| Técnicas predictivas de modelizacion ... 497 Técnicas de mineria de datos propiamente dichas Técnicas predictivas para la modelizacién.. Modelo de regresién multiple. Estimacién del modelo lineal de regresin miltiple Estimacién del modelo, contrastes ¢ intervalos de confianza a través del cAlculo matricial Anilisis de la varianza en el modelo de regresién multiple Predicciones. Anilisis de los residuos Técnicas de seleccién en el modelo de regresién.. Modelos de eleccién discreta .. Modelos de eleccién discreta binaria regresién logistica binaria . Modelos de eleccién multiple: Modelo Logit Multinomial Modelo lineal general de regresién miiltiple (GLM) 497 498 504 505 506 507 S10 Su 512 513 514 519 521 Clasificacién ad hoc: Analisis discriminante .. Hipétesis en el modelo discriminant Estimacién del modelo discriminante .. Clasificacién mediante el modelo discriminant 521 522 523 525 Capitulo 14. Técnicas predictivas de modelizacién con SAS Enterprise Miner y SPSS Clementine... Técnicas predictivas de modelizacién con SAS Enterprise Miner. El nodo Regression: Modelo de regresién multiple . El nodo Regression: Modelo lineal general GLM. El nodo Regression: Modelo de eleccién discreta Logit y Probit Técnicas predictivas de modelizacién con SPSS Clementine El nodo Regresién Lineal: Modelo de regresion miltipl El nodo Regresién Logistica: Modelos de eleccién discreta 529 529 530 538 S51 554 555 S61XIV_MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Capitulo 15. Técnicas predictivas de modelizacién con SAS y SPSS... El modelo lineal general con SAS. Procedimiento GLM.... Modelos del andlisis de la varianza y la covarianza con SAS. Modelo de eleccién discreta en SAS. Modelo Logit: Procedimiento LOGISTIC Modelo Probit: Procedimiento PROBIT SAS y el andlisis discriminante: Procedimiento DISCRIM El modelo lineal general con SPSS. Procedimiento MLG Multivariante .. Modelo de eleccién discreta en SPSS .. Modelo Logit: Procedimiento LOGISTICA MULTINOMIA. Modelo Probit: Procedimiento PROBIT SPSS y el andlisis discriminante 565 565 571 574 574 579 581 585 593 593 599 601 Capitulo 16. Técnicas descriptivas y predictivas de clasificacién. Clusters y drboles de decisibn 609 El anilisis cluster como técnica descriptiva de clasificacién . Medidas de similitud Técnicas en el anilisis cluster Clusters jerarquicos, secuenciales, aglomerativos y exclusivos (S.A.H.N.) El dendograma en el analisis cluster jerarquico Anilisis cluster no jerarquico Los arboles de decisién como técnica predictiva de clasificacién Caracteristicas de los Arboles de decisi6n .. . Herramientas para el trabajo con Arboles de decisién . Arboles CHAID. Arboles CART Arboles QUEST Analisis de conglomerados y arboles de decisién como métodos de segmentacién Capitulo 17. Clusters y arboles de decisién con SAS Enterprise Miner y SPSS Clementine ... Anilisis cluster con Enterprise Miner, El nodo Clustering. Arboles de decisién con Enterprise Miner. El nodo Tree Entrenamiento interactivo (Interactive Training) Analisis cluster con SPSS Clementine. El nodo Entrenar K-medias: Cluster no jerarquic El nodo Cluster Bietépico: Cluster jerarquico Arboles de decisién con SPSS Clementine El nodo Crear C5.0.. El nodo Arbol C&R... 609 610 614 616 617 617 621 622 626 627 628 630 633 633 641 652 656 656 661 662 662 664INDICE xv Capitulo 18. Clusters y arboles de decisién con SAS y SPSS.......... SPSS y el anilisis cluster jerarquico SPSS y el anilisis cluster no jerarquico SAS y el anilisis cluster jerarquic Procedimiento ACECLUS.. Procedimiento CLUSTER Procedimiento TREE ... SAS y el anilisis cluster no jerarquico .. Arboles de decisién (0 clasificacion) con SPSS. Creacién de un rbol de decision: Método CHAID . Métodos CRT y QUEST. Poda de Arboles. Capitulo 19. Redes neuronales.. Descripcién de una red neuronal Definicién.... Funcién de salida y funciones de transferencia o activacién Redes neuronales y ajuste de modelos de regresién. Aprendizaje en las redes neuronales. Funcionamiento de una red neuronal El algoritmo de aprendizaje Retropropagacién (Back- Propagation Anilisis discriminante a través del Perceptrén. ‘Anilisis de series temporales mediante redes neuronales Analisis de componentes principales con redes neuronales Clustering mediante redes neuronales... Capitulo 20. Redes neuronales con SAS Enterprise Miner y SPSS Clementine... Redes neuronales con SAS Enterprise Miner. Optimizacién y ajuste de modelos con redes: Nodo Neural Network. Analisis en componentes principales a través de redes neuronale: Nodo Princomp/Dmneural Prediccién y andlisis discriminante a través de redes neuronales: Nodo Two Stage Model . Anilisis cluster con redes neuronales: Redes neuronales con SPSS Clementine. Nodo Entrenar red. Nodo Entrenar Kohonen Nodo Entrenar K-medias. Nodo SOM/Kohonen Indice alfabético 665 665 671 675 675 677 678 681 687 689 695 699 699 699 701 703 704 707 708 709 713 715 NT 721 721 722 745 751 756 765 765 769 m7INTRODUCCION Este libro presenta las técnicas més habituales utilizadas en mineria de datos de una forma sencilla y facil de entender a través de las soluciones de software mas comunes de entre las existentes en el mercado. Se persigue como finalidad inicial clarificar las aplicaciones relativas a métodos tradicionalmente calificados como dificiles u opacos. Se busca presentar las aplicaciones en la mineria de datos sin necesidad de manejar desarrollos mateméticos elevados ni algoritmos tedricos complicados, que es la razon mas comin de las dificultades en la comprensién y aplicacién de esta materia. Hoy en dia se utiliza la mineria de datos en diferentes campos de la ciencia. Cabe destacar las aplicaciones financieras y en banca, en andlisis de mercados y comercio, en seguros y salud privada, en educacién, en procesos industriales, en medicina, en biologia y bioingenieria, en telecomunicaciones y en muchas otras reas. Lo esencial para empezar a trabajar en mineria de datos, sea cual sea el campo en que se aplique, es la comprensién de los propios conceptos, tarea que no exige ni mucho menos el dominio de aparato cientifico que conlleva la materia. Posteriormente, cuando ya sea necesaria la operatoria avanzada, los programas de ordenador permiten obtener los resultados sin necesidad de descifrar el desarrollo matematico de los algoritmos que estan debajo de los procedimientos. En este libro se describen los conceptos de mineria de datos de la forma mas sencilla posible, de modo que sean inteligibles por lectores con formacién diversa. Los capitulos comienzan describiendo las técnicas en lenguaje asequible y presentando a continuacién la forma de tratarlas mediante aplicaciones practicas. Una parte importante de cada capitulo son casos practicos totalmente resueltos, incluyendo la interpretacién de los resultados, que precisamente es lo més importante en cualquier materia con la que se trabaje.XVIII MINERIA DE DATOS, TECNICAS Y HERRAMIENTAS El libro comienza con una introduccién a la mineria de datos y sus fases. En sucesivos capitulos se desarrollan las fases iniciales (seleccién de la informacién, exploracién de datos, limpieza de datos, transformacién de datos, etc.). Posteriormente se profundiza en técnicas especificas de mineria de datos, tanto predictivas como descriptivas. Entre las técnicas predictivas se abordan todo tipo de modelos de regresién, andlisis discriminante, Arboles de decision, redes neuronales y otras técnicas basadas en modelos. Entre las técnicas descriptivas se contemplan las técnicas de reduccién de la dimensién, las técnicas de clasificacién y segmentacién (clustering) y las técnicas de anilisis exploratorio de datos. Los entornos de trabajo automatizados especificos de mineria de datos que se utilizan en el libro son SAS Enterprise Miner y SPSS Clementine. Adicionalmente se utilizan determinados procedimientos de SPSS y SAS que realizan tareas de mineria de datos de modo sencillo. El libro va acompafiado de un CD-ROM que contiene los archivos de datos relativos, tanto a todos los ejemplos que ilustran la parte tedrica, como a los ejercicios resueltos. © ITES-ParaninfoCAPITULO 1 MINERIA DE DATOS CONCEPTOS, TECNICAS Y SISTEMAS APROXIMACION AL CONCEPTO DE MINERIA DE DATOS La minerfa de datos puede definirse inicialmente como un proceso de descubrimiento de nuevas y significativas relaciones, patrones y tendencias al examinar grandes cantidades de datos. La disponibilidad de grandes volimenes de informacién y el uso generalizado de herramientas informéticas ha transformado el anilisis de datos orienténdolo hacia determinadas técnicas especializadas englobadas bajo el nombre de minerfa de datos o Data Mining. Las técnicas de mineria de datos persiguen el descubrimiento automatico del conocimiento contenido en la informacién almacenada de modo ordenado en grandes bases de datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y tendencias a través del andlisis de los datos utilizando tecnologias de reconocimiento de patrones, redes neuronales, Idgica difusa, algoritmos genéticos y otras técnicas avanzadas de anilisis de datos. No obstante, la mineria de datos es ya un concepto muy evolucionado que necesita ser aproximado conceptualmente por etapas. Inicialmente la finalidad de los sistemas de informacién era recopilar informacién sobre una parcela determinada para ayudar en la toma de decisiones. Con la informatizacién de las organizaciones y la aparicién de aplicaciones software operacionales sobre el sistema de informacién, la finalidad principal de los sistemas de informacién es dar soporte a los procesos basicos de la organizacién (ventas, produccién, personal...). Una vez satisfecha la necesidad de tener un soporte informatico para los procesos basicos de la organizacién (sistemas de informacién para la gestién), las organizaciones exigen nuevas prestaciones de los sistemas de informacién (sistemas de informacién para la toma de decisiones).2 __MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS De esta forma han aparecido diferentes herramientas de negocio para la toma de decisiones (DSS 0 Decision Support Systems) que coexisten: EIS, OLAP, consultas informes, y las propias herramientas de mineria de datos. Un EIS (Executive Information System) es un sistema de informacién y un conjunto de herramientas asociadas que proporciona a los directivos acceso a la informacién de estado y sus actividades de gestién. Esta especializado en analizar el estado diario de la organizacién (mediante indicadores clave) para informar répidamente sobre cambios a los directivos. La informacién solicitada suele ser, en gran medida, numérica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma grafica al estilo de las hojas de célculo. Las herramientas OLAP (On-Line Analyitical Processing) son més genéricas, funcionan sobre un sistema de informacién (transaccional o almacén de datos) y permiten realizar agregaciones y combinaciones de los datos de maneras mucho més complejas y ambiciosas, con objetivos de andlisis més estratégicos. Las herramientas OLAP estén basadas, generalmente, en sistemas o interfaces multidimensionales, que presentan la informacién de una manera matricial. Las herramientas OLAP proporcionan facilidades para “manejar” y “transformar” los datos, producen otros “datos” (mas agregados, combinados) y son una gran ayuda para analizar los datos porque producen diferentes vistas de los mismos. Los sistemas de informes 0 consultas avanzadas estan basados, generalmente, en sistemas relacionales u objeto-relacionales y el resultado se presenta de forma tabular. Generalmente estén implementados en bases de datos relacionales. Las herramientas de mineria de datos permiten extraer patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros. La Mineria de Datos analiza los datos y el resto de herramientas citadas anteriormente facilitan el acceso a la informacién para que el analisis sea mas efectivo, es decir, son instrumentos de apoyo a la mineria de datos. No obstante las herramientas anteriormente citadas suelen necesitar de la existencia previa de un almacén de datos (Data Warehouse). El almacén de datos es el sistema de informacién central en todo este proceso. Un almacén de datos es una coleccién de datos orientada a un dominio, integrada, no volitil y variante en el tiempo para ayudar en la toma de decisiones. Un almacén de datos es un conjunto de datos histéricos, internos © externos y descriptivos de un contexto o Area de estudio, que estén integrados y organizados de tal forma que permiten aplicar eficientemente herramientas para resumir, describir y analizar los datos con el fin de ayudar en la toma de decisiones estratégicas. Las fuentes intemas y extemas de datos estin separadas. Gran parte de los datos que se incorporan en un almacén de datos provienen de una base de datos transaccional que es el origen de datos intemo y cuya informacién es fruto de las transacciones derivadas de la actividad diaria, pero también existen otras fuentes extemas de informacion. (© ITES-ParanintoCAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 3 Existe un sistema especializado para realizar la carga y mantenimiento de un almacén de datos, denominado sistema ETL (Extraction, Transformation, Load). Este sistema se encarga de la lectura de datos transaccionales, de la incorporacién de datos extemos, creacién de claves, integracién de datos, agregaciones, limpieza y transformacién de datos, creacién y mantenimiento de metadatos, planificaci6n de carga y mantenimiento, indizacién, pruebas de calidad, etc. La Figura 1-1, cuya fuente es Orallo, Quintana y Ramirez (Introduccién a la Mineria de datos) ordena los conceptos expuestos en los parrafos anteriores. Fuses Henanientas Interreas ae consutes.¢ intermes Base de Datos Transaccional Heraniontes 5S Horamientas uae Heramentes de > Winerie oe n= No obstante hay que tener claro que los almacenes de datos no son imprescindibles para hacer extraccién de conocimiento a partir de los datos. Se puede hacer mineria de datos sobre un simple fichero de datos. Pero las ventajas de organizar un almacén de datos para realizar mineria de datos se amortizan sobradamente a medio y largo plazo cuando tenemos grandes volimenes de datos, 0 éstos aumentan con el tiempo, o provienen de fuentes heterogéneas o se van a combinar de maneras arbitrarias y no predefinidas. EL PROCESO DE EXTRACCION DEL CONOCIMIENTO Pero la mineria de datos es sdlo una etapa del proceso de extraccién de conocimiento a partir de datos (KDD). Este proceso consta de varias fases como la preparacién de datos (seleccién, limpieza, y transformacién), su exploracién y auditoria, mineria de datos propiamente dicha (desarrollo de modelos y andlisis de datos), evaluacién, difusion y utilizacién de modelos (output). Ademés, el proceso de extraccion del conocimiento incorpora muy diferentes técnicas (Arboles de decisién, regresién lineal, redes neuronales artificiales, técnicas bayesianas, maquinas de soporte vectorial, ete.) de campos diversos (aprendizaje automatico ¢ inteligencia artificial), estadistica, bases de datos, etc.) y aborda una tipologia variada de problemas (clasificacién, categorizacién, estimacién/regresion, agrupamiento, etc.). La Figura 1-2 muestra las etapas del KDD. Fuentes Exleras Figura 1-1 © ITES-Paraninto4 _MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Limpieza Desarrollo Analisis Generacién y de le de Transform, Modelos Datos Resultados. TE. LZ | Herramientas | _(erramientas) [Heramientas ] (Herramientas | {Herramientas de Estadisticas de de de Consulha ydeLA Visualizcién J [Presentacin | (transformacién Figura 1-2 EL KDD comienza con la recopilacién e integracién de la informacién a partir de unos datos iniciales de que se dispone (fase de seleccién de datos). Las primeras fases del KDD determinan que las fases sucesivas sean capaces de extraer conocimiento valido y atl a partir de la informacién original. Generalmente, la informacin que se quiere investigar sobre un cierto dominio de la organizacién se encuentra en bases de datos (Database) y otras fuentes muy diversas, tanto internas como externas (en general la informacién se encuentra ordenada en almacenes de datos). Muchas de estas fuentes son las que se utilizan para el trabajo transaccional. El andlisis posterior ser mucho mAs sencillo si la fuente es unificada, accesible (intema) y desconectada del trabajo transaccional. Aparte de informacién interna de la organizacién, los almacenes de datos pueden recoger informacién externa, como demografias (censo), paginas amarillas, psicografias (perfiles por zonas), uso de Internet, informacién de otras organizaciones y bases de datos externas compradas a otras compaftias. La disponibilidad de grandes voliimenes de informacién en esta fase nos lleva a la necesidad de usar técnicas de muestreo para la seleccién de datos. La fase siguiente del KDD integra la exploracién, la limpieza 0 criba de datos (Data Cleaning) y la transformacién de datos. Se deben eliminar el mayor nimero posible de datos erréneos 0 inconsistentes (limpieza) ¢ irelevantes (criba). En esta fase se utilizan herramientas de consulta (Query tools) y herramientas estadisticas (Statistics tools) casi exclusivamente, En la exploracién se usan_técnicas de anilisis exploratorio de datos como los histogramas y los diagramas de caja, tallo y hojas, que ayudan a detectar datos anémalos © atipicos (outliers). La presencia de datos atipicos y valores desaparecidos (datos missing) puede llevamos a usar algoritmos robustos a datos atipicos y desaparecidos (p.¢j. arboles de decisi6n), a filtrar la informacién, a reemplazar valores mediante ‘écnicas de imputacién y a transformar datos continuos en discretos mediante #écnicas de discretizacién. Entre las técnicas avanzadas de transformacién tenemos las de reduccién y aumento de la dimensién. (© ITES-ParanintoCAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 5 La fase siguiente en el KDD es la propia mineria de datos que se Ilevara a cabo a partir del desarrollo de modelos predictivos y descriptivos (Model Development) y mediante el andlisis de datos (Data Analysis). Una vez recogidos los datos de interés, un explorador puede decidir qué tipo de patrén quiere descubrir. El tipo de conocimiento que se desea extraer va a marcar claramente la técnica de mineria de datos a utilizar. Para seleccionar y validar los modelos anteriores es necesaria una nueva fase consistente en el uso de criterios de evaluacién de hipétesis. El despliegue del modelo a veces es trivial pero otras veces requiere un proceso de implementacién o interpretacién. En esta fase se utilizan adicionalmente herramientas estadisticas y de visualizacion (Visualization tools). Una fase posterior del KDD es la relativa a la difusién y uso del conocimiento derivado de las técnicas de mineria de datos a través del los modelos correspondientes que habitualmente desembocan en la generacién de resultados (Output Generation). El modelo puede tener muchos usuarios y necesitar difusin, con lo que puede requerir ser expresado de una manera comprensible para ser distribuido en la organizacién. En esta fase se utilizan herramientas de visualizacién (Visualization tools), presentacién (Presentation tools) y transformacién de datos (Data transformation tools). Por lo tanto, observamos en el proceso de extraccién del conocimiento KDD la secuencia de fases siguiente: SELECCION > EXPLORACION > LIMPIEZA > TRANSFORMACION — MINERIA DE DATOS > EVALUACION — DIFUSION En la fase de seleccién se integran y recopilan los datos, se determinan las fuentes de informacién que pueden ser iitiles y dénde conseguirlas, se identifican y seleccionan las variables relevantes en los datos y se aplican las técnicas de muestreo adecuadas. Todo ello se facilita disponiendo de un almacén de datos con la informacién en formato comin y sin inconsistencias. Dado que los datos provienen de diferentes fuentes, es necesaria su exploracién mediante técnicas de andlisis exploratorio de datos, buscando entre otras cosas la distribucién de los datos, su simetria y normalidad y las correlaciones existentes en la informacién. A continuacién es necesaria la limpieza de los datos, ya que pueden contener valores atipicos, valores faltantes y valores erréneos. En esta fase se analiza la influencia de los datos atipicos, se imputan los valores faltantes y se eliminan o corrigen los datos incorrectos. A continuacién, si es necesario, se lleva a cabo la transformacién de los datos, generalmente mediante técnicas de reduccién o aumento de la dimensién y escalado simple y multidimensional, entre otras. Las cuatro primeras fases se suelen englobar bajo el nombre de preparacién de datos. En la fase de mineria de datos, se decide cual es la tarea a realizar (clasificar, agrupar, etc.) y se elige la técnica descriptiva o predictiva que se va a utilizar. En la fase de evaluacién e interpretacién se evalivan los patrones y se analizan pot los expertos, y si es necesario se vuelve a las fases anteriores para una nueva iteracién. Finalmente, en la fase de difusién se hace uso del nuevo conocimiento y se hace participe de él a todos los posibles usuarios. Entonces, la clasificacién de las fases del proceso de extraccién del conocimiento podria resumirse en el siguiente esquema: © ITES-Paraninto6 _MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS Recopilar e integrar las fuentes de datos existentes SELECCION\ Identificar y seleccionar las variables relevantes en los datos Aplicar las técnicas de muestreo adecuadas Utilizar las téenicas de anéilisis exploratorio de datos EXPLORACIONS Deducir la distribucién de los datos, simetria y normalidad Analizar las correlaciones existentes en la informacién Detectar y tratar la presencia de valores atipicos (outliers) LIMPIEZA} Imputar la informacién faltante 0 valores perdidos (datos missing) Eliminar datos erréneos e irrelevantes Utilizar técnicas de reduccién y aumento de la dimensién TRANSFORMACION, Aplicar técnicas de discretizacién y numerizacién Realizar escalado simple y multidimensional Regresin y series temporales Anélisis discriminante Métodos bayesianos Utilizar técnicas predictivas : Algoritmos genéticos Arboles de decision Redes neuronales MINERIA DE DATOS: Clustering y Segmentacién Escalamiento Utilizar técnicos descriptivas, Reglas de asociacién y dependencia Andlisis exploratorio Reduccién de la dimensién Intervatos de confianza Bootstrap Anélisis ROC Evaluacién de modelos EVALUACION E INTERPRETACION DE RESULTADOS: Visualizacin DIFUSION Y USO DE MODELOS: Simulacién (© ITES-ParanintoCAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 7 No obstante, la clasificacién anterior no es la anica que aparece en la literatura de esta materia. Existen otras interpretaciones del concepto de mineria de datos, en la linea de considerar las fases del proceso de extraccién del conocimiento expresadas previamente como técnicas de mineria de datos. Por ejemplo, SAS Institute define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar (Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA. La Figura 1-3 ilustra las fases del proceso de mineria de datos segin SAS Institute. Valoracion Modelzacén 7 conocaento Objetivos = Moros Exploracén Datos 7 “raelomacos | bates Selecién Presades + datos patos Objet Figura 1-3 Se observa la equivalencia entre las componentes del concepto de mineria de datos de SAS Institute y las fases del KDD expuestas anteriormente. La fases de Limpieza y Transformacién en KDD equivalen a la fase de Modificacién en SAS, y la fase de Mineria de Datos equivale a Modelizacién. Evaluacién y Valoracién pueden considerarse sinénimos. SAS Institute implementa la mineria de datos en el software Enterprise Miner, que sera utilizado en este libro, y en otros procedimientos y médulos (STAT, ETS,..). Por su parte SPSS considera que las seis fases que forman el proceso de la mineria de datos son: la comprensién del negocio, la comprensién de los datos, la preparacién de los datos, el modelado, la evaluacién y el uso del modelo. SPSS implementa esta filosofia de la mineria de datos en el software Clementine, que serd utilizado en este libro, y en otros procedimientos y médulos (Answer Tree, Neural Connection,...). © ITES-Paraninto8 _MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS TECNICAS DE MINERIA DE DATOS La clasificacién inicial de las técnicas de mineria de datos distingue entre técnicas predictivas, en las que las variables pueden clasificarse inicialmente en dependientes e independientes (similares a las técnicas del anilisis de la dependencia o métodos explicativos del andlisis multivariante), técnicas descriptivas, en las que todas las variables tienen inicialmente el mismo estatus (similares a las técnicas del andlisis de la interdependencia 0 métodos descriptivos del andlisis multivariante) y técnicas auxiliares. Las técnicas predictivas especifican el modelo para los datos en base a un conocimiento te6rico previo. El modelo supuesto para los datos debe contrastarse después del proceso de mineria de datos antes de aceptarlo como valido. Formalmente, la aplicacién de todo modelo debe superar las fases de identificacién objetiva (a partir de los datos se aplican reglas que permitan identificar el mejor modelo posible que ajuste los datos), estimacién (proceso de célculo de los parimetros del modelo elegido para los datos en la fase de identificaci6n), diagnosis (proceso de contraste de la validez del modelo estimado) y prediccién (proceso de utilizacién del modelo identificado, estimado y validado para predecir valores futuros de las variables dependientes). En algunos casos, el modelo se obtiene como mezcla del conocimiento obtenido antes y después del Data Mining y también debe contrastarse antes de aceptarse como valido. Por ejemplo, las redes neuronales permiten descubrir modelos complejos y afinarlos a medida que progresa la exploracién de los datos. Gracias a su capacidad de aprendizaje, permiten descubrir relaciones complejas entre variables sin ninguna intervencién extema. Podemos incluir entre estas técnicas todos los tipos de regresién, series temporales, andlisis de la varianza y covarianza, andlisis discriminante, Arboles de decisién, redes neuronales, algoritmos genéticos y técnicas bayesianas. Tanto los arboles de decisién, como las redes neuronales y el anélisis discriminante son a su vez técnicas de clasificacién que pueden extraer perfiles de comportamiento 0 clases, siendo el objetivo construir un modelo que permita clasificar cualquier nuevo dato. Los Arboles de decisién permiten clasificar los datos en grupos basados en los valores de las variables. El mecanismo de base consiste en elegir un atributo como raiz y desarrollar el Arbol segiin las variables mas significativas. En las técnicas descriptivas no se asigna ningin papel predeterminado a las variables. No se supone la existencia de variables dependientes ni independientes y tampoco se supone la existencia de un modelo previo para los datos. Los modelos se crean automaticamente partiendo del reconocimiento de patrones. En este grupo se incluyen las técnicas de clustering y segmentacién (que también son técnicas de clasificacién en cierto modo), las técnicas de asociacién y dependencia, las técnicas de andlisis exploratorio de datos y las técnicas de reduccién de la dimensién (factorial, componentes principales, correspondencias, etc.) y de escalamiento multidimensional. (© ITES-ParanintoCAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 9 Tanto las técnicas predictivas como las técnicas descriptivas estan enfocadas al descubrimiento del conocimiento embebido en los datos. Las técnicas auxiliares son herramientas de apoyo més superficiales y limitadas. Se trata de nuevos métodos basados en técnicas estadisticas descriptivas, consultas e informes y enfocados en general hacia la verificacién. A continuacién se muestra una clasificacién de las técnicas de Data Mining. Regresién Anélisis de la Varianza y Covarianza Series temporales Métodos bayesianos Predictivas ; ; Algoritmos genéticos Discriminante Clasificacién ad hoc} Arboles de decision Redes neuronales Descubrimiento Clustering Segmentacién Técnicas post toe Asociacién Descriptivas | Dependencia Reduccién de la dimensién Andlisis exploratorio Escalamiento Multidimensional Proceso Analitico de Transacciones (OLAP) Técnicas auxiliares } SQL y herramientas de consulta Verificacion Reporting Se observa que las técnicas de clasificacién pueden pertenecer tanto al grupo de técnicas predictivas (discriminante, Arboles de decisin y redes neuronales) como a las descriptivas (clustering y segmentacién). Las técnicas de clasificacién predictivas suelen denominarse técnicas de clasificacién ad hoc ya que clasifican individuos u observaciones dentro de grupos previamente definidos. Las técnicas de clasificacién descriptivas se denominan técnicas de clasificacién post hoc porque realizan clasificacién sin especificacién previa de los grupos. © ITES-Paraninto10 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS En la Figura 1-4 se muestra un diagrama con la clasificacién de las técnicas de mineria de datos, que es clasico en la literatura de esta materia. Figura 1-4 SISTEMAS DE MINERIA DE DATOS La Figura 1-5 muestra los sistemas de mineria de datos més utilizados en el ‘mercado junto con las técnicas que tratan cada uno de ellos, las plataformas sobre las que trabajan y los interfaces de lectura de datos. Producto ‘Compaiia Técnicas Plataforma | Interfaz Knowledge “Angoss Arboles de Decision | Win ODBC Seeker CART Salford Systems _| Arboles de Decision _[ Win/UNIX (Clementine SPSS Amplio abanico Win/UNIX ‘ODBC Data Surveyor | Data Distilleries_[ Amplio abanico UNIX ‘ODBC Gain Smarts. Urban Science | Graficos-Ganancias_[ Win/UNIX Intelligent Miner__| IBM Amplio abanico UNIX (AIX) _| IBM, DB2 Micostrategy Micostrategy | Datawarehouse Win Oracle Polyanalyst Megaputer Simbélicas Win Oracle, ODBC Darwin Oracle Amplio abanico Win/UNIX Oracle Enterprise Miner_| SAS Institute | Amplio abanico WinJUNIX/Mac ‘SGI MineSet Silicon Graphies | Asociacién y UNIX Oracle, Sybase, Clasificacién Informix WiesofWiawhy | Wizsoft Figura 1-5 (© ITES-ParanintoCAPITULO 1: MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS 11 Los sistemas de minerfa de datos que utilizaremos en este libro son SPSS Clementine y SAS Enterprise Miner. SPSS Clementine es un sistema de mineria de datos que contempla diferentes fuentes de datos (ASCII, Oracle, Informix, Sybase, Ingres, etc.), una interfaz visual sencilla y distintas herramientas de mineria de datos (redes neuronales, arboles de decision, regresién, series temporales, cluster, etc.). Trabaja bajo los sistemas operativos UNIX y Windows. SAS Enterprise Miner es una herramienta completa que incluye conexién a bases de datos (a través de ODBC y SAS datasets), muestreo e inclusién de variables derivadas, particién de la evaluacién del modelo respecto a conjuntos de entrenamiento, validacién y chequeo, distintas herramientas de mineria de datos (algoritmos y tipos de Arboles de decisién, redes neuronales, regresién y clustering, etc.), comparacién de modelos y conversin de los modelos en cédigo SAS. Dispone de un interfaz grafico muy sencillo e incluye herramientas para flujo de proceso, tratando el proceso KDD ‘como un proceso y las fases se pueden repetir, modificar y grabar. Existen en el mercado otros sistemas que permiten realizar Data Mining a través de bases de datos. Coneretamente, las bases de datos Oracle y SQL Server disponen de sistemas de mineria de datos asociados. Oracle dispone de herramientas de “Business Intelligence” y “Data Mining” (http:/howw.oracle.com/ip/analyzeAvarehouse/bus_intell/index.himl) que tienen una orientacién més empresarial y de sistemas de informacién. También dispone de herramientas de OLAP, Datawarehouse e Informes Avanzados. Asimismo, presenta herramientas propias de Mineria de Datos a través del producto Oracle Darwin (http:/vww.oracle.com/ip/analyze/warehouse/datamining/index. html). Microsoft SOL Server dispone del producto Analysis Services que implementa la mineria de datos. Se fundamenta en el “OLE DB for Data Mining” e implementa una extensién del SQL que trabaja con DMM (Data Mining Model) que permite crear el modelo, entrenarlo y realizar predicciones. La versién SQL Server 2005, en su médulo Analisys Services cuenta con los algoritmos de mineria de datos mas avanzado entre los que se incluyen arboles de decision y regresién, series temporales, agrupacién en clisteres, reglas de asociacién, algoritmo Naive Bayes y mineria de textos. Dispone de un asistente y disefiador para mineria de datos que permite construir modelos sofisticados a través de una interfaz facil de usar. Ademds, se proporcionan grificos de elevacién y beneficios, por lo que podra comparar y contrastar la calidad de los modelos antes de dedicarse a la distribucién. Existe una representacién clisica de los sistemas de mineria de datos cuya fuente es Elder Research (www.dataminiglab.com) y que se presenta en la Figura 1-6. © ITES-Paraninto12 MINERIA DE DATOS: CONCEPTOS, TECNICAS Y SISTEMAS B PRW Dats wind GET Seer 9 e EE PARWIN if pcOLPARS CARE weet) NeuroShel! Mts oS. eu Figura 1-6 (© ITES-ParanintoCAPITULO 2 ENTORNO DE TRABAJO DE SPSS CLEMENTINE INTRODUCCION A CLEMENTINE SPSS Clementine es una herramienta integrada de mineria de datos que incluye diversas fuentes de datos (ASCII, XLS, ODBC, ete.), un interfaz. visual basado en procesos/flujos de datos (streams), distintas herramientas de mineria de datos (correlacién, reglas de asociacién, regresién, segmentacién, clasificacién, redes neuronales, reglas y arboles de decisién, etc.), manipulacién de datos (pick & mix, muestreo, combinacidn y separacién, etc.), combinacién de modelos, visualizacién de datos, exportacién de modelos a distintos lenguajes (C, SPSS, SAS, etc.), exportacién de datos integrada a otros programas (XLS) y generacién de informes. El entorno del Clementine esté basado en nodos que se van disponiendo y conectando para formar un flujo, 0 stream, traducido por Clementine también como “ruta”. Los streams pueden alojarse en ficheros separados (.sir) 0 se pueden organizar en proyectos (.cpj). De hecho, tanto los streams como los proyectos de mineria de datos se almacenan en ficheros separados que se puede cargar, guardar, modificar, reejecutar o reorganizar (Figura 2-1) y que son independientes de las fuentes de datos. Figura 2-114 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS En la Figura 2-2 se muestra la pantalla de carga de la ruta druglearn.str. Figura 2-2 En la Figura 2-3 se muestra la ruta druglearn.str con seis nodos interconectados. Cer) ray 4 cee ata a —-@-—@-@ soetr Cosi Te © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 15 Como se puede ver en la parte inferior de la Figura 2-3 (Figura 2-4), Clementine presenta varias paletas que clasifican los nodos en seis categorias: © Origenes: nodos para obtener los datos de trabajo (fuentes de datos). © Oper. con registros: operadores para modificar 0 combinar registros (filas) de distintas fuentes. Es decir, selecciones y combinaciones. © Oper. con campos: operadores para modificar 0 combinar campos (columnas). © Graficos: graficas. © Modelado: tipos de modelos/patrones que puede generar Clementine * — Salida: presentacién de tablas, andlisis de modelos, estadisticas, exportacién de datos. Figura 2-4 En la parte superior derecha de la pantalla se encuentra la paleta Modelos generados (Figura 2-5) que muestra los resultados que actualmente se estan elaborando. Bietapico Figura 2-5 © ITES-Paraninfo16 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Debajo de la paleta Modelos generados se encuentra el botén Ejecutar, que permite la ejecucién e interrupcién de las tareas definidas en la ruta (stream). Usando el raton Alguna de las operaciones en Clementine se ven facilitadas con un ratén de tres botones. El tercer botén suele utilizarse a menudo para realizar conexiones entre los diferentes nodos de una ruta. Si el ratén no tiene el tercer botén, puede emularse su efecto presionando simultaneamente los dos botones. El clic simple con los botones izquierdo y derecho del ratén permite seleccionar opciones de meniis o abrir mentis contextuales. El doble clic con el botén izquierdo del ratén permite situar nodos en una ruta y editar nodos existentes. El clic simple con el tercer bot6n del ratén (equivalente al clic simulténeo de los dos botones cuando no existe el tercero) seguido de arrastre, permite conectar nodos en una ruta. El doble clic en el tercer botén permite desconectar nodos. Ayuda en Clementine La opcién Ayuda del mend de Clementine (Figura 2-6) permite varios caminos para acceder a su contenido. La subopeién Contenido permite acceder a toda la ayuda de Clementine por capitulos (Figura 2-7). La subopcién Tutorial da acceso a un tutorial sencillo sobre el programa (Figura 2-8). La subopeién Modo ayuda contextual transforma el cursor del ratn en un interrogante, de modo que al hacer clic sobre cualquier objeto del interfaz de Clementine, aparece la ayuda relativa ese objeto. Por ejemplo, si hacemos clic en Modo Ayuda Contextual sobre el nodo etiquetado Droga C5.0 de la ruta de la Figura 2-3 obtendremos ayuda contextual sobre la construccién de Arboles de decisién con el modelo C 5.0 (Figura 2-9). ATs Core eecenye Figura 2-6 © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 17 EE ee eee five Eden Yer Favortas Heramertas Ayla Ox«-O HAD Km @ 8S 8 WO Ss -| 2 ees (6) cywehwos de pog.ana\conereoe slp) Us\Centeplan pte tm Welcome welcome to Clementine, the data mining toolkit that Combines advances madeling technology with ease-of- Use, helping yau to discover the interesting and valuable relationships within your data, You can use Clementine for decision-support activities such a * Finding timely answers to critical business questions + Dizcavaring which factars hava the greatest impact fon your bottom line Creating customer profiles to achieve the highest possible buy rate Predicting future trends in sales and growth Prafiing for direct maling responses and credit risk Performing churn prediction, classification, and segmentation These are just a sampling of the many ways that you can use Clementine to extract valuable infermation from Figura 2-7 ‘cho geen Nor Epvorlce Herramientas Ayusa So: So AAD k= @ 2-5 8 - WO s [Bl eimchves de prosravalenenene\.SelovterEneleh ustTueoradentut.en | EY vise Welcome to Clementine “This tutorial introduces you ta Clementine. It will familiarize you with the Glamentina interface and its visual programming approach ta dats mining. To do this, it walks you through the process of using Clementine to cr 2 inode! and draw some conclusions Sbeut 3 data file, vou may want have clemantine running so that yau ean follow the steps a2 you read. For further information about the concepts and procedures introduced hare, be sure to refer to your Clementine Users cuide and Advanced Features ey Ta get started with the tutorial, click the right araw button in the battem fight comer of this window. ® -@ -@® -@ drugin Natok Drug Figura 2-8 © ITES-Paraninto18 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Ee ees Seif (Geet ter Eee een ARE Ow O HAG koe @ eS 8- GOHS Build C5.0 Node This node uses the C5.0 algorithm to bul either 2 docision tree or 3 ruleset. C5.0 model works by siting the sample based on the field that provides the Faxmium information gain, Esch subsample defined oy the frst spit is then salt agai, usualy based on @ different field, and the process repeats until the ubsampias canret ba spit any further Final, the lowest level splits ae reexamined, and those that co not Contnbuta significantly ta the value of the model are removed or pruned, 5.0 can araduca twa kinds of madele. a decision trae ig a straightforward cescription of the splts found by the flgorthyr, Each terminal or "lea? nace describes @ partcula” subset of the trsinrg data, and each case in the trainag data belongs to ekactly one terminal node in the trea, In other wards, exactly cna prediction is pascible for any particular data tecord presented to 9 Secision ti In contrast, a rulaset is a sot of rules that tries to make Figura 2-9 Panel de control de Clementine En el grupo de programas de Clementine aparece la utilidad Control Panel (Figura 2-10) que, a través de las opciones que se muestran en la pantalla de la Figura 2-11, nos va a permitir configurar la memoria de uso, situar preferencias de lenguaje y leer y seleccionar actualizaciones relevantes para Clementine que pueden venir dadas en médulos externos. Por defecto las actualizaciones se espera que estén localizadas en el directorio de instalacién de Clementine. Con el botén Buscar se puede elegir cualquier otro subdirectorio en el que estén situadas las actualizaciones. Con el botén Actualizar se ejecutan las actualizaciones seleccionadas. 1 Settee? Figura 2-10 BM Messenger 7.5 © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 19. Gein Figura 2-11 Las subopciones del meni Opciones de Clementine (Figura 2-12) permiten configurar opciones de usuario (Figura 2-13), de ejecucién (Figura 2-14), de ruta (Figura 2-15), de SPSS (Figura 2-16), requisitos de memoria (Figura 2-17) y opciones de eee Descartar Capos —_-Definir Taps e Too Figura 2-12 © ITES-Paraninfo20 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 21 Coors le SPSS Opctones de interfaz de SPSS Directorio de SP35:|c:\Progran Files\SPss Conando de SPSS:fereevinere (Camere Hodo por lotes de $P5S:Fossprod.ere Gomando Ejecutar sintaxis de SPSS:Funsyntxere Directorio de AnsverTree:/F:\Progran Files\freeriree Gonando de PreverirsesfAlres.ere fecotar |] _ totic | cord | povmtizr| conten | | Aya Figura 2-16 ae Lintte de nenorta: > a teostutes Feta ee eee ce Figura 2-17 EJEMPLO DE TRABAJO CON CLEMENTINE Con los datos del fichero ASCII tenis.txt situado en f\ibros\minigt\datos\tenis, que contiene informacién acerca de los dias que se ha podido jugar al tenis en funcién de diversos aspectos metereol6gicos, se trata de construir un modelo basado en Arboles de decision que permita predecir si a dia de hoy es posible jugar al tenis. Los datos se muestran en la Figura 2-18. B tenis.txt - Bloc de notas beehive ‘Edelén Formato Yer Ayuda Temperatura Humedad viento calurosa Alta foja Todos los programas — _ Clementine (Figura 2-19). Al abrir el programa, las dos areas de trabajo (izquierda superior y derecha superior) aparecen en blanco (mejor en dicho en azul y gris). Insertar un nodo fuente (origen) de datos en el area de trabajo Lo primero que vamos a hacer es insertar un nodo fuente de datos al drea de trabajo. Para ello, pinchamos dos veces (0 una vez en el nodo y después otra vez en el rea de trabajo) en el nodo Archivo variable (Figura 2-20) que est en la categoria Origenes en la parte inferior izquierda de la pantalla. Aparecerd el nodo en el area de trabajo, tal y como se muestra en la Figura 2-21. Gh setiranster? @ convetrenet |B) Excood AF © Demos WB MeN Messenger 7.5 eae Figura 2-19 Figura 2-20 whe Terage (9) Wengal Shoe rtas OEE Figura 2-21 © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 23 Si fuese necesario borrar un nodo, simplemente se selecciona y se pulsa la tecla Supr. También se puede borrar con la opcién Eliminar del meni de contexto asociado al nodo, el cual se abre pulsando el botén derecho sobre él (Figura 2-22). jgura 2-22, Enlazar un nodo con una fuente de datos La siguiente tarea sera enlazar el nodo con una fuente de datos. Para ello, hacemos clic con el botén derecho del ratén sobre el nodo archivo “variable” de la zona de trabajo y seleccionaremos Modificar en la Figura 2-22. En la pantalla de edicién (Figura 2-23) modificaremos el nombre del fichero, el directorio donde esta y la forma de importarlo (utilizando los tabuladores). Se puede escribir directamente el nombre del archivo a seleccionar y el directorio directamente en sus campos correspondientes, o simplemente se hace clic en el botén Definir archivo y se busca el fichero en el campo Directorio de la pantalla Buscar archivo (Figura 2-24), En el campo Nombre de archivo se hace clic en el fichero a seleccionar. ‘A continuacién se hace clic en el campo Tabulador para considerar los datos del fichero ASCII separados por tabuladores. Ademis seleccionaremos el campo Obtener nombres de campo del archivo para que nos coja el nombre de los atributos del propio fichero. Al hacer clic en Aceptar, el nodo archivo variable aparece ya etiquetado con el nombre del fichero origen de sus datos ‘enis.ext (Figura 2-25). © ITES-Paraninto24 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS EspeciFicacién de archivor formato variable eS Directorio: F:\libros\wwininat\detos\tenis\ Iefinie achive. eres ec Ctener ronroe de cao del archive a el Carscteres do canentario de E0L:[—— Carscteres de dolinitactén: [- Pepto F tabulate F neva lires T conecteres no inprinibles \ 0 cont Ihilttples delinitadores vscios: Consus: Sinpless Descortar fosbiees toscartar c Elininar espscies procedentes y posterieres: I~ Menpulaetin de tipos aa Se ele al Caco Tipe Seleccionar todos) No selecoionsr| UOpetonest € Sinbolo autonstico Real autonitico € Entero autenstico C Sin tipo © (Como esta? feaptar |] __tetiow J __eusticn | __torestar_| fda Figura 2-23 ee Renis.t famernToEvTonev af _potualizar | == Listar archivos de tipo Unidad Fe Niva wot Figura 2-24 © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 25 eae Tabla Figura2-25 Figura 2-26 Controlar la carga de datos con un nodo tabla La siguiente tarea es controlar la carga de los datos aiiadiendo un nodo Tabla (Figura 2-26) de la categoria Salida (iltima de la derecha) haciendo doble clic sobre é1 (Figura 2-27). Una vez que aparece el nodo Tabla en la zona de trabajo, hay que enlazarlo al nodo ‘enis.txt. Para enlazar dos nodos en Clementine, se han de pulsar el botén izquierdo y derecho a la vez sobre el nodo origen y arrastrar el ratén hasta el nodo destino (Figura 2-28), soltando en este momento los dos botones. Si el ratén tiene botén del medio, también se puede utilizar este botén. El resultado se presenta en la Figura 2-29. © ITES-Paraninto26 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS tenis.txt tabla Ran iotert 5 Figura 2-28 Figura 2-29 Para eliminar un enlace, simplemente se hace clic con el botén derecho en el enlace y en el mend contextual resultante (Figura 2-30) se elige Borrar. tenis,txt Figura 2-30 Si una vez conectados los dos nodos, pulsamos el botén verde EJECUTAR obtenemos los datos importados en una tabla (Figura 2-31). eer © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 27 Definir variables predictoras con el nodo Tipo Nuestro problema era ver si hoy podemos jugar al tenis. Para poder abordar este problema hemos definir los campos Cielo, Temperatura, Humedad y Viento como predictores (es decir de entrada), mientras que el campo Jugar es la clase a predecir, 0 sea, el resultado (es decir la salida). Para ello vamos a afiadir un nodo Tipo (Figura 2-32) que se encuentra en la categoria Oper. con campos haciendo doble clic sobre él. A continuacién enlazamos el nodo tenis.txt con el nodo tipo haciendo clic sobre el primero con los dos botones del ratén a la vez, desplazandonos hacia el segundo (Figura 2-33) y soltando a la vez los dos botones. Se obtiene la Figura 2-34a con los nodos enlazados. Ahora hacemos clic con el botén derecho del ratén en el nodo Tipo y elegimos Modificar en el meni emergente resultante (Figura 2-34b) y se obtiene la tabla Tipo de la Figura 2-35. Como vemos todos los nodos tienen direcciin ENTRADA (estn definidos como preductores). Como la salida va a ser la variable Jugar, modificamos su direccién a SALIDA haciendo clic sobre ENTRADA. Se observa ya la tabla Tipo con las propiedades adecuadas (Figura 2-36). Tipo Figura 2-32 y ao ; © — tabla fants. eee tenisstet ™~.. ld @ a ‘po Figura 2-33 Figura 2-34a © ITES-Paraninto28 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS tabla — 6 Cees Desconee ates tipo eens Cielo ENTRADA | NINGUNO eco Berson 0) a) Eerseon to) Viento Eo ipor rc) Cielo Eoseon na) Peete Berenson) oT Berner ce) Sora tc) Sagar Erereon © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 29 Utilizar un nodo de modelado Ahora ya estamos en situacién de intentar utilizar un modelo a partir de los datos, en este caso una funcién, de modo que dados unos determinados valores de los atributos de entrada obtengamos un valor para la_salida. Para ello afiadimos el nuevo nodo Crear C5.0 (Figura 2-37) de la categoria Modelado (haciendo doble clic sobre él) con el objeto de construir un Arbol de decisién con los datos. A continuacién conectamos el nodo tipo con el nodo Crear C5.0 (Figura 2-38) que pasa a llamarse Jugar. Figura 2-37 tabla © tenis.txt oN @ —-@ tipo Juger Figura 2-38 Ejecutar una ruta Ahora ya estamos en disposicién de trabajar con el arbol de decisién). Para ello, hacemos clic en el botén verde EJECUTAR. Se observa que, aparte de volver a mostrar la tabla con los datos de origen (pantalla que se puede cerrar para que no moleste), se ha generado un nuevo icono en el Area de trabajo de la derecha, con la forma de un diamante (Figura 2-39). © ITES-Paraninto30 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS See eT ONE) Figura 2-39 Si ahora pinchamos dos veces en el diamante de la derecha, éste apareceré en la parte superior izquierda del area de trabajo (Figura 2-40). [-jo]x} eens Figura 2-40 A continuacién hacemos clic con el botén derecho del ratén en el diamante del area de trabajo y en el ment emergente resultante (Figura 2-41) elegimos Examinar. Se obtiene una ventana donde podemos ver el arbol de decisién creado (Figura 2-42). Si ahora en el ment Ver elegimos Mostrar ocurrencias/confianzas (Figura 2-43) obtenemos los resultados de la Figura 2-44 que nos muestra para cada rama cuantos ejemplos de la evidencia son cubiertos y con qué confianza (100% en todas las ramas salvo Iluvioso al 60%). © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 31 Ge ren irre eer Ged Frenein eters Figura 2-41 ee nee ee enc een oer stent} oben atccres) Giele Soleade ebay! reer ste Figura 2-42 coon aren} rer} oy ees pater) Earn ene peeve Figura 2-43 © ITES-Paraninto32 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS ee nee Interpretar un modelo La representacién logica del arbol anterior seria: (Cielo = Cubierto) OR (Cielo = Lluvioso) OR (Cielo = Soleado AND Humedad = Normal) Cubierto Lluvioso Soleado | SI (100%) ‘SI(60%) Humedad Alta Normal NO (100%) $1(100%) Para ver el arbol en forma de reglas elegimos Generar —» Conjunto de reglas (Figura 2-45) y rellenamos la pantalla Generar conjunto de reglas como se indica en la Figura 2-46. Al pulsar Aceptar se genera el conjunto de reglas de la Figura 2-47, que no es més que otra forma ms de expresar el arbol de decisién. (© ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 33 oe cots Pores Coes eeaber reer prereset) Figura 2-45 eee Opciones de generacién Generando conjunte de reglas para: Jugar Crear nods en: 7 Paleta de modelos generados fabos Nonbre de conjunto de reglas; flugarkS Cobertura minina: Confianza ninina: fP.0 al~ =| Moos aaa pass Figura 2-46 De Regla n?1 para No Ear oake Crone een coe a aes eae ease irs! eve etait Cee at yates coe Paes Figura 2-47 © ITES-Paraninto34 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Predecir con un modelo La finalidad Ultima de nuestro modelo de arbol de decisién es predecir si podemos jugar o no jugar al tenis hoy segiin el tiempo que haga. Se observa que si hoy el cielo esta cubierto se jugara al tenis con una confianza del 100%. Si hoy el cielo est Iluvioso se jugara al tenis con una confianza del 60%. Si hoy el cielo est soleado y la humedad es normal se jugaré al tenis con una confianza del 100%, pero si el cielo esta soleado y la humedad es alta no se jugara al tenis con una confianza también del 100%. Guardar un modelo Mediante Archivo —> Guardar ruta (Figura 2-48) se almacena la ruta que hemos seguido para construir y utilizar el modelo, De esta forma seri posible utilizarlo posteriormente mediante Archivo > Cargar ruta y el bot6n Ejecutar. eee) © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 35, NODOS DE ORIGENES DE DATOS Clementine ofrece las opciones de obtencién de datos de diversas fuentes a través de los nodos de origenes de datos (Origenes), algunos de los cuales se muestran en la paleta Origenes de la Figura 2-49. Archive variable ODBC « » Figura 2-49 La paleta Origenes contiene los siguientes nodos: * Archivo variable: Permite obtener datos ASCII en formato libre. © Archivo fijo: Permite obtener datos ASCII en formato fijo. * ODBC: Permite obtener datos via ODBC. ‘© Import SPSS: Importa datos de formato SPSS. © Import SAS: Importa datos de formato SAS. NODOS DE OPERACIONES CON REGISTROS Clementine presenta un grupo de nodos cuya finalidad es la seleccién y transformacién de los datos, que como ya sabemos es una fase previa a la aplicacién de las técnicas de mineria de datos. Clementine permite operaciones con registros y operaciones con campos. Los nodos relativos a operaciones con registros, que son las que nos ocupan en este apartado, se muestran en la paleta Operaciones con registros (Figuras 2-50 y 2-51). (© ITES-Paraninfo38 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Figura 2-50 Figura 2-51 La paleta Operaciones con registros contiene los siguientes nodos: © Seleccionar: Permite seleccionar un subconjunto de registros segin una condicién especificada, tanto para incluirlos como para excluirlos del andlisis. Muestra: Permite obtener una muestra de los registros iniciales. © Combinar: Permite combinar en un solo archivo registros provenientes de distintos archivos que tienen campos diferentes, con la condicién de que haya un campo comin para poder hacer la fusién. © Equilibrar: Permite corregir desajustes de registros en conjuntos de datos. * Ordenar: Permite ordenar registros de modo ascendente o descendente de acuerdo a los valores de uno o mas campos. © Distinguir: Permite ignorar registros duplicado. * Agregar: Permite reemplazar una secuencia de registros de entrada por un resumen suyo. © Afiadir: Permite concatenar conjuntos de registros. Se utiliza para unir conjuntos de datos con estructuras similares. NODOS DE OPERACIONES CON CAMPOS Dentro de los nodos cuya finalidad es la seleccidn, preparacién y transformacién de los datos, que como ya sabemos es una fase previa a la aplicacién de las técnicas de mineria de datos, Clementine dispone de nodos relativos a operaciones con campos, que se muestran en la paleta Operaciones con campos (Figuras 2-52 y 2-53). © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 37 a 7 Z fl Le Figura 2-52 Figura 2-53 La paleta Operaciones con campos contiene los siguientes nodos: « — Filtrar: Permite filtrar la informacién de miltiples campos simultanemente. © Derivar; Permite obtener nuevos campos en funcién de otros campos. © Tipo: Permite especificar determinadas propiedades de los campos como su tipo, naturaleza (predictor o predicho) y definicién de blancos. * Rellenar: Permite reemplazar blancos segin una condicién. © Histérico: Permite crear nuevos campos conteniendo datos de registros previos. Se usa para datos secuenciales, como por ejemplo las series temporales © Convertiré: marca: Permite derivar campos basados en valores simbélicos definidos por uno 0 més conjuntos de campos. NODOS PARA GRAFICOS Determinadas fases de la mineria de datos necesitan de las representaciones graficas. Por ejemplo, es posible conectar un nodo grafico a un conjunto de datos para ver su distribucién. Dentro de la paleta Grdficos, Clementine dispone de los que se muestran en las Figuras 2-54 y 2-55. (© ITES-Paraninfo38 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Grafico —-Histograna Distribucién Malla Figura 2-54 Figura 2-55 La funcionalidad de los nodos de la paleta Graficos es la siguiente: © Grafico: Permite crear graficos de lineas y de dispersi © Distribucién: Permite graficar la distribucién de los valores de una variable que puede ser cualitativa. © Histograma: Permite graficar la distribucién de los valores de una variable cuantitativa. « Malla: Permite graficar las relaciones entre los valores de dos o mas variables cualitativas, « Recolectar: Permite crear histogramas que muestran la distribucién de los valores de una variable numérica relativos a cada valor de otra. © Gréfico miltiple: Permite realizar varios graficos de lineas sobre los mismos ejes. * Malla direccionada; Permite realizar un grafico de malla con los puntos conectados indicando la direccién unica de la linea de conexién. © Evaluacién: Permite evaluar y comparar modelos predictivos eligiendo el mejor modelo para su aplicacién. NODOS PARA MODELADO Los nodos de modelado constituyen el corazén del proceso de minerfa de datos. Clementine ofrece gran variedad de métodos de modelado asociados con las distintas técnicas de data mining. Dentro de la paleta Modelado, Clementine dispone de los nodos que se muestran en las Figuras 2-56, 2-57 y 2-58. © ITES-ParaninfoCAPITULO 2: ENTORNO DE TRABAJO DE SPSS CLEMENTINE 39 oe A prior’ Reg, logistica Figura 2-56 Figura 2-57 Figura 2-58 La paleta Modelado contiene los siguientes nodos: Entrenar red: Permite crear y entrenar una red neuronal (perceptrén multicapa). Crear C5.0: Permite construir arboles de decisién y conjunto de reglas utilizando el algoritmo C5.0. Entrenar Kohonen: Permite crear y entrenar redes neuronales de Kohonen, que suelen usarse para crear clusters cuando no se conoce el niimero inicial de grupos. Regresién lineal: Permite crear y estimar un modelo de regresién lineal simple 0 miltiple. Regla de induccién generalizada (GRI): Permite descubrir reglas de asociacién en los datos. A priori: Permite descubrir reglas de asociacién en los datos mediante cinco métodos distintos utilizando un esquema sofisticado de indexado para procesos eficientes con grandes conjuntos de datos. Entrenar K-Medias: Permite realizar el método K-Medias de anilisis cluster. Regresién logistica: Permite crear y ajustar modelos de regresién logistica con la finalidad de clasificar registros. Factor/PCA: Permite ejecutar técnicas de reduccién de la dimensién como el anilisis factorial y las componentes principales. Cluster Bietépico: Permite realizar andlisis cluster por el método de las dos fases, que suele utilizarse cuando se mezclan variables cualitativas y cuantitativas. Arboles de clasificacién y regresién (Sequence): Permite construir arboles de decisién para clasificacién y regresién (C&R) con la finalidad de predecir. (© ITES-Paraninfo40 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS NODOS DE SALIDA Los nodos de salida permiten obtener informacién acerca de los datos y modelos mediante la presentacién de tablas, andlisis de modelos, estadisticas, exportacién de datos, etc. Dentro de la paleta salida, Clementine dispone de los nodos que se muestran en las Figuras 2-59, 2-60, 2-61 y 2-62. Calidad Pechive Def, globales Export, SPSS Matriz Estadisticor » Figura 2-59 Figura 2-60 Figura2-61 Figura 2-62 La paleta Salida contiene los siguientes nodos: * Tabla: Permite crear una tabla con los datos de un anélisis para mostrarlos 0 guardarlos en un fichero. © Matriz: Permite crear una tabla que muestra las relaciones entre dos campos. © Andlisis: Permite analizar, evaluar y comparar modelos predictivos. * Def, globales: Permite computar estadisticos de campos para usar en expresiones. ‘© Informe: Permite obtener informes con formato de texto fijo y expresiones. © Archivo: Permite escribir datos en un archivo. * Salida ODBC: Permite escribir datos en origenes de datos ODBC. © Export SPSS: Permite exportar datos a formato SPSS. © Proceso SPSS: Permite llamar a un procedimiento SPSS para analizar datos. © Calidad: Permite comprobar el ajuste de los datos. © Excel: Permite exportar datos a formato Excel. © Export SAS: Permite exportar datos a formato SAS. « Publisher: Permite exportar cadenas de Clementine a aplicaciones externas. © ITES-ParaninfoCAPITULO 3 ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER INTRODUCCION A SAS ENTERPRISE MINER SAS Institute implementa la mineria de datos en el software Enterprise Miner, que sera utilizado en este libro, y en otros procedimientos y médulos (STAT, ETS,...) que también se utilizaran a lo largo del texto. SAS Institute define el concepto de Data Mining como el proceso de Seleccionar (Selecting), Explorar (Exploring), Modifica (Modifying), Modelizar (Modeling) y Valorar (Assessment) grandes cantidades de datos con el objetivo de descubrir patrones desconocidos que puedan ser utilizados como ventaja comparativa respecto a los competidores. Este proceso es resumido con las siglas SEMMA que constituyen las iniciales de las 5 fases de las que consta el proceso de Data Mining segin SAS Institute. Cada una de estas fases lleva asociados diferentes nodos, tal y como se indica a continuacién: "Fase de Seleccién (Selecting): \leva asociados los nodos Fuente de Datos (Input Data Source), Muestreo (Sampling), Particién de Datos (Data Partition) y Series Temporales (Time series). Ver la Figura 3-1. Sample Input Data Source} Sampling Data Patttion Figura 3-1 = Fase de Exploracién (Explore): \leva asociados los nodos Explorador de distribuciones (Distribution Explorer), Graficos (Multiplot); Analisis Multivariante (Insight); Asociacién (Association); Seleccién de Variables (Variable Selection), Anélisis de Uniones (Link Analysis). Ver la Figura 3-2.42 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Explore ld Distribution Explorer EE Muttiplot Insight ABE Text Miner "} Association Vatiable Selection Link Analysis Figura 3-2 Fase de Modificacién (Modif): Definicién de variables (Data Set Attributes); Transformacién de Variables (Transform Variables); Tratamiento de Valores Extremos (Filter Outliers); Reemplazo de valores perdidos (Replacement); Clasificacin (Clustering); Redes Neuronales autoorganizadas (SOM/Kohonen), Agrupacién interactiva (Interactive Grouping) y Series Temporales (Time Series). Ver la Figura 3-3. LF drach raga Figura 3-3, Fase de Modelizacién (Model): Regresién (Regression); Arboles de Decisién (Tree); Redes Neuronales Artificiales (Neural Network); Redes Neuronales y/o Anilisis de Componentes Principales (Princomp/Dmneural), Modelo Definido por el Usuario (User Defined Model); Unién de Modelos (Ensemble), Razonamiento basado en memoria (Memory Based Reasoning) y Modelos en dos Etapas (Two Stage Model). Ver la Figura 3-4, Figura 3-4 © ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 43 " Fase de Valoracién (Assess): Valoracién (Assessment) e Informes (Reporter). Ver la Figura 3- ‘igura 3-5 Comenzando con SAS Enterprise Miner Para acceder a Enterprise Miner basta con escribir miner en la caja de comandos de SAS Explorer (Figura 3-6). ‘archivo Edeiin Ver Horramientas Ejecutar Solciones Ventana Ayuda [vier CSO ISA SR PH sx Oe Figura 3-6 También se puede acceder a Enterprise Miner desde la barra de ments de SAS seleccionando Soluciones —» Andllisis —> Enterprise Miner (Figura 3-7). Intcie do $48 uti tz “Bowne tintascl | Eling nso) [fl dese met vu here Morm SCioocmerts sd SetinaiCese int Cl j Figura 3-7 © ITES-Paranintfo44 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Por ambos caminos se llega a la ventana de Enterprise Miner, en la que se distingue la zona de trabajo, la barra de herramientas y el navegador del proyecto con las pestafias para diagramas, herramientas e informes (Figura 3-8). ena eae ea) Cavs Barra de herramientas Beg United lavegador «lel proyock Herramientas. = I [ I Figura 3-8 La pestafia de diagramas (Diagrams) del navegador de proyectos permite seleccionar los proyectos y diagramas abiertos. La pestafia herramientas (Tools) despliega el conjunto de tareas que pueden ser realizadas por Enterprise Miner (Figura 3-9). La pestafia de informes (Reports) contiene los informes generados que suelen ser creados a través del nodo de informes (Reporter node) de Enterprise Miner. Mediante la pestafia Tools nos situamos sobre el conjunto de herramientas de anilisis para el Data Mining, Las entradas principales de este menu (Jnput Data Source, ‘Sampling, etc.) son los nodos que contienen las diferentes herramientas de Data Mining. Los nodos son los elementos basicos de los que constan todos los analisis de Enterprise Miner asi como todo el trabajo que comprende el ciclo de Data Mining. Todos los procesos giraran por tanto en torno al uso de los mismos. Més adelante describiremos las utilidades particulares de cada uno de ellos. © ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 45 Sample Input Data Source: Sampling Data Partition Explore la Distribution Explorer E Muttpiot & Insight WA Text Miner "D Association a Variable Selection Y Link Analysis Modify ‘Tis Data Set Attibutes Transform Varisbles &h Filter Outliers ER} Replacement 2 Clustering SOM/Kohonen Time Series @ Interactive Grouping Madel be Regression Ba Tree Neural Network e Princomp/ Dmneural 'P User Defined Model EB Ensemble Memory-Baved Reasoning @F Two Stage Medel Assess 8H Assessment ‘$k Reporter Scaring [> Diagrams Tools | Reports Figura 3-9 En la zona de trabajo de la Figura 3-8 se llevan a cabo todas las tareas del proceso de Data Mining. Es aqui donde se procesan los datos, se ejecutan los modelos y se valoran los resultados. Este proceso se lleva a cabo mediante diagramas de flujos. Un diagrama de flujos no es més que la conexién ordenada de todos los nodos que forman un problema de Data Mining. © ITES-Paraninto48 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS La barra de herramientas (Figura 3-10) contiene el subconjunto de tareas de Enterprise Miner que son frecuentemente utilizadas por el usuario, El programa permite afiadir o borrar los iconos de los nodos de la barra de herramientas segan sus preferencias. Origenes de datos de entrada Muestreo Particién de datos Seleccién de variables Asociacién Cluster Regresién Arbol de decision Red neuronal Valoracion Prediccién Cédigo SAS i Alnformes >| a by |, > [Bss| [| # Figura 3-10 Para afiadir un elemento a la barra de herramientas, seleccione el icono en la zona de herramientas del navegador del proyecto y arrastre hasta la barra. Para eliminar un elemento que no es usado, seleccione con el botén derecho del ratén la tarea y elija Remove from tool bar. Los nodos que forman la barra de herramientas pueden ser afiadidos a la zona de trabajo sin necesidad de la barra de aplicaciones principalmente de tres maneras: = Pulsar y arrastrar el nodo a la zona de trabajo desde la barra de herramientas. = Pulsar y arrastrar el nodo a la zona de trabajo desde el conjunto de herramientas de andlisis de SAS Enterprise Miner. = Pulsar con el botén derecho sobre la zona de trabajo y seleccionar Add Node desde donde se desplegaré una ventana para abrir el nodo. EI nodo puede ser posteriormente abierto bien haciendo doble clic con el botén izquierdo, bien realizando la seleccién con el botén derecho del ratén pulsando a continuacién Open. © ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 47 Inicio de un proyecto nuevo En SAS Enterprise Miner el proyecto es el documento en el que se guardan Ja informacién, los datos, los diagramas y los resultados de un andlisis determinado. Los proyectos estén por tanto asociados a distintos problemas de Data Mining normalmente por corresponderse con distintas bases de datos. No existe restriccién al niimero de proyectos y Enterprise Miner permite hasta 100.000 diagramas por proyecto. Los proyectos se guardan con extensién *.dmp mientras que los diagramas tienen extensién *dmd. Para iniciar un nuevo proyecto, desde el meni principal seleccionar File > New —> Project (Figura 3-11). Esta accion abre la ventana Create new project (Figura 3-12). En esta ventana es necesario especificar el nombre del proyecto y la localizacién del mismo. Una vez realizadas ambas opciones seleccionamos create. El proyecto se crea junto a un diagrama, que por defecto se llamar untitled hasta que le sea asignado un nuevo nombre al guardarlo (Figura 3-13). Una vez que el proyecto est creado el siguiente paso es realizar un andlisis siguiendo las fases de Data Mining: seleccién, exploracién, modificacién, modelizacién y valoracién de resultados. a Delete current exotect Close project et Etepnise ner Figura 3-11 Gn Nane: Pir [ Client/server project Location: [CS\CIBROSWHTNINGT\DATOS\PT Browse. Figura 3-12 © ITES-Paraninto48 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Bisorane | Toole | Reporte a DERE Bitoni [] Boma tnt) | Ote-sinei | Bear seuet [pi tape nw eee Figura 3-13 Meni principal de SAS Enterprise Miner Enterprise Miner contiene un meni que permite seleccionar y ejecutar tareas comunes. Este menti (parte superior de la Figura 3-13) presenta las opciones File, Edit, View, Options, Actions y Help cuyas subopciones y finalidades se estudiaran a continuacién. La opcién File (Figura 3-11) presenta las subopciones siguientes: New —> Project: crea un nuevo proyecto al que se pueden asociar multitud de diagramas. New — Diagram: crea un nuevo diagrama. Para eliminar el bloqueo de un diagrama es necesario eliminar el archivo con extensién *./ck asociado al diagrama. Open: abre un diagrama nuevo o existente dentro del proyecto en uso. Esta tarea también puede ser ejecutada con el icono © . (© ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 49 Save Diagram: guarda el diagrama que esta siendo utilizado dentro del proyecto. Esta tarea también puede ser ejecutada con el icono al. Save Diagram as: asigna un nombre y guarda el diagrama utilizado dentro del proyecto. Print Setup: especifica las opciones de impresién. Print: imprime los contenidos de Enterprise Miner. Esta tarea también puede ser & ejecutada con el icono Delete current Project: elimina el proyecto activo. Esta accién supone eliminar también todos los ficheros que contenga el proyecto. Esta tarea también puede ser ejecutada con el icono % . Close Diagram: guarda y cierra el diagrama seleccionado. Close Project: cierra el proyecto actualmente en uso. Exit Enterprise Miner: termina la sesién con Enterprise Miner volviendo al entorno principal del programa SAS. La opcién Edit (Figura 3-14) presenta las subopciones siguientes: SOC eane rare ren Uae Ty Figura 3-14 © ITES-Paraninto50 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Copy Diagram to clipboard: permite copiar el grafico de la zona de trabajo para posteriormente ser pegado en un documento de texto 0 para su presentacién en un informe. Esta tarea también puede ser ejecutada con el icono 82, Undelete: recupera el iltimo nodo borrado. Copy: copia un nodo, diagrama u objeto de la zona de trabajo. Delete: borra el nodo o conexién seleccionada de la zona de trabajo. Clone: clona el nodo seleccionado. La clonacién implica copiar el nodo y pegarlo en la carpeta Custom de la paleta de herramientas. Paste: pega el nodo, objeto 0 diagrama. Select all: selecciona todos los nodos de la zona de trabajo. Create subdiagram: crea un subdiagrama para agrupar un conjunto de nodos y conexiones seleccionados dentro de un icono nodo subdiagrama. La opcién View (Figura 3-15) presenta las subopciones siguientes: Smet es Archha Ala Edt Options Actions Help Ventana! vp Bessapes. oa x| nafrsh fae 2}, J Figura 3-15 ney Messages: muestra una ventana con los mensajes para el diagrama activo. Refresh: actualiza el navegador de proyectos y los diagramas de la zona de trabajo. Up One Level: muestra el nivel inmediatamente més alto del conjunto de sucesivos diagramas. Si no existen subdiagramas en el diagrama considerado, sélo tendremos un Unico diagrama. Si por el contrario existen subdiagramas en el diagrama en uso, entonces los subdiagramas pueden ser mostrados o en su forma agrupada (escondiendo su estructura interna) o en su forma expandida (mostrando su estructura interna). El nivel més alto muestra los subdiagramas en su forma agrupada. (© ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 51 Top Level: muestra el diagrama de proceso en su forma més agrupada y por tanto todos los subdiagramas aparecen agrupados. La opcién Options (Figura 3-15) presenta las subopciones siguientes: SAL PLU Ue eats) Mi Aichva fle Eat view fctons Heb Ventana ee Ix fila ml? @ Eats rots, Figura 3-15 User preferences: abre la ventana de preferencias del usuario (Figura 3-16) que permite especificar distintas opciones al empezar Enterprise Miner. Ademds establece los directorios que se usan por defecto para nuevos proyectos, establece el servidor para proyectos que asi lo requieran y especifica los resultados HTML que se desea sean mostrados cuando se utilice el nodo de resultados (Reporter node). Esta tarea también puede ser ejecutada con el icono ©! . Después de hacer los cambios oportunos es necesario seleccionar OK para que éstos tengan efecto. | Server profiles linen starting Enterprise Miner: Open the last project | worked on @Open the last diagram I vorked on © don"t open anything (blank workspace) ] Reports | Log and output: F Send node loa to SAS System loa [Send node output to SAS System output [Suppress nodel assessment after training Interactive oraphics: Graphics font: System font Figura 3-16 Project — Data Profiles: mediante esta opcién el usuario define la informacién sobre los objetivos a alcanzar en el proyecto. © ITES-Paraninto52 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Project — Properties: muestra las propiedades del proyecto tales como el nombre y tipo, si esté 0 no compartido, su localizacién (solapa General) asi como las opciones de inicializacién (solapa Initialization de la Figura 3-18), las opciones de servidor (olapa Server), la ruta del Data Warehouse que alimenta los datos (solapa Warehouse de la Figura 3-19) y la lista de usuarios que tienen abierto el proyecto (solapa Users de la Figura 3-20). Properties Gonerat | Initialization | Server | Warehouse | Usors | MD) vs Type: Local Project Share statue: Sole user |BROS TNINGT\DATOS\PT Pun start-up code uhen project opened Edit... fun exit code when project closed Edit... oc | _coneet Figura 3-18 General | Initiatization | Server Warehouse | Users | Har ehouse path: Loe | caret Figura 3-19 (© ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 53 Gonerat | Initialization | Server | Marehouse Users People currently using this project: ZURPRADNG. 08D Figura 3-20 Diagram: presenta varias opciones de trabajo con los diagramas (Figura 3-21). ‘lions Hep Ventana ‘hve Fle eat View User preferences. xX ji@malr7e aroiect conte de Eni 5 Cre Rons ee g @ a : Bes G B Bi comet. ae ease Properties. Figura 3-21 Diagram —> Connect items: sirve para establecer conexiones entre los iconos de los nodos. Diagram —> Move items: sirve para mover los iconos de los nodos dentro de la zona de trabajo. Diagram — Move and Connect: (Opcién por defecto): permite mover y conectar los iconos de los nodos en la zona de trabajo. Diagram — Large icons: aumenta el tamafio de los iconos en la zona de trabajo. Diagram —> Small icons: (Opcién por defecto): muestra los iconos con un tamafio pequefio dentro de la zona de trabajo. © ITES-Paraninto54 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Diagram — Properties: abre la ventana de propiedades del diagrama (Figura 3-22). Esta opcién permite también proteger el diagrama o crear y almacenar notas en torno al mismo. Beene) General | History | Protection | Notes | Bag unten Type: Diagram Status: Currently open Figura 3-22 La opcién Actions (Figura 3-23) presenta las subopciones siguientes: ‘Archivo Fle Edt View Options Hep Ventana ee CCentenida de Entarna SAS" bers Accasos Figura 3-23 Open: abre el nodo seleccionado. Run: ejecuta el nodo seleccionado asi como cualquier nodo anterior conectado que no haya sido ejecutado. Results: abre el administrador de resultados para aquellos nodos que hayan generado resultados. Add node: abre la ventana de aftadir nodo (Figura 3-24) que permite afiadir un nodo dentro de la zona de trabajo. Add endpoints: afiade puntos finales al flujo del proceso. (© ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 55 Node types: [Assessnent lassociat ion ICluster ing IContral point bata Mining Database Data Partition bata Set Attributes Distribution Explorer lEnsenble Filter Outliers [Group Processing Input, Data Source Insight Interactive Grouping Link Analysis lNenory-Based Reasoning Inuttipiot INewral Network IPrincamp/ Daneural IRegression IReplacenent IRepor ter, IsaS Code [SOn/Kohonen Tree Tuo Stage Model lUser Def ined Hodel lVar table Selection Figura 3-24 La opcién Help (Figura 3-25) presenta las subopciones siguientes: Ventana Getting Started wth Ereorgese Mine Sohtware Help on this Window EM Reference archivo Fle Edt View Options Actions About Enters Niner Figura 3-25 Getting Started with Enterprise Miner Software: abre una ventana con un tutorial para Enterprise Miner (Figura 3-26). Esta accién también puede ser ejecutada con el icono &. Help on this Window: Abre una ventana con ayuda sobre el tema seleccionado (Figura 3-27). Esta tarea también puede ser ejecutada con el icono ? . © ITES-Paraninto588 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS: faces Dene on ag 8 ¢ 2 na] wana | ° 8 Sf Figura 3-26 22, 2. Layout of the Enterprise Miner Workspace ‘minors compares drm vendsrnagon as ny HNN THRERAGE ens + Teese ane vo pe» youundustons Ho mina ne Erg ate apps, ou mo wontoexbye Awana 4 Smt, ‘tsfntnjece ear sees manta ang Ets ne erp tr a start ‘Sega ne Darn Er occ Praby ure f= oer ion ou may akan ‘The Enterprise Miner Window “The SAS Enteric Minor va Winsow (© ITES-Paraninfo Figura 3-27CAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 57 EM Reference Help: Proporciona ayuda especifica sobre todos y cada uno de los nodos de Enterprise Miner (Figura 3-28). About Enterprise Miner: Informacién de la versién de Enterprise Miner utilizada (Figura 3-29). ad 2288 tmwrs|oeltnuiimeel | Enterprise Miner 4.3 Reference Help Ce EN scr testi Réwewe hata Newin ete nee + Gating Started with Enterprise Miner Scan erent odio bok maats Pr SAS Hp + Sas Tenner + Ascesammmose + Assniaton od + Cais cht tees + Reta tao No + Dat Set tines Nace ible ede Figura 3-28 eee SAS Enterprise Miner Release 4.3 Parerare nts Leo Nate Figura 3-29 © ITES-Paraninto58 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS EJEMPLO DE TRABAJO CON SAS ENTERPRISE MINER Con los datos del fichero ASCII ‘enis.txt situado en f-\libros\minigt\datosttenis, que contiene informacién acerca de los dias que se ha podido jugar al tenis en funcién de diversos aspectos metereolégicos, se trata de construir un modelo basado en Arboles de decisién que permita pedecir si a dia de hoy es posible jugar al tenis. Los datos se muestran en la Figura 3-30. Exerc euees Brchivo Ellsén Formato Yer Ayuda ‘Temperatura Humedad viento caluroso Alta foja, caluraso alta fuerte caluraso alta Flojo Suave alta Flajo Fresco Normal flaja Fresca Normal fuerte Fresca Normal fuerte suave nits. flopo Fresca Normal Fla}o Suave Normal fod suave Normal fuerce suave alta fuerte Eaiuroso normal Fla}o suave aia Fuarte Figura 3-30 Leer ficheros de datos y enlazarlos con Enterprise Miner mediante el nodo Input Data Source La primera tarea en un proceso de mineria de datos es leer el conjunto de datos de partida. Esta tarea la realiza SAS Enterprise Miner a través del nodo Input Data Source (nodo de datos). El nodo de datos es un nodo fundamental, ya que permite leer los datos del analisis y definir sus atributos. El nodo sélo lee los datos en formato SAS, es por ello que si nuestros datos estan en otro formato, en nuestro caso en ASCII delimitado por columnas 0 tabuladores, deberemos importarlos a alguna de las librerias activas. Si es necesario, se crea una nueva libreria. Para crear una libreria pulsaremos el icono § y en tos campos de la Figura 3-31 nombraremos la nueva libreria (Trabajo) y activaremos el cuadro Asignar al inicio para que esté disponible cada vez que abramos SAS. Para importar el archivo ASCII tenis.txt a SAS, en el meni principal de SAS seleccionaremos Archivo —> Importar Datos eligiendo Fichero delimitado por Tab (txt) segiin de indica en la Figura 3-32. Se pulsa Siguiente y se elige el camino en que se encuentra el fichero a importar (Figura 3-33). Se pulsa Siguiente otra vez y se elije la libreria en que se alojara el nuevo fichero SAS importado y su nombre (Figura 3-34), Al pulsar Finalizar se obtiene ya el fichero importado en formato SAS tenis.sas7bdat que se aloja en la libreria Trabajo (C:\libros\miningt\datos).. (© ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 59 ‘Genes —[EXUBFOSWINNGTIOATOS Ca, CT [oem eR i Beo DBA t Oe ‘Wha ype edited oui ingot? I Stadt utc Seket a dace fa thf Blo Fh dead pr Tab 8) z Founded mats Dele» spec Fal ing he Estemal le Ineoce EFI sian Fenn fy cote [] Bowral | Elin enioy | eter sn ettet |fiPtmer Wena rst orate or Specs deta] Figura 3-32 © ITES-Paraninto60 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS er * Import Wirard Select fi En el log de SAS se o Wheres the fl late? [FMIBROSWANNGTOATOS\Tene\erste —————_—owe. pions. Figura 3-33 eee (hone the SAS destnain Lea. i ener Ten Figura 3-34 obtiene un mensaje informando de la creacién del nuevo fichero (Figura 3-35). Si queremos ver su contenido basta con hacer clic en la libreria Trabajo y hacer doble clic sobre el fichero Tenis. Se abre una ventana con el contenido del fichero SAS (Figura 3-36). De forma similar se importan datos desde Excel, Access, dBase, Lotus, etc. © ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 61 ‘two Edin we Eeramentas_ Sones —- ae i|pBa 209 Pe) Leta ace a @ step Seer bao Wak a ican Jina nS Bote tanie\ tenis txt TA: TRABAIO.TENIS ce ha creado correctanente. BBourout- tin tuto) _[E]toe- Gin vito) GA Ector- sr tuto INOTA: Ala derecha, (SICDocuaments ane SetingsiCe | Figura 3-35 0c S8)) bao Da AxOe Cele [Tenoatsal Hunedsd] Venlo [Suna [Soka Catuom tao ‘No SSobach Cabos kere No [Cite Calvo ata joi luo Sune ta joi luo Fewoo Nom jo Si Tinto [Reet [Weed fess Fimice —Nomal fete Sh Suwe Ala fo ‘No Fsco Nom to 5 Sue Nomi fo Suwe Nomi ere Suwe Aare Coker Nomi fio) Sue Ala Fate No Figura 3-36 © ITES-Paraninto62 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Una vez que disponemos ya de nuestros datos de trabajo en formato SAS en una determinada librerfa, ejecutamos SAS Enterprise Miner tecleando miner en la caja de comandos de SAS y pulsando Enter 0 mediante Soluciones > Andilisis > Enterprise Miner. Al hacer clic en el botén Tools del navegador de proyecto se obtiene el listado de herramientas de Enterprise Miner entre las que se observa el nodo Input Data Source (Figura 3-37) como subopcién de la categoria Sample. El nodo se inserta en la zona de trabajo arrastrandolo hasta ella desde el listado de herramientas o desde el icono Ed de la barra de herramientas (Figura 3-38). ER outwit | BNE Sin | 5 VENABLE. [2A Ete Te cioonrers end sourasice| Z Figura 3-37 Input Data ‘Source Figura 3-38 © ITESParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 63 Al hacer doble clic sobre el nodo Input Data Source en la zona de trabajo, se obtiene la pantalla de entrada de datos. Se hace clic en la pestafia Data y en el campo Source Data debemos indicar en qué libreria se encuentran los datos. Una vez que éstos han sido seleccionados el nodo ofrece informacién acerca del nimero de filas y columnas que contiene el archivo (Figura 3-39). Ademés, el nodo realiza una valoracién de las caracteristicas de las variables. Si la muestra es muy grande, y dado que el objetivo perseguido es anicamente definir el tipo de variable, Enterprise Miner tomard una muestra que por defecto se fija en 2000 datos. Si la base de datos contiene menos que esta cantidad entonces se seleccionan todos los datos. De esta forma ya estén enlazados los datos del fichero de entrada con SAS Enterprise Miner. oes data | Variables | Interval Variables | Class Variables | Notes | [reeenso.TeNs Select... Ewara.viEM_x7D TRABAID. TENTS (RW atadata sample: 14 Size: 4 £ Mane: EMPROJ .SMP_V19B Figura 3-39 Definir tipos de variables con el nodo Input Data Source La pestafia Variables de la pantalla Input Data Source (Figura 3-40) permite asignar tipos de variables siguiendo una serie de patrones que posteriormente pueden ser cambiados por el usuario. Nuestro problema es ver si hoy podemos jugar al tenis. Para poder abordar este problema hemos de definir las variables Cielo, Temperatura, Humedad y Viento como predictoras 0 independientes (de entrada 0 input), mientras que el campo Jugar es la clase a predecir (variable dependiente), 0 sea, el resultado (de destino 0 target). Por defecto Enterprise Miner define todas las variables como input y por tanto las variables target o variables respuesta deben ser asignadas por el usuario. Para ello se hace clic con el botén secundario del ratén sobre la variable a cambiar de tipo y se elije Set Model Rol en el meni emergente resultante (Figura 3-41). A continuacién se elije el nuevo tipo (Target) en la lista de la Figura 3-42. La Figura 3-43 muestra las variables con su tipo definitivo para este problema. © ITES-Paraninto64 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Por tanto el objetivo del nodo Input Data Source es tanto abrir los datos como definir el tipo de variable y su papel en el anélisis de forma conveniente. Sas Interval Variables Clase Variables ‘roninat binary binary chor 83. chor char chor cher $9 $8 a m ef Figura 3-40 Data Sat Poca Fane en Dated EAR Figura 3-41 Interval Var iobles Date Vartablow ] tntervat Vartabion Clee Varialow Notee — Mase oda Rote [ives [Format [-tntorsat [var iabie tabel-| cieuo iret a. 88 TenPenaruna trout chor 80. vane input cur 80 wicnra trout char 87 tr | Class vartabes Notes Tose TemPERATIRE uneDeD vieNTO ole Tensurenent inary, Tope | Forast | afornat cher 88.88. cher 87.87, chor 8787 Variable Label =| grrr Dingrans Toots sa) | I Fae companies |] Figura 3-42 © ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 65 Date | tntervel or tbew 1 Chews Yer tebtes | Notes \ Tiodsi HoT | Ressurseent[ Type | Format |_inforaat [Variable Latet -| Teun iret mina har 68.8 TenPeRnTURA ireut——tominal char 88,88, HanEDA0 ‘rout chor 87,8. viewro input chor 87,87, «608 corget chor 82,82, Figura 3-43 Enlace de nodos de un diagrama. El nodo Data Partition Una vez que el nodo de datos recopila la informacién del problema éste debe ser conectado con otros nodos para implementar el proceso de Data Mining. La conexién de distintos nodos creara un diagrama légico de flujo (process flow) que permitira ir completando las etapas de muestreo, estadisticas descriptivas, codificacién, modelado y valoracién de resultados. La mayoria de los nodos sdlo pueden ser abiertos una vez que han sido conectados con nodos de datos. En nuestro caso uniremos el nodo de datos (Input Data Source) con el de particién (Data Partition) con la finalidad de asignar de manera aleatoria un 80% de los datos a entrenamiento, un 10% a validacién y un 10% a test. Para ello arrastramos el nodo Data Partition desde el listado de herramietas (Tools) 0 desde el icono Sa la zona de trabajo (Figura 3-44). een) Lit Disrbuton Exper EE Mtl Invoke Test Mines Association Vaable Selection Link Anais Figura 3-44 © ITES-Paraninto68 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Para conectar dos nodos basta con hacer clic con el botén derecho sobre el nodo que queremos conectar y seleccionar connect items (Figura 3-45). Una vez elegida esta opcién pulsaremos sobre el nodo origen y arrastraremos la flecha que se origina hasta el nodo destino (Figura 3-46). Poe een) Sanple Input DataSource Sanging Bene | Ab, Distoution Explorer Ee fate TRB, Partition TERMS Figura 3-46 Para borrar una conexién pulsaremos con el botén derecho del ratén sobre la flecha que conecta los dos nodos y seleccionaremos la opcién Delete (Figura 3-47). ‘Connect items * ‘Move ems Move and connect Figura 3-47 © ITESParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 67 A medida que los nodos sean creados sera necesario ubicarlos de forma adecuada sobre la zona de trabajo para lograr una mejor organizacién y comprension del diagrama de flujo. Para mover un nodo pulsaremos sobre el botén derecho sobre el nodo que queremos desplazar y seleccionaremos 1a opcién Move items de la Figura 3-45. Al elegir esta opcién cuando situemos el cursor encima del nodo veremos como éste toma la forma de una mano. Cuando esto ocurra podemos coger el nodo con el botén izquierdo del ratén y sin soltar el nodo moverlo hasta la nueva posicin. En general resulta conveniente elegir la opcién Move and connect. Asi, cuando el cursor esté sobre el borde del nodo, se transformard en una cruz indicando que podemos conectar dos nodos. Si situamos el cursor sobre el centro del ratén podremos mover el nodo seleccionado. Para asignar de manera aleatoria un 80% de los datos a entrenamiento, un 10% a validacién y un 10% a test hacemos doble clic sobre el nodo Data Partition en la zona de trabajo y rellenamos la pestafia Partition como se indica en la Figura 3-48. Notes Data | Variables Partition | Stratification | User Oat ined | Output | feared Percentages: Staple Random Tra [90% CStratitied Validation: [10 x Test: Total: Figura 3-48 Utilizar un nodo de modelado Ahora ya estamos en situacién de intentar utilizar un modelo a partir de los datos, en nuestro caso un Arbol de decisién. Para ello conectaremos el nodo de particién de datos con un nodo de Arboles de decisién (Tree) que arrastramos a la zona de trabajo desde el listado de herramientas o desde el icono 4 segiin se indica en la Figura 3-49. Oi i A ota Fee Tied Pxrtrtian EME Figura 3-49 © ITES-Paraninto68 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Una vez abierto el nodo Tree haciendo doble clic sobre él en el digrama, en la pestafia Advanced especificaremos como medida para la valoracién del modelo el porcentaje de casos correctamente clasificados. Ademas definiremos como numero de observaciones suficientes para buscar una variable de division 14 (Figura 3-50). ae inet tesa teal loreal eel Modo! assosanent neaawre: [autonatie ‘Sub-tree: [Dost accoscnont value ‘M teas: [4 — a. Miocinun tries in on eshoust ive split search: [5000 rs P-value adjustnent (Pass apply Koss before choosing muaber of, bonches Aeply Koea ator choos ing nunbor of branches Depth Feffective number of inputs: [4 Figura 3-50 En la pestafta Score indicaremos que guarde la respuesta para los datos de entrenamiento, validacién y test (Figura 3-51). Dats | Variables | Basic | Advanced Score | Not Process or Score: otros ee al eek eer Teed f Cvalidation C Test ENDATA Data set: STAMIGXT Properties Description: [Scored Tra Date | Variables Figura 3-51 Una vez definidas estas opciones, y previa asignacién de un nombre para el modelo (Figura 3-52), ejecutaremos el nodo mediante Actions —» Run (Figura 3-53) 0 haciendo clic con el botén derecho del ratén sobre el nodo Tree y eligiendo Run (Figura 3-54). Después de una visién de ejecucién con éxito (Figura 3-55) podemos ver los resultados del ajuste (Figura 3-56) que se interpretaran mas adelante. © ITESParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 69 ee Mode! Name: ltrbolt Model Description: [Arbol de decisiénl = POS [aa be Be | EE Precne/Omauat Ernie B honda Figura 3-34 © ITES-Paraninfo70 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS catered Qe un for Tree completed successful Da you wish to view results? Ves No Model Manager 55 Figura 3 AVF | emery | eee en [Prose peer tet [SoURCE] STAT UsAa =mo|=> SOT) rah Tn how wo qe al le (eset | isin 0.273 ements Figura 3-56 Podemos visualizar el Arbol seleccionando View — Tree (Figura 3-57). Dado que el conjunto de datos es muy pequefio, se ve una sola rama (Figura 3-58). roberta ats Moda 11 | Omamry | trom Ring | Table | Plot | Seore | bow prebetnnsra sate nd ates | cotsenn soir Figura 3-57 © ITES-ParaninfoCAPITULO 3: ENTORNO DE TRABAJO DE SAS ENTERPRISE MINER 71 Figura 3-58 Para solucionar el problema de una sola rama, eliminamos la fase intermedia de particién del conjunto de datos y construimos el arbol solamente con los nodos Input Data Source y Tree, Para ello abrimos un nuevo diagrama dentro de nuestro proyecto mediante File > New —> Diagram (Figura 3-59). A continuacién insertamos en el diagrama los dos nodos y los unimos (Figura 3-60). Al ejecutar ahora el drbol obtenemos los resultados de la Figura 3-61. ‘magaso. Tree. TENS Figura 3-60 © ITES-Paraninfo72 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Notes | ode! All | Summary | Tree Ring | Table | Plot | Score | Loo | STAT | uGaA [=> No [=>Si] ToTal | Figura 3-61 La pestafia All muestra a la vez las cuatro pestafias siguientes. En primer lugar muestra las estadisticas de ajuste del modelo (pestaita Summary). En segundo lugar muestra la proporeién de casos que se encuentra en cada uno de los nodos en cada uno de los niveles o anillos del Arbol (pestafia Ring). En tercer lugar muestra la proporcién de casos correctamente clasificados, tanto de entrenamiento como de validacién, segin el mimero de hojas de cada arbol (pestafla Table). Por iltimo se realiza una representacién grafica del resultado anterior (pestaiia plot). Podemos visualizar el arbol seleccionando View —> Tree (Figura 3-62). eee eee Figura 3-62 © ITESParaninfoCAPITULO 4 FASE DE SELECCION EN MINERIA DE DATOS SELECCION EN EL PROCESO DE EXTRACCI CONOCIMIENTO El proceso de extraccién del conocimiento (KDD) comienza con la recopilacién e integracién de la informacién a partir de unos datos iniciales de que se dispone (fase de seleccién de datos). Las primeras fases del KDD son muy importantes porque determinan que las fases sucesivas sean capaces de extraer conocimiento valido y Util a partir de la informacién original. Generalmente, la informacién que se quiere investigar sobre un cierto dominio de la organizacién se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. En general la informacién se encuentra ordenada en almacenes de datos. El andlisis posterior serd mucho mds sencillo si la fuente es unificada, accesible (interna) y desconectada del trabajo transaccional. Aparte de informacidn interna de la organizacién, los almacenes de datos pueden recoger informacién externa, como demografias (censo), paginas amarillas, psicografias (perfiles por zonas), uso de Internet, informacién de otras organizaciones y bases de datos externas compradas a otras compafias. La disponibilidad de grandes volimenes de informacién en esta fase nos lleva a la necesidad de usar técnicas de muestreo para la seleccién de datos. En el proceso de extraccién del conocimiento observamos la secuencia de fases siguiente: SELECCION > EXPLORACION — LIMPIEZA — TRANSFORMACION — MINERIA DE DATOS > EVALUACION = DIFUSION. En la fase de seleccién se integran y recopilan los datos, se determinan las fuentes de informacién que pueden ser iitiles y dénde conseguitlas, se identifican y seleccionan las variables relevantes en los datos y se aplican las técnicas de muestro adecuadas. Todo ello se facilita disponiendo de un almacén de datos (Data Warehouse) con la informacién en formato comin y sin inconsistencias.74 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Recopilacion e integracién de datos: Data Warehouse Generalmente, la informacién que se quiere investigar se encuentra en bases de datos y otras fuentes muy diversas, tanto internas como externas. Muchas de estas fuentes son las que se utilizan para el trabajo diario (bases de datos operacionales o transaccionales). Sobre estas mismas bases de datos de trabajo ya se puede extraer conocimiento porque se utilizan para mantener el trabajo transaccional diario de los sistemas de informacién originales (conocido como OLTP, On-Line Transactional Processing) y para hacer anélisis de los datos en tiempo real sobre la misma base de datos. (conocido como OLAP, On-Line Analytical Processing). Pero este andlisis perturba el trabajo transaccional diario de los sistemas de informacién originales ya que este tipo de base de datos esta disefiada para el trabajo transaccional, no para el analisis de los datos, tarea esta tiltima que debe hacerse por la noche o en fines de semana, Los almacenes de datos 0 Data Warehouses permiten disponer de sistemas de informacién de apoyo a la toma de decisiones (DSS 0 Decision Support Systems) y de bases de datos que permitan extraer conocimiento de la informacién histérica almacenada en la organizacién. Se trata de bases de datos disefiadas con un objetivo de explotacién (orientadas al andlisis) distinto al de las bases de datos de los sistemas operacionales (orientadas al proceso). Un almacén de datos es una coleccién de datos disefiada para dar apoyo a la toma de decisiones orientada hacia la informacion relevante de la organizacién (se disefia para consultar eficientemente informacion relativa a las actividades basicas de la organizacién como ventas, compras y produccién, y no para soportar los procesos que se realizan en ella como gestién de pedidos, facturacién, etc.), integrada (integra datos recogidos de diferentes sistemas operacionales de la organizacién y/o fuentes externas), variable en el tiempo (los datos son relativos a un periodo de tiempo y deben ser incrementados periédicamente) y no volatil (los datos almacenados no son actualizados, sélo son incrementados). Los almacenes de datos presentan como ventajas claras para las organizaciones la rentabilidad de las inversiones realizadas para su creacién, el aumento de la competitividad en el mercado y aumento de la productividad de los técnicos de direccién, siendo los principales problemas la infravaloracién del esfuerzo necesario para su disefio y creacién, la infravaloracién de los recursos necesarios para la captura, carga y almacenamiento de los datos, el incremento continuo de los requisitos de los usuarios y la privacidad de los datos. Las componentes tipicas de un almacén de datos son un Sistema ETL (Extraction, Transformation, Load), un Repositorio Propio de Datos con informacion relevante 0 metadatos, Interfaces y Gestores de Consulta que permiten acceder a los datos conectindose sobre ellos herramientas més sofisticadas (OLAP, EIS, mineria de datos) y Sistemas de Integridad y Seguridad que se encargan de un mantenimiento global, copias de seguridad, etc. El Sistema ETL realiza las funciones de extraccién de las fuentes de datos (transaccionales o extemas), transformacién (limpieza, consolidacién,...) y la carga del almacén de datos. © ITESParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 75 EI esquema siguiente (Figura 4-1) muestra las diferencias entre un almacén de datos 0 Data Warehouse (DW) y un sistema operacional (OLTP). Sistema Operacional (OLTP) Almacén de datos (DW) almacene detos acuales lmacena datos histéricos almacena datos de detalle almacena datos d0 dozalle ydetos agregados a ditintos niveles -bases de datos mediaras - bases de datos grandes (100Mb-16p) (0060-1) los datos son dinémicos (actualizables) los datos son estaticos los procesos transacciones) son epetivos los procesos no son previsibles el nlmero de transacciones es slevado - 61 ndmero de transacciones 0s bajo0 medio -tiempo de respuesta pequefo (segundos) -tiempo de respuesta varia (segundos: horas} dedicade al procesamiento de transacciones dedicede al ands de datos -orientado a los procesas de la organizacion - orientado la irformacion relevante -soporta decsiones diaias - soporta decisiones estratégicas sirve @ muchos usverios (administrativos) sirye a técricos de dteccién Figura 4-1 Las herramientas de explotacién de los almacenes de datos han adoptado un ‘modelo multidimensional de datos. Son tipicas las herramientas de OLAP, que presentan al usuario una visién multidimensional de los datos (esquema multidimensional) para cada actividad que es objeto de andlisis. El usuario formula consultas a la herramienta OLAP seleccionando atributos de este esquema multidimensional sin conocer la estructura interna (esquema fisico) del almacén de datos. La herramienta OLAP genera la correspondiente consulta y la envia al gestor de consultas del sistema (p.ej. mediante una sentencia SELECT). De esta forma se favorece la fase de seleccién en el proceso de extraccién del conocimiento. Las herramientas de OLAP se caracterizan por ofrecer una vision multidimensional de los datos (matricial), no imponer restricciones sobre el niimero de dimensiones, ofrecer simetria para las dimensiones, permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquias entre ellas, ofecer operadores intuitivos de manipulacién y ser transparentes al tipo de tecnologia que soporta el almacén de datos (ROLAP 0 MOLAP). Los sistemas ROLAP se implementan sobre tecnologia relacional, pero disponen de algunas facilidades para mejorar el rendimiento (indices de mapas de bits, indices de JOIN, técnicas de particionamiento de datos, optimizadores de consultas, extensiones de SQL, ete.). © ITES-Paraninto76 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Los sistemas MOLAP disponen de estructuras de almacenamiento especificas (arrays) y técnicas de compactacién de datos que favorecen el rendimiento del almacén. El objetivo de los sistemas MOLAP es almacenar fisicamente los datos en estructuras multidimensionales de forma que la representacién externa y la representaci6n interna coincidan. El esquema de la Figura 4-2 ilustra estos conceptos. ~ Elservider MOLAP. ‘multdimensionales, ~ La herramienta de OLAP presenta estas estructuras ‘multidimensionales, srecnrhres @ ce Si vate Figura 4-2 Una vez. diseftado un almacén de datos ¢ implementado mediante la tecnologia ROLAP 0 MOLAP, se aborda el proceso de carga y mantenimiento de dicho almacén. Estas tareas se abordan mediante un Sistema ETL (Extraction, Transformation, Load), que se representa en la Figura 4-3, ETL. (Gereepondnt] Bases de datos ‘operacionales Almacén de Fuentes /—_/ Almacenamiento real Externe intermedia Figura 43 Si los datos operacionales estin mantenidos en un SGBDR (Sistema Gestor de Base de Datos Relacional), la Extraccién 0 Seleccién de datos se puede reducir a consultas en SQL 0 rutinas programadas. Si los datos operacionales estin en un sistema propietario (no se conoce el formato de los datos) 0 en fuentes externas textuales, hipertextuales u hojas de caleulo, la extraccidn puede ser muy dificil y puede tener que realizarse a partir de informes 0 voleados de datos proporcionados por los propietarios que deberin ser procesados posteriormente. © ITESParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 77 La Transformacién de los datos extraidos de las fuentes operacionales incluye entre otras cosas limpieza, estandarizacién y célculo de los datos derivados (integracién). La fase de Transporte (carga) consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el almacén de datos y cargar los datos en las correspondientes estructuras de datos. La carga puede consumir mucho tiempo. En la carga inicial del almacén de datos se mueven grandes volimenes de datos y en sus ‘mantenimientos periddicos se mueven pequefios voliimenes de datos. El esquema siguiente (Figura 4-4) muestra las tareas tipicas que abarca cada una de las partes de un Sistema ETL. ELL. vcane “Aderifcacén do os datos que han cembiado: ‘ Indizacién vLimpieza yiransformasién —_optencian do dat eveccion (ect) de conde datos datos. de datos agregados a “itegrcion de detos ~ Realzacondo priabas “Citi Sosoeonin (nanan eves) agumiae we a meine He) ‘7Creacion de claves Gestion de erores — “Cetencién de oaregedes §——/ajaaaetas Metadatos: Figura 4-4 Data Warehouse y Data Mining Una vez almacenada la informacién en un Data Warehouse (almacén de datos), se aplican sobre ella las técnicas de Data Mining (mineria de datos) de modo Sptimo. Los almacenes de datos constituyen una organizacién ideal de la informacién para aplicar sobre ella las técnicas de extraccién del conocimiento 0 mineria de datos. No obstante, los almacenes de datos no son imprescindibles para hacer extraccién del conocimiento a partir de los datos, Es posible hacer minerfa de datos sobre un simple archivo de datos, Sin embargo, las ventajas de construir un almacén de datos se amortizan facilmente, sobre todo cuando tratamos grandes volimenes de datos, o cuando provienen de fuentes heterogéneas y cuando aumentan con el tiempo. © ITES-Paraninto78 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS SELECCION DE DATOS MEDIANTE MUESTREO Al hablar de métodos de muestreo nos referimos al conjunto de técnicas estadisticas que estudian la forma de seleccionar una muestra lo suficientemente representativa de una poblacién cuya informacién permita inferir las propiedades o caracteristicas de toda la poblacién cometiendo un error medible y acotable. A partir de la muestra, seleccionada mediante un determinado método de muestreo, se estiman las caracteristicas poblacionales (media, total, proporcién, etc.) con un error cuantificable y controlable. Las estimaciones se realizan a través de funciones matematicas de la muestra denominadas estimadores, que se convierten en variables aleatorias al considerar la variabilidad de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tipicas 0 errores cuadraticos medios de los estimadores, que miden la precisién de éstos. La metodologia que permite inferir resultados, predicciones y generalizaciones sobre la poblacién estadistica, basdindose en la informacion contenida en las muestras representativas previamente elegidas por métodos de muestreo formales, se denomina inferencia estadistica. Es muy importante tener en cuenta que para medir el grado de representatividad de la muestra es necesario utilizar muestreo probabilistico. Diremos que el muestreo es probabilistico cuando pueda establecerse la probabilidad de obtener cada una de las muestras que sea posible seleccionar, esto es, cuando la seleccién de muestras constituya tun fenémeno aleatorio probabilizable. Dicha seleccién se verificaré en condiciones de azar, siendo susceptible de medida la incertidumbre derivada de la misma. Esto permitira medir los errores cometidos en el proceso de muestreo (a través de varianza u otras medidas estadisticas). Existen varios tipos de muestreo, dependiendo de que la poblacién estadistica sea finita o infinita, materia sobre la que existe amplia literatura estadistica, pero nosotros consideraremos solamente el muestreo en poblaciones finitas. La poblacién finita inicial que se desea investigar se denomina poblacién objetivo, pero el muestreo de toda la poblacién objetivo no siempre es posible debido a diferentes problemas que no permiten obtener informacién de algunos de sus clementos (inaccesibilidad de algunos de sus elementos, negativas a colaborar, ausencias, ete.), con lo que la poblacién que realmente es objeto de estudio 0 poblacién investigada no coincide con la poblacién objetivo. Por otro lado, para seleccionar la muestra, necesitaremos un listado de unidades de muestreo denominado marco que teéricamente debiera coincidir con la poblacién objetivo. Un marco seri més adecuado cuanto mejor cubra la poblacién objetivo, es decir, cuanto menor sea el error de cobertura, Pero en los marcos son inevitables las desactualizaciones, las omisiones de algunas unidades, las duplicaciones de otras y la presencia de unidades extrafias y otras impurezas que obligan a su depuracién (depuracién de marcos imperféctos). Idealmente podria conseguirse la poblacién objetivo eliminando del marco las unidades erréneamente incluidas en él (unidades extrafias, duplicaciones, etc.) y aftadiendo las omisiones. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 79 Asimismo, también seria una meta que al eliminar del marco las unidades de las que no se puede obtener informacién (inaccesibles, ausentes, no colaboradoras, etc.) se obtuviera la poblacién investigada. El marco puede estar constituido por unidades elementales de muestreo o por unidades compuestas. Una unidad elemental (o simple) es la unidad de muestreo mas sencilla posible y una unidad compuesta (o primaria) esta formada por varias unidades elementales. Como en la prictica no es facil disponer de marcos de unidades elementales, se intenta conseguir marcos de unidades compuestas que son mas accesibles. Por ejemplo, para estudiar habitantes de una regidn es més facil disponer de un listado de hogares que de un listado de individuos. Se selecciona la muestra de un marco de hogares (unidades compuestas de varios individuos) y después se estudian las propiedades de los individuos con téenicas adecuadas. Supongamos que tenemos definida una caracteristica X en la poblacién U = {U;, Uz...,U} que toma el valor numérico X; sobre la unidad U; i = 1, 2,..., N, dando lugar al conjunto de valores {X;, X3,..., Xy}. Consideramos ahora una cierta funcién @ de los N valores X;, que suele denominarse parimetro poblacional @ = OX... Xv). Seleccionamos una muestra s = {u, w9,.... up} de la poblacién U mediante un procedimiento de muestreo dado, y consideramos los valores que toma la caracteristica X en estudio sobre los elementos de la muestra {X;, Xp....Xq}- A partir de estos valores estimamos puntualmente el parametro poblacional @ mediante el estimador 6 =6(X,,..., X;), basado en los valores X; i = 1, 2,.... ”, que toma la caracteristica X sobre las unidades de la muestra s. Por lo tanto, un estimador puntual 6 de un pardmetro poblacional 6 es sencillamente una variable aleatoria unidimensional funcién de los valores de la variable en estudio XY medidos sobre los elementos de la muestra (Xj, X2,..., Xn). Se supone que la poblacién tiene tamafio N y la muestra n. Entre los parametros poblacionales @(funcién de los N valores poblacionales X;) més comunes a estimar, tenemos el total poblacional y la media poblacional para la caracteristica X, definidos de la forma siguiente: y * Total poblacional: X= AX,,....Xv) = YX; im y ‘XY a1 py x,=y% N N ia i= = ls © Media poblacional: X = @X,,.... Xv) Hasta ahora hemos supuesto que la caracteristica X definida sobre los elementos de la poblacién es cuantitativa, es decir, cuantificable numéricamente. Sin embargo, también se pueden definir caracteristicas cualitativas sobre los elementos de la poblacién, como, por ejemplo, su pertenencia o no a una determinada clase A. © ITES-Paraninto80 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Si para cada unidad u, i = 1, 2..... N de la poblacidn definimos la caracteristica 4,, que toma valor | si la unidad u, pertenece a la clase 4, y que toma valor 0 si la unidad 1 no pertenece a la clase A, podemos definir el total de elementos de la poblacién que pertenecen a la clase A (total de clase) y la proporcién de elementos de la poblacién que pertenecen a la clase A (proporcién de clase) de la forma siguiente: y © Total de clase: A = @Ay,..., Ax) = YA, =I . i6i 2 P= XAy,..., Ay) Proporcién de clase: P= Adin An) = <= A= Ls Analizados ya los cuatro parémetros poblacionales mas tipicos a estimar, vemos que, en general, un parémetro poblacional @ puede expresarse como una suma de elementos ¥; = (X;) funcién de los valores que la caracteristica cuantitativa Xo cualitativa A considerada toma sobre los elementos de la poblacién. De esta forma, podemos escribir: o=Sy-L AH) ro Y, = f(X,)=X, parael total poblacional X Xx, = ¥, = f(X,)= 4p para la media poblacional X en cuyo caso tenemos: Yi= f(4,) = A, parael total de clase A A, Yi= f(A.) ==> para la proporcién de clase P Ahora surge el problema de analizar la forma de los estimadores puntuales 6ptimos 6 = 6(X,,.... X,) para estos parimetros poblacionales tipicos. Resulta que las mejores propiedades suelen presentarlas los estimadores lineales insesgados de la forma: 6= Ywy, ‘at Los valores « se denominan pesos o factores de elevacién, ya que so los nimeros por los que hay que multiplicar los valores muestrales para obtener los valores poblacionales. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 81 Coneretamente, para muestreo sin reposicién, el estimador éptimo es el de Horvitz y Thompson 6, = 3,1, donde 7; es la probabilidad que tiene la unidad u, de la om, poblacién de pertenecer a la muestra. Se observa que los pesos o factores de elevacién son eneste caso w, Para muestreo con reposicién el estimador éptimo es el de Hansen y Hurwitz by = 37, donde P; es la probabilidad de seleccionar la unidad u; de la poblacién para la muestra (probabilidad unitaria de seleccién de la unidad w ). Se observa que los pesos 0 factores de elevacién son, en este caso, w, = Las formas basicas de seleccién de la muestra se clasifican atendiendo a los siguientes criterios: 1, Atendiendo a las probabilidades de seleccién 1.1. Con probabilidades iguales: Todas las unidades de la poblacién tienen la misma probabilidad de ser seleccionadas en cada extraccién 7 = n/N y P;=1/N. 1.2. Con probabilidades desiguales: Al menos dos unidades tienen distintas probabilidades de seleccién en cierta extraccién, 2. Atendiendo a la mecanica de seleccién 2.1. Muestreo con reposicién: Cada unidad que es extraida para formar parte de la muestra en una extraccién se repone a la poblacién antes de realizar la siguiente extraccién; es decir, la estructura poblacional permanece invariante. 2.2. Muestreo sin reposicién: Cada unidad que es extraida para formar parte de Ia muestra en una extraccién no se repone a la poblacién antes de realizar la siguiente extraccién, por lo que una unidad podra aparecer en la muestra a Jo sumo una vez y la estructura poblacional va cambiando de una extraccién a otra. Combinando estos cuatro tipos de muestreo tenemos: Muestreo con reposicién y probabilidades iguales, muestreo sin reposicién y probabilidades iguales, muestreo con reposicién y probabilidades desiguales y muestreo sin reposicién y probabilidades desiguales. © ITES-Paraninto82 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Muestreo aleatorio simple El muestreo aleatorio simple sin reposicién es un procedimiento de seleccién de muestras con probabilidades iguales, que consiste en obtener la muestra unidad a unidad de forma aleatoria sin reposicién a la poblacién de las unidades previamente seleccionadas, teniendo presente que el orden de colocacién de los elementos en las muestras no interviene (es decir, que muestras con los mismos elementos colocados en orden distinto se consideran iguales). De esta forma, las muestras con elementos repetidos son imposibles. Como el procedimiento de seleccién es con probabilidades iguales, todas las muestras son equiprobables, y ademas se cumple que todas las unidades de la poblacién tienen 1a misma probabilidad de pertenecer a la muestra 7; = n/N. Se supone que el tamajio de la poblacién es N y el tamafio de la muestra es n. Como la muestra se selecciona sin reposicién, se realiza la seleccién sucesiva de las unidades para la muestra con probabilidades 1/(N—1) para valores de 1 = 0, 1, Podrfamos resumir las especificaciones del muestro aleatorio simple sin reposicién o muestreo irrestricto aleatorio como sigue: * Se trata de un tipo de muestreo de unidades elementales. © Consiste en obtener la muestra unidad a unidad de forma aleatoria sin reposicion a la poblacién de las unidades previamente seleccionadas. * Elorden de colocacién de los elementos en las muestras no interviene; es decir, las, muestras con los mismos elementos colocados en orden distinto se consideran iguales. © Las muestras con elementos repetidos son imposibles. ‘* Se trata de un procedimiento de seleccién con probabilidades iguales porque todas las unidades de la poblacién van a tener la misma probabilidad de pertenecer a la muestra. © Todas las muestras son equiprobables. Ya sabemos que el estimador lineal insesgado general para el caso de muestreo sin reposicién es el estimador de Horvitz y Thompson 6, . . ny v - Se tiene que Oj,=S 7+ estima @=D'Y,, con E6)=0, es decir, insesgadamente, siendo 7 la probabilidad de que la unidad wu, pertenezca a la muestra (a= n/N). © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 83 Entonces podemos deducir los estimadores lineales insesgados para el total (¥=X)), media (Y;=X/N), proporcién (¥,=A/N) y total de clase (Y;=4,) como sigue: Se observa que los estimadores de la media y la proporeién poblacional son los estimadores por analogia (media y proporcién muestral), mientras que los estimadores del total y el total de clase poblacionales son la expansién mediante el tamafio poblacional de la media y proporcin muestrales (en este caso, .X = N¥ = (N/1n)x => los factores de elevacién son N/n). El muestreo aleatorio simple con reposicién es un procedimiento de seleccién con probabilidades iguales que consiste en obtener la muestra unidad a unidad de forma aleatoria con reposicién a la poblacién de las unidades previamente seleccionadas. De esta forma las muestras con elementos repetidos son posibles y cualquier elemento de la poblacién puede estar repetido en 1a muestra 0, 1,..., 72 veces. Supongamos en todo momento que el tamafio de la poblacién es N y el tamafio de la muestra es n. Como la muestra se selecciona con reposicién (se reponen a la poblacién las unidades previamente seleccionadas) y con probabilidades iguales, se realiza la seleccién sucesiva de las unidades para la muestra con probabilidades P;= 1/N y todas las muestras son equiprobables, ya que: Plu, te 4,) = Pla) Pur LN) = 1(") P(un) = (LINYLIN) © ITES-Paraninto84 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS En cuanto a los estimadores, partimos de que el estimador lineal insesgado general para el caso de muestreo con reposicién es el estimador de Hansen y Hurwitz a ¥, an = ap (P; = probabilidad de seleccionar la unidad u; de la poblacién para la wt AE; x muestra =1/N), que estima insesgadamente la caracteristica poblacional 6 = >,Y,.. Seguin los distintos valores de Y, se tiene: bs w ~ 0=X=)X,>Y,=X,>6= Da la casualidad de que se obtienen los mismos estimadores insesgados para los parametros poblacionales que para el caso de muestreo aleatorio simple sin reposicién. Por lo tanto, los estimadores de la media y la proporcién poblacional son los estimadores por analogia (media y proporcidn muestral), mientras que los estimadores del total y el total de clase poblacionales son la expansion mediante el tamafio poblacional de la media y proporcién muestrales (en este caso, X = Nx =(N/n)x = los factores de elevacién son N/n). El error de los estimadores (varianza) siempre es menor en el caso del muestreo sin reposicién, lo que nos indica que e! muestreo sin reposicién es en general mas preciso que el muestreo con reposicién. Ademias, en el caso de muestreo sin reposicién se necesita menos tamaiio de ‘muestra para cometer el mismo error que en el caso del muestreo con reposicion, con lo que el muestreo sin reposicién es mas eficiente que el muestreo con reposicién. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 85 Muestreo estratificado Supongamos que la poblacién objeto de estudio, formada por N unidades elementales, se divide en L subpoblaciones 0 estratos, los cuales constituyen una particién, es decir, no se solapan y la unién de todos ellos es el total. De forma mas precisa podemos decir que en el muestreo estratificado, una poblacion heterogénea con N unidades {uj} ;- 1,2. y se subdivide en L subpoblaciones disjuntas lo més homogéneas posible (que forman una particién) de tamafios Nj, No ..., N,., denominadas estratos {U,, } . El muestreo estratificado es un tipo de muestreo de unidades elementales ya que la muestra estratificada de tamaiio n se obtiene seleccionando n, elementos (h = 1, 2,... L) de cada uno de los Z estratos en los que se subdivide la poblacién de forma independiente. Si la seleccién en cada estrato es aleatoria simple y de forma independiente, el muestreo se denomina muestreo aleatorio estratificado, pero en general nada impide utilizar diferentes tipos de seleccién en cada estrato. Si el muestreo aleatorio en cada estrato es sin reposicién, el muestreo estratificado es sin reposicién, y si el muestreo aleatorio en cada estrato es con reposicién, el muestreo estratificado es con reposicién. La Figura 4-5 muestra la poblacién dividida en h estratos de tamaiio Nj, en cada uno de los cuales elegimos de modo independiente m, unidades (por muestreo aleatorio simple si no se especifica otra cosa) para la muestra estratificada de tamafio n. POBLACION Figura 4-5 A continuaci6n se expresa de modo esquematico la formacién de estratos en la poblacién y la formacién de la muestra estratificada de la forma siguiente: POBLACION Uy Myr Uy, U. L Se dwvide en Lestratos 21M a rr >, “ "| het © ITES-Paraninto86 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS MUESTRA My My Uy, Uy) Ua9 Un, Se extrae en cada estrato Qa, oer i= El principal objetivo del muestreo estratificado es mejorar la precision de las estimaciones reduciendo los errores de muestreo. Intenta minimizar la varianza de los estimadores mediante la creacién de estratos lo més homogéneos posible entre sus elementos (para que los estimadores del estrato sean precisos) y lo mas heterogéneos entre si (para tener el maximo de informacién). Otros objetivos del muestreo estratificado son los siguientes: 1. Obtener estimaciones separadas para cada uno de los estratos. 2. Hacer un uso mas racional de la organizacién administrativa. 3. Paliar los defectos del marco, aislando esos defectos en algunos estratos. Es muy conveniente utilizar muestreo estratificado cuando existe una variable precisa para la estratificacién cuyos valores permitan dividir convenientemente a poblacién en estratos homogéneos. Las variables utilizadas para la estratificacién deberan estar correlacionadas con las variables objeto de la investigacién. Por ejemplo, para realizar estadisticas sobre los ingresos de las familias en una ciudad puede estratificarse segin los valores de la variable cualificacién profesional de los cabezas de sus componentes (a mas cualificacién normalmente hay mis ingresos, con lo que los estratos resultaran homogéneos). Si se quiere estudiar el volumen de negocio de los establecimientos de venta al piblico de una ciudad, se puede utilizar como variable de estratificacién su nimero de empleados, y clasificar (estratificar) los establecimientos en grandes superficies, supermercados, tiendas grandes, tiendas pequefias y otros, segin el niimero de empleados; asi resulta una division de los establecimientos en grupos homogéneos. Si se quiere estudiar caracteristicas de hospitales se puede utilizar la variable de estratificacién nimero de pacientes, para estratificarlos en grandes hospitales, clinicas medias y clinicas pequefias, resultando asi grupos de hospitales con problematica similar. Para realizar estadisticas en el sector educativo puede utilizarse la variable de estratificacién nivel de ensefianza, tomando ‘como estratos los niveles de ensefianza infantil, ensefianza primaria, ensefianza secundaria obligatoria, bachillerato y enseflanza universitaria (cada estrato tiene asi unas caracteristicas muy peculiares que Io hacen homogéneo). © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 87 En muestreo estratificado un parametro poblacional puede escribirse como o=>>Y,. Para muestreo estratificado sin reposicién, el parimetro 6 puede ser estimado mediante la suma extendida a todos los estratos de los estimadores lineales insesgados de Horvitz y Thompson en cada estrato, es decir, mediante: . ben y 6= > > aL tT Ty donde ,, es la probabilidad de que la unidad w,,pertenezca a la muestra (,)de m, unidades, obtenida de entre las Nj, unidades del estrato h-ésimo (7, = ny, / Nj). Para los diferentes estimadores tendremos las siguientes expresiones: . xX, bth X, 1é Lk =X >, =X, 94, =<5 92" yy Nu = ay w= NR = ag tet Ty te sae Lax, kis 0=K ay, =2H 9X, =3,=y SAH SM oe ae bo. & NO Linkin, GING IN, EN, a As Au Ls 02421, =4,24,-Y SSS 25, 34, = EMA =r, wy AM | Ny tA Ny fel El estimador del total poblacional en muestreo estratificado aleatorio es la suma de los estimadores del total en cada estrato y los factores de elevacién son Nj, / my. El estimador de la media en muestreo estratificado aleatorio es la media ponderada de los estimadores de la media en cada estrato, siendo los coeficientes de ponderacion W,,= Ni/N de suma unitaria, que a su vez son los factores de elevacién. El estimador del total de clase en muestreo estratificado aleatorio es la suma de los estimadores del total de clase en cada estrato. El estimador de la proporcién en muestreo estratificado aleatorio es la media ponderada de los estimadores de la proporcién en cada estrato, siendo los coeficientes de ponderacién W, = Ni/N de suma unitaria. Las varianzas de los estimadores y sus errores son (fj, =m / Ni). © ITES-Paraninto88 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Para muestreo estratificado con reposicién, el parimetro @ puede ser estimado mediante la suma extendida a todos los estratos de los estimadores lineales insesgados de Hansen y Hurwitz en cada estrato, es decir, mediante: 7 TM, Pry donde P,, es la probabilidad inicial de seleccién de la unidad w ,, para la muestra (¥,) de njunidades, obtenida de entre las Nj, unidades del estrato h-ésimo ( P,, = 1/N,). Las expresiones de los diferentes estimadores para muestreo con reposicién coinciden con las de! muestreo sin reposicién, ya que: En muestreo estratificado se Mama afijacién de la muestra al reparto, asignacién, adjudicacién, adscripcién o distribucién del tamaiio muestral n entre los diferentes estratos; esto es, a la determinacién de los valores de n, que verifiquen m +nz+.... +m, = n. Pueden establecerse muchas afijaciones o maneras de repartir la muestra entre los estratos, pero las mas importantes son: la afijacién uniforme, la afijacién proporcional, la afijacién de varianza minima y la afijacién éptima. La afijacién uniforme consiste en asignar el mismo numero de unidades muestrales a cada estrato, con lo que se tomaran todos los nj, iguales a n/L, aumentando o disminuyendo este tamafio en una unidad si n no fuese multiplo de L, esto es, n, = E(n/L) + 1, donde E denota la parte entera. oe Wha bL=e Yn, =D kon Lk f, == : : N, N, Para este tipo de afijacién, las varianzas de los estimadores y sus estimaciones se hallan sustituyendo en las formulas generales f, por k/N). Este tipo de afijacién da la misma importancia a todos los estratos, en cuanto a tamafio de la muestra, con Io cual favorecera a los estratos de menor tamafio y perjudicaré a los grandes en cuanto a precisién, Sélo es conveniente en poblaciones con estratos de tamafio similar. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 89 La afijacién proporcional consiste en asignar a cada estrato un nimero de tunidades muestrales proporcional a su tamafio, Las n unidades de la muestra se distribuyen proporcionalmente a los tamaiios de los estratos expresados en ntimero de unidades. Tenemos: nko dn, ‘ oe ‘Ademis, se observa que: te Nik peg wy =Ne a Malk N, N, ""N nfk on ob En afijacién proporcional los estimadores de media y total pueden expresarse como sigue: ___ Total muestral Fraccién de muestreo Total muestral Tamafio de muestra sali A la vista de los resultados anteriores, en afijacién proporcional, podemos asegurar lo siguiente: «Las fracciones de muestreo en los estratos son iguales y coinciden con la fraccién global de muestreo, siendo su valor la constante de proporcionalidad. © Los coeficientes de ponderacién 1, se obtienen exclusivamente a partir de la muestra, pues para su cdlculo s6lo son necesarios valores muestrales (m, y 7). © El estimador insesgado para el total poblacional puede expresarse como el cociente entre el total muestral y la fraccién de muestreo, 0 lo que es lo mismo, como el producto del total muestral por la inversa de la fraccién de muestreo. Similar propiedad tiene el estimador insesgado para el total de clase (producto del total de clase muestral por la inversa de la fraccién de muestreo). © ITES-Paraninto90 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS © El estimador insesgado para la media poblacional puede expresarse como el cociente entre el total muestral y el tamafio de la muestra. Similar propiedad tiene el estimador insesgado para la proporcién poblacional (cociente entre el total de clase muestral y el tamafio de la muestra). n, * Como 2,,=—+=k= ff todas las unidades de la poblacién tienen la misma ny pol h probabilidad de figurar en la muestra de unidades; es decir, estamos en el caso de muestras autoponderadas. La afijacién de minima varianza o afijacién de Neyman consiste en determinar los valores de 7, (nimero de unidades que se extraen del estrato h-ésimo para la muestra) de forma que para un tamafio de muestra fijo igual a n la varianza de los estimadores sea minima. MSs, NOM Ss Yan Ems, DMs, Sms, fa La expresién param, es 1, Vemos que los valores de m, son proporcionales a los productos NV, -S, y en el supuesto de que S, = S, Vh = 1, 2a, L esta afijacién de minima varianza coincidiria con la proporcional, tal y como se ve a continuacién: N,S S, =San, =n = kN, ( -4) MS ta La utilidad de esta afijacién es mayor si hay grandes diferencias en la variabilidad de los estratos. En otro caso, la mayor sencillez y autoponderacién de la afijacién proporcional hacen preferible el empleo de ésta. La afijacién dptima consiste en determinar los valores de m, (numero de unidades que se extraen del estrato A-ésimo para la muestra) de forma que para un coste fijo C la varianza de los estimadores sea minima. El coste fijo C sera la suma de los costes derivados de la seleccién de las unidades muestrales de los estratos; es decir, si cy es el coste por unidad de muestreo en el estrato h, el coste total de seleccién de las m, unidades muestrales en ese estrato sera cy. Sumando los costes uM, para los L estratos tenemos el coste total de seleccién de la muestra estratificada. Ny Sil Ver _ Wa Salen Za Ese Ems Podemos escribir quem, = © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 91 ‘Vemos que los valores de ny son proporcionales a los productos N,-S,/,Jc, y en el supuesto de que C,= k Vh= 1, 2,.... L (coste constante en todos los estratos) la afijacién dptima coincide con la de minima varianza, y si ademas S, = S, Wh = 1, Qua L tenemos que la afijacién éptima coincidiré con la de minima varianza y con la proporcional. Muestreo sistemdtico Partimos de una poblacién de tamafio N, y agrupamos sus elementos en 7 zonas (filas) de tamafio k (N = nk). Podriamos representar la poblacién como sigue: ‘A continuacién se numeran los elementos de la tabla anterior de izquierda a derecha empezando por la primera unidad de la primera fila y pasando a la primera unidad de la fila siguiente cuando se agota cualquier fila. Tendriamos la siguiente estructura: i 1 |m uy us = vty ve be 2 Ug Unga Us ty Uns 3 Uren Uri42 Uke + Ups; Uskek Ff Menen Menee Menes Micayksk Moment Umryisr Mmyaes Monte] Para extraer una muestra de tamafio n se elige al azar una unidad en la primera zona, y para seleccionar las n — 1 unidades restantes para la muestra se toma en cada zona la unidad que ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro de la primera zona. © ITES-Paraninto92 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera zona es la tervera, se elegirin las n — 1 unidades restantes para la muestra tomando Ia tercera unidad de cada zona. Las muestras sisteméticas asi obtenidas (columnas de la tabla anterior) suelen denominarse muestras I en k. La probabilidad de seleccionar cualquier muestra serd la probabilidad de elegir la unidad que la origina en la primera fila por muestreo aleatorio simple, es decir, 1/k. Por tanto, el muestreo sistematico proporciona muestras equiprobables. Por otro lado, la probabilidad que tiene cualquier unidad de la poblacién (de N unidades) de pertenecer a la muestra (de tamafio 4) es K/N’ = k/nk = 1/n; por lo tanto, el muestreo sistematico es un tipo de muestreo con probabilidades iguales. Las muestras del espacio muestral pueden representarse como sigue: 1) = fas stiee ee theca f (3) = {uy sjersre taenene} tiseon} EI muestreo sistematico extiende la muestra a toda la poblacién, recoge el posible efecto de estratificacién debido al orden en que figuran las unidades de la poblacién (cada fila se puede considerar como un estrato), permite la consideracion de conglomerados en la poblacién (cada columna se puede considerar como un conglomerado), es facil de aplicar y comprobar, no presenta problemas de calculo algebraico y no precisa distincién entre reposicidn y no reposicién. Ademés, si la disposicién de los elementos en la poblacién es aleatoria, la seleccién sistemtica equivale a un muestreo aleatorio simple. Por ultimo, el error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en estratificado. Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si existe periodicidad en la poblacién y el problema teérico que se presenta en la estimacién de varianzas debido a que no hay independencia en la seleccién de unidades en las distintas zonas, ya que la unidades extraidas en cada zona dependen de la seleccionada en la primera zona. En general s6lo hay seleccién aleatoria para la primera unidad de la muestra. Para el cdleulo de estimadores éptimos se utilizar el estimador lineal insesgado de Horwitz y Thompson porque el muestreo sistemitico es sin reposicién. En general sabemos que: © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 93 . ey fl BS up = Die estima insesgadamente el parametro poblacional 6 = >_Y,. 7%, i En muestreo sistematico la probabilidad 7; de seleccién de un elemento poblacional cualquiera para la muestra sera igual a la probabilidad de que resulte elegida la zona que lo contiene, esto es, 7; = I/k = nnk) = n/N, luego podemos utilizar la forma general del estimador de Horwitz y Thompson para asegurar lo siguiente: 6-2 an estima insesgadamente el parémetro poblacional @ = >) ,Y, v7 a)H|e Si aplicamos la expresién anterior a las estimaciones del total, media, proporcién y total de clase poblacionales, se obtienen los siguientes estimadores: xX, w lw ne DEX = YX y = Total +9=X=¥, =X,>%=S>. 7 i nk Proporcién— 0 = P=>Y, = B|S Total de clase 0 =X >Y, Hemos demostrado que un estimador lineal insesgado para la media poblacional es la media de la muestra sistematica obtenida, para la proporcién poblacional es la proporcién de la muestra sistematica, para el total poblacional es N veces el total de la muestra sistematica, y para el total de clase es N veces el total de clase muestral. Es decir, podemos escribir lo siguiente: Total—» X = Nx, Media + X =%,, Proporcién + P =P, , Total de clase» A= NP, (© ITES-Paraninfo94 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Es posible relacionar el muestreo sistemdtico con el muestreo estratificado considerando cada zona de k elementos consecutivos a partir del primero como un estrato; es decir, se puede dividir la poblacién en n estratos constituidos cada uno de ellos por una fila de la tabla (k unidades) del cuadro en que hemos representado los elementos de la poblacién numerados consecutivamente. Ne Xia(n-i)k Xan) Obtener una muestra sistemética seria entonces equivalente a obtener una muestra estratificada con una unidad por estrato. Debe tenerse en cuenta, sin embargo, que en el muestreo estratificado aleatorio la seleccién se efectiia independientemente en cada estrato, mientras que en el muestreo sistematico todos los elementos seleccionados ocupan el mismo lugar 0 mimero de orden dentro de cada zona de k elementos, con la que no hay aleatoriedad de seleccién. Ademis, seria conveniente que las n zonas sistematicas de k elementos cada una (estratos) sean lo mis homogéneas posible dentro de ellas y heterogéneas entre ellas. También es posible relacionar el muestreo sistemdtico con el muestreo de conglomerados considerando cada columna de n elementos como un conglomerado; es decir, se puede dividir la poblacién en k conglomerados constituidos cada uno de ellos por una columna de la tabla (m unidades). Obtener una muestra sistematica seria entonces equivalente a obtener una muestra por conglomerados de tamafio 1. 1 k 1 x, x 2 hoe i Neate MN Xleie Fra(niik © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 95 Muestreo unietapico de conglomerados Tanto en el muestreo aleatorio simple con reposicién como sin reposicién, asi como en el muestreo estratificado, sistematico y métodos indirectos de estimacién, las unidades de muestreo son las mismas que las unidades objeto de estudio (unidades simples 0 elementales), pero en Ia practica nos encontramos con situaciones mas generales en las que las unidades de muestreo comprenden dos 0 mas unidades de estudio. En tal caso a las unidades de muestreo se las denomina unidades primarias 0 compuestas. En el muestreo por conglomerados no se necesita un marco muy especifico como en el caso del muestreo aleatorio simple en el que era necesario disponer de un listado de unidades de la poblacién, o como en el muestreo estratificado, donde era necesario disponer de listados de unidades por estratos. Se divide previamente al muestreo la poblacién en conglomerados 0 areas convenientes, de las cuales se selecciona un cierto niimero para la muestra, con lo que sélo es necesario un marco de conglomerados que sera mas fécil de conseguir y mas barato. Se pueden utilizar como marco divisiones territoriales ya establecidas por necesidades administrativas para las cuales existe ya informacién. También se pueden utilizar como marco Areas geogrificas cuyas caracteristicas estan ya muy delimitadas. Est claro que se ahorra coste y tiempo al efectuar visitas a las unidades seleccionadas. Ademés, la concentracién de unidades disminuye la necesidad de desplazamientos. Por otro lado, en el muestreo por conglomerados solemos tener menor precisién en las estimaciones, debido a que, aunque lo ideal es que haya heterogeneidad dentro, siempre va a existir un cierto grado de homogeneidad inevitable dentro de los conglomerados que disminuiré la precisién. La eficiencia de este tipo de muestreo disminuye al aumentar el tamafio de los conglomerados, cuando en realidad este tipo de muestreo es més util en caso de poblaciones muy numerosas en las que se puedan construir conglomerados grandes. Consideramos una poblacién finita con M unidades elementales o tltimas agrupadas en N unidades mayores Ilamadas conglomerados 0 unidades primarias, de tal forma que no existan solapamientos entre los conglomerados y que éstos contengan en todo caso a la poblacién en estudio. Consideramos como unidad de muestreo el conglomerado, y extraemos de la poblacién una muestra de n conglomerados a partir de la cual estimaremos los parametros poblacionales. El ntimero de unidades elementales de un conglomerado se denomina tamafio del conglomerado. Los conglomerados pueden ser de igual o de distinto tamafio, y han de ser lo mas heterogéneos posible dentro de ellos y lo mas homogéneos posible entre ellos, de tal forma que la situacién ideal seria que un tnico conglomerado pudiese representar fielmente a la poblacién (muestra de tamafio uno con minimo coste). Se observa que la situacién ahora es la complementaria a la del caso de los estratos estudiados anteriormente. (© ITES-Paraninfo96 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son del mismo tamatto M,, en cuyo caso utilizaremos la siguiente notacién: ‘Numero de conglomerados en la poblacién ‘Numero de conglomerados en la muestra ‘Numero de unidades elementales por conglomerado (tamafio del conglomerado) NM: Numero total de unidades elementales en la poblacién nM: Namero total de unidades elementales en la muestra Consideraremos la caracteristica poblacional general 6 = oy DEY, que, suponiendo muestreo sin reposicién y probabilidades iguales, puede set estimada mediante el estimador lineal insesgado de Horwitz y Thompson: i DY, z 5 eh ee ved 9m = De UN La aplicacién del estimador lineal insesgado de Horwitz y Thompson para probabilidades iguales a las estimaciones del total, media, proporcién y total de clase poblacionales, proporciona los siguientes estimadores: vt a Nel Nel & Ie _ O=A=)Y'A, >Y, = 4, A= YY, = Yi DA = NM YF NP aa nrg ni a ny En caso de muestreo con reposicién, probabilidades iguales y conglomerados del mismo tamatio, los estimadores son los mismos. En caso de muestreo sin y con reposicién, probabilidades iguales y conglomerados de distinto tamafio, los estimadores son los siguientes: © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 97 a) Los conglomerados no varian mucho en tamaiio (M, similares) & M, Consideraremos M=.— como la media de los tamafios M; de los ro conglomerados y utilizamos todas las formulas estudiadas hasta ahora, tanto para muestreo con reposicién como para muestreo sin reposicién. Para la media se tiene 14> _l<€ ne nia M Para el total se tiene el estimador X = NM = NM que no depende de M. y b) Los conglomerados varian mucho en tamaito (M; no similares y M = > M,) = Si los tamafios de los conglomerados son significativamente distintos, un estimador sesgado de la media es el estimador de razén: En caso de muestreo sin y con reposicién, probabilidades desiguales y conglomerados de distinto tamaiio, se utilizan los estimadores generales de Horvitz Thompson y Hansen Hurwitz. Sus expresiones son las siguientes: a) Muestreo sin reposicién Consideramos una poblacién de N conglomerados de tamaiios desiguales M, N con M= )°M,. En este caso se utilizaré el estimador general de Horwitz y im Thompson, que proporciona el estimador lineal insesgado para el total definido por: OX, OME, (© ITES-Paraninfo98 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS b) Muestreo con reposicin Consideramos una poblacién de N conglomerados de tamafios desiguales M, w con M= )" M, . En este caso se utilizard el estimador general de Hansen y Hurwitz, que proporciona los estimadores lineales insesgados para el total y media siguientes: . wx, SMX, = _X, a Xe ia GMP wt ne, mM En caso de muestreo sin y con reposicién, probabilidades desiguales proporcionales a los tamatios y conglomerados de distinto tamaiio, se utilizan los estimadores generales de Horvitz Thompson y Hansen Hurwitz, Sus expresiones son las siguientes: @) Muestreo sin reposicién El estimador lineal insesgado de Horwitz y Thompson para el total sera: ° eX, OMX, OMX, y= Rup =e YE = te M_DX, = Me oS SAE Se M El estimador lineal insesgado de Horwitz y Thompson para la media sera: Se observa que las expresiones de los estimadores lineales insesgados para la media y el total en el caso de probabilidades desiguales proporcionales a los tamaiios de los conglomerados coinciden con sus expresiones para probabil idades iguales. b) Muestreo con reposicién Como siempre, los estimadores son los mismos que para el caso sin reposicién. Las formulas para proporciones y totales de clase se obtienen sustituyendo X,=P, X=P, P . Esto es valido tanto en general como en probabilidades proporcionales a los tamajios, y tanto con reposicién como sin reposicién. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 99 Muestreo bietapico de conglomerados El muestreo bietdpico de conglomerados es un tipo de muestreo en el que en una primera etapa se selecciona una muestra de n conglomerados de tamafios M, i= 1, 2,...1 Y en una segunda etapa se selecciona, independientemente en cada conglomerado de la primera etapa, una submuestra de m, unidades elementales de entre las Mi del conglomerado. En ambas etapas la seleccién puede ser con o sin reposicién, pero en la segunda etapa suele usarse muestreo sin reposicién. En la segunda etapa se puede utilizar cualquier tipo de muestreo de los ya estudiados, pero generalmente sin reposicién y probabilidades iguales. En el muestreo bietépico no es necesario utilizar todas las unidades elementales de los conglomerados seleccionados en primera etapa. Tampoco es necesario un marco de unidades elementales completo; basta con un marco mas vasto para conglomerados, y dentro de cada conglomerado basta con un submarco para el submuestreo en segunda etapa. De esta forma, a medida que se consideran etapas de submuestreo se utilizan submarcos més bastos, y por lo tanto més faciles de conseguir y manejar, que los marcos completos de unidades elementales. Cuando hay un cierto grado de homogeneidad dentro de los conglomerados muestrales es absurdo seleccionar todas sus unidades elementales para la muestra. Bastard con elegir sélo algunas de ellas originandose el submuestreo. En el muestreo bietApico se necesitan menos recursos y el coste es menor, ya que s6lo se visitan algunas de las unidades elementales de los conglomerados elegidos en primera etapa para la muestra. No obstante, en el muestreo bietapico la precisién es menor; los submarcos dentro de cada conglomerado pueden originar complicaciones al aumentar el nimero de etapas de submuestreo y aparecen fuentes de variacién que complican los célculos algebraicos (tantas fuentes como etapas tenga el muestreo). La primera fuente es debida a la seleccién de las unidades primarias y la fuente 2 es debida al submuestreo dentro de cada unidad primaria. EI muestreo bietépico también se denomina muestreo en dos etapas o muestreo con submuestreo (el submuestreo es 1a segunda etapa). Suponiendo conglomerados del mismo tamaho y probabilidades iguales, un estimador insesgado de la media sera, Iégicamente, la media muestral de las medias muestrales derivadas del submuestreo dentro de cada conglomerado: Para el total poblacional, proporcién y total de clase, los estimadores insesgados son los siguientes: (© ITES-Paraninfo100 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS tenmz- yg, Pate, A= wit - Sp n n Suponiendo conglomerados de distinto tamaho y probabilidades iguales, se tiene: Xentys,-“yu3, nM = MR, Suponiendo conglomerados de distinto tamaho y probabilidades desiguales, podemos considerar la unidad muestral primaria i-ésima de muestreo como una poblacién, siendo X, una estimacién de su total al considerar el submuestreo, y representando por ¥, un estimador insesgado de su media, podemos aplicar la expresién del estimador general de Hansen y Hurwitz X,,, al muestreo bietépico, siendo la primera etapa con reposicién (la segunda etapa puede ser con o sin reposicién). Asi, un estimador insesgado del total sera: Un estimador insesgado del total sera: Xay = luego: Los estimadores para medias, proporciones y totales de clase en el muestreo bietdpico con probabilidades desiguales son inmediatos: P= proporcién muestral en el conglomerado i-ésimo. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 101 Muestreo polietépico de conglomerados En el muestreo polietapico se realizan submuestreos consecutivos hasta un niimero de etapas determinado. Por ejemplo, en el muestreo trietépico se selecciona en una primera etapa una muestra de unidades primarias, en una segunda etapa se realiza submuestreo en cada una de las unidades de la muestra de primera etapa y en una tercera etapa se realiza submuestreo en cada una de las unidades de la muestra de segunda etapa. De forma similar se generalizaria para un numero elevado de etapas, dando lugar al muestreo polietapico. Muestreo con reposicién de unidades primarias y sin reposicién en las restantes etapas Considerando la unidad muestral i-ésima como una poblacién y representando por ¥, un estimador insesgado de ¥,, podemos extender el estimador insesgado de Hansen y Hurwitz a cualquier nimero de etapas. Tenemos entonces que un estimador insesgado del total ser: ~ nP, Muestreo sin reposicién en todas las etapas Considerando la unidad muestral -ésima como una poblacién y representando por X, un estimador insesgado de X,, podemos extender el estimador insesgado de Horvitz y Thompson a cualquier mimero de etapas. Tenemos entonces que un estimador insesgado del total sera: Xig = Disefios complejos: Bietdpico con estratificacién en primera etapa En la practica es habitual utilizar diseitos polietapicos con distintos tipos de muestreo en cada etapa. Es muy comin utilizar estratificacién de unidades primarias para seleccionar las unidades primarias de la muestra de primera etapa mediante muestreo estratificado. Después se realiza la seleccién de las unidades de segunda etapa dentro de cada unidad de primera etapa. Para este tipo de muestreo bietapico con estratificacién en primera etapa las formulas de los estimadores, varianzas y estimaciones de varianzas se presentaran a continuacién. Sean los pesos de los estratos y las fracciones de muestreo: (© ITES-Paraninfo102 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS tn Sn De forma similar se realizan otros disefios complejos de encuestas. En cada etapa se aplicarin los cAlculos relativos al tipo de muestreo definido en ella. SELECCION DE NUMEROS ALEATORIOS: METODO DE MONTECARLO La seleccién de nimeros aleatorios es un procedimiento basico para la seleccién de muestras. El método de Montecarlo es un procedimiento general para seleccionar muestras aleatorias simples de cualquier poblacién (finita o infinita, real 0 te6rica) de la que se conoce su distribucién de probabilidad basado en la seleccién de nimeros aleatorios. Variable aleatoria discreta Consideremos la variable aleatoria discreta siguiente y veremos cémo se toma una muestra de ella. x PQ) FQ) 0 041 0,41 1 0,26 0,67 2 0,18 0,85 3 0,10 0,95 4 0,05 1 Observamos los valores de la funcién de distribucién y, basindonos en ellos, construimos la tabla: Intervalos x F(x) 00-40 0 0,41 41-66 1 0,67 67-84 2 0,85 85-94 3 0,95 95-99 4 1 © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 103 Para seleccionar la muestra aleatoria segin la variable X, elegimos un nimero aleatorio entre 0 y 99 y observamos en qué intervalo cae, eligiendo para la muestra el valor x correspondiente a ese intervalo. También se puede tomar el némero aleatorio y convertirlo en decimal NA (por ejemplo, si sale 69 utilizamos NA = 0,69) y tomar para la muestra el valor x mas pequefio que verifica F(x) > NA. La figura 4-6 ilustra el procedimiento. F(x) 1k 0,95 0,85 x 0 1 2 3 4 Figura 4-6 El valor x més pequefio que verifica F(x) > 0,69 es x = 2, luego el primer valor para la muestra es x = 2. Variable aleatoria continua El proceso a seguir seria el siguiente: « Tomar un numero aleatorio NA de tantas cifras como precisién se desee y convertirlo en decimal (por ejemplo, 23457 se convertiria en 0,23457). * Considerar el valor NA convertido como un valor de F(x) y tomar como valor observado en la muestra aquel valor de x tal que NA=F(x) =>2=F (NA). « Repetir el proceso con distintos nimeros aleatorios hasta completar el tamajio de muestra deseado. La figura 4-7 ilustra el procedimiento. (© ITES-Paraninfo104 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS F(x) NA x x=F(NA) Figura 4-7 Dado el namero aleatorio NA, se toma para la muestra el valor x tal que x=F (NA). SELECCION DE CARACTERISTICAS RELEVANTES Es habitual en el trabajo prictico disponer de muchas variables medidas u observadas en una coleccién de individuos y pretender estudiarlas conjuntamente, para lo cual se suele acudir al andlisis multivariante de datos. Entonces se dispone de una diversidad de técnicas y debe seleccionarse la mas adecuada a los datos y al objetivo cientifico. Al observar muchas variables sobre una muestra es presumible que una parte de la informacién recopilada pueda ser redundante o que sea excesiva, en cuyo caso los métodos multivariantes de seleccin de caracteristicas relevantes tratan de eliminarla. Estos métodos combinan muchas variables observadas para obtener pocas variables que las representen con la minima pérdida de informacién. Estos métodos de seleccién de caracteristicas relevantes pueden clasificarse en métodos de filtro y métodos basados en modelos. Los métodos de filtro son métodos multivariantes de la interdepedencia en el sentido de que todas sus variables tienen una importancia equivalente, es decir, si ninguna variable destaca como dependiente principal en el objetivo de la investigacién. En este caso también deber tenerse en cuenta el tipo de variables que se maneja. Si son variables cuantitativas, las técnicas més habituales a aplicar son las de reduccién de la dimensién (Andlisis de Componentes Principales y Andlisis Factorial) y si son variables cualitativas, puede acudirse al Andlisis de Correspondencias. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 105 Estas técnicas se estudiarén en capitulos posteriores como técnicas de reduccién de la dimensién, No obstante, con las técnicas anteriores se seleccionan variables que pueden ser combinaciones lineales de las iniciales y no exactamente un subconjunto de las propias variables iniciales, como ha de ocurrir para que la técnica sea estrictamente de seleccién de caracteristicas relevantes, De ahi que las técnicas citadas anteriormente se clasifiquen también como técnicas de transformacién. Sin embargo si puede considerarse como técnica estricta de seleccién de caracteristicas relevantes el andlisis correlacional, que calcula la matriz de correlaciones entre las variables iniciales sustituyendo las que mas estén relacionadas entre si por una de ellas. También son técnicas de este grupo las tablas de contingencia. En los métodos basados en modelo existe una 0 varias variables dependientes y una © varias independientes. La calidad del modelo ajustado a las variables dadas determina cuéles de ellas se seleccionaran definitivamente para el modelo. Las técnicas mis tipicas de este tipo son las técnicas de seleccién en el modelo lineal, el andlisis de la varianza y los modelos loglineales. Estos modelos se estudiaran a fondo en el tema que trata de las técnicas predictivas en mineria de datos La seleccién de caracteristicas relevantes persigue en primer lugar reducir el tamaifio de los datos, al eliminar caracteristicas 0 atributos que puedan ser irrelevantes 0 redundantes. demas, una buena seleccién de caracteristicas puede mejorar la calidad del modelo, al permitir al método de mineria de datos centrarse en las caracteristicas relevantes. También es importante el hecho de que una buena seleccién de caracteristicas permite expresar el modelo resultante en funcidn de menos variables, sobre todo cuando se dispone de muchas variables y se desean modelos muy comprensibles. A veces, para representar los datos visualmente se busca una reduccién de dimensionalidad a dos 0 tres caracteristicas exclusivamente, lo que permite la graficacién en dos o tres dimensiones respectivamente. También es conveniente la seleccién de caracteristicas relevantes cuando existen muchos datos erréneos o faltantes en un atributo, y es preferible eliminarlo. En general, en minerfa de datos suele disponerse de muchos atributos, lo que puede dar lugar a perderse entre tantas caracteristicas dificultando la interpretacién de los resultados de la técnica de mineria de datos aplicada. Esta es la razén esencial para seleccionar caracteristicas relevantes. Anilisis de correlaciones Ya sabemos que el anélisis correlacional persigue calcular la matriz de correlaciones entre las variables iniciales sustituyendo las que més estan relacionadas entre si por una de ellas. La matriz de correlaciones resume las correlaciones para todos los posibles pares de variables de entre n dadas X;, X3,..., X,. Se define como: (© ITES-Paraninfo106 _MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS donde cada ry es el coeficiente de correlacién entre X, y X; para todo ij. Si dada una serie de variables X1, X2,...Xm Se trata de estudiar el grado de dependencia simulténea entre todas ellas, o bien entre grupos de ellas, puede utilizarse la matriz. de correlaciones. Si en base a la intensidad con que dependan se puede establecer una funcién que explique una variable mediante todas las demés, que se supone son sus causas influyentes, estamos ante un problema de regresion miltiple, que sera estudiado posteriormente. Mediante el coeficiente de correlacién lineal multiple se estudia el grado de asociacién lineal simultanea entre todas las variables, mientras que mediante los coeficientes de correlacién simples rj se mide el grado de asociacién entre las variables X; y X; sin tener en cuenta a las demas variables. Por otra parte, la matriz de correlaciones parciales resume las correlaciones parciales para todos los posibles pares de variables de entre n dadas X;, X2,.... X». Se define como: donde ry es el coeficiente de correlacién parcial entre X, y X, para todo i,j. Mientras que mediante los coeficientes de correlacién simples ry se mide el grado de asociacién entre las variables X; y X; sin tener en cuenta a las demas variables, mediante los coeficientes de correlacién parcial se mide el grado de asociacién entre X; y X; teniendo presente la posible influencia sobre estas dos variables del resto de las variables. © ITES-ParaninfoCAPITULO 4: FASE DE SELECCION EN MINERIA DE DATOS 107 Cuando las variables son cualitativas es muy tipico considerar el coeficiente de correlacién entre los rangos de los valores de las variables. Se entiende por rango de un valor de una variable el lugar que ocupa dicho valor en el conjunto total de valores de la variable, supuesta la ordenacién de menor a mayor. Sean A, y B; las diferentes modalidades de dos variables cualitativas X e ¥. Sean x; e y; los rangos 0 nimeros de orden que le corresponden a A, y B, supuestas ordenadas estas modalidades, con la escala que se determine, y de menor a mayor. Se define el coeficiente de correlacién por rangos de Spearman para las variables cualitativas X e ¥ como el coeficiente de correlacién lineal de las variables cuyos valores son x; € y}. Este valor se utiliza para medir el grado de asociacién de las variables cualitativas X e Y, basdndonos en la concordancia 0 discordancia de las clasificaciones por rangos de sus modalidades. El coeficiente de correlacién por rangos también se utiliza para variables cuantitativas, con la aclaracién de que el grado de asociacién obtenido no es el de los. valores de las variables, sino el de las clasificaciones por rangos de dichos valores. La expresién de este coeficiente viene dada por: 6)? N?-N p= siendo d, = x; - yj. Este coeficiente también se denomina coeficiente de correlacién ordinal, y por ser un coeficiente de correlacién varfa entre -1 y 1. Cuando la concordancia entre los rangos es perfecta entonces d; = x;- y= 0 y p= 1. Cuando la discordancia es perfecta p = ~1. Cuando no hay ni concordancia ni discordancia p = 0. © ITES-ParanintoCAPITULO 5 FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSS CLEMENTINE LA FASE DE SELECCION EN ENTERPRISE MINER Recordamos que SAS Institute considera el proceso de Data Mining las fases de Seleccionar (Selecting), Explorar (Exploring), Modificar (Modifying), Modelizar (Modeling) y Valorar (Assessment) y que este proceso es resumido con las siglas SEMMA que constituyen las iniciales de las 5 fases. Cada una de estas fases lleva asociados diferentes nodos. Inicialmente la fase de seleccién leva a asociados los nodos Fuente de Datos (Input Data Source), Muestreo (Sampling) y Particién de Datos (Data Partition) segtin se observa en la Figura 5-1, pero suelen considerarse también pertenecientes a esta fase los nodos de Seleccién de Variables (Variable Selection) que inicialmente aparece en la fase Explorar y Series Temporales (Time series) que inicialmente aparece en la fase Modificar. Sample Input Data Source: Sampling Data Pattition Figura 5-1 El nodo Fuente de Datos El nodo Fuente de Datos permite leer los datos para el analisis y definir sus atributos. El nodo sélo lee los datos en formato SAS, es por ello que si nuestros datos estén en otro formato, deberemos importarlos a alguna de las librerias activas. Si es necesario, se crea una nueva libreria. Estas tareas se explicaron en el capitulo tres.110 MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS Una vez que disponemos ya de nuestros datos de trabajo en formato SAS (archivo creditos.sas7bdat) en una determinada libreria (libreria Trabajo que representa el subdirectorio c:\libros\miningf), abrimos el proyecto P| (File > Open) y mediante File > New —» Diagram creamos el diagrama D3 (Figura 5-2). A continuacién, el nodo Input Data Source se obtiene mediante el botén Tools del navegador de proyecto de Enterprise Miner como subopcién de la categoria Sample Figura 5-1) 0 arrastrando el propio nodo sobre la zona de trabajo (Figura 5-3) Delete curent project é arr Close pro ak Enterprise Miner Secuser Trabajo Figura 5-3 Haciendo doble clic en el nodo Data Source sobre la zona de trabajo o haciendo clic con el botén derecho del ratén sobre el nodo y eligiendo Open en el ment emergente resultante (Figura 5-4), se abre la pantalla del nodo (Figura 5-5). (© ITES-ParaninfoCAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSS CLEMENTINE 111 Figura 5-4 El nodo Input Data Source consta de las pestaiias que se observan en la Figura 5-5 y que se describiran a continuacién. Eee Data | veriobtes | Intervat Yartabtes | Clase Yortebloe | Notes Sowce bata; [| ——=—S*~S*~*~CS«Se a | Ourpur: Description: [0 pote: [Rat ——¥|netadate sanpte: Rous: E Siz 2,000 Ch Figura 5-5 Pestafia Data En el campo Source Data debemos indicar en qué libreria se encuentran los datos. Una vez que éstos han sido seleccionados el nodo offece informacién acerca del nimero de filas y columnas que contiene el archivo (Figura 5-6). © ITES-Paranin’o112, MINERIA DE DATOS. TECNICAS Y HERRAMIENTAS fe Dota | Variables | Interval Variables | Class Variables Source Data: |TRABAJO.CREDITOS: Select. Output: ENDATA.VIEW_PFY Description: [TRABAJO.CREDITOS SSS [A —¥} Metadata sample: 323, | size 320° Change... 5 | Wane: ENPROJ.SiP_VISE Figura 5-6 Ademés, el nodo realiza una valoracién de las caracteristicas de las variables. Si la muestra es muy grande, y dado que el objetivo perseguido es ‘inicamente definir el tipo de variable, Enterprise Miner tomara una muestra que por defecto se fija en 2000 datos. Si la base de datos contiene menos que esta cantidad entonces se seleccionan todos los datos. Pestatia Variables Se utiliza para establecer los tipos de variables del archivo de datos. El tipo de variable es asignado siguiendo una serie de patrones que posteriormente pueden ser cambiados por el usuario. Por defecto Enterprise Miner asigna el tipo de variable de la siguiente manera (Figura 5-7): * Dos valores: binaria * Entre tres y 10 valores: nominal * Mas de 10 valores: intervalo o variable continua. * EI sistema define todas las variables como input y por tanto las variables target o variables respuesta deben ser asignadas por el usuario. Date Voriebles Ttetersat vor tables Claes Variables Votes i [Reds ole | Ressuresent[ Type | Foraat | Tafareat | Varioble Label cine See capity ‘nowt binary run OESTI2. 12. creDiT_Y Ea Ea input eT TT? Paco ES trim bot | birary ——ESTIO. 12. | ORL oO fasts imgut ordinal’ «um ESTIZ, 12. EDND 00 ingut binary mum ESTIZ. 12. EK Figura 5-7 (© ITES-ParaninfoCAPITULO 5: FASE DE SELECCION EN SAS ENTERPRISE MINER Y SPSS CLEMENTINE 113, Por tanto el objetivo de este nodo es tanto abrir los datos como definir el tipo de variable y su papel en el andlisis de forma conveniente. Ademés el nodo permite una répida exploracién de las variables. Para ello se puede pulsar con el botén derecho encima de la variable (en nuestro caso CAT_PROF) y seleccionar la opcién View Distribution of en la Figura 5-7. Se obtiene la Figura 5-8 —————— Figura 5-8 El perfil del objetivo (Target profile) Por defecto Enterprise Miner define todas las variables como input y por tanto las variables target o variables respuesta deben ser asignadas por el usuario. Para ello se hace clic con el botén secundario del rat6n sobre la variable a cambiar de tipo (en nuestro caso CREDIT_V) y se elije Set Model Rol en el ment emergente resultante (Figura 5-9), A continuacién se elije el nuevo tipo (Target) en la lista de la Figura 5-10. La Figura 5-11 muestra las variables con su tipo definitivo en este caso. Var tables rear verte ] Class Vartables | Notes CLIENTE input interval num OES CAT_PROF re ne PAGO_NES Ing Sart by Fede Rale pon BES EDAD 4 subset by Model ole pum BES ANEX ing m BES Fd Model Role Yew Dstrbution of CRED Medel Role | Neasuresent | Type | For Figura 5-9 © ITES-Paraninto

Minería de Datos, César Pérez

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Minería de Datos, César Pérez

Загружено:

Авторское право:

Доступные форматы

Вам также может понравиться