Академический Документы
Профессиональный Документы
Культура Документы
Control Informtico de Gestin Tema 4: Sistemas Especficos Data Warehouse Data Mining
Universidad Pontificia Comillas
Los productos ETL integrados reducen el tiempo de desarrollo de un 50% a un 400% y gran parte de este avance se debe diseo visual de la herramienta.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Repositorio
Puede entenderse el repositorio de datos como el corazn del data warehouse, en el cual desembocan tanto las herramientas de extraccin, transformacin y carga (ETL) como las herramientas de "business intelligence" que analizan los datos (OLAP, Reporting, Data Mining, etc.). Caractersticas ms significativas de una herramienta de repositorio:
Escalabilidad Facilidad de uso Soporte de datos no estructurado Capacidad analtica Disponibilidad
Repositorio - Caractersticas
Escalabilidad: capacidad para poder manejar la explosin de usuarios y datos. Factores que aumentan la escalabilidad:
Multisistema: soporte en mltiples sistemas operativos. Paralelismo: capacidad de ejecutar queries en paralelo, incluso en diferentes procesadores. Ms procesadores significan DW ms rpidos. Los procesadores tpicamente estn conectados en grupos de 4 formando un nodo.
Bases de datos SMP (Symmetric Multiple Processing): bases de datos de un slo nodo. No requieren el reparto de datos entre mltiples nodos, por lo que resultan ms fciles de administrar, el problema es que pueden producirse cuellos de botella Bases de datos MPP (Massively Parallel Processing) se forman uniendo dos o ms nodos SMP consiguindose una respuesta an ms rpida. Son ms escalables que las SMP aunque resultan ms complejas de administrar debido al problema de distribucin de los datos.
Capacidad de optimizacin: el optimizador determina la manera de obtener informacin ms eficientemente dentro y fuera del data warehouse mediante la decisin de a qu ndices y tablas se debe acceder. Los optimizadores automticos son preferibles a aquellos que requieren la participacin de DBAs ya que eliminan el error humano. No obstante, normalmente se requiere asistencia para mejorar el rendimiento de las queries.
Control Informtico de Gestin - Tema 3 - Pgina 8
Repositorio - Caractersticas
Escalabilidad (cont.):
Tablas resumen: disminuyen el tiempo de respuesta precalculando respuestas y preguntas y de este modo aumentan el rendimiento. Producen duplicidad de datos aumentando el tamao de la base de datos y presentan problemas de actualizacin, insercin y borrado, ya que ha de actualizarse tanto la tabla fuente como la tabla resumen. La particin posibilita el procesado mediante multiservidores mediante la distribucin de datos en mltiples nodos. La particin es el proceso mediante el cual los datos son asignados en discos de la base de datos, el objetivo es crear una asignacin de los datos para prevenir puntos calientes o cuellos de botella. La priorizacin proporciona un tiempo de respuesta predecible dando preferencia a ciertos usuarios. Cuando muchos usuarios acceden a la vez, prioriza la respuesta a aquellas queries ms importantes frente a otras que lo son menos. Capacidad de los DBAs (Database Administrators) de manejar datos almacenados fuera del data warehouse desde dentro del data warehouse ("Federation").
Repositorio - Caractersticas
La facilidad de uso tiene dos criterios: la facilidad de realizar tareas administrativas y la eliminacin de la realizacin de algunas tareas va "self-tuning" de la base de datos.
Las bases de datos "self-tuning" contribuyen a la facilidad de uso mediante la transferencia de tareas desde el DBA hacia el gestor de BBDD. Deben de tener una GUI (Graphical User Interface) central de administracin que permita la administracin "point-and-click". Las aplicaciones de ayuda al usuario proporcionan al DBA una manera estructurada de completar tareas complejas. Asistentes para la construccin del data warehouse. Estos paquetes suelen comprender modelos de datos preconstruidos y herramientas ETL. Los modelos preconstruidos reducen el tiempo y costes de construccin del data warehouse proporcionando una estructura inicial para modelos de datos, reports y herramientas.
Repositorio - Caractersticas
Soporte de bases de datos para datos no estructurados (XML, sonido, vdeo, etc.):
Almacenamiento, composicin XML (conversin de un dato desde la base relacional a un documento XML) y descomposicin XML. Soporte para Java: permite programar con Java en la base de datos. La integracin de una JVM (Java Virtual Machine) en la base de datos puede aumentar el rendimiento. Esta JVM compila JavaScript para que la base de datos pueda entenderlo.
Capacidad analtica: El xito de un repositorio de datos radica en su capacidad de almacenar los datos y permitir a los usuarios que los analicen.
Los procesos de anlisis OLAP (Online Analitic Processing's) posibilitan la realizacin de rpidos anlisis "what-if". Los procesos de "data mining" son esenciales para descubrir relaciones y comportamientos ocultos entre grandes cantidades de datos. El "lenguaje natural" hace la base de datos ms accesible al usuario.
Disponibilidad es un factor esencial del software y hardware, no obstante, el software de la base de datos juega un importante papel.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Repositorio - Herramientas
Algunas herramientas del mercado son:
IBM DB2 Universal Database v.7.2 Oracle 9i Microsoft SQL Server 2000 NCR teradata v2r3 Sybase Adaptive Server IQ 12
La funcionalidad de cualquier herramienta OLAP se ver adems mejorada por otras tres funciones:
Acceso de los usuarios finales. Desarrollo de la aplicacin. Distribucin y reparto de los resultados del anlisis.
OLAP - Caractersticas
Funcionalidad del usuario final: Los usuarios finales, y principalmente aquellos que no utilicen el sistema habitualmente, necesitan poder encontrar y usar fcilmente los modelos de negocio multidimensionales creados previamente
Bsqueda y comprensin del modelo. Utilizacin del modelo. Grabacin y comparticin de resultados.
Creacin del modelo de negocio: Los diseadores del modelo multidimensional de negocio necesitan herramientas que ofrezcan suficiente flexibilidad para construir el modelo de acuerdo a las necesidades.
Diseo bsico. Construccin de las dimensiones. Definicin de mtricas. Capacidad para mltiples diseadores.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
OLAP - Caractersticas
Potencia analtica avanzada: Los usuarios avanzados necesitan una seleccin de funciones estadsticas, financieras y de prediccin ready-to-use, a la vez que posibilidad para crear nuevas.
Integracin con otras herramientas. Definicin de modelos especiales. Definicin de funciones analticas Funcin write-back para anlisis what-if. Incorporacin de datos no numricos. Data Mining.
Soporte Web: Para explotar completamente la funcionalidad Web, las herramientas deben tener soporte para publicacin, exploracin y creacin de modelos va un Web browser.
Funcionalidad para el usuario final va Web. Creacin de modelos va web. Distribucin va Internet y la Web.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Control Informtico de Gestin - Tema 3 - Pgina 15
OLAP - Caractersticas
Gestin: Las herramientas deben ofrecer soporte para la gestin de los modelos, informacin y usuarios de una forma sencilla y que reduzca la carga de trabajo del administrador.
Gestin de modelos. Gestin de los datos. Gestin de usuarios. Gestin de metadatos
Adaptabilidad: Las herramientas deben dar soporte para la sincronizacin de las fuentes de informacin, los modelos multidimensionales de negocio (y los informes derivados de ellos) y los metadatos.
Cambio en requerimientos de negocio. Cambio en las fuentes de informacin. Metadatos.
OLAP - Caractersticas
Rendimiento: El administrador necesita soporte de la herramienta para gestionar el rendimiento de sta mediante el tuning de los procesos de extraccin y manipulacin de la informacin.
ROLAP. MOLAP. Soporte para mltiples usuarios. Procesos.
Customisation: Se considera el soporte de la herramienta para el desarrollo de aplicaciones que incluya informacin multidimensional en forma de tablas y grficos que el usuario pueda explorar interactivamente.
Opciones de utilizacin de interfaces restringidas. Facilidad de creacin de informes tipo EIS. Aplicaciones.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
OLAP - Herramientas
Algunas herramientas del mercado son:
Aplix-Aplix TM1 Brio Technology-Brio.Enterprise Business Objects-BusinessObjects 2000 Cognos-PowerPlay Enterprise Server Gentia-Gentia Millennium Applications Platform Hummingbird-BI/Suite Hyperion-Hyperion Essbase Server Information advantage-DecisionSuite Microsoft-SQL Server Microstrategy-DSS Product Suite Oracle-Oracle Express Server Pilot/Accrue-Pilot Decision Support Suite Seagate/Crystal Decisions-Seagate Holos Sterling-Eureka:Suite WhiteLight Systems- WhiteLight Analytic Application Server
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Control Informtico de Gestin - Tema 3 - Pgina 18
Data Mining
Data Mining es el proceso de seleccin, procesamiento y modelizacin de grandes cantidades de datos orientado a ayudar a las organizaciones a descubrir comportamientos y relaciones ocultas entre los datos del negocio. El objetivo final de este anlisis es entender como se comporta el negocio y poder realizar predicciones. Para realizar el anlisis de los datos, Data Mining utiliza mtodos estadsticos. Data Mining es un proceso no un producto. Tipos de anlisis:
Anlisis Descriptivo: Analiza comportamientos y relaciones en los datos histricos para ayudar a la toma de decisiones. Anlisis Predictivo: Utiliza los datos histricos para realizar proyecciones y predecir comportamientos futuros.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Sample Sample
Explore Explore
Modify Modify
Model Model
Assessment Assessment
Sample Sample
Explore Explore
Modify Modify
Model Model
Assessment Assessment
En aplicaciones con grandes cantidades de datos, es preferible utilizar una muestra de datos en lugar de la base de datos entera, ya que esto reduce notablemente el tiempo de procesamiento. Es vital tomar una MUESTRA REPRESENTATIVA del comportamiento total de los datos. Los datos seleccionados son almacenados en una base de datos propia del Data Mining, cuya estructura es la adecuada para los procesos de anlisis de datos. Existen tres mtodos de seleccin de muestras:
Muestreo Aleatorio Simple: Se toman muestras de forma totalmente aleatoria. Muestreo Sistemtico: Se elige un criterio para tomar muestras( tomar una de cada 1000). Muestreo Estratificado: Primero se realiza una segmentacin y luego se aplica uno de los dos mtodos anteriores.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Control Informtico de Gestin - Tema 3 - Pgina 21
Sample Sample
Explore Explore
Modify Modify
Model Model
Assessment Assessment
Utilizando herramientas de visualizacin se exploran los datos, en busca de tendencias y anomalas con el objetivo de realizar un primer filtrado de datos. Las tcnicas de visualizacin que se utilizan habitualmente son:
Grficos 2D y 3D. Permite una exploracin rpida de grandes cantidades de datos. Clusters y Nubes de puntos. Se suelen emplear para realizar segmentaciones de los datos.
WEEKEND MORNING, EXTERNAL PRODUCTION, SITCOMS
Number of emissions
SHARE
Sample Sample
Explore Explore
Modify Modify
Model Model
Assessment Assessment
Filtrado. Normalmente se pretende eliminar valores extremos para conseguir modelos ms estables. Clusterizacin. Se sustituye un grupo de datos por un dato representativo de todos ellos.
Seleccin de variables. Con el objetivo de incluir en el modelo en aquellas con una mayor capacidad predictiva y eliminar el resto. Transformacin de variables. Se realiza para que los datos se ajusten mejor al modelo (Estabilizar varianzas, eliminar no linealidades,...).
Sample Sample
Explore Explore
Modify Modify
Model Model
Assessment Assessment
En esta fase se define el modelo utilizado, que basndose en el anlisis de los datos y variables previamente definidos, permita realizar predicciones fiables. Para la creacin del modelo se utilizan las siguientes tcnicas de anlisis:
Redes Neuronales
Se basan en algoritmos informticos que intentan simular el funcionamineto del cerebro humano. Establece relaciones entre datos diferentes. Sigue un proceso de aprendizaje con los resultados obtenidos.
Arboles de decisin
Analizan las decisiones tomadas en el pasado, realizando una segmentacin de los datos. Los resultados sirven para tomar decisines en el futuro.
Regresin
Utilizan modelos lineales y cuadraticos que se ajustan al comportamiento pasado y a travs de ellos se puede realizar una previsin.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Control Informtico de Gestin - Tema 3 - Pgina 24
Sample Sample
Explore Explore
Modify Modify
Model Model
Seguimiento del modelo de gestin definido, comparando las previsiones con los datos reales, a travs de sistemas integrados de informes y grficos. Con los resultados obtenidos se realiza un proceso de realimentacin del sistema con el objetivo de mejorar el modelo utilizado y por lo tanto las previsiones. A partir del assesment se proceder a realizar, si fuera necesario, ajustes en cualquiera de las etapas del sistema.
Fase 1
ANLISIS DE LA RENTABILIDAD CLIENTE
Fase 2
MEDICIN DE LA FUGA DE CLIENTES
Fase 3
CONOCIMIENTO DE CAUSAS DE PRDIDA
Fase 4
Fase 5
DISEO DE ACCIONES CONCRETAS
MODELIZACIN
SEGUIMIENTO POSTERIOR
O B J E T I V O S Segmentacin bsica inicial y determinacin de la aportacin por segmento Identificacin de los colectivos de clientes con mayor aportacin a la cuenta de resultados Definicin de los indicadores que midan la fuga Benchmarking interno Benchmarking externo Desarrollo de encuestas sobre una muestra de clientes perdidos Alimentacin por parte de la red Anlisis de comportamiento de los clientes perdidos en periodos anteriores Identificacin de variables crticas Diseo de un sistema de alertas Definicin de las acciones a desarrollar en funcin de las alertas
CALIDAD DE SERVICIO
13%
CONTROLABLES
FIDELIDAD
38%
ACTIVIDAD
22%
Impacto en la mejora de la fidelidad con la entidad respecto a la mejora conjunta de las variables ms influyentes.
ct
0,16
V2 V3 V4 V5 V6 V7 V8 V9 V 10 V 11
V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11
0,16
0,34 0 ,27 0 ,24 0,16 0,2 0,1 9 0 ,1 9 0 ,18 0,1 7 0,1 7 0 ,16
0 0 ,05 0 ,1 0,1 5 0 ,2 0,25 0 ,3 0 ,3 5 0,4
Todas V2 y V3 V1 y V3
0,48 0,57
V1 y V2
0,38
0,62
0 ,2
0,4
0,6
0 ,8
1,2
1 ,4
1,6
0,1
0,2
0,3
0,4
0,5
0,6
0,7
SEGMENTACIN
OPTIMIZACIN
RESTRICCIONES: Share y programacin
VARIABLES COMERCIALES
Caso 2: Cadena de TV
Caso 2: Optimizacin programacin mensual TV
PREVISIN DE CONSUMO
PROC LP
VARIABLES
PARMETROS COMERCIALES
RESTRICCIONES
Horas Tipo de Produccin Horas Tipo de Programa Share obtenido PARRILLA MENSUAL PTIMA
INGRESOS
COSTES
USO DE RECURSOS
MARGEN PTIMO
Query y Reporting
El proceso de Query y Reporting se basa en proponer una pregunta para ser respondida mediante la recuperacin de datos relevantes del data warehouse, transformacin de los mismos en el contexto apropiado y, por ltimo, su presentacin en el formato adecuado. Este proceso suele llevarse a cabo por analistas, los cuales deben proponer la pregunta y esperar la respuesta. Este proceso es muy diferente a otros mtodos de anlisis de datos expuestos anteriormente, tales como OLAP o data mining. Normalmente las queries involucran al menos dos factores o dimensiones distintos, por ejemplo: cuantas unidades de un producto se han vendido esta semana en un punto de venta concreto?. El flujo del proceso de query y reporting comienza con la definicin de la query, proceso que consiste en tomar la hiptesis o pregunta de negocio y traducirla en el formato de query que pueda ser usado por la herramienta particular. Cuando la query es ejecutada la herramienta genera los comandos de lenguaje apropiados para recuperar los datos solicitados, los cuales son devueltos en lo que suele llamarse answer set.
ESCUELA TCNICA SUPERIOR DE INGENIERA DEPARTAMENTO DE ORGANIZACIN INDUSTRIAL
Control Informtico de Gestin - Tema 3 - Pgina 32
Query y Reporting
El analizador de datos se encarga entonces de realizar los clculos y manipulacin de los datos requeridos para presentar los resultados deseados. Posteriormente se da formato a tales resultados para adecuarlos a las plantillas de presentacin o report que hayan sido seleccionadas para facilitar su comprensin por el usuario. Esta plantilla puede consistir en combinaciones de texto, grficos, vdeo o audio. Finalmente el report se entrega al usuario final en el soporte deseado bien sea mediante impresin en papel, visualizacin en display o presentacin sonora. Los usuarios finales normalmente estn interesados en procesar valores numricos que usarn para analizar el comportamiento del negocio, tales como ventas, rentabilidad, etc. No obstante tambin pueden usar el proceso de query y reporting para realizar otro tipo de clculos o medidas de calidad, tales como ratios de satisfaccin de clientes, retrasos en procesos, etc. Pueden analizar tambin los efectos de una determinada transaccin o evento en el proceso de negocio, realizar anlisis de tendencias e incluso extrapolar sus propias predicciones.
Control Informtico de Gestin - Tema 3 - Pgina 33