Es la sigla en inglés de Procesamiento de Transacciones En Altamente sumarizado. Línea (OnLine Transaction Processing). Es un tipo de Atiende funciones específicas del negocio. procesamiento que facilita y administra aplicaciones Data Histórica. transaccionales, usualmente para entrada de datos y Orientada a un grupo de usuarios. recuperación y procesamiento de transacciones (gestor transaccional). Data Warehouses Versus Data Marts
OLAP Propiedades - Data Warehouse - Data Mart
Alcance – Empresarial - Departamental Es el acrónimo en inglés de procesamiento analítico en Areas – Múltiples - Unicas línea (On-Line Analytical Processing). Es una solución Fuente de Datos – Muchos - Pocos utilizada en el campo de la llamada Inteligencia de negocios Tamaño (típico) - 100 GB to > 1 TB - < 100 GB (o Business Intelligence) cuyo objetivo es agilizar la consulta Implementación - Meses a Años - Meses de grandes cantidades de datos.
¿Cómo funciona hoy?
Almacén de Datos Operacionales (ODS) Son atendidas con un gasto excesivo de energía. Son atendidas, frecuentemente, fuera de plazo. Almacena data táctica desde los sistemas de producción, Impactan en el proceso operacional. orientada a un tema e integrada con fines operacionales. Generan sistemas cada vez más difíciles de ser Mixtura de un Data Warehouse y un sistema mantenidos. operacional Muchos datos, poca información Atiende necesidades operacionales Estructura desnormalizada Alto volumen de datos y necesidades de Levemente sumarizada, datos de detalle respuesta rápida. Contiene algunos datos operacionales Análisis complejo — consultas imposibles de Data actualizada o casi actualizada prever. Procesamiento Operacional vs Analítico Ambiente de negocio en cambio constante.
Propiedades del Data Warehouse Procesamiento operacional (OLTP). - Es el
conjunto de sistemas transaccionales on-line Orientada a un tema (La data es categorizada y que ejecutan las operaciones diarias del negocio. almacenada por áreas de negocio en lugar de Procesamiento analítico (OLAP). - Es el conjunto aplicaciones) de sistemas que ofrecen información usada para Integrada (La data es definida como única) el análisis de un problema o situación. Variante en el Tiempo (La data es almacenada como serie de fotos asociadas al tiempo) OLTP y OLAP No Volátil (La data en el DW típicamente NO Objetivo - Control de los Proc. Oper. - Toma de cambia) Decisiones Características del DW Cliente - Personal Operacional - Gestores del Negocio Las Bases de Datos son creadas específicamente Datos - Atómicos, Actualizados y Dinámicos - para dar soporte a las decisiones. Consolidados, Históricos y Estables La información es extraída desde los sistemas Estructura - Normalizada - Dimensional originales, transformada e integrada. Tiempo Resp. - Segundos - De Seg. a Minutos La estructura del DWH es simplificada y en Orientación - Orientado a Aplicaciones - Orient. términos comunes del negocio, haciéndola más a Información fácil de usar y entender. Acceso - Alto - Moderado a bajo Un DWH contiene información basada en el Actualización - Contínuamente - Periódicamente tiempo. Aplicación - Estructurada y Procesos repetitivos - Los datos son analizados básicamente para No Estructurada y Procesos Analiticos detectar patrones y tendencias. Análisis en el mundo OLAP Data Warehouse Empresarial Recursos disponibles Implementación a escala grande. Drill Down (Cambiar el nivel de detalle de la Alcance de todo el negocio. consulta) Datos desde todos los subject áreas. Drill Up Niveles de datos atómicos. Slicing (Seleccionar las Dimensiones para la Desarrollo incremental. Usuarios de toda la organización. Consulta) Punto de distribución de los data marts Dicing (Limitar el Conjunto de Valores de cada dependientes. Dimensión) Pivoting (Cambiar las Dimensiones entre las Data Mart Líneas y las Columnas) Data Surfing Data Mining es la actividad de extraer información oculta desde Bases de Datos Modelo de Datos Multidimensional.- La data se encuentra grandes, automáticamente, esto es sin la en la intersección de las dimensiones. intervención humana en la iniciativa del proceso de descubrimiento de conocimiento. Multi-Dimensional vs. Relational Databases Data Mining es el proceso de descubrimiento del Multi-Dimensional conocimiento en la Base de Datos. El input es limpiado, es transformado en dato, busca la data Acceso más rápido usando algoritmos y saca patrones y relaciones Multiplicidad de vistas de los datos para la interpretación / evaluación del proceso Slice and dice KDD. Problemas de Performance con base de datos grandes Categorías de Data Mining Usada especialmente para Data Marts Clasificación: Técnicas: statistics, memory-based Relacional reasoning, genetic algorithms, link analysis, decission trees,neuronal network. Es conocida y entendida Estimación y Predicción: Técnicas: standar Fuerte procesos de back up y de restore statistics y neuronal network para variables Mejor performance en base de datos grandes numéricas. Grupos Afines: Técnicas: Link analysis, special Servidor MOLAP purpose market basket analysis. La capa de presentación almacena los datos en Minería de Datos (Tipos de aplicaciones de Minería de estructuras multidimensionales Datos) La capa de presentación provee las vistas Multidimensionales Análisis de tráficos de datos. Data fuera del servidor. Medicina. Almacenamiento y procesamiento eficiente. Detección de Fraude. Oculta la complejidad al usuario. Pronósticos. Análisis usando medidas preagregadas y Control de calidad. precalculadas. Análisis de procesos. Clasificación de individuos.
OLAP vs. Minería de Datos
Servidor ROLAP Foco - Data Sumarizada - Transaccional o de Almacenamiento de datos atómicos. detalle La capa de aplicación genera los SQL para la vista Dimensiones - Limitada - Muchas de terceros. Número de Atributos - Decenas - Cientos por La capa de presentación provee la vista cada dimension multidimensional. Tamaño del set de datos - Pequeña a mediana Data y Metadata en el servidor por cada dimension - Millones por cada Vista Multidimensional de la Data dimension No limitado Foco de Análisis - ¿Qué está sucediendo en el Complejos SQL generados por herramientas negocio? - ¿Por qué está sucediendo? Acciones de Predicción. MOLAP, ROLAP, y HOLAP (Warehouse – Servidor Técnicas de análisis - Slice y Dice - Multidimensional – Usuario Final) Descubrimiento automatico Minería de Datos Proceso de análisis - Análisis de negocio iniciado y controlado Es una base de datos compleja que contiene Factor de confidencia - Derivada para el análisis información muy valiosa. Es alimentada a través del negocio - Derivada desde la data de un proceso de Knowledge Discovery. Estado de la tecnología - Madura - Madura en Es el más común ejemplo de una aplicación Análisis Estadístico, emergente en Knowledge rentable de un Data Warehouse. Discovery Origenes: 1960: Análisis Estadístico: SAS, SPSS, IBM 1980: Nuevas técnicas: Fuzzy Logic, heuristic reasoning, neuronal network. Dieron origen al Artificial Intelligence. 1990: Mejores prácticas de Analisis Estadistico, neuronal network, decision trees, market basket analysis ¿Cuál fue el tiempo de ¿Cuál es el perfil de Definiciones de Data Mining respuesta a nuestro email? personas que posiblemente respondan nuestro email? ¿Cuántas unidades de ¿Cuáles clientes existentes nuestro nuevo producto les gustaría comprar hemos vendido a nuestros nuestro siguiente nuevo clientes existentes? producto? ¿Quiénes fueron mis 10 ¿Cuáles son los 10 clientes mejores clientes el año que me ofrecen la mayor pasado? rentabilidad potencial? ¿Cuáles clientes no ¿Cuáles clientes se pueden renovaron su poliza el mes cambiar a la competencia pasado? en los siguientes 6 meses? ¿Qué clientes no pagaron ¿Es este cliente un buen sus préstamos? sujeto de crédito? ¿Cuáles son las ¿Cuáles fueron las ventas expectativas de ventas por región el último para la región el siguiente trimestre? año? ¿Qué porcentaje de las ¿Qué puedo hacer para partes producidas ayer mejorar el tiraje y reducir están defectuosas? fallas?