Академический Документы
Профессиональный Документы
Культура Документы
2008/09
Tabla de contenido
Qu es Business Intelligence? Campos de aplicacin Evolucin de los sistemas de gestin de datos hacia los sistemas de soporte a la decisin Data warehouse: justificacin, definicin, componentes Herramientas de anlisis y consultas
2008/09
Business Intelligence
2008/09
Qu es Business Intelligence?
Convertir datos en informacin
Es lograr que los gerentes y directivos de las organizaciones, y por extensin todos los usuarios de la informacin, tomen las mejores decisiones cada da accediendo de forma directa a la informacin clave de su negocio de manera gil y sencilla. BI suministra el marco para:
Definir y medir los indicadores relevantes del negocio, y entender su comportamiento Procesar, resumir, reportar y distribuir la informacin relevante a tiempo Gestionar y compartir el conocimiento del negocio con la organizacin Analizar y optimizar los procesos que actan sobre los indicadores
Gartner Group (2001) denomin Business Intelligence Fact Gap a la diferencia que existe entre la informacin disponible en la empresa y la capacidad de tomar decisiones basndose en dicha informacin.
Tiempo
"In the absence of BI, a 'fact gap' exists: a condition where users make decisions and assess risk and opportunities based upon anecdotal, incomplete or outdated information. This isn't much better than guessing, leaving most businesses seriously exposed. (Gartner Group 07/01 ) A recent research study by the BusinessWeek Market Advisory Board (07/2004) surveyed 675 executives throughout North America and Europe and found that 43% indicated they did not trust their internal systems, and an amazing 77% indicated that they were aware of bad decisions that had been made within their organizations because of a lack of accurate information.
Marta Zorrilla - Universidad de Cantabria 2008/09 5
Campos de aplicacin
Science
astronomy, bioinformatics, drug discovery,
Business
CRM (Customer Relationship management), fraud detection, ecommerce, manufacturing, sports/entertainment, telecom, targeted marketing, health care,
Web:
search engines, advertising, web and text mining,
Government
surveillance, crime detection, profiling tax cheaters,
2008/09
Cognos, Business Objects, Microstrategy, NCR, SPSS, Comshare, etc. SPSS/Clementi ne, Lockheed, IBM, SGI, SAS, NCR, Oracle, etc.
Datos dinmicos en mltiples niveles o jerarquas (histrico) Datos de prospeccin (anlisis de mercado, de riesgos, )
7
Estos no estn orientadas a la toma de decisiones (KPI), sino a registrar transacciones (BD 3FN). La estructura de BD 3FN no es la adecuada para responder de forma gil a consultas complejas, con clculo de agregados y para ser analizadas bajo diferentes perspectivas.
Sistema de informacin especfico dirigido por las necesidades de Sistema de informacin especfico dirigido por las necesidades de los usuarios de negocio, alimentado desde las fuentes de datos los usuarios de negocio, alimentado desde las fuentes de datos operacionales de la organizacin yyconstruido yypresentado desde operacionales de la organizacin construido presentado desde una perspectiva sencilla una perspectiva sencilla
2008/09
OLTP
Almacena datos actuales Almacena datos de detalle
vs
OLAP
Almacena datos histricos Almacena datos de detalle y datos agregados a distintos niveles Datos estticos Desnormalizacin, redundancia Dedicado al anlisis de datos (consultas complejas) N de transacciones bajo Orientado a la informacin relevante (negocio) Soporta decisiones estratgicas Sirve a tcnicos de direccin Tamao BD : 100 Gb-Tb
Datos dinmicos Integridad de datos Dedicado al procesamiento de datos (transaccin simple) N de transacciones elevado Orientado a los procesos de la organizacin (aplicacin) Soporta decisiones diarias Sirve a muchos usuarios Tamao BD : 100 Mb-Gb
2008/09
Cul es el proceso?
Fuentes de datos internas
Compras 2 Estos datos se procesan (agrupacin, clculos, etc.) y cargan en el data warehouse 3
Los datos se almacenan de forma que permita verlos fcilmente bajo diferentes perspectivas, as como cruzarlos entre ellos
ANALISTAS DE NEGOCIO (ayuda a la toma de decisiones) Medir Cmo es mi negocio? INFORMES Investigar Por qu es as? ANLISIS Simular Qu ocurre si hacemos esto? MODELIZACIN
Contabilidad
. . .
RR/HH DATA WAREHOUSE Web log,..
Como resultado del trabajo diario los empleados registran la actividad de lo que est pasando
2008/09
10
Data Mining Por qu est pasando? Identifican patrones (tendencias, regularidades, correlaciones) existentes en las BD
Modelo descriptivos (indirecto) a) Asociacin b) Segmentacin Modelos predictivos (directo) c) Clasificacin d) Estimacin
Simulacin / Optimizacin Qu pasara si....? Cul es la mejor opcin para ... ? Escenarios futuros y bsqueda de la mejor solucin. Diseo de la estrategia ptima
Simulacin: dinmica de Sistemas (Jay Forrester M.I.T.) Optimizacin: Investigacin operativa
El usuario introduce una teora sobre una posible relacin en la base de datos, convirtindola en una consulta (query) Razonamiento deductivo Informes con alarmas en funcin de la evolucin de determinadas medidas
El usuario no necesita asumir nada, el modelo se encarga de identificar patrones. Los datos conducen
El usuario introduce hiptesis sobre valores futuros y el modelo detecta las mejores soluciones
Razonamiento inductivo Identificar qu factores (actividad, sector, regin, poca, etc.) influyen en la evolucin de esas medidas
Anlisis de escenarios + hiptesis Determinar cmo evolucionara una determinada medida (por ejemplo ventas) si se realizara una determinada accin (p. ejemplo una campaa publicitaria del tipo 2 por 1)
Ejemplo
2008/09
11
Informe OLAP
Los informes permiten mostrar la informacin con diferentes niveles de agrupacin.
Ventas por Sector
Vistas de la misma informacin segn caractersticas de la informacin (dimensiones) Navegacin multi-dimensional para investigar en los datos
VENTAS POR REGIN Regin Centro Norte Sur Total Total 33 10 17 60
Total 1 34 10 5 10 60
VENTAS POR REGIN Y SECTOR Agricul- Comer- ConsTransRegin tura cio truccin Resto porte Total Centro 1 14 3 5 10 33 Norte 6 4 10 Sur 14 3 17 Total 1 34 10 5 10 60
VENTAS POR REGIN, SECTOR Y TAMAO AgriculConsTransAgricul- tura ComerComer- Construccin Transporte tura Total cio cio Total truccin Total porte Total Regin Mediana Grande Mediana Pequea Grande Mediana Pequea Grande Mediana Pequea Centro 1 1 4 4 6 14 1 1 1 3 4 4 2 10 Norte 2 2 2 6 2 1 1 4 Sur 4 4 6 14 1 1 1 3 Grand Total 1 1 10 10 14 34 4 3 3 10 4 4 2 10
2008/09
12
2008/09
13
Seg.1
Seg.2
Seg.3 BACHILLER N: 73.33% n=66 S: 26.67% n= 24 Seg.4 UNIVERSITARIOS N: 37.50% n=24 S: 62.50% n= 40 Seg. 5 < 40 N: 73.40% n=936 S: 26.60% n= 340 Seg. 6 > 40 N: 81.25% n=208 S: 18.75% n= 48 Seg.7
2008/09
14
Qu es un Data Warehouse?
Ralph Kimball:
Copia de los datos transaccionales estructurados especficamente para su consulta y anlisis. (2002) Def. extendida: es la plataforma para el business intelligence (DW/BI). (2006)
Bill Inmom:
Un Data Warehouse es una coleccin de datos orientada al negocio, integrada, variante en el tiempo y no voltil para el soporte del proceso de toma de decisiones de la gerencia.
Marta Zorrilla - Universidad de Cantabria 2008/09 15
Qu es un Data Warehouse?
Es un sistema de informacin que:
(y 2)
Contiene la informacin estratgica para la toma de decisiones Se utiliza para analizar datos, detectar tendencias y disear estrategias Recoge datos que provienen de diferentes sistemas operacionales (integracin), consolidados a una determinada fecha (variante en el tiempo) y centrados en una determinada materia de negocio (ventas, consumos, uso del sitio Web...). Su estructura se disea para dar respuesta gil a las consultas y facilitar la distribucin de sus datos, no para soportar procesos de gestin. No se actualizan sus datos, slo son incrementados (no voltil).
2008/09
16
Componentes DW/BI
Data Sources Operational source systems
Sales
Data Area
Relational Database Engine (OLTP) Star schemas ETL processes Staging Area ROLAP
Aggregated values
Ad-hoc solution
ERP
. . .
SCM
ETL processes
Web log,..
ROLAP
MAP
HOLAP
MAP AGGREGATED VALUES
MOLAP
MAP DETAILED VALUES AGGREGATED VALUES
2008/09
17
2008/09
18
2008/09
20
DW y OLAP
La tecnologa OLAP generalmente se asocia a los almacenes de datos, aunque se puede tener DW sin OLAP y viceversa
2008/09
21
Piatetsky-Shapiro
Marta Zorrilla - Universidad de Cantabria 2008/09 22
Knowledge discovery: the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (from Fayyad, U.M., PiatetskyShapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press.)
the process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and results. (Berry
&Linoff, 1997, 2000)
Data mining sometimes refers to the whole process of knowledge discovery and sometimes to the specific machine learning phase.
Marta Zorrilla - Universidad de Cantabria 2008/09 23
2008/09
24
Data mining
COMERCIAL
Data mining es un proceso que trata de buscar relaciones y patrones existentes en grandes bases de datos Tareas principales:
Clasificacin: predecir a qu clase pertenece un tem Clustering: encontrar clusters en los datos Asociaciones: datos o eventos que ocurren frecuentemente Estimacin: predecir un valor continuo Link Analysis: encontrar relaciones Visualizacin
Marta Zorrilla - Universidad de Cantabria 2008/09
CIENTIFICO
25
Disciplinas relacionadas
Machine Learning
Visualization
Statistics
Databases
2008/09
26
Statistics:
more theory-based more focused on testing hypotheses
Machine learning
more heuristic focused on improving performance of a learning agent also looks at real-time learning and robotics areas not part of data mining
2008/09
27
Las tcnicas que se vern existan hace aos pero la convergencia de los siguientes factores:
Cantidad de datos producida Los datos estn integrados (data warehouse) La potencia de los ordenadores Fuerte presin de la competencia Software de data mining especfico e integracin de algoritmos de DM en gestores de BD
2008/09
28