Вы находитесь на странице: 1из 28

Introduccin al Business Intelligence

Marta Zorrilla Universidad de Cantabria

2008/09

Tabla de contenido

Qu es Business Intelligence? Campos de aplicacin Evolucin de los sistemas de gestin de datos hacia los sistemas de soporte a la decisin Data warehouse: justificacin, definicin, componentes Herramientas de anlisis y consultas

Marta Zorrilla - Universidad de Cantabria

2008/09

Situacin actual en las organizaciones

Entorno competitivo y globalizado


Optimizar procesos Reducir costes, rentabilidad financiera Anticiparse a la competencia, anlisis del mercado Innovar, bsqueda de nuevos productos o estrategias Ganar y fidelizar al cliente : Personalizar simular que cada cliente es nico

Las empresas maneja cantidades ingentes de informacin:


Fuentes internas (Sistemas corporativos propios, aplicaciones departamentales, etc. ) Fuentes externas (INE, INEM, colegios profesionales, encuestas, hasta un 20%) Problemas
Saturacin de informacin Difcil de acceder No selectiva

Business Intelligence

Marta Zorrilla - Universidad de Cantabria

2008/09

Qu es Business Intelligence?
Convertir datos en informacin
Es lograr que los gerentes y directivos de las organizaciones, y por extensin todos los usuarios de la informacin, tomen las mejores decisiones cada da accediendo de forma directa a la informacin clave de su negocio de manera gil y sencilla. BI suministra el marco para:
Definir y medir los indicadores relevantes del negocio, y entender su comportamiento Procesar, resumir, reportar y distribuir la informacin relevante a tiempo Gestionar y compartir el conocimiento del negocio con la organizacin Analizar y optimizar los procesos que actan sobre los indicadores

Incluye aplicaciones software, tecnologa y metodologas para realizar el anlisis de datos:


Bases de datos Aplicaciones analticas (OLAP) Reporting y querying Data mining, web mining, text mining, data streaming Tcnicas de visualizacin de datos Herramientas ETL

Decision Support System (DSS): sinnimo de BI


Marta Zorrilla - Universidad de Cantabria 2008/09 4

Business Intelligence Fact Gap


Business Intelligence Fact Gap V o l u m e n
Nmero de Decisiones Crticas

Gartner Group (2001) denomin Business Intelligence Fact Gap a la diferencia que existe entre la informacin disponible en la empresa y la capacidad de tomar decisiones basndose en dicha informacin.

Capacidad Business Intelligence

Tiempo

"In the absence of BI, a 'fact gap' exists: a condition where users make decisions and assess risk and opportunities based upon anecdotal, incomplete or outdated information. This isn't much better than guessing, leaving most businesses seriously exposed. (Gartner Group 07/01 ) A recent research study by the BusinessWeek Market Advisory Board (07/2004) surveyed 675 executives throughout North America and Europe and found that 43% indicated they did not trust their internal systems, and an amazing 77% indicated that they were aware of bad decisions that had been made within their organizations because of a lack of accurate information.
Marta Zorrilla - Universidad de Cantabria 2008/09 5

Campos de aplicacin

Science
astronomy, bioinformatics, drug discovery,

Business
CRM (Customer Relationship management), fraud detection, ecommerce, manufacturing, sports/entertainment, telecom, targeted marketing, health care,

Web:
search engines, advertising, web and text mining,

Government
surveillance, crime detection, profiling tax cheaters,

Marta Zorrilla - Universidad de Cantabria

2008/09

Evolucin de las tecnologas de bases de datos


Hito histrico Data Collection (1960s) Pregunta de Negocio Cules fueron mis ingresos en los ltimos 5 aos? Cuntas unidades vend el mes pasado en Espaa? Cuntas unidades vend el mes pasado en Espaa en relacin con Europa? Cules sern las ventas del prximo mes en Europa? Tecnologa que lo posibilita Ordenadores, cintas, discos, DBMS jerrquicos (IMS) y en red Bases de datos relacionales (RDBMS, SQL, ODBC) On-line analytic processing (OLAP), gestores multidimensionales Suministrador IBM, CDC Caracterstica principal Datos histricos

Data Access (1980s)

Oracle, Sybase, Informix, IBM, Microsoft

Datos dinmicos a nivel de registro (histrico)

Data Warehousing & Decision Support (1990s)

Cognos, Business Objects, Microstrategy, NCR, SPSS, Comshare, etc. SPSS/Clementi ne, Lockheed, IBM, SGI, SAS, NCR, Oracle, etc.

Datos dinmicos en mltiples niveles o jerarquas (histrico) Datos de prospeccin (anlisis de mercado, de riesgos, )
7

Data Mining (2000s)

algoritmos avanzados (data stream, weblog, bio-data), RDBMS


2008/09

Marta Zorrilla - Universidad de Cantabria

Por qu un Data Warehouse?


Los datos se encuentran en diferentes sistemas de informacin (uds de
medida, convencin de nombres y formatos, etc.)

Estos no estn orientadas a la toma de decisiones (KPI), sino a registrar transacciones (BD 3FN). La estructura de BD 3FN no es la adecuada para responder de forma gil a consultas complejas, con clculo de agregados y para ser analizadas bajo diferentes perspectivas.

Sistema de informacin especfico dirigido por las necesidades de Sistema de informacin especfico dirigido por las necesidades de los usuarios de negocio, alimentado desde las fuentes de datos los usuarios de negocio, alimentado desde las fuentes de datos operacionales de la organizacin yyconstruido yypresentado desde operacionales de la organizacin construido presentado desde una perspectiva sencilla una perspectiva sencilla

Marta Zorrilla - Universidad de Cantabria

2008/09

OLTP
Almacena datos actuales Almacena datos de detalle

vs

OLAP
Almacena datos histricos Almacena datos de detalle y datos agregados a distintos niveles Datos estticos Desnormalizacin, redundancia Dedicado al anlisis de datos (consultas complejas) N de transacciones bajo Orientado a la informacin relevante (negocio) Soporta decisiones estratgicas Sirve a tcnicos de direccin Tamao BD : 100 Gb-Tb

Datos dinmicos Integridad de datos Dedicado al procesamiento de datos (transaccin simple) N de transacciones elevado Orientado a los procesos de la organizacin (aplicacin) Soporta decisiones diarias Sirve a muchos usuarios Tamao BD : 100 Mb-Gb

Marta Zorrilla - Universidad de Cantabria

2008/09

Cul es el proceso?
Fuentes de datos internas
Compras 2 Estos datos se procesan (agrupacin, clculos, etc.) y cargan en el data warehouse 3

Los datos se almacenan de forma que permita verlos fcilmente bajo diferentes perspectivas, as como cruzarlos entre ellos
ANALISTAS DE NEGOCIO (ayuda a la toma de decisiones) Medir Cmo es mi negocio? INFORMES Investigar Por qu es as? ANLISIS Simular Qu ocurre si hacemos esto? MODELIZACIN

Contabilidad

. . .
RR/HH DATA WAREHOUSE Web log,..

Actuar Qu debemos hacer? PLAN

Fuentes de datos externas


INE, INEM,

Como resultado del trabajo diario los empleados registran la actividad de lo que est pasando
2008/09

Los datos se explotan mediante aplicaciones especficas de anlisis de informacin

Marta Zorrilla - Universidad de Cantabria

10

Anlisis del negocio


Informes A qu responden? Qu est pasando? Generan informes y alarmas por perfiles de usuario. Qu hacen?
Informes estticos predefinidos Informes dinmicos configurables por el usuario: simples/complejos Visualizacin de resultados (Grficos, herramientas GIS)

Data Mining Por qu est pasando? Identifican patrones (tendencias, regularidades, correlaciones) existentes en las BD
Modelo descriptivos (indirecto) a) Asociacin b) Segmentacin Modelos predictivos (directo) c) Clasificacin d) Estimacin

Simulacin / Optimizacin Qu pasara si....? Cul es la mejor opcin para ... ? Escenarios futuros y bsqueda de la mejor solucin. Diseo de la estrategia ptima
Simulacin: dinmica de Sistemas (Jay Forrester M.I.T.) Optimizacin: Investigacin operativa

Cul es el papel de los usuarios?

El usuario introduce una teora sobre una posible relacin en la base de datos, convirtindola en una consulta (query) Razonamiento deductivo Informes con alarmas en funcin de la evolucin de determinadas medidas

El usuario no necesita asumir nada, el modelo se encarga de identificar patrones. Los datos conducen

El usuario introduce hiptesis sobre valores futuros y el modelo detecta las mejores soluciones

Cmo se obtienen resultados?

Razonamiento inductivo Identificar qu factores (actividad, sector, regin, poca, etc.) influyen en la evolucin de esas medidas

Anlisis de escenarios + hiptesis Determinar cmo evolucionara una determinada medida (por ejemplo ventas) si se realizara una determinada accin (p. ejemplo una campaa publicitaria del tipo 2 por 1)

Ejemplo

Marta Zorrilla - Universidad de Cantabria

2008/09

11

Informe OLAP
Los informes permiten mostrar la informacin con diferentes niveles de agrupacin.
Ventas por Sector

Vistas de la misma informacin segn caractersticas de la informacin (dimensiones) Navegacin multi-dimensional para investigar en los datos
VENTAS POR REGIN Regin Centro Norte Sur Total Total 33 10 17 60

Actividad Agricultura Comercio Construccin Resto Transporte Total

Total 1 34 10 5 10 60

VENTAS POR REGIN Y SECTOR Agricul- Comer- ConsTransRegin tura cio truccin Resto porte Total Centro 1 14 3 5 10 33 Norte 6 4 10 Sur 14 3 17 Total 1 34 10 5 10 60

VENTAS POR REGIN, SECTOR Y TAMAO AgriculConsTransAgricul- tura ComerComer- Construccin Transporte tura Total cio cio Total truccin Total porte Total Regin Mediana Grande Mediana Pequea Grande Mediana Pequea Grande Mediana Pequea Centro 1 1 4 4 6 14 1 1 1 3 4 4 2 10 Norte 2 2 2 6 2 1 1 4 Sur 4 4 6 14 1 1 1 3 Grand Total 1 1 10 10 14 34 4 3 3 10 4 4 2 10

Marta Zorrilla - Universidad de Cantabria

2008/09

12

Cuadros de mando (dashboard, scorecard,..)

Marta Zorrilla - Universidad de Cantabria

2008/09

13

Data mining: Caso segmentacin


Ejemplo: evaluar qu segmentos de poblacin cambian de establecimiento de compra habitual
Cambio N: 75.70% n=1514 S: 24.30% n= 486
Estudios realizados

Cambio de establecimiento Variable ms discriminante

SIN ESTUDIOS N: 89.10% n=278 S: 10.90% n= 34


Estructura familiar

CON ESTUDIOS N: 73.22% n=1236 S: 26.78% n= 452


Estructura familiar

UNIFAMILIAR N: 93.10% n=54 S: 6.9% n= 4

PAREJA SIN HIJOS N: 75% n= 54 S: 25% n= 18

PAREJA CON HIJOS N: 93.41% n=170 S: 6.59% n= 12

UNIFAMILIAR N: 58.44% n=90 S: 41.56% n= 64


Estudios realizados

PAREJAS N: 74.71% n=1146 S: 25.29% n= 388


Edad

Seg.1

Seg.2

Seg.3 BACHILLER N: 73.33% n=66 S: 26.67% n= 24 Seg.4 UNIVERSITARIOS N: 37.50% n=24 S: 62.50% n= 40 Seg. 5 < 40 N: 73.40% n=936 S: 26.60% n= 340 Seg. 6 > 40 N: 81.25% n=208 S: 18.75% n= 48 Seg.7

25% cambia de los cuales,el 71% corresponden a los seg. 4, 5 y 6


Nodos Finales: Poblacin Segmentada

Marta Zorrilla - Universidad de Cantabria

2008/09

14

Qu es un Data Warehouse?

Ralph Kimball:
Copia de los datos transaccionales estructurados especficamente para su consulta y anlisis. (2002) Def. extendida: es la plataforma para el business intelligence (DW/BI). (2006)

Bill Inmom:
Un Data Warehouse es una coleccin de datos orientada al negocio, integrada, variante en el tiempo y no voltil para el soporte del proceso de toma de decisiones de la gerencia.
Marta Zorrilla - Universidad de Cantabria 2008/09 15

Qu es un Data Warehouse?
Es un sistema de informacin que:

(y 2)

Contiene la informacin estratgica para la toma de decisiones Se utiliza para analizar datos, detectar tendencias y disear estrategias Recoge datos que provienen de diferentes sistemas operacionales (integracin), consolidados a una determinada fecha (variante en el tiempo) y centrados en una determinada materia de negocio (ventas, consumos, uso del sitio Web...). Su estructura se disea para dar respuesta gil a las consultas y facilitar la distribucin de sus datos, no para soportar procesos de gestin. No se actualizan sus datos, slo son incrementados (no voltil).

Marta Zorrilla - Universidad de Cantabria

2008/09

16

Componentes DW/BI
Data Sources Operational source systems
Sales

Data Stage Area

Data Area

Data access tools

Relational Database Engine (OLTP) Star schemas ETL processes Staging Area ROLAP
Aggregated values

Ad-hoc solution

ERP

. . .
SCM

ETL processes

Querying and Reporting tool

Web log,..
ROLAP
MAP

HOLAP
MAP AGGREGATED VALUES

Data mining EIS

External data sources


Statistics files, etc.

MOLAP
MAP DETAILED VALUES AGGREGATED VALUES

OLAP Database engine

Marta Zorrilla - Universidad de Cantabria

2008/09

17

Herramientas de anlisis y consulta


Cul es la diferencia entre EIS y OLAP?
Un EIS (Executive Information System) es un sistema de informacin empaquetado:
Proporciona a los directivos acceso a la informacin de estado y sus actividades de gestin. Est especializado en analizar el estado diario de la organizacin (mediante indicadores clave) para informar rpidamente sobre cambios a los directivos. La informacin solicitada suele ser, en gran medida, numrica (ventas semanales, nivel de stocks, balances parciales, etc.) y representada de forma grfica al estilo de las hojas de clculo. Surgieron en los 80, y son los progenitores del software BI de los 90

Las herramientas OLAP (On-Line Analyitical Processing) son ms genricas:


Funcionan sobre un sistema de informacin (relacional o dimensional) Estructura de almacenamiento que permite realizar diferentes agregaciones y combinaciones de datos segn distintas perspectivas de observacin.

Marta Zorrilla - Universidad de Cantabria

2008/09

18

Herramientas de anlisis y consulta

Cul es la diferencia entre informes avanzados y OLAP?


Los sistemas de informes o consultas avanzadas:
Estn basados, generalmente, en sistemas relacionales u objetorelacionales, Utilizan los operadores clsicos: concatenacin, proyeccin, seleccin, agrupamiento, (en SQL y extensiones). El resultado se presenta de una manera tabular.

Las herramientas OLAP


Estn basadas, generalmente, en sistemas o interfaces multidimensionales, Utilizando operadores especficos (adems de los clsicos): drill, roll, pivot, slice & dice, El resultado se presenta generalmente de manera matricial.
Marta Zorrilla - Universidad de Cantabria 2008/09 19

Herramientas de anlisis y consulta

Cul es la diferencia entre OLAP y minera de datos?


Las herramientas OLAP
proporcionan facilidades para manejar y transformar los datos. producen otros datos (ms agregados, combinados). ayudan a analizar los datos porque producen diferentes vistas de los mismos.

Las herramientas de Minera de Datos:


son muy variadas: permiten extraer patrones, modelos, descubrir relaciones, regularidades, tendencias, etc. producen reglas o patrones (conocimiento).

Marta Zorrilla - Universidad de Cantabria

2008/09

20

DW y OLAP

La tecnologa OLAP generalmente se asocia a los almacenes de datos, aunque se puede tener DW sin OLAP y viceversa

Marta Zorrilla - Universidad de Cantabria

2008/09

21

Knowledge Discovery Process

Piatetsky-Shapiro
Marta Zorrilla - Universidad de Cantabria 2008/09 22

Data mining: definicin

Knowledge discovery: the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. (from Fayyad, U.M., PiatetskyShapiro, G., Smyth, P., & Uthurusamy, R. (Eds.) (1996). Advances in Knowledge Discovery and Data Mining. Boston, MA: AAAI/MIT Press.)

the process of exploration and analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns and results. (Berry
&Linoff, 1997, 2000)

Data mining sometimes refers to the whole process of knowledge discovery and sometimes to the specific machine learning phase.
Marta Zorrilla - Universidad de Cantabria 2008/09 23

Qu es (y no) Data Mining?


Qu no es DM? buscar el producto ms vendido preguntar a un motor de bsqueda por estrellas de cine conocer el estado de las cuentas de un cliente Qu es DM? conocer los productos que se compran juntos Agrupar documentos similares retornados por un motor de bsqueda de acuerdo a su contexto conocer la probabilidad de que devuelva un crdito

Marta Zorrilla - Universidad de Cantabria

2008/09

24

Data mining
COMERCIAL

Data mining es un proceso que trata de buscar relaciones y patrones existentes en grandes bases de datos Tareas principales:
Clasificacin: predecir a qu clase pertenece un tem Clustering: encontrar clusters en los datos Asociaciones: datos o eventos que ocurren frecuentemente Estimacin: predecir un valor continuo Link Analysis: encontrar relaciones Visualizacin
Marta Zorrilla - Universidad de Cantabria 2008/09

CIENTIFICO

25

Disciplinas relacionadas

Machine Learning

Visualization

Data Mining and Knowledge Discovery

Statistics

Databases

Marta Zorrilla - Universidad de Cantabria

2008/09

26

Statistics, Machine Learning and Data Mining

Statistics:
more theory-based more focused on testing hypotheses

Machine learning
more heuristic focused on improving performance of a learning agent also looks at real-time learning and robotics areas not part of data mining

Data Mining and Knowledge Discovery


integrates theory and heuristics focus on the entire process of knowledge discovery, including data cleaning, learning, and integration and visualization of results

Distinctions are fuzzy

Marta Zorrilla - Universidad de Cantabria

2008/09

27

Por qu ahora se habla tanto de DM?

Las tcnicas que se vern existan hace aos pero la convergencia de los siguientes factores:
Cantidad de datos producida Los datos estn integrados (data warehouse) La potencia de los ordenadores Fuerte presin de la competencia Software de data mining especfico e integracin de algoritmos de DM en gestores de BD

Marta Zorrilla - Universidad de Cantabria

2008/09

28

Вам также может понравиться