Вы находитесь на странице: 1из 14

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

Trabajo Final de Laboratorio


Primera actividad

Alumnos :

Juan Daz Nelson Escobar Felipe Llancaleo Cristbal Valenzuela Ana Moraga E. 15/04/2012

Profesor : Fecha:

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

NDICE

Introduccin
En este informe se desarolla la primera actividad del trabajo final de laboratorio de la asignatura de Base de datos avanzadas.

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

Modelamiento de Datos Modelo relacional


El modelo relacional se basa en una percepcin del mundo real consistente en un conjunto de objetos bsicos llamados entidades y en relaciones entre esos objetos. Una entidad es una cosa u objeto en el mundo real que es distinguible de todos los dems objetos, tiene un conjunto de propiedades, y los valores para algn conjunto de propiedades pueden identificar una entidad de forma unvoca (clave primaria). Por ejemplo, el D.N.I. 67.789.901 identifica unvocamente una persona particular en la empresa. Anlogamente, se puede pensar en los prstamos bancarios como entidades, y un nmero de prstamo P-15 en la sucursal de santiago identifica unvocamente una entidad de prstamo. Una entidad puede ser concreta, como una persona o un libro, o puede ser abstracta, como un prstamo, unas vacaciones o un concepto.
Tabla 1. Ejemplo de una tabla.

Una relacin es una asociacin entre diferentes entidades. Por ejemplo, se puede definir una relacin que asocie al cliente Lpez con el prstamo P-15. Esta relacin especifica que Lpez es un cliente con el prstamo nmero P-15. Una base de datos relacional consiste en un conjunto de tablas, a cada una de las cuales se le asigna un nombre exclusivo. Cada fila de la tabla representa una relacin entre un conjunto de valores. Dado que cada tabla es un conjunto de dichas relaciones, hay una fuerte correspondencia entre el concepto de tabla y el concepto matemtico de relacin, del que toma su nombre el modelo de datos relacional. Considrese la tabla de la Figura. Tiene tres cabeceras de columna: nmero-cuenta, nombresucursal y saldo. Siguiendo la terminologa del modelo relacional se puede hacer referencia a estas cabeceras como atributos. Para cada atributo hay un conjunto de valores permitidos, llamado dominio de ese atributo. Para el atributo nombre-sucursal, por ejemplo, el dominio es el conjunto de los nombres de las sucursales. Supongamos que D1 denota el conjunto de todos los nmeros de cuenta, D2 el conjunto de todos los nombres de sucursal y D3 el conjunto de los saldos. Como se vio en el Captulo 2 todas las filas de cuenta deben consistir en una tupla (v1, v2, v3), donde v1 es un nmero de cuenta (es decir, v1 est en el dominio D1), v2 es un nombre de sucursal (es decir, v2 est en el dominio D2) y v3 es un saldo (es decir, v3 est en el dominio D3). En general, cuenta slo contendr un subconjunto del conjunto de todas las filas posibles. Por tanto, cuenta es un subconjunto de
3

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

D1 x D2 x D3 En general, una tabla de n atributos debe ser un subconjunto de D1 x D2 x D3 x.. .. x Dn-1 x Dn


Los matemticos definen las relaciones como subconjuntos del producto cartesiano de la lista de dominios. Esta definicin se corresponde de manera casi exacta con la definicin de tabla dada anteriormente. La nica diferencia es que aqu se han asignado nombres a los atributos, mientras que los matemticos slo utilizan nombres numricos, utilizando el entero 1 para denotar el atributo cuyo dominio aparece en primer lugar en la lista de dominios, 2 para el atributo cuyo dominio aparece en segundo lugar, etctera. Como las tablas son esencialmente relaciones, se utilizarn los trminos matemticos relacin y tupla en lugar de los trminos tabla y fila.

El Modelo Dimensional
El modelo dimensional es una adaptacin del modelo relacional, con el fin de optimizarlo para dar una rpida respuesta a las consultas realizadas por los usuarios. Aunque a nivel fsico, una vez implementado en un sistema gestor de bases de datos relacionales, lo que all encontramos son tablas y relaciones entre ellas, a nivel conceptual debemos conocer que existen dos tipos de tablas: tablas de dimensiones (Lock-up) y tablas de hechos (Fact). Tablas Fact : contienen los valores de las medidas, por ejemplo: ventas promedio en dlares, nmero de unidades vendidas, etc. Tablas Lock_up: contienen el detalle de los valores que se encuentran asociados a la tabla Fact. Bsicamente los modelos relacional y dimensional proporcionan la misma informacin, con un modelo relacional podemos obtener la misma informacin que con un modelo dimencional, diferencia la hace la forma en que accedemos a ella, el tamao de la BD nos dar la referencia de cuanto tiempo nos llevar acceder a cierto tipo de informacin que el usuario desee obtener haciendo ms eficiente uno u otro modelo.

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

Tabla 2. Diferencia Modelo relacional y dimensional.

Modelamiento Multidimensional
El Modelamiento Multidimensional es una tcnica usada para modelar bases de datos simples y entendibles para el usuario. Consiste en que el usuario observe de manera sencilla, la relacin que existe entre distintos componentes del modelo. Si consideramos un punto del espacio, dicho espacio se definira a partir de sus ejes de coordenaras, un ejemplo seria, realizarlo para tres ejes (x,y,z). Un punto cualquiera del espacio, sera obviamente definido por la dimensin de dicho espacio, en el ejemplo su dimensin es 3. Si a esto se le asignan valores, por ejemplo eje x, representa producto, eje y representa mercado y el eje z representa el tiempo. Se tiene finalmente una combinacin: --->producto = libros ---> mercado=Santiago, tiempo=Agosto-2011 La interseccin de estos valores determinar un punto de nuestro espacio y si dicho punto se le asigna como la cantidad de libros vendidos, entonces dicho valor sera nico para dicha combinacin. En el Modelo Multidimensional cada eje corresponde a una dimensin particular (en el ejemplo anterior del espacio, serian producto, mercado y tiempo). Entonces la dimensionalidad de nuestra base estar dada por la cantidad de ejes o dimensiones ( tres para el ejemplo) que le asociemos. Cuando una base puede ser visualizada como un cubo de tres o ms dimensiones, es ms fcil para el usuario organizar la informacin e imaginarse en ella cortando y rebanando el cubo a travs de cada una de sus dimensiones, para buscar la informacin deseada.

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

Fig. 1. Cubo dimensional de dimensin tres.

Si consideramos el ejemplo anterior (vase fig. ), cuando mencionamos un producto (libros), mercado (Santiago) y tiempo (Agosto-2011), dichos valores nos determinaran un pequeo cubo dentro del cubo general. Dicho cubo ms pequeo es una informacin que se genera por la interseccin de producto x tiempo x mercado. Esta informacin indica la cantidad de libros vendido, pero tambin pueden ser: ganancias producidas, productos producidos, costo de unidades, etc; a esto se le conocen como medidas. Formalizando conceptos, el cubo general es nuestro Modelamiento Multidimensional (esquema representativo, notese que los elementos del modelamiento no estan explicado an, pero para el entendimiento solo se dejo en forma de cubo) y el cubo ms pequeo es nuestra medida o informacin que proporciona la interseccin de los datos de las distintas dimensiones, a mayor nmero de dimensiones mayores sern los ejes que interacten. El Modelamiento Multidimensional, esta compuesto por dos elementos: esquemas y tablas.

Tablas
Hay dos tipos bsicos de tablas en el Modelo Multidimensional: Tablas Fact : contienen los valores de las medidas, por ejemplo: ventas promedio en dlares, nmero de unidades vendidas, etc.

Tablas Lock_up: contienen el detalle de los valores que se encuentran asociados a la tabla Fact. Para lo anterior, vease la fig. y la fig. de los esquemas estrella y snowflake, donde la Tabla Fact, es la del centro y la tabla Lock_up es la que estan alrededor.

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

Esquemas
Los esquemas caen dentro de dos categorias: Esquema Estrella: El esquema estrella forma un diagrama precisamente de estrella (vase fig. ), con puntos extremos desde el centro. El centro de la estrella consiste en una o ms tablas fact, y las puntas de la estrella son las tablas lock_up. El modelo es asimtrico, pues hay una tabla dominante en el centro con varias conexiones a las otras tablas. Las tablas Lock-up slo tienen la conexin a la tabla fact.

Figura 2. Ejemplo de esquema Estrella.

Esquema Snowflake: La unica diferencia es que este modelo esta normalizado (vase fig. ), ya que las tablas lock_up contienen slo la clave primaria en la tabla, sus atributos y la foreign key del nivel ms cercano.

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

Figura 3. Ejemplo de esquema Snowflake.

Data Warehouse
Datawarehouse es un almacn de datos que transforma los datos de un respectivo negocio en informacin necesaria, til y estratgica disponible para accesarla de forma que facilite la toma de decisiones y/o anlisis del negocio permitiendo realizar una mejor gestin y administracin de la empresa. Los procesos productivos, que generan los productos y/o servicios, asociados a la empresa forman una estructura que le entrega valor a la empresa. Esta estructura est formada por cada proceso de negocio que la empresa contenga y estos sern representados en el Datawarehouse por bases multidimensionales obteniendo una visin integral del negocio. El obtener informacin desde un sistema transaccional requiere un mayor esfuerzo por parte de las aplicaciones, pudiendo disminuir el uso del sistema de informacin, por lo que el datawarehouse intenta suplir esa necesidad mediante informacin histrica til actualizada para su uso sin disminuir la performance del sistema.

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

Fig.4. Proceso de un Datawarehouse, desde los sistemas operacionales, la transformacin de los datos, la integracin y la utilizacin de los datos.

Caractersticas de un Datawarehouse Orientado a temas


Los procesos del negocio mencionados anteriormente hacen referencia a esta caracterstica de un Datawarehouse. Orientado a temas significa que la informacin se clasifica de acuerdo a los aspectos de inters de la empresa. En cambio, en una aplicacin operacional ,como su nombre lo dice, su inters est en los procesos.

Fig. 5. Diferencia entre el objetivos de un sistema operacional y temas de un datawarehouse.

Integridad de los datos


Para una toma de decisiones correcta se necesita juntar toda la informacin relevante de la empresa. Los datos de un datawarehouse provienen de los distintos sistemas operacionales de la empresa los cuales pueden referirse a un mismo aspecto o tipo de dato por lo que deben ingresar de una forma integrada al datawarehouse eliminando cualquier inconsistencia en ellos. Para estandarizar e integrar la informacin se utilizan estos mtodos:

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

10

Codificacin : una representacin de los datos. Convencin de nombre: un slo nombre para un tipo de dato. Medida de atributos: se establece una medida para la variable.

Fig. 6. Integracin de los datos desde sistemas operacionales mltiples a un aspecto o tema del negocio en un datawarehouse.

Tiempo variante Los sistemas operacionales escencialmente reflejan la informacin diaria, en cambio como el Datawarehouse es diseado para realizar un anlisis y/o la toma de decisiones, ste debe proveer la informacin histrica por perodos o el total de ella de un aspecto requerido. Cada resumen de datos en el Datawarehouse tiene una variable de tiempo. El tiempo variante permite el anlisis del pasado, conectar la informacin con el presente y hacer predicciones para el futuro. No voltil Los datos en un Datawarehouse se almacenan en vistas o snapshots que no corresponden a un proceso actual sino a uno de un perodo generalmente amplio. Por eso no se actualiza frecuentemente al ser requeridos los datos, ya que estos estn almacenados. Los datos se cargan en intervalos especficos de tiempo. En un sistema operacional se actualizan los datos apenas se realiza una transaccin pero esto usualmente no es as en el Datawarehouse. Los datos no actualizados o borrados (a no ser que estn incorrectos) sino acumulados. Los datos del datawarehouse estn destinados para ser consultados.

10

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

11

Fig. 7. Un Datawarehouse est diseado para ser consultar sus datos y no eliminarlos o modificarlos a diferencia de un sistema operacional transaccional.

Granularidad
Esta caracterstica se refiere al nivel de detalle en los resumenes dedatos de un Datawarehouse. La granularidad puede ir desde el nivel ms alto (general) al nivel ms especfico (detalle). Si se almacena un nivel de granularidad muy fino se tendr que almacenar mucha informacin, por lo que es necesario definir un plan para la informacin que se requerir desde el Datawarehouse.

Diario Cuenta Fecha y hora de actividad Cantidad Retiro/Depsito

Mensual Cuenta Mes Nmero de transacciones Depsitos Retiros Balance inicial Balance final

Trimestral Cuenta Meses Nmero de transacciones Depsitos Retiros Balance Inicial Balance Final

Tabla 3. Ejemplo de granularidad en un Datawarehouse de una cuenta bancaria.

Herramientas de creacin y Explotacin de un Data Warehouse


Existen muchas herramientas que diferentes empresas ofrecen para la creacin y explotacin de un Data Warehouse.
Cuando se ofrece una suite completa, que cubre desde la creacin de la base de datos hasta la explotacin de la misma para diferentes perfiles y objetivos, suelen considerarse como herramientas de Business Intelligence.
11

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

12

El Data Warehouse se implementa siempre sobre un Sistema Gestor de Bases de Datos, y para las cargas peridicas de datos que se realizan sobre l desde diferentes orgenes se pueden utilizar herramientas ETL (Extract, Transform and Load), que permiten enlazar la base de datos con los diferentes orgenes, definir las transformaciones que hay que realizar para la integracin de los datos, y programar o automatizar las cargas peridicas. As como otras aplicaciones, en funcin a la ventas y a las capacidades de funcionalidades tcnicas el mundo ETL segmentado en tres niveles: Herramientas TOP: Mayores funcionalidades y costo promedio de U$S 350.000 por licencia. 1. Data Stage (Ascential Software) 2. Powercenter (Informatica) 3. SAS ETL Enterprise (SAS) Herramientas Nivel Medio: Especficas para proyectos BI, promedio de U$S 20.000 por licencia 1. Data Integrator (Business Objects) 2. Decision Stream (Cognos Inc.) 3. Advantage DT (Computer Associates) 4. Transformation Server (Data Mirror) 5. Co OSystem(AB Initio Software) 6. DB2 Warehouse Manager (IBM) 7. Warehouse Builder (Oracle Corp.) 8. Integration Services (Microsoft) Herramientas Nivel Bajo: Herramientas nuevas o muy especficas, promedio de U$S 10.000 por licencia. 1. Hummingbird ETL (Hummingbird) 2. ETL Manager (Iway Software) 3. Warehouse Builder (Teradata) 4. Sunopsis ETL (Sunopsis) Para la explotacin se utilizan diferentes herramientas, cuya clasificacin se puede realizar en funcin del perfil profesional de la persona que las utiliza. Las clsicas herramientas de reporting son para usuarios de diferentes departamentos que necesitan explotar en su trabajo diario una informacin concreta. Para usuarios de perfil ms analista, o incluso directivos se han creado las herramientas DSS (Decision Support Systems), o sistemas de soporte para la toma de decisiones. Podran considerarse como herramientas de reporting, pero que ofrecen una serie de funcionalidades que permiten a los usuarios realizar anlisis bajo diferentes puntos de vista de los datos que estn examinando. Permiten la modificacin y personalizacin online de los informes, y la navegacin por los datos seleccionados a diferentes niveles de detalle segn dimensiones previamente definidas. Para los directivos de nivel superior existen herramientas de Cuadro de mando, que no dejan de ser informes, pero que permiten agregar la informacin de manera que una sola pgina sea suficiente para el directivo para evaluar el estado de la empresa en lo que a l le concierne. Estos informes tienen que ser visuales, simples, i a la vez muy informativos. Finalmente, cuando se pretende obtener el mximo de informacin, o ms bien conocimiento, de los datos de la empresa, entran en juego las herramientas de Minera de Datos, o Datamining, que, siempre contando con la experiencia de un analista de negocio que pueda parametrizarlas y crear un modelo persiguiendo unos objetivos concretos, realizan una explotacin de los datos
12

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

13

existentes en busca de nuevas relaciones ocultas, agrupaciones o conclusiones que a primera vista, o con un anlisis de otro tipo habran pasado desapercibidas. Viendo toda la funcionalidad que deben cubrir las herramientas de Business Intelligence orientadas a la explotacin de un sistema de Data Warehouse no es de extraar que muchas empresas se echen las manos a la cabeza cuando se plantean la implantacin de un sistema de este tipo y consultan los precios de las licencias de las diferentes Suites existentes en el mercado. Si el coste de estas licencias es una barrera importante, sobretodo para las pymes, una opcin interesante es la de la utilizacin de herramientas de Open Source, o Cdigo Abierto, que no tienen coste en cuanto a licencias, aunque s pueden tenerlo si se necesita soporte y mantenimiento de las mismas. Tampoco hay que olvidarse que las licencias de software no tienen porqu representar el mayor gasto en la implantacin de un sistema de Data Warehouse. Una Suite bastante completa, de software libre, y que tambin ofrece servicios de soporte en sus versiones profesionales, es la llamada Pentaho.

13

Universidad de Santiago de Chile Facultad de Ciencia Licenciatura en la Computacin Base de datos Avanzadas

14

Bibliografa y Referencias
Modelamiento de datos Silberschatz A., Korth H. (2002). Fundamentos de bases de datos cuarta edicin. Dopena I., Muoz A. (2005). Sistemas de informacin orientada a la toma de decisiones: el enfoque multidimensional. Modelamiento MultiDimensional Wolff C. (1999).Modelamiento Dimensional. Revista Ingeniera Informtica Edicin nmero 4. Universidad de Concepcin, Chile. http://www.inf.udec.cl/~revista/ediciones/edicion4/modmulti.PDF Datawarehouse Ponniah P. (2001). Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. Wolff C. (2000). Implementando un Datawarehouse. Revista Ingeniera Informtica Edicin nmero 5. Universidad de Concepcin, Chile. http://www.inf.udec.cl/~revista/ediciones/edicion5/datawh.PDF Datawarehousing http://www.sqlmax.com/dataw1.asp Herramientas de creacin y Explotacin de un Data Warehouse DataPrix http://www.dataprix.com/ Pentaho http://www.pentaho.com/

14

Вам также может понравиться