Вы находитесь на странице: 1из 49

USUARIOS DE BASE DE DATOS

Usuarios ingenuos o Normales

Los usuarios no sofisticados interactan con el sistema invocando a uno de los programas de aplicacin permanentes que se han escrito anteriormente en el sistema de base de datos.

podemos mencionar al usuario ingenuo como el usuario final que utiliza el sistema de base de datos sin saber nada del diseo interno del mismo por ejemplo: un cajero

Programadores de aplicaciones

Los profesionales en computacin que interactan con el sistema por medio de llamadas DML(Lenguaje de Manipulacin de Datos), las cuales estn incorporadas en un programa escrito en un lenguaje de programacin (Por ejemplo, COBOL, PL/I, Pascal, C, etc.)

Usuarios sofisticados
Los usuarios sofisticados interactan con el sistema sin escribir programas. En cambio escriben sus preguntas en un lenguaje de consultas de base de datos.

Usuarios especializados
Algunos usuarios sofisticados escriben aplicaciones de base de datos especializadas que no encajan en el marco tradicional de procesamiento de datos

Las bases de datos relacionales son las ms populares actualmente. la posibilidad de relacionar varias tablas de datos entre s, compartiendo informacin y evitando la duplicidad y los problemas que ello conlleva Sin embargo, tienen un punto dbil, la mayora de ellas no admite la incorporacin de objetos multimedia.

La base de datos est constituida por objetos, que pueden ser de muy diversos tipos, y sobre los cuales se encuentran definidas unas operaciones. estas bases de datos pueden manejar informacin binaria, objetos multimedia de una forma eficiente. Su limitacin suele residir en su especializacin, ya que suelen estar diseadas para un tipo particular de objetos.

consisten en ficheros de texto divididos en filas y columnas. Pueden ser tiles para aplicaciones muy simples, pero no para aplicaciones medianas o complejas, debido a sus limitaciones.

Las bases de datos hbridas combinan caractersticas de las bases de datos relacionales y las bases de datos orientadas a objetos. Manejan datos textuales y datos binarios como los de multimedia, a los cuales se extienden las posibilidades de consulta. Es una tecnologa reciente y an existen pocas en el mercado.

Son las tcnicas para prevenir las anomalas en las tablas. Dependiendo de su estructura, una tabla puede estar en primera forma normal, segunda forma normal o en cualquier otra.

Bodegas de datos (Datawarehouse)


Definicin y objetivo.

En el contexto de la informtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza

Un Data warehouse usa una representacin multidimensional de los datos (cubos). Por la dimensin de tiempo.

Fuentes y usos del Data warehouse.

Definicin 2.

Es un repositorio de datos de muy fcil acceso, alimentado de numerosas fuentes, transformadas en grupos de informacin sobre temas especficos de negocios, para permitir nuevas consultas, anlisis, reportes y decisiones. Los almacenes de datos contienen a menudo grandes cantidades de informacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

Objetivos fundamentales.

Registrar informacin a travs del tiempo. Tener informacin accesible, entendible, navegable y con buen desempeo. Tener informacin consistente. Significa contabilizada y completa. Informacin adaptable y elstica. Diseado para continuos cambios, permite nuevas preguntas y nuevos datos. Proteger la informacin. Permite buena visibilidad sobre el uso de los datos. Soportar la toma de decisiones.

Funcionamiento.

Un data warehouse se crea al extraer datos desde una o ms bases de datos de aplicaciones operacionales. Los datos extrados son transformados para eliminar inconsistencias y resumir si es necesario y luego, cargados en el data warehouse. El proceso anterior ETL (extraccin, transformacin y carga), permite crear el detalle de tiempo variante, resumir y combinar los extractos de datos, ayudando a crear el ambiente para el acceso a la informacin Institucional.

Este nuevo enfoque ayuda a las personas individuales, en todos los niveles de la empresa, a efectuar su toma de decisiones con ms responsabilidad.

La innovacin de la Tecnologa de Informacin dentro de un ambiente data warehouse, puede permitir a cualquier organizacin hacer un uso ms ptimo de los datos, como un ingrediente clave para un proceso de toma de decisiones ms efectivo. Las organizaciones tienen que aprovechar sus recursos de informacin para crear la informacin de la operacin del negocio, pero deben considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data warehouse.

operational data store (ODS) Staging Area is temporary location where data from source systems is copied.

Consideraciones de diseo

Antes de iniciar el diseo, es imperativo que los objetivos de la arquitectura del data warehouse sean claros y bien comprendidos. Es fundamental comprender a los diferentes tipos de usuarios, sus necesidades, y las caractersticas de sus interacciones con el data warehouse.

Consideraciones de diseo

Una de las claves del xito en la construccin de un data warehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.

Consideraciones de diseo.

Orientado a optimizar las consultas relacionadas con los aspectos del negocio que se desean estudiar. Identificar las tablas de hechos. Por cada aspecto del negocio que interese estudiar debe aparecer una tabla de hechos. Identificar las tablas de dimensin (esto es, decidir cules son los parmetros por los que interesa realizar el estudio).

Herramientas para extraer, transformar y cargar fuentes de datos.

ETL (Extract, Transform and Load o Extraer, transformar y cargar) es el proceso que permite a las organizaciones mover datos desde mltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

Proceso ETL

Proceso ETL

Proceso ETL

Descripcin de etapas ETL


Extraer.

Consiste en obtener los datos desde los sistemas de origen. La mayora de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen. Cada sistema separado puede usar una organizacin diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden incluir bases de datos no relacionales u otras estructuras diferentes. La extraccin convierte los datos a un formato preparado para iniciar el proceso de transformacin.

Extraer.

Transformar .

Una parte intrnseca del proceso de extraccin es la de analizar los datos extrados. Un requerimiento importante que se debe exigir a la tarea de extraccin es que sta cause un impacto mnimo en el sistema origen.

La fase de transformacin aplica una serie de reglas de negocio o funciones sobre los datos extrados para convertirlos en datos que sern cargados. Algunas fuentes de datos requerirn alguna pequea manipulacin de los datos.

Transformar
Algunos ejemplos de transformaciones. Seleccionar slo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen). Traducir cdigos (por ejemplo, si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer). Codificar valores libres (por ejemplo, convertir "Hombre" en "H" o "Sr" en "1"). Obtener nuevos valores calculados (por ejemplo, total_venta = cantidad * precio). Unir datos de mltiples fuentes (por ejemplo, bsquedas, combinaciones, etc.). Calcular totales de mltiples filas de datos (por ejemplo, ventas totales de cada regin). Generacin de campos clave en el destino. Transponer o pivotar (girando mltiples columnas en filas o viceversa). Dividir una columna en varias (por ejemplo, columna "Nombre: Garca, Miguel"; pasar a dos columnas "Nombre: Miguel" y "Apellido: Garca").

Transformar.
Al final del proceso de transformar, se tienen dos opciones generales:

Datos correctos: Entregar datos a la siguiente etapa (Carga).

Datos errneos: Ejecutar polticas de tratamiento de excepciones (por ejemplo, rechazar el registro completo, dar al campo errneo un valor nulo o un valor centinela).

Cargar

Es el momento en el cual los datos de la fase anterior (transformar) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organizacin, este proceso puede abarcar una amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la informacin antigua con nuevos datos. Los data warehouse mantienen un historial de los registros de manera que se pueda hacer una auditora de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.

Existen dos formas bsicas de desarrollar el proceso de carga:

Acumulacin simple: Es la ms sencilla y comn, y consiste en realizar un resumen de todas las transacciones comprendidas en el perodo de tiempo seleccionado y transportar el resultado como una nica transaccin hacia el data warehouse, almacenando un valor calculado que consistir tpicamente en un sumatorio o un promedio de la magnitud considerada.
Rolling: Se aplica en los casos en que se opta por mantener varios niveles de granularidad. Para ello se almacena informacin resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerrquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales semanales, totales mensuales, etc.).

Algunas Herramientas ETL


Ab Initio Barracuda Software (Integrator) MakeWare Soluciones Tecnologicas http:// Benetl Biable http://www.visiontecnologica.com www.makeware.net BITool - ETL Software http://www.bitool.com/ BOPOS TLOG-4690 rhiscom (back-office POS) CloverETL [1] Cognos Decisionstream Data Integrator (herramienta de Business Objects) Data Migraton Toolset de Backoffice Associates (BoA) http://www.boaweb.com/migrationtoolset.htm Genio, Hummingbird IBM Websphere DataStage (Previously Ascential DataStage) Informtica PowerCenter metaWORKS ( Document Tools) Microsoft DTS (incluido en SQL-Server 2000) Microsoft Integration Services (MS SQL Server 2005) MySQL Migration Toolkit Scriptella ETL - Libre, Apache-licensed ETL Oracle Warehouse Builder WebFocus-iWay DataMigrator Server

Definiciones y conceptos.

OLAP es el acrnimo en ingls de procesamiento analtico en lnea (OnLine Analytical Processing). Es una solucin utilizada en el campo de la llamada Inteligencia empresarial (o Business Intelligence) cuyo objetivo es agilizar la consulta de grandes cantidades de datos. Para ello utiliza estructuras multidimensionales (o Cubos OLAP) que contienen datos resumidos de grandes Bases de datos o Sistemas Transaccionales (OLTP). Se usa en informes de negocios de ventas, marketing, informes de direccin, minera de datos y reas similares.

La razn de usar OLAP para las consultas es la velocidad de respuesta. Una base de datos relacional almacena entidades en tablas discretas si han sido normalizadas. Esta estructura es buena en un sistema OLTP pero para las complejas consultas multitabla es relativamente lenta. Un modelo mejor para bsquedas (aunque peor desde el punto de vista operativo) es una base de datos multidimensional. La principal caracterstica que potencia a OLAP, es que es lo ms rpido a la hora de ejecutar sentencias SQL de tipo SELECT, en contraposicin con OLTP que es la mejor opcin para operaciones de tipo INSERT, UPDATE Y DELETE.

Funcionalidad

En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (tambin llamado cubo multidimensional o hipercubo). Se compone de hechos numricos llamados medidas que se clasifican por dimensiones. El cubo de metadatos es tpicamente creado a partir de un esquema en estrella o copo de nieve, esquema de las tablas en una base de datos relacional. Las medidas se obtienen de los registros de una tabla de hechos y las dimensiones se derivan de la dimensin de los cuadros.

Ejemplo de OLAP

Ejemplo de herramienta OLAP

Herramienta OLAP para Excel

Requerimientos funcionales de los sistemas OLAP.

Para el funcionamiento de un sistema OLAP se requiere:

Operadores para manejo de cubos de datos del estndar SQL3.

Los vimos en la unidad 1: Operaciones en cubos: rebanada, dado, ascenso, descenso, pivote. Operadores: cube, rollup, grouping sets.

Diseo de consultas a BDM.

Normalmente las consultas se enfocan en obtener informacin resumida. Analizar las consultas vistas en la unidad 1.

Leer el artculo:
Analyzing Data with ROLLUP, CUBE, AND TOP-N

QUERIES http://www.cs.umbc.edu/portal/help/oracle8/server.8 15/a68003/rollup_c.htm Del manual: Oracle8i Application Developer's Guide Fundamentals. Release 8.1.5. A68003-01

Utilizacin de herramientas para OLAP.

Se tienen herramientas comerciales y otras gratuitas.

Comparacin de servidores OLAP

Definiciones y conceptos.
Data Mart.

En sntesis, se puede decir que los data marts son pequeos data warehouse centrados en un tema o un rea de negocio especfico dentro de una organizacin. A data mart is a subset of an organizational data store, usually oriented to a specific purpose or major data subject, that may be distributed to support business needs. Data marts are analytical data stores designed to focus on specific business functions for a specific community within an organization. Data marts are often derived from subsets of data in a data warehouse, though in the bottom-up data warehouse design methodology the data warehouse is created from the union of organizational data marts.

Fases de construccin.

Posibles etapas para la construccin de un Data mart:


Anlisis.
Construccin. Post-produccin.

Metodologas de diseo.

En los manuales de Oracle se sugiere la siguiente metodologa: Artculo: Design the Data Mart Autor: Oracle Business Intelligence Standard Edition One Tutorial Release 10g (10.1.3.2.1) E10312-01 http://downloadwest.oracle.com/docs/cd/E10352_01/doc/bi.10 13/e10312/dm_design.htm Clic aqu para enlace local al documento.

Metodologas de diseo.

Moody y Kortink, describen una opcin de metodologa en el artculo: Artculo: From Enterprise Models to Dimensional Models: A Methodology for Data Warehouse and Data Mart Design Autores: Daniel L. Moody, Mark A.R. Kortink Clic aqu para un enlace local al documento.

Tecnologas.

Algunos autores clasifican las tecnologas de software en las categoras de front_end y back-end. El front-end es la parte del software que interacta con el o los usuarios y el back-end es la parte que procesa la entrada desde el front-end.

La separacin del sistema en "front ends" y "back ends" es un tipo de abstraccin que ayuda a mantener las diferentes partes del sistema separadas. La idea general es que el front-end sea el responsable de recolectar los datos de entrada del usuario, que pueden ser de muchas y variadas formas, y procesarlas de una manera conforme a la especificacin que el back-end pueda usar. La conexin del front-end y el back-end es un tipo de interfaz.

Tecnologa s.
Una clasificacin ms especfica del software para los Data mart y Data warehouse y algunos ejemplos:

Herramientas de Consulta y Reporte (Crystal Reports). Herramientas de Base de Datos (OLAP Office, Analysis Services). Sistemas de Informacin Ejecutivos Bases de Datos usados para Data Warehouse (Oracle, MySQL, SQL Server, etc.).

Вам также может понравиться