Вы находитесь на странице: 1из 12

Captulo 1.

Introduccin

Una de las grandes necesidades del ser humano es estar informado de lo que sucede a su alrededor. La prensa electrnica aparece como una alternativa interesante para satisfacer esta necesidad puesto que ofrece la posibilidad de acceder a informacin sobre los acontecimientos mundiales de manera clasificada y filtrada.

Para un mundo regido por una acelerada produccin, el almacenamiento es una necesidad que se da como consecuencia de la produccin de informacin. El Internet y otros avances tecnolgicos, permiten el acceso a un gran volumen de informacin, altamente distribuida y heterognea. En contraparte, con el inters de estar bien informado se presenta el problema de sintetizar la informacin para poderla procesar y aprovechar de manera eficaz, considerando las restricciones de tiempo de las personas. Se requieren mecanismos que integren, clasifiquen y sinteticen la informacin arrojada a diario por la prensa electrnica para que los lectores puedan analizarla y aprovecharla. Estos mecanismos deben manejar y poder desplegar una amplia gama de informacin para dar xito y alta operatividad a diferentes necesidades del mundo actual.

La tecnologa data warehouse (DW) parece ofrecer una solucin interesante y bien adaptada a estas necesidades. Este trabajo contribuye a mostrar el inters de usar este tipo de tecnologa para ofrecer diferentes criterios de observacin de informacin de la prensa electrnica que faciliten su anlisis.

1.1 Medicin de datos


Para poder analizar la informacin es necesario su integracin y organizacin. Para integrar los datos ya almacenados y facilitar un acceso uniforme a travs de ellos varios tipos de soluciones han sido propuestas tales como: Sistemas mediadores de consultas, proveen un punto de lectura global sobre colecciones de datos. Soportan lenguajes de consulta de complejidad simple y media, y se basan en herramientas que homogenizan los datos. Sin embargo, no soportan la actualizacin de datos globales. Portales ofrecen acceso a un conjunto de fuentes de un mismo tema de manera similar a un ndice hacia los datos. Tambin ofrecen servicios de seguridad, transparencia y de una fcil accesibilidad mediante un simple browser. No soportan la actualizacin de datos globales. Bases de datos federadas ofrecen acceso global a un conjunto de fuentes de datos bajo diferentes niveles de integracin. Los sistemas dbilmente integrados ponen a disposicin un conjunto de esquemas que describen el contenido de las fuentes federadas. Los esquemas estn expresados con respecto a un modelo pivote y las consultas se expresan en un mismo lenguaje. La integracin de los resultados es responsabilidad del usuario que consulta. Los sistemas fuertemente integrados ofrecen un esquema global bajo un modelo pivote, lo cual asegura la integracin de los datos. Data warehouse (DW) es un repositorio de datos histricos que integra los datos de un conjunto de fuentes con respecto a un esquema global que consolida los datos. La consolidacin de los datos histricos, hace que un DW est adaptado para el anlisis [16].

1.2 Sistemas orientados al proceso analtico


Un DW es la coleccin de una extensa variedad de datos, organizados, integrados, historiados y disponibles para facilitar la toma de decisiones de los usuarios finales [9]. La creacin de un DW consiste de cuatro pasos (Figura 1.1): diseo, construccin, anlisis, mantenimiento.

Construccin y Mantenimiento Fuentes DW

Anlisis Usuarios

Figura 1.1. Entorno de DW

1.2.1 Diseo
Para el diseo de un DW, en general, se emplea la representacin de un modelo multidimensional que se basa en los conceptos de dimensin y medida. Un conjunto de dimensiones ortogonales definen un hiper-cubo como el que se presenta en la Figura 1.2.

27

Figura 1.2. Modelo multidimensional (cubo)

Un modelo multidimensional permite definir el esquema multidimensional para disear un DW. El esquema multidimensional puede ser implementado por un esquema relacional. Dos tipos de esquemas relacionales pueden implementar un esquema multidimensional: esquema en estrella (star schema) y esquema copo de nieve (snow flake schema).

El esquema en estrella consta de una tabla principal de hechos donde cada uno de los atributos de sta corresponde a una tabla de dimensin. As todas las tablas de dimensin estn relacionadas directamente con la tabla de hechos. El esquema de copo de nieve corresponde a la normalizacin del esquema en estrella. Para ello, se define una tabla de hechos y una tabla por dimensin [4].

1.2.2 Construccin
El proceso de construccin lleva la informacin de las fuentes al DW y se realiza en cuatro fases principales: 1. Extraccin: consiste en acceder a las diversas fuentes y recuperar la informacin que ser integrada en el DW. 2. Integracin: consiste en transformar los datos recuperados con respecto al esquema del DW. La integracin se lleva acabo en dos etapas: Homogeneizacin, transformacin de la informacin en el formato nativo de las fuentes, al formato y modelo de datos del DW. Integracin, la informacin recuperada es agregada y organizada con respecto el esquema multidimensional del DW.

3. Limpieza: es la correccin en los datos de posibles errores, como datos de tamao o descripcin inconsistentes, falta de datos de entrada o datos que violen las restricciones de integridad del sistema. 4. Apertura: revisin de los niveles de agregacin y el ordenamiento, as como la construccin de ndices y la particin de reas de almacenamiento.

1.2.3 Anlisis
Una vez construido el DW se puede realizar un anlisis como soporte para la toma de decisiones. El anlisis se refiere a la explotacin del DW, mismo que considera tres aspectos: la forma en que se expresa una consulta analtica, la manera en que los datos sern agregados para ser analizados y la parte de informacin a la que tendrn acceso los diversos usuarios.

1.2.4 Mantenimiento
El mantenimiento de un DW es una funcin repetitiva cuyo objetivo es refrescar su contenido. Consiste en integrar peridicamente los cambios producidos en las fuentes. Dos puntos son importantes para mantener a un DW: cundo refrescar y cmo refrescar.

Usualmente los sistemas de DW son refrescados peridicamente (v.g., diariamente o por semana). Las condiciones de refrescado son establecidas por el administrador del DW, dependiendo de las necesidades del usuario, del volumen de los datos, de la frecuencia con la que cambian, etc. La mayora de los sistemas de base de datos actuales, proveen

servicios de duplicacin que soportan tcnicas de propagacin de datos en forma incremental [1].

1.3 Anlisis de prensa electrnica


La cantidad de informacin que produce la prensa electrnica es realmente abundante y no se le da ningn uso despus de su publicacin. Los peridicos de ms renombre suelen tener a disposicin las publicaciones de das pasados, con datos posiblemente interesantes, pero que no son explotados. Esta informacin puede se analizada para que sirva de soporte en la toma de decisiones.

Dado este contexto, nuestro proyecto aborda el anlisis de una parte de la informacin producida en la prensa electrnica. Dadas las caractersticas de un DW, este sistema parece adecuado para almacenar la informacin producida por la prensa electrnica para que pueda ser usada para la toma de decisiones.

1.3.1 Objetivos y metodologa


El objetivo general de la tesis es la construccin, implementacin y validacin de un data warehouse sobre la informacin publicada dentro de la prensa electrnica para apoyar el anlisis y la toma de decisiones.

La informacin publicada dentro de la prensa es muy extensa y diversa. Construir un DW implica modelar el tipo de informacin que ser interesante para un contexto aplicativo 6

especfico (v.g., exportaciones, consultas tursticas, pronsticos metereolgicos). Una vez seleccionada dicha informacin se integra y homogeneiza (procesos de construccin de un DW). Efectivamente, son muchas las ramas en las que se puede enfocar la construccin de un DW para la toma de decisiones. Este trabajo considera dos ramas de la informacin publicada tres peridicos: climatologa y venta de productos.

Para alcanzar el objetivo, se dise e implement un DW con informacin publicada en la dos peridicos electrnicos y un sitio de informacin geogrfica (El Universial, Banco de Mxico, INEGI). Se implementaron extractores de informacin adaptados para recuperar informacin de las fuentes con diferentes estructuras (documentos HTML heterogneos). Se experiment con las secciones de climatologa y consumo de productos de los peridicos. Finalmente, se construy un sistema para la expresin y evaluacin de consultas analticas sobre un sistema de bases de datos relacional. El resultado fue el sistema DOMINIQUE que describimos en la seccin 1.3.

1.3.2 DOMINIQUE
La contribucin principal de la tesis es DOMINIQUE un sistema de anlisis de datos de prensa electrnica. DOMINIQUE construye un DW a partir de un conjunto de fuentes de datos de prensa electrnica. El DW implementa dos esquemas multidimensionales sobre un sistema de administracin de bases de datos relacional (SGBDR) y tiene asociado un motor de consultas analticas.

El motor de consultas ofrece una interfaz grfica para la expresin de consultas y se apoya en el lenguaje SQL (Standard Query Language) para calcularlas. El DW est asociado a un sistema de integracin de datos que implementa mdulos adaptados a la extraccin de datos de prensa electrnica y su integracin con respecto a los esquemas multidimensionales del DW. Data warehouse de prensa electrnica. La Figura 1.3 ilustra los esquemas multidimensionales implementadas por DOMINIQUE asociadas al anlisis del clima y de la venta de productos. El primer esquema define el cubo climatologa por las dimensiones ESTACIN, CIELO y REGIN que caracteriza las temperaturas promedio de acuerdo a la estacin del ao, el tipo de cielo y la regin. El segundo esquema define el cubo ventas por las dimensiones PRODUCTO, REGIN y FECHA que caracteriza las ventas promedio de un producto en una fecha y en una regin.
Estacin Producto

(Producto->Grupo)

Regin Cielo
(Ciudad ->Estado->Zona)

Regin
(Ciudad ->Pas->Zona-

Fecha Fecha
(Da->Mes->Ao) (Da->Mes->Ao)

->Continente

(a)

(b)

Figura 1.3. Diseo de cubo para DW de (a) climatologa y (b) venta de productos

Para aclarar un poco ms la funcionalidad de la unin de ambas aplicaciones, se ejemplifica al dueo de una granja avcola que se interesa en ser distribuidor en otros estados de la repblica. Para decidir en qu estados hacerlo, necesita analizar el consumo de blanquillos en cada estado tomando en cuenta las temperaturas promedio de cada uno.

Extraccin de datos de prensa electrnica. Las publicaciones de prensa electrnica presentan toda la informacin en un formato HTML y XML. Debido a que la mayora de peridicos de publicacin nacional usan HTML, es este lenguaje el empleado para la extraccin de datos que se almacenan en el DW. El proceso de extraccin de DOMINIQUE se implement a travs de tres extractores adaptados a la estructura de los documentos HTML que publican los peridicos. Cada extractor incluye un parser HTML que procesa los documentos y los transforma para ser integrados en el DW. Anlisis de datos publicados en prensa electrnica. Para explotar el contenido del DW DOMINIQUE implementa un motor de ejecucin de consultas analticas basadas en

operadaores de Online Analisys Processing (OLAP): drill-down, roll-up, slicen, pivot [1]. Por ejemplo, el dueo de la granja avcola puede querer conocer los estados donde la temperatura promedio no es mayor a los 20 C, ya que a una mayor temperatura su producto podra descomponerse durante el transporte. Otra consulta dentro de la rama de venta de productos, puede recuperar las condiciones de consumo de la canasta bsica en los estados en los que est interesado en hacer llegar su producto.

1.4 Organizacin del documento

En el captulo 1 se presenta un breve prembulo del contexto de realizacin de esta tesis, de los sus objetivos y resultados principales. El resto del documento est organizado de la siguiente manera:

El captulo 2 describe las caractersticas de los datos asociados a la prensa electrnica. Se describen los distintos tipos de fuentes, el formato de los datos que almacenan y las funciones de navegacin que implementan. Al final, se discuten las limitaciones de los sistemas de acceso asociados a los peridicos electrnicos. En particular, se subraya la imposibilidad de analizar el contenido histrico de estos documentos y se seala el inters de hacerlo para apoyar la toma de decisiones.

El captulo 3, define los conceptos de base asociados a la tecnologa Data Warehouse. Se presenta la arquitectura general de un DW y sus funciones principales. Se define el concepto de modelo y esquema multidimensional en los que se basa el diseo de un DW. Enseguida se describe el proceso de construccin de un DW a partir de fuentes heterogneas, se seala la dificultad de la integracin (homogeneizacin,

transformacin) de datos. Luego se definen los operadores de anlisis OLAP y finalmente se describe el problema de mantenimiento del DW.

El captulo 4 describe a DOMINIQUE un sistema de consulta analtico para documentos de prensa electrnica. Primero ilustra la arquitectura general de

10

DOMINIQUE y describe los esquemas multidimensionales que implementa y la estructura de las fuentes de los que se alimenta. Enseguida describe las funciones principales de DOMINIQUE: construccin, anlisis y mantenimiento. En particular, describe la estrategia que implementa para el procesamiento de consultas OLAP y el tipo de consultas que puede ejecutar sobre los esquemas del DW.

El captulo 5 describe la implementacin de DOMINIQUE. Primero enumera las herramientas usadas y describe la manera en que la arquitectura general de DOMINIQUE fue implementada en un contexto relacional. Se describe la arquitectura general de los mdulos del sistema y las estrategias usadas para implementar sus funciones principales. Finalmente, el captulo describe el uso y configuracin de DOMINIQUE y discute sus limitaciones y perspectivas de implementacin.

El captulo 6, concluye el trabajo, subraya los resultados alcanzados, sus limitaciones y su contribucin. Finalmente, enumera y discute las perspectivas que se identifican para la continuacin del trabajo.

11

12

Вам также может понравиться