Академический Документы
Профессиональный Документы
Культура Документы
Documentation
Release 1
LANXE
CONTENTS
Introduccin a PostgreSQL
2.1 Clientes . . . . . . . . . . . . . . . . . .
2.2 Conectarnos a una base de datos con psql
2.3 El prompt . . . . . . . . . . . . . . . . .
2.4 Listar tablas . . . . . . . . . . . . . . .
2.5 Ejecutar una consuta . . . . . . . . . . .
2.6 El search_path . . . . . . . . . . . . . .
2.7 Solicitar ayuda . . . . . . . . . . . . . .
3
3
7
.
.
.
.
.
.
.
9
9
9
10
10
10
10
11
Repaso de normalizacin
3.1 Conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
17
17
17
21
Index
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
23
ii
Contents:
CONTENTS
CONTENTS
CHAPTER
ONE
INTRODUCCIN A LA INTELIGENCIA
DE NEGOCIOS
1.1 Conceptos
1.1.1 Inteligencia de Negocios
Inteligencia de Negocios La inteligencia de negocios es un conjunto de metodologas, procesos, arquitecturas y
tecnologas que transforman datos crudos en informacin til y significativa. El objetivo principal de un sistema
de BI es promover la toma de decisiones basadas en hechos.
Est basada en el reconocimiento, anlisis y descubrimiento de los datos del negocio.
La tecnologa BI proporciona vistas actuales, histricas y predictivas acerca de las actividades de la empresa o
institucin.
Las funciones comunes de la inteligencia de negocios incluyen:
reportes
procesamiento analtico en lnea
minera de datos
alertas
otros tipos de anlisis
Dos mundos de informacin
Usuario de un Sistema Transaccional
Mueve las ruedas de la organizacin
Trabaja con un registro a la vez
Realiza las mismas tareas operacionales repetidamente
Cuenta nuevas rdenes y las compara con las rdenes de la semana pasada
Pregunta por qu hay nuevos clientes
Pregunta cules fueron los motivos de las quejas
Los sistemas fuente son usualmente sistemas OLTP (Oracle, SQL Server, PostgreSQL ,etc. )
El almacen de datos tambin puede ser normalizado, veremos la diferencia en las siguientes secciones.
Es decir, no recibe las operaciones de los sistemas fuente en tiempo real.
Una caracterstica de los sistemas OLTP es que la estructura de datos est normalizada.
Normalizacin Tcnica de modelado de datos cuya finalidad principal es eliminar redundancia.
Simplemente vamos y extraemos datos ?
En la prctica es necesario hacer un profiling o anlisis de la composicin de los datos.
Profiling o perfil de datos Es el anlisis del sistema fuente en cuanto a la estructura de tablas, tipos de datos, la
calidad de los mismos, cantidad de registros, dispersin de valores, ocurrencia de valores nulos o faltantes, etc.
Cmo extraemos los datos ?
Usamos una herramienta ETL.
ETL Extraccin, Transformacin y Carga. Es el proceso para poblar nuestro Data Warehouse. Existen varias herramientas que nos facilitarn dichos pasos, utilizaremos una de ellas llamada Pentaho Data Integration o tambin
conocida como Kettle la cual es libre y gratuita.
Caractersticas:
3
Si la extraccin es rpida y existe algn error a la mitad del proceso podremos reiniciarlo sin problemas.
1.1. Conceptos
1.1.7 Metadatos
Toda la informacin relativa a la estructura de datos, diccionario de datos, el uso y significado de datos, las reglas de
calidad de la informacin y dems informacin referente a los datos mismos debe ser almacenada en un repositorio
para poder ser utilizado en todo el desarrollo del proyecto de inteligencia de negocios.
Metadatos Es toda la informacin necesaria para entender los datos del sistema fuente, su estructura, significado,
polticas de calidad de los mismos, etc.
Caractersticas:
Son muy voluminosas, tienen pocos registros
Representa una relacin muchos a muchos entre dimensiones
1.2.3 Datamart
Datamart Es el conjunto de las tablas de dimensiones y de hechos relacionadas con un slo proceso de negocios.
Ejemplos de datamarts (procesos de negocio):
Ventas
rdenes de Compra a Proveedores
Niveles de Inventarios
Administracin de relaciones con clientes
etc.
CHAPTER
TWO
INTRODUCCIN A POSTGRESQL
Esta seccin est dedicada a exponer los conceptos bsicos de utilizacin de PostgreSQL desde la perspectiva de un
usuario que explota los datos gestionados por el motor.
2.1 Clientes
Para conectarnos a un servidor PostgreSQL, las herramientas ms populares son:
psql
Es un cliente cuya interfaz est basada en texto. Es el cliente ms utilizado por usuarios avanzados y administradores.
PgAdmin
Es un cliente que proporciona una interfaz grfica.
En este mini-tutorial usaremos psql
Dnde:
-U usuario , se refiere a un usuario de base de datos existente. Toma en cuenta que los usuarios de la base de
datos son independientes de los usuarios del sistema operativo. El usuario por defecto se llama postgres.
-h elHost, se refiere a la direccin IP o nombre de host de la mquina en la que est alojado el servicio. Si el
servidor est en la misma mquina usamos : localhost 127.0.0.1
-p elPuerto . Un puerto es un punto de comunicacin entre procesos. El puerto por defecto de PostgreSQL es el
5432.
2.2.1 Ejemplo
En nuestro caso, nos conectaremos a nuestras bases de datos de esta manera:
psql -U postgres -h localhost -p 5432 mb
2.3 El prompt
Si la conexin es otorgada 1 , se nos presenta un prompt como el siguiente:
psql (9.2.3)
Type "help" for help.
mb=#
Donde, lo que aparece antes del =#, es la base de datos a la que estamos conectados.
En el cliente que estamos manejando la diagonal inversa + d , es una abreviatura para decir describe o lstame.
2.6 El search_path
Este concepto se refiere al la ruta de bsqueda, o schemas dnde se buscarn los objetos a los que hagamos referencia,
si no especificamos a qu schema pertenecen.
set search_path = musicbrainz;
El cambio puede ser aplicado de forma permanente para la base de datos de esta manera:
ALTER DATABASE mb SET search_path = musicbrainz;
1
10
Si el usuario existe, si el password es correcto, si tiene permiso de conectarse a esa base de datos, etc.
tambin
\h ALTER TABLE
etc.
11
12
CHAPTER
THREE
REPASO DE NORMALIZACIN
3.1 Conceptos
normalizacin En general, normalizacin, se refiere a las tcnicas para remover duplicidad y minimizar unidades de
informacin redundantes.
anomala Es un cambio no apropiado o errneo en los datos, especficamente a una sola fila.
13
14
3.1. Conceptos
15
16
CHAPTER
FOUR
4.2.2 release_group
Representa una entidad abstracta album. Tcnicamente es un grupo de lanzamientos basados en un tipo, por ejemplo:
Single (Sencillo) Under Pressure por Queen & David Bowie Album The Wall por Pink Floyd
JOINS
Para obtener el nombre del lazamiento musical, hacemos un join con la tabla release_name ( release_group.name = release_name.id)
1
17
18
4.2.3 release
Es un objeto real que puedes comprar en las tiendas musicales. Cuenta con fecha de lanzamiento, lista de nmero de
catlogo, casa disquera, tipo de empaque y el status del release.
Ejemplo.
Release en Estados Unidos en el ao de 1984 del lbum The Wal de Pink Floid, bajo el sello discogrfico
Columbia Records con nmero de catlogo C2K 36183 y el UPC 074643618328, es un release oficial, y
viene en una caja con 2 CDs.
JOINS
Se vincula con release_group, recuerda que por cada registro en release_group hay de 1 a n registros en release.
19
20
CHAPTER
FIVE
21
22
INDEX
Sistema OLTP., 4
T
Tablas de dimensiones, 7
Tablas de hechos, 8
B
Bitcora de auditora del sistema, 7
Bitcora de calidad de datos, 6
D
Data Warehouse, 4, 6
Datamart, 8
Dependencia cclica., 15
Dependencia funcional, 14
Dependencia funcional completa, 14
Dependencia funcional multivalor, 15
Dependencia transitiva, 14
Determinantes, 14
E
ETL, 5
I
Inteligencia de Negocios, 3
L
Llave candidata, 14
Llave compuesta, 15
M
Metadatos, 6
N
Normalizacin, 5
normalizacin, 13
P
Profiling o perfil de datos, 5
23