Вы находитесь на странице: 1из 28

Criar o Data Warehouse

Marcelino Pereira CIn-UFPE

Data Warehouse x BD operacional


Massa de Dados: Imensa x Grande Acesso aos Dados: Ocasional x Constante Natureza: Temporal x No Temporal Atualizao de Dados: Peridico x Permanente Dados Armazenados: Histricos x Atuais Processamento: OLAP x OLTP

Necessidade Desenvolvimento: Estratgica x Operacional


Origem Pesquisa: Indstria x Academia

BD Operacionais Data Warehouse OLAP/KDD

extrair traduzir serve filtrar OLAP

integrar BD Operacionais Data Warehouse

KDD

Data Warehouse x Data Mart

Data Warehouse:
Informaes de diferentes fontes (BDs heterogneos / distribudos / sistemas legados etc) so extradas, traduzidas, filtradas,integradas, agregadas e armazenadas no repositrio centralizado.

Data Mart
Subconjunto do data warehouse global. Mini data warehouse em escala menor (departamental, regional ou funcional). Permite construo bottom-up de data warehouse.

Principais Vantagens - DW

Altssima performance de pesquisa corporativa


no necessariamente dos dados mais recentes

No interfere nas OLTPs dos BDs operacionais


pesquisas complexas apenas no DW

Dados armazenados no DW podem ser manipulados de


forma arbitrria
podem ser resumidos, reestruturados, redimensionados

Fonte de informaes estratgicas


conhecimento do negcio vantagem competitiva tomada decises etc.

Questes em armazenamento de dados no voltil

Aspecto temporal e histrico


A dimenso mais importante: tempo Armazenar a evoluo dos dados Prazo mdio de armazenamento de dados: 5 a 10 anos

Necessidade de agregao ao longo da dimenso tempo


DW - BD histrico

Caracterstica determinante do DW: time variant


DW - srie sofisticada de snapshots Um caso especial de BD temporal

Hierarquias temporais mltiplas


Agregao e manipulao de mltiplas hierarquias temporais Hora, minuto, dia, semana, quinzena, ms, bimestre, ano etc

Estrutura cclica

Banco de Dados Temporais: definio e motivao

Definio:
BD Temporal aquele que time dependent (time varying), pois deve suportar aspectos de tempo.

Dados econmicos e financeiros (empresas, bancos etc) dependem de tempo

Informaes sobre estoque, custo e venda de produtos tm variao temporal


Dados na rea de sade

Operaes em telecomunicaes
Sistemas de Transporte Atividades que produzem massas de dados regularmente

Ontologias temporais e aplicaes p/ BD

Baseados em pontos
Instante: time point Intervalo: conjunto de pontos Predominante no contexto de BD

Baseados em intervalos
Instante: intervalo mnimo intervalo: delimitado por designadores

Clculo de eventos:
Limitaes do clculo de situaes Representao de mudanas Dimenso espacial e temporal

Tempo de validade
tempo durante o qual um fato era realmente verdadeiro

Tempo de transao
tempo durante o qual o fato estava presente no BD como dado armazenado

Modelo de dados e linguagens de consultas temporais

Suportam aspectos relacionados a tempo


HRDM (Historical Relacional Data Model)

Muito influente Suporta domnio temporal nico, discreto e infinito Suporta dimenso de tempo nica lgebra originada da lgebra relacional com redefinio operadores lgebra no consegue expressar consultas temporais indutivas

TSQL2

Derivada do SQL2 No possui semntica formal Suporta tempo de validade e de transao Suporta granularidade mltipla de tempo Modelo de dados baseado em pontos

Modelo de dados e linguagens de consultas temporais


TQuel

Derivada do Quel

Possui semntica formal


Suporta domnio temporal nico, discreto, infinito e multi-nvel Suporta duas dimenses de tempo: tempo de validade e de transao Variao da representao de timestamp Modelo de dados baseado em pontos No consegue expressar consultas temporais indutivas

Backlogs

Suporta domnio temporal nico, discreto e infinito Duas dimenses de tempo: tempo de validade e tempo de transao

Outras:

HQuel / HTQuel / TempSQL / TBE

BD Temporal em TSQL2

Tipos temporais SQL92


Date
Time Timestamp Interval

Tipos/clusulas temporais adicionais TSQL2


Period Valid Cast Nobind

Exemplo de BD Temporal em TSQL2

Definio da relao Prescription


CREATE TABLE Prescription (Name CHAR(30), Physician CHAR(30), Drug (CHAR(30), Dosage CHAR(30), Frequency INTERVAL MINUTE) AS VALID STATE DAY AND TRANSACTION

Modifique a dosagem p/ 50 mg de maro a maio:


UPDATE Prescription

SET Dosage TO 50 mg
VALID PERIOD[1996-03-01 - 1996-05-30] WHERE Name = Melanie AND Drug = Proventil

BD Temporais e Data Warehouse

reas distintas, porm fortemente relacionadas

DW integra informaes de diversas fontes


heterogneas, montando BD histricos. No DW das vrias dimenses analisadas, tempo a mais importante. Dimenso tempo utilizada para detectar caractersticas

na evoluo dos dados.

Data Warehouse utiliza tecnologia de BD Temporal?

Modelagem e remodelagem de dados para Data Warehouse

DTS - Data Transformation Services (Microsoft OLAP)


mais um conjunto de ferramentas ad-hoc de auxlio transformao de dados do que ambiente integrado de modelagem e remodelagem permite transformar dados via caixas de dilogo ou scripts

dados de origem podem ser de diferentes bases de dados,


tabelas, textos ou uma query permite controle de erros, restries, excees etc mapeamento/tratamento da informao direto e interativo permite converses entre tipos de dados exige casamento de tipos de dados origem e destino transformaes podem ser testadas e acompanhadas

Carga de dados no Data Warehouse

On-Demand-Integration (query-driven)
Para uma dada query:

encontrar fontes de informao relevantes


gerar subquery para cada fonte integrar resultados obtidos e repass-los aplicao.

Sistemas Virtuais

In-Advance-Integration (analysis-driven)
Informaes relevantes extradas antecipadamente das fontes. Filtradas, consolidadas e armazenadas num BD separado. Consultas efetuadas diretamente neste BD. Sistemas Materializados

Arquiteturas de Data Warehouse 1-Estrutura independente (sem arquitetura)


Consulta direta s fontes (ineficientes) Informaes dispersas Menor qualidade dos resultados Mediadores complexos Implementao mais rpida

BD Operacionais

Data Warehouse

Arquiteturas de Data Warehouse 2-Estrutura de Data Marts dependentes

BD Operacionais

Data Warehouse

Data Marts

Arquiteturas de Data Warehouse 2-Estrutura de Data Marts dependentes

Data Marts so subconjuntos do DW

DM recebem seus dados do DW


Orientado por reas (assuntos) Integrado (inconsistncias so eliminadas) Time-Variant No voltil Atualizao dos dados
Wrappers: tradutores de informao Monitor: detecta mudanas Integrador: trata e instala informao no DW

Arquiteturas de Data Warehouse 3-Estrutura de Barramento de DW

DW Bus Data Mart

Data Mart

Data Mart

BD Operacionais

Data Warehouse

Arquiteturas de Data Warehouse 3-Estrutura de Barramento (Bus) de DW


Cada Data Mart parte do DW Data Marts so conectados atravs do bus do DW Repositrios regionais, funcionais, departamentais DW busca informaes diretamente nos DMs Construo bottom-up do DW

Controle centralizado
Flexibilidade localizada Data Marts so mais geis

Integrao de Dados: motivaes e questes


Problema geral independente de warehousing Heterogeneidade: de modelos e de implementao Divergncias: protocolo, arquitetura, descrio de dados, nveis de abstrao, significado preciso dos termos Fontes ricas e complexas de informaes:

Sistemas Legados Internet Bancos e Organizaes Financeiras Bancos de Dados Comerciais e Estatsticos Agncias Governamentais

Necessidade de meios para acesso transparente a fontes diversificadas Requer meta-dados ou conhecimento
que pode ser aproveitado para fornecer informao mais rica

Wrapper/Monitor/Integrador
Data Warehouse Integrador

Wrapper/Monitor

Wrapper/Monitor

Wrapper/Monitor

Fonte

Fonte

Fonte

Mediadores para Integrao de Dados

Middleware inteligente associa fontes de dados e programas aplicativos. 4 passos:


Analisa consulta Identifica fontes de informao relevantes

Gera as sub-consultas para essas fontes


Integra resultados em uma resposta a consulta inicial

Implicaes:
Tendncia de descentralizao Cooperao intersistemas Grande quantidade de dados disponveis Avanos tecnolgicos na comunicao de dados

Mediadores

Aplicaes

Mediador

BD 1

BD 2

BD 3

Exemplo de Esquemas Locais e do Mediador


ESQUEMAS LOCAIS:
BD1 EMP_RIO BD2 EMP_FOR sal2 nome2 email2

sal1 nome1 tel1

ESQUEMA DO MEDIADOR
EMP_M local email

sal

nome

tel

Assertivas de Correspondncia (Mediadores)

Assertivas de Correspondncia de Tipos:


AC1: EMP_M EMP AC2: EMP_M Gen(EMP_RIO, EMP_FOR) AC3: EMP_RIO EMP_M [local = rio] AC4: EMP_FOR EMP_M [local = for]

Assertivas de Correspondncia de Atributos:


AC5: nome nome1 AC6: nome nome2 AC7: sal sal1 AC8: sal sal2 AC9: tel tel1 AC10: email email2 AC11: local [EMP_RIO: rio; EMP_FOR: for]

Exemplo de Consulta (Mediadores)


Select nome, tel, sal, email from EMP_M where nome = Roberto
nome = Roberto tel = 344-9080 sal = 3000 email= rob@net

Mediador
nome1 = Roberto sal1 = 1000 tel1 = 344-9080 nome2 = Roberto sal2 = 2000 email2 = rob@net

Tradutor 1

Tradutor 2

Emp_Rio

Emp_For

Data Warehouse - Telecom Italia


Maior provedor telecomunicaes italiano e o 5o no mundo Atua em 40 paises com 90.000 empregados Motivao: proliferao de BDs legados - grande overhead 1993: iniciou seu projeto estratgico Foco: clientes, fornecedores, rede, administrao 1996: projeto concludo integrando 48 BDs operacionais Estratgia de antecipao de problemas p/ o DW:

extrao / limpeza / reconciliao

Desenvolvimento de ferramentas e metodologias prprias Concluses da Telecom Italia:

Integrao um processo incremental envolvimento de todos os parceiros tecnolgicos estrutura dedicada para gerenciamento da implementao do DW Agendamento processos de extrao/transformao so crticos

Вам также может понравиться