Вы находитесь на странице: 1из 33

Sistemas de Apoio Deciso

Data Warehouses Introduo


Definies Motivaes Data Mart Metadados Caractersticas de um Data Warehouse Ferramentas mais utilizadas

Definio
um conjunto de dados atuais e do passado extrado periodicamente (diariamente, semanalmente, mensalmente ou qualquer outro perodo em que haja viabilidade e convenincia) de sistemas de informao transacionais, operacionais ou gerenciais (folha de pagamento, faturamento, planejamento e controle de produo, controle de estoques, contas a pagar, contabilidade, etc.), de um ERP ou de qualquer aplicao que contenha dados teis, assim como de fontes externas (fornecedores, clientes, bancos, parceiros, governo, terceiros em geral, internet, etc.), armazenado em um banco de dados projetado para facilitar tanto a anlise de dados de modo eficiente como a obteno de relatrios (especialmente atravs de tcnicas OLAP), com o objetivo de dar suporte tomada de deciso. Durante a extrao os dados so filtrados de modo a ignorar os que no so de interesse.

Definio - continuao
Data Warehouse Data warehouse uma base de dados de grande dimenso que armazena um histrico de dados com o objetivo de apoiar a tomada de deciso So construdas normalmente a partir dos dados das bases de dados operacionais ou de fontes externas

Motivao
Parte da informao que o gestor precisa para tomar decises externa organizao, mas h outra grande parte que interna

Motivao - continuao
A DW a soluo para responder a muitas afirmaes e interrogaes que se ouvem habitualmente em muitas organizaes. Temos toneladas de dados nesta empresa e no conseguimos nada sobre eles! Mostra-me apenas os resultados importantes! Toda as pessoas sabem que algumas dessas informaes no interessam para nada! Preciso de informaes comparativas sobre as vendas por trimestre nas vrias lojas do pas.

Data Mart
Representa normalmente um subconjunto de dados de uma DW Os dados so respeitantes a uma rea especfica da organizao So criadas normalmente com o intuito de respostas rpida s necessidades numa dada atividade

Metadados
fundamental documentar tudo numa DW. Uma BD deste tipo normalmente gigantesca e se no existir uma documentao eficiente, ser difcil perceber o seu contedo Os metadados so definidos como dados sobre dados. S que a complexidade desses dados no Data Warehouse aumenta muito.

Metadados - Continuao
Segundo Inmon os metadados englobam a DW, guardando informaes sobre o local onde se encontra tudo. Segundo Inmon os metadados guardam as seguintes informaes:
A estrutura dos dados segundo a viso do programador A estrutura dos dados segundo a viso dos analista de SAD A fonte de dados que alimenta o DW A transformao sofrida pelos dados no momento de sua migrao para o DW O modelo de dados O relacionamento entre o modelo de dados e o DW O histrico das extraes de dados

Caractersticas de um DW
As principais caractersticas e requisitos de uma DW so:
Orientao para assuntos especficos Integrao e consistncia Dependncia do tempo Otimizao das queries. As queries devem ser rpidas. A qualidade dos dados de uma DW depende da qualidade dos dados das fontes de dados

Caractersticas - Continuao
Orientao para assuntos especficos A DW armazena informaes agrupadas por assuntos. Ex: clientes, produtos, fornecedores, produtividade. Nas bases de dados transacionais, as informaes esto agrupadas por funes ou processos desenvolvidos para manter as transaes realizadas diariamente; Ex: compras, vendas, faturamento. S interessam para a DW dados relevantes para a tomada de deciso

Caractersticas - Continuao
Integrao e consistncia dos dados Todos os dados (nomes, variveis, etc) so padronizados de forma a no haver na DW formas diferentes para representar a mesma coisa; Ex: dados extrados a partir de vrias bases de dados transacionais podem representar o sexo do indivduo por M,F ou 1,0 ou m,w ou homem, mulher etc. Esta caracterstica faz com que estes dados adicionados DW passem a ter uma nica representao. Garantir que duas pessoas recebem os mesmos dados, mesmo que sejam feitos em momentos diferentes. necessrio integrar e dar consistncia aos dados antes de os armazenar numa data warehouse. Dependncia do tempo Numa DW, os dados so recolhidos ao longo do tempo. Ao adicionar-se dados DW, adicionado igualmente o instante temporal no qual aconteceram .

Caractersticas - Continuao
Otimizao das queries Fatos: 1 - DW armazenam grandes quantidades de dados 2 - Uma consulta a uma DW pode representar uma grande quantidade de informao (registros) Como as consultas so o nico tipo de operaes que se podem efetuar numa DW, ento qualquer tipo de otimizao deve ser pensada em termos de consultas (< tempo) - necessrio desnormalizar o modelo fsico de dados

Ferramentas mais utilizadas


Oracle
SQL Server (Analysis Services) Erwin Hyperion Essbase Micro Strategy

Conceitos Fundamentais em Data Warehousing


3.1. Bases de Dados Operacionais versus Data Warehouses 3.2. Modelo Dimensional/Estrela 3.3. Tabela de Factos 3.4. Tabelas de Dimenso 3.5. Dimenses Heterogneas 3.6. Granularidade 3.7. Etapas do Processo de Design de uma Data Warehouse 3.8. Caso de Estudo 1 Cadeia de Supermercados 3.9. Caso de Estudo 2 Armazns

Bases de Dados Operacionais versus Data Warehouses

Bases de Dados Operacionais versus Data Warehouses

Bases de Dados Operacionais versus Data Warehouses

Bases de Dados Operacionais versus Data Warehouses

Modelo Entidade-Relacionamento (E-R) Caracteriza-se: Por ser um modelo conceptual suficiente para descrever uma base de dados que posteriormente poder ser implantada em diferentes SGBD s. Por permitir uma fcil leitura das necessidades e da organizao de uma base de dados. Por ter normalmente muitas tabelas. Pelo aumento de complexidade na mesma medida do aumento do nmero de tabelas. Por permitir aumentar a performance da base de dados, j que, quando normalizado, permite diminuir a redundncia de dados. Por ser complexo, para queries que envolvam muitas tabelas (difcil compreenso por parte dos utilizadores e difcil navegao por parte do software).

Bases de Dados Operacionais versus Data Warehouses


Anlise dos dados de uma BD operacional
Inconsistncia dos dados Diferentes convenes aplicadas aos nomes dos atributos Instante temporal em que feita a anlise No h uma viso temporal da evoluo de um dado processo (vendas, compras, etc). Resultados reflectem uma perspectiva local

Soluo
Data Warehouses (utilizando o Modelo Dimensional ou Modelo em Estrela)

Modelo Dimensional/Estrela
Modelo Dimensional ou Modelo em Estrela Cubo (n-dimensional)

Modelo Dimensional/Estrela
Modelo Dimensional ou Modelo em Estrela Constitudo por 2 tipos de tabelas: Uma Tabela de Fatos Grande dimenso Est no centro do esquema em estrela Vrias Tabelas de Dimenso Pequena dimenso relativa Esto nas pontas da estrela As tabelas de dimenso esto unicamente ligadas tabela de fatos atravs de campos chave das tabelas de dimenso que esto igualmente inseridos na tabela de fatos como chaves estrangeiras (relao 1 para n).

Modelo Dimensional/Estrela

Modelo Dimensional/Estrela
No modelo em estrela as tabelas so tipicamente desnormalizadas Desta forma est otimizado para consultas sobre grandes volumes de dados so mais rpidas j que so necessrias menos junes de tabelas (que diminuem bastante o desempenho)

Modelo Dimensional/Estrela
O esquema anterior representa uma cadeia de supermercados que vende produtos em vrios supermercados e mede a performance dessas vendas ao longo do tempo. longo do tempo. A tabela de facos armazena os totais das vendas dirias (granularidade) por produto vendido e por supermercado, i.e., cada registro da tabela de fatos representa o total de vendas de um determinado produto num supermercado num dia. Se a empresa:

Tiver 500 supermercados Tiver 50 000 produtos por supermercado Armazenar informao diria das vendas por produto Armazenar por um perodo de 2 anos A tabela de fatos armazenar mais de 1 bilio de registos.

Tabela de Fatos
A tabela de fatos armazena as medidas numricas (fatos) do negcio. As medidas so aquilo que se consegue medir dentro da organizao
No exemplo anterior, as medidas numricas so preo_venda , unidades_vendidas e preo_compra

Os fatos podem ser pr-calculados (e.g., margem de lucro de um artigo, se existirem as medidas preo de venda e preo de compra ou de produo)

Tabela de Fatos
Outro tipo de factos
Semi-aditivos

Quando so aditivos apenas para algumas dimenses Ex: Nmero de clientes no aditivo ao longo da dimenso produto 15 clientes compraram leite magro e 7 sumo Compal. Quantos que compraram os 2 produtos???????? Qualquer anlise baseada neste fato deve envolver um nico produto

Tabela de Fatos
Os melhores fatos so os numricos e aditivos Numa tabela de fatos, os campos ou so campos chave (chaves estrangeiras) ou so medidas Se no existirem vendas de um determinado produto, num determinado dia e loja, essa informao no deve ser adicionada tabela de fatos.
A tabela de fatos sempre esparsa

Tabela de Dimenses
Tabelas que armazenam informaes sobre as vrias dimenses do negcio (tempo, produtos, lojas, etc). Estas tabelas tm normalmente muitos atributos (uma chave primria normalmente numrica). So desnormalizadas com hierarquias. Ex: ano ms semana -dia pas distrito conselho -cidade

Tabela de Dimenses
Os vrios atributos so utilizados para definir restries s queries e utilizados como cabealhos das linhas na resposta do sistema s mesmas queries. Os registros das tabelas de dimenso s normalmente indexadas pela chave primria Entre 4 e 12 numa DW tpica (1 tabela de fatos) A tabela de dimenso Tempo fundamental em qualquer DW para poder fazer consultas por dia, ms , etc., ou ainda por perodos homlogos

Dimenses Heterogneas
quando uma tabela de dimenso contm entidades que dizem respeito ao mesmo objeto de negcio, mas so caracterizadas por um conjunto distinto de atributos Exemplo:
Uma Data Mart para uma Seguradora em que na tabela produtos temos seguros de vida, seguros de acidentes pessoais, seguros do ramo automvel, etc. Cada um desses tipos de seguros tem as suas especificidades que iro corresponder a um conjunto de atributos especficos Iro existir muitos atributos em branco Iro existir muitos atributos em branco