Академический Документы
Профессиональный Документы
Культура Документы
Construir um projeto de Data Warehouse (DW) dispendioso e demora um bom tempo. Tudo depende do tamanho da empresa, do nmero de bases de dados que iro integrar o projeto, interfaces com outros sistemas, quantidade de pessoas na equipe, comprometimento e dedicao para implementao, ferramentas utilizadas, etc. Percebendo isso, os arquitetos, resolveram segmentar a construo do DW, comeando por departamentos a criao do mesmo. Ao invs de fazer o caminho tradicional, que construir um DW e a partir dele os Data Marts (DM), fizeram o contrrio. Comeava-se pelos DMs e esses iriam fazer a alimentao no Data Warehouse (DW). As vantagens so muitas. A principal o tempo de implementao. H alguns casos que um DM para rea comercial foi construdo em apenas 3 meses. Os Data Marts so bancos de dados modelados multidimensionalmente, orientados aos departamentos de uma empresa, por exemplo, a rea comercial, financeira, marketing e logstica construram vrios Data Marts (DM) cada uma. Ao final de dois anos, eles passaram a alimentar um DW que depois de implementado, passou a fazer o caminho inverso, que de alimentar os DM. Ento com essa fundamentao, podemos definir que os DM podem surgir de duas maneiras.
Top-down: quando a empresa cria um DW e depois parte para a segmentao, ou seja, divide o DW em reas menores gerando assim pequenos bancos orientados por assuntos aos departamentos.
Botton-up: quando a situao inversa. A empresa por estratgia sua, prefere primeiro criar um banco de dados para somente uma rea. Com isso os custos so bem inferiores de um projeto de DW completo. A partir da visualizao dos primeiros resultados parte para outra rea e assim sucessivamente at resultar em um Data Warehouse. Ou seja, podemos ir comprandos gavetas a medida que for necessrio, no final teremos um fichrio. Ou podemos comprar um grande fichrio e ir preenchendo as gavetas. A infra-estrutura de software e hardware semelhante, porm a arquitetura dos dados pode ser bem diferente. No DW podemos ter o modelo de dados hbrido ou pode ser completamente relacional, j no DM o modelo totalmente dimensional. A complexidade de tratamento das informaes no DW so maiores, porque temos de olhar toda a estrutura da empresa, j no DM fica mais fcil, pois estamos olhando apenas uma parte dela. Portanto, cabe a cada empresa avaliar a sua demanda e optar pela melhor soluo. Ralph Kimball um defensor da teoria de que o DW deve ser dividido para depois ser conquistado, ou seja, que o mais vivel para as empresas desenvolver vrios Data Marts para posteriormente integr-los e, assim, chegar-se ao DW. Na sua avaliao, as empresas devem construir Data Marts orientados por assuntos. Ao final, teriam uma srie de pontos de conexo entre eles, que seriam as tabelas Fato e Dimens o em conformidade. Dessa forma, informaes entre os diferentes Data Marts poderiam ser geradas de maneira ntegra e segura. Kimball batizou esse conceito de Data Warehouse Bus Architeture. Bill Inmon rebate essa teoria e prope justamente o contrrio. Na sua avaliao deve-se construir primeiro um Data Warehouse, modelando-se toda a empresa para se chegar a um nico modelo corporativo, partindo-se posteriormente para os Data Marts construdos por assuntos ou departamentais. Inmon defende a idia de que o ponto de partida seriam os CIF Corporate Information Factory uma infra-estrutura ideal para ambientar os dados da empresa. O CIF seria alimentado pelos sistemas transacionais. A construo de um ODS (Operational Data Store) seria facultativa, mas essa iniciativa ajudaria a reduzir a complexidade da construo de um DW, uma vez que todo o esforo de integrao entre os sistemas transacionais da empresa seria depositado nele. Os principais passos tomados ao longo da construo de um Data Mart so: Projetar Construir Popular Acessar Gerenciar
Projetar Este o primeiro passo no processo de implementao de um Data Mart. Esta etapa abrange desde a requisio do Data Mart, passando pela coleta de informaes sobre os requisitos at o desenvolvimento das estruturas fsica e lgica do Data Mart. Construir Este passo inclui a criao do banco de dados fsico e de todas as estruturas lgicas que permitiro acesso rpido e eficiente aos dados.
Popular Popular o Data Mart engloba extrair os dados das fontes, filtr-los, modificar toda a informao coletada at a mesma atingir o formato e o nvel de detalhe desejados e mover o resultado para o Data Mart em si. Acessar Esta etapa envolve o uso dos dados armazenados: consultar, analisar, criar relatrios, grficos e public-los. O usurio geralmente utiliza uma interface grfica para consultar o banco de dados e visualizar os resultados das operaes. Gerenciar Este passo envolve a manuteno do Data Mart durante todo seu ciclo de vida. Efetua-se controle de acesso, otimizao de performance, gerenciar o crescimento do data mart e recuperao de falhas.
Top-down: quando a empresa cria um DW e depois parte para a segmentao, ou seja, divide o DW em reas menores gerando assim pequenos bancos orientados por assuntos aos departamentos. Botton-up: quando a situao inversa. A empresa, por estratgia sua, prefere primeiro criar um banco de dados para somente uma rea. Com isso os custos so bem inferiores de um projeto de DW completo. A partir da visualizao dos primeiros
resultados parte para outra rea e assim sucessivamente at resultar em um Data Warehouse. A infra-estrutura de software e hardware semelhante, porm a arquitetura dos dados pode ser bem diferente. No DW podemos ter o modelo de dados hbrido ou pode ser completamente relacional, j no DM o modelo totalmente dimensional. A complexidade de tratamento das informaes no DW maior, porque temos de olhar toda a estrutura da empresa, j no DM fica mais fcil, pois estamos olhando apenas uma parte dela. Portanto, cabe a cada empresa avaliar a sua demanda e optar pela melhor soluo. Segundo estimativas, enquanto um Data Mart custa em torno de US$ 100 mil a US$ 1 milho e leva cerca de 120 dias para estar pronto, um DW integral comea em torno dos US$ 2 milhes e leva cerca de um ano para estar com a sua primeira verso em produo.
reas de Armazenamento
Recepo de dados Sem ndices, sem constraints Carga rpida (bulk loading) Voltil
Dados integrados e organizados por assunto Histrico de informaes da empresa Esquema estrela (fatos e dimenses) No-Voltil Metadados
Dados agregados No possui necessariamente um histrico das informaes Esquema estrela (fatos e dimenses) Pode ser reconstrudo a partir dos dados existentes no DW Pequeno volume de dados Otimizado para consultas pontuais
Tecnologias Utilizadas
Banco de dados (Relacional ou Multi-dimensional) ETL (Extract, Transform and Load) OLAP (On Line Analytical Processing) Data-Mining Importante: Todas essas tecnologias citadas acima tm as suas ferramentas e especializaes adequadas ao negcio. A ltima camada de anlise e mensurao dos dados, o Data Mining (Minerao dos Dados), responsvel por extrair informaes de grandes bancos de dados operacionais para construir segmentos e desenvolver modelos preditivos que so mais adequados para responder pergunta de negcio em mos e existem ferramentas para tal, porm falaremos mais sobre isso nos prximos artigos.
Modelagem Multidimensional
uma tcnica de concepo e visualizao de um modelo de dados de um conjunto de medidas que descrevem aspectos comuns de negcios. utilizada especialmente para sumarizar e reestruturar dados e apresent-los em vises (camada de apresentao) que suportam a anlise dos valores desses dados.
Exemplo de modelo dimensional do Data Warehouse: Um modelo multidimensional formado por 3 elementos bsicos:
Fatos um coleo de itens de dados, composta de dados de medidas e de contexto. Cada fato representa um item, uma transao ou um evento de negcio e utilizado para analisar o processo de negcio de uma empresa. tudo aquilo que reflete a evoluo dos negcios do dia-a-dia de uma organizao. Caractersticas: representada por valores numricos
Dimenses So elementos que participam de um fato, assunto de negcios. So possveis formas de visualizar os dados, ou seja, so os por dos dados: por ms, por pas, por produto, por regio, por funcionrio, e por a vai Dimenses normalmente no possuem atributos numricos, pois so somente descritivas e classificatrias dos elementos que participam de um fato.
Tipos de Dimenses
Dimenso Normal Novas linhas criadas, sem deleo
SCD Tipo 2 Preservao ilimitada de histrico Novas linhas criadas Coluna de status
SCD Tipo 3 Reteno de histrico limitada Dois estados so preservados: novo e antigo Nova coluna criada
Medidas (variveis)
So os atributos numricos que representam um fato, a performance de um indicador de negcios relativo s dimenses que participam desse fato, e que tais nmeros so denominados de variveis. Segundo Kimball, desenvolver um Data Warehouse um questo de casar as necessidades dos seus usurios com a realidade dos dados disponveis. Bom, espero ter acrescentado mais sobre Ambientes de BI bem como os princpio bsicos de construo de DW e DM. Nos prximos assuntos, estarei abordando sobre Arquitetura de DW. At a prxima!