Академический Документы
Профессиональный Документы
Культура Документы
Data Warehouse
Philippe Aubert
phaubert.conseil@gmail.com
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
2
Introduction
Introduction et définitions
3
Définitions
Datawarehouse
Système de Pilotage et
(Système d’Information Décisionnel - SID) OLAP Datamarts
Bases de données
de production
Système Opérant
Introduction et définitions
4
Définitions
• Constat
Les SI opérationnels sont déjà très sollicités
Impossibilité de configurer un même système pour les
deux types de besoins :
Mode d’accès
Opérationnel Décisionnel
Introduction et définitions
5
Définitions
Introduction et définitions
7
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
8
Générations des Systèmes Décisionnels
70’s
• Infocentre de
production
• Reporting
Mainframe
9
L’approche Infocentre de Production (ou
Centralisé)
Aide à la
Infocentre
Décision
Données
80 - 95’s
• Infocentre
relationnel
• Données de
production
70’s dupliquées dans
• Infocentre de une base dédiée
production
• Requêteurs Client-
• Reporting Serveur
Mainframe
11
L'approche Infocentre relationnel
Gestion Infocentre
Traitements Activités
Sites Query Mining
Clients
Décisions
Données métier
Données
95 - 00’s
• Data
warehousing de
première
80 - 95’s génération
• Infocentre • Structuration
relationnel logique &
physique des
• Données de données
production
70’s dupliquées dans • Réflexion sur les
• Infocentre de une base dédiée méta-données &
production la sémantique
• Requêteurs Client-
• Reporting Serveur
Mainframe
13
L'approche Data Warehouse
Aujourd’hui
• Data
95 - 00’s warehousing de
seconde
• Data génération
warehousing de
première • Système
80 - 95’s génération d’information
décisionnel
• Infocentre • Structuration d’entreprise
relationnel logique &
physique des • Référentiels
• Données de données d’entreprise
production
70’s dupliquées dans • Réflexion sur les • Business
• Infocentre de une base dédiée méta-données & Intelligence
production la sémantique Collaborative
• Requêteurs Client-
• Reporting Serveur
Mainframe
15
Le système décisionnel au cœur du SI de
l’entreprise
Gestion Réseau
Données Distribution
Métier
DATA
WAREHOUSE Outils Gestion
Back-Office Campagnes Mkg
Applications Métier
Gestion Production, Gestion
Spécifiques Tableaux Exploration Reporting Requêtes Data
Collaboration
de bord multidim. ad hoc mining
16
Générations d’outils
Aujourd’hui
95 - 00’s
80 - 95’s
70’s
17
Architecture décisionnelle & Processus d’alimentation
Gestion
Commerciale Datamart Requêtes ad hoc
Commerce
Comptabilité
Reporting
Datamart
Finance
Production DATA
WAREHOUSE
Tableaux de bord
Cube
Logistique Logs & Ctrl
Rejets Gestion
Exploration multidim.
SIRH Simulation
Datamart
Flux Marketing Data mining
Externe
Méta-Données
18
Administrateur Administrateur
Etats de Contrôles Reporting Qualité
Technique technico-fonctionnels Contrôle des Données Fonctionnel 18
DSA & ODS : Définition
DATA
WAREHOUSE
19
Infocentre, Data Warehouse et Data Web
Data Warehouse
• Intégrées
• Non-volatiles
• Agrégées en
fonction du
Données temps
externes • Documentées
• Le constat fonctionnel
La donnée n’a pas de sens en elle-même
La donnée est sujette à interprétation
• Le métadictionnaire
Constitue le support de la démarche sémantique
Vecteur de communication autour du data warehouse
Documente le contenu du data warehouse
Aide l’utilisateur dans la conception et la diffusion des
requêtes
Evite l’interprétation
Documente les flux d’alimentation
Aide l’informaticien dans l’administration du data
warehouse
Evite l’incohérence 27
L’approche Data Warehouse
Le modèle de données du Data Warehouse
• Performant pour
pouvoir être accédé en temps réel
optimiser son administration
• Intelligible pour
rendre les utilisateurs autonomes
faciliter son administration
• Evolutif pour
intégrer les nouvelles demandes
intégrer les nouvelles données
intégrer de nouveaux domaines
• 4 grandes fonctions :
3. Administrer
1. Alimenter 4. Restituer
• Exemple d'évolution :
x 5 en 18 mois sur les données
x10 en 2 ans sur les utilisateurs
x n sur la CPU en 2 ans
Transformation
Chargement
Extraction Data
Marts
Présentation
Distribution
Operational
COLLECTE
Intégration
Data Web
Data Store Data
Warehouse
Data
itératif
Marts
L’approche Data Warehouse 33
Tendances Data Warehouse
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
35
Aborder l’analyse des besoins utilisateurs
36
La démarche de mise en œuvre
Des besoins à la modélisation
Utilisation/Restitution
Indicateurs Axes d’analyse
des données
37
La démarche de mise en œuvre
Cycle de vie dimensionnel
Définition de Installation et
l’architecture sélection
technique des produits Maintenance
& Croissance
Conception
Planification Définitio Modélisation Conception du et dév.
du projet n des dimensionnelle modèle des Déploiement
besoins physique systèmes
ETL
Spécification de Développement
l’application de l’application
utilisateur utilisateur
Gestion du projet
38
La démarche de mise en œuvre
Gestion et Planification du projet
• Définir le projet
• Evaluer votre aptitude au Data Warehouse
• Développer l’objectif préliminaire
• Elaborer la justification métier
• Planifier le projet
• Gérer le projet
• Développer le plan de communication
39
La démarche de mise en œuvre
Définir le projet
• Origine de la demande?
40
La démarche de mise en œuvre
Evaluer votre aptitude au Data Warehouse
5 critères :
41
La démarche de mise en œuvre
Evaluer votre aptitude au Data Warehouse
Le cas échéant :
42
La démarche de mise en œuvre
Développer l’objectif préliminaire
43
La démarche de mise en œuvre
Elaborer la justification métier
44
La démarche de mise en œuvre
Planifier le projet
45
La démarche de mise en œuvre
Planifier le projet
46
La démarche de mise en œuvre
Planifier le projet
47
La démarche de mise en œuvre
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
48
Les objectifs de la modélisation
• La quadrature du cercle...
49
La modélisation dimensionnelle
Modèle relationnel normalisé et Data Warehouse
50
La modélisation dimensionnelle
Modèle relationnel normalisé
Rappel
Exemple :
matricule Nom Employé Nom Employé matricule
matricule Nom Service Nom Employé Code Service
matricule Code Service
Code Service Nom Service
51
La modélisation dimensionnelle
Modèle relationnel normalisé
Exemple :
nom : colonne atomique
ville : colonne atomique résidence
adresse : colonne non atomique voie
décomposable en lieudit
code postal
localité
La modélisation dimensionnelle
etc. 52
Modèle relationnel normalisé
Exemple :
La table suivante T (a, b, c, d) contient les dépendances fonctionnelles
suivantes :
ab a, c d
53
La modélisation dimensionnelle
Modèle relationnel normalisé
b
a
c
d
La clé de T est : a, c
54
La modélisation dimensionnelle
Modèle relationnel normalisé
Exemple :
T (a, b, c, d) contient les dépendances fonctionnelles suivantes :
ab ad bc
1) clé de T : a
2) T est en 2nde NF car a b, c ,d
3) T (a, b, c, d) n’est pas en 3ème NF car b c
55
La modélisation dimensionnelle
Modèle relationnel normalisé
56
La modélisation dimensionnelle
La modélisation dimensionnelle
58
La modélisation dimensionnelle
La modélisation dimensionnelle
Valeurs des
Dimension Structure indicateurs
Géographique
Valeur des faits
59
La modélisation dimensionnelle
La modélisation dimensionnelle
60
La modélisation dimensionnelle
Indicateurs
61
Schéma en étoile (star schema)
Produits
IDprod
Periodes Table de faits “ventes” description
couleur
IDper taille
année IDper
fournisseur
trimestre IDprod
mois Magasins
IDmag
jour
IDmag
unités_vendues nom
montant_ventes ville
département
taxes_ventes pays
62
La modélisation dimensionnelle
Schéma en étoile (star schema) : terminologie
• Table de faits :
63
La modélisation dimensionnelle
Schéma en étoile (star schema) : terminologie
• Table de dimension :
fournit le cadre de référence pour l'analyse des indicateurs
stockés dans les tables de fait
recèle des données discrètes, le plus généralement alpha-
numériques,
Enrichies par des propriétés descriptives, exemple :
couleur pour un produit
Structure dénormalisée (2ème forme normale)
• Leurs rôles :
fournir grâce aux hiérarchies dont ils sont porteurs des règles de calcul
d'agrégats
fournir pour l'analyse les cheminements dans l'information de la
synthèse vers le détail (zoom avant / arrière)
65
La modélisation dimensionnelle
Modélisation Dimensionnelle
66
La modélisation dimensionnelle
Axe Temps
67
La modélisation dimensionnelle
Axe Temps
68
La modélisation dimensionnelle
Principe d’un modèle dimensionnel
Dimension conforme
Dimension 4
Dimension 1 Dimension 5
Faits 1 Faits 2
Dimension 2
Dimension 3 Dimension 6
Dimension conforme
69
La modélisation dimensionnelle
Modèle en étoile
• Avantages
Peu de tables à gérer
moins de jointures lors des requêtes
simplification des relations
70
La modélisation dimensionnelle
Modèle en étoile
Dimension Produit
Produit (CP)
Dimension Temps Libellé
Stock
Heure (CP)
Gamme
Date
Dimension
Jour Semaine
N° Semaine Table des faits ventes
Mois Dimension Client
Heure (CE)
Produit (CE) Client (CP)
Dimension Magasin Nom
Magasin (CE)
Magasin (CP) Adresse
Client (CE)
N° Magasin Profil
Employé (CE)
Enseigne Age
Promotion (CE)
Département
Montant ventes
Pays Dimension Promotion
Nbre Unités vendues
Dimension Employé Coût Promotion (CP)
Employé (CP) Libellé Promotion
Matricule Type Promotion
Nom Date début validité
Fonction Date fin validité
Service
71
La modélisation dimensionnelle
Modèle en flocon
• Avantages
bonne visibilité des hiérarchies, meilleure
compréhension
alimentation facilitée (un flux = une entité)
72
La modélisation dimensionnelle
Modèle en flocon & Hiérarchies
Dimension Produit
Produit (CP)
Dimension Temps Libellé
Stock
Heure (CP)
Gamme
Date
Dimension
Jour Semaine
N° Semaine Table des faits ventes
Mois Dimension Client
Heure (CE)
Produit (CE) Client (CP)
Dimension Magasin Nom
Magasin (CE)
Magasin (CP) Adresse
Client (CE)
N° Magasin Profil
Employé (CE)
Enseigne Age
Promotion (CE)
Département
Montant ventes
Pays Dimension Promotion
Nbre Unités vendues
Dimension Employé Coût Promotion (CP)
Employé (CP) Libellé Promotion
Matricule Type Promotion
Nom Date début validité
Fonction Date fin validité
Service
73
La modélisation dimensionnelle
Modèle en flocon & Hiérarchies Gamme (CP)
Libl gamme
Dimension Produit
75
La modélisation dimensionnelle
Flocon ou Étoile ? (2/3)
76
La modélisation dimensionnelle
Flocon ou Étoile ? (3/3)
78
La modélisation dimensionnelle
Avantages et inconvénients du modèle décisionnel
• Avantages :
• Inconvénients :
80
La modélisation dimensionnelle
Règles de modélisation (selon Jean-Marie Gouarné)
81
La modélisation dimensionnelle
Règles de modélisation (selon Jean-Marie Gouarné)
• Exemple :
Produit
Date
DF
Client
82
La modélisation dimensionnelle
Règles de modélisation (selon Jean-Marie Gouarné)
• Solution :
Produit
Date
83
La modélisation dimensionnelle
Règles de modélisation (selon Jean-Marie Gouarné)
• Exemple :
84
La modélisation dimensionnelle
Règles de modélisation (selon Jean-Marie Gouarné)
• Exemple :
CA défini par jour, produit et client
Marge définie par mois et ville
Incompatibilité
Solution : mettre en œuvre un processus ETL permettant le calcul
de la marge au même niveau que le CA, ou séparer les indicateurs
en 2 tables de faits différentes
85
La modélisation dimensionnelle
Règles de modélisation (selon Jean-Marie Gouarné)
Division
commerciale
Agence Direction Régionale
Etablissement
86
La modélisation dimensionnelle
Règles de modélisation (selon Jean-Marie Gouarné)
Solution
Direction
Division
Commerciale
commerciale
Régionale
Agence
Direction
Etablissement Administrative
Régionale
87
La modélisation dimensionnelle
Règles de définition des indicateurs
88
La modélisation dimensionnelle
Règles complémentaires
• Dimensions dégénérées
Dimensions sans attributs ni hiérarchie, généralement importantes
dans le Système Opérationnel mais sans réel intérêt décisionnel :
Numéro de commande,Numéro de facture.
Elles peuvent être conservées dans les tables de faits, sans table
de dimension correspondante
89
La modélisation dimensionnelle
Règles complémentaires
90
La modélisation dimensionnelle
La dénormalisation
• … et inconvénients
complexité de la navigation
91
La modélisation dimensionnelle
La dénormalisation
• Se définit comme
l’introduction de redondances pour faciliter les
requêtes et améliorer les performances
• S’applique :
aux axes d ’analyse (dimensions)
aux tables de faits
92
La modélisation dimensionnelle
La dénormalisation :
Les axes d’analyse
93
La modélisation dimensionnelle
Exemple normalisé
Famille
Id Famille
Code Famille
Sous-Famille Nom Famille
Id Sous-famille
Code Sous-famille
Nom Sous-famille
Module Id Famille
Id Module
Code Module
Nom Module
Produit Id Sous-famille
Id Produit
Code Produit
Nom Produit
Id Module
94
La modélisation dimensionnelle
Dénormalisation par redondance des clés
Famille
Id Famille
Code Famille
Sous-Famille Nom Famille
Id Sous-famille
Code Sous-famille
Nom Sous-famille
Module Id Famille
Id Module
Code Module
Nom Module
Produit Id Sous-famille
Id famille
Id Produit
Code Produit
Nom Produit Dénormalisations par redondance des clés
Id Module
Id Sous-famille
Id Famille 95
Dénormalisation par redondance des données
Famille
Id Famille
Code Famille
Sous-Famille Nom Famille
Id Sous-famille
Code Sous-famille
Nom Sous-famille
Module Id Famille
Id Module Nom Famille
Produit
Code Module
Id Produit Nom Module
Code Produit Id Sous-famille
Nom Produit Id famille
Id Module Nom Famille
Id Sous-famille Nom Sous-famille
Id Famille
Nom Famille Dénormalisations par redondance de données
Nom Sous-Famille
96
Nom Module
La dénormalisation :
Les tables de faits
97
La modélisation dimensionnelle
La dénormalisation :
les + et les -
• Avantages
simplification des requêtes (moins de jointures)
• Inconvénients
augmentation du volume
propagation des changements d ’attributs
98
La modélisation dimensionnelle
L’architecture en bus décisionnel
• Historiquement…
Data Warehouse = ensemble des données de
détail
Data Marts = sous-ensembles fortement agrégés,
constitués à partir de l’entrepôt
• Aujourd’hui…
Construction de l’entrepôt de données étape par
étape, sous forme de datamarts successifs,
détaillés ou agrégés
Évite la planification du data warehouse en une seule
opération, irréalisable dans la plupart des cas
Contrainte importante pour la conception des
dimensions et faits communs à toute l’entreprise
99
La modélisation dimensionnelle
L’architecture en bus décisionnel
• Attention
La démarche itérative de constitution du data
warehouse ne doit pas faire l’impasse sur la
structure conceptuelle de l’entreprise
Risque = data marts indépendants, ne pouvant
communiquer entre eux (Tuyau de poêle –
Stovepipes)
100
La modélisation dimensionnelle
L’architecture en bus décisionnel
Achats
Inventaire magasin
Ventes Magasin
101
La modélisation dimensionnelle
L’architecture en bus décisionnel
• Dimension conforme
(conformed dimension)
102
La modélisation dimensionnelle
L’architecture en bus décisionnel
• Fait conforme
103
La modélisation dimensionnelle
L’architecture en bus décisionnel
104
La modélisation dimensionnelle
Data Mart et niveau de détail
• Dimensions conformes :
Niveau de détail atomique
Permet une meilleure réactivité au changement
• Autres dimensions
Agrégation moins problématique, mais détail
conseillé
• Faits
Stockage sous forme dimensionnelle au niveau
atomique
Mise à disposition en fonction des besoins
utilisateur (agrégat)
105
La modélisation dimensionnelle
DIAGRAMME DE DETAIL DE LA DIMENSION TEMPS
Jour de la semaine
La modélisation dimensionnelle
DIAGRAMME DE DETAIL DE LA DIMENSION CLIENT
Pays
Attributs changeants
Département
Ville
Revenu moyen du foyer
Ménage
La modélisation dimensionnelle
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
108
Rapports et modèle dimensionnel
en France
Années
sur 5 ans
Produits
Clients
Chiffres d'Affaires
et positions
Critères Dimension 2
Dimension 3
Dimension 1
Indicateurs
Filtres Résultats
110
Cubes et agrégats
Vision multidimensionnelle : Cube de données
Date
NumFou 2002 350 600 300
111
Cubes et agrégats
Représentation d’un cube
112
Le data cube et les dimensions
Variables analysées:
Nb unités, CA, marge...
Magasin Jour
Mois
114
Cubes et agrégats
La navigation multidimensionnelle
Région
Temps en semaines
Réduction selon 1 dimension
Produits Zoom selon une dimension
France
• Drill up / Drill Down : désigne la faculté d’aller du niveau global vers le niveau
détaillé, et inversement.
…… …… …… ……
300 300 700 Drill Up
Réfrigérateur
116
Opérations d’analyse multidimensionnelle (2)
117
L'algèbre des cubes
118
Cubes et agrégats
Les vues d'un cube
119
Cubes et agrégats
Extension de SQL
• ROLLUP: • CUBE:
SELECT <column list> SELECT <column list>
FROM <table…> FROM <table…>
GROUP BY
GROUP BY
ROLLUP(column_list);
CUBE(column_list);
• Crée des agrégats à
n+1 niveaux, n étant le • Crée 2n combinaisons
nombre de colonnes d'agrégats, n étant le
de groupage nombre de colonnes
n, n-1, n-2,…0 colonnes de groupage
120
Cubes et agrégats
Exemple CUBE
122
Cubes et agrégats
La navigation dans les dimensions
Région
Concession
Année
Vendeur
Marque
Mois
Modèle
Jour
Journées Véhicule
de ventes
123
Cubes et agrégats
La navigation dans les dimensions
Région
Concession
Année
Vendeur
Marque
Mois
Modèle
Ventes mensuelles
Jour des Concessions
par Modèle Véhicule
124
Cubes et agrégats
Les 12 règles multidimensionnelles OLAP
• Vue multidimensionnelle sur les données
• Transparence pour les utilisateurs, de l’hétérogénéité des sources de données
• Accessibilité
• Performances stables et indépendantes de la complexité dimensionnelle des
contextes d’analyse
• Architecture Client-Serveur
• Traitement générique des dimensions, c’est-à-dire possibilité d’effectuer le
même type d’opération sur toutes les dimensions
• Gestion dynamique efficace des matrices creuses, c’est-à-dire aptitude à ne
pas encombrer la mémoire de la machine avec les cellules correspondant à
des combinaisons dimensionnelles nulles
• Possibilité d’accès simultané à un même contexte d’analyse pour plusieurs
utilisateurs
• Possibilité d’effectuer, sans restriction technique, des calculs sur toutes les
combinaisons possibles de dimensions et de niveaux hiérarchiques
• Manipulation intuitive des données
• Flexibilité des restitutions
• Absence de limite a priori dans le nombre de dimensions et dans le nombre de
niveaux hiérarchiques par dimension 125
Les hiérarchies OLAP
Hiérarchie
Segmentations Total
G1 G2
L1 L2 Ln
P1 P2 Pn
S1 Sn
Axe d'analyse
P1 P2 Pn L1 Ln G1 G2 Total
segments
126
Cubes et agrégats
Les axes d’analyse OLAP...
Hyper-cube
Axe d'analyse
Valeur
S1 (S1,S2,S3)
S3 Axe
d'analyse
S2
Axe
d'analyse
127
Cubes et agrégats
Modèles star et snowflake : transposition du
modèle multidimensionnel
Dim 2
Indicateur
Dim 1
Faits
Dim 3
OLAP OLTP
128
Cubes et agrégats
Modèles star et snowflake : transposition du
modèle multidimensionnel
Axe 1
Hiérarchie 1
Axe 2
Gamme
Famille
Faits
Produit
Axe 1
Hiérarchie 1
Axe 3
Cubes et agrégats
OLAP OLTP 129
Mise en œuvre du modèle dimensionnel
130
Cubes et agrégats
Cubes OLAP
• Les cubes OLAP sont basés sur des données collectées et agrégées au sein
des entrepôts de données.
• Les utilisateurs accèdent aux cubes OLAP grâce à des outils d’analyse offrant
ainsi la capacité de réaliser à la volée des tableaux de synthèse et rapports
graphiques.
131
La technologie matricielle : hypercube & OLAP
132
Cubes et agrégats
Composantes OLAP
multidimensionnel ou relationnel)
Serveur OLAP :
Gère la structure multidimensionnelle dans le SGBD
Module client :
Permet aux usagers de manipuler et d’explorer les données
tableaux
• Selon le type de base de données accédé, plusieurs
configurations sont possibles : multidimensionnelle,
relationnelle ou hybride
133
Cubes et agrégats
MOLAP (OLAP Multidimensionnel)
134
Cubes et agrégats
MOLAP (OLAP Multidimensionnel)
135
Cubes et agrégats
ROLAP (OLAP Relationnel)
136
Cubes et agrégats
ROLAP (OLAP Relationnel)
Serveur ROLAP
Client OLAP
Base de données
relationnelle Vue
(étoile ou flocon) multidimensionnelle
137
Cubes et agrégats
HOLAP (OLAP Hybride)
138
Cubes et agrégats
HOLAP (OLAP Hybride)
139
Cubes et agrégats
MOLAP vs ROLAP vs HOLAP
requêtes
(habituellement)
140
Cubes et agrégats
Moteur OLTP vs OLAP
OLTP OLAP
(On-line transaction processing) (On-line analytical processing)
Outil de requête tributaire de la Absence d’outil de requête i.e.
structure de données (un usager l’usager interagit directement avec
doit connaître la structure de la les données
base de données pour l’interroger
efficacement).
Requêtes principalement du type
Requêtes “non-agrégatives” i.e. “agrégatif” i.e. calculs de totaux,
visitent peu d’enregistrements, variance, maxima et minima, etc…
mais mettent à contribution les
techniques d’indexation pour
retourner un nombre relativement
restreint d’enregistrements
répondant à certains critères.
141
Cubes et agrégats
Moteurs OLAP
Databeacon Analyse & Reporting Web Solution Web M-OLAP Java, Orienté PME-PMI
Oracle
(ex-Hyperion) Essbase Le moteur M-OLAP le plus répandu
142
Cubes et agrégats
Modèle décisionnel : problème ...
143
Cubes et agrégats
L’agrégation (1/4)
144
Modèles star et snowflake :
la production des agrégats ...
Gamme Groupe
Famille Fournisseur
Pays
Rayon
Région
Ventes
Produit
Département
Magasin
Niveau de détail conservé 145
Cubes et agrégats
Modèles star et snowflake :
la production des agrégats ...
Gamme Groupe
Famille Fournisseur
Pays
Rayon
Région
Ventes
Produit
Département
Magasin
Niveau de la demande utilisateur 146
Cubes et agrégats
Principe ...
Gamme Groupe
Famille Fournisseur
Pays
Rayon
Région
Ventes
Produit
Département
N tables de faits chacune constituant
un plancher à partir duquel peuvent Magasin
être produits des agrégats
147
Cubes et agrégats
Mise en œuvre ...
1 - identification de
la table de fait
"plancher" grâce à
Ventes un dictionnaire
148
Cubes et agrégats
L’agrégation (2/4)
149
L’agrégation (3/4)
150
L’agrégation (4/4)
• Où les positionner ?
Dans les datamarts
Dans l’entrepôt
s’ils sont utiles dans plusieurs datamarts, compte tenu
du coût de fabrication et de maintenance
151
Modéliser les agrégats…
152
Types d’agrégats
• Agrégat simple
Exploite une hiérarchie dans une dimension
Exploite isolément un attribut «porteur» d’une dimension
Somme des données numériques
• Agrégat complexe
Recalcule les données semi additives
Applique une règle de calcul «métier»
153
Modèle en flocon et agrégats
Version normalisée
VENTES
CALENDRIER JOURNALIERES STRUCTURE DE
Date du jour PAR GAMME GAMME
Année Date du jour Code Gamme
Mois Code Implantation Libellé gamme
Jour de la semaine Code Gamme
Quantité Vendue
Chiffre d’affaires
Marge
VENTES PRODUIT
JOURNALIERES Code Produit
Date du jour Code Gamme
IMPLANTATION
Code Implantation Nom Produit
Code Implantation
Code Produit Packaging
Code Région
Quantité Vendue Unité de prix
Date ouverture
Chiffre d’affaires Code chef de produit
Enseigne
Marge
Devise
VENTES
ANNUELLES
REGIONALES
REGION
PAR GAMME
Code Région
Année
Nom Région
Code Région
Code Gamme
Quantité Vendue
Chiffre d’affaires
Marge
154
Modèle en flocon et agrégats
Version dénormalisée
VENTES
CALENDRIER JOURNALIERES STRUCTURE DE
Date du jour PAR GAMME GAMME
Année Date du jour Code Gamme
Mois Code Implantation Libellé gamme
Jour de la semaine Code Gamme
Quantité Vendue
Chiffre d’affaires
Marge
VENTES PRODUIT
JOURNALIERES Code Produit
Date du jour Code Gamme
IMPLANTATION
Code Implantation Nom Produit
Code Implantation
Code Produit Packaging
Code Région
Quantité Vendue Unité de prix
Date ouverture
Chiffre d’affaires Code chef de produit
Enseigne
Marge
Devise
VENTES
ANNUELLES
REGIONALES
REGION
PAR GAMME
Code Région
Année
Nom Région
Code Région
Code Gamme
Quantité Vendue
Chiffre d’affaires
Marge
155
Agrégats : Avantages / Inconvénients
• L‘avantage
Gains de performances importants (sur les agrégats)
• Les inconvénients
Assurer la transparence pour les outils clients
Sélection dynamique et transparente de la table
d’agrégats
Evolution de l’offre : Microstrategy, Sagent
Nécessite un suivi strict de l’usage du data warehouse
Impose des contraintes en termes d’administration
Les données sont dupliquées
Les procédures de chargement sont plus complexes
Explosion de la volumétrie
156
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
157
Les optimisations physiques
158
Les optimisations physiques
Les index bitmap
159
Les optimisations physiques
Un principe : l’association des critères
160
Les optimisations physiques
Importance des index
• Réorganisation périodique
162
Les optimisations physiques
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
163
Data Warehouse : les structures de données ...
vues par l'utilisateur final
OLAP
Utilisateur
OLTP
OLTP
OLAP
Utilisateur
BASE
Méta données
BASE
Méta données Utilisateur
Processus de transformation
des événements et paramètres
Evénements
Gestion de gestion
Indicateurs
DSA
Paramètres A Temps
Info de gestion
Dimension Indicateurs
centre
A
B C
Dimension
Données de
Sources référence B
externes Dimension
C
Processus de transformation
des données de référence
en dimensions ou axes d'analyse
• Pour l'alimentation :
les sources sont multiples (plusieurs dizaines) :
internes
externes
les référentiels sont hétérogènes
les sources ne sont pas synchrones
les sources sont concurrentes en mise à jour (des règles
de priorités doivent être gérées)
les règles de gestion sont multiples pour chaque flux
(contrôle, filtrage, formatage, calcul, ...)
• Pour la fabrication :
les besoins en données de synthèse :
agrégats de premier niveau (obtenus en exploitant les liens
hiérarchiques sur les axes d'analyse)
formes de présentation dans le temps (flux, cumul, moyenne)
agrégats de second niveau (obtenus par application d'une
formule de calcul)
le volume des données stockées
les traitements de diffusion des données
• Pour l'alimentation :
la recherche d'une mutualisation des traitements communs
exemple : les contrôles de nature référentielle
• Pour la fabrication :
la recherche d'une mutualisation des traitements
communs
la recherche du stockage optimum par un choix judicieux
de répartition données / traitements
Présentation
Donnée 5 Donnée 1
Calcul
Donnée 2
Lecture
Donnée 4
Donnée 3
Confidentialité
Donnée n
L’Architecture technique 173
Les modèles du Data Warehouse
Données Données
du système externes
d'information
Documentation fonctionnelle
Documentation technique
Modèle(s) de collecte
Modèle d'intégration
Modèle(s) de distribution
Modèle(s) de présentation
Transformation
Chargement
Extraction Data
Marts
Présentation
Distribution
Operational
COLLECTE
Intégration
Data Web
Data Store Data
Warehouse
Data
itératif
Marts
L’Architecture technique 176
Applications de gestion
Zone de production
Intégration
Axes
d’analyse
de gestion
de gestion
Indicateurs
Paramètres
Schéma d’architecture général
Bases de données
Zone technique
Zone de référence
Distribution
Zone de Data Warehouse
Zone de chargement des données
Data Warehouse
Outils de restitution
177
La zone de chargement des données
(Data Staging Area – DSA)
Outils du marché :
indispensables sur de gros projets, ils assurent une
amélioration de la productivité à long terme, mais
nécessitent un temps de mise en œuvre et
d’apprentissage élevé
Fonctions :
1. Extraction
l Sources multiples
l Génération de code
l Types d’extraction multiples (chargements incrémentaux,
événements transactionnels, actualisation)
l Réplication
L’Architecture technique 181
Les outils de transformation de données ETL
2. Transformation
l Intégration (clés de substitution, codes en libellés, etc.)
l Gestion des méta-données
l Maintenance de dimensions changeantes
l Intégrité référentielle
l Dénormalisation / renormalisation
l Nettoyage, déduplication, fusion et purge
l Conversion de types de données (EBCDIC – ASCII, dates,
etc.)
l Calcul, dérivation, affectation
l Création d’agrégats
l Contrôle du contenu des données
l Traçabilité
l Gestion des valeurs nulles
l Appel à des outils externes
L’Architecture technique 182
Les outils de transformation de données ETL
3. Chargement
l Cibles multiples (data marts OLTP, OLAP)
l Gestion du processus et optimisation du chargement
SQL Server Integration Services (SSIS) Microsoft ETL intégré à SQL Server 2005 (successeur de DTS)
Oracle Data Integrator (ex Sunopsis) Oracle
Talend Open Studio talend open source
Transformation Server Data Mirror
Warehouse Builder Oracle Corporation
• Profil clé :
Compréhension globale du système décisionnel
Connaissances métiers (sans être un expert !)
Maîtrise des processus d’exploitation
• Rôle :
Contrôler la qualité des flux échangés et des données
stockées dans l’entrepôt
Identifier et diagnostiquer les incidents et les
problèmes
Coordonner les actions correctrices
Côté Exploitation
Côté Etudes
• Contraintes :
Volumes importants
Disponibilité d’espace libre sur les supports de backup
Disponibilité d’une fenêtre temporelle d’exploitation (le plus souvent la
nuit)
Complexité particulière à gérer si les utilisateurs sont répartis sur
plusieurs fuseaux horaires.
Datamart
Engagement
Requêtes ad hoc
Infos Prêt
BusinessObjects
Datamart
Infos DATA Float
ODS
Tenue Cpte WAREHOUSE
Informations TC Datamart
Infos Client Tdb
Compta Excel
Méta-données
Datamart
Engagement
Requêtes ad hoc
Infos Prêt
BusinessObjects
Datamart
Infos Tenue DATA Float
ODS Informations
Cpte WAREHOUSE
Comptables
Informations TC Datamart
Infos Client Tdb
Compta Excel
Méta-données
Datamart
Engagement
Requêtes ad hoc
Infos Prêt
BusinessObjects
Informations
Prêt Datamart
Infos Tenue DATA Float
ODS Informations
Cpte WAREHOUSE
Comptables
Informations TC Datamart
Infos Client Tdb
Compta Excel
Méta-données
Datamart
Engagement
Requêtes ad hoc
Infos Prêt
BusinessObjects
Informations
Prêt Datamart
Infos Tenue DATA Float
DSA ODS
Cpte WAREHOUSE
Informations TC Datamart
Infos Client Tdb
Compta Excel
Méta-données
Base
Modélisation
de Données
Dictionnaires Fonctionnel, Dictionnaire Technique
Dimensionnel, Technique Administration
Méta-
Dictionnaire
Outil Outil
d ’Alimentation de restitution
Dictionnaire Technique Suivi des usages
Administration 194
Méta-dictionnaire : Modèles
Méta-Modèle
Modèle de données spécifique
ETL
Tables Internes Outil de Modélisation
Tables Internes
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
197
Les applications utilisateur (Front room)
198
Les applications utilisateur
Les applications utilisateur (Front room)
199
Les applications utilisateur
Implémentation
200
Les applications utilisateur
Terminologie & Exemples
202
Exemple de tableau de bord de pilotage
203
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
204
Data Mining
205
Le Data Mining
Définition
• Data mining
ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen
Données Data
entrepôt mining Connaissances
Découverte de Compréhension
modèles Prédiction
206
Le Data Mining
Connaissances
207
Le Data Mining
Mécanismes de base
208
Le Data Mining
Domaines d'application
209
Le Data Mining
Quelques domaines réputés
210
Le Data Mining
Churn Analysis
• Application de télécom
• Bases de données des clients et des
appels
• Fichiers des réclamations
• Qui sont les clients le plus susceptibles de
partir ?
• Application de techniques de DM
• Fichiers de 1000 clients les plus risqués
• 600 ont quittés dans les 3 mois
211
Le Data Mining
Trading Advisor
• Application boursière
conseil en achat / vente d'actions
• Données de base
historique des cours
portefeuille client
• Analyse du risque
• Analyse technique du signal
• Conseils d'achat – vente
• Mise à disposition sur portail Web
212
Le Data Mining
Principales Techniques
• Dérivées
des statistiques (e.g., réseaux bayésiens)
de l'analyse de données (e.g., analyse en composantes)
de l'intelligence artificielle (e.g., arbres de décision, réseaux
de neurones)
des bases de données (e.g., règles associatives)
• Appliquées aux grandes bases de données
• Difficultés :
passage à l'échelle et performance
fonctionnement avec échantillon > qq milliers
présentation et validation des résultats
213
Le Data Mining
Quelques produits
214
Le Data Mining
Sommaire
• Introduction et définitions
• L’approche Data Warehouse
• La démarche de mise en œuvre
• La modélisation dimensionnelle
• Cubes et agrégats
• Les optimisations physiques
• L’Architecture technique
• Les applications utilisateur
• Le Data Mining
• Synthèse
215
Data Warehouse : les méthodes traditionnelles
ne sont pas adaptées ...
216
Synthèse
Data Warehouse : les méthodes traditionnelles
ne sont pas adaptées ...
Objectifs et Fonctionnelle
priorités applicative
valeur technique
ajoutée /
délai
stratégie de
découpage
mise en oeuvre
6 à 8 semaines 8 à 10 incrémentale,
semaines
4 à 6 mois par itération
218
Synthèse
Data Warehouse : où sont les difficultés dans la
mise en œuvre ...
20 %
Restituer Alimenter
60 %
• Répartition
par fonction
de la charge Alimenter
de travail 80 % 20 %
fabriquer
fabriquer
administrer 20 % fonction
administrer des moyens et
outils
219
Synthèse
Data Warehouse : où sont les difficultés dans la
mise en oeuvre ...
220
Synthèse
Data Warehouse : pourquoi l'intégration est-elle
si difficile ...
221
Synthèse
Data Warehouse : pourquoi l'intégration est-elle
si difficile ...
• Au plan technique :
les environnements techniques sont multiples
les structures et formats de stockages sont multiples
les langages et outils de développement sont multiples
la compétence technique n'existe plus ou n'est pas
disponible
les performances de chargement sont critiques dans la
fenêtre d'exploitation
222
Synthèse
Eléments de solution d'architecture DW...
223
Synthèse
Data Warehouse : où est le problème ...
OLTP
Utilisateur
• Périmètre et coûts
réduits
• mise en oeuvre
simplifiée Mais les difficultés
Synthèse • délai raccourci apparaissent vite ... 225
La multiplication des Datamart ...
OLTP
Niveau DataMart
Utilisateur
OLTP
N sources, N xM process
M Datamart d'alimentation 226
Synthèse
Conséquence de la multiplication
des Datamarts ...
227
Synthèse
La solution...
OLTP
228
Synthèse
La première étape de la mise en oeuvre...
229
Synthèse
Evoluer progressivement ...
230
Synthèse
Restent toutefois quelques points sensibles...
231
Synthèse
Outils ...
Logiciels de réplication :
Pour propager les mises à jour effectuées
dans une base source vers une ou des bases
cibles
Logiciels de transformation :
pour assurer la fabrication de données cibles
à partir de données sources en leur
appliquant des règles de transformation
232
Synthèse
Leur utilité... au niveau de la source
233
Synthèse
Leur utilité... la transformation
234
Synthèse
Leur utilité... au niveau de la cible
235
Synthèse
Les apports escomptés
• Productivité
• Normalisation
• Evolutivité et maintenabilité (documentation,
référencement des processus, traçabilité, étude
d'impact, ...)
• Performance
• Qualité et Fiabilité des produits finis
• Indépendance vis à vis des structures de
stockage
• ...
236
Synthèse
Data Warehouse et performance ...
237
Synthèse
Bibliographie (1/2)
238
Bibliographie (2/2)
239
Adresses Internet
• Ralph Kimball
http://www.ralphkimball.com
• Decideo
http://www.decideo.fr
• Wikipedia
http://fr.wikipedia.org/wiki/Entrepôt de données/
240