Академический Документы
Профессиональный Документы
Культура Документы
Elisabeth Métais
L’entrepôt de données dans la ligne décisionnelle
Extracteur
Integrateur
Referentiel
Extracteur
Entrepôt de
données
Extracteur
Sources Décideurs
2
Définitions
Définition 1 (Goglin) : un entrepôt de données est un stockage
intermédiaire de données issues des applications de
production, dans lequel les utilisateurs finaux puisent avec des
outils de restitution et d’analyse.
3
" Thèmatiques "
• Exemples :
• Dans les bases de données opérationnelles : assurance
vie, assurance automobile, paye, facturation.
6
" agrégées "
• Niveau de granularité.
•Exemple :
• Stockage de tous les appels téléphoniques pour un client
APPEL_TELEPHONIQUE (n° client, horo-date, durée,
correspondant, étranger, etc...)
(300 clients, 200 tuples par client, 60000 tuples d’appels).
• Stockage agrégé par client sur 1 mois
APPEL_TELEPHONIQUE (n° client, mois, nombre
d’appel, durée moyenne, nombres d’appels vers
l’étranger)
(300 tuples d’appels). 7
" prise de décision"
• Quel est le volume des ventes par produit, par région, pour le
3ième trimestre 2003 ?
• Quel est le volume des ventes de produits laitiers, pour la
région parisienne, par an, pour les 5 dernières années ?
• Quel est le type de produits dont les ventes baissent
constamment dans les 6 derniers mois de l’année en cours ?
• Est-ce qu’une baisse de 10% ferait redémarrer les ventes de
disques ?
10
Différences transactionnel / décisionnel
Transactionnel Décisionnel
Données - sur une période courte - historisées
- détaillées - agrégées
- personnelles - peuvent être anonymes
- mises à jour - recalculées
- temps de validité, de - temps de validité, de
transaction transaction, d’extraction
Traitements - requêtes simples - requêtes complexes
- répétitives - variées
- très sensible aux - échelle de performance
performances différente
11
Différences transactionnel / décisionnel
Transactionnel Décisionnel
Conception - orientée fonction - orientée sujet
- relativement statique - évolutif
12
Les sources
• Vieilles sources.
14
L'extraction des données
3 principales techniques :
• Ecrire des interfaces entre les sources et l'entrepôt,
• Exploiter les fonctionnalités de réplication offertes par les
SGBD,
• loader, triggers, passerelles, copies, logs, vues, etc …
• Utiliser un outil ETL
• génère les programmes d'alimentation,
• peut gérer leur déroulement,
• intégration de données.
16
L'intégration des données
Destinées
18
Les meta-données
2 principales utilités
Responsables des
processus (équipes, outils)
19
Les meta-données
• Besoin de standardisation :
• Metadata Council (95, groupe de vendeurs),
• OIM (96, « Open Information Model » de
microsoft)
• CWMI (98, « Common Warehouse Metadata
Exchange » OMG)
20
Les magasins
• sous-ensemble de l’entrepôt,
• temps d’accès réduits, volume réduit, coût réduit,
• orienté vers un sujet particulier,
• les données sont adaptées à une classe de décideurs ou à
un usage particulier (ex: fortement agrégées, DM)
généralement modélisé sous forme
multidimensionnelle,
• nécessité de définir ne stratégie d’extraction de
l’entrepôt,
• on peut avoir des sous-magasins.
21
Outils de restitution
22
Variantes dans l’architecture
23
Le modèle multidimensionnel
• Souvent appelé modèle OLAP (On Line Analytical
Processing) (Codd, 1993).
28
Les dimensions
29
Opérateurs multidimensionnels
30
Implémentation
• HOLAP : Hybride.
31
Modèles utilisés
Référentiel
Magasin de
Entrepôt de données
données
32
Modèle de
diffusion
Magasins de données (data marts)
en constellation d’étoiles ROLAP
Sexe du patient
Indicateurs
…
Type de soins Nombre de patients
Etc.
Nombre de guérison
Coût
Etc ….
Date
Type de maladie
33
Patients Date infection
Sexe Jour Type du cathéter
Tranche d’age Mois Artère
Année Veineux
Site du cathéter Swan Ganz
Axillaire Etc.
Fémorale
Huméral
Etc. Coté du cathéter
Table de faits
Droit
Jour infection Effectif concerné Gauche
Jour 1 du séjour
Etc.
Résistance
Oui
Germes Non
staphylococcus aureus
staphylococcus epidermidis Acte sur cathéter
staphylococcus coagulase négatif Pose
enterococcus faecalis, faecium Changement
streptococcus, A group Changement sur site
Etc. Etc. 34
Modélisation en étoiles
Produit
clé_produit
description
Temps marque
Fait de Vente
catégorie
clé_temps sous_catégorie
heure clé_temps
clé_produit couleur
jour taille
semaine clé_magasin
mois
année montant_ventes
férié quantité_vendue Magasin
événement
clé_magasin
adresse
ville
département
secteur_vente
surface 35
Modélisation en flocons
Produit Sous_catégorie
clé_produit clé_sous_catégorie
description sous_catégorie
Temps marque catégorie
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
quantité_vendue Localisation
férié
événement clé_magasin clé_localisation
clé_localisation adresse
secteur_vente ville
surface département
Produit
clé_produit
description
Temps marque
Fait de Vente clé_sous_catégorie
clé_temps couleur
heure clé_temps taille
jour clé_produit
semaine clé_magasin
mois
année montant_ventes Magasin
férié quantité_vendue
événement clé_magasin
clé_localisation
secteur_vente
surface
37
Les tables de dimensions sont partagées par plusieurs tables de faits
Différentes catégories de tables de faits
• Type "transaction"
• fait = activité de la transaction (ex: une vente)
• date = date de la transaction
• 1 ligne par événement
39
Modèle de présentation
Nbre de patients Infectieuse chronique etc.
femmes de
moins de 30 ans
PACA 50 150
Bretagne 45 120
Etc.
40
Nbre de patients Infectieuse chronique etc.
femmes de
moins de 30 ans
Bretagne 45 120
Etc.
41
Nbre de patients Infectieuse chronique etc.
femmes de
Pneumo. Grippe
moins de 30 ans
Bretagne 45 120
Etc.
42
Méthodologie de conception
dépend,
43
Méthodologie de conception
46
• Solution 3 : Conservation des deux dernières valeurs
Clé-artificielle, …,valeur précédente d'un attribut, nouvelle valeur de cet attribut,
……
47