Академический Документы
Профессиональный Документы
Культура Документы
L'objectif de ce livre blanc est de dmystifier le concept d'entrept de donnes multidimensionnel, travers une approche simple, courte et pragmatique. J'espre que ce livre blanc vous permettra de comprendre les tenants et aboutissants d'un entrept de donnes multidimensionnel et qu'il vous assistera dans sa mise en oeuvre et sa maintenance. Ce court mmoire regroupe l'ensemble des points cls d'une approche multidimensionnelle.
1 - Auteur..................................................................................................................................................................... 3 2 - L'entrept de donnes multidimensionnel en thorie............................................................................................ 3 2-A - Pourquoi mettre en place un entrept de donnes ?................................................................................... 3 2-B - L'analyse multidimensionnelle une approche naturelle................................................................................ 3 2-C - Entrept multidimensionnel contre Entrept relationnel ?............................................................................ 4 2-D - L'entrept de donnes multidimensionnel.................................................................................................... 4 2-D-1 - En pratique........................................................................................................................................... 4 2-E - Une construction itrative en quatre tapes.................................................................................................5 2-E-1 - tape 1 : slection d'un processus cl................................................................................................ 5 2-E-2 - tape 2 : choix de la granularit stocke.............................................................................................6 2-E-3 - tape 3 : choix des axes d'analyses (dimensions).............................................................................. 6 2-E-4 - tape 4 : quelles mesures (faits)......................................................................................................... 7 3 - L'entrept de donnes multidimensionnel en pratique.......................................................................................... 7 3-A - Les tables de fait.......................................................................................................................................... 7 3-A-1 - Les rgles d'or des tables de fait.........................................................................................................7 3-A-2 - Quelques patrons lis aux tables de fait..............................................................................................8 3-A-2-A - Table de fait de transaction.........................................................................................................8 3-A-2-B - Table de fait priodique............................................................................................................... 9 3-A-2-C - Table de fait rcapitulatif............................................................................................................. 9 3-B - Les tables de dimension.............................................................................................................................10 3-B-1 - Les rgles d'or des tables de dimensions..........................................................................................11 3-B-2 - Quelques patrons lis aux tables de dimensions ............................................................................. 11 3-B-2-A - Les dimensions jeux de rle .......................................................................................... 11 3-B-2-B - Les dimensions changement rapide..................................................................................... 12 3-B-2-C - Les flags dimensionnels ( utiliser avec modration).............................................................. 12 3-B-2-D - Les mini-dimensions ou dimensions dportes........................................................................ 12 3-B-2-E - Les dimensions dgnres..................................................................................................... 12 3-B-2-F - Les dimensions horodates.......................................................................................................12 3-B-2-G - La dimension audit....................................................................................................................12 3-C - Maintenance d'un entrept de donnes multidimensionnel........................................................................13 3-C-1 - Oprations de maintenance lies aux dimensions............................................................................ 13 3-C-1-A - Ajout...........................................................................................................................................13 3-C-1-B - Suppression...............................................................................................................................13 3-C-1-C - Mise jour............................................................................................................................... 14 3-C-2 - Oprations de maintenance lies aux mesures.................................................................................14 3-C-2-A - Du volume de donnes traites :.............................................................................................. 14 3-C-2-B - De la complexit du calcul des mesures :............................................................................... 14 3-C-2-C - Des jointures avec les tables de dimensions :..........................................................................14 4 - Pour conclure....................................................................................................................................................... 15 4-A - Rappel et derniers conseils........................................................................................................................ 15 4-A-1 - Derniers conseils techniques............................................................................................................. 15 4-B - Les cinq Facteurs cls de succs.............................................................................................................. 15 4-B-1 - Comprhension du mtier.................................................................................................................. 15 4-B-2 - Atomicit de la table des faits............................................................................................................15 4-B-3 - Acceptation par les utilisateurs.......................................................................................................... 16 4-B-4 - Le nombre et la pertinence des dimensions...................................................................................... 16 4-B-5 - Dfinition commune et mtadonnes.................................................................................................16 4-B-6 - Le SPONSOR.....................................................................................................................................16 5 - Remerciements.................................................................................................................................................... 17
-2Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
1 - Auteur
Consultant indpendant et ingnieur en informatique. Carlos Da Costa propose d'assister les organisations dans la mise en place d'un systme dcisionnel et de gestion de la performance (notamment partir des technologies proposes par Information Builders : WebFOCUS / iWay software / Performance Management Framework). Aprs un master en audit et conception des systmes d'informations, Carlos volue au sein de la division en charge du systme dcisionnel de la 1re banque de dtail luxembourgeoise. Ses expriences russies lui ont permis d'approfondir ses connaissances dans l'architecture d'un systme dcisionnel et de mettre en place des applications dcisionnelles au niveau stratgique, analytique et oprationnel. Lors de sa dernire mission, Carlos collabore pendant prs de deux ans dans un projet de large envergure portant sur la mise en place d'un entrept de donnes multidimensionnel partir d'une approche balanced scorecard . Ce livre blanc est en partie le fruit de cette exprience.
2 - L'entrept de donnes multidimensionnel en thorie 2-A - Pourquoi mettre en place un entrept de donnes ?
L'entrept de donnes a pour objectif de centraliser et faire converger l'ensemble des donnes d'une organisation dans le but de faciliter l'accs l'information, l'analyse et la prise de dcision. Ce point de convergence de l'information devrait permettre in fine l'automatisation et la standardisation (dfinition unique) d'indicateurs. Seul un entrept de donnes, global, transverse et "historis" permet une mise en perspective quilibre de l'organisation. En effet, dans la mesure o chaque indicateur pertinent est directement ou indirectement corrl un autre, il influe directement ou indirectement sur un objectif, la tactique et la stratgie de l'organisation. La dmarche de centralisation et de mise en perspective entreprise travers la mise en place d'un entrept de donnes doit pouvoir vous permettre de produire une vue balanced scorecard (1) de votre organisation afin de planifier, vrifier, ragir et tre efficace.
-3Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
2-D-1 - En pratique...
La mthode de modlisation dimensionnelle est base sur une architecture de type bus (2) . Une table de fait est produite partir des donnes transactionnelles et de l'analyse d'un processus afin de rpondre aux questions des analystes. Une table de faits est constitue de mesures ainsi que de cls de dimension. Ces cls de dimension permettent la jointure entre la table de faits et les tables dimensions. Les dimensions sont communes l'ensemble des services de l'organisation et reprsentent des axes d'analyses stratgiques.
L'interrogation des tables de faits travers les tables de dimensions produit des rapports agrgs qui sont thoriquement capables de rpondre l'ensemble des besoins en information des utilisateurs.
-4Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
-5Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
quel est le but premier de mon organisation et quels sont les processus qu'il serait ncessaire d'analyser ? Ici on parle bien de processus et non de dpartements, de services, ou de divisions... Une organisation est un tout, votre schma de penses doit tre transversal et d'abord li aux processus fondamentaux ; quels sont les indicateurs de performance, d'clairage ou de risque pertinents aux niveaux stratgique, analytique et oprationnel ? Mme si les interrogations d'un stratge sont diffrentes des questions d'une personne oprationnelle, la source de donnes reste la plupart du temps a mme. Pour mettre en place une stratgie de modlisation long terme vous devez avoir conscience des besoins aux diffrents niveaux des prises de dcisions ; quels exemples de dcisions concrtes pourraient tre pris partir de ce systme de mesure, et ce pour chaque personne de chaque niveau mentionn. Si aucune dcision ne peut dcouler de votre systme dcisionnel c'est qu'il est sans intrt. N'oubliez jamais qu' chaque mesure doit correspondre un ou plusieurs leviers d'actions (plus le niveau s'approche de l'oprationnel, plus les leviers doivent tre simples) ; quels gains rels pour l'organisation apporteraient ces dcisions : hausse de la productivit ? Optimisation des cots ? Meilleure ractivit sur les marchs ? Accroissement de la prise de part de march ? Amliorer la fidlisation clientle ?
Gardez l'esprit que la mise en place et l'volution d'un systme a un cot. L'tape du choix du processus modliser est fondamentale, si celui-ci n'est pas pertinent, les dcisions qui en dcoulent n'auront pas d'impact sur votre activit.
Dans tous les cas, faites preuve de bon sens, restez simple et pragmatique et n'essayez pas d'tre original. C'est partir du croisement de dimensions simples et comprhensibles que vous allez pouvoir prendre des dcisions (pour plus de dtail, je vous renvoie vers le chapitre ddi aux tables de dimensions). Cette tape du choix des axes
-6Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
d'analyses doit-tre faite par une quipe htrogne (oprationnels, analystes et reprsentant du systme dcisionnel en place). Elle doit tre simple et naturelle pour tous les intervenants.
-7Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
une table de fait contient toujours la dimension temps. Bien que la dure de rtention varie en fonction de la granularit de la mesure, TOUTES vos mesures doivent comprendre un historique pour vous permettre de produire des tendances. Un entrept de donnes quel qu'il soit doit comprendre la dimension temps (c'est l'quipe mtier de juger de la dure minimale de rtention requise pour leur permettre de prendre des dcisions et non pas aux administrateurs de base de donnes) ; les mesures stockes dans une table de fait sont (presque) toujours de types numriques et additifs. Cela implique les rgles suivantes : les ratios sont toujours stocks travers deux champs distincts (numrateur et dnominateur). Les mesures stockes ne correspondent jamais une moyenne (la somme des moyennes ne correspond pas la moyenne des sommes !). Prenez garde au calcul des dlais, vous ne stockez pas les dates mais la dure effectif du dlai calcul quel qu'en soit l'unit (jours, minutes ou secondes) ; les donnes d'une table de fait sont figes. Une table de fait stocke une situation passe et rvolue (sauf table de fait rcapitulative). Il ne doit pas y avoir d'opration de mise jour sur la table une fois le chargement effectu et que ses donnes sont disposition des utilisateurs (sauf correction). Si certains de vos utilisateurs gnrent le rapport situation financire du 31 mars 2011 le 5 avril et que d'autres utilisateurs gnrent ce mme rapport le 10 mai, ils doivent absolument avoir accs aux mmes chiffres ; une table de fait est toujours interroge partir d'un contexte donn. Sa volumtrie ainsi que sa nature transverse (multitude de dimensions) vous obligent interroger une table de fait partir d'un contexte bien particulier (filtre de dimensions) ; des vues d'une mme table de fait peuvent tre produites avec des filtres entirement diffrents parce que les besoins d'un service un autre sont entirement diffrents. Ce qui importe, c'est que les deux services aient la mme dfinition de la mesure, car les rapports sont produits partir de la mme source de donnes ; une table de fait ne doit pas contenir de ligne artificielle valorise zro. Il faut donc viter les alimentations de type produit cartsien de dimension . Exemple, si votre systme oprationnelle ne contient pas d'information sur la vente du produit REF-0001 vendu dans l'agence ABC qu'il en soit ainsi ! Ne crez pas la ligne REF-001 | ABC | ... | 0 sous peine d'explosion du volume de donnes ; une table de fait ne comprend que les cls des dimensions, sous forme de cl trangre (numrique de prfrence et dnue de sens pour faciliter la maintenance, cf. chapitre sur les tables de dimensions). Si les tables de fait peuvent tre trs longues en termes de nombre d'occurrences, elles doivent tre troites en largeur pour pouvoir les compresser en terme d'espace et tre performante ; le volume d'une table de fait dpend (en partie) du nombre de dimensions AINSI QUE de la structure de celle-ci (profondeur, nombre d'occurrences). En d'autres termes plus le contexte est prcis et plus votre table de fait sera volumineuse et difficile maintenir.
-8Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
Attention, il ne s'agit pas d'avoir une ligne par transaction, bien au contraire. Ici l'unicit de l'occurrence est marque par l'unicit de son contexte (ensemble des cls de dimensions, cf. rgle 1 des proprits des tables de fait). Notez que plus vous agrgez les faits, moins il sera possible de proposer des dimensions dgnres (cf. chapitre Les Dimensions ). Vous n'avez pas faire d'opration de mise jour sur une table de fait de transaction (sauf erreur de chargement). La table de fait de transaction reprsente le niveau le plus dtaill que peut proposer votre entrept sur le processus en question, c'est pourquoi le choix de la granularit de celle-ci est si importante.
Le dcideur peut alors analyser l'agrgat des mesures associes ces dimensions par trimestre et sous-catgories de produits. Considrez les dimensions comme l'interface entre l'homme et les donnes de votre systme de mesure. Tout rapport sera toujours construit travers les dimensions que vous mettez disposition des utilisateurs. C'est pourquoi, elles se doivent d'tre simples et d'avoir du sens pour l'ensemble de vos utilisateurs.
- 10 Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
En croisant les dimensions, les analystes construisent le contexte du rapport. Si le contexte est incomprhensible vos rapports le seront tout autant.
Vous l'avez compris, l'approche multidimensionnelle est simple et naturelle. Une organisation compte, selon la complexit de son activit, de trois douze dimensions (6) . Si vous en avez plus, vous devez simplifier votre modle. Le croisement de dimensions est souvent interprt comme une dimension en soit. Exemple, vous tes peut tre tent par une dimension Segmentation clientle , mais celle-ci ne revient-elle pas au croisement de votre dimension Mtier et de votre dimension ? ge ? N'oubliez pas que la valeur ajoute d'un systme multidimensionnel provient essentiellement de ses dimensions et de la possibilit de les croiser, ce qui permet de mettre en perspective des mesures dans un contexte riche de sens.
d'analyses (exemple : date d'achat, date de livraison...). Vous ne grez donc qu'une seule dimension physique tout en mettant disposition de vos utilisateurs plusieurs axes d'analyses.
- 12 Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
(nombre d'oprations INSERT, temps d'excution, temps CPU, temps CPU rserv la qualit de donnes, etc.) sont bien entendu regroupes dans une table de fait. Vous pouvez galement rattacher la dimension audit toutes les occurrences de vos tables de fait travers un champ rfrence job ETL . Cela vous permettra de connatre qui charg quoi, quand et comment ? . La dimension audit permet une traabilit et dmontre une certaine rigueur ainsi qu'un certain professionnalisme dans la mise en place de votre systme dcisionnel.
3-C-1-B - Suppression
Votre arbre de dimension voluant, les utilisateurs ont maintenant accs des valeurs d'occurrence obsoltes. Vous souhaitez supprimer l'accs ses occurrences, pour cela deux mthodes possibles : premire mthode (conseille) : mettez en place un champ visibilit de l'utilisateur dans vos tables de dimensions et changez la valeur de ce champs lorsque l'occurrence est obsolte ; - avantage : mthode simple mettre en oeuvre, aucune opration de mise jour des tables de fait n'est ncessaire, - inconvnient : des valeurs de dimension tant masques l'utilisateur et les tables de fait n'ayant subit aucune modification, il se peut que l'agrgat d'un rapport puisse ne pas reprsenter la somme des valeurs aprs un drill-down sur la dimension ; seconde mthode : vous dcidez de supprimer l'occurrence de votre table de dimension. Ds lors, l'ensemble des occurrences dans vos tables de fait qui font rfrence cette valeur de dimension seront obsoltes. Vous devez alors mettre jour l'ensemble des tables de fait, en remplaant la rfrence de la dimension supprime par une rfrence de dimension valeur non applicable que vous aurez cre au pralable dans votre dimension.
- 13 Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
Si l'occurrence de dimension supprimer n'est plus rfrence par vos tables de fait depuis longtemps (exemple, une rfrence de produits qui n'existe plus depuis plusieurs mois), la mthode via un champ flag semble tre la plus pertinente.
Les oprations d'ajout, de suppression et de mise jour de vos dimensions sont moins triviales qu'il ni parat. J'espre que cette courte prsentation vous permettra de cerner rapidement la problmatique de maintenance des dimensions dans un entrept de donnes multidimensionnel.
de votre mesure. Pour cela, je vous conseille de mettre en place une catgorie Non Applicable dans chacune de vos dimensions. Si votre enregistrement ne trouve pas de correspondance, il doit tomber par dfaut dans cette catgorie Non Applicable . Vous serez ensuite apte isoler les enregistrements problmatiques pour les corriger. D'aprs ma propre exprience, ces trois points sont des problmatiques rcurrentes lies aux tables de fait. Cette courte prsentation vous permettra sans doute de mettre en place un systme plus robuste.
les organisations ont tendance descendre au niveau le plus fin disponible, cela semble cens : qui peut le plus peu le moins. Toutefois attention, un volume trop important vous obligera soit crer des tables de fait priodiques soit imposer un temps de traitement plus important vos utilisateurs (sachant que vos collaborateurs perdront vite patience d'avoir attendre 10 minutes entre chaque clic). Comme toujours, tout est histoire de compromis.
Si vos utilisateurs pensent que les donnes prsentes sont mal calcules ou ne sont pas pertinentes par rapport au processus mesur, c'est l'chec assur. Ils n'accepteront pas le systme de mesure que vous vous efforcez de mettre en place.
4-B-6 - Le SPONSOR
Unifier et standardiser travers un systme de mesures transverses a un cot et exige une certaine autorit. Vous devez avoir un SPONSOR de poids. Si vous n'avez pas le soutien direct de la direction du systme d'information ou de la direction gnrale, toute tentative de mise en place d'un systme de reporting global sera un chec.
- 16 Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
5 - Remerciements
Je tiens remercier l'ensemble de la rdaction de developpez.com pour m'avoir donn la chance de partager ce livre blanc et plus particulirement KalyParker, jacques_jean Pierre-Andr G. ainsi qu'Aurlie M. pour leurs disponibilits et leurs conseils aviss.
- 17 Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/
1 : balanced scorecard : tableau de bord quilibr permettant d'analyser de faon globale l'activit d'une organisation. Gnralement compos de quatre perspectives (finance, client, processus cls, innovation et dveloppement) regroupant des objectifs (eux-mmes composs d'indicateurs cls) relis les uns aux autres, formant ainsi une carte stratgique. Le but tant d'exprimer les corrlations existantes entre chaque objectif. 2 : Bus : ensemble de plusieurs fils conducteurs ou de circuits, disposs en lignes parallles, reliant diffrents blocs fonctionnels et composants. 3 : tapes dtermines par Ralph Kimball et Margy Ross dans le livre Entrepts de donnes Guide pratique de modlisation dimensionnelle 4 : DBA : Database Aministrator (Administrateur de base de donnes) 5 : Typologie dtermine par Ralph Kimball et Margy Ross dans le livre Entrepts de donnes Guide pratique de modlisation dimensionnelle 6 : Selon Ralph Kimball (gourou de la modlisation dimensionnelle). 7 : ODS : Operational Data Store est une base de donnes conue pour centraliser les donnes issues de sources htrognes afin de faciliter les oprations d'analyse et de reporting (source : wikipedia). 8 : Workflow : un workflow (anglicisme) est la reprsentation d'une suite de tches ou oprations effectues par une personne, un groupe de personnes, un organisme, etc. Le terme flow renvoie au passage du produit, du document, de l'information, etc. d'une tape l'autre. (source : wikipedia)
- 18 Copyright 2011 Carlos Da Costa. Aucune reproduction, mme partielle, ne peut tre faite de ce site et de l'ensemble de son contenu : textes, documents, images, etc. sans l'autorisation expresse de l'auteur. Sinon vous encourez selon la loi jusqu' trois ans de prison et jusqu' 300 000 de dommages et intrts. Cette page est dpose la SACD.
http://business-intelligence.developpez.com/tutoriels/DWH_multidimensionnel/