Вы находитесь на странице: 1из 61

09/11/2012

Institut Suprieur de Gestion, Dpartement Informatique

COURS
DATAWAREHOUSE DATAMINING
Niveau : 2LFIG

Anne universitaire 2011/2012

PLAN DATAWAREHOUSE
Contexte Les entrepts de donnes Les entrepts de donnes vs les bases de donnes Les datamarts Architecture Modlisation Alimentation Les bases de donnes multidimensionnelles Les oprations OLAP

09/11/2012

CONTEXTE
Besoin: prise de dcisions stratgiques et tactiques Pourquoi: besoin de ractivit Qui: les dcideurs (non informaticiens) Comment: rpondre aux d C t d demandes d d danalyse d l des donnes, dgager des informations qualitatives nouvelles
Qui sont mes meilleurs clients? Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?
3

Quels tunisiens consomment beaucoup de tel produit?

CONTEXTE
LES DONNES UTILISABLES PAR LES DCIDEURS Caractristiques de ces donnes:
Distribues: systmes parpills Htrognes: systmes et structures de donnes diffrents Dtailles: organisation des donnes selon les processus fonctionnels, donnes surabondantes pour lanalyse y Peu/pas adaptes lanalyse : les requtes lourdes peuvent bloquer le systme transactionnel Volatiles: pas dhistorisation systmatique
4

09/11/2012

CONTEXTE

Enjeux :
Les ventes locales : amliorer le chiffre daffaires local
Amliorer les ventes locales

Les exportations : cibler de nouveaux clients ltranger


Amliorer les ventes lexport

Les dcideurs : anticiper pour mener une politique globale


laborer des indicateurs

PROBLMATIQUE
Comment rpondre aux C t d demandes des dcideurs?
En donnant un accs rapide et simple linformation stratgique En donnant du sens aux donnes d

09/11/2012

PROBLMATIQUE

SI SID

un ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de l ifi d t it td diffuser de l'information

un ensemble organis d'lments qui permet de regrouper, de classifier, de traiter et de diffuser de l'information en vue d'offrir une aide la dcision

Mettre en place un systme dinformation ddi aux applications dcisionnelles: un data warehouse
7

DATAWAREHOUSE
DFINITION

Collection de donnes :
intgres, 2. orientes sujet, 3. non volatiles, 4. historises, 5. rsumes 6. et disponibles pour linterrogation et lanalyse => Pour aider aux prises de dcisions
1.
(Inmon 96).
8

09/11/2012

DATAWAREHOUSE
DFINITION

Collection de donnes :
1. 2. 3. 4. 5. 6.

intgres, provenant de sources orientes sujet, diffrentes et non volatiles, ventuellement historises, htrognes. rsumes et disponibles pour linterrogation et lanalyse
(Inmon 96).
9

DATAWAREHOUSE
DFINITION

Collection de donnes :
1. 2. 3. 4. 5. 6.

intgres, rorganises autour des orientes sujet, sujets majeurs de lentreprise de non volatiles, faon tre plus historises, facilement manipulables. rsumes et disponibles pour linterrogation et lanalyse
(Inmon 96).
10

09/11/2012

DATAWAREHOUSE
DFINITION

Collection de donnes :
1. 2. 3. 4. 5. 6.

intgres, en lecture seule, orientes sujet, utilises seulement en mode de consultation et non volatiles, ne sont que trs historises, rarement modifies. rsumes et disponibles pour linterrogation et lanalyse
(Inmon 96).
11

DATAWAREHOUSE
DFINITION

Collection de donnes :
1. 2. 3. 4. 5. 6.

intgres, elles sont enregistres orientes sujet, en considrant leur non volatiles, volution (spatiohistorises, temporelle). rsumes et disponibles pour linterrogation et lanalyse
(Inmon 96).
12

09/11/2012

DATAWAREHOUSE
DFINITION

Collection de donnes :
1. 2. 3. 4. 5. 6.

intgres, elles sont rorganises orientes sujet, afin de faciliter les analyses et non volatiles, les processus de prise de historises, dcision. rsumes et disponibles pour linterrogation et lanalyse
(Inmon 96).
13

DOMAINES DUTILISATION DE DATA WAREHOUSE


Banque Sant
Risques dun p , p q prt, prime p plus p prcise pidmiologie Risque alimentaire Ciblage de clientle Dterminer des promotions Adquation demande/production Risque li un contrat dassurance (voiture)
14

Commerce Logistique Assurance

09/11/2012

ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES

Quest ce quune base de donnes ?

ENTREPT DE DONNES VS BASE DE DONNES 1. BASE DE DONNES

BD ou DB (Database)
E bl dinformations structures ti t t Ensemble di f 2. Accessibles par un LMD (DML)
1 1.

Stockage et mise jour de donnes Recherche de donnes multi-critres

Partages par de multiples utilisateurs 4. Assurant la fiabilit et scurit des 4 donnes 5. Gre par un SGBD sur un serveur
3.
16

09/11/2012

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing Service commercial
BD prod

Service Financier
BD prod

Service livraison
BD prod

Clientle
H I S T O R I Q U E

Data Warehouse
OLAP: On-Line Analytical Processing Clientle

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
- est le modle utilis par les SGBD. - Le mode de travail est transactionnel. - L'objectif est de pouvoir insrer, modifier et interroger rapidement et en scurit la base. Ces actions seffectuent trs rapidement par de nombreux utilisateurs simultanment. Chaque transaction travail sur de faibles quantits d'informations, et toujours sur les versions les plus rcentes des donnes.

OLAP: On-Line Analytical Processing

09/11/2012

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
-Les datawarehouses eux reposent sur le systme OLAP (On Line Analytical Processing). -Ce systme travail en lecture seulement. y Consulter d'importantes quantits de donnes pour procder des analyses. Les objectifs principaux sont regrouper, organiser des informations provenant de sources diverses, les intgrer et les stocker pour donner lutilisateur une vue oriente mtier, retrouver et analyser linformation facilement et rapidement. (besoin de lhistorique)

OLAP: On-Line Analytical Processing

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, registration, accounting, etc.

OLAP: On-Line Analytical Processing

10

09/11/2012

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON


OLTP: On-Line Transactional Processing
1.Tche principale des SGBD 2. Oprations journalires: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, etc.

OLAP: On-Line Analytical Processing

1. 1 Tche principale des DW 2. Analyse des donnes et prise de dcision

ENTREPT DE DONNES VS BASE DE DONNES 2. COMPARAISON

OLTP
Orient transaction Orient application Donnes courantes Donnes dtailles Donnes volutives

OLAP
Orient analyse Orient sujet Donnes historises Donnes agrges Donnes statiques

Utilisateurs nombreux, Utilisateurs peu nombreux, administrateurs/oprationn manager els Temps dexcution: court Temps dexcution: long

11

09/11/2012

DATAMART
Sous-ensemble dun entrept de donnes Destin rpondre aux besoins dun secteur ou dune fonction particulire de lentreprise Point d P i t de vue spcifique selon des critres mtiers ifi l d it ti
Datamarts du service Marketing

DW de lentreprise

Datamart du service Ressources Humaines 23

INTRT DES DATAMARTS


Nouvel environnement structur et format en fonction des besoins d un mtier ou dun usage dun d un particulier Moins de donnes que DW
Plus facile comprendre, manipuler Amlioration des temps de rponse

Utilisateurs plus cibls: DM plus facile dfinir

24

12

09/11/2012

ARCHITECTURE FONCTIONNELLE DU DW
Sources de Alimentation Entrept donnes de donnes
Mta-donnes

Ciblage

Analyses & data mining

Bases de donnes

Extract Transform Load

Rapports Magasin de donnes

excel
Entrepts de donnes Data mining Cube
25

Sources de donnes externes

Phase dalimentation

Phase de modlisation

Phase danalyse

Data warehouse
1. Motivations et architecture 2. Conception de la BD support 3. Alimentation du DW 4. 4 Exploitation OLAP 5. Conclusion
26

13

09/11/2012

1.MOTIVATIONS DES ENTREPRISES


Besoin des entreprises
accder toutes les donnes de lentreprise p regrouper les informations dissmines analyser et prendre des dcisions rapidement (OLAP)

Exemples d'applications concernes


Grande distribution : marketing, maintenance, ...
produits succs, modes, habitudes dachat prfrences par secteurs gographiques

Bancaire : suivi des clients, gestion de portefeuilles clients


mailing cibls pour le marketing

Tlcommunications : pannes, fraudes, mobiles, ...


classification des clients, dtection fraudes, fuites de clients
27

ARCHITECTURE OLTP ET OLAP


Reports R t & Analysis

Appli. Appli. Appli.

OLAP

ETL

OLTP

DW

DM

Aides la dcision

28

14

09/11/2012

2. CONCEVOIR LE DW
Export de donnes des sources
Htrognes et varies Fichiers, BD patrimoniales, Web, Dfinition des vues exportes

Dfinition d'un schma global


Intgre les donnes utiles S'appuie sur le modle relationnel

Ncessit d une gestion de mta-donnes d'une mta donnes


Description des sources Description des vues exportes Description du schma global
29

Conception DW

ORGANISATION PAR SUJET


Les donnes sont organises par sujets majeurs:
Clients, produits, ventes,

Sujet = faits + dimensions


Collecte les donnes utiles sur un sujet
Exemple: ventes

Synthtise une vue simple des vnements analyser


Exemple: Ventes (N, produit, priode, magasin, )

Dtaille la vue selon les dimensions


Exemple: Produits(IDprod, description, couleur, taille, ) Magasins(IDmag, nom, ville, dept, pays) Periodes(IDper, anne, trimestre, mois, jour)
Conception DW
30

15

09/11/2012

DW- MODLISATION
-Schma entit relation (classique) Schma entit-relation - Schma en toile (star schema) - Schma en flocon (snowflake schema) tables de faits : nombreux champs, p , tables centrales dimensions : peu de champs, permettent dinterprter les faits
Tout indicateur est modlis sous la forme dune toile ou dun flocon
31

SCHMA EN TOILE
Structure simple utilisant le modle entit-relation Une entit centrale (faits) - objet de lanalyse Des entits priphriques ( p p q (1seul niveau) ) - dimensions de lanalyse
32

16

09/11/2012

EXEMPLE DE SCHMA EN TOILE


Une table de faits encadres par N tables de dimensions
Produits Key_prod description couleur taille fournisseur

Periode
Key_periode anne trimestre mois jour

Table de faits ventes Key_periode Key_produit Key produit Key_magasin units_vendues montant_vente amount of s sales

Magasins
Key_mag nom ville dpartement 33 pays

SCHMA EN TOILE
T l d la t bl d f it Tuples de l table des faits cls trangres formant une cl primaire des valeurs associes chaque cl primaire

34

17

09/11/2012

EXEMPLE DE SCHNEMA EN
FLOCONS
time
time_key day y day_of_the_week month quarter year branch branch_key branch key branch_name branch_type item item_key y item_name brand type supplier_key

Sales Fact Table S l F t T bl time_key item_key branch_key location_key units_sold dollars_sold avg_sales

supplier supplier_key supplier_type

location
location_key street city_key

city
city_key city province_or_stree 35 country

Measures

SCHMA EN FLOCONS
Evolution du star schema Normalisation des tables de dimensions 1 table Fait Plusieurs niveaux de tables de dimensions

36

18

09/11/2012

SCHMA EN FLOCONS
Raffinement du schma toile avec des tables normalises par dimensions
Produits IDprod description couleur taille IDfour Fournisseurs IDfour description type Adresse

Ventes

37

SCHMA EN CONSTELLATION

19

09/11/2012

BILAN CONCEPTION
Le datawarehouse regroupe, historise, hi t i rsume l donnes de les d d l'entreprise Le concepteur dfinit schma exports et intgrs
des choix fondamentaux ! Ciblage essentiel !

Le datamart cest plus cibl et c est plus petit. Question?


Peut-on ajouter des donnes au niveau de l entrept ?
Conception DW
39

LAnalyse MultiDimensionnell
Objectif
Obtenir des informations dj agrges selon les besoins j g g de lutilisateur : simplicit et rapidit daccs

HyperCube OLAP
Reprsentation de linformation dans un hypercube N dimensions

OLAP(On-Line Analytical Processing)


Fonctionnalits qui servent faciliter lanalyse multidimensionnelle : oprations ralisables sur lHyperCube
40

20

09/11/2012

DW

Base Multidimensionne
De la relation au Cube

agrgations

41

Modlisation multidimensionnelle
Gnralisation des tableurs Notion de Cube de donnes : Data Cube Reprsentation de N attributs extraits d une table sous forme d un cube, N-k attributs composant les dimensions le long desquelles des groupements sont possibles, les k autres tant des mesures rsultant de fonctions d agrgations. Exemple : Dfinition d un cube sur quantit selon les axes NumPro, NumFou et Date partir de la table Ventes: Ventes ( NV, NUMPRO, NUMFOU, DATE, QTE, PRIX) NV NUMPRO NUMFOU DATE QTE

42

21

09/11/2012

CUBE DE DONNES

Date NumFou

2006 2005

350 600 300 300 500 400 250


P1 P2

NumPro

2004

200
F1 P3

F2

43

Exploitation multidimensionnelle
Intrt d un cube : Possibilit des raliser des coupes par slection selon une dimension. Vue d un cube : Vue dfinie partir d un cube de donnes par agrgation des quantits selon un sous-ensemble des attributs. Pour un cube de dimension k, il existe 2k vues avec NumPro, NumFou, Date une fonction d agrgat. NumPro, Date NumPro, NumFou

NumFou, Date

NumPro

NumFou

Date

44

22

09/11/2012

LE DATA CUBE ET LES DIMENSIONS

Axe d'analyse: La gographie (Pays - rgion - ville)

Variables analyses: Nb units, CA, marge... Axe d'analyse: Les produits (classe, produit) Axe d'analyse: Le temps (Anne, trimestre, mois, semaine) Axes d'analyse: dimensions 45 Variables analyses: indicateurs

Le multidimensionnel
Dimensions:
Temps Gographie Produits Clients Canaux de ventes.....

Indicateurs:
Nombre dunits vendues CA Cot Marge.....

46

23

09/11/2012

Analyse multidimensionnelle
Capacit manipuler des donnes qui ont t agr Selon diffrentes dimensions
Exemple : analyse des ventes / catgorie de produit + /anne + /zone gographique + /dpartement commercial 3 dim. 4 dim. 1 dim. 2 dim.

47

LA GRANULARIT DES DIMENSIONS

Temps

Jours

Mois

Trimestres

Annes

Gographie

Villes

Rgions

Pays

Produits

Numros

Types

Gammes

Marques
48

24

09/11/2012

EXEMPLE
Montant des ventes fonction de (Mois, rgion, Produit)
Granularit des dimensions : Type Rgion Catgorie Pays
Produit

Anne Trimestre Mois Semain Jour


49

Produit

Ville

Magasin
Mois

LA NAVIGATION
MULTIDIMENSIONNELLE
Zoom selon une dimension Coupe d un cube
Produits pour une rgion donne

CA
France Est Lyon Sud Ouest Nice

Temps en semaines

Marseille

50

25

09/11/2012

Rle des axes danalyse


Fournir, grce aux hirarchies dont ils sont porteurs, des rgles de ,g p , g calcul dagrgats. 85

Somme des fils = valeurs d pre l du

15

20

50

10

10 10

20

30
51

agrgation

Rle des axes danalyse


Fournir pour lanalyse les mcanismes de cheminements l analyse, Dans linformation, de la synthse vers le dtail (zoom avant/arrire) 85

Zoom avant/arrire

15

20

50

10

10 10

20

30
52

La navigation

26

09/11/2012

Oprations sur le cube


But
Visualisation/Utilisation Vi li i /U ili i dun fragment de lhypercube

3 catgories doprations
Catgorie Restructuration Granularit Ensembliste Concerne Reprsentation Niveau de dtail Extraction
53

Restructuration
Rorientation de la vue multidimensionnelle * slection graphique * flexibilit du schma

-Rotate/Pivot -Switch -Split -Nest -Push


54

27

09/11/2012

-Rotate/Pivot

55

-Switch

56

28

09/11/2012

-Split

57

-Nest

58

29

09/11/2012

Granularit
Navigation entre les niveaux * groupements * agrgation

Manipulations ncessitant des informations non contenues dans le cube

-Roll-up -Drill down

Cuboids
59

-Roll-up
Rduction d une dimension du cube en la remplaant par une une dimension grain plus large, donc en allant du dtail vers le global. Exemple : CUBE (Produits, Date, Ville) * Oprateur de pliage sur l axe Date : Rollup (Anne Mois), Rollup(Anne) * Possibilit de faire l agrgat total selon une dimension axe date : Rollup ( ) : supprime la dimension date et somme pour toute date
60

30

09/11/2012

-Roll-up :
-dune vue dtaille une vue globale

61

-Drill-down
Dpliage : Extension d une dimension du cube en la remplaant une par une dimension grains plus fins, donc en allant du global vers le dtail. Exemple : Pour le cube CUBE (Fournisseurs, Anne, Pays) * oprateur de Dpliage sur l axe anne : Drilldown (Anne Mois), Drilldown (Anne Mois Jour)

Eclater les mesures selon les valeurs de la nouvelle donne introd


62

31

09/11/2012

-Drill-down : - dune vue globale une vue dtaille

63

Granularit
Pour faciliter : Drill-down Roll-up Mmorisation de certaines vues concrtes Mais lesquelles?? Problme de recherche : -Maximiser la rutilisation des rsultats des cubes prcdents pour calculer des cubes plus globaux. -La fonction dagrgation change aussi la nature du pbm

Fonction additive : sum, min, max Fonction algbrique : avg, Fonction holistique : mdiane,

64

32

09/11/2012

Manipulations ensemblistes

Manipulations classiques Extension plusieurs dimensions

-Slection -Projection P j i -Jointure


65

-Slection

66

33

09/11/2012

-Projection

67

-Jointure

68

34

09/11/2012

Coupes du cube C Coupe (SLICE): Slection de tranches du cube par des (SLICE)
prdicats selon une dimension Exemple : * Cube (Produits, Date, Ville) * Coupe selon l axe des dates : Slice (10-02-98), Slice ( >1998 AND <1999) * Coupe selon laxe des produits : Slice (ordinateurs) Les oprateurs Rollup, Drilldown et Slice : Algbre des cubes de donnes

69

Ecriture d expressions de calcul sur les cubes

Exemple
Cube

( Produits Date Rgion) Produits, Date,

Exemple de calcul :
Slice ( Paris ) [Drilldown (Vill ) [D illd (Ville) [Rollup (anne , mois) [ Slice (>2005 AND < 2006) [Cube] ] ] ].
70

35

09/11/2012

Rsum :L'algbre des cubes


Roll up :

Agrger selon une dimension


Semaine Drill down : Mois Slice et Dice: Mois

Dtailler selon une dimension


Semaine

Slection et projection selon 1 axe


Mois = 04-2006 ; Projeter(Rgion, Produit) Pivot :

Tourne le cube pour visualiser une face


(Rgion,Produit) (Rgion, Mois)
71

Le multidimensionnel

FIN

36

09/11/2012

BILAN GESTION
La modlisation multidimensionnelle est adapte l analyse de donnes Le datacube est au centre du processus dcisionnel
transformation et visualisation 3D une algbre du cube De multiples techniques d'optimisation

Questions ?
Combien de datacubes partir de N variables ?
Le multidimensionnel
73

5. IMPLMENTATION
Multidimensional OLAP (MOLAP)
implmentent les cubes comme des matrices en p mmoire

Relational OLAP (ROLAP)


implmentent les cubes comme des tables relationnelles

Hybrid systems (HOLAP ou MROLAP)


certaines donnes en matrices en mmoires, d'autres en tables sur disques

74

Implmentation

37

09/11/2012

Choix d un SGBD Relationnel : ROLAP

* Donnes stockes en tables * Donnes exploites par des fonctions OLAP spciales (Group by et Cube)

* ROLAP : Technique implmentant les fonctions OLAP de type


calcul du cube de donnes au sein d un SGBD relationnel

* 2 Types de schmas relationnels dans les entrepts :


75

Schma en toile et Schma en flocon

Excution de requtes (ROL


1. 2. Traduction de requte OLAP en requtes SQL Dtermination des vues matrialises questionner * de niveau adquat * de cot moindre

76

38

09/11/2012

MOLAP
Technologie de bases de donnes multidimensionnelles * structure de stockage = tableaux *MOLAP : Technique implmentant les fonctions OLAP de type calcul du cube de donnes directement en mmoire virtuelle , avec des structures de donnes persistantes adaptes * SGBD multidimensionnel : SGBD ddi aux calculs de cubes - implmentation de type tableau : CUBE [1:M, 1:N, 1:P]
77

MOLAP
Correspondance directe avec la vue MD Gestion de la faible densit (sparsity) * structure dindex = dimensions peu denses * donnes = tableaux des dimensions denses Problme dextensibilit

* MROLAP : Couche multidimensionnelle au dessus d un SGBD relationnel

78

39

09/11/2012

ROLAP VERSUS MROLAP


SQL+Cube Q SQL+Cube Q

Analyseur Optimiseur Oprateurs relationnels Oprateurs dcisionnels Cache SGBD

Oprateurs dcisionnels
SQL

Cache Cube

Analyseur Optimiseur Oprateurs relationnels Cache SGBD

79

Implmentation

HOLAP
Combinaison d technologies ROLAP et MOLAP C bi i des h l i O A O A * donnes dtailles dans BDR * donnes agrges dans BDMD

SGBD Relationnel avec des oprateurs et algorithmes adquats : -GROUP BY CUBE -StarJoin, Index Bitmap
80

40

09/11/2012

MOLAP

ROLAP

HOLAP

Stockage multidim. natif

Stockage Relationnel Restitution multidimension. Optimisation du volume stock par mise en uvre de mcanismes de calculs dynamiques dagrgats d agrgats

Stockage multidimension Et relationnel Restitution Multidimension. avec gestion dynamique du dcrochage vers la base de dtail relationnel

81

EVOLUTION DES SGBD


Utilisation intensive des calculs d'agrgats
Optimisation, Optimisation concrtisation

Nouvelles fonctions de SQL


Fonctions agrgats
Rank, Moving Average, Rollup, Cube, ...

Fonctions statistiques:
Pivot, Standard dviation, Covariance, Corrlation

82

Implmentation

41

09/11/2012

VUES CONCRTES
CREATE MATERIALIZED VIEW <Table> ( (column_list) AS ) SELECT La vue est pr-calcule par le SGBD
Pr-calcul des agrgats et jointures

Elle est maintenue lors des mises jour Les requtes sont reformules contre la vue d'une manire transparente pour l'usager

83

Implmentation

EXEMPLE
Table:
Emp(#emp, job, salary)

Dfinition de la vue:
CREATE MATERIALIZEDVIEW job_avg_sal AS select job, avg(sal) avg_sal FROM emp p GROUP BY job;

Interrogation de la vue:
SELECT job FROM job_avg_sal WHERE avg_sal > 10000
84

Implmentation

42

09/11/2012

EXTENSION DE SQL
ROLLUP:
SELECT <column list> FROM <table> GROUP BY ROLLUP(column_list);

CUBE:
SELECT <column list> FROM <table> GROUP BY CUBE(column_list);

Cre des agrgats n+1 niveaux, n tant le nombre de colonne de groupage


n, n-1, n-2,0 colonnes

Cre 2n combinaisons d'agrgats, n tant le g g , nombre de colonne de groupage


85

Implmentation

EXEMPLE CUBE

Animal Chien Chat Tortue Chien Chat Chien Tortue

Lieu Paris Paris Rome Rome Naples Naples Naples

Quantite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal, Magasin WITH CUBE
Implmentation

Animal Chat Chat Chat Chien Chien Chien Chien Tortue Tortue Tortue -

Lieu Paris Naples Paris Naples Rome Naples Rome Paris Naples Rome

Quantite 18 9 27 12 5 14 31 1 4 5 63 30 86 15 18

43

09/11/2012

EXEMPLE ROLLUP

Animal Chien Chat Tortue Chien Chat Chien Tortue

Lieu Paris Paris Rome Rome Naples Naples Naples

Quantite 12 18 4 14 9 5 1

SELECT Animal, Lieu, SUM(Quantite) as Quantite FROM Animaux GROUP BY Animal,Magasin WITH ROLLUP
Implmentation

Animal Chat Chat Chat Chien Chien Chien Chien Chi Tortue Tortue Tortue -

Lieu Paris Naples Paris Naples Rome Naples Rome -

Quantite 18 9 27 12 5 14 31 1 4 5 63
87

MTA-DONNES
Standard en mergence CWM
Common W h C Warehouse Meta-model

Bas sur le mta-modle objet de l'OMG (MOF)


Constructions de base: classe (attribut, operation), association, package, type de donnes, contraintes Extensions: mtaclasses, mtarelations

Mta-mta-modle

MOF

Mta-modle

UML

CWM

EJB

Modle

Dfini en UML Echang en XML (XMi)


Instance

Vente numv numpro quantit prixtot

Mta-donnes

Objet

88

Implmentation

44

09/11/2012

LES PACKAGES CWM


Management M t Analysis Resources
Warehouse Process Transformation OLAP ObjectOriented
(ObjectModel)

Warehouse Operation Data Information Business Mining Visualization Nomenclature RecordOriented Multi Dimensional XML

Relational

Foundation

Business Data Keys Type Software Expressions Information Types Index Mapping Deployment

ObjectModel
(Core, Behavioral, Relationships, Instance)
89

Implmentation

Chaque package est dfini en UML ...

QUELQUES OUTILS OLAP


Oracle
OLAP API = Datacube Express = Analyse Report = Reporting

Cognos
Impromptu = Reporting Powerplay = Datacube Query = Requtage

Business Object
BusinessQuery = Requtage BusinessObject = j Requtage + Analyse + Reporting WebIntelligence = Datacube

Hyperion
ESS Base = Base MOLAP ESS Analysis= Analyse y y + Datacube

90

Implmentation

45

09/11/2012

6. LE MARCH DU BI
BI= Business Intelligence

91 Data PRO Users Survey

Conclusion

LES DATA TRUCS


Datawarehouse
entrept des donnes historises de l entreprise l'entreprise

Datamart
magasin de donnes cibl sur un ou plusieurs sujets

Datamining
exploration des donnes afin de dcouvrir des connaissances

Datacube
cube de prsentation d'units selon 3 dimensions

Datawebhouse
entrept des donnes collectes sur le web
Conclusion
92

46

09/11/2012

Data Warehouse Usage


Three kinds of data warehouse applications

Information processing I f ti i supports querying, basic statistical analysis, and reporting using crosstabs, tables, charts and graphs Analytical processing multidimensional analysis of data warehouse data supports basic OLAP operations, slice-dice, drilling, pivoting pi oting Data mining knowledge discovery from hidden patterns supports associations, constructing analytical models, performing classification and prediction, and presenting the mining results using visualization tools.
Differences among the three tasks
93

From On-Line Analytical Processing to On Line Analytical Mining (OLAM)


Why li Wh online analytical mining? l ti l i i g?
High quality of data in data warehouses DW contains integrated, consistent, cleaned data Available information processing structure surrounding data warehouses ODBC, OLEDB, Web accessing, service facilities, reporting and OLAP tools p g OLAP-based exploratory data analysis mining with drilling, dicing, pivoting, etc. On-line selection of data mining functions integration and swapping of multiple mining functions,94 algorithms, and tasks.

Architecture of OLAM

47

09/11/2012

An OLAM Architecture
Mining query Mining result

Layer4 User Interface

User GUI API


OLAM Engine OLAP Engine

Layer3 OLAP/OLAM

Data Cube API Layer2 Meta Data MDDB

MDDB

Filtering&Integrati on

Database API
Data cleaning Data integration

Filteri ng

Databas es

Data Warehou se

Layer1 Data Repository


95

Conclusion
Data warehouse
A subject-oriented, integrated, time-variant, and nonvolatile collection of subject oriented, time variant, data in support of managements decision-making process

A multi-dimensional model of a data warehouse


Star schema, snowflake schema, fact constellations A data cube consists of dimensions & measures

OLAP operations: drilling, rolling, slicing, dicing and pivoting OLAP servers: ROLAP, MOLAP, HOLAP Efficient Effi i t computation of d t cubes t ti f data b
Partial vs. full vs. no materialization Multiway array aggregation Bitmap index and join index implementations

Further development of data cube technology


Discovery-drive and multi-feature cubes From OLAP to OLAM (on-line analytical mining)

96

48

09/11/2012

3. Alimenter le DW
Outils dalimentation pour extraire transformer stocker dans DWH Donnes sources

97

Alimenter le DW
ETL = Extracteur + Intgrateur
Extract + Transform + Load

Extraction
Depuis les bases sources ou les journaux Diffrentes techniques

Push = rgles (triggers) Pull = requtes (queries)


Priodique et rpte

Dater ou marquer les donnes envoyes


Difficult

Ne pas perturber les applications OLTP


L'alimentation

98

49

09/11/2012

Extraction
1re Phase : extraction des donnes utiles

SGBD Modles Mthode daccs Environnement Matriel + Orientation transactionnelle

-Eviter de perturber les Syst.de production -1 ou +srs passes * donnes en tps rel * donnes mensuelles

Extracteur : Accs en natif aux diffrentes sources

99

Transformer

obtenir un ensemble homogne de donnes donnes comparables, additionnables

Nettoyer /Intgrer/Structurer
100

50

09/11/2012

TRANSFORMATION
Accs unifis aux donnes
Unification des modles
Traduction de fichiers, BD rseaux, annuaires en tables Evolution vers XML (modle d'change) plus riche

Unification des accs


Rowset, SQL limit, SQL complet,

Mapping plus ou moins sophistiqu


Unification des noms
Appeler pareil les mmes choses et diffremment les choses diffrentes diff t Application des "business rules"

Elimination des doubles Jointure, projection, agrgation (SUM, AVG)

Cleaning des donnes


L'alimentation

101

Nettoyage des donnes


donnes errones analyse errone!

les valeurs aberrantes (noisy data)

-Isoler les pics de certaines valeurs dans une distribution statistiques. -Dfinir un espace compris entre la moyenne et un certain nombre dcart type, et exclure ou plafonner toutes les valeurs > seuil (du type moyenne + 3 carts types).
102

51

09/11/2012

Nettoyage des donnes

les valeurs manquantes - exclure les enregistrements incomplets - saisir manuellement ces valeurs manquantes - remplacer ces donnes par la moyenne -utiliser une constante globale unknown les valeurs nulles : valeur conventionnelle pour une information inconnue ou inapplicable
103

Nettoyage des donnes


les valeurs redondantes -au niveau dune mme source - au niveau de plusieurs sources - exemple : la rfrence client dans la BD Commerciale et dans BD Marketing

104

Cohrence et Qualit du data warehouse

52

09/11/2012

Intgration/Restructuration
Suppression des incohrences smantiques entre les sources - diffrents noms/longueurs/types pour un mme attribut

Systmes oprationnels Application 1 pp Application 2 Application 3 Application 4 m,f , 1,0 x,y homme,femme

Data warehouse m,f f m,f m,f m,f


105

Intgration/Restructuration (suite)
diffrence d normalisation/structure d t bl diff de li ti / t t des tables (normalisation/dnormalisation) Le champ adresse est dcoup en n champs cibles: numro , rue , codepostal , pays , particularits conversions -
106

ville ,

53

09/11/2012

Intgration/monovariable
Agrgation : les donnes des ventes journalires sont agrges pour calculer les montants totaux mensuels et annuels.

Transformation des dates en dures: (ractivit dun client : diffrence entre une date d d denvoi d i dun catalogue et une d l date d commande). de d ) Modification des donnes gographiques en coordonnes: (ajouter les coordonnes de longitude et latitude pour intgrer les contraintes de proximit dans le raisonnement).
107

Intgration/multivariable
Les ratios : Les Exemple : montant des achats relatifs une famille de produits sera rapport au montant global des achats (degr dimplication du client pour ce type darticles) La frquence : Exemple : nombre de commandes sur les x dernires priodes

108

54

09/11/2012

Intgration/multivariable (suite)
Les tendances No 1 2 3 Priode 1 235 200 Priode 2 536 203 Tendance ++ =

Les combinaisons linaires/non linaires

109

Data Cleaning
Valeurs manquantes (nulles)
Ignorer le tuple Remplacer par une valeur fixe ou par la moyenne

Valeurs errones ou inconsistantes


Gnres en prsence de bruits Dtecter par une analyse de voisinage

cart par rapport la moyenne Factorisation en groupes (outliers)


Remplacer par une valeur fixe ou par la moyenne

Inspection manuelle de certaines donnes possible


L'alimentation

110

55

09/11/2012

CHARGEMENT
Pas de mise jour
Insertion de nouvelles donnes Archivage de donnes anciennes

De gros volumes
Priodicit parfois longue Chargement en blocs (bulk load) Mise jour des index et rsums

Problmes
Cohabitation avec l'OLAP ? Procdures de reprises ?
111

L'alimentation

Charger
Matrialisation des vues

Donnes pures et transformes

Plus Tris Consolidation Normalisation Vrification des contraintes dintgrit et Partitionnement des donnes (si plusieurs datamarts) Cration des indexes
112

56

09/11/2012

PRINCIPAUX ETL (JDNET)


Issue du rachat d'Acta, cette solution se propose de rendre accessible en "quasi-temps rel" les donnes les plus souvent accdes. L'un des diteurs de rfrence dans le domaine de l'ETL, qui s'tend sur la partie middleware en intgrant aussi les transactions. DataStage XE est l'offre traditionnelle d'Ardent qu'Informix a rachet dbut 2000 avant qu'Ascential ne la reprenne son compte lors de sa prise d'indpendance, tandis qu'Informix partait chez p IBM avec ses entrepts de donnes. Computer Associates est plus connu pour ses offres de scurit, de surveillance et de gestion d'infrastructures rseaux/informatiques. Mais son offre ETL s'avre assez complte y compris pour maintenir l'intgrit des mtadonnes sur toute la chane de traitement. L'outil ETL s'appelle Vision:Pursuit. Acta tait le fournisseur historique du premier connecteur SAP. Partenaire notamment de Siebel, Peoplesoft et JDEdwards. Interfaage avec Cognos, Hyperion, Actuate et Brio. Parfois cite comme plate-forme ETL de p rfrence par certains acteurs, mais pas ceux de la business intelligence, ETI.Extract fonctionne avec des librairies pour supporter les entrepts de donnes et des plugins additionnels en prolongement d'applications prcises. Surtout connu pour son offre de portail, Hummingbird fournit galement une plateforme ETL et EAI du nom de Genio Suite, assez rpute. En outre, une offre de business intelligence classique, BI/Suite prolonge le portail. portail Mais il n'est pas n est question de CRM analytique. Mais Genio Miner aggrge plus de L'une des plates-formes 15 algorithmes de d'extraction / datamining diffrents. transformation de donnes les plus compltes et rpandues. PowerCenter l'chelle de l'entreprise, et PowerMart celle du service ou du dpartement. Informatica s'est rcemment engag sur le crneau des applications analytiques, mais l'offre ETL est indpendante. Extraction standard depuis: fichiers plats (C et Cobol), Siebel, les SGBDR, Info mi SGBDR Informix, Teradata, Oracle Financials, PeopleSoft HRMS, SAP R3 et BW... Librairies pour toutes les bases de donnes cidessous, sauf Hyperion, sur systmes anciens et plus rcents. Plugins ETI.Accelerator pour Entrepts de donnes et Siebel, SQL/Teradata : Oracle, Sybase,MQ (IBM, les middleware Teradata, Tibco...). Hyperion Essbase, MS SQL Server et IBM DB2. Prise en charge nouvelle des formats de donnes : XML, mainframe, SAP en natif, binaires, versions rcentes des SGBDR. En EAI: Siebel, SAP, support Q de MQ Series. Le roadmap prvoit l'intgration prochaine des acteurs comme Brio, Gamme extrmement BO, Cognos et vaste de connecteurs MicroStrategy. spcifiques aux sources de donnes pour consolider tous les principaux entrepts de donnes. Pour citer quelques acteurs du CRM analytique en vrac: Siebel, Business Objects, Oracle, Hyperion, Crystal Decisions, Brio, SAP, Cognos, Peoplesoft, Kana, Nuance, Microstrategy... ainsi que les middleware MQ pour aller plus loin.

Business Objects
ActaWorks

ETI

ETI.Extract

Ascential Software

DataStage XE

Plus de 40 connecteurs natifs vers des sources de donnes, dont IBM/Informix, Oracle, Sybase, Teradata et IBM DB2. Package complet ddi SAP et la collection de modules MySAP. Partie analytique: Brio, Business Objects, SPSS et Crystal Decisions.

Hummingbird
Genio Suite 5

Computer Associates
DecisionBase

Connecteurs en direct pour extraire les donnes en temps rel depuis SAP, PeopleSoft et des systmes mainframes. Accs de nombreuses sources de donnes dont IBM/Informix, Oracle, Sybase, IBM DB2, HTML et fichiers txt.

Informatica
PowerCenter 5

113

http://solutions.journaldunet.com/0208/020827_bi_panorama1.shtml

4. GRER L'ENTREPT
Base relationnelle
Support de larges volumes (qq 100 gigas qq tras) Historisation des donnes (fentres) Importance des agrgats et chargements en blocs

Base spcialise
Base multidimensionnelle Combinaison des deux

Machine support parallle


Multiprocesseurs Mmoire partage, cluster, bus partag, etc.
Le multidimensionnel
114

57

09/11/2012

PRINCIPAUX SYSTMES (JDNET)


Hyperion
Essbase EssBase est l'entrept de donnes multidimensionnel de rfrence sur le march de la business intelligence. Possibilit de complter avec l'offre analytique d'Hyperion ou des solutions tierces. Ce n'est pas la base de donnes de se connecter aux applications mais aux pp applications de se connecter la base de donnes. Les accs vers Essbase sont nombreux. Se reporter aux autres catgories pour savoir qui accde quelles sources.

NCR

Teradata Database

Entrept de donnes multi-dimensionnel avec des d extensions d divers t i de di types dont des formules de data mining. Rput notamment pour ses capacits de monte en charge sous Unix et Windows 2000. Dernire version de la base de donnes relationnelle de l'diteur, Oracle 9i est retaille dans une optique qui approfondit les fonctions ddies la business intelligence. Peut galement fonctionner comme entrept de donnes OLAP. IQ est la version dcline de la base de donnes relationnelle de Sybase, pour des besoins en rapport avec la business intelligence, donc aussi le CRM analytique.

Les solutions qui accdent T Teradata sont a priori d t t i i un peu moins nombreuses que pour Hyperion Essbase, Microsoft, IBM DB2, Oracle et Sybase.

IBM

DB2/UDB, Informix XPS et Red Brick

DB2/Universal DataBase est la base de donnes relationnelle d'IBM. En rachetant Informix et son activit bases de donnes, Big Blue a rcupr ses entrepts de donnes multidimensionnels: XPS (datawarehouse), et Red Brick (datamart).

Mme remarque que pour Hyperion, en particulier pour DB2 qui est relativement rpandue. Se renseigner sur les solutions qui peuvent accder nativement aux diffrents SGBD OLAP propritaires d'Informix.

Oracle
Oracle 9i

Mme remarque que pour Hyperion et Microsoft, car Oracle 8i est encore trs rpandue.

Microsoft

SQL Server 2000

La version la plus rcente de la SGBDR (base de donnes relationnelle) de Microsoft. A enrichi ses fonctions OLAP avec Analysis Services. Parmi celles-ci: l'accs direct aux cubes via le web, et une extension data mining.

Mme remarque que pour Hyperion. SQL Server est trs rpandue, mais souvent encore en version 7.0 qui peut aussi tre attaque par la plupart des solutions du commerce qui fonctionnent sous Windows

Sybase

Adaptive Server IQ

Mme remarque que pour Hyperion, IBM DB2, Oracle et Microsoft

115

http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml

Exemple de traitement typiqu


Les ventes de vis sont plus faibles que prvu
Quelles couleurs sont responsables ??

SELECT couleur, SUM(prix) FROM Ventes, Ventes Produits WHEREVentes.codeProduit = Produits.codeProduit AND modle = vis GROUP BY couleur
116

58

09/11/2012

Exemple de traitement typiqu


Quelles mois sont responsables ??

SELECT couleur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date Temps.jour V t d t =T j AND modle = vis GROUP BY couleur, mois
117

Exemple de traitement typiqu


Quelles vendeurs sont responsables ??

SELECT vendeur, mois, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date Temps.jour Vente date = Te jo AND modle = vis AND couleur = rose GROUP BY mois, vendeur
118

59

09/11/2012

Exemple de traitement typiqu


Q Quelles annes sont responsables ?? p

SELECT vendeur, anne, SUM(prix) FROM Ventes, Produits, Temps WHEREVentes.codeProduit = Produits.codeProduit AND Ventes.date Temps jour Ventes date = Temps.jour AND modle = vis AND couleur = rose GROUP BY anne, vendeur
119

Problmatique
Chaudhuri et Dayal 97

Supporter des oprations tableur sur des BD de plusieurs GO. Besoins spcifiques
langages de manipulation organisation des donnes mthodes daccs
120

60

09/11/2012

Modle
Forme proche des abstractions de lanalyste Organisation des donnes selon plusieurs dimensions selon diffrents niveaux de dtail en ensemble Donne = point dans lespace associe des valeurs

121

61

Вам также может понравиться