Академический Документы
Профессиональный Документы
Культура Документы
Bibliographie
SYSTEMES D’INFORMATION DÉCISIONNELS
Besoins liés aux SI décisionnels
Brique SIMAN Architecture générale des SI décisionnels
Conclusion
TELECOM Paris
Année 2005-2006
http://www.kdnuggets.com
Architecture générale des SI décisionnels (3) Architecture générale des SI décisionnels (4)
Systèmes de gestion
Bases de données transactionnelles
Entrepôts de données Æ On Line Transactional Processing (OLTP)
Æ Bases de données transactionnelles
Alimentation
Nettoyage
Systèmes décisionnels
ÆOn Line Analytical Processing (OLAP)
Requêtes
Fusion Æ Entrepôts/magasins de données (data warehouse, data mart)
Æ Outils d’alimentation (extract, transform, load)
Æ Requêteurs (querying, reporting tools)
Saisie Æ Cubes de données (cf. OLAP)
Æ Fouille de données (data mining)
Données externes Data mining Analyse Olap
Objectif
Bibliographie
Définition d’un entrepôt de données Stockage des données pour l’activité décisionnelle (machine distincte)
Quel contenu ?
« A data warehouse is a copy of transaction data specifically
– Intégration de différentes sources de données internes/externes
structured for querying and reporting. »
– Constitution d’historiques
(Kimball/Greenfield)
– Alimentation périodique des données
Difficultés
Structuration
Trois types d’interaction
– Requêtes – Modèle de données relationnel
Focus sur les entrepôts de données Structuration des entrepôts de données en relationnel
Objectif
L’entrepôt est une base de données relationnelle
Structuration des données en relationnel
Dénormalisation
• Principes de structuration On introduit de la redondance pour
• L’alimentation des données
• L’analyse par les requêtes • Faciliter la consultation
DÉNORMALISATION
CLIENT VILLE
ID_CLIENT NOM ADRESSE CODE CODE VILLE
1 Dupont 25, Rue de Paris 92230 92230 Bagneux
2 Duval 12, Bd Jaurès 92230 75002 Paris
3 Vincent - 75002 78200 Vélizy
4 Firin 34, Rue Irun 78200
CLIENT
ID_CLIENT NOM ADRESSE CODE VILLE
1 Dupont 25, Rue de Paris 92230 Bagneux
2 Duval 12, Bd Jaurès 92230 Bagneux
3 Vincent - 75002 Paris
4 Firin 34, Rue Irun 78200 Vélizy
Structuration des entrepôts de données en relationnel (4) Focus sur les entrepôts de données
Objectif
Principaux constructeurs du marché
Structuration des données en relationnel
– ORACLE
– SYBASE • Principes de structuration
– IBM (DB2) • L’alimentation des données
– NCR (TERADATA) • L’analyse par les requêtes
– MICROSOFT (SQL Server)
Structuration multi-dimensionnelle (OLAP)
– …
• Le modèle de données multi-dimensionnel
• L’analyse multi-dimensionnelle (OLAP)
• Stockage d’un cube de données
• Conception d’un cube de données
Opérations à effectuer
Opérations à effectuer (suite)
1. Extraction des données depuis les systèmes de gestion
L’alimentation des données (3) L’alimentation des données : les ETL (4)
Solutions informatiques
– Développement de programmes ad’hoc
– Utilisation d’un logiciel ETL
– Univers/requêtes préparés
• Tableaux
• Graphiques
• Sur fond de carte géographique
– Business Objects
– Brio
– Microstrategy
– Cognos (Impromptu)
– Hyperion
– SAS
Architectures informatiques
Objectif
Nouvelle structure de données
Structuration des données en relationnel
– Matrice à plusieurs dimensions
• Principes de structuration
– Permettra la production de tableaux croisés dynamiques
• L’alimentation des données
• L’analyse par les requêtes
Magasin
– Valeurs numériques
Baguette
Objectif
Hiérarchies sur les dimensions
Structuration des données en relationnel
Ville Æ Département Æ Région Æ Pays
• Principes de structuration
• L’alimentation des données
Jour Æ Mois Æ Trimestre Æ Année • L’analyse par les requêtes
Objectif
Stockage d’un cube de données
Structuration des données en relationnel – MOLAP : Multi-dimensional OLAP
• Principes de structuration – ROLAP : Relational OLAP
• L’alimentation des données
– HOLAP : Hybrid OLAP
• L’analyse par les requêtes
Stockage d’un cube de données (4) Stockage d’un cube de données (5)
• Express (Oracle)
Consolidation
• Essbase (Hyperion)
– Pré-calcul d’agrégats
– Temps de réponse • Powerplay (Cognos)
• Intégration suites décisionnelles (SAS, BO, …)
Index pour accélérer les requêtes
Stockage d’un cube de données (8) Focus sur les entrepôts de données
Objectif
• Principes de structuration
• L’alimentation des données
• L’analyse par les requêtes
Conception du schéma d’un modèle multi-dimensionnel Conception du schéma d’un modèle multi-dimensionnel (suite)
Conclusion
Web mining
Saisie
“Advances in Knowledge Discovery and Data Mining”, Fayyad .M., Piatetsky-Shapiro G.,
Données externes Data mining Analyse Olap Smyth P., Uthurusamy R., (eds.), Menlo Park, California: AAAI Press, 1996.
Knowledge Data Discovery (KDD) versus Data Mining Terme ‘Data Mining’ (fouille de données, orpaillage)
Processus non trivial
Data
(1) compréhension globale du projet
Valid
(2) compréhension des données
• Qualitative (nominale)
Principales méthodes décisionnelles
• Qualitative (nominale) ordonnée
Web mining
NO_CLI NOM DEPT REVENU SATISFACTION
---------------------------------------------+----------------------+----------------------+----------------------
NUM . IDEN - LIBELLE EFFECTIF | MOYENNE ECART-TYPE | MINIMUM MAXIMUM | MIN.2 MAX.2
---------------------------------------------+----------------------+----------------------+----------------------
1 . CYL - CYLINDREE 24 | 1906.125 516.794 | 1116.000 2986.000 | 1117.000 2933.000
2 . PUIS - PUISSANCE 24 | 113.667 37.968 | 50.000 188.000 | 58.000 182.000
3 . VITE - VITESSE 24 | 183.083 24.685 | 135.000 226.000 | 144.000 222.000
4 . POID - POIDS 24 | 1110.833 225.442 | 730.000 1510.000 | 780.000 1430.000
5 . LONG - LONGUEUR 24 | 421.583 40.470 | 350.000 473.000 | 363.000 472.000
6 . LARG - LARGEUR 24 | 168.833 7.493 | 155.000 184.000 | 156.000 180.000
---------------------------------------------+----------------------+----------------------+----------------------
Analyse bivariée
Boîtes à moustaches
– CA viandes
– CA légumes
– CA surgelés
– CA bricolage
– …
CLASSE 2/ 3
EFFECTIF: 11
ford_sierra renault_21
peugeot_405 renault_espace
citroen_bx peugeot_405b
renault_19 opel_omega
fiat_tipo nissan_vanette
CLASSE 3/ 3
EFFECTIF: 6
rover_827i renault_25
ford_scorpio bmw_530i
bmw_325ix audi_90_quattro
| -3.80 | 0.000 |
82.29
159.57
113.67 |
| -3.47 | 0.000 | 1322.57 1906.12 |
168.83 |
19.28
159.19
3.58
37.97 |
516.79 |
7.49 |
2.PUISSANCE
1.CYLINDREE
6.LARGEUR
PUIS |
CYL |
LARG |
Classification automatique
| -3.89 | 0.000 | 825.71 1110.83 | 60.14 225.44 | 4.POIDS POID |
| -4.28 | 0.000 | 365.29 421.58 | 6.88 40.47 | 5.LONGUEUR LONG |
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
CLASSE 2 / 3
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
Recherche de règles d’associations
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | VARIABLES CARACTERISTIQUES |
| | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE IDEN |
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
| CLASSE 2 / 3 ( POIDS = 11.00 EFFECTIF = 11 ) aa2a |
| |
| 2.08 | 0.019 | 172.36 168.83 | 4.72 7.49 | 6.LARGEUR LARG |
| 1.73 | 0.042 | 437.45 421.58 | 20.01 40.47 | 5.LONGUEUR LONG |
| 1.02 | 0.155 | 1162.73 1110.83 | 138.86 225.44 | 4.POIDS POID |
| | | | | |
| -0.08 | 0.466 | 1896.27 1906.12 | 156.82 516.79 | 1.CYLINDREE CYL |
| -1.33 | 0.091 | 102.18 113.67 | 15.64 37.97 | 2.PUISSANCE PUIS |
| -1.35 | 0.089 | 175.55 183.08 | 14.99 24.68 | 3.VITESSE VITE |
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
Confiance :
Données en entrée 40% de transactions avec ‘poupée’ parmi celles ‘pain’ et ‘bonbons’
– Ensemble de ‘transactions’
Possibilité de plusieurs items à gauche et à droite de la règle
Web mining
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 101 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 102
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 103 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 104
Régression simple (3) Régression multiple et sur variables indicatrices
Attention :
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 105 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 106
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 107 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 108
Discrimination Principales méthodes décisionnelles
– Réseaux de neurones
– Régression logistique
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 109 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 110
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 111 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 112
Arbres de décision (3) Arbres de décision (4)
• Nb de bien classés
– Echantillon d’apprentissage
– Echantillon de test
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 113 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 114
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 115 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 116
Plan du focus sur la fouille de données Mise en œuvre opérationnelle
– Logiciels mono-méthode
Mise en œuvre opérationnelle (ex. Alice Isoft, SPSS AnswerTree)
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 117 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 118
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 119 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 120
Conclusion Conclusion (2)
G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 121 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 122