Академический Документы
Профессиональный Документы
Культура Документы
Résumé
Les entreprises soucieuses de leur progrès tentent à satisfaire continuellement leurs clients potentiels.
L’utilisation du e-commerce, l’essor des technologies liées à l’internet fait naître de nouvelles attentes de la part
des clients et des collaborateurs. Ceci oblige ces entreprises à prendre les décisions adéquates en vue de
répondre aux exigences de leurs clients, en examinant leur comportement sur son site de e-commerce. L’analyse
du marché pour une entreprise donnée repose sur la quantité importante d’informations provenant de son site
web marchand. Cette analyse peut se faire en exploitant les entrepôts de données (ED) ou data warehouse (DW)
d’une part et les outils de data mining ou de fouille de données pour une classification (profilage) des clients
d’autre part, car l’aide à la décision peut nécessiter de comprendre plus profondément les chiffres et les faits de
l’entreprise. Le présent article décrit la conception, l’architecture et quelques fonctionnalités d’un outil d’aide à
la décision pour la gestion de la relation client sur un site de e-commerce.
Mots clés
E-CRM , Data warehouse, Data Mining, modèle multidimensionnel, OLAP.
1. Introduction
De nombreuses entreprises ont bâti en partie leurs succès grâce à une politique de constante innovation
technologique et ont su utiliser les nouvelles technologies, depuis longtemps, pour acquérir de nouveaux
marchés et viser de nouveaux clients. De plus en plus sensibilisés au web, ils veulent accéder directement de
façon personnalisée et sécurisée, au service de l’entreprise et de ses partenaires.
Partant de ce fait, les entreprises ont senti le besoin et la nécessité de prendre certaines décisions pour répondre
aux attentes de ce nouveau type de clients qui se manifeste via ce nouveau canal d’interactions. La connaissance
de l’environnement décisionnel est un élément vital dans la prise de décision. Par exemple la connaissance de
clients et de leur comportement d’achat constitue un élément décisionnel pour le lancement d’un produit.
L’anayse du marché pour une entreprise donnée aura comme référence les données qui découlent de son site
web marchand.
Les entreprises possèdent donc, d’importants volumes de données aux formats généralement
hétérogènes, ce qui nécessite l’utilisation d’un outil permettant l’exploitation efficace et performante de ces
données pour aider l’entreprise à la prise de décision, d’où la naissance des entrepôts de données (ED) ou data
warehouse (DW) (Inmon, 1996b), (Kimball & al, 2000). Cette approche vise à extraire des données de bases de
production, à les assembler, par sujet, à les organiser, à les transformer et à les résumer pour l’aide à la décision.
L’entrepôt doit pouvoir mémoriser l’histoire de l’entreprise.
Pour mieux connaître sa clientèle, une entreprise peut décider d’effectuer une classification basée sur le
comportement des clients. Ceci implique la nécessité de mettre en place des outils de data mining ou fouille de
données . Ces outils reposent en général sur des techniques basées sur les statistiques, la classification ou
l’extraction de règles associatives (Gardarin, 2000).
Le travail présenté dans cet article consiste en la conception et la mise en œuvre d’un outil d’aide à la décision
basé sur les techniques de DW et de data mining, susceptible d’assister les entreprises de ventes sur internet ,
dans la prise de leurs décisions.
Page2
La suite du document est organisée comme suit :
La section 2 présente les concepts de base du décisionnel, à savoir les entrepôts de données (ED) et le data
mining.
La section 3 présente le concept d’aide à la décision dans la gestion de la relation client.
La section 4 décrit la conception de l’outil réalisé pour l’aide à la décision. En effet, elle présente les vues
statique et dynamique du système en utilisant quelques diagrammes d’UML, le modèle multidimensionnel selon
deux axes ventes et visites. Une description d’un algorithme de groupage est aussi donnée dans cette section.
Enfin, quelques figures montrant les principales fonctionnalités de l’outil sont données dans la section 5.
Intégrées
Les données de l’entrepôt proviennent de différentes sources éventuellement hétérogènes. L’intégration
consiste à résoudre les problèmes d’hétérogénéité des systèmes de stockage, des modèles de données, de
sémantique de données.
Orientées sujet
Après leur intégration dans une sorte de source globale, les données sont réorganisées autour de thèmes tels
que : client, vendeur, produit…etc.
Chaque décideur d’une entreprise doit disposer d’une vue sur les informations qui lui sont pertinentes, et qui
peuvent influer dans ses décisions pour une meilleure exploitation de ces données.
Non volatiles
Tout se conserve, rien ne se perd : cette caractéristique est primordiale dans les ED. En effet, et
contrairement aux bases de données classiques, un ED est accessible en ajout ou en consultation
uniquement. Les modifications ne sont autorisées que pour des cas particuliers (correction d’erreurs…etc.).
Page3
Historisées
La conservation de l’évolution des données dans le temps, constitue une caractéristique majeure des ED.
Elle consiste à s’appuyer sur les résultats passés pour la prise de décision et faire des prédictions ;
autrement dit, la conservation des données afin de mieux appréhender le présent et d’anticiper le futur.
Résumées
Les informations issues des sources de données doivent être agrégées et réorganisées afin de faciliter le
processus de prise de décision.
Intégration :
Cette première étape, est assez délicate, car elle consiste à extraire et regrouper les données, provenant de
sources multiples, et hétérogènes. Un certain nombre de problèmes est à résoudre à ce niveau : les données
doivent être filtrées, triées, homogénéisées et nettoyées.
Structuration :
Cette étape consiste à réorganiser les données, dans des magasins afin de supporter efficacement les
processus d’analyse et d’interrogation, et d’offrir aux différents utilisateurs, des vues appropriées à leurs
besoins.
Interrogation et Analyse :
L’exploitation de l’entrepôt, pour l’aide à la décision peut se faire de différentes façons, dont :
Page4
mesure
Les données représentées sur l’hypercube peuvent être sujettes à une analyse OLAP.
Le terme OLAP (OnLine Analytical Process) désigne communément, un ensemble de fonctionnalités qui servent
à faciliter l’analyse multidimensionnelle, opérations réalisables sur l’hypercube, parmi lesquelles nous citons : la
rotation, la coupe, le pliage et le dépliage (Codd, 1993 ), (Chaudrui,1997).
3.2 E-CRM :
L'e-crm est un processus continu d'amélioration de la relation client sur Internet. C’est un domaine en pleine
expansion au vu de l’impact d’Internet sur le e-commerce. Voici quelques chiffres justifiant l’intérêt porté à ce
domaine (Source: META Group, Business Week, Forrester Research, Jupiter Communication):
Page5
Moins de 5% des visiteurs uniques deviennent clients
En 2004, chaque foyer recevra en moyenne 9 e-mails par jour, 6 visant à fidéliser et 3 à créer de
nouveaux clients
L'utilisation d'outils de gestion de campagnes d'e-mail permet de multiplier par quatre le taux d'achat
engendré
Les campagnes par e-mail coûtent 80% moins cher que le publipostage direct classique
Accéder à l’OAD.
Visualiser les données en cube (choisir un magasin de données).
Appliquer les opérations OLAP sur le cube de données.
Appliquer les techniques du data mining.
Page6
Figure 4.3 : Diagramme de séquence
« Appliquer les opérateurs OLAP »
Page7
4.2 Diagrammes de classes participantes (DCP) :
La phase suivante, consiste à identifier l’ensemble des diagramme de classes participantes (DCP). Il s’agit de
diagrammes de classes UML qui décrivent, par cas d’utilisation, les principales classes d’analyse et leurs
relations. Ces diagrammes font la jonction entre les cas d’utilisation, le modèle du domaine, la maquette et les
diagrammes de conception logicielle. Les différentes classes d’analyse se répartissent en trois catégories : les
classes « Interface » permettant les interactions entre le système et ses utilisateurs, les classes « contrôle »
contenant la cinématque de l’application, et les classes « entité » représentant les objets métiers.
Classe
d’interface
Classe de
contrôle
Figure 4.6 : DCP du cas d'utilisation Figure 4.7 : DCP du cas d'utilisation
« visualiser les données en cube » « Appliquer opérateur OLAP »
Page8
Figure 4.8 : DCP du cas d'utilisation « Appliquer un
algorithme de data mining»
Le premier module de l’OAD, est consacré à l’analyse multidimensionnelle des données issues d’un site de e-
commerce.
Les magasins de données choisis, depuis lesquels le décideur visualise les cubes de données sont les magasins
ventes et visites.
Les tables de faits et de dimensions des deux magasins sont structurés selon les deux schémas en étoile présentés
ci-dessous :
Figure
4.5 4.10
Module de:Data
schéma en étoile du magasin de
Mining
données des ventes Figure 4.11 : Schéma en étoile du magasin de
données des visites
Page9
Le deuxième module de l’OAD, est basé sur un algorithme de groupage (Gardarin, 2000) inspiré de la méthode
des k-moyennes, permettant de construire des groupes de clients en fonction de critères de similarité.
Avant de détailler le fonctionnement de l’algorithme de groupage, il faut éclaircir certains points et rappeler
quelques définitions de base utilisées dans les étapes de calcul des groupes d’individus.
On considère que chaque individu est muni d’un poids pi avec pi > 0 et ∑ pi = 1 .
i
Nuage d’individus
Dans l’espace des individus, l’ensemble N = { xi / xi ∈ ℜ , pi > 0 et ∑ pi = 1 } est appelé nuage d’individus.
n
Centre de gravité
Le centre de gravité g d’un nuage N ou encore le « Barycentre » des points Xi (ou Xi et le ième individu du nuage
N) affectés aux poids pi est donné par la formule suivante :
⎛ xi1 ⎞ ⎛ x1 ⎞
⎜ ⎟ ⎜ ⎟
⎜ . ⎟ ⎜ . ⎟
⎜ ⎟
g = ∑ pi * xi qui s’écrit : g = ∑ pi * ⎜ . ⎟ = ⎜ . ⎟
n n
i =1 i =1 ⎜ ⎟
⎜ . ⎟ ⎜ . ⎟
⎜ p ⎟ ⎜⎜ p ⎟⎟
⎝ xi ⎠ ⎝ x ⎠
n
Où x =
j
∑p
i =1
i * xij est la moyenne de la jième variable.
Inertie du nuage
L’inertie d’un nuage d’individus N par rapport à un point (individu) X ∈ ℜ est la quantité notée par :
n
n
I x ( N ) = ∑ pi * d 2 ( xi , x) Où d 2 ( xi , x) est la distance entre Xi et X.
i =1
Remarques
1
− Le poids pi dans notre cas est identique pour tous les individus et est égal à .
N
− Pour l’algorithme de groupage nous avons utilisé la distance euclidienne qui est donnée par la formule
suivante :
n
d ( x, y ) = ∑ (x
i =1
i − y i ) 2 Avec x et y deux vecteurs de ℜ n
Page10
Algorithme de groupage
Début
Choisir le nombre k
de groupes
Pour chaque
individu faire
i := 2 ;
d := distance entre l’individu et le 1er centre
l’individu ∈ au 1er groupe ;
Non
i <= k
i := i + 1 ;
tmp:= distance entre l’individu et le
kème centre ;
Non
tmp < d
Oui
L’individu ∈ au kème groupe ;
Non
Non
Recalculer les centres des différents
groupes ;
Page11
Principe général :
L’algorithme consiste à grouper les clients selon un critère bien déterminé par exemple : par catégorie d’achats
(i.e le vecteur x représentant la quantité achetée de chaque produit, pour un client donné).
L’entrée de l’algorithme est le nombre k de groupes (représentant les catégories de clients). Une fois le nombre
de groupes saisi, l’algorithme choisit arbitrairement k clients comme centres « initiaux » des k groupes.
L’étape suivante consiste à calculer la distance entre chaque individu (client) et les k centres ; la plus petite
distance est retenue pour inclure cet individu dans le groupe ayant le centre le plus proche.
Une fois tous les individus groupés, on aura k sous-nuages disjoints du nuage total. Pour chaque groupe (sous-
nuage), l’algorithme calcule le nouveau centre de gravité.
L’algorithme s’arrête lorsque les groupes construits deviennent stables.
La première partie constitue l’interface du site web marchand de l’entreprise. Les clients qui se connectent au
site et ayant déjà effectué une identification pourraient effectuer différentes actions durant leurs visites telles que
le passage d’une commande, la consultation et/ou la modification de leurs paniers, etc. Ces actions vont se
traduire par une génération des données sous format xml. Le commerçant, au niveau de son entreprise se
connecte au site pour télécharger ces fichiers xml qui seront récupérés par l’outil d’aide à la décision (livré au
commerçant lors de génération de son site), pour être enfin stockés dans l’entrepôt de données après conversion
au format relationnel.
Page12
5.2 Analyse multidimensionnelle :
L’analyse multidimensionnelle, consiste dans un premier temps à choisir un magasin de données parmi ceux
proposés, ainsi que les dimensions et les mesures à prendre en compte.
Page13
Il est alors possible d’appliquer les différentes opérations OLAP, telles que : pliage, dépliage, rotation…etc.
Page14
Le décideur va donc donner en entrée le nombre k de groupes, pour valider ensuite son choix, le résultat de cette
opération est affiché sous forme de rapports imprimables à la demande du décideur.
Conclusion
Le travail présenté dans cet article consiste en la conception et la réalisation d’un outil d’aide à la décision dans
la gestion de la relation client sur internet. L’intérêt principal d’un tel outil est d’offrir aux décideurs une
meilleure vision de leurs clients leur permettant ainsi, une meilleure gestion de leurs entreprises. Comme
perspective à ce travail, nous proposons un enrichissement du module data mining en intégrant d’autres
techniques de classification telles que les réseaux de neurones.
Remerciements : nous tenons à remercier Mrs K. ALLOUN & O. CHOUIB pour leur contribution dans la
réalisation de l’outil.
Références
(Bret & al, 2001) : Groupe EVOLUTION. F. Bret. T. Cruanees. I. Guessarian. E. Metais. M-C. Rousset. S. Schwer. O.
Teste. G. Zurfluh, Ingénerie des systèmes d’information , édition HERMES, 2001
(Chaudrui,1997) : S. Chaudhuri , Data Warehousing and OLAP for Decision Support (Microsoft Research, Redmont),
SIGMOD AZ, USA, 1997.
(Codd, 1993) : E. F. Codd, Providing OLAP to user-analysts: an IT mandate, Technical Report, E. F. Codd and associates,
1993.
(Gardarin, 2000) : Georges Gardarin, Internet,Intranet et bases de données, Edition DUNOD, 2000.
(Inmon,1996a) : W. H. Inmon, The Data Warehouse and Data Mining , communication of the ACM, , Vol. 39, N° 11,
Novembre 1996
(Inmon,1996b) :W. Inmon. Building the Data Warehouse. QED Technical Publishing Group, Wellesley, Massachusetts,
U.S.A., 1996
(Jarke & al,2000) : Matthias Jarke, Thomas List, Jörg Köller, The Challenge of Process Data Warehousing, 26th
International Conference on Very Large Databases, Caire, Egypt, 2000
(Kimball & al, 2000) : R. Kimball, L. Reeves, M. Ross, W. Thornthwaite, Concevoir et déployer un data warehouse,
Editions Eyrolles, 2000
(Ravat & al, 2001) : Frank Ravat, Olivier Teste, Gilles Zurfluh : Modélisation et extraction de données pour un entrepôt
objet , Université Paul Sabatier (Toulouse III), IRIT (Institut de Recherche en informatique de Toulouse), équipe SIG,
Toulouse, France 2001
(Teste, 2000) : Olivier Teste, Modélisation et Manipulation d’Entrepôts de Données Complexes et Historisés, Thèse de
Doctorat de l’université Paul Sabatier, Décembre 2000.
Page15