Академический Документы
Профессиональный Документы
Культура Документы
1 : INTRODUCTION
EPF 4/ 5me anne - Option Ingnierie dAffaires et de Projets
Bertrand LIAUDET
introduction
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 1/19- Bertrand LIAUDET
INTRODUCTION
Quest-ce que le data mining
Traduction littrale
Dfinitions
Formules et mtaphores
Le data mining est un procd qui permet de passer des donnes la connaissance.
Le data mining est un procd qui permet de dcouvrir des ppites dinformations
caches dans la gangue des donnes.
Augmentation des capacits de stockage des donnes (disques durs de giga octets).
Augmentation des capacits de traitements des donnes (facilit daccs aux donnes : il
ny a plus de bandes magntiques ; acclration des traitements).
Maturation des principes des bases de donnes (maturation des bases de donnes
relationnelles).
Les ouvrages s'adressent aux tudiants ainsi qu'aux linguistes, philosophes, informaticiens, scientifiques
intresss par la logique et le langage.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 2/19- Bertrand LIAUDET
Croissance exponentielle des bases de donnes : capacits atteignant le terabits (1012 bits)
et mergence des entrepts de donnes : data warehouse, rendant impossible
lexploitation manuelle des donnes.
Plus grande disponibilit des donnes grce aux rseaux (intranet et internet).
Le data mining permet dexploiter ces donnes pour amliorer la rentabilit dune activit.
Le data mining permet ainsi daugmenter le retour sur investissement des systmes
dinformation.
dans le but de prendre des dcisions dans un second temps : PREVOIR pour DECIDER.
Du bon sens. Il sagit dabord danalyser les donnes avec du bon sens et un peu
doutillage mathmatiques et statistiques lmentaire.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 3/19- Bertrand LIAUDET
(a
pluie
b)
sol mouill
(b
a)
sol mouill
pluie
Relation causale
Implication logique
Ralit
Connaissance
a
t1
b
t2 > t1
b
t1
a
t2 <= t1
Implication diachronique
Implication synchronique
Implication physique
Implication logico-mathmatique
b)
( a b )
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 4/19- Bertrand LIAUDET
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 5/19- Bertrand LIAUDET
Il faut connatre ses donnes, se les tre appropries, et de l, pouvoir les questionner pour
pouvoir dpasser les difficults.
Lenjeu majeur cest de produire du sens. Le sens, dans la logique classique, cest lobjet
extralinguistique dsign par les concepts. Cest ce qui est rfr, le rfr, ou, par abus de
langage, la rfrence. Le sens, cest le concret. Pour comprendre ce quest un chat, le mieux
est davoir vu pleins de chats. Ce qui nous permettra de dire que tous les chats ont des griffes,
quil font miaou , et que certains chats sont noirs, erc.
Une intuition sans concept est aveugle, un concept sans intuition est creux2 : il faut donc faire
des allers-retours entre le concept et sa signification, autrement dit la ralit concrte quil
rfre.
On sintressera aussi aux populations (un ensemble de tuples) en plus des individus (un
tuple, une ligne dun tableau). Les statistiques produisent un sens au sujet de la population.
Par exemple, la moyenne (cest facile), cest un sens dun ensemble de rfrs (les lments
dont on donne la moyenne).
On sintressera enfin aux corrlations entres les attributs.
Daprs Kant, Critique de la raison pure, Logique transcendantale, De la logique en gnral : Des penses
sans contenu sont vides, des intuitions sans concepts sont aveugles.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 7/19- Bertrand LIAUDET
La banque
Les tlcommunications
Le e-commerce
La dtection des fraudes
Les tudes scientifiques
Le marketing direct
Lassurance
La distribution
La biologie
Lindustrie pharmaceutique
CRM oprationnel : choix des campagnes marketing (stratgie) et gestion des canaux de
communication (forces commerciales, centres dappel tlphoniques, internet, tlvision,
etc.)
Difficult : tirer partie de la masse de donnes. Ne pas se noyer dedans.
Objectif : on ne veut plus seulement savoir : combien de clients ont achet tel produit
pendant telle priode ?, mais on veut savoir quel est leur profil ? , quels autres produits
les intresseront ? , quand seront-ils de nouveau intresss ? .
Avec le data mining, on va sintresser lhistorique des donnes, autrement dit un film du
comportement de la variable tudie (par exemple, le client) et pas seulement une
photographie.
Le dveloppement des systmes dinformations avec des bases de donnes favorise la collecte
de lhistorique des donnes et les tudes de data mining. Et inversement : cest parce quon
pourra tirer quelque chose de ces historiques quon aura intrt les conserver.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 8/19- Bertrand LIAUDET
Une socit de cosmtique de luxe dtecte automatiquement ses meilleurs clients ds les
premires transactions dans sa base de donnes pour les traiter avec le plus dgards
possibles.
Un oprateur de tlvision par abonnement dtecte les clients les plus sensibles des
offres de chanes complmentaires partir des appels tlphoniques des clients.
Un directeur de thtre segmente son public par des critres danciennet, de dure et de
frquence de frquentation (forme de la consommation), mais aussi par genre de spectacle
(contenu de la consommation) pour adapter son offre et sa publicit.
Secteur bancaire : le scoring, pour mieux cibler les propositions de prts et viter les
surendettements (et donc les mauvais payeurs).
Web mining et e-commerce : 50% des clients dun constructeur de machine achtent ses
machines travers le web. Mais seulement 0,5% des visiteurs du site deviennent clients.
Lide est de stocker les squences de click des visiteurs et danalyser les caractristiques
des acheteurs pour adapter le contenu du site.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 9/19- Bertrand LIAUDET
Dun ct, les statisticiens ignorent ou mprisent le data mining en considrant que ce
nest pas de la statistique.
Dun ct, le data mining utilise des techniques statistiques, mais certains prfrent
lignorer.
Dun autre ct, les instituts de statistique possdent des gisements de donnes
considrables mais les exploitent peu avec les techniques du data mining.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 10/19- Bertrand LIAUDET
Le data mining est orient pratique et pas thorie : do le mpris des statisticiens !
Le data mining ne sintressent pas, contrairement aux statisticiens, aux lois gnrales de la
statistique : cest un domaine directement appliqu.
Le data mining recherche parfois plus la comprhensibilit des modles que leur prcision.
Les modles du data mining sont en gnral plus localiss (cest--dire limit une
population trs spcifique) que ceux des statisticiens.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 11/19- Bertrand LIAUDET
Prsentation du CRISP-DM
Le data mining est un processus mthodique : une suite ordonne d'oprations aboutissant
un rsultat.
Le CRISP-DM (Cross Industry Standard Process for Data Mining) dcrit le data mining
processus itratif complet constitu de 4 tapes divises en tout en 6 phases.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 12/19- Bertrand LIAUDET
tapes
Phases
Objectifs
1 : Comprhension du mtier
Donnes
Traitements
4 : Modlisation
5 : valuation de la modlisation
Matre
douvrage
Dploiement
1 : Comprhension du mtier
Cette phase consiste :
Utiliser lanalyse exploratoire pour se familiariser avec les donnes, commencer les
comprendre et imaginer ce quon pourrait en tirer comme connaissance.
Prparer, partir des donnes brutes, lensemble final des donnes qui va tre utilis
pour toutes les phases suivantes.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 13/19- Bertrand LIAUDET
4 : Modlisation
Cette phase consiste :
Calibrer les paramtres des techniques de modlisation choisies pour optimiser les
rsultats.
5 : Evaluation de la modlisation
Cette phase consiste produire le rapport final :
Dterminer si les rsultats obtenus atteignent les objectifs globaux identifis pendant
la phase de comprhension du mtier.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 14/19- Bertrand LIAUDET
Clementine de SPSS. Clementine est la solution de data mining la plus vendue dans le
monde. Cest celle quon utilisera en dmonstration dans ce cours.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 15/19- Bertrand LIAUDET
Il existe des logiciels de data mining que nous pouvons faire tourner automatiquement sur
nos bases de donnes pour trouver des rponses nos questions.
Le data mining exige une bonne comprhension et une bonne prparation des donnes.
Il faut choisir les techniques quon va appliquer aux donnes pour trouver des
Les logiciels de data mining nettoient les bases de donnes errones automatiquement.
Un algorithme de data mining est dautant plus efficace quil a plus de donnes en entre.
Ce nest pas vrai pour les techniques prdictives qui ncessitent au moins la priori de
la variable cible.
Cest en partie vrai pour les techniques descriptives et la classification
particulirement.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 16/19- Bertrand LIAUDET
Dans une tude de data mining, la partie la plus longue consiste prparer les donnes.
Ce travail est un travail de statisticien (mme sil est assez simple). Ce nest quune fois
ralis quon peut appliquer les algorithmes des modles.
Conclusions
Lancer une tude de data mining, cest comme partir chercher de lor dans une mine ou dans
une rivire :
1) Ca ncessite du travail !
2) On nest pas sr de trouver quoi que ce soit !
3) Mieux vaut tre entour de personnes comptentes
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 17/19- Bertrand LIAUDET
Aspects pdagogiques
Niveau et prrequis du cours
Ce cours sadresse des ingnieurs : ni des statisticiens, ni des informaticiens.
Il ne sagit ni de matriser parfaitement les mathmatiques des statisticiens, ni de comprendre
parfaitement les algorithmes de calcul. Il sagit de comprendre les donnes quon manipule
pour en faire des connaissances qui permettent de prendre des dcisions.
Ce cours est adapt un niveau master . Un cours dintroduction aux statistiques est
souhaitable mais non ncessaire. Aucune expertise en programmation nest ncessaire.
Organisation du cours
Etapes
3 cours magistraux et 2 TP
1 projet
Evaluations
projet 1
1 examen crit
projet 2
Plan du cours
Le cours va prsenter le data mining en tant que processus.
Il se composera de trois parties :
1. La comprhension et la prparation des donnes.
2. La prsentation de certaines techniques utilises dans la modlisation, cest--dire
lanalyse des donnes.
3. Lutilisation dun logiciel (SPSS Clementine)
Bibliographie
Data mining et statistique dcisionnelle. Stphane Tuffery. Editions Technip, Aot 2005.
Introduction au Data Mining, Analyse intelligente des donnes. Michel Jambu. Eyrolles,
1999.
Sites internet
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 18/19- Bertrand LIAUDET
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 19/19- Bertrand LIAUDET