Cours de Data Mining 1-Introduction-EPF

COURS DE DATA MINING
1 : INTRODUCTION
EPF 4/ 5me anne - Option Ingnierie dAffaires et de Projets
Bertrand LIAUDET
introduction
Quest-ce que le data mining...........................................................................................2

5 difficults techniques du data mining ..........................................................................6
Applications du data mining ...........................................................................................8
Prsentation schmatique des relations entre statistiques et data mining ..................10
Le processus standard dune tude de data mining .....................................................12
Les logiciels de data mining ..........................................................................................15
En guise de conclusion : quelques ides fausses sur le data-mining ............................16
Aspects pdagogiques ....................................................................................................18
1re dition : mai-juin 2006.

2me dition, revue et corrige, mai-juin 2007.
3me dition, revue et corrige, septembre 2008.
EPF - 4me anne - IAP - Cours de Data mining 1 : Introduction - page 1/19- Bertrand LIAUDET
INTRODUCTION
Quest-ce que le data mining
Traduction littrale
Data mining = fouille de donnes.
Data mining = forage de donnes.
Dfinitions
Le data mining est un procd dexploration et danalyse de grands volumes de donnes

en vue dune part de les rendre plus comprhensibles et dautre part de dcouvrir des
corrlations significatives, cest--dire des rgles de classement et de prdiction dont la
finalit ultime la plus courante est laide la dcision.
Le data mining est un procd de production de connaissance. En terme de logique

philosophique traditionnelle 1, le data mining consiste produire des jugements (toutes
les personnes sont x, la moyenne des y des personnes vaut tant, etc. : cest ltape de
description et de comprhension des donnes) et des rgles de raisonnements (si toutes
les personnes sont a alors elles seront b : cest ltape modlisation qui permet la
prdiction).
Formules et mtaphores
Le data mining est un procd qui permet de passer des donnes la connaissance.
Le data mining est un procd qui permet de dcouvrir des ppites dinformations
caches dans la gangue des donnes.
Pourquoi la naissance du data mining ?
Augmentation des capacits de stockage des donnes (disques durs de giga octets).
Augmentation des capacits de traitements des donnes (facilit daccs aux donnes : il
ny a plus de bandes magntiques ; acclration des traitements).
Maturation des principes des bases de donnes (maturation des bases de donnes
relationnelles).
Croissance exponentielle de la collecte des donnes (scanners de supermarch, internet,

etc.)
THIRY Philippe, Notions de logique, De Boeck Universit, 1996.

RUYER Bernard, Llogique formelle, PUF, 1998.
HOTTOIS Gilbert, Penser la logique, De Boeck Universit, 1989.
Les ouvrages s'adressent aux tudiants ainsi qu'aux linguistes, philosophes, informaticiens, scientifiques
intresss par la logique et le langage.
Croissance exponentielle des bases de donnes : capacits atteignant le terabits (1012 bits)
et mergence des entrepts de donnes : data warehouse, rendant impossible
lexploitation manuelle des donnes.
Plus grande disponibilit des donnes grce aux rseaux (intranet et internet).
Dveloppement de logiciels de data mining.
Intrt du data mining

Les entreprises sont inondes de donnes (scanners des supermarchs, internet, bases de
donnes, etc.).
Ces donnes languissent dans des entrepts de donnes (ou rfrentiels, ou data warehouse).
Le data mining permet dexploiter ces donnes pour amliorer la rentabilit dune activit.
Le data mining permet ainsi daugmenter le retour sur investissement des systmes
dinformation.
Finalits : comprendre et dcider, savoir et prvoir (la raison et la volont)

Le data mining est un outil qui permet de produire de la connaissance :
dans le but de comprendre les phnomnes dans un premier temps : SAVOIR
dans le but de prendre des dcisions dans un second temps : PREVOIR pour DECIDER.
Mthodes du data mining
Du bon sens. Il sagit dabord danalyser les donnes avec du bon sens et un peu
doutillage mathmatiques et statistiques lmentaire.
Des algorithmes de calculs statistiques. Il sagit ensuite dappliquer des algorithmes de

calculs des donnes. Ces algorithmes sont plus ou moins complexes mettre en uvre.
Ils permettent de classer les donnes et de prdire des valeurs inconnues.
Les techniques du data mining : classer et prdire

La production de rgles de raisonnement se fait partir de plusieurs techniques plus ou moins
spcifiques au data mining.
Ces techniques mixent la fois des statistiques et de lalgorithmique. Globalement, on peut
dire que certaines techniques visent classer, dautres visent prdire. La prsentation de ces
technique formera une grosse partie de ce cours.
Les deux principes formels des techniques du data mining

La production de rgles de raisonnement se base sur deux principes de logique :
Premier principe : relation entre implication logique et relation causale
(a
pluie
b)
sol mouill
(b
a)
sol mouill
pluie
Relation causale
Implication logique
Ralit
Connaissance
a
t1
b
t2 > t1
b
t1
a
t2 <= t1
Implication diachronique
Implication synchronique
Implication physique
Implication logico-mathmatique
: relation dimlication logique synchronique

: relation de causalit diachronique
: relation de causalit synchronique
A partir dun ensemble de connaissances, le data-mining permet de mettre au jour des
connexions entre ces connaissances (relation dimplication) et de l, on peut dduire la
relation causale qui permettra ensuite de faire des dductions.
Second principe : relation entre implication logique et la conjonction
(a
b)
(a b)
Ou encore, par distribution de la ngation sur la conjonction (loi de Morgan) :
(a
b)
( a b )
Principe de lapplication des deux principes

Si je constate quun ensemble de caractristiques vont toujours avec un comportement
(synchronisme de limplication), alors jen dduit que les caractristiques sont la cause du
comportement (diachronisme de la relation causale).
Exemple : partir dune population de clients bancaires ayant fait un emprunt, lemprunt
tant clos, si je suis banquier et que je constate que certaines caractristiques de ces clients
sont toujours associes au fait que ces clients nont pas pay rgulirement leur emprunt, jen
dduit que ces caractristiques sont la cause du fait que les clients ne payent pas
rgulirement leur emprunt. Aux clients porteurs de ces caractristiques, je ne ferai pas de
prt !
Attention : la corrlation statistique nest pas la causalit physique !

La corrlation statistique ne nous dit jamais rien sur le plan individuel, mais seulement sur le
plan statistique. Mme si on a le profil de quelquun qui ne va pas payer ses dettes, on les
paiera peut-tre quand mme.
La corrlation statistique nest pas la causalit physique. Mme si on sait quune campagne de
promotion augmente en moyenne les ventes de x%, il se peut que la nouvelle campagne de
promotion ne produise aucun rsultat (par contre, quand je lche mon crayon, il tombe
toujours par terre !).
Si on en revient aux principes, cela vient du fait que :
1) Limplication logique nest pas valable 100% : ce nest quun corrlation logique.
2) Quand bien mme limplication logique serait valable 100%, peut tre que dautres
paramtres nont pas t pris en compte. Cest le problme gnral des lois ceteris
paribus : toutes choses tant gales par ailleurs. Les causalits quon va mettre au jour
avec le data mining relvent en gnral des sciences humaines (sciences molles ) et pas
des sciences physiques (sciences dures ). Or, on peut distinguer entre les lois de la
physique qui sont universelles et les lois ceteris paribus des sciences humaines. Donc,
quand on passe dun individu un autre, en ralit, toutes les choses ne sont pas gales
par ailleurs : cest pour cela que mme si on a le profil de quelquun qui ne va pas payer
ses dettes, on les paiera peut-tre quand mme !
Fantasme ou prophtie ?
En 2001, le MIT (Massachusetts Institue of Technology, lun des leaders mondiaux pour
l'enseignement et la recherche scientifique et technologique) prsente le data mining comme
lune des dix technologies mergentes qui changeront le monde au XXIme sicle.
5 difficults techniques du data mining

1re difficult : comprendre les donnes : du bon sens !
Le data mining travaille sur des tableaux de donnes. La premire difficult est de
comprendre ces tableaux. Tant que les donnes ne sont pas comprises, on ne peut rien faire !
Dans le cours, les exemples nauront de sens (et donc seront utiles sur le plan pdagogique)
quand les donnes auront t comprises (le lecteur, llve, doit sapproprier des donnes).
Les donnes sont dans des tables qui renvoient aux notions de bases de donnes : entits,
associations, tables, attributs et tuples :
Les entits et les attributs sont des abstractions (des concepts).
Les tuples (lignes des tableaux) reprsentent les objets concrets.

On travaille sur des tableaux qui peuvent avoir plusieurs dizaines de colonnes (les attributs) et
des milliers ou des centaines de milliers de lignes, voir plus. Il faudra avoir une vision claire
de la totalit du tableau de donnes.
2me difficult : comprendre la relation entre implication logique et relation causale
Le data mining est fonde sur la relation entre limplication logique et la relation causale. Il
faut bien la comprendre pour pouvoir apprhender lobjectif du data mining.
3me difficult : les statistiques, lanalyse de donnes
Le data mining utilise les notions statistiques avec leurs difficults propres.
Toutefois, cette difficult se rsout partiellement si la premire difficult est correctement
rsolue.
4me difficult : algorithmique
Il faut comprendre un minimum les algorithmes spcifiques du data mining pour comprendre
les principes, les usage et les limites du data mining.
5me difficult : utilisation dun logiciel
En plus de connatre les principes gnraux du data mining, il faut apprendre se servir dun
logiciel particulier.
Cette difficult est videmment rduite si les 4 premires difficults sont dpasses.
Conclusion
Ce quon va faire dans ce cours va paratre abstrait. Ce nest quune apparence. Cest en
ralit trs concret. La principale difficult consiste sapproprier ce caractre concret.
Les difficults 2, 3, 4 et 4 (logique, statistique, algorithmique et logicielle) se ramnent toutes
la premire difficult : comprendre les donnes, cest--dire en revenir aux CONCEPT et
leurs SIGNIFICATIONS (SENS).
Il faut connatre ses donnes, se les tre appropries, et de l, pouvoir les questionner pour
pouvoir dpasser les difficults.
Lenjeu majeur cest de produire du sens. Le sens, dans la logique classique, cest lobjet
extralinguistique dsign par les concepts. Cest ce qui est rfr, le rfr, ou, par abus de
langage, la rfrence. Le sens, cest le concret. Pour comprendre ce quest un chat, le mieux
est davoir vu pleins de chats. Ce qui nous permettra de dire que tous les chats ont des griffes,
quil font miaou , et que certains chats sont noirs, erc.
Une intuition sans concept est aveugle, un concept sans intuition est creux2 : il faut donc faire
des allers-retours entre le concept et sa signification, autrement dit la ralit concrte quil
rfre.
On sintressera aussi aux populations (un ensemble de tuples) en plus des individus (un
tuple, une ligne dun tableau). Les statistiques produisent un sens au sujet de la population.
Par exemple, la moyenne (cest facile), cest un sens dun ensemble de rfrs (les lments
dont on donne la moyenne).
On sintressera enfin aux corrlations entres les attributs.
Daprs Kant, Critique de la raison pure, Logique transcendantale, De la logique en gnral : Des penses
sans contenu sont vides, des intuitions sans concepts sont aveugles.
Applications du data mining

Publics
Le scientifique : pour comprendre certains phnomnes.
Lanalyste : pour produire des rapports pour les dcideurs.
Le dcideur (au sens large) : pour laide la dcision.
Principaux secteurs utilisant le data mining3

13% :
9% :
9% :
8% :
8% :
7% :
6% :
6% :
5% :
5% :
La banque
Les tlcommunications
Le e-commerce
La dtection des fraudes
Les tudes scientifiques
Le marketing direct
Lassurance
La distribution
La biologie
Lindustrie pharmaceutique
Gestion de la relation client : Customer Relationship Management (CRM)

Principe : amlioration de la rentabilit par lamlioration de la connaissance du client.
Matire premire : les donnes sur le client.
Le CRM se divise en deux parties :
CRM analytique : collecte et analyse des donnes.
CRM oprationnel : choix des campagnes marketing (stratgie) et gestion des canaux de
communication (forces commerciales, centres dappel tlphoniques, internet, tlvision,
etc.)
Difficult : tirer partie de la masse de donnes. Ne pas se noyer dedans.
Objectif : on ne veut plus seulement savoir : combien de clients ont achet tel produit
pendant telle priode ?, mais on veut savoir quel est leur profil ? , quels autres produits
les intresseront ? , quand seront-ils de nouveau intresss ? .
Avec le data mining, on va sintresser lhistorique des donnes, autrement dit un film du
comportement de la variable tudie (par exemple, le client) et pas seulement une
photographie.
Le dveloppement des systmes dinformations avec des bases de donnes favorise la collecte
de lhistorique des donnes et les tudes de data mining. Et inversement : cest parce quon
pourra tirer quelque chose de ces historiques quon aura intrt les conserver.
Sondage datant de 2002, publi sur www.kdnuggets.com. Source : Stphane Tuffry, p. 1.
Les systmes dinformation permettent de connatre le comportement singulier de chaque

client.
Le data mining permet de dcouvrir des corrlations statistiques grce ltude des
comportements de tous les clients, et ainsi de catgoriser le client et de pouvoir tablir un
marketing individualis (one-to-one) et proactif (proposer ce qui est intresse au moment o
a intresse).
Exemples :
Une socit de cosmtique de luxe dtecte automatiquement ses meilleurs clients ds les
premires transactions dans sa base de donnes pour les traiter avec le plus dgards
possibles.
Un oprateur de tlvision par abonnement dtecte les clients les plus sensibles des
offres de chanes complmentaires partir des appels tlphoniques des clients.
Un directeur de thtre segmente son public par des critres danciennet, de dure et de
frquence de frquentation (forme de la consommation), mais aussi par genre de spectacle
(contenu de la consommation) pour adapter son offre et sa publicit.
Autres grands domaines dapplication
Secteur bancaire : le scoring, pour mieux cibler les propositions de prts et viter les
surendettements (et donc les mauvais payeurs).
Secteur de la tlphonie : prdiction de lattrition (usure, churn en anglais), cest--dire

le changement doprateur.
Grande distribution : analyse du panier de la mnagre pour dterminer les produits

achets simultanment.
Web mining et e-commerce : 50% des clients dun constructeur de machine achtent ses
machines travers le web. Mais seulement 0,5% des visiteurs du site deviennent clients.
Lide est de stocker les squences de click des visiteurs et danalyser les caractristiques
des acheteurs pour adapter le contenu du site.
Text mining pour analyser les lettres de rclamation.
Scientifique : identification et classification d'objets clestes.
Mdical : analyse de rsultat dune exprimentation
Scurit informatique : recherche de transactions frauduleuses par la police ; suivi des

oprations des traders.
Prsentation schmatique des relations entre statistiques et data mining

On va prciser ici la distinction entre statistique et data mining.
Prsentation
On peut avoir une opposition un peu caricaturale :
Dun ct, les statisticiens ignorent ou mprisent le data mining en considrant que ce
nest pas de la statistique.
Dun autre ct, les data miners marginalisent la statistique.
La situation est paradoxale :
Dun ct, le data mining utilise des techniques statistiques, mais certains prfrent
lignorer.
Dun autre ct, les instituts de statistique possdent des gisements de donnes
considrables mais les exploitent peu avec les techniques du data mining.
Distinctions entre statistiques et data mining

La quantit de donnes
On a tendance considrer que le data mining traite plus de donnes que les statistiques.
Cest une ide partiellement juste. Dans labsolu, les deux techniques peuvent en traiter
autant. Dans la pratique, le data mining en traite plus.
Lorigine des donnes
Les statisticiens peuvent travailler sur des populations entires, mais le plus souvent ils
travaillent sur des chantillons. Leur travail consistera construire la reprsentativit de ces
chantillons. Souvent, le statisticien est donc amen collecter des donnes qui nexistent pas
encore.
Le data miner travaille plutt sur des donnes qui existent dj (issues de bases de donnes ou
de data warehouse). De ce fait (et aussi du fait des techniques de modlisation quil utilise) il
a tendance travailler sur la population entire et pas sur des chantillons.
Lanalyse des donnes
Le data mining utilise des techniques issues de lintelligence artificielle. Certaines techniques
du data mining nappartiennent quau data mining et ne font pas partie de la panoplie des
techniques de lanalyse de donnes. Cest le cas des techniques de rseaux de neurones et
darbres de dcision.
Le data mining tend travailler avec moins da priori que les statistiques traditionnelles
(moins dhypothses de dpart). Do la tendance en faire un produit donnant des rsultats
miraculeux !
Thorie vs pratique
Le data mining est orient pratique et pas thorie : do le mpris des statisticiens !
Le data mining ne sintressent pas, contrairement aux statisticiens, aux lois gnrales de la
statistique : cest un domaine directement appliqu.
Le data mining recherche parfois plus la comprhensibilit des modles que leur prcision.
Les modles du data mining sont en gnral plus localiss (cest--dire limit une
population trs spcifique) que ceux des statisticiens.
Le processus standard dune tude de data mining

Le besoin dun contrle humain dans le data mining
Une discipline et pas un produit
lorigine, le data mining tait vue comme un procd automatique ou semi automatique.
Aujourdhui, on est revenu de cette illusion. Le data mining nest pas un produit qui peut tre
achet, mais bien une discipline qui doit tre matrise.
Avant dappliquer automatiquement des algorithmes de calculs sur les donnes, il faut passer
par une phase dexploration et danalyse qui ne saurait tre automatise : elle fait intervenir le
bon sens et la connaissance du contexte (culture gnrale).
Quand on veut produire de la connaissance, le problme ne se limite pas rpondre des
questions. Il faut dabord poser les questions. Cest cette premire tape qui, pour lessentiel,
fait que le data mining est une discipline et pas un simple produit.
Comment faire du mauvais data mining ?
En travaillant sans mthode
En ne prparant pas correctement ses donnes.
En appliquant des botes noires de calculs sans les comprendre.

Un mauvais data mining peut amener des conclusions errones et donc des consquences
trs coteuses.
Comment faire du bon data mining ?
En suivant une mthode
En prparant les donnes correctement
En comprenant le principe des modes opratoires (des algorithmes de calculs). En tant

capable de savoir pourquoi on en choisit un plutt quun autre. Une comprhension des
modles statistiques appliqus par le logiciel est donc ncessaire.
Prsentation du CRISP-DM
Le data mining est un processus mthodique : une suite ordonne d'oprations aboutissant
un rsultat.
Le CRISP-DM (Cross Industry Standard Process for Data Mining) dcrit le data mining
processus itratif complet constitu de 4 tapes divises en tout en 6 phases.
PROCESSUS du DATA MINING

Acteurs
Matre
duvre
tapes
Phases
Objectifs
1 : Comprhension du mtier
Donnes
2 : Comprhension des donnes

3 : Prparation des donnes
Traitements
4 : Modlisation
5 : valuation de la modlisation
Matre
douvrage
Dploiement
6 : Dploiement des rsultats de

ltude
1 : Comprhension du mtier
Cette phase consiste :
noncer clairement les objectifs globaux du projet et les contraintes de lentreprise.
Traduire ces objectifs et ces contraintes en un problme de data mining.
Prparer une stratgie initiale pour atteindre ces objectifs.
2 : Comprhension des donnes

Recueillir les donnes.
Utiliser lanalyse exploratoire pour se familiariser avec les donnes, commencer les
comprendre et imaginer ce quon pourrait en tirer comme connaissance.
valuer la qualit des donnes.
ventuellement, slectionner des sous-ensembles intressants.
3 : Prparation des donnes

Prparer, partir des donnes brutes, lensemble final des donnes qui va tre utilis
pour toutes les phases suivantes.
Slectionner les cas et les variables analyser.
Raliser si ncessaire les transformations de certaines donnes.
Raliser si ncessaire la suppression de certaines donnes.

Cette phase fait suite la comprhension des donnes. Celle-ci a mis au jour les
corrlations, les valeurs aberrantes, les valeurs manquantes : on peut donc faire la
prparation.
4 : Modlisation
Slectionner les techniques de modlisation appropries (souvent plusieurs techniques

peuvent tre utilises pour le mme problme).
Calibrer les paramtres des techniques de modlisation choisies pour optimiser les
rsultats.
ventuellement revoir la prparation des donnes pour ladapter aux techniques

utilises.
5 : Evaluation de la modlisation
Cette phase consiste produire le rapport final :
Pour chaque technique de modlisation utilise, valuer la qualit (la pertinence, la

signification) des rsultats obtenus.
Dterminer si les rsultats obtenus atteignent les objectifs globaux identifis pendant
la phase de comprhension du mtier.
Dcider si on passe la phase suivante (le dploiement) ou si on souhaite reprendre

ltude en compltant le jeu de donnes.
6 : Dploiement des rsultats obtenus

Cette phase est externe lanalyse du data mining. Elle concerne le matre douvrage.
Prendre les dcisions en consquences des rsultats de ltude de data mining
Prparer la collecte des informations futures pour permettre de vrifier la pertinence

des dcisions effectivement mis en uvre.
Les logiciels de data mining

Il existe de nombreux logiciels de statistiques et de data mining sur PC. Certains sont gratuits,
dautres sont payants. Certains sont mono-utilisateur. Dautres fonctionnent en architecture
clients-serveur.
Parmi les gros logiciels, on peut citer :
Clementine de SPSS. Clementine est la solution de data mining la plus vendue dans le
monde. Cest celle quon utilisera en dmonstration dans ce cours.
Entreprise Miner de SAS.
Statistica Data Miner de StatSoft
Insightful Miner de Insightful
XL Miner (data mining sous excel)
ORACLE, comme dautres SGBD, fournit des outils de data mining
Parmi les logiciels gratuits, on peut citer :
TANAGRA, logiciel de data mining gratuit pour l'enseignement et la recherche.
ORANGE, logiciel libre dapprentissage et de data mining.
WEKA, logiciel libre dapprentissage et de data mining.
En guise de conclusion : quelques ides fausses sur le data-mining

Concernant le caractre automatique du data mining
Le data mining ncessite peu ou pas de supervision humaine.
Il existe des logiciels de data mining que nous pouvons faire tourner automatiquement sur
nos bases de donnes pour trouver des rponses nos questions.
Le data mining exige une bonne comprhension et une bonne prparation des donnes.
Il faut choisir les techniques quon va appliquer aux donnes pour trouver des
rponses. La modlisation passe par un jeu de techniques.
Les logiciels de data mining produisent de la connaissance.
La connaissance, comme son tymologie le rappelle (co-naissance : natre avec), passe
par limplication du connaissant (celui qui connat).
Les logiciels de data mining nettoient les bases de donnes errones automatiquement.
Les logiciels de data mining sont intuitifs et faciles utiliser.
Cest un travail manuel : il fait partie de ltape de prparation des donnes.

Ne rvons pas !
Concernant les rsultats attendus du data mining
Le data mining va rpondre mes questions.
Le data mining samortit rapidement.
Peut-tre, mais ce nest pas certain.
Peut-tre, mais ce nest pas certain.
Concernant la technique du data mining
Un algorithme de data mining est dautant plus efficace quil a plus de donnes en entre.
Aucun a priori nest ncessaire.
Limportant nest pas la quantit, mais la qualit des donnes.
Ce nest pas vrai pour les techniques prdictives qui ncessitent au moins la priori de
la variable cible.
Cest en partie vrai pour les techniques descriptives et la classification
particulirement.
Il ne faut jamais chantillonner
Certaines techniques prdictives (arbres de dcision, rseaux de neurones) imposent un

chantillonnage.
Il ne faut toujours chantillonner
Un bon chantillonnage nest pas facile faire. Certaines techniques permettent de

lviter.
Concernant les comptences requises pour faire du data mining
Avec le data mining, on peut se passer des spcialistes du mtier
On a trs souvent besoin dun spcialiste du mtier dans la phase de comprhension

des donnes : pour la prparation et le nettoyage particulirement. Bien sr, cest aussi le
spcialiste mtier qui peut dfinir les objectifs, et le spcialiste mtier qui peut orienter les
rsultats et dire sils prsentent un intrt ou sils sont triviaux (attention ne pas croire
quon a dcouvert le fil couper le beurre !)
Avec le data mining, on peut se passer des statisticiens
Dans une tude de data mining, la partie la plus longue consiste prparer les donnes.
Ce travail est un travail de statisticien (mme sil est assez simple). Ce nest quune fois
ralis quon peut appliquer les algorithmes des modles.
Conclusions
Lancer une tude de data mining, cest comme partir chercher de lor dans une mine ou dans
une rivire :
1) Ca ncessite du travail !
2) On nest pas sr de trouver quoi que ce soit !
3) Mieux vaut tre entour de personnes comptentes
Aspects pdagogiques
Niveau et prrequis du cours
Ce cours sadresse des ingnieurs : ni des statisticiens, ni des informaticiens.
Il ne sagit ni de matriser parfaitement les mathmatiques des statisticiens, ni de comprendre
parfaitement les algorithmes de calcul. Il sagit de comprendre les donnes quon manipule
pour en faire des connaissances qui permettent de prendre des dcisions.
Ce cours est adapt un niveau master . Un cours dintroduction aux statistiques est
souhaitable mais non ncessaire. Aucune expertise en programmation nest ncessaire.
Organisation du cours
Etapes
3 cours magistraux et 2 TP
1 projet
3 cours (avec correction du projet) et 1 TP
Evaluations
projet 1
1 examen crit
projet 2
Plan du cours
Le cours va prsenter le data mining en tant que processus.
Il se composera de trois parties :
1. La comprhension et la prparation des donnes.
2. La prsentation de certaines techniques utilises dans la modlisation, cest--dire
lanalyse des donnes.
3. Lutilisation dun logiciel (SPSS Clementine)
Bibliographie
Des donnes la connaissance, une introduction au data-mining. Daniel T-Larose.

Vuibert, Paris, 2005. Traduction de An introduction to data-mining, New-York, 2005.
Inclus: une version dvalution de Clmentine (SPSS).
Data mining et statistique dcisionnelle. Stphane Tuffery. Editions Technip, Aot 2005.
Introduction au Data Mining, Analyse intelligente des donnes. Michel Jambu. Eyrolles,
1999.
Sites internet
Sur le data mining

http://chirouble.univ-lyon2.fr/~ricco/data-mining : sur le data mining
http://ocw.mit.edu/OcwWeb/web/home/home/index.htm : cours du MIT
http://data.mining.free.fr : site de Stphane Tuffery.
Sur des logiciels
http://chirouble.univ-lyon2.fr/~ricco/data-mining/logiciels : liste de logiciels libres de data
mining.
http://eric.univ-lyon2.fr/~ricco/tanagra/fr/contenu_tutoriaux_comparaison_logiciels.html:
comparaison de logiciels libres.
http://www.kdnuggets.com/software/suites.html : prsentation de logiciels libres

Cours de Data Mining 1-Introduction-EPF

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Cours de Data Mining 1-Introduction-EPF

Загружено:

Авторское право:

Доступные форматы

COURS DE DATA MINING

Quest-ce que le data mining...........................................................................................2

1re dition : mai-juin 2006.

Data mining = fouille de donnes.

Data mining = forage de donnes.

Le data mining est un procd dexploration et danalyse de grands volumes de donnes

Le data mining est un procd de production de connaissance. En terme de logique

Pourquoi la naissance du data mining ?

Croissance exponentielle de la collecte des donnes (scanners de supermarch, internet,

THIRY Philippe, Notions de logique, De Boeck Universit, 1996.

Dveloppement de logiciels de data mining.

Intrt du data mining

Finalits : comprendre et dcider, savoir et prvoir (la raison et la volont)

dans le but de comprendre les phnomnes dans un premier temps : SAVOIR

Mthodes du data mining

Des algorithmes de calculs statistiques. Il sagit ensuite dappliquer des algorithmes de

Les techniques du data mining : classer et prdire

Les deux principes formels des techniques du data mining

: relation dimlication logique synchronique

Principe de lapplication des deux principes

Attention : la corrlation statistique nest pas la causalit physique !

5 difficults techniques du data mining

Les entits et les attributs sont des abstractions (des concepts).

Les tuples (lignes des tableaux) reprsentent les objets concrets.

Applications du data mining

Le scientifique : pour comprendre certains phnomnes.

Lanalyste : pour produire des rapports pour les dcideurs.

Le dcideur (au sens large) : pour laide la dcision.

Principaux secteurs utilisant le data mining3

Gestion de la relation client : Customer Relationship Management (CRM)

CRM analytique : collecte et analyse des donnes.

Sondage datant de 2002, publi sur www.kdnuggets.com. Source : Stphane Tuffry, p. 1.

Les systmes dinformation permettent de connatre le comportement singulier de chaque

Autres grands domaines dapplication

Secteur de la tlphonie : prdiction de lattrition (usure, churn en anglais), cest--dire

Grande distribution : analyse du panier de la mnagre pour dterminer les produits

Text mining pour analyser les lettres de rclamation.

Scientifique : identification et classification d'objets clestes.

Mdical : analyse de rsultat dune exprimentation

Scurit informatique : recherche de transactions frauduleuses par la police ; suivi des

Prsentation schmatique des relations entre statistiques et data mining

Dun autre ct, les data miners marginalisent la statistique.

La situation est paradoxale :

Distinctions entre statistiques et data mining

Le processus standard dune tude de data mining

En travaillant sans mthode

En ne prparant pas correctement ses donnes.

En appliquant des botes noires de calculs sans les comprendre.

En suivant une mthode

En prparant les donnes correctement

En comprenant le principe des modes opratoires (des algorithmes de calculs). En tant

PROCESSUS du DATA MINING

2 : Comprhension des donnes

6 : Dploiement des rsultats de

noncer clairement les objectifs globaux du projet et les contraintes de lentreprise.

Traduire ces objectifs et ces contraintes en un problme de data mining.

Prparer une stratgie initiale pour atteindre ces objectifs.

2 : Comprhension des donnes

Recueillir les donnes.

valuer la qualit des donnes.

ventuellement, slectionner des sous-ensembles intressants.

3 : Prparation des donnes

Slectionner les cas et les variables analyser.

Raliser si ncessaire les transformations de certaines donnes.