Академический Документы
Профессиональный Документы
Культура Документы
Définition et introduction
Principales applications
Méthodologie du DM
Exemples de fonctionnement
1
1. Emergence du domaine
Workshops
1991, 1993, 1994
International Conf. on KDD and DM
1995, 1996, 1997, 1998, 1999
Data Mining and Knowledge Discovery Journal
(1997)
Special Interest Group Knowledge Discovery in
Databases (1999) de l’Association for Computing
Machinery (ACM)
2
Métaphore
Data mining
ensemble de techniques d'exploration de données
afin d'en tirer des connaissances (la signification
profonde) sous forme de modèles présentés à
l ’utilisateur averti pour examen
Données Data
entrepôt mining Connaissances
Découverte de Compréhension
modèles Prédiction
4
Découverte de modèles
x1 c Confiance
Entrées x2
x3 y
Sortie
MODELE
x1 x2 x3 y
1 10 100 alpha
2 20 200 beta
5
Découverte et Exploitation
Training Data Data to Predict
Mining Model
DM DM
Engine Engine
6
Connaissances
7
Le processus de KDD
8
Etapes du processus
9
Mécanismes de base
10
2. Domaines d'application
Targeted ads
“What banner should I display to this visitor?”
Cross sells
“What other products is this customer likely to buy?
Fraud detection
“Is this insurance claim a fraud?”
Churn analysis
“Who are those customers likely to churn?”
Risk Management
“Should I approve the loan to this customer?”
13
Churn Analysis
Application de télécom
Bases de données des clients et des appels
Fichiers des réclamations
Qui sont les clients le plus susceptibles de
partir ?
Application de techniques de DM
Fichiers de 1000 clients les plus risqués
600 ont quittés dans les 3 mois
14
Trading Advisor
Application boursière
conseil en achat / vente d'actions
Données de base
historique des cours
portefeuille client
Analyse du risque
Analyse technique du signal
Conseils d'achat – vente
Mise à disposition sur portail Web
15
3. Méthodologie -1
16
Méthodologie - 2
17
Explorer des modèles :
SEMMA
Sampling = Échantillonner
tirer un échantillon significatif pour extraire les modèles
Exploration = Explorer
devenir familier avec les données (patterns)
Manipulation = Manipuler
ajouter des informations, coder, grouper des attributs
Modelling = Modéliser
construire des modèles (statistiques, réseaux de neuronnes, arbres
de décisions, règles associatives, …)
Assessment = Valider
comprendre, valider, expliquer, répondre aux questions
18
Validation d’un modèle
Matrice de confusion
comparaison des cas observés par rapport aux prédictions
exemple : prédiction de factures impayées
Prédit Observé
Payé Retardé Impayé Total
Payé 80 15 5 100
Retardé 1 17 2 20
Impayé 5 2 23 30
Total 86 34 30 150
Validité du modèle
nombre exacte (diagonale) / nombre totale = 120/150 = 0.80
19
Principales Techniques
Dérivées
des statistiques (e.g., réseaux bayésiens)
de l'analyse de données (e.g., analyse en composantes)
de l'intelligence artificielle (e.g., arbres de décision,
réseaux de neurones)
des bases de données (e.g., règles associatives)
Appliquées aux grandes bases de données
Difficultés :
passage à l'échelle et performance
fonctionnement avec échantillon > qq milliers
présentation et validation des résultats 20
4. Quelques produits
22
INPUT
23
SAMPLING
24
INSIGHT
25
TRANSFORM
26
PARTITION
27
REGRESSION
28
DECISION TREE
29
NEURONES
30
ASSESSMENT
31
Approches
De multiples approches:
Statistiques
Classification
Clustering
Règles associatives
…
32
Méthodes d'analyse
1 ... J ... p
1
.
.
Table
Table = i
.
.
n
Nuage de points
A la limite du DM
35
Fonctions Statistiques
Espérance
permet de calculer la moyenne pondérée d'une
colonne pi = 1/N par défaut
Variance
traduit la dispersion de la distribution de la v.a.
autour de sa valeur moyenne.
Variable centrée réduite
Permet d'éliminer le facteur dimension
36
Diagrammes en bâtons
Catégorie d'employé
400
COUNT 200
Fréquence
100
d'agrégats 0
Secrétariat Cadre Responsable
Catégorie d'employé
AVG, MIN, MAX, …
Possibilité d'étendre au
100
3D 80
60
North
East
West
40
West North
Apporte une vision 20
0
1st 2nd 3rd 4th
East
37
Tableaux croisés
(Vision 2D du Datacube)
Table au croisé Caté gorie d'e mployé * Se xe de l'e mployé * Classe minoritaire ?
Covariance
La covariance peut être vue comme le moment centré
conjoint d'ordre 1 de deux v.a.
Si les deux v.a. sont indépendantes, alors leur covariance
est nulle (mais la réciproque n'est pas vraie en général).
Coefficient de corrélation
Elimine le facteur dimension
mesure la qualité de la relation linéaire entre deux
variables aléatoires
39
Droite de régression
$160,000
Salaire actuel = 1928,21 + 1,91 * saldeb
Régression linéaire
R-Deux = 0,77
199
$120,000
Y=aX+b
120
70
Salaire actuel
$80,000
$40,000
Salaire d'embauche
40
Test du χ2
41
De nombreuses fonctions