Академический Документы
Профессиональный Документы
Культура Документы
Gilles Gasso
13 septembre 2016
Définition 1
Le data-mining est un processus de découverte de règle, relations,
corrélations et/ou dépendances à travers une grande quantité de
données, grâce à des méthodes statistiques, mathématiques et de
reconnaissances de formes.
Définition 2
Le data-mining est un processus d’extractions automatique
d’informations predictives à partir de grandes bases de données.
Données
Big Data : augmentation sans cesse de données générées
Twitter : 50M de tweets /jour (=7 téraoctets)
Facebook : 10 téraoctets /jour
Youtube : 50h de vidéos uploadées /minute
2.9 million de mail /seconde
1 1
1 1 1
1? 1 1
1 1
1 1
1 1
1 1 1
1? 1 1
1 1
1 1
Systèmes de recommandation
Opportunité : les clients notent les produits ! Comment tirer profit de
ces données pour proposer des produits à un autre client ?
Solutions : technique dit de filtrage collaboratif pour regrouper les
clients ayant les mêmes “goûts”.
Gilles Gasso Introduction au Data-Mining 6 / 30
Exemples d’applications : Analyse des risques
Prêt Bancaire
Objectif des banques : réduire le risque des prêts bancaires.
Créer un modèle à partir de caractérisques des clients pour discriminer
les clients à risque des autres.
Opinion mining
Exemple : analyser l’opinion des usagers sur les produits d’une
entreprise à travers les commentaires sur les réseaux sociaux et les
blogs
Pré- Apprendre
Données Evaluation
traitement un modèle
Principales étapes
Y
1 Collecte de données
2 Pré-traitement
1 1
3 Analyse statistique 1 1 1
4 Identifier le problème de DM 1? 1 1
1 1
5 Apprendre le modèle 1
mathématique 1 1
Attributs
Un attribut est un descripteur d’une entité. On l’appelle également
variable, ou caractéristique
Exemple
C’est une entité caractérisant un objet ; il est constitué d’attributs.
Synonymes : point, vecteur (souvent dans Rd )
0.1
25
0.095
Variable 3 : Chlorides
Variable 4 : Sulfur
20
0.09
Points
0.085 Moyenne des points 15
0.08
10
0.075
0.1
2.8
0.09 2.6
0.07 Va
ria 0.08
2.4
bl 2.2
e 0.07 2 r
3 ga
:C 1.8 l Su
0.065 hl
or 0.06 1.6 esid
ua
1.5 2 2.5 3 id 2:R
es a ble
Variable 2 : Residual Sugar Vari
1
distance euclidienne : x, z ∈ Rd , on a
qPz) = kx − zk2 =p
d(x,
d 2
j=1 (xj − zj ) = (x − z)> (x − z)
Euclidien
0 Manhattan
Mahalanobis
distance de manhattanP
d(x, z) = kx − zk1 = dj=1 |(xj − zj )|
−1
distance depmahalanobis −1 0 1
Exemples
Estimer les liens entre habitudes alimentaires et risque d’infarctus. xi :
d attributs concernant le régime d’un patient, yi sa catégorie (risque,
pas risque).
Applications : détection de fraude, diagnostic médical ...
Techniques
k-plus proches voisins, SVM, régression logistique, arbre de décision ...
Gilles Gasso Introduction au Data-Mining 15 / 30
Caractérisation des méthodes : Apprentissage non-supervisé
Objectifs
Seules les données {xi ∈ X , i = · · · , N} sont disponibles. On cherche
à décrire comment les données sont organisées et en extraire des
sous-ensemble homogènes.
Exemples
Catégoriser les clients d’un supermarché. xi représente un individu
(adresse, âge, habitudes de courses ...)
Applications : identification de segments de marchés, catégorisation de
documents similaires, segmentation d’images biomédicales ...
Techniques
Classification hiérarchique, Carte de Kohonen, K-means, extractions de
règles ...
Gilles Gasso Introduction au Data-Mining 16 / 30
Caractérisation des méthodes : apprentissage semi-supervisé
Objectifs
Objectifs : parmi les données, seulement un petit nombre ont un label
i.e {(x1 , y1 ), · · · , (xn , yn ), xn+1 , · · · , N}. L’objectif est le même que
pour l’apprentissage supervisé mais on aimerait tirer profit des données
sans étiquette.
Exemples
Exemple : pour la discrimination de pages Web, le nombre ’exemples
peut être très grand mais leur associer un label (ou étiquette) est
coûteux.
Techniques
Méthodes bayésiennes, SVM ...
L(Y , f (X )) = (Y − f (X ))2
Z
R(f ) = E [(Y − f (X ))2 ] = (y − f (x))2 p(x, y )dxdy
L(Y , f (X )) = |Y − f (X )|
Z
R(f ) = E [|Y − f (X ))|] = |y − f (x)|p(x, y )dxdy
Régression 1
Support Vector Machine Regression
est un sous-espace de Rd .
0
y
−0.5
−1.5
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
x
Discrimination 2
0
1
−1
{−1, 1}), on parle de −1
−1 1
0
0
discrimination ou classification. 1
−1
−2
−1
1
−3 0
−3 −2 −1 0 1 2 3
Ensemble de Test
Ensemble d’apprentissage
Faible Elevé
Complexité du modèle
Problématique
On cherche une fonction f qui minimise un risque empirique donné.
On suppose que f appartient à une classe de fonctions paramétrées
par α. Comment choisir α pour que f minimise le risque empirique et
généralise bien ?
Exemple : OnPcherche un polynôme de degré α qui minimise un risque
Remp (fα ) = N
i=1 (yi − f α (xi ))2.
Objectifs :
1 proposer une méthode d’estimation d’un modèle afin de choisir
(approximativement) le meilleur modèle appartenant à l’espace
hypothèses.
2 une fois le modèle choisi, calculer son erreur de généralisation.
Remarque
Dtest n’est utilisé qu’une seule fois !
Gilles Gasso Introduction au Data-Mining 26 / 30
Sélection de modèles : Validation Croisée
Détails :
K Nk
1 X 1 X
RCV = L(yik , f −k (xik ))
K Nk
k=1 i=1