Intro

Data Mining
Ce quest le Data Mining
Extraction dinformations intressantes non triviales, implicites, pralablement inconnues et potentiellement utiles partir de donnes. Autres appellations: ECD (Extraction de Connaissances partir de Donnes) KDD (Knowledge Discovery from Databases) Analyse de donnes/patterns, business intelligence, fouille de donnes, etc.
2
Quels types dinformation Rechercher ?
La typologie de linformation que lon veut extraire dpend du type daction que le dcideur veut entreprendre Nous allons considrer
Recherche des liens entre lments de la base de donnes (Rgles dassociation) Analyse des comportement des lments de la base de donnes (prdiction) Recherche de similitudes entre lments de la base (Regroupement)
3
Associations (1)
Les enseignes de grands magasins proposent rgulirement des promotions sur divers produits Une promotion reprsente un manque gagner pour le magasin Dilemme : Comment proposer des promotions intressantes pour les clients tout en rduisant le manque gagner ? Regarder les habitudes dachats des clients : si en gnral, les clients qui achtent du lait achtent aussi du sucre, alors il nest pas intressant de faire des promotions sur les 2 produits en mme temps Ide : trouver les associations entre produits pour extraire les produits promouvoir
Associations (2)
Rgles dassociation :
motifs de la forme : Corps Tte
Exemple : Lait sucre
Etant donns: (1) une base de transactions, (2) chaque transaction est dcrite par un identifiant et une liste ditems
Trouver: toutes les rgles qui expriment une association entre la prsence dun item avec la prsence dun ensemble ditems
Ex., 98% des personnes qui achtent du lait
achtent du sucre
Associations: Support et Confiance (3)

Trouver les rgles X & Y Z avec un
support > s et une confiance >c
Clients achetant les deux Clients achetant du lait
support s, probabilit quune transaction contienne {X, Y, Z} confiance c, probabilit conditionnelle quune transaction qui contient {X, Y} contienne aussi Z
Confiance=support(X,Y,Z)/support(X,Y)
Clients achetant du sucre
ID Transaction Items 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F
Soit support minimum 50%, et confiance minimum 50%, A C (50%, 66.6%) C A (50%, 100%)
6
Problme algorithmique
Si on a 1010 produits, on a 210^10 itemsets vrifier ! Ide: Exploiter la proprit de non monotonicit :
Si {A,B,C} nest pas frquent, alors {A,B,C,D} ne peut pas ltre
Prvision (1)

Les tablissements financiers accordent des crdits leurs clients Lattribution dun crdit dpend de certains critres que le client doit satisfaire Dilemme :
Ide : se baser sur lhistorique des clients pour dresser des profils de bons clients, clients moyens, et mauvais payeurs
8
Si on ne prte quaux trs riches, on naura pas de problmes de remboursement mais on perd les autres clients (pas de risque). Si on prte aux moins riches, on ne va pas perdre les clients mais on est expos aux non remboursements (trop de risque)
Prvision (2)
Lorganisme dispose dun fichier dcrivant ses diffrents clients qui il a attribu un crdit
Chaque client est dcrit par un certain nombre dattributs : Salaire, situation marital, emploi, locataire/propritaire, personnes charge, montant crdit,
A chaque client, on ajoute un attribut particulier qui est le nom de la classe et qui est gal bon, mauvais ou moyen Le but consiste extraire partir de ce fichier un ensemble de rgles quon va utiliser lorsquun nouveau client demande un crdit pour savoir si lon peut le lui attribuer ou pas
Prvision (3)
Exemples de rgles de production:

Si crdit > 1/3 salaire mauvais Si crdit <1/3 salaire & charges >4 mauvais Si crdit <1/3 salaire & charges <4 & propritaire = oui bon Si crdit <1/3 salaire & charges <4 & propritaire=non & cadre=oui bon Si crdit <1/3 salaire & charges <4 & propritaire=non & cadre = non moyen
Ces rgles peuvent tre reprsentes par un arbre de dcision

10
Prvision (4)
Endettement >1/3 Mauvais >4 Mauvais oui Bon <1/3 charges <4
En pratique, les systmes construisent Propritaire dabord les arbres do ils drivent les rgles
non
oui
Bon
Cadre
non
moyen
11
Association versus prvision
Dans les deux cas, on cherche extraire des rgles
Les rgles dassociation expriment une notion de lien entre objets de mme type (ex: les produits vendus par un magasin). Attention : Une rgle dassociation
nexprime pas une corrlation
Les rgles de production expliquent le lien entre une classe particulire et la valeur des caractristiques de plusieurs objets
Les deux types de rgles ne vhiculent pas le mme type dinformation

12
Regroupement (1)
Considrons une entreprise de vente par correspondance qui veut envoyer des prospectus publicitaires ses clients
Lentreprise a un fichier de 100.000 clients. Le cot de la campagne est estim 0,5 ce qui fait un cot global de 50.000
Do lintrt de cibler les envois : un client qui a lhabitude dacheter du matriel de pche na que faire dune pub qui porte sur les vtements pour le golf (en gnral ) Dilemme : ne pas envoyer de prospectus versus en envoyer mais en ciblant les clients Ide : construire des groupes de clients. Chaque groupe sera soit destinataire dun prospectus cibl soit on ne lui envoie pas du tout.
13
Regroupement (2)
Les groupes (ou clusters) sont construits de sorte

Maximiser la similarit entre lments dun mme groupe Maximiser la dissimilarit entre groupes
Les questions auxquelles le dcideur est confront :
Si chaque individu forme lui seul un groupe, alors la similarit intra-groupe est maximale mais la dissimilarit inter-groupes peut ne pas ltre
Si on ne forme quun seul groupe, la dissimilarit intergroupes est maximale, mais la similarit intra-groupe peut ne pas ltre des techniques qui permettent lutilisateur de fixer le nombre k de groupes quil veut construire
14
Regroupement
15
Regroupement (3)
Linformation extraite se prsente sous forme dun ensemble de groupes G={G1, G2, , Gk} Toutes les techniques utilisent une mesure de similarit ou distance entre

Individus (similarit intra) Groupes dindividus (similarit inter)
Les mesures dpendent du type des attributs dcrivant les individus :
Attributs numriques distance au sens mathmatique Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= |1-0|+|2-3|=2 Attributs binaires (oui ou non) coefficient de similarit Ex: o1=(oui, non, oui), o2=(oui, oui, non) dist(o1,o2)=1/3 Attributs catgoriels. Ex: taille : grand, petit, moyen
16
Prvision Versus Regroupement
Dans la littrature, souvent lun est dnomm : Apprentissage supervis et lautre Apprentissage non-supervis Le regroupement pourrait tre utilis pour affecter une classe un nouvel individu : la classe du groupe dindividus auxquels il ressemble le plus La prvision pourrait tre considre comme du regroupement : Chaque valeur de lattribut particulier Classe correspond un groupe
17
Autres types dinformation
Squences similaires : trouver les actions boursires qui voluent dune manire similaire, trouver les internautes dont le comportement lors de la visite dun site marchand est similaire,
Les exceptions : trouver les clients dune entreprise de tlphonie dont les factures ne ressemblent pas aux autres; travail domicile, fraude
18
Conclusion
Utiliser un systme de datamining est intressant quand on sait

Quelles actions nous voulons entreprendre Quelles types dinformation nous devons rechercher
Pour chaque type dinformation, il existe plusieurs techniques qui ne sont dans la plupart des cas, pas quivalentes mais complmentaires Pour bien exploiter les informations extraites, il est important de comprendre les techniques sous jacentes
19
Merci
20

Intro

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Intro

Загружено:

Авторское право:

Доступные форматы

Data Mining

Ce quest le Data Mining

Quels types dinformation Rechercher ?

motifs de la forme : Corps Tte

Exemple : Lait sucre

Ex., 98% des personnes qui achtent du lait

Associations: Support et Confiance (3)

support > s et une confiance >c

Clients achetant les deux Clients achetant du lait

Clients achetant du sucre

Si {A,B,C} nest pas frquent, alors {A,B,C,D} ne peut pas ltre

Exemples de rgles de production:

Ces rgles peuvent tre reprsentes par un arbre de dcision

Association versus prvision

Dans les deux cas, on cherche extraire des rgles

nexprime pas une corrlation

Les deux types de rgles ne vhiculent pas le mme type dinformation

Les groupes (ou clusters) sont construits de sorte

Les questions auxquelles le dcideur est confront :

Individus (similarit intra) Groupes dindividus (similarit inter)

Les mesures dpendent du type des attributs dcrivant les individus :

Prvision Versus Regroupement

Autres types dinformation

Utiliser un systme de datamining est intressant quand on sait

Вам также может понравиться