Вы находитесь на странице: 1из 20

Data Mining

Ce quest le Data Mining

Extraction dinformations intressantes non triviales, implicites, pralablement inconnues et potentiellement utiles partir de donnes. Autres appellations: ECD (Extraction de Connaissances partir de Donnes) KDD (Knowledge Discovery from Databases) Analyse de donnes/patterns, business intelligence, fouille de donnes, etc.
2

Quels types dinformation Rechercher ?

La typologie de linformation que lon veut extraire dpend du type daction que le dcideur veut entreprendre Nous allons considrer

Recherche des liens entre lments de la base de donnes (Rgles dassociation) Analyse des comportement des lments de la base de donnes (prdiction) Recherche de similitudes entre lments de la base (Regroupement)
3

Associations (1)

Les enseignes de grands magasins proposent rgulirement des promotions sur divers produits Une promotion reprsente un manque gagner pour le magasin Dilemme : Comment proposer des promotions intressantes pour les clients tout en rduisant le manque gagner ? Regarder les habitudes dachats des clients : si en gnral, les clients qui achtent du lait achtent aussi du sucre, alors il nest pas intressant de faire des promotions sur les 2 produits en mme temps Ide : trouver les associations entre produits pour extraire les produits promouvoir

Associations (2)

Rgles dassociation :

motifs de la forme : Corps Tte

Exemple : Lait sucre

Etant donns: (1) une base de transactions, (2) chaque transaction est dcrite par un identifiant et une liste ditems

Trouver: toutes les rgles qui expriment une association entre la prsence dun item avec la prsence dun ensemble ditems

Ex., 98% des personnes qui achtent du lait

achtent du sucre

Associations: Support et Confiance (3)


Trouver les rgles X & Y Z avec un

support > s et une confiance >c

Clients achetant les deux Clients achetant du lait

support s, probabilit quune transaction contienne {X, Y, Z} confiance c, probabilit conditionnelle quune transaction qui contient {X, Y} contienne aussi Z
Confiance=support(X,Y,Z)/support(X,Y)

Clients achetant du sucre

ID Transaction Items 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F

Soit support minimum 50%, et confiance minimum 50%, A C (50%, 66.6%) C A (50%, 100%)
6

Problme algorithmique

Si on a 1010 produits, on a 210^10 itemsets vrifier ! Ide: Exploiter la proprit de non monotonicit :

Si {A,B,C} nest pas frquent, alors {A,B,C,D} ne peut pas ltre

Prvision (1)

Les tablissements financiers accordent des crdits leurs clients Lattribution dun crdit dpend de certains critres que le client doit satisfaire Dilemme :

Ide : se baser sur lhistorique des clients pour dresser des profils de bons clients, clients moyens, et mauvais payeurs
8

Si on ne prte quaux trs riches, on naura pas de problmes de remboursement mais on perd les autres clients (pas de risque). Si on prte aux moins riches, on ne va pas perdre les clients mais on est expos aux non remboursements (trop de risque)

Prvision (2)

Lorganisme dispose dun fichier dcrivant ses diffrents clients qui il a attribu un crdit

Chaque client est dcrit par un certain nombre dattributs : Salaire, situation marital, emploi, locataire/propritaire, personnes charge, montant crdit,
A chaque client, on ajoute un attribut particulier qui est le nom de la classe et qui est gal bon, mauvais ou moyen Le but consiste extraire partir de ce fichier un ensemble de rgles quon va utiliser lorsquun nouveau client demande un crdit pour savoir si lon peut le lui attribuer ou pas

Prvision (3)

Exemples de rgles de production:


Si crdit > 1/3 salaire mauvais Si crdit <1/3 salaire & charges >4 mauvais Si crdit <1/3 salaire & charges <4 & propritaire = oui bon Si crdit <1/3 salaire & charges <4 & propritaire=non & cadre=oui bon Si crdit <1/3 salaire & charges <4 & propritaire=non & cadre = non moyen

Ces rgles peuvent tre reprsentes par un arbre de dcision


10

Prvision (4)
Endettement >1/3 Mauvais >4 Mauvais oui Bon <1/3 charges <4
En pratique, les systmes construisent Propritaire dabord les arbres do ils drivent les rgles

non

oui
Bon

Cadre

non
moyen
11

Association versus prvision

Dans les deux cas, on cherche extraire des rgles

Les rgles dassociation expriment une notion de lien entre objets de mme type (ex: les produits vendus par un magasin). Attention : Une rgle dassociation

nexprime pas une corrlation

Les rgles de production expliquent le lien entre une classe particulire et la valeur des caractristiques de plusieurs objets

Les deux types de rgles ne vhiculent pas le mme type dinformation


12

Regroupement (1)

Considrons une entreprise de vente par correspondance qui veut envoyer des prospectus publicitaires ses clients

Lentreprise a un fichier de 100.000 clients. Le cot de la campagne est estim 0,5 ce qui fait un cot global de 50.000
Do lintrt de cibler les envois : un client qui a lhabitude dacheter du matriel de pche na que faire dune pub qui porte sur les vtements pour le golf (en gnral ) Dilemme : ne pas envoyer de prospectus versus en envoyer mais en ciblant les clients Ide : construire des groupes de clients. Chaque groupe sera soit destinataire dun prospectus cibl soit on ne lui envoie pas du tout.
13

Regroupement (2)

Les groupes (ou clusters) sont construits de sorte


Maximiser la similarit entre lments dun mme groupe Maximiser la dissimilarit entre groupes

Les questions auxquelles le dcideur est confront :

Si chaque individu forme lui seul un groupe, alors la similarit intra-groupe est maximale mais la dissimilarit inter-groupes peut ne pas ltre

Si on ne forme quun seul groupe, la dissimilarit intergroupes est maximale, mais la similarit intra-groupe peut ne pas ltre des techniques qui permettent lutilisateur de fixer le nombre k de groupes quil veut construire
14

Regroupement

15

Regroupement (3)

Linformation extraite se prsente sous forme dun ensemble de groupes G={G1, G2, , Gk} Toutes les techniques utilisent une mesure de similarit ou distance entre

Individus (similarit intra) Groupes dindividus (similarit inter)

Les mesures dpendent du type des attributs dcrivant les individus :

Attributs numriques distance au sens mathmatique Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= |1-0|+|2-3|=2 Attributs binaires (oui ou non) coefficient de similarit Ex: o1=(oui, non, oui), o2=(oui, oui, non) dist(o1,o2)=1/3 Attributs catgoriels. Ex: taille : grand, petit, moyen

16

Prvision Versus Regroupement

Dans la littrature, souvent lun est dnomm : Apprentissage supervis et lautre Apprentissage non-supervis Le regroupement pourrait tre utilis pour affecter une classe un nouvel individu : la classe du groupe dindividus auxquels il ressemble le plus La prvision pourrait tre considre comme du regroupement : Chaque valeur de lattribut particulier Classe correspond un groupe
17

Autres types dinformation

Squences similaires : trouver les actions boursires qui voluent dune manire similaire, trouver les internautes dont le comportement lors de la visite dun site marchand est similaire,

Les exceptions : trouver les clients dune entreprise de tlphonie dont les factures ne ressemblent pas aux autres; travail domicile, fraude

18

Conclusion

Utiliser un systme de datamining est intressant quand on sait


Quelles actions nous voulons entreprendre Quelles types dinformation nous devons rechercher

Pour chaque type dinformation, il existe plusieurs techniques qui ne sont dans la plupart des cas, pas quivalentes mais complmentaires Pour bien exploiter les informations extraites, il est important de comprendre les techniques sous jacentes
19

Merci

20

Вам также может понравиться