Академический Документы
Профессиональный Документы
Культура Документы
Extraction dinformations intressantes non triviales, implicites, pralablement inconnues et potentiellement utiles partir de donnes. Autres appellations: ECD (Extraction de Connaissances partir de Donnes) KDD (Knowledge Discovery from Databases) Analyse de donnes/patterns, business intelligence, fouille de donnes, etc.
2
La typologie de linformation que lon veut extraire dpend du type daction que le dcideur veut entreprendre Nous allons considrer
Recherche des liens entre lments de la base de donnes (Rgles dassociation) Analyse des comportement des lments de la base de donnes (prdiction) Recherche de similitudes entre lments de la base (Regroupement)
3
Associations (1)
Les enseignes de grands magasins proposent rgulirement des promotions sur divers produits Une promotion reprsente un manque gagner pour le magasin Dilemme : Comment proposer des promotions intressantes pour les clients tout en rduisant le manque gagner ? Regarder les habitudes dachats des clients : si en gnral, les clients qui achtent du lait achtent aussi du sucre, alors il nest pas intressant de faire des promotions sur les 2 produits en mme temps Ide : trouver les associations entre produits pour extraire les produits promouvoir
Associations (2)
Rgles dassociation :
Etant donns: (1) une base de transactions, (2) chaque transaction est dcrite par un identifiant et une liste ditems
Trouver: toutes les rgles qui expriment une association entre la prsence dun item avec la prsence dun ensemble ditems
achtent du sucre
support s, probabilit quune transaction contienne {X, Y, Z} confiance c, probabilit conditionnelle quune transaction qui contient {X, Y} contienne aussi Z
Confiance=support(X,Y,Z)/support(X,Y)
ID Transaction Items 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F
Soit support minimum 50%, et confiance minimum 50%, A C (50%, 66.6%) C A (50%, 100%)
6
Problme algorithmique
Si on a 1010 produits, on a 210^10 itemsets vrifier ! Ide: Exploiter la proprit de non monotonicit :
Prvision (1)
Les tablissements financiers accordent des crdits leurs clients Lattribution dun crdit dpend de certains critres que le client doit satisfaire Dilemme :
Ide : se baser sur lhistorique des clients pour dresser des profils de bons clients, clients moyens, et mauvais payeurs
8
Si on ne prte quaux trs riches, on naura pas de problmes de remboursement mais on perd les autres clients (pas de risque). Si on prte aux moins riches, on ne va pas perdre les clients mais on est expos aux non remboursements (trop de risque)
Prvision (2)
Lorganisme dispose dun fichier dcrivant ses diffrents clients qui il a attribu un crdit
Chaque client est dcrit par un certain nombre dattributs : Salaire, situation marital, emploi, locataire/propritaire, personnes charge, montant crdit,
A chaque client, on ajoute un attribut particulier qui est le nom de la classe et qui est gal bon, mauvais ou moyen Le but consiste extraire partir de ce fichier un ensemble de rgles quon va utiliser lorsquun nouveau client demande un crdit pour savoir si lon peut le lui attribuer ou pas
Prvision (3)
Si crdit > 1/3 salaire mauvais Si crdit <1/3 salaire & charges >4 mauvais Si crdit <1/3 salaire & charges <4 & propritaire = oui bon Si crdit <1/3 salaire & charges <4 & propritaire=non & cadre=oui bon Si crdit <1/3 salaire & charges <4 & propritaire=non & cadre = non moyen
Prvision (4)
Endettement >1/3 Mauvais >4 Mauvais oui Bon <1/3 charges <4
En pratique, les systmes construisent Propritaire dabord les arbres do ils drivent les rgles
non
oui
Bon
Cadre
non
moyen
11
Les rgles dassociation expriment une notion de lien entre objets de mme type (ex: les produits vendus par un magasin). Attention : Une rgle dassociation
Les rgles de production expliquent le lien entre une classe particulire et la valeur des caractristiques de plusieurs objets
Regroupement (1)
Considrons une entreprise de vente par correspondance qui veut envoyer des prospectus publicitaires ses clients
Lentreprise a un fichier de 100.000 clients. Le cot de la campagne est estim 0,5 ce qui fait un cot global de 50.000
Do lintrt de cibler les envois : un client qui a lhabitude dacheter du matriel de pche na que faire dune pub qui porte sur les vtements pour le golf (en gnral ) Dilemme : ne pas envoyer de prospectus versus en envoyer mais en ciblant les clients Ide : construire des groupes de clients. Chaque groupe sera soit destinataire dun prospectus cibl soit on ne lui envoie pas du tout.
13
Regroupement (2)
Maximiser la similarit entre lments dun mme groupe Maximiser la dissimilarit entre groupes
Si chaque individu forme lui seul un groupe, alors la similarit intra-groupe est maximale mais la dissimilarit inter-groupes peut ne pas ltre
Si on ne forme quun seul groupe, la dissimilarit intergroupes est maximale, mais la similarit intra-groupe peut ne pas ltre des techniques qui permettent lutilisateur de fixer le nombre k de groupes quil veut construire
14
Regroupement
15
Regroupement (3)
Linformation extraite se prsente sous forme dun ensemble de groupes G={G1, G2, , Gk} Toutes les techniques utilisent une mesure de similarit ou distance entre
Attributs numriques distance au sens mathmatique Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= |1-0|+|2-3|=2 Attributs binaires (oui ou non) coefficient de similarit Ex: o1=(oui, non, oui), o2=(oui, oui, non) dist(o1,o2)=1/3 Attributs catgoriels. Ex: taille : grand, petit, moyen
16
Dans la littrature, souvent lun est dnomm : Apprentissage supervis et lautre Apprentissage non-supervis Le regroupement pourrait tre utilis pour affecter une classe un nouvel individu : la classe du groupe dindividus auxquels il ressemble le plus La prvision pourrait tre considre comme du regroupement : Chaque valeur de lattribut particulier Classe correspond un groupe
17
Squences similaires : trouver les actions boursires qui voluent dune manire similaire, trouver les internautes dont le comportement lors de la visite dun site marchand est similaire,
Les exceptions : trouver les clients dune entreprise de tlphonie dont les factures ne ressemblent pas aux autres; travail domicile, fraude
18
Conclusion
Quelles actions nous voulons entreprendre Quelles types dinformation nous devons rechercher
Pour chaque type dinformation, il existe plusieurs techniques qui ne sont dans la plupart des cas, pas quivalentes mais complmentaires Pour bien exploiter les informations extraites, il est important de comprendre les techniques sous jacentes
19
Merci
20