Вы находитесь на странице: 1из 13

Equipe de recherche en Ingnierie des Connaissances

Laboratoire ERIC
1
Ricco Rakotomalala
Ricco.Rakotomalala@univ-lyon2.fr
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
2
Tableau de donnes
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables, caractres, attributs,
Descripteurs, champs, etc.
Individus, observations, objets, enregistrements, etc.
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
3
Statut des variables
Variable prdire
Attribut classe
Variable endogne
Ncessairement discrte nominale
(qualitative)
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Ski ll ed Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Ski ll ed Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Sal esman Slow
N 1700 Ski ll ed Worker Slow
Y 785 Empl oyee Fast
Y 1274 Worker Slow
N 960 Empl oyee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Variables prdictives
Descripteurs
Variables exognes
De type quelconque
(nominale, ordinale, continue)
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
4
Principes de lapprentissage supervis
Population

es) (quelconqu exognes variables


e qualitativ , (endogne) prdire variable
X
Y
Une srie de variables
X=(x1||xp)
On veut construire une fonction de classement telle que
) , ( X f Y =
Objet de l tude
Utiliser un chantillon a (extraite de la population) pour
choisir la fonction f et ses paramtres telle que l on
minimise l erreur thorique
Objectif de
l apprentissage

, (

0
) , (

1
[.]
)] , (

, [
) (
1

X f Y si
X f Y si
o
X f Y
card
ET
Problmes :
il faut choisir une famille de fonction
il faut estimer les paramtres
on utilise un chantillon pour optimiser
sur la population
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
5
Apprentissage bayesien
(cas particulier du problme 2 classes Positifs vs. Ngatifs)
Apprentissage en 2 tapes partir des donnes :
estimer la probabilit daffectation P(Y / X)
prdire [Y = +] si P(Y = + / X) > P(Y = - / X)
Remarques :
P(Y = + / X) est selon le cas appel score ou apptence : cest
la propension tre un positif
Cette mthode daffectation minimise lerreur de prdiction -- cest
un cas particulier du cot de mauvaise affectation
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
6
Apprentissage bayesien
(gnralisation K classes)
Apprentissage en 2 tapes partir des donnes :
estimer la probabilit daffectation
prdire
) / ( X y Y P
k
=
) / ( max arg
*
X y Y P y
k
k
k
= =
Remarque : Lorsque les X sont discrets, nous pouvons en dduire un
modle logique daffectation.
Si X1 = ? et X2 = ? et X3 = ? Alors Y = ?
prmisse conclusion
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
7
Apprentissage bayesien -- Exemple
Maladie Poids Taille Mari Etud.Sup
Prsent 45 Trapu Non Oui
Prsent 57 Elanc Non Oui
Absent 59 Elanc Non Non
Absent 61 Trapu Oui Oui
Prsent 65 Elanc Non Oui
Absent 68 Elanc Non Non
Absent 70 Trapu Oui Non
Prsent 72 Trapu Non Oui
Absent 78 Trapu Oui Non
Prsent 80 Elanc Oui Non
Y X
SI taille = ? ALORS Maladie = ?
SI taille = ? ET etud.sup = ? ALORS Maladie = ?
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
8
Avantages et inconvnient du modle bayesien complet
Optimale, elle minimise lerreur thorique
Pas de solution directe pour les descripteurs continus
(discrtisation ou hypothse de distribution)
Pas de slection et dvaluation des descripteurs
(individuellement ou des groupes de variables donc pas de slection)
Ds que le nombre de descripteurs augmente
Problme de calculabilit
Nombre doprations norme, ex. 10 descr. Binaires => 2^10 rgles
Problme de fragmentation des donnes
Plein de cases avec des 0, estimations peu fiables
Cette approche nest pas utilisable dans la pratique !
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
9
valuation de lapprentissage
Comprhensibilit
Rapidit
Prcision
Le modle exprime une connaissance
Explication : comprendre la causalit pour mieux lexploiter
Validation : lexpert peut valuer la pertinence de lexpertise
Amlioration : lexpert peut intervenir pour ajuster les paramtres
calculs (ex. les bornes de discrtisation)
En apprentissage pouvoir tester plusieurs pistes (ajout de variables,
test de combinaison de variables, modifications de paramtres, etc.)
En classement, affecter une tiquette un nouvel individu
Facilit de mise jour du modle (cf. la notion dincrmentalit)
valuer la prcision (fiabilit) du modle lors de son utilisation future
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
10
valuation de lapprentissage Matrice de confusion
Principe : confronter la vraie valeur avec la prdiction
+ - Total
+ a b a+b
- c d c+d
Total a+c b+d n
Prdite
O
b
s
e
r
v

e
Quelques indicateurs :
Vrais positifs VP = a
Faux positifs FP = c
Taux derreur = (c+b)/n
Sensibilit = Rappel = Taux de VP = a/(a+b)
Prcision = a/(a+c)
Taux de FP = c/(c+d)
Spcificit = d/(c+d) = 1 Taux de FP
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
11
valuation Les cots de mauvaise affectation
+ - Total
+ 40 10 50
- 20 30 50
Total 60 40 100
Prdite
O
b
s
e
r
v

e
Comparaison de deux mthodes dapprentissage
+ - Total
+ 20 30 50
- 0 50 50
Total 20 80 100
Prdite
O
b
s
e
r
v

e
Une information complmentaire
La matrice de cots de mauvais classement
+ -
+ 0 5
- 1 0
Prdite
O
b
s
e
r
v

e
Cot moyen de mauvaise affectation (dont le taux derreur est un cas particulier)
Calculer les indicateurs synthtiques et comparer
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
12
valuation Le principe apprentissage & test
Problme : un fichier ne peut pas tre juge et partie
Dans ce cas, les indicateurs calculs sont dit de resubstitution
On sait quils sont biaiss -- trop optimistes
Success Wages Job Refunding
Y 0 Unemployed Slow
N 2000 Skilled Worker Slow
N 1400 Worker Slow
N 1573 Retired Slow
Y 2776 Skilled Worker Slow
N 2439 Retired Fast
N 862 Office employee Slow
Y 1400 Salesman Slow
N 1700 Skilled Worker Slow
Y 785 Employee Fast
Y 1274 Worker Slow
N 960 Employee Fast
N 1656 Worker Fast
N 0 Unemployed Slow
Subdivision alatoire
chantillon dapprentissage
Utilis pour la construction du modle
70%
chantillon test
Utilis pour lvaluation du modle
30%
Rappel, prcision, taux derreur
(exercice : fichier LOAN Success vs. Housing & Refunding)
Equipe de recherche en Ingnierie des Connaissances
Laboratoire ERIC
13
Bibliographique : comprhension des mthodes supervises
Analyse discriminante Application au risque et au scoring financier , M.
Bardos, ed. Dunod, 2001.
Technique pratique, avec de bons repres thoriques, tourn vers les applications
The elements of statistical learning - Data Mining, Inference and
Prediction , T. Hastie, R. Tibshirani, J. Friedman, Springer 2001.
Trs technique, encyclopdique, indispensable pour la recherche, lire plusieurs fois