Вы находитесь на странице: 1из 3

TD 2 – M1 Informatique – Apprentissage Automatique

1 Construction d’arbre de décision


Soit l’échantillon suivant :
no P1 P2 P3 Classe
1 0 V N A
2 1 V I A
3 0 F O B
4 1 V N A
5 1 V O A
6 1 F N A
7 0 F O B
8 0 V I A
9 0 F N B
10 1 V I B
11 1 F O A
12 1 F I A
13 0 V O B

1. Soit l’ensemble d’apprentissage constitué des exemples {1, ..., 9}. Construire l’arbre de décision
parfait t1 en choisissant les attributs dans l’ordre P3 , P2 , P1 .
2. Même question avec t2 , en utilisant l’ordre P1 , P2 , P3 .
3. Peut-on trouver un arbre de décision parfait si on considère l’ensemble d’apprentissage constitué
des exemples {1, ..., 10} ?
4. Soit l’ensemble d’apprentissage constitué des exemples {1, ..., 9}, et l’ensemble test constitué
des exemples {11,12,13}. Soit les arbres t3 = A et t4 = P1 (B, A). Calculer l’erreur apparente
sur l’ensemble d’apprentissage, l’erreur apparente sur l’ensemble test, et l’erreur apparente sur
l’échantillon complet pour chacun des arbres t1 , ..., t4 .

2 Arbre de décision et choix des attributs


On dispose d’un échantillon de 200 patients. On sait que 100 sont malades (m), et les 100 autres
sont bien portants (bp). On dispose en outre des informations suivantes :

gorge irritée Gorge non irritée


température < 37.5 6 bp, 37 m 91 bp, 1 m
température ≥ 37.5 2 bp, 21 m 1 bp, 41 m

Soit l’arbre de décision de la figure 1.

Figure 1 – Un exemple d’arbre de décision.

1. Calculer, pour l’arbre de décision donné figure 1, les quantités i(), i(1), i(2), i(11) et i(12)
avec la fonction de Gini.
2. Même question en utilisant la fonction d’entropie.

Université Aix-Marseille – 2012-2013


TD 2 – M1 Informatique – Apprentissage Automatique

3. Considérons l’arbre vide. Nous avons le choix entre choisir ”température < 37.5” et l’attribut
”gorge irritée”. Lequel doit-on choisir pour maximiser le gain ?

3 Arbres de décision et valeurs inconnues


Considérons un espace de description comprenant les trois attributs forme, taille et couleur,
prenant respectivement les valeurs rond et carré, petit et grand, bleu, rouge et blanc. L’attribut cible
est binaire, de valeurs oui et non. Les données disponibles sont les suivantes, oû le ? indique une
valeur manquante :

forme taille couleur classe


1 rond petit bleu oui
2 carré grand rouge non
3 rond ? blanc oui
4 carré petit bleu oui
5 rond grand bleu oui
6 carré grand blanc non
7 carré ? blanc oui
8 carré grand bleu non
9 carré petit rouge oui
10 rond grand blanc oui

Valeur majoritaire de l’attribut On remplace les valeurs manquantes par la valeur majoritaire
prise par cet attribut sur l’échantillon complet. Quelle valeur associe-t-on sur notre échantillon ?
Peut-on trouver un arbre de décision parfait ? Appliquer l’algorithme de construction d’arbre
de décision en utilisant l’entropie pour le calcul du gain. On décide qu’un nœud est terminal,
i.e. d’attribuer une feuille, lorsqu’il y a au plus un exemple mal classé associé à ce nœud. Les
calculs pour le test à choisir à la racine sont à détailler.
Valeur majoritaire de l’attribut par classe Etant donné un exemple avec une valeur man-
quante, nous remplaçons la valeur manquante par la valeur majoritaire prise par l’attribut
correspondant pour les exemples de l’échantillon appartenant à la même classe. Quelles va-
leurs associe-t-on sur notre échantillon ? Peut-on trouver un arbre de décision parfait ? Quel
arbre obtient-on en appliquant l’algorithme basé sur l’entropie ?
Méthode utilisée par C45 Cette méthode consiste à ne plus attribuer une valeur à l’attribut,
mais une probabilité pour chacune des valeurs possibles. Ces probabilités sont estimées par
les fréquences des valeurs possibles de cet attribut pour l’échantillon associé à une position
p de l’arbre en construction. Par exemple, à la racine, la probabilité que l’attribut taille ait
la valeur petit est de 3/8 car il y a 8 exemples pour lesquels la valeur de l’attribut taille est
connue, et 3 ont la valeur petit. Quelles seraient les modifications à apporter à l’algorithme ?

4 Publicité d’un produit bancaire


Une banque souhaite réaliser un mailing pour promouvoir une offre commerciale. Afin de cibler les
clients à qui elle adressera cette offre, elle procède à une enquête préliminaire pour savoir qui est
susceptible d’être intéressé. Trois attributs descriptifs sont retenus : l’âge (trois tranches : [18; 34],
[35; 49] et [50 et plus]), le genre (H ou F), et le fait d’être ou non propriétaire de son logement (oui,
non).
L’attribut cible prend deux valeurs : oui si le client est intéressé, non sinon. Le résultat de l’enquête
donne :

Université Aix-Marseille – 2012-2013


TD 2 – M1 Informatique – Apprentissage Automatique

Age Genre Propriétaire Intéressé


20 H N N
25 F N N
32 H O O
34 H O O
37 H N O
41 F O N
45 H O O
45 F O N
52 H O N
60 F O N
? F N N
28 H ? O
? F ? N

Nous considérons l’algorithme générique de construction d’arbres de décision, le choix des attributs
se faisant en maximisant le gain en information basé sur l’entropie des échantillons.
Quel est l’attribut choisi à la racine ?

Université Aix-Marseille – 2012-2013

Вам также может понравиться