1 Construction D'arbre de Dã©cision 2 Arbre de Dã©cision Et Choix Des PDF

TD 2 – M1 Informatique – Apprentissage Automatique
1 Construction d’arbre de décision

Soit l’échantillon suivant :
no P1 P2 P3 Classe
1 0 V N A
2 1 V I A
3 0 F O B
4 1 V N A
5 1 V O A
6 1 F N A
7 0 F O B
8 0 V I A
9 0 F N B
10 1 V I B
11 1 F O A
12 1 F I A
13 0 V O B
1. Soit l’ensemble d’apprentissage constitué des exemples {1, ..., 9}. Construire l’arbre de décision
parfait t1 en choisissant les attributs dans l’ordre P3 , P2 , P1 .
2. Même question avec t2 , en utilisant l’ordre P1 , P2 , P3 .
3. Peut-on trouver un arbre de décision parfait si on considère l’ensemble d’apprentissage constitué
des exemples {1, ..., 10} ?
4. Soit l’ensemble d’apprentissage constitué des exemples {1, ..., 9}, et l’ensemble test constitué
des exemples {11,12,13}. Soit les arbres t3 = A et t4 = P1 (B, A). Calculer l’erreur apparente
sur l’ensemble d’apprentissage, l’erreur apparente sur l’ensemble test, et l’erreur apparente sur
l’échantillon complet pour chacun des arbres t1 , ..., t4 .
2 Arbre de décision et choix des attributs

On dispose d’un échantillon de 200 patients. On sait que 100 sont malades (m), et les 100 autres
sont bien portants (bp). On dispose en outre des informations suivantes :
gorge irritée Gorge non irritée

température < 37.5 6 bp, 37 m 91 bp, 1 m
température ≥ 37.5 2 bp, 21 m 1 bp, 41 m
Soit l’arbre de décision de la figure 1.
Figure 1 – Un exemple d’arbre de décision.
1. Calculer, pour l’arbre de décision donné figure 1, les quantités i(), i(1), i(2), i(11) et i(12)
avec la fonction de Gini.
2. Même question en utilisant la fonction d’entropie.
Université Aix-Marseille – 2012-2013

3. Considérons l’arbre vide. Nous avons le choix entre choisir ”température < 37.5” et l’attribut
”gorge irritée”. Lequel doit-on choisir pour maximiser le gain ?
3 Arbres de décision et valeurs inconnues

Considérons un espace de description comprenant les trois attributs forme, taille et couleur,
prenant respectivement les valeurs rond et carré, petit et grand, bleu, rouge et blanc. L’attribut cible
est binaire, de valeurs oui et non. Les données disponibles sont les suivantes, oû le ? indique une
valeur manquante :
forme taille couleur classe

1 rond petit bleu oui
2 carré grand rouge non
3 rond ? blanc oui
4 carré petit bleu oui
5 rond grand bleu oui
6 carré grand blanc non
7 carré ? blanc oui
8 carré grand bleu non
9 carré petit rouge oui
10 rond grand blanc oui
Valeur majoritaire de l’attribut On remplace les valeurs manquantes par la valeur majoritaire
prise par cet attribut sur l’échantillon complet. Quelle valeur associe-t-on sur notre échantillon ?
Peut-on trouver un arbre de décision parfait ? Appliquer l’algorithme de construction d’arbre
de décision en utilisant l’entropie pour le calcul du gain. On décide qu’un nœud est terminal,
i.e. d’attribuer une feuille, lorsqu’il y a au plus un exemple mal classé associé à ce nœud. Les
calculs pour le test à choisir à la racine sont à détailler.
Valeur majoritaire de l’attribut par classe Etant donné un exemple avec une valeur man-
quante, nous remplaçons la valeur manquante par la valeur majoritaire prise par l’attribut
correspondant pour les exemples de l’échantillon appartenant à la même classe. Quelles va-
leurs associe-t-on sur notre échantillon ? Peut-on trouver un arbre de décision parfait ? Quel
arbre obtient-on en appliquant l’algorithme basé sur l’entropie ?
Méthode utilisée par C45 Cette méthode consiste à ne plus attribuer une valeur à l’attribut,
mais une probabilité pour chacune des valeurs possibles. Ces probabilités sont estimées par
les fréquences des valeurs possibles de cet attribut pour l’échantillon associé à une position
p de l’arbre en construction. Par exemple, à la racine, la probabilité que l’attribut taille ait
la valeur petit est de 3/8 car il y a 8 exemples pour lesquels la valeur de l’attribut taille est
connue, et 3 ont la valeur petit. Quelles seraient les modifications à apporter à l’algorithme ?
4 Publicité d’un produit bancaire

Une banque souhaite réaliser un mailing pour promouvoir une offre commerciale. Afin de cibler les
clients à qui elle adressera cette offre, elle procède à une enquête préliminaire pour savoir qui est
susceptible d’être intéressé. Trois attributs descriptifs sont retenus : l’âge (trois tranches : [18; 34],
[35; 49] et [50 et plus]), le genre (H ou F), et le fait d’être ou non propriétaire de son logement (oui,
non).
L’attribut cible prend deux valeurs : oui si le client est intéressé, non sinon. Le résultat de l’enquête
donne :

Age Genre Propriétaire Intéressé

20 H N N
25 F N N
32 H O O
34 H O O
37 H N O
41 F O N
45 H O O
45 F O N
52 H O N
60 F O N
? F N N
28 H ? O
? F ? N
Nous considérons l’algorithme générique de construction d’arbres de décision, le choix des attributs
se faisant en maximisant le gain en information basé sur l’entropie des échantillons.
Quel est l’attribut choisi à la racine ?

1 Construction D'arbre de Dã©cision 2 Arbre de Dã©cision Et Choix Des PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

1 Construction D'arbre de Dã©cision 2 Arbre de Dã©cision Et Choix Des PDF

Загружено:

Авторское право:

Доступные форматы

TD 2 – M1 Informatique – Apprentissage Automatique

1 Construction d’arbre de décision

2 Arbre de décision et choix des attributs

gorge irritée Gorge non irritée

Soit l’arbre de décision de la figure 1.

Figure 1 – Un exemple d’arbre de décision.

Université Aix-Marseille – 2012-2013

3 Arbres de décision et valeurs inconnues

forme taille couleur classe

4 Publicité d’un produit bancaire

Université Aix-Marseille – 2012-2013

Age Genre Propriétaire Intéressé

Université Aix-Marseille – 2012-2013

Вам также может понравиться