Вы находитесь на странице: 1из 27

Arbori de decizie 49

Arbori de decizie Decision Trees






5.1 Noiuni teoretice


Arborii de clasificare i decizie reprezint una dintre principalele tehnici de DM. Analiza
arborilor de decizie permite prognoza apartenenei unor obiecte/instane la categorii distincte,
plecnd de la msurile lor n funcie de una sau mai multe variabile predictoare
1
.

Obiectiv constituirea subgrupelor omogene din punct de vedere a variabilei dependente Y.
Arborii de clasificare i decizie pot fi:
arbori de clasificare atunci cnd rezultatul prediciei este clasa de apartenen a
datelor;
arbori de regresie, atunci cnd rezultatul prognozat poate fi considerat un numr
real (preul petrolului, valoarea unei case);
CART (C&RT) Classification And Regression Tree (Breiman, 1984) combin
cele dou situaii de mai sus.

Algoritmii utilizai de-a lungul timpului au fost :

Hunt Hunt, 1962
AID Morgan i Sonquist, 1963
THAID - Morgan i Messenger, 1973
ID3 Quinlan, 1979
CHAID Kass, 1980
CART - Breiman, 1984
C4.5 i C5.0 Quinlan, 1993
QUEST


5.1.1 Construirea unui arbore de decizie

Apelm la exemplul Quinlan (1993) fiierul este compus din 14 observaii (mulimea de
antrenament) i ne propunem s explicm comportamentul indivizilor (joac, nu joac) n
funcie de previziunile meteorologice
2
. Algoritmul utilizat este CHAID (CHI squared
Automatic Interaction Detection) recunoaterea formelor.

Nr. obs Vremea
X1
Temperatura ( F)
X2
Umiditate (%)
X3
Vnt
X4
Joac
Y
1 soare 75 70 da da
2 soare 80 90 da nu

1
Gorunescu F., DATA MINING concepte, modele i tehnici, Ed. Albastra, Cluj-Napoca, 2006, pag. 142
2
Rakotomalala Ricco, Les methodes dInduction dArbres, Laboratoire ERIC, Lyon, 2005
Capitolul 5 50
3 soare 85 85 nu nu
4 soare 72 95 nu nu
5 soare 69 70 nu da
6 acoperit 72 90 da da
7 acoperit 83 78 nu da
8 acoperit 64 65 da da
9 acoperit 81 75 nu da
10 ploaie 71 80 da nu
11 ploaie 65 70 da nu
12 ploaie 75 80 nu da
13 ploaie 68 80 nu da
14 ploaie 70 96 nu da







Descrierea arborelui:
primul nod Joac se numete rdcina arborelui i prezint distribuia persoanelor
dup modalitile variabilei dependente Y; se alege prima variabil de segmentare
aplicnd testul de independen 2 Chi-Square. Cu ajutorul testului
2
se poate
analiza dac dou variabile sunt dependente sau independente, garantnd
rezultatele cu o probabilitate dinainte stabilit. Pentru a verifica acest lucru pornim
de la ipotezele:

H
0
: variabile independente ipoteza nul, cu alternativa
H
1
: variabile dependente.

Dou variabile sunt independente dac sunt ndeplinite condiiile:

) ( ) / ( ) ( ) / (
1 1 1 1 1 1
y Y P x X y Y P i x X P y Y x X P = = = = = = = =


Joac

9 64% Da
5 36% Nu

Vremea = soare

2 40%
3 60%

Vremea = acoperit

4 100% Da
0 0% Nu

Vremea = ploaie

3 60%
2 40%

Umiditate < 77,5

2 100% Da
0 0%

Umiditate 77,5

0 0%
3 100% Nu

Vnt = da

0 0%
2 100% Nu

Vnt = nu

3 100% Da
0 0%

Arbori de decizie 51

= =

=
p
i
q
j ij
ij ij
calc
nt
nt n
1 1
2
2
) (


n care:
ij
n
sunt valorile observate

ij
nt
sunt valorile teoretice (ateptate, acele valori care ar satisface
condiiile de independen)
p numrul liniilor
q numrul coloanelor
Valoarea
2
calc

se compar cu valoarea teoretic
2
t
, extras din tabelul
funciei
2

, pentru nivelul de semnificaie ales i ) 1 ( ) 1 ( q p grade de
libertate.
Dac valoarea
2
calc
>
2
t
, atunci, se respinge ipoteza H
0
i se admite alternativa
ei H
1
, variabilele sunt dependente.








P(
2 2
t calc
< )


H
0

2
t
H
1

2
calc
poate lua valori de la 0 la +. Pentru a putea face comparaii ntre
combinaii de variabile cu numr diferit de grade de libertate se poate recurge
la normalizare calculnd valoarea t a lui Tschuprow, ] 1 ; 0 [ t
) 1 )( 1 (
2

=
q p n
t
calc



Pentru exemplul nostru, se alege combinaia pentru care nivelul de semnificaie
Asymp. Sig. este cel mai mic. n cazul nostru prima variabil de segmentare va
fi Vremea care va produce trei noduri " fiu " potrivit celor trei modaliti;











Legturi ntre
Pearson Chi-Square
Value df
Asymp. Sig.
(2-sided)
Joaca * Vremea 3.547 2 0.170
Joaca * temperatura (grade F) 11.822 11 0.377
Joaca * umiditate (%) 6.015
8 0.646
Joaca * vant
0.933
1 0.334
Capitolul 5 52

nodul de la nivelul doi Vremea = soare, conine 5 persoane (nregistrri) din care
2 joac i trei nu joac, ceea ce nseamn c la nivelul acestui nod nu avem
omogenitate. El va genera noduri " fiu ". La fel se va ntmpla i cu nodul Vremea
= ploaie;
nodul de la nivelul doi Vremea = acoperit, conine 4 persoane (nregistrri) care
joac, ceea ce nseamn c la nivelul acestui nod avem omogenitate. El este un
nod " pur " i devine o frunz a arborelui;
pentru nodul de la nivelul doi Vremea = soare se alege variabila de segmentare
astfel: se selecteaz cele 5 nregistrri punnd condiia de mai sus apoi se aplic
testul 2 combinnd variabila dependent Joac cu celelalte trei









Nivelul de semnificaie cel mai mic se ntlnete la combinaia Joaca * umiditate,
variabila de segmentare va fi Umiditate.
variabila Umiditate este continu, de aceea se impune alegerea unui punct de
tiere astfel: valorile umiditii (pentru cele 5 observaii) sunt sortate pe axa
umiditate, un prim punct de tiere este mediana dintre 70 i 85, adic valoarea
77,5, se mpart cele 5 observaii n dou grupe n funcie de aceast condiie de
umiditate, se aplic testul 2 i se calculeaz valoarea normalizat t Tschuprow, se
continu cu alegerea urmtoarelor puncte de tiere (dintre 85 i 90, dintre 90 i 95)
i pentru fiecare situaie se calculeaz valoarea normalizat t Tschuprow. Cea mai
bun decupare o realizeaz valoarea 77,5 (combinaia cu valoarea normalizat t
cea mai mare), rezultnd dou noduri pure (frunze). Se poate lua ca punct de tiere
fiecare valoare a variabilei analizate.



Legturi ntre
Pearson Chi-Square
Value df
Asymp. Sig.
(2-sided)
Joaca * temperatura (grade F) 5 4 0.287
Joaca * umiditate (%) 5
3 0.172
Joaca * vant
0.139
1 0.709
Arbori de decizie 53
nodul de la nivelul doi Vremea = ploaie, conine 5 persoane (nregistrri) din
care 3 joac i 2 nu joac, ceea ce nseamn c la nivelul acestui nod nu avem
omogenitate. El va genera noduri " fiu ". Se alege variabila de segmentare astfel:










Se alege ca varibil de segmentare Vant (Asymp. Sig. cel mai mic), variabil ce
genereaz dou noduri pure (frunze).

5.1.2 Msuri de evaluare a segmentrii (partiionrii)

Msurile de evaluare a segmentrii (partiionrii) pot fi:
statistice;
rezultate din teoria informaiei

Situaii posibile
3




3
Rakotomalala Ricco, Les methodes dInduction dArbres, Laboratoire ERIC, Lyon, 2005

Legturi ntre
Pearson Chi-Square
Value df
Asymp. Sig.
(2-sided)
Joaca * temperatura (grade F) 5 4 0.287
Joaca * umiditate (%) 2,222
2 0.329
Joaca * vant
5
1 0.025
Capitolul 5 54
Msuri statistice - 2 i normalizarea sa (CHAID)

Fie tabelul de contingen:

Y X
1
. . X
j
. . X
q
Total
Y
1

.
.
Y
i

.
.
Y
p

n
11

.
.
n
i1

.
.
n
p1

.


.


.
. n
1j

.
.
n
ij

.
.
n
pj

.


.


.
.


.


.
n
1q

.
.
n
iq

.
.
n
pq

n
1
.
.
.
n
i.

.
.
n
p
.
Total n
.1
. . n
.j
. . n
.q
n

Exemplul S1 distribuie pur n frunze. Considerm variabilele: Y Cumprai produsul
A ? i X Ai vzut reclama la prod. A ? cu modalitile da, nu.





Value df
Asymp. Sig. (2-
sided)
Pearson Chi-Square 8.000
a
1 .005
N of Valid Cases 8

b. Computed only for a 2x2 table


Valoarea normalizat t (Tschuprow) 1
) 1 2 )( 1 2 ( 8
8
=

= ne indic dependena total dintre
Y i X i constituirea frunzelor pure:

cumpara * reclama Crosstabulation
reclama

nu da Total
da 0 4 4
nu 4 0 4
cumpara
Total 4 4 8
Cumpr Y
Y1 = da = 4 50%
Y2 = nu = 4 50%
Total = 8 100%
Reclama X1 = da = 4 50%
din care
Y1 = da = 4 100%
Y2 = nu = 0 0%
Total = 4 100%

Reclama X2 = nu = 4 50%
din care
Y1 = da = 0 0%
Y2 = nu = 4 100%
Total = 4 100%

Arbori de decizie 55


Exemplul S2 fr modificarea distribuiei



Value df
Asymp. Sig. (2-
sided)
Pearson Chi-Square .000
a
1 1.000
N of Valid Cases 8

b. Computed only for a 2x2 table


Valoarea normalizat t (Tschuprow) 0
) 1 2 )( 1 2 ( 8
0
=

=














cumpara * reclama Crosstabulation
reclama

nu da Total
da 2 2 4
nu 2 2 4
cumpara
Total 4 4 8
Cumpr Y
Y1 = da = 4 50%
Y2 = nu = 4 50%
Total = 8 100%
Reclama X1 = da = 4 50%
din care
Y1 = da = 2 50%
Y2 = nu = 2 50%
Total = 4 100%

Reclama X2 = nu = 4 50%
din care
Y1 = da = 2 50%
Y2 = nu = 2 50%
Total = 4 100%

Capitolul 5 56

Exemplul S3 distribuie intermediar






Value df
Asymp. Sig. (2-
sided)
Pearson Chi-Square 4.800
a
1 .028
N of Valid Cases 8

b. Computed only for a 2x2 table


Valoarea normalizat t (Tschuprow) 6 , 0
) 1 2 )( 1 2 ( 8
8 , 4
=

=



Teoria informaiei Ctigul informaional (C4.5)

Entropie Shannon cantitatea de informaie pentru cunoaterea valorilor lui Y
|

\
|
=

=
n
n
n
n
Y E
i
p
i
i .
2
1
.
log ) (

Entropie condiional cantitatea de informaie pentru cunoaterea valorilor lui Y
condiionate de valorile lui X
|
|

\
|
=

= = j
ij
p
i j
ij
q
j
j
n
n
n
n
n
n
X Y E
.
2
1 . 1
.
log ) / (
cumpara * reclama Crosstabulation
reclama

nu da Total
da 0 4 4
nu 3 1 4
cumpara
Total 3 5 8
Cumpr Y
Y1 = da = 4 50%
Y2 = nu = 4 50%
Total = 8 100%
Reclama X1 = da = 5 62%
din care
Y1 = da = 4 80%
Y2 = nu = 1 20%
Total = 5 100%

Reclama X2 = nu = 3 38%
din care
Y1 = da = 0 0%
Y2 = nu = 3 100%
Total = 3 100%

Arbori de decizie 57

Ctigul de informaie - ) / ( ) ( ) / ( X Y E Y E X Y G =

Ctigul de informaie normalizat (Gain Ratio) innd cont de distribuia marginal
a lui X
) (
) / (
) / (
X E
X Y G
X Y GR =
n care
|
|

\
|
=

=
n
n
n
n
X E
j
q
j
j .
2
1
.
log ) (


Pentru situaiile de mai sus se ntlnesc valorile:
Gain Ratio

=
=
=
3 575 , 0
2 0
1 1
S pentru
S pentru
S pentru


Atunci cnd se alege variabila de segmentare se analizeaz toate combinaiile variabilei
dependente cu variabilele de segmentare candidate i se alege ctigul de informaie Gain
Ratio cel mai mare.

Indicele de concentrare (CART)

Indicele GINI msoar gradul de concentrare al valorilor lui Y

2
1
.
1 ) (

=
|

\
|
=
p
i
i
n
n
Y I

p numrul modalitilor lui Y
q numrul nodurilor n care se face mpeirea
Indicele GINI condiional
|
|

\
|
|
|

\
|
=

= =
p
i j
ij
q
j
j
n
n
n
n
X Y I
1
2
. 1
.
1 ) / (


Ameliorarea concentrrii ) / ( ) ( X Y I Y I Gini
split
= .

Pentru situaiile de mai sus se ntlnesc valorile:
D

=
=
=
3 3 , 0
2 0
1 5 , 0
S pentru
S pentru
S pentru


Msura de clasificare greit (misclassification measure) este un indice ce msoar eroarea
de clasificare care se poate face la un nod utiliznd o anumit partiionare i este dat de
formula:
( max 1 ) (
j
i I = proporia de obiecte din clasa j / totalul clasei j)
Vom alege partiionarea care minimizeaz eroarea.

Capitolul 5 58
Stabilirea mrimii arborelui

Procesul de partiionare continu pn cnd toate nodurile terminale devin pure. Acest lucru
poate conduce la situaia ca numrul obiectelor din aceste noduri (frunze) s fie prea mic sau
arborele s fie prea mare.
Determinarea mrimii optime se poate face prin:
pre-pruning se oprete creterea arborelui n timpul procesului de inducie prin
stabilirea unor reguli de Stop. De exemplu, n metoda CHAID, la nivelul nodului ce
urmeaz a se segmenta, se alege un nivel de semnificaie cu care se va compara nivelul de
semnificaie p-value al testului 2. Dac p-value< nivelul de semnificaie se accept
segmentarea, dac nu se oprete segmentarea (dac p-value = 0,025 i nivelul de
semnificaie = 0,05 sau 5% se accept segmentarea; dac p-value = 0,025 i nivelul de
semnificaie = 0,01 sau 1% se respinge segmentarea ).
Uzual, sunt utilizate dou reguli de stop:
- minimul n, se refer la condiia de Stop care specific un numr minim de obiecte
care s fie coninute n nodurile terminale. n aceste condiii, divizarea unui nod ia
sfrit atunci cnd fie nodul este pur, fie nu conine mai multe obiecte dect
numrul specificat;
- proporia de obiecte, se refer la condiia de Stop care impune ca divizarea unui
nod ia sfrit atunci cnd fie nodul este pur, fie nu conine mai multe obiecte dect
o proporie (procent) minim din mrimea uneia sau mai multor clase.
post-pruning aranjarea ulterioar, proces ce se desfoar de jos n sus prin
cuantificarea erorii de clasificare ( se poate renuna la ramificaiile unui nod, el devenind
frunz )

Extragerea regulilor de clasificare din arborii de decizie

Drmul ce leag o frunz de rdcina arborelui poate fi considerat o regul de predicie de tip
atribut-valoare "Dac premisa... atunci concluzia...".
n exemplul Joac n funcie de condiiile meteo se pot desprinde urmtoarele reguli:

Nr.crt. Premisa Concluzia
1 Vremea = soare i Umiditate < 77,5 Joac = Da
2 Vremea = soare i Umiditate 77,5 Joac = Nu
3 Vremea = acoperit Joac = Da
4 Vremea = ploaie i Vnt = Da Joac = Nu
5 Vremea = ploaie i Vnt = Nu Joac = Da

Fuzionarea nodurilor rezultate n urma segmentrii

CHAID propune un procedeu original
4
ce verific proximitatea profilelor nodurilor " fiu "
rezultate din segmentare i fuzionarea iterativ a nodurilor ce vor produce frunze, utiliznd
testul de echvalen distribuional 2 (dac profilele a dou noduri " fiu " sunt apropiate ntre
ele se poate realiza fuzionarea).

4
Rakotomalala Ricco, Les methodes dInduction dArbres, Laboratoire ERIC, Lyon, 2005, pag.177
Arbori de decizie 59

+
|
|

\
|

=
p
i i i
i i
n n
n n
n
n
n
n
1
2 . 1 .
2 1
2
2 .
2
1 .
1
2
cu (p-1) grade de libertate
Exemplu, fie nodurile a, b, c, fixm riscul de prima spe pentru testul echivalenei
distribuionale de 10%.

Noduri Distribuia CHI-2 p-value Rezultat
a & b (2 ; 3) i (4 ; 0) 3,60 0,058
a & c (2 ; 3) i (3 ; 2) 0,40 0,527 Fuziune
a & d (4 ; 0) i (3 ; 2) 2,06 0,151

Combinaiile (a & c) i (a & d) pot fuziona deoarece au p-value mai mare dect 0,10 (se
apropie de echivalena distribuional ipoteza H0). Distribuiile cele mai apropiate sunt (a &
c), noduri ce vor fuziona sub numele A. Notm nodul b cu B. La pasul doi se analizeaz
fuzionarea dintre A i B.

Noduri Distribuia CHI-2 p-value Rezultat
A & B (5 ; 5) i (4 ; 0) 3,11 0,078

Se constat c p-value este mai mic dect 0,10 se oprete fuzionarea.


5.2 Clementine arbori de decizie

Metodele se difereniaz n funcie de tipul variabilelor: dac variabila dependent este
cantitativ (range) se genereaz un arbore de regresie; dac variabila dependent este
calitativ (categorial) se genereaz un arbore de clasificare.

Classification and Regression Tree (Arbore de clasificare i regresie) nod
ce genereaz un arbore de decizie cu care se pot prevedea sau clasifica valori viitoare. Metoda
utilizeaz o partiionare recursiv prin mprirea nregistrrilor unei mulimi de antrenament
n segmente, minimiznd impuritile la fiecare pas. Variabila dependent i variabilele
independente pot fi cantitative sau categoriale, partajarea este binar (numai n dou
subgrupe).

CHAID - nod ce genereaz un arbore de decizie utiliznd statistica 2 pentru
realizarea partajrii optime. Variabila dependent i variabilele independente pot fi
cantitative sau categoriale, partajarea poate fi non-binar.

QUEST - Variabila dependent trebuie s fie categorial iar variabilele
independente pot fi cantitative sau categoriale, partajarea este binar.

Capitolul 5 60
C5.0 - partajarea optim se face aplicnd metoda ctigului maxim de informaie.
Variabila dependent trebuie s fie categorial.


Un arbore de decizie se poate genera automat, lasnd algoritmul s aleag cea mai bun
partajare la fiecare nivel sau interactiv.
Exemplificm exemplul Stream1_Vremea cu datele din tabelul de mai sus i care au fost
introduse n fiierul SPSS Arbori de decizie1.sav. Alegem crearea interactiv a arborelui de
decizie.



Acestui fiier i s-a ataat nodul CRT din seciunea Modeling.


Arbori de decizie 61

Prin activarea butonului Use custom settings din seciunea Fields putem specifica n Target
variabila dependent (categorial) iar n Inputs variabilele predictoare (independente).
Din seciunea Model alegem opiunea Interactive Tree.



Prin apsarea butonului Execute apare fereastra de construire interactiv a arborelui:



Cu $R-Y a fost notat variabila dependent (target) Joac. A fost generat nodul rdcin. Cu
butonul se pot afia etichetele valorilor. Comanda Tree poate declana urmtoarele
opiuni:
Grow Tree genereaz toate nodurile arborelui
Grow Tree One Level genereaz un nivel
Grow Branch genereaz toate ramurile de sus n jos de la nodul selectat
Grow Branch One Level genereaz ramurile unui nivel de la nodul selectat
Grow Branch with Custom Split genereaz un nivel, de la nodul selectat, avnd
posibilitatea de a indica variabila independent n funcie de care s se realizeze
construcia nodurilor. Fereastra Define Split ne permite alegerea altui predictor
activnd butonul Predictors.... Dac dorim s pstrm predictorul indicat de sistem
Capitolul 5 62
dar s-i modificm condiiile, selectm Custom. Se declaneaz execuia cu
butonul Grow. n fereastra Select Predictor, coloana Improvement, se afieaz
valoarea n funcie de care alegem predictorul cel mai bun pentru generarea unui
nou nivel. Dac se utilizeaz metoda CHAID, testul 2, se alege valoarea cea mai
mic (de fapt p-value): dac se utilizeaz metoda C&RT se alege valoarea cea mai
mare (cea mai mare reducere a impuritilor dintre nodul tat i nodul fiu).

Pentru exemplul nostru metoda este C&RT i Improvement ul se poate calcula
cu Indicele Gini, Twoing sau Ordered declannd butonul Expert.







Acest lucru l putem concentra n tabelul:

Arbori de decizie 63









Indicele GINI msoar gradul de concentrare al valorilor lui Y

2
1
.
1 ) (

=
|

\
|
=
p
i
i
n
n
Y I

p numrul modalitilor lui Y
q numrul nodurilor n care se face mpeirea
= |

\
|
|

\
|
=
2 2
14
5
14
9
1 ) (Y I 0,459

Indicele GINI condiional
|
|

\
|
|
|

\
|
=

= =
p
i j
ij
q
j
j
n
n
n
n
X Y I
1
2
. 1
.
1 ) / (

=
|
|

\
|
|

\
|
|

\
|
+
|
|

\
|
|

\
|
|

\
|
=
2 2 2 2
10
5
10
5
1
14
10
4
0
4
4
1
14
4
) / ( X Y I 0,357
Ameliorarea concentrrii = = ) / ( ) ( X Y I Y I Gini
split
0,459 0,357 = 0,102
( cea mai mare diferen ntre distribuia marginal i distribuia condiional)



X1 - Vremea Total Y - Joac
acoperit soare+ploaie
Da 4 5 9
Nu 0 5 5
Total 4 10 14
Capitolul 5 64
Twoing - se msoar diferenele dintre noduri, nodul stng i nodul drept, pentru
fiecare din modalitile variabilei dependente Y. C&RT construiete noduri binare. Se
alege valoarea care maximizeaz acest criteriu.

2
1 2 .
2
1 .
1 2 . 1 .
|
|

\
|
=

=
p
i
i i
n
n
n
n
n
n
n
n
T


=
|
|

\
|
+ =
2
10
5
4
0
10
5
4
4
14
10
14
4
T 0,204

Ordered se utlizeaz atunci cnd variabila dependent Yeste ordinal.

Least Squared Deviation LSD se aplic atunci cnd variabila Y este cantitativ
continu (range). Se alege valoarea maxim.
LSD = Dispersia total(Y) -
n
n
1 .
(Dispersia n nodul stng) -
n
n
2 .
(Dispersia n nodul drept)

Remove One Level terge nodurile de pe un nivel

Gains - dac se execut clic pe butonul Gains obinem informaii statistice pentru nodurile
terminale ale arborelui. n fereastra de mai jos s-a ales 1 (Joac = da) n caseta Target
category.



Node: n reprezint numrul total de nregistrri din fiecare nod
Node (%) reprezint ponderea numrului nregistrrilor din fiecare nod n numrul total al
nregistrrilor (4/14 x 100 = 28,57%)
Gain: n numrul de apariii ale valorii 1 (Joac = da) n fiecare nod
Gain (%) reprezint ponderea valorilor 1 din fiecare nod n numrul total al valorilor 1 din
ntreg arborele (4/9 x 100 = 44,44% i 5/9 x 100 = 55,56%)
Arbori de decizie 65
Response (%) reprezint ponderea valorilor 1 din fiecare nod n numrul total al valorilor din
acel nod (4/4 x 100 = 100% i 5/10 x 100 = 50%)
Index (%) reprezint raportul dintre proporia valorilor 1 la nivelul nodului "fiu" i proporia
valorilor 1 la nivelul nodului "tat" pentru fiecare nod n parte. La nivelul nodului "tat"
proporia valorilor 1 este 9/14 x 100 = 64,285%. Indexul pentru fiecare nod se obine
100/64,285 x 100 = 155,56% i 50/64,285 x 100 = 77,78%).



Efectund clic pe butonul Risks obinem Risk Estimate = 0,357 = 5/14.
Risk Estimate = (numrul total de obiecte - suma obiectelor de pe diagonala principal) /
numrul total de obiecte
Riscul descrete pe msur ce arborele crete.
Pentru a vizualiza nregistrrile care ndeplinesc condiiile unui nod se selecteaz nodul i se
execut comanda Generate Select Node.


Nodul 2 necesit partiionare i s-a ales variabila X4 Vnt.

Capitolul 5 66


Cu butoanele:
- se obine arborele cu frecvenele fiecrui nod;
- se obine arborele cu graficul frecvenelor fiecrui nod;
- se obine arborele cu cu frecvenele i graficul frecvenelor fiecrui nod;
- orientare de sus n jos
- orientare de la stnga la dreapta
- orientare de la dreapta la stnga

Dup generarea arborelui avem posibilitatea s generm modelul alegnd comanda
din care alegem opiunea Generate Model.... De asemenea putem genera setul
de reguli de decizie alegnd opiunea Rule Set... Modelul apare cu numele Vremea1 iar setul
de reguli cu numele Vremea RS.




Arbori de decizie 67



Dac executm dblu clik pe nodul VremeaRS obinem setul de reguli:



Dac alegem comanda din aceast fereastr se poate genera Rule Trace Node.



Capitolul 5 68
Exemplu News Service Sales (C&RT)
5
. Acest exemplu aplic C&RT n domeniul
marketingului i se refer la preferina consumatorilor pentru un nou serviciu de televiziune
prin cablu. Variabilele predictor sunt : vrsta, genul, ani de studii, categoria de venit, numrul
orelor de vizionare la TV pe zi, numrul de copii. Variabila dependent (target) este
Newschan (apeleaz sau nu la acest serviciu de televiziune). Acest exemplu folosete fiierul
Clementine mou_newschan.str care ncarc datele dintr-un fiier SPSS Nou_NewsChan.sav.

Crearea arborelui

Se plaseaz pe suprafaa de lucru un nod de tip sursa datelor prin care se va ncrca
fiierul SPSS Nou_NewsChan.sav



Se conecteaz un nod Type care se activeaz i se selecteaz Read Values. Se
selecteaz variabila NEWSCHAN i se declar Flag i direcia Out (fiind variabila
dependent). Toate celelalte variabile vor fi cu direcia In adic variabile predictoare (factori de
influen).




5
Clementine 10.0 Users Guide
Arbori de decizie 69
Type node se conecteaz cu un nod C&RT din seciunea Modeling , se selecteaz
Interactive Tree din fereastra Model



Cu butonul Expert se deschide fereastra n care se selecteaz Mode Expert, Prune
tree i Use standard error rule. Se stabilete valoarea 0,003 pentru Minimum
change in impurity.




Clic pe butonul Stopping i se trec valorile din figura alturat

Capitolul 5 70



clic pe



se execut Grow Tree and Prune

Examinarea arborelui

Se observ c s-au obinut ase nivele i ase noduri terminale. Dac selectm un nod ne-
terminal i tragem de linia de jos a ferestrei putem vizualiza grila cu regulile acelui nod. n
figura de mai jos s-a selectat nodul rdcin.
Arbori de decizie 71


Cu butonul Gains i Target category egal 1, obinem urmtoarele informaii:


Nodul 2 (67,9%) i 27(72%) au cea mai mare valoare pentru Index(%). Nodul al crui index
este mai mare dect 100% indic faptul c exist o mai mare ans ca s se gseasc
respondeni ce accept oferta serviciului TV prin selectarea nregistrrilor corespunztoare
acestui nod dect dac am selecta aleator nregistrrile din ntregul eantion.

Pentru a vedea graficul cu opiunea Lift se alege butonul Quantiles i din aceast
categorie Decile (se execut nti cu opiunea Gains i apoi cu Lift). Acest grafic
afieaz valorile din coloana Index(%) i arat c se pot selecta n top pna la maxim
50% din nregistrri nainte ca rata de rspuns s scad semnificativ.


Capitolul 5 72



Generarea modelului i a nodului cu scoruri


generarea modelului



se genereaz modelul pe suprafaa de lucru i se conecteaz la nodul Type

Arbori de decizie 73


se execut clic pe nodul NEWSCHAN1 iar cu butonul Settings se bifeaz Calculate
confidences i Rule identifier. Se ataeaz un nod Table prin care se pot vizualiza
nregistrrile posibile cu rspuns Da (accept noul serviciu de tv).



Coloana $R-NEWSCHAN afieaz valorile previzionate. Dac nregistrarea conine valoarea
1, acea persoan este un potenial respondent Da la aceast ofert.

Capitolul 5 74


Dac se dorete salvarea modelului pentru a fi aplicat altui set de date se execut clic-dreapta
pe nodul NEWSCHAN1 i se selecteaz Add to Models Palette. Cu clic pe modelul din
Models palette se execut Save Model.





Generarea unui nod de selecie - Generating a Select Node

Se poate genera un nod care s selecteze nregistrrile din nodul 2 i 27 i care s conin
persoanele probabile s rspund Da la aceast ofert. Se selecteaz nodul 2 i cu Shift nodul
27, se alege Generate , Select Node.
Arbori de decizie 75





n viitor se poate aplica acest nod de selecie altui set de date.
Dac modelul a fost salvat ntr-un director, poate fi lansat n execuie prin dublu-clic pe
pictograma modelului. Se deschide produsul Clementine iar n fereastra din dreapta, la
seciunea Models apare modelul care poate fi adus pe suprafaa de lucru i activat.

Вам также может понравиться