Академический Документы
Профессиональный Документы
Культура Документы
= =
=
p
i
q
j ij
ij ij
calc
nt
nt n
1 1
2
2
) (
n care:
ij
n
sunt valorile observate
ij
nt
sunt valorile teoretice (ateptate, acele valori care ar satisface
condiiile de independen)
p numrul liniilor
q numrul coloanelor
Valoarea
2
calc
se compar cu valoarea teoretic
2
t
, extras din tabelul
funciei
2
, pentru nivelul de semnificaie ales i ) 1 ( ) 1 ( q p grade de
libertate.
Dac valoarea
2
calc
>
2
t
, atunci, se respinge ipoteza H
0
i se admite alternativa
ei H
1
, variabilele sunt dependente.
P(
2 2
t calc
< )
H
0
2
t
H
1
2
calc
poate lua valori de la 0 la +. Pentru a putea face comparaii ntre
combinaii de variabile cu numr diferit de grade de libertate se poate recurge
la normalizare calculnd valoarea t a lui Tschuprow, ] 1 ; 0 [ t
) 1 )( 1 (
2
=
q p n
t
calc
Pentru exemplul nostru, se alege combinaia pentru care nivelul de semnificaie
Asymp. Sig. este cel mai mic. n cazul nostru prima variabil de segmentare va
fi Vremea care va produce trei noduri " fiu " potrivit celor trei modaliti;
Legturi ntre
Pearson Chi-Square
Value df
Asymp. Sig.
(2-sided)
Joaca * Vremea 3.547 2 0.170
Joaca * temperatura (grade F) 11.822 11 0.377
Joaca * umiditate (%) 6.015
8 0.646
Joaca * vant
0.933
1 0.334
Capitolul 5 52
nodul de la nivelul doi Vremea = soare, conine 5 persoane (nregistrri) din care
2 joac i trei nu joac, ceea ce nseamn c la nivelul acestui nod nu avem
omogenitate. El va genera noduri " fiu ". La fel se va ntmpla i cu nodul Vremea
= ploaie;
nodul de la nivelul doi Vremea = acoperit, conine 4 persoane (nregistrri) care
joac, ceea ce nseamn c la nivelul acestui nod avem omogenitate. El este un
nod " pur " i devine o frunz a arborelui;
pentru nodul de la nivelul doi Vremea = soare se alege variabila de segmentare
astfel: se selecteaz cele 5 nregistrri punnd condiia de mai sus apoi se aplic
testul 2 combinnd variabila dependent Joac cu celelalte trei
Nivelul de semnificaie cel mai mic se ntlnete la combinaia Joaca * umiditate,
variabila de segmentare va fi Umiditate.
variabila Umiditate este continu, de aceea se impune alegerea unui punct de
tiere astfel: valorile umiditii (pentru cele 5 observaii) sunt sortate pe axa
umiditate, un prim punct de tiere este mediana dintre 70 i 85, adic valoarea
77,5, se mpart cele 5 observaii n dou grupe n funcie de aceast condiie de
umiditate, se aplic testul 2 i se calculeaz valoarea normalizat t Tschuprow, se
continu cu alegerea urmtoarelor puncte de tiere (dintre 85 i 90, dintre 90 i 95)
i pentru fiecare situaie se calculeaz valoarea normalizat t Tschuprow. Cea mai
bun decupare o realizeaz valoarea 77,5 (combinaia cu valoarea normalizat t
cea mai mare), rezultnd dou noduri pure (frunze). Se poate lua ca punct de tiere
fiecare valoare a variabilei analizate.
Legturi ntre
Pearson Chi-Square
Value df
Asymp. Sig.
(2-sided)
Joaca * temperatura (grade F) 5 4 0.287
Joaca * umiditate (%) 5
3 0.172
Joaca * vant
0.139
1 0.709
Arbori de decizie 53
nodul de la nivelul doi Vremea = ploaie, conine 5 persoane (nregistrri) din
care 3 joac i 2 nu joac, ceea ce nseamn c la nivelul acestui nod nu avem
omogenitate. El va genera noduri " fiu ". Se alege variabila de segmentare astfel:
Se alege ca varibil de segmentare Vant (Asymp. Sig. cel mai mic), variabil ce
genereaz dou noduri pure (frunze).
5.1.2 Msuri de evaluare a segmentrii (partiionrii)
Msurile de evaluare a segmentrii (partiionrii) pot fi:
statistice;
rezultate din teoria informaiei
Situaii posibile
3
3
Rakotomalala Ricco, Les methodes dInduction dArbres, Laboratoire ERIC, Lyon, 2005
Legturi ntre
Pearson Chi-Square
Value df
Asymp. Sig.
(2-sided)
Joaca * temperatura (grade F) 5 4 0.287
Joaca * umiditate (%) 2,222
2 0.329
Joaca * vant
5
1 0.025
Capitolul 5 54
Msuri statistice - 2 i normalizarea sa (CHAID)
Fie tabelul de contingen:
Y X
1
. . X
j
. . X
q
Total
Y
1
.
.
Y
i
.
.
Y
p
n
11
.
.
n
i1
.
.
n
p1
.
.
.
. n
1j
.
.
n
ij
.
.
n
pj
.
.
.
.
.
.
n
1q
.
.
n
iq
.
.
n
pq
n
1
.
.
.
n
i.
.
.
n
p
.
Total n
.1
. . n
.j
. . n
.q
n
Exemplul S1 distribuie pur n frunze. Considerm variabilele: Y Cumprai produsul
A ? i X Ai vzut reclama la prod. A ? cu modalitile da, nu.
Value df
Asymp. Sig. (2-
sided)
Pearson Chi-Square 8.000
a
1 .005
N of Valid Cases 8
b. Computed only for a 2x2 table
Valoarea normalizat t (Tschuprow) 1
) 1 2 )( 1 2 ( 8
8
=
= ne indic dependena total dintre
Y i X i constituirea frunzelor pure:
cumpara * reclama Crosstabulation
reclama
nu da Total
da 0 4 4
nu 4 0 4
cumpara
Total 4 4 8
Cumpr Y
Y1 = da = 4 50%
Y2 = nu = 4 50%
Total = 8 100%
Reclama X1 = da = 4 50%
din care
Y1 = da = 4 100%
Y2 = nu = 0 0%
Total = 4 100%
Reclama X2 = nu = 4 50%
din care
Y1 = da = 0 0%
Y2 = nu = 4 100%
Total = 4 100%
Arbori de decizie 55
Exemplul S2 fr modificarea distribuiei
Value df
Asymp. Sig. (2-
sided)
Pearson Chi-Square .000
a
1 1.000
N of Valid Cases 8
b. Computed only for a 2x2 table
Valoarea normalizat t (Tschuprow) 0
) 1 2 )( 1 2 ( 8
0
=
=
cumpara * reclama Crosstabulation
reclama
nu da Total
da 2 2 4
nu 2 2 4
cumpara
Total 4 4 8
Cumpr Y
Y1 = da = 4 50%
Y2 = nu = 4 50%
Total = 8 100%
Reclama X1 = da = 4 50%
din care
Y1 = da = 2 50%
Y2 = nu = 2 50%
Total = 4 100%
Reclama X2 = nu = 4 50%
din care
Y1 = da = 2 50%
Y2 = nu = 2 50%
Total = 4 100%
Capitolul 5 56
Exemplul S3 distribuie intermediar
Value df
Asymp. Sig. (2-
sided)
Pearson Chi-Square 4.800
a
1 .028
N of Valid Cases 8
b. Computed only for a 2x2 table
Valoarea normalizat t (Tschuprow) 6 , 0
) 1 2 )( 1 2 ( 8
8 , 4
=
=
Teoria informaiei Ctigul informaional (C4.5)
Entropie Shannon cantitatea de informaie pentru cunoaterea valorilor lui Y
|
\
|
=
=
n
n
n
n
Y E
i
p
i
i .
2
1
.
log ) (
Entropie condiional cantitatea de informaie pentru cunoaterea valorilor lui Y
condiionate de valorile lui X
|
|
\
|
=
= = j
ij
p
i j
ij
q
j
j
n
n
n
n
n
n
X Y E
.
2
1 . 1
.
log ) / (
cumpara * reclama Crosstabulation
reclama
nu da Total
da 0 4 4
nu 3 1 4
cumpara
Total 3 5 8
Cumpr Y
Y1 = da = 4 50%
Y2 = nu = 4 50%
Total = 8 100%
Reclama X1 = da = 5 62%
din care
Y1 = da = 4 80%
Y2 = nu = 1 20%
Total = 5 100%
Reclama X2 = nu = 3 38%
din care
Y1 = da = 0 0%
Y2 = nu = 3 100%
Total = 3 100%
Arbori de decizie 57
Ctigul de informaie - ) / ( ) ( ) / ( X Y E Y E X Y G =
Ctigul de informaie normalizat (Gain Ratio) innd cont de distribuia marginal
a lui X
) (
) / (
) / (
X E
X Y G
X Y GR =
n care
|
|
\
|
=
=
n
n
n
n
X E
j
q
j
j .
2
1
.
log ) (
Pentru situaiile de mai sus se ntlnesc valorile:
Gain Ratio
=
=
=
3 575 , 0
2 0
1 1
S pentru
S pentru
S pentru
Atunci cnd se alege variabila de segmentare se analizeaz toate combinaiile variabilei
dependente cu variabilele de segmentare candidate i se alege ctigul de informaie Gain
Ratio cel mai mare.
Indicele de concentrare (CART)
Indicele GINI msoar gradul de concentrare al valorilor lui Y
2
1
.
1 ) (
=
|
\
|
=
p
i
i
n
n
Y I
p numrul modalitilor lui Y
q numrul nodurilor n care se face mpeirea
Indicele GINI condiional
|
|
\
|
|
|
\
|
=
= =
p
i j
ij
q
j
j
n
n
n
n
X Y I
1
2
. 1
.
1 ) / (
Ameliorarea concentrrii ) / ( ) ( X Y I Y I Gini
split
= .
Pentru situaiile de mai sus se ntlnesc valorile:
D
=
=
=
3 3 , 0
2 0
1 5 , 0
S pentru
S pentru
S pentru
Msura de clasificare greit (misclassification measure) este un indice ce msoar eroarea
de clasificare care se poate face la un nod utiliznd o anumit partiionare i este dat de
formula:
( max 1 ) (
j
i I = proporia de obiecte din clasa j / totalul clasei j)
Vom alege partiionarea care minimizeaz eroarea.
Capitolul 5 58
Stabilirea mrimii arborelui
Procesul de partiionare continu pn cnd toate nodurile terminale devin pure. Acest lucru
poate conduce la situaia ca numrul obiectelor din aceste noduri (frunze) s fie prea mic sau
arborele s fie prea mare.
Determinarea mrimii optime se poate face prin:
pre-pruning se oprete creterea arborelui n timpul procesului de inducie prin
stabilirea unor reguli de Stop. De exemplu, n metoda CHAID, la nivelul nodului ce
urmeaz a se segmenta, se alege un nivel de semnificaie cu care se va compara nivelul de
semnificaie p-value al testului 2. Dac p-value< nivelul de semnificaie se accept
segmentarea, dac nu se oprete segmentarea (dac p-value = 0,025 i nivelul de
semnificaie = 0,05 sau 5% se accept segmentarea; dac p-value = 0,025 i nivelul de
semnificaie = 0,01 sau 1% se respinge segmentarea ).
Uzual, sunt utilizate dou reguli de stop:
- minimul n, se refer la condiia de Stop care specific un numr minim de obiecte
care s fie coninute n nodurile terminale. n aceste condiii, divizarea unui nod ia
sfrit atunci cnd fie nodul este pur, fie nu conine mai multe obiecte dect
numrul specificat;
- proporia de obiecte, se refer la condiia de Stop care impune ca divizarea unui
nod ia sfrit atunci cnd fie nodul este pur, fie nu conine mai multe obiecte dect
o proporie (procent) minim din mrimea uneia sau mai multor clase.
post-pruning aranjarea ulterioar, proces ce se desfoar de jos n sus prin
cuantificarea erorii de clasificare ( se poate renuna la ramificaiile unui nod, el devenind
frunz )
Extragerea regulilor de clasificare din arborii de decizie
Drmul ce leag o frunz de rdcina arborelui poate fi considerat o regul de predicie de tip
atribut-valoare "Dac premisa... atunci concluzia...".
n exemplul Joac n funcie de condiiile meteo se pot desprinde urmtoarele reguli:
Nr.crt. Premisa Concluzia
1 Vremea = soare i Umiditate < 77,5 Joac = Da
2 Vremea = soare i Umiditate 77,5 Joac = Nu
3 Vremea = acoperit Joac = Da
4 Vremea = ploaie i Vnt = Da Joac = Nu
5 Vremea = ploaie i Vnt = Nu Joac = Da
Fuzionarea nodurilor rezultate n urma segmentrii
CHAID propune un procedeu original
4
ce verific proximitatea profilelor nodurilor " fiu "
rezultate din segmentare i fuzionarea iterativ a nodurilor ce vor produce frunze, utiliznd
testul de echvalen distribuional 2 (dac profilele a dou noduri " fiu " sunt apropiate ntre
ele se poate realiza fuzionarea).
4
Rakotomalala Ricco, Les methodes dInduction dArbres, Laboratoire ERIC, Lyon, 2005, pag.177
Arbori de decizie 59
+
|
|
\
|
=
p
i i i
i i
n n
n n
n
n
n
n
1
2 . 1 .
2 1
2
2 .
2
1 .
1
2
cu (p-1) grade de libertate
Exemplu, fie nodurile a, b, c, fixm riscul de prima spe pentru testul echivalenei
distribuionale de 10%.
Noduri Distribuia CHI-2 p-value Rezultat
a & b (2 ; 3) i (4 ; 0) 3,60 0,058
a & c (2 ; 3) i (3 ; 2) 0,40 0,527 Fuziune
a & d (4 ; 0) i (3 ; 2) 2,06 0,151
Combinaiile (a & c) i (a & d) pot fuziona deoarece au p-value mai mare dect 0,10 (se
apropie de echivalena distribuional ipoteza H0). Distribuiile cele mai apropiate sunt (a &
c), noduri ce vor fuziona sub numele A. Notm nodul b cu B. La pasul doi se analizeaz
fuzionarea dintre A i B.
Noduri Distribuia CHI-2 p-value Rezultat
A & B (5 ; 5) i (4 ; 0) 3,11 0,078
Se constat c p-value este mai mic dect 0,10 se oprete fuzionarea.
5.2 Clementine arbori de decizie
Metodele se difereniaz n funcie de tipul variabilelor: dac variabila dependent este
cantitativ (range) se genereaz un arbore de regresie; dac variabila dependent este
calitativ (categorial) se genereaz un arbore de clasificare.
Classification and Regression Tree (Arbore de clasificare i regresie) nod
ce genereaz un arbore de decizie cu care se pot prevedea sau clasifica valori viitoare. Metoda
utilizeaz o partiionare recursiv prin mprirea nregistrrilor unei mulimi de antrenament
n segmente, minimiznd impuritile la fiecare pas. Variabila dependent i variabilele
independente pot fi cantitative sau categoriale, partajarea este binar (numai n dou
subgrupe).
CHAID - nod ce genereaz un arbore de decizie utiliznd statistica 2 pentru
realizarea partajrii optime. Variabila dependent i variabilele independente pot fi
cantitative sau categoriale, partajarea poate fi non-binar.
QUEST - Variabila dependent trebuie s fie categorial iar variabilele
independente pot fi cantitative sau categoriale, partajarea este binar.
Capitolul 5 60
C5.0 - partajarea optim se face aplicnd metoda ctigului maxim de informaie.
Variabila dependent trebuie s fie categorial.
Un arbore de decizie se poate genera automat, lasnd algoritmul s aleag cea mai bun
partajare la fiecare nivel sau interactiv.
Exemplificm exemplul Stream1_Vremea cu datele din tabelul de mai sus i care au fost
introduse n fiierul SPSS Arbori de decizie1.sav. Alegem crearea interactiv a arborelui de
decizie.
Acestui fiier i s-a ataat nodul CRT din seciunea Modeling.
Arbori de decizie 61
Prin activarea butonului Use custom settings din seciunea Fields putem specifica n Target
variabila dependent (categorial) iar n Inputs variabilele predictoare (independente).
Din seciunea Model alegem opiunea Interactive Tree.
Prin apsarea butonului Execute apare fereastra de construire interactiv a arborelui:
Cu $R-Y a fost notat variabila dependent (target) Joac. A fost generat nodul rdcin. Cu
butonul se pot afia etichetele valorilor. Comanda Tree poate declana urmtoarele
opiuni:
Grow Tree genereaz toate nodurile arborelui
Grow Tree One Level genereaz un nivel
Grow Branch genereaz toate ramurile de sus n jos de la nodul selectat
Grow Branch One Level genereaz ramurile unui nivel de la nodul selectat
Grow Branch with Custom Split genereaz un nivel, de la nodul selectat, avnd
posibilitatea de a indica variabila independent n funcie de care s se realizeze
construcia nodurilor. Fereastra Define Split ne permite alegerea altui predictor
activnd butonul Predictors.... Dac dorim s pstrm predictorul indicat de sistem
Capitolul 5 62
dar s-i modificm condiiile, selectm Custom. Se declaneaz execuia cu
butonul Grow. n fereastra Select Predictor, coloana Improvement, se afieaz
valoarea n funcie de care alegem predictorul cel mai bun pentru generarea unui
nou nivel. Dac se utilizeaz metoda CHAID, testul 2, se alege valoarea cea mai
mic (de fapt p-value): dac se utilizeaz metoda C&RT se alege valoarea cea mai
mare (cea mai mare reducere a impuritilor dintre nodul tat i nodul fiu).
Pentru exemplul nostru metoda este C&RT i Improvement ul se poate calcula
cu Indicele Gini, Twoing sau Ordered declannd butonul Expert.
Acest lucru l putem concentra n tabelul:
Arbori de decizie 63
Indicele GINI msoar gradul de concentrare al valorilor lui Y
2
1
.
1 ) (
=
|
\
|
=
p
i
i
n
n
Y I
p numrul modalitilor lui Y
q numrul nodurilor n care se face mpeirea
= |
\
|
|
\
|
=
2 2
14
5
14
9
1 ) (Y I 0,459
Indicele GINI condiional
|
|
\
|
|
|
\
|
=
= =
p
i j
ij
q
j
j
n
n
n
n
X Y I
1
2
. 1
.
1 ) / (
=
|
|
\
|
|
\
|
|
\
|
+
|
|
\
|
|
\
|
|
\
|
=
2 2 2 2
10
5
10
5
1
14
10
4
0
4
4
1
14
4
) / ( X Y I 0,357
Ameliorarea concentrrii = = ) / ( ) ( X Y I Y I Gini
split
0,459 0,357 = 0,102
( cea mai mare diferen ntre distribuia marginal i distribuia condiional)
X1 - Vremea Total Y - Joac
acoperit soare+ploaie
Da 4 5 9
Nu 0 5 5
Total 4 10 14
Capitolul 5 64
Twoing - se msoar diferenele dintre noduri, nodul stng i nodul drept, pentru
fiecare din modalitile variabilei dependente Y. C&RT construiete noduri binare. Se
alege valoarea care maximizeaz acest criteriu.
2
1 2 .
2
1 .
1 2 . 1 .
|
|
\
|
=
=
p
i
i i
n
n
n
n
n
n
n
n
T
=
|
|
\
|
+ =
2
10
5
4
0
10
5
4
4
14
10
14
4
T 0,204
Ordered se utlizeaz atunci cnd variabila dependent Yeste ordinal.
Least Squared Deviation LSD se aplic atunci cnd variabila Y este cantitativ
continu (range). Se alege valoarea maxim.
LSD = Dispersia total(Y) -
n
n
1 .
(Dispersia n nodul stng) -
n
n
2 .
(Dispersia n nodul drept)
Remove One Level terge nodurile de pe un nivel
Gains - dac se execut clic pe butonul Gains obinem informaii statistice pentru nodurile
terminale ale arborelui. n fereastra de mai jos s-a ales 1 (Joac = da) n caseta Target
category.
Node: n reprezint numrul total de nregistrri din fiecare nod
Node (%) reprezint ponderea numrului nregistrrilor din fiecare nod n numrul total al
nregistrrilor (4/14 x 100 = 28,57%)
Gain: n numrul de apariii ale valorii 1 (Joac = da) n fiecare nod
Gain (%) reprezint ponderea valorilor 1 din fiecare nod n numrul total al valorilor 1 din
ntreg arborele (4/9 x 100 = 44,44% i 5/9 x 100 = 55,56%)
Arbori de decizie 65
Response (%) reprezint ponderea valorilor 1 din fiecare nod n numrul total al valorilor din
acel nod (4/4 x 100 = 100% i 5/10 x 100 = 50%)
Index (%) reprezint raportul dintre proporia valorilor 1 la nivelul nodului "fiu" i proporia
valorilor 1 la nivelul nodului "tat" pentru fiecare nod n parte. La nivelul nodului "tat"
proporia valorilor 1 este 9/14 x 100 = 64,285%. Indexul pentru fiecare nod se obine
100/64,285 x 100 = 155,56% i 50/64,285 x 100 = 77,78%).
Efectund clic pe butonul Risks obinem Risk Estimate = 0,357 = 5/14.
Risk Estimate = (numrul total de obiecte - suma obiectelor de pe diagonala principal) /
numrul total de obiecte
Riscul descrete pe msur ce arborele crete.
Pentru a vizualiza nregistrrile care ndeplinesc condiiile unui nod se selecteaz nodul i se
execut comanda Generate Select Node.
Nodul 2 necesit partiionare i s-a ales variabila X4 Vnt.
Capitolul 5 66
Cu butoanele:
- se obine arborele cu frecvenele fiecrui nod;
- se obine arborele cu graficul frecvenelor fiecrui nod;
- se obine arborele cu cu frecvenele i graficul frecvenelor fiecrui nod;
- orientare de sus n jos
- orientare de la stnga la dreapta
- orientare de la dreapta la stnga
Dup generarea arborelui avem posibilitatea s generm modelul alegnd comanda
din care alegem opiunea Generate Model.... De asemenea putem genera setul
de reguli de decizie alegnd opiunea Rule Set... Modelul apare cu numele Vremea1 iar setul
de reguli cu numele Vremea RS.
Arbori de decizie 67
Dac executm dblu clik pe nodul VremeaRS obinem setul de reguli:
Dac alegem comanda din aceast fereastr se poate genera Rule Trace Node.
Capitolul 5 68
Exemplu News Service Sales (C&RT)
5
. Acest exemplu aplic C&RT n domeniul
marketingului i se refer la preferina consumatorilor pentru un nou serviciu de televiziune
prin cablu. Variabilele predictor sunt : vrsta, genul, ani de studii, categoria de venit, numrul
orelor de vizionare la TV pe zi, numrul de copii. Variabila dependent (target) este
Newschan (apeleaz sau nu la acest serviciu de televiziune). Acest exemplu folosete fiierul
Clementine mou_newschan.str care ncarc datele dintr-un fiier SPSS Nou_NewsChan.sav.
Crearea arborelui
Se plaseaz pe suprafaa de lucru un nod de tip sursa datelor prin care se va ncrca
fiierul SPSS Nou_NewsChan.sav
Se conecteaz un nod Type care se activeaz i se selecteaz Read Values. Se
selecteaz variabila NEWSCHAN i se declar Flag i direcia Out (fiind variabila
dependent). Toate celelalte variabile vor fi cu direcia In adic variabile predictoare (factori de
influen).
5
Clementine 10.0 Users Guide
Arbori de decizie 69
Type node se conecteaz cu un nod C&RT din seciunea Modeling , se selecteaz
Interactive Tree din fereastra Model
Cu butonul Expert se deschide fereastra n care se selecteaz Mode Expert, Prune
tree i Use standard error rule. Se stabilete valoarea 0,003 pentru Minimum
change in impurity.
Clic pe butonul Stopping i se trec valorile din figura alturat
Capitolul 5 70
clic pe
se execut Grow Tree and Prune
Examinarea arborelui
Se observ c s-au obinut ase nivele i ase noduri terminale. Dac selectm un nod ne-
terminal i tragem de linia de jos a ferestrei putem vizualiza grila cu regulile acelui nod. n
figura de mai jos s-a selectat nodul rdcin.
Arbori de decizie 71
Cu butonul Gains i Target category egal 1, obinem urmtoarele informaii:
Nodul 2 (67,9%) i 27(72%) au cea mai mare valoare pentru Index(%). Nodul al crui index
este mai mare dect 100% indic faptul c exist o mai mare ans ca s se gseasc
respondeni ce accept oferta serviciului TV prin selectarea nregistrrilor corespunztoare
acestui nod dect dac am selecta aleator nregistrrile din ntregul eantion.
Pentru a vedea graficul cu opiunea Lift se alege butonul Quantiles i din aceast
categorie Decile (se execut nti cu opiunea Gains i apoi cu Lift). Acest grafic
afieaz valorile din coloana Index(%) i arat c se pot selecta n top pna la maxim
50% din nregistrri nainte ca rata de rspuns s scad semnificativ.
Capitolul 5 72
Generarea modelului i a nodului cu scoruri
generarea modelului
se genereaz modelul pe suprafaa de lucru i se conecteaz la nodul Type
Arbori de decizie 73
se execut clic pe nodul NEWSCHAN1 iar cu butonul Settings se bifeaz Calculate
confidences i Rule identifier. Se ataeaz un nod Table prin care se pot vizualiza
nregistrrile posibile cu rspuns Da (accept noul serviciu de tv).
Coloana $R-NEWSCHAN afieaz valorile previzionate. Dac nregistrarea conine valoarea
1, acea persoan este un potenial respondent Da la aceast ofert.
Capitolul 5 74
Dac se dorete salvarea modelului pentru a fi aplicat altui set de date se execut clic-dreapta
pe nodul NEWSCHAN1 i se selecteaz Add to Models Palette. Cu clic pe modelul din
Models palette se execut Save Model.
Generarea unui nod de selecie - Generating a Select Node
Se poate genera un nod care s selecteze nregistrrile din nodul 2 i 27 i care s conin
persoanele probabile s rspund Da la aceast ofert. Se selecteaz nodul 2 i cu Shift nodul
27, se alege Generate , Select Node.
Arbori de decizie 75
n viitor se poate aplica acest nod de selecie altui set de date.
Dac modelul a fost salvat ntr-un director, poate fi lansat n execuie prin dublu-clic pe
pictograma modelului. Se deschide produsul Clementine iar n fereastra din dreapta, la
seciunea Models apare modelul care poate fi adus pe suprafaa de lucru i activat.