Вы находитесь на странице: 1из 30

&DStWXOR 

UEROHV GH GHFLVLyQ >'HFLVLRQ 7UHHV@

5 1 0 '% 6342")(&$

w W 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 b E G qB i b e 8 Rp8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8RR8RRR8RRRR8RRR8RRRR8RR6UYaIaY@aw

w 8 8 8 8 8 8 8 8 8 8 8 8 A TS Q q QS rSb q i Q e G b i E C f G A T Q I CB b A E ` 8 pR8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8R8RR8R8RR8vHUu#UtsDFYp&&Ye(HRghYe&dHUSHQRcD(6HaYW 8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8RR8RRR8RRRR8FqHRh&dHUSu#HAaeaax 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 b i eC e G A T Q qCe y8 8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RRRR8RRR8RRRR8RRR8RRRR8RqtCh&US@asc@Y 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 r q E i gS 8 "#!    

WXR8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8R8RR8R8RR8R8RR8RR8R8RR8RR8RRR8RRRR8RRR8RRRR8VHTUHRPHFD9@7 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 A S Q Q I G E CB A 8
2.1 REGLAS DE DIVISIN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.1.1 La ganancia de informacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.1.2 El criterio de proporcin de ganancia . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.3 El ndice de diversidad de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.1.4 MAX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.5 MAXDIF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2 REGLAS DE PARADA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3 REGLAS DE PODA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3.1 Poda por estimacin del error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.2 Poda por coste-complejidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.3 Poda pesimista . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.4 TESTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.5 INFORMACIN INCOMPLETA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.6 ALGORITMOS ESTNDAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.6.1 CLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.6.2 ID3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.6.3 ACLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.6.4 ASSISTANT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.6.5 CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.6.6 C4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.6.7 ID4 & ID5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.6.8 C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.6.9 SLIQ & SPRINT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 22 3.1 GENERALIZACIN DE REGLAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 29

Los rboles de decisin, tambin denominados rboles de clasificacin o de identificacin, sirven, como su propio nombre indica, para resolver problemas de clasificacin. La construccin de rboles de decisin es el mtodo de aprendizaje inductivo supervisado ms utilizado. Como forma de representacin del conocimiento, los rboles de decisin destacan por su sencillez. A pesar de que carecen de la expresividad de las redes semnticas o de la lgica de primer orden, su dominio de aplicacin no est restringido a un mbito concreto sino que pueden ser utilizados en diversas reas (desde aplicaciones de diagnstico mdico hasta juegos como el ajedrez o sistemas de prediccin meteorolgica). La construccin automtica de rboles de clasificacin puede servir de alternativa a los mtodos manuales de extraccin de conocimiento. Conseguir que un experto sobre un tema concreto explique cmo resuelve los problemas a los que se enfrenta es un trabajo arduo. Adems, cuanto mejor es el experto peor suele describir su conocimiento (la paradoja de la Ingeniera del Conocimiento [Waterman, 1986]). Por si todo esto fuese poco, los expertos en un tema no : Si se consultan suficientes expertos, se puede siempre estn de acuerdo ( confirmar cualquier opinin). Para que el aprendizaje inductivo (como proceso de generalizacin a partir de ejemplos concretos) sea correcto hemos de disponer de numerosos ejemplos. Si las conclusiones obtenidas no estn avaladas por muchos ejemplos, entonces la aparicin de errores en los datos (algo que es ms comn de lo deseable) podra conducir al aprendizaje de un modelo errneo. Un rbol de decisin es una forma de representar el conocimiento obtenido en el proceso de aprendizaje inductivo. Cada nodo interior del rbol contiene una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta) y cada hoja se refiere a una decisin (una clasificacin). Un rbol de este tipo puede usarse para clasificar un caso comenzando desde su raz y siguiendo el camino determinado por las respuestas a las preguntas de los nodos internos hasta que encontremos una hoja del rbol. Funciona como una aguja de ferrocarril: cada caso es dirigido hacia una rama u otra de acuerdo con los valores de sus atributos al igual que los trenes cambian de va segn su destino. Los rboles de clasificacin podrn ser til siempre que los ejemplos a partir de los que se desea aprender se puedan representar mediante un conjunto prefijado de atributos y valores (discretos o numricos). Sin embargo, no son de gran utilidad cuando la estructura de los ejemplos es variable ni, obviamente, para la prediccin de valores continuos.

r 0 ' t h)pu0ec4 )(X#4 pi b  ' W " r  r euyx q("wv s4ut9sf#e)0pi heqXpi he4g f#ecd b`)(X#" VT c t '  3 r i " c r  " 0 c  " 0  " 0 c c  "  a Y ' W U 0c "0"0g B(fb 5 1 0 '% 6342")(&$ kifged m l jh "#!    

RS664ID&G(CDB&97 A Q P P H F E A@ 8

5 1 0 '% 6342")(&$

"#!    

)F((byHbYAqpAY(HbGDpAAUutyb`x)wF(bdHbdH T wD cD R H ` ` @ S e G r @ ` B G U h U c @ H G H T D R U G T AAiAxFuxA)8ut bx)ubbdAef)F((HbyHbYAqpAY(b`Y)SFdHp)xA)S U T @ U T t H c S `D T HB S T wD cD R ` ` @ S e G r @ H D G D G B c S h U U `

P P A

t g " j 0  o  g "   " k   0 " '  h)4 rh)#iA%#o )ar)V b0 p   0 j g g o  g o v  "   0  g " o m"    g g o  g 0 hxAqFb0u4#9# 4ah)#pX#o b#4j"hqhqh) 4 g j k 0 0  0 0 $ t 0  j 0 o v g o  g " o 0 hF4i#4(0 lr&ds 4r6ikuhqh)04#6"# 4r6fe# p}   0 0 k y } |{ z w 0  g o p 0 " o 0 0 k j bry xh #)' iux h)4h)x# x00 0i g "  j 0 " g "   0   g " 0  t#hosvra0i)v06X ) '  yqsr| x#iYyv|bry x20r6Y 0 g 0 0 j 0 k %  "   " k o  " e| } | ~ } { z w  0 0 k " !   "  0 " o 0 j o  0  j 0  k o v g o  g 0 " o  0 g "  "  ###)' iiku& ds 4r#i(ikYhqh)#u#4jr d#" df

e  e r

P q P q P A P I

# ))vnv#v(v#ds  0a"a0#vr)d t " !    %  0 m p 0 " o  0 u " 0 0 0 p f t " !  0   0 o "o  0 ' #4q 0lj 4jl#o6#hspmnl4#ik4h)4h)6# 0i#i##hqf j p  0  0"  g 0 " "  g " j 0" g "       g  0 e du)F((byb`YAqpAY(vHYd9AdFD)((HGAGpA)S T wD cD R H ` H @ S e G r @ H B T H 7 U c G 8 R G D 8 B c T )F(RbdF) A(@AAdYAd(F()SBfqCDGBY)SFD)FDAUpAddH T wD U RD D c U@ R U U G U h c HB T U H@ H G GD c 8 e U c @ G S G h U G B G U R c P cS `UT DR @Hc T D 7UT B T )bAA)SF((R(HF(2SBYdHF9AAdHGYdH H c S c U R c S T r G U R D D c U @ H c @ U 8 @ H G S h S 8 e D @ H S BP H W e S B 8 e U H G U S D R R H @ b`)Ad2)F@AAdF) A(Rb)(R(2)aBfqCGBYU()(FDfSfqCDGBY@ffTbC(((F(H Q )F((Hbyb`YAqpArY(bx)wF((AGpA)(Rvb` T wD cD R ` H @ S e G @ H ` T D R R 8 B c T S H S97C)Sut @bsaqpiUAAA(4efaYdF9AAdGBYd4b)SYAbaSY)X)(A(VAA)SF(((F(H BD G U @ H r G U RD@ h H c H 8 g @ H H G S c SB T HD 7 U T H PT H H ` c B U ` H ` B T 8 WT S R @ H G U T D R R H@ Q
UTILIZANDO RBOLES DE DECISIN

Como alternativa a los sistemas clsicos basados en rboles de decisin, los algoritmos de la familia STAR (como INDUCE, AQ o CN2) obtienen reglas para discriminar elementos de una clase de los que no pertenecen a dicha clase (construyendo lo que algunos denominan, ]). incorrectamente, multi-rbol [

Una caracterstica interesante de los rboles de decisin es la facilidad con la que se pueden derivar reglas de produccin a partir de ellos. Esto es importante para facilitar la comprensin del modelo de clasificacin construido cuando el rbol de decisin es complejo. El algoritmo para la obtencin de las reglas de produccin derivadas del rbol es trivial: de cada camino desde la raz del rbol hasta un nodo hoja se deriva una regla cuyo antecedente es la conjuncin de los valores de los atributos de los nodos internos y cuyo consecuente es la decisin a la que hace referencia la hoja del rbol (la clasificacin realizada). Posteriormente, el conjunto de reglas derivado del rbol de decisin puede mejorarse generalizando aqullas reglas que incluyan condiciones irrelevantes para la clasificacin en su antecedente.

RESOLUCIN DE UN PROBLEMA DE CLASIFICACIN

H B B@ 8 (HGEFDCA97

En principio, se busca la obtencin de un rbol de decisin que sea compacto. Un rbol de decisin pequeo nos permite comprender mejor el modelo de clasificacin obtenido y, adems, es probable que el clasificador ms simple sea el correcto (se sigue la navaja o principio de economa de Occam: los entes no han de multiplicarse innecesariamente). Por desgracia, no podemos construir todos los posibles rboles de decisin derivados de un conjunto de casos de entrenamiento para quedarnos con el ms pequeo (dicho problema es NP-completo). La construccin de un rbol de decisin a partir del conjunto de datos de entrada se suele realizar de forma descendente mediante algoritmos greedy de eficiencia del orden , siendo el nmero de ejemplos de entrada. El mtodo de construccin de rboles de decisin mediante particionamiento recursivo del conjunto de casos de entrenamiento tiene su origen en el trabajo de Hunt a finales de los aos 50. El algoritmo divide y vencers [ ] es simple y elegante: Si existen uno o ms casos en el conjunto de entrenamiento y todos corresponden a una misma clase C, el rbol de decisin es una hoja que identifica a la clase C.

Si el conjunto de casos de entrenamiento queda vaco, tambin nos encontramos en una hoja del rbol. Sin embargo, la clasificacin adecuada ha de determinarse utilizando informacin adicional (vg: opta por la clase ms frecuente en el nodo padre). Cuando en el conjunto de entrenamiento hay casos de distintas clases, ste se divide en subconjuntos que sean o conduzcan a agrupaciones uniformes de casos (instancias de una misma clase). Se elige una pregunta basada en el valor de un atributo que tenga dos o ms respuestas alternativas mutuamente exclusivas Ri. El rbol de decisin consiste en un nodo que identifica la pregunta realizada del cual cuelgan tantos hijos como respuestas alternativas existan. El mismo mtodo utilizado para el nodo se usa recursivamente para construir los subrboles correspondientes a los hijos del nodo. A cada hijo Hi se le asigna el subconjunto de casos de entrenamiento correspondientes a la alternativa Ri.

En esta forma de construir los rboles de decisin de forma descendente y recursiva se encuentra el origen del acrnimo TDIDT [ ], que se utiliza para referirse a la familia completa de algoritmos de construccin de rboles de decisin. Cuando se construye un nodo se considera el subconjunto de casos de entrenamiento que pertenecen a cada clase( ). Si todos los ejemplos pertenecen a una clase o se verifica alguna , el nodo es una hoja del rbol. En caso contrario, se selecciona una pregunta basada en un atributo (usando una ), se divide el conjunto de entrenamiento en subconjuntos (mutuamente excluyentes) y se aplica el mismo procedimiento a cada subconjunto. A veces se podar el rbol obtenido: proceso de siguiendo alguna .

5 1 0 '% 6342")(&$

k ()

m su

)p

v kv y((

i lk

sqy(qsvzsXyxllp  ~{ }{ |{ q v us r q

9jj)p d

vi u hg9Vpedp f

C Q I IPcP D b` U S D U A Y F W U C P I I G ED A @ 8 RP6b6RRR6IXVa6R`&VH9XVSTQR664HF((4C&B97 sw)p uv xv wy(qwu uvupu w qv s q ss)xsauqtrp u wsqvlkosml u km i n u ik p pw)h 4 g "#!     u v w q v us q ssxsaqtrp &s#qig fd t g r ph e

Cualquier pregunta que divida el conjunto de casos de entrenamiento en al menos dos subconjuntos no vacos conducir a la construccin de un rbol de decisin. No obstante, el objetivo del proceso de construccin de rboles de decisin es obtener un rbol que revele informacin interesante a la hora de realizar predicciones. Cada posible pregunta ha de evaluarse mediante alguna heurstica y, dado que los algoritmos suelen ser greedy, sta desempea un papel esencial en la construccin del rbol (una vez que se ha escogido una pregunta para un nodo no se vuelven a considerar alternativas). Las heursticas estadsticas usadas intentan favorecer las divisiones que mejor discriminan unas clases de otras. Ejemplos muy conocidos de estas heursticas son la ganancia de informacin (ID3) o el ndice de diversidad de Gini (CART). Los criterios de divisin o ramificacin utilizados generalmente estn basados en medidas de la impureza de un nodo. La bondad de una particin es el decrecimiento de impureza que se consigue con ella. La maximizacin de la bondad de una particin, por tanto, equivale a la minimizacin de la impureza del rbol generado por la particin (ya que el rbol de partida cuya impureza se quiere reducir es el mismo para las distintas particiones analizadas). Una funcin de impureza es una funcin definida sobre el conjunto de las -uplas donde cada indica la probabilidad de que un caso recogido por un nodo del rbol sea de la clase . Como es lgico, . La funcin ha de poseer las siguientes propiedades: tiene un nico mximo en alcanza su mnimo en

...

y el valor de su mnimo es

es una funcin simtrica de

, ...,

La impureza de un rbol de decisin se obtiene a partir de la impureza de sus hojas o nodos terminales de la siguiente forma:

donde es la probabilidad de que un caso corresponda al nodo terminal y de dicho nodo terminal.

5 1 0 '% 6342")(&$

r Ac

( ) =

( ) ( )
es la impureza

wgh##yc rx ppg g

wgh##yc wgpph#g#yc r ppg xg r g x b b b r ghg g yc x pp x x

q d

iTd fd e

x u Tvw6d

s d

a V V S D S Q IG D @8 R`PVYQPXWUCUTRPHF(EBCA97 "#!     t r d gphATd hef cd q pgi g r Acd

Se intenta maximizar la ganancia de informacin obtenida al ramificar el rbol por un atributo minimizando la funcin :

=1

donde es el atributo por el que se ramifica, es la probabilidad de que el atributo tome su valor y es la entropa de clasificacin del conjunto de casos en los que el atributo toma su valor . La informacin transmitida en un mensaje depende de su probabilidad y puede medirse en bits como . Por ejemplo, si tenemos 256 posibles mensajes, la informacin transmitida por uno de ellos es de 8 bits. Cuando el logaritmo es neperiano la unidad de informacin se denomina y cuando el logaritmo es decimal, . La probabilidad de que un caso escogido al azar pertenezca a una clase es y la informacin que se obtiene es . La informacin que esperamos obtener al clasificar , un caso cualquiera del conjunto de casos de entrenamiento ser igual a cantidad a la que se denomina entropa del conjunto. La informacin necesaria para transmitir la divisin del conjunto de casos de , donde es la probabilidad de entrenamiento en subconjuntos ser igual a que un caso pertenezca a y es la entropa de clasificacin del conjunto . La ganancia de informacin que se produce al dividir en los subconjuntos ser por lo tanto igual a , siendo la entropa de . Al comparar posibles particiones del conjunto se evala la ganancia de informacin obtenida por cada una de ellas. Como H(T) es constante, nos basta con comparar , que se corresponde con la expresin de arriba. Esta heurstica suele favorecer la construccin de rboles de decisin con un grado de ramificacin muy elevado. Este hecho propici el desarrollo de la siguiente regla de divisin:

1 1 0 '% &342")(&$

w X H

wH

mlC#jh ki

y z wH

wH

X {

Xd X { { y z

uthp s o vjf77r

{ Xd RA { yz Xd {

X H w

=1

l k mC#ijhXg

{ Xd

( |

) log 2 (

) =

w fv

w fv

( )=

) ( |

h s utr

qp h

y dx

F e H B b a ` Y F U S P H F B F B D B 86 86 fPQdc&A4XPWVTBRQIGGGEC@A9975 v ig h { {Xd {X g {Xd yz { |b d B fH e AB mCk#ijXg l h "#!     p o q7n P


,

)
)

Aunque usando la ganancia de informacin se obtienen buenos resultados al construir rboles de decisin (vg: ), este criterio favorece a aqullas preguntas que tienen ms resultados posibles. Por ejemplo, si cada caso va acompaado de un atributo que lo identifica unvocamente, se elegir este atributo en la raz del rbol de forma que cada nodo hijo corresponder a un nico caso. Se ha obtenido la mxima ganancia de informacin posible pero el rbol de decisin construido no sirve de nada. Para normalizar de algn modo la ganancia obtenida podemos seguir usando resultados obtenidos en Teora de la Informacin. El contenido de un mensaje que nos indique la respuesta a la pregunta realizada (no la clase a la que pertenece cada caso) ser igual a . Con la ayuda de este valor podemos redefinir nuestra funcin de evaluacin:

=1

) log 2 (

Cuando la divisin realizada del conjunto de casos de entrenamiento es trivial, el denominador de es cercano a cero. Se ha de escoger el atributo que maximice el cociente R tal que su ganancia sea, al menos, tan grande como la ganancia media de todas las alternativas analizadas. Dado que en la prctica hemos de disponer de muchos ms casos de entrenamiento que clases diferentes haya, el criterio de proporcin de ganancia evitar la construccin de rboles de decisin que clasifiquen los casos utilizando su identificador. Se ha observado que el criterio de proporcin de ganancia tiende a la construccin de rboles poco balanceados, caracterstica que hereda de la regla de divisin de la que se deriva (la ganancia de informacin). Ambas heursticas se basan en una medida de entropa que favorece particiones del conjunto de entrenamiento muy desiguales en tamao cuando alguna de ellas es de gran pureza (todos los casos que incluye corresponden a una misma clase) aun siendo poco significativa (es decir, aun abarcando muy pocos casos de entrenamiento).

5 1 0 '% 6342")(&$

( )=

( )

=1

R R

) ( |

w v u tXe # yw v u Xe sXV s x t

hHgaffafdUbRHXGYXVWUTR66B##6HF6C7A97 eI E e e c B S a ` I E Q V Q G B S Q I G P I G E D B 8 @8 e pqiI S "#!     G

El ndice de diversidad de Gini trata de minimizar la impureza existente en los subconjuntos de casos de entrenamiento generados al ramificar por un atributo. La funcin empleada es la siguiente:

=1

=1

Como se puede apreciar, la expresin es muy parecida a la que tenamos al calcular la entropa de clasificacin: simplemente se ha sustituido el logaritmo de por el factor , que es igual a .

El ndice de Gini es una medida de la diversidad de clases en un nodo del rbol. Igual que las dos medidas heursticas anteriores (ganancia de informacin y criterio de proporcin de ganancia), el ndice de Gini es una medida de impureza muy utilizada en distintos algoritmos de construccin de rboles de decisin.

5 1 0 '% 6342")(&$

Eb U

E Eb U @ d

=1

( |

)=

) (

) = 1

v Vu

v Vu

( )=

) ( |

i s trh

rq i

S PS f D R R b S a ` D Y S D R D U S R PH F B8 @8 4QgTedcRQ4GTRXTXWVT4QIGDECA97

x yw

i ph r "#!     Eb U E

La minimizacin de la entropa (equivalente a la maximizacin de la ganancia de informacin) utilizada por Quinlan en ID3 trata de penalizar aquellas divisiones del conjunto de entrenamiento muy desordenadas. Como nuestro objetivo es la clasificacin, una medida de la bondad de un conjunto dado de casos de entrenamiento es la probabilidad de la clase ms comn (de hecho este es el trmino que aumenta menos la entropa del conjunto). En este caso, el objetivo perseguido ser la maximizacin de esta medida en los conjuntos generados al elegir un atributo para ramificar por l. La maximizacin de la funcin :

=1

El problema de maximizacin anterior se puede expresar como un problema de minimizacin utilizando la diferencia entre casos bien clasificados y casos mal clasificados como medida de la idoneidad de una ramificacin del rbol.

=1

Esto es completamente equivalente a la minimizacin del nmero de casos para los que se realiza una clasificacin incorrecta (considerando la clase ms comn la clasificacin correcta de un conjunto dado de casos), ya que al ser .

=1

5 1 0 '% 6342")(&$

( |

)=

( )=

) ( |

{ ~ z

w} {

p`s vp w`s rtG @SyrtG u x

q p

QrtG @u

p `s

7 xyrtG

q p

w`s vp

rtG u

p `s

{ |z

q p

( |

)=

i r h

r i r oblj h n mk

( )=

) ( |

t x yf

wv t

d f

( |

)=

e e

( )=

) ( |

t x ys

wv t

"h"gfQ c  d ed a % V W U  W   "   V U   "  0  R P bT"`YQ #YX %T)# T  SQI ` r`E q p 2i t us


,

t uf

hg i

"#!    

HFCA97 G E D B8 @8

( J.C. Cubero, 1998)

)
)

Para evitar que esta medida favorezca la construccin de rboles de decisin en cuya raz se utilice una clave primaria de la relacin (como sucede con la entropa en ID3), se puede redefinir la funcin K de forma que no se tengan en cuenta pequeas contribuciones debidas a muchos valores diferentes de un atributo:

={ |

{ (

)} }

donde S es un umbral establecido (equivalente a la relevancia mnima exigida a los itemsets en la generacin de reglas de asociacin) y es el nmero de casos correspondientes a la clase tales que el atributo toma su valor . Aunque parezca ms compleja la expresin, su clculo es casi directo. Teniendo en cuenta que y , donde es el nmero total de casos y es el nmero de casos que toman el valor del atributo , la funcin K es igual a:

={ |

{ (

)} }

El cdigo correspondiente a la evaluacin de la funcin K sera ms o menos as:


for (j=0; j<MaxJ; j++) { max = 0; for (k=0; k<MaxK; k++) if (info.clase[k][i][j]>max) max = n[k][i][j]; if (max>=S) K += max; } K /= N;

75 1 0 '% 6342")(&$

{ Hz

{ gz

( |

)=

o Hn

| s | yxvust r w u

f ge b d aEXVTR ` Y WU S

p Po

( )=

i k mlh

( |

Hy

f gd

gy

( |

)=

G HF c

p xwtusq i v r

f ge b d aEXVTR ` Y WU S n

G HF

IPG

( )=

) ( |

9 C ED8

BA 9

s r EDq

p i EDh

i @h

9 @8 Q Q ed   "#!     

Si no tenemos informacin incompleta, el factor ser igual para todos los atributos y podremos eliminarlo, con lo que la funcin de evaluacin ser una simple suma de valores. Cuando desconozcamos los valores de algunos atributos, el valor ser igual al nmero de casos para los que est definido el atributo . Sin embargo, se observa que utilizando esta funcin heurstica favorecemos en exceso los rboles con un grado de ramificacin mnimo, incluso cuando el atributo por el que se ramifica es irrelevante para la clasificacin (hemos pasado de un extremo a otro). Esto se podra solventar con facilidad modificando la funcin heurstica de la siguiente forma:

={ |

{ (

)} }

Teniendo en cuenta que y , donde es el nmero total de casos y es el nmero de casos que verifican X, la funcin K podemos expresarla como:

={ |

{ (

)} }

Intuitivamente, la sumatoria de la expresin de arriba estima cuntos casos se clasifican correctamente de cuantos se encuentran en el conjunto de entrenamiento (al dividir por N obtenemos la proporcin de casos supuestamente bien clasificados). El factor se utiliza para favorecer la ramificacin del rbol por atributos que consiguen un rbol ms plano (ms ramas interesantes). Utilizando el umbral S se evita seleccionar atributos que sean claves primarias. La utilizacin de carece de una base terica. Es ms, aunque en algunos ejemplos funciona bien (llega a conseguir mejores resultados que el criterio de proporcin de ganancia), no garantiza la obtencin de buenos rboles de decisin.

55 1 0 '% 6342")(&$

} &|

z 9y

z ry

( |

)=

9l m

{ r { xwuxs q v t

q rp g i fRcaYW e d b` X

nom

( ) =

h k RQg

( |

@8 C C Ad DB DB D

DB ed DB  CDB D C 8 C

( |

)=

9S T

u yxv t w

q rp g i fRcaYW e d b` X

T 9S

( ) = #

) ( |

F P RQE

IH F

A97 @8

CDB l

r q RQp

u t RQs

V V 6f } &| "#!     B f 7   ~

Retomemos de la expresin correspondiente a la funcin , que obtena resultados equivalentes a los obtenidos en la formulacin inicial de la funcin . La definicin inicial de D era la siguiente:
,

=1

Utilizando esta definicin, se consigue una buena regla de divisin para la construccin de rboles de decisin si incorporamos la idea del umbral mnimo de soporte S a la funcin D. Se obtiene una buena heurstica sin tener que introducir artificialmente el factor #U:

={ |

{ (

) (

)} }

={ |

{ (

) (

)} }

Obsrvese el parecido de esta regla heurstica con el ndice de diversidad de Gini: la sumatoria se ha sustituido por el mximo y el producto por una diferencia. La similaridad es notable y puede que no sea casual.

75 1 0 '% (6342")(&$

} U|

} U|

U| }

( |

)=

) (

w ~ v

~ w ~ Rhfx v { zy

{(

s Ur

t ws

( )=

o q RQn

( |

gfXmwkwgfji h e l h d C 9 AB@8

A esta regla heurstica de divisin la denominaremos y la frecuencia de aparicin existente entre la probabilidad

s Ur

s Ur

U y

o Gn

hgXe f

s Ur

( |

)=

b t `

t b t qphfd ` i ge

T US

T US

U y

vwT

( )=

) ( |

F P caE

uH F

s Ur

s Ur

F GE

s Ur

( |

)=

b t `

t b t qphfd ` i ge

T US

T US

( )=

) ( |

F P RQE

IH F

WXV

F GE w v cau c`aY b c`aY b x x "#!    

A 9 B@8

}
Utilizando la relacin , obtenemos:

Cuando se detiene la construccin del rbol de decisin, se construye una hoja a la que se le puede asignar una distribucin de probabilidades (segn los casos que recoja) o simplemente la clase ms comn de las recogidas por los casos. Sorprendentemente, se ha demostrado empricamente que esta ltima tcnica es mejor a la hora de minimizar el error de clasificacin. , tratan de predecir Las reglas de parada, denominadas originalmente reglas de si merece la pena seguir construyendo el rbol o no. Ejemplos de este tipo de reglas son:

Cuando un nodo solamente contiene ejemplos de una clase, obviamente, el proceso de construccin del rbol de decisin ha finalizado. Adems, podra utilizarse un umbral de pureza para detener la construccin del rbol de decisin cuando la ramificacin del rbol no suponga una disminucin significativa de la impureza del mismo (segn alguna medida estadstica de impureza). En la prctica, esto no suele resultar totalmente satisfactorio. Se suele optar por construir el rbol de decisin completo y realizar una poda a posteriori.

Se puede establecer de antemano una cota de profundidad para no construir rboles excesivamente complejos. Cuando un nodo se halle a ms de cierta profundidad, se detiene el proceso de generacin del rbol de clasificacin.

Cuando nos encontramos un nodo con menos de X ejemplos detenemos el proceso de obtencin del rbol. Una clasificacin avalada por menos de X casos de entrenamiento no se considera fiable (menos de X ejemplos son insuficientes para estimar probabilidades con una precisin aceptable).

75 1 0 '% 6342")(&$

ed ba` R)cY (TY

de dshx ` Y ad v c RRdqR))ycTwqCe@Tu

I S I I U D S Q IG D 9 6RXWR6V6TRPHF(EBCA8@8 )cRVq2qs e a d c c dc s ra d e a`h q)qt(qCip)g f f "#!     f

Una vez construido completamente el rbol de decisin, las reglas de poda (post-poda para ser precisos) intentan eliminar los subrboles que no contribuyen significativamente a la precisin de la clasificacin. De hecho, el mtodo recursivo de construccin de rboles de decisin contina dividiendo el conjunto de casos de entrenamiento hasta que encuentra un nodo puro o no puede aplicar ms tests. El resultado suele ser un rbol muy complejo, ms de lo deseable, que sobreajusta los ]. El datos del conjunto de entrenamiento [efecto conocido por el trmino ingls sobreaprendizaje es un problema bastante importante ya que limita considerablemente la aplicabilidad del modelo de clasificacin aprendido.

Supongamos que queremos construir un clasificador con datos aleatorios para las clases (con probabilidad ) e (probabilidad ), siendo . Si el clasificador siempre dice que . Si el clasificador asigna un caso a la los casos son de la clase el error ser, obviamente, , el error estimado sera la suma de: clase con probabilidad y a la clase con probabilidad

El error estimado ser igual a , error mayor que si . Por lo tanto, el clasificador ms sencillo posible es el mejor cuando la clase y los atributos de los casos son estadsticamente independiente. En casos reales esto sucede cuando los atributos no recogen toda la informacin necesaria para realizar la clasificacin o cuando se ha dividido el conjunto de entrenamiento en conjuntos tan pequeos que la eleccin de un test u otro no supone ninguna mejora notable.

La poda se suele aplicar despus de construir el rbol completo ( ), ya que la correcta estimacin a priori del beneficio obtenido al simplificar un rbol durante su construccin ( ) es muy difcil. La poda ha de realizarse en funcin de algn estimador honesto (no sesgado) del error de clasificacin del rbol de decisin. Un rbol de decisin se puede simplificar eliminando un subrbol completo en favor de una nica hoja. Tambin se puede sustuir un subrbol por una de sus ramas (vg: la rama del subrbol ms usada). A continuacin se comentarn algunos de los mtodos de poda de rboles de decisin ms comunes: la poda por estimacin del error, la poda por coste-complejidad y la poda pesimista.

75 1 0 '% (6342")(&$

d f S)Yt )Yt

@ w w y

La probabilidad de que un caso de Y se asigne a la clase :

w y @w x

La probabilidad de que un caso de

se asigne a la clase :

. .

iQg)d c(SY p heffe b a `

w y

w y w y 6w

@ w y w

w y

xv

6TS6W6USQIG(FCDBA@8 P X V E T R PH E 9 "#!     dY a S)t (bUt Yu t s Q&ca v r Iq v

Un nodo se poda si el error de resustitucin [ ] del nodo considerado como hoja es menor que el error de resustitucin del subrbol cuya raz es el nodo. El mtodo requiere reservar un conjunto de casos para la poda (por lo cual no se podrn utilizar todos los casos disponibles para construir el rbol). Cuando no disponemos de muchos datos, se puede utilizar algn tipo de validacin cruzada [ ] para obtener mejores resultados.

Esta tcnica de poda, usada en CART, intenta llegar a un compromiso entre la precisin y el tamao del rbol. La complejidad del rbol viene dada por el nmero de nodos terminales (hojas) que posee. Si es el rbol de decisin usado para clasificar casos de entrenamiento y se clasifican mal ejemplos, la medida de coste-complejidad de para un parmetro de complejidad es ,

donde

es el nmero de hojas del rbol y es un estimador del error de . Es decir, es una combinacin lineal del coste del rbol y de su complejidad.

El rbol podado ser el subrbol de mnimo error, aqul que minimice la medida de costecomplejidad . Hay que resaltar que conforme el parmetro de complejidad crece el tamao decrece. del rbol que minimiza La poda por coste-complejidad se puede realizar utilizando un conjunto de prueba independiente del conjunto de entrenamiento o validacin cruzada [ ].

Dividir el conjunto de casos en dos subconjuntos (entrenamiento y prueba). Construir el rbol con el conjunto de entrenamiento.

Encontrar el subrbol de mnimo error para el conjunto de prueba y calcular su error de sustitucin R0 y el error estndar del estimador SE0: . El subrbol podado ser el subrbol que minimiza R con el mximo valor de tal que el estimador del error en el conjunto de prueba sea menor que R0+SE0: .

75 1 0 '% (6342")(&$

)Bd@Bw)u&v6ib w u b u

&@Cfu T V D

@)u@)xx(@xhSHsqqrqihfYdcaE#X4TUGFRQIGFGECB@8 y u u u v w v y w v u t S S T p T I g e b P `Y W V S H P H D9 A9 @)u4k EfB&)(f)(fthQ(q6Uf4GT#Xs4beGFRQIGc8CB@8 y j v i I P I Y g T p F ` H b W V H S H P H F 9 A9 ~ u u u y y v )xv2)BEfxu W g &@Cfu T V  m r Wl ~ vs@usw2d)r)(z)z)(z@@wyvB&)((vf)()q@)F x vy v y y y w i u w )Bd@Bx)x w u gt ` Wl BUnsm cS pqm cSonom l S Wl W W m Wl S "#!     m Wl S m BE l { | } m l S W W `

Encontrar el valor de que minimiza el estimador del error por validacin cruzada para el subrbol que minimiza R (obtener R0 y SE0). Encontrar el mximo nivel de tal que estimador del error por validacin cruzada para el subrbol que minimiza R sea menor que R0+SE0. El rbol podado es el subrbol construido sobre el conjunto completo de ejemplos que minimiza R . Si ignoramos el tercer paso obtenemos el , si no tendremos el .

Esta tcnica utiliza slo el conjunto de casos de entrenamiento con los que se construye el rbol, con lo que nos ahorramos tener que reservar casos para realizar la simplificacin del rbol. Cuando una hoja del rbol cubre casos de entrenamiento, de los cuales casos los clasifica incorrectamente, su error de resustitucin es . El estimador del error de resustitucin asociado a un subrbol ser la suma de los errores estimados para cada una de sus ramas. La probabilidad real del error cometido no se puede determinar con exactitud pero se puede establecer un intervalo de confianza. Dado un grado de confianza CF, se puede establecer una estimacin de la probabilidad del error UCF(E,N) usando una distribucin binomial. Se poda el subrbol si el intervalo de confianza del error de resustitucin (generalmente de amplitud dos veces el error estndar) incluye el error de resustitucin del nodo si se trata como una hoja. De esta forma se eliminan los subrboles que no mejoran significativamente la precisin del clasificador. El mtodo es cuestionable como cualquier heurstica pero suele producir resultados aceptables.

15 1 0 '% 76342")(&$

yDD7QG xS V A v

yDD7QG xS w V A v

j b CV bY g f bY b b g G E P Y Y I I R x kD`e`Dipgh`eD)epHWYQI`dU`dEdx499 W7WD

ipDDda)W(eD`Weda)A(aDDB`XRW&)(HT(RQ)()FD)@8 C B C h g G H b fY H C BYV C c b H B C Y V E U A S P I A H G A E C B A 9 l m F u l "#!     q r s t


Escoger v subconjuntos disjuntos.

Todos los sistemas de construccin automtica de clasificadores definen un mecanismo para evaluar la idoneidad de cada test propuesto (p.ej. la regla de divisin en la construccin de rboles de decisin). Esto implica que se deben generar de alguna forma los distintos tests para que puedan ser evaluados. Generalmente, se define un formato y se examinan todos los posibles tests de ese formato. Adems, es habitual que el test empleado involucre a un nico atributo (para facilitar su comprensibilidad y simplificar el proceso de bsqueda evitando una explosin combinatoria).

Por su parte, CART slo utiliza expresiones lgicas de forma que el rbol resultante siempre es binario. Los atributos de tipo numrico son tratados igual que en C4.5, sin embargo los tests aplicados sobre atributos discretos (de tipo categrico) son siempre del tipo . Obviamente, la aparicin de este tipo de preguntas sobre un atributo en el rbol de decisin dificulta la generacin de reglas a partir del rbol de decisin.

Otra posibilidad consiste en evaluar el atributo discreto construyendo un subrbol de decisin para aquellos valores avalados por un nmero suficiente de casos y enviando todos los dems valores a un subrbol comn (una rama de tipo ). La construccin de rboles de decisin con ramas de tipo es una aportacin de este proyecto a la familia TDIDT de algoritmos de construccin de rboles de decisin. Esta tcnica puede utilizarse en algoritmos como C4.5 para reducir en algunos casos el tamao del rbol de decisin, si bien es verdad que suele incrementar la dificultad de comprensin del rbol de decisin por parte de un experto.

7 5 1 0 '% 86342")(&$

q x v (qU&ywu

s (

)Utr8p&ia8hfcab` c is ` q g ed

#

s (

E I T WVD RE P I EFE B @ Q6QX(6TUS6Q(GH(D4CA89


Por ejemplo, C4.5 utiliza tres formatos diferentes de tests:

"#!    

Y Y Y

El tpico test sobre atributos discretos, con una rama del rbol para cada posible valor del atributo discreto considerado. Un test ms complejo sobre atributos discretos en el que se agrupan los valores del atributo en subgrupos. Uno binario de la forma para atributos numricos.

Clasificar un caso utilizando un rbol de decisin requiere, en principio, que se conozcan todas sus caractersticas (sus atributos) para poder elegir la rama del rbol correcta en cada nodo pregunta. Por desgracia, los datos recogidos en la vida real suelen ser incompletos (ya sea porque el valor de un atributo era desconocido, se consider irrelevante, no se mecaniz o simplemente el atributo no era aplicable al caso concreto). Hay que elegir entre descartar todos aquellos casos con informacin incompleta o adaptar adecuadamente los algoritmos de clasificacin para poder tratar con ellos. La primera alternativa no es aceptable normalmente, por lo que hemos de abordar el problema del manejo de informacin incompleta: modificar el algoritmo de construccin del rbol de decisin y establecer un mecanismo para clasificar casos con informacin incompleta El problema se puede resolver rellenando atributos desconocidos con valores por defecto (p.ej. el valor ms comn del atributo), construyendo rboles de decisin para determinar el valor del atributo desconocido (Shapiro), teniendo rboles de clasificacin auxiliares ( ), utilizando la distribucin de probabilidad de los valores de los atributos ( )o la teora de Dempster-Shafer.

La modificacin de la regla de divisin utilizada en (el criterio de proporcin de ganancia) para tratar informacin incompleta es bastante sencilla. Slo se tienen en cuenta los atributos de los casos cuyos valores son conocidos:
=1

donde

es el conjunto de casos de entrenamiento cuyo valor de

utiliza la misma tcnica probabilstica que a la hora de dividir el conjunto de casos de entrenamiento durante la construccin del rbol de decisin. Cuando el valor del atributo Ai de un caso del conjunto T es Ai,j, se le asigna al conjunto Tj con probabilidad 1. Cuando el valor del atributo Ai es desconocido, se le asigna a un conjunto Tj con la probabilidad de que un caso de T pertenezca a Tj. Algo parecido se hace al clasificar un caso. El resultado de la clasificacin ser una distribucin de la probabilidad y el caso ser asignado a la clase con mayor probabilidad.

75 1 0 '% (6342")(&$

=0

( ) log2 ( )

q(

es desconocido.

HfxxX

xHf

) ( ( )

( ) ( )) +

h ge p w v csr pq #  fe d xXutq(i F)c

zy lx4

xF

zl4 yx

o c g rw v g o g c r r c r e v i s r r g r o r)pw(Pp)(vpu)gXptp2qpPi

Sb ` Y Q GU D VU S QI GE DB 9 RaXFTP(6DXVTPWX(PTRPHFCA@8 "#!     | ~ } | } | xFT{ zyl4 x nm kj fe dlhigd @ y


) 0

descrito por Hunt, Martin y Stone en El sistema es el origen de gran familia [ la construccin de rboles de decisin.

Los tests encontrados en los rboles de decisin construidos con son siempre de la que, obviamente, slo tienen dos posibles respuestas (s y no). forma CLS intenta minimizar el coste de clasificacin de un objeto considerando el coste de establecer el valor de una propiedad del objeto y el coste debido a una mala clasificacin del objeto (el coste debido a la decisin de que un objeto pertenece a una clase determinada cuando en realidad es una instancia de otra clase distinta). CLS utiliza una tcnica similar al minimax. Explora el espacio de posibles rboles de decisin (con una cota de profundidad) y elige la accin que minimice la funcin de costo en el conjunto de rboles construidos. Como es evidente, CLS requiere gran capacidad de cmputo y no siempre encuentra buenos rboles de decisin

Este algoritmo greedy de Quinlan (1979) es el mtodo ms famoso de todos los que existen para la creacin de rboles de decisin. Usa una poda pesimista y utiliza el criterio de proporcin de ganancia. Extensiones de ID3 le permiten tratar con datos errneos (ruido) e informacin incompleta. Para que el rbol de decisin generado sea lo ms sencillo posible, este algoritmo evala la capacidad de discriminacin de cada uno de los atributos mediante el clculo de las entropas de los distintos atributos en los casos de entrenamiento empleados. La entropa nos da una idea de la desorganizacin de la informacin, es decir, nos indica la capacidad de discriminacin de cada atributo. Se trata de minimizar la funcin definida por la siguiente ecuacin:

H(C|Ai) es la entropa de clasificacin de C utilizando el atributo Ai. P(Ai,j) es la probabilidad del atributo k para su valor j. P(Ck|Ai,j) es la probabilidad del valor i de la clase sea c cuando el atributo k toma su valor j. Mi es el nmero total de valores permitidos para el atributo Ai. K es el nmero total de clases.

75 1 0 '% (6342")(&$

( | )

r s s r ts s#r r j h x o m w v ( )F((Wig y2)FHpHidW u m q p o m e )F(hHinlkC

, )[

, )log2

( |

, )]

y w xu

HFiF((V6dV6W(FhG6QHdV6THF((6Q6H(d6bH66H(WHTRQHHFDCCA@8 Y fP UP c ` ` U VD g I X ` Y fP c c e IRU Y G c V ` I a ` Y XRU V U G S P I G E B 9 h d u  e y w y w u tq rq diH()Wu xvssHp


[ ] (1966), ] de algoritmos para

e dC)@F

 ~ } | p { )F&@hsk

fy Hwxu s

(}Fkidm

"#!    

Cs

m q rq psHp

ID3 utiliza un mtodo iterativo para construir rboles de decisin y prefiere los rboles sencillos frente a los ms complejos (ya que, en principio, aqullos que tienen sus caminos hasta las hojas ms cortos son ms tiles a la hora de clasificar entradas). En cada momento se ramifica por el atributo de menor entropa y el proceso se repite recursivamente sobre los subconjuntos de casos de entrenamiento correspondientes a cada valor del atributo por el que se ha ramificado.

ACLS (Patterson y Niblett, 1983) es una generalizacin de ID3 que permite tratar propiedades con valores enteros y ha sido aplicado con xito en problemas complejos (vg: tareas de reconocimiento de imgenes). (1983), (1984) y (1984) son productos comerciales derivados de .

Otro derivado de ID3. Propuesto por Kononenko, Bratko y Roskar en 1984, permite atributos con valores continuos (reales). Las clases no han de ser disjuntas, aunque tienen que formar una jerarqua. Para tratar valores desconocidos utiliza un enfoque bayesiano. Puede manejar informacin con ruido, ya que emplea una heurstica para detener la construccin del rbol cuando se estima que seguir ramificando no mejora la precisin de la clasificacin. se caracteriza porque todos los tests que se realizan sobre los atributos son binarios. El conjunto de valores de cada atributo se divide en dos subconjuntos disjuntos para evitar la propensin del criterio de ganancia de informacin a ramificar por atributos con muchos valores diferentes. Para cada atributo han de comprobarse posibles tests (siendo el nmero de valores diferentes del atributo), lo que es inviable para valores no demasiado grandes de .

Diseado por Breiman y sus colaboradores en 1984, usa el ndice de diversidad de Gini y puede agrupar las clases en dos superclases (twoing criterion, muy ineficiente). Permite realizar una poda costo-complejidad con validacin cruzada sobre 10 conjuntos (10-CV). Puede obtener tanto el rbol 0-SE como el 1-SE.

Un descendiente ms de ID3 que permite atributos continuos, sobre los que se aplican tests de la forma . Ideado por Quinlan (1987), utiliza la poda pesimista.

75 1 0 '% 86342")(&$

q bh w U bV pxAEA`G

d# F

rE t)9

lw b b q S Xs w w b q Y b j S F S h U s w w V Hf F H @ B@ p()k)Erp6GcATi)XEshpeE)g srAUtdCueddCA9

y h v Y Ss q U b h f e S X H b ` V U S R P H D@ B@ pbxw6RutWSrApiPGgb(W)dcAaY#XEWATF QIFGECA9
[

R QIF d P H bw hqb AU xpf

q X p h ` ns h )EVWU &Xo8CqhU

F RR R dprATF

"#!    

dpRrATFGECA9 F R R @ B@ H B@ B@ 4mCCA9

Descendientes de ID3 orientados al aprendizaje incremental desarrollados por Thrun y sus colaboradores en 1991.

Hbrido entre CART y C4. Construido tambin por Quinlan (1993). Permite usar como regla de divisin la ganancia de informacin, el ndice de diversidad de Gini o el criterio de proporcin de ganancia. Se puede realizar una post-poda pesimista del rbol (sustituyendo un subrbol por una hoja o por una de sus ramas).

SLIQ [ ] es un algoritmo de construccin de rboles de decisin que maneja tanto atributos categricos (discretos) como atributos numricos (continuos) y destaca por su escalabilidad. Forma parte de los trabajos realizados en el proyecto Quest de Data Mining del IBM Almaden Research Center. SLIQ construye el rbol en anchura (los dems algoritmos lo hacen en profundidad) usando el ndice de Gini. Utiliza slo tests binarios de la para atributos numricos o para forma atributos no numricos. Finalmente, emplea un criterio de poda basado en el principio MDL [ ]. No obstante, SLIQ requiere mantener cierta informacin de cada tupla en memoria, lo que limita su escalabilidad. SPRINT [ ], otro algoritmo ideado por los miembros del proyecto Quest, soluciona este problema utilizando estructuras de datos diferentes a las empleadas por SLIQ.

75 1 0 '% 86342")(&$

e l u v x q i h g q y mdw)drwkurR)jrf68Cv

u u v y y h u x y h q F u y u g f u h w()p{)d((rzy)dArA2d8wd(ddr4v2d8rwrY

u q y y v u ` u y vu sq cwAbrAww(xwtrY

utw`s)dyrs yvwhwuTGqo)qpry u oy

)drwx&8Cyv ev q

p F g Y P F ` Y @ B@ TiEhfedbca2XCA9

"#!    

STGERPQIEECA9 F H GF D@ B@ S84WUCA9 @ H V @ B@ n

Aun tras podarlos, los rboles de decisin pueden ser muy complejos y difciles de comprender. Adems, la estructura del rbol puede dividir un mismo concepto en varias ramas. es: Por ejemplo el rbol de decisin para

Cualquier rbol de decisin para dividir o . Si obtenemos una regla de produccin para cada camino de la raz a una hoja del rbol, el conjunto de reglas as generado clasifica los casos tal como lo hace el rbol. Las partes de las reglas sern exhaustivas y mutuamente exclusivas. Por ejemplo:

55 1 0 '% 6342")(&$

d T`rpqig `

Q Y

d ` ` Tcb9aY

d p ` e ` ` T`igd4bTaY

d T`rpqihfT`c9`aY ` g e d b

yw xvw

yxv w e

dTrpfTigfTcfTaY ` d ` s ` b d `

s T`rt p

d T`rt p

yxv w e

s ` Trt p

d ` Trt p

s ` Tit g

t t t d ` Tit g

yw xv

X W V A D A R C I H F D C @ 8 FQ6GUTSPQ6GEA46AB97 d T`ct b t t t t t t s T`ct b s ` Tit g t t t d ` Tit g t t t t t t t t t dTat Y ` t t t t t t s ` Tat Y "#!    

Al convertir el rbol de decisin en una coleccin de reglas (una por hoja del rbol), algunas de las reglas pueden contener condiciones irrelevantes en su antecedente. En la regla anterior, la conclusin no se ve afectada por los valores de F y G. La regla puede generalizarse eliminando esas condiciones superfluas:

Si tenemos una regla y una generalizacin suya donde se obtiene eliminando una condicin perteneciente a , hemos de decidir si la generalizacin es vlida. La importancia de se calcula a partir del conjunto de casos de entrenamiento usados al construir el rbol. Se crea una tabla de contingencia para los casos que satisfacen el antecedente : Clase C Satisface X No satisface X Y1 Y2 Otras clases E1 E2

Los casos que satisfacen la condicin estn cubiertos por la regla original, de los cuales estn mal clasificados. La regla generalizada cubre adems los casos que no satisfacen , lo que introduce nuevos errores de clasificacin. Para decidir si una regla ha de generalizarse o no, pueden utilizarse tcnicas estadsticas (como la prueba exacta de Fisher). No obstante, Quinlan prefiere utilizar la misma tcnica que en la poda pesimista del rbol de decisin. Se estima el error de la regla original UCF(E1,Y1+E1) y el de la regla generalizada UCF(E1+E2,Y1+Y2+E1+E2). Si la estimacin pesimista del error de la regla generalizada no es superior a la de la regla original, se elimina la condicin (se generaliza). Ms de una condicin podra eliminarse al generalizar una regla. En vez de mirar todos los posibles subconjuntos de condiciones susceptibles de ser eliminados, se utiliza un algoritmo greedy: mientras se pueda eliminar alguna condicin de la regla, se elimina aquella que produce la regla generalizada con menor estimacin de error. Tras realizar la generalizacin de las reglas individuales surge un pequeo problema: las reglas dejan de ser exhaustivas y mutuamente excluyentes. Un caso podra ser cubierto por varias reglas o, si se eliminan las reglas poco fiables, por ninguna. Para seleccionar el subconjunto de reglas ms adecuado para representar cada clase Quinlan utiliza . Se trata de minimizar el nmero de bits necesarios para codificar el modelo de clasificacin (principio MDL [ ] de Rissanen: la mejor teora derivable de los casos de entrenamiento minimiza el nmero de bits requeridos para codificar el mensaje que incluye la teora con sus excepciones).

75 1 0 '% 86342")(&$

xisrq)Upo lk)e i v h y qev e n m y j e

2x4f e y v

2xqf e y v

y y v p h s r p h g XtxwqutEqibf e

heUXXdgyvedX dy f e

d S c F P F ` H T W S P F H F D B@ XQU8(RbIaXYU(XQ#VTU8QR(I(GECA9 4 "#!    

Para representar un rbol de decisin se utilizar la notacin de Quinlan, en la cual las etiquetas de cada hoja del rbol de decisin van acompaadas por un nmero que indica el nmero de casos que corresponden a cada nodo terminal del rbol. Cuando el nodo terminal no es puro (es decir, cuando le corresponden casos de distintas clases), la etiqueta va acompaada de una pareja donde tiene el mismo significado que antes e indica el nmero de errores cometidos al asignarle a la hoja del rbol la clase ms comn entre los ejemplos de entrenamiento que abarca. Para comparar las distintas reglas de divisin vistas utilizaremos el tpico ejemplo de Quinlan que construye un rbol de clasificacin para decidir si se juega o no al golf en funcin de las condiciones atmosfricas presentes: OUTLOOK1 sunny sunny sunny sunny sunny overcast overcast overcast overcast rain rain rain rain rain
1

TEMPERATURE2 75 80 85 72 69 72 83 64 81 71 65 75 68 70

HUMIDITY3 70 90 85 95 70 90 78 65 75 80 70 80 80 96

WINDY4 true true false false false true false true false true true false false false

Este atributo sirve para expresar estado general del tiempo, si hace un da soleado [ ], llueve [ ] o el cielo est encapotado [ ]. La temperatura medida en grados Fahrenheit ( ): La humedad relativa en tanto por ciento (%) Indica si hace o no viento El objetivo de la clasificacin: saber si se va a jugar al golf o no

75 1 0 '% 6342")(&$

gh

( ) =

5 ( ( ) 32) 9

UV ST q

f0d e#

"c 0

a " b"#` 

U Y X ST W

"#!    

C Q P F DC A @ 9 &RHIGE46B&8
PLAY5 yes no no no yes yes yes yes yes no no yes yes yes

Considerando tanto la temperatura como la humedad atributos continuos (al estilo de ), todas las reglas de divisin analizadas (entropa, criterio de proporcin de ganancia, ndice de Gini, incluyendo el factor #U y ) obtienen el siguiente rbol de decisin a partir de la tabla de catorce casos de arriba:

Intentemos complicar un poco la construccin del rbol de decisin introduciendo algn valor desconocido (representado por ?) para poder comparar las distintas heursticas:

OUTLOOK sunny sunny sunny sunny sunny ? overcast overcast overcast rain rain rain rain rain

TEMPERATURE 75 80 85 72 69 72 83 64 81 71 65 75 68 70

75 1 0 '% 6342")(&$

RP H F D SQIGEC

vD u Ada @ y c l Pt P iu Y QHSC j vD W u U g efyhfx2a @e q w h Pt P iu Y QHSC ka j W U g ve)bQ#XUVT u w D q a ` T T Y W efyda @e c Y t u4SP H f vr D ega u Ayqhfx2a @ w Y t u4SP H f p qAa bD Q#XUVT p g av` T T Y W u @ 9y q f w Ahx2a Y t rqpigfdc a ` T T YW sehh(eEbQ#XUVT
HUMIDITY 70 90 85 95 70 90 78 65 75 80 70 80 80 96 WINDY true true false false false true false true false true true false false false PLAY yes no no no yes yes yes yes yes no no yes yes yes

"#!    

F D GEC

B@A48 9

15 1 0 '% 76342")(&$ A ur h

"#!     s ` tf7)kQ r qrs sp xywkQ YV r

Este rbol conserva la estructura del rbol de decisin ideal, de hecho es el ejemplo con el que Quinlan defiende las cualidades de sus algoritmos de construccin de rboles de decisin (ID3 y ). Ntese que las hojas etiquetadas con se derivan de considerar los casos y .

e6H d 9 u &sqyvQ e6F c gD r r ph S h d 8 f e6H I d 9 q7hiWUg2Q e6F c gD u rt ` f d d 8 I gQ f HF #GD E e7)vRIE d f 6 H ` Q P E 9 cd u &7hyvQ r r t S U ea 6 7VH Q 4i d 9 cd qsqhi`WUg2Q u rp f HF U Y `ysQ 4i #GD ywvQ P x YV E dR9 E e6H IE c u tsqiWg2Q r ph ` U f HF #GD a`YXVUTS Q P E b7WW(7@RIE E
Si fijamos en uno el mnimo nmeto de casos que ha de cubrir cada hoja del rbol (uno de los posibles criterios de pre-poda) obtenemos directamente el rbol siguiente, idntico al obtenido con la informacin completa: Utilizando la ganancia de informacin (entropa), el criterio de proporcin de ganancia, el ndice de diversidad de Gini o (incluyendo el factor ) se obtiene el siguiente rbol:

d e96H q7yvk&2Bi &#F u r t h l iBj Q D F 9 j c 8 i hS c t d mf e96H cd u r ` f ohiWUg2Q 7 U d 96 eaVH Q 4i cd qohSyvQ u rn U ` Y d j D 29ij yslQ iBk&4Bi &#F F 8 i tmgQ f hc d e6F 8 gD f e6H I d 9 q7hiWUg2Q e6F c gD u rt ` f d d 8 I #GD gQ f HF E e7)vRIE d f 6 H ` Q P E 9 cd u &7hyvQ r r t S U ea 6 7VH Q 4i d 9 cd qsqhi`WUg2Q u rp f U Y `ysQ 4i HF #GD ywvR6H IE x Y V Q e9 E E d P c u tsqiWg2Q r ph ` U f HF #GD ab`7WW(7@RIE YXVUTS Q P E E A 9 B@8 D &C

Sin embargo, al utilizar el criterio a la hora de seleccionar por qu atributo se ha de ramificar, obtenemos un rbol de decisin bastante diferente:

Este rbol de clasificacin es radicalmente distinto al obtenido con los dems mtodos y merece algn comentario. Si consideramos que el mejor rbol es el ms pequeo (el que contiene menos nodos internos), el mtodo parece superior a y a los criterios basados en la entropa o el ndice de Gini (aunque es cierto que el rbol que se obtiene con esos mtodos se podra podar fcilmente para obtener el rbol generado por ). No obstante, aunque en este caso particular el rbol de es algo ms complejo, se ve ms afectado por la existencia de informacin incompleta que el construido por . De hecho, no clasificara bien el ejemplo cuyo atributo se desconoce. A pesar de ello, el mtodo parece comportarse de forma interesante. Aparentemente, la heurstica se acopla mejor a los datos de entrada que el criterio de proporcin de ganancia (lo que bien podra ser negativo si tenemos errores en el conjunto de entrenamiento) e intenta reducir al mximo las imprecisiones cometidas en la clasificacin (un arma de doble filo que se vuelve en su contra en el ejemplo expuesto). Es destacable que slo en una hoja aparece una posible mala clasificacin (siempre segn el conjunto de entrenamiento de entrada al clasificador), que en este caso podra atribuirse al sobreaprendizaje del conjunto de entrenamiento (el cual no es deseable). Si podamos el rbol obtenido anteriormente (poda pesimista con CF=25%) con cualquiera de las otras reglas de divisin, el rbol de decisin se nos queda en un simple nodo: cualquier caso se clasificara siempre como , con un error estimado del 39%. No obstante, al podar el rbol obtenido con MAXDIF se obtiene un rbol con un error estimado menor (una estimacin pesimista del 33% con CF=0.25, del 25% con CF=0.99):

7 5 1 0 '% 66342")(&$

j4n o

HFCDB@8 GE A 9

A 9 B@8

j o4n

bF` `

a #S

lHY lHecQWvu6a j k m j k y T 9 t #S wdq e)QW a b eiyhfx2Wvu6a F` P ` j h q w T 9 ` t #S QW p g a b Y F` f T S E ` E 6gV6P #FCHR8 `X P QI Yeyhfx2Wvu6a q w T 9 t #S wdq e)QW a b ` F` P ` YeecQvu96a y W T egRv4HE f d r WtT C Yeyhfxw2vu96a q W T fv4HE q p W t T C QW #S p g a b Yyhfxw2Wvu6a F` P ` q T 9 ` t #S rqp gfd sehih(ec@W a bX` Y FW ` U T S E ` E 6@FV6P #FCHR8 P QI P ` GE C 9 HFDAB@8 HFDB@8 GE C A 9 j &hipu6a m o y T 9 GHFDB@8 E C A 9 t "#!    

GE C A 9 HFDB@8

Por otro lado, el conjunto de reglas que se puede obtener de ambos rboles es similar y, de hecho, clasifica de la misma forma los distintos ejemplos del conjunto de entrenamiento:
Reglas derivadas utilizando MAXDIF IF HUMIDITY <= 80 THEN PLAY = yes (9.0|2.0) IF HUMIDITY > 80 AND OUTLOOK = rain THEN PLAY = yes (1.25) IF HUMIDITY > 80 AND OUTLOOK = sunny THEN PLAY = no (3.75|0.75) IF HUMIDITY <= 80 AND OUTLOOK = rain AND WINDY = true THEN PLAY = no (2.0) NB: Esta ltima regla permite clasificar correctamente los ejemplos de PLAY=no correspondientes a HUMIDITY<=80 Reglas derivadas con las dems reglas de divisin IF OUTLOOK = overcast THEN PLAY = yes (3.2) IF OUTLOOK = rain AND WINDY = false THEN PLAY = yes (3.0) IF OUTLOOK = sunny AND HUMIDITY <= 70 THEN PLAY = yes (2.0) IF OUTLOOK = rain AND WINDY = true THEN PLAY = no (2.3|0.3) IF OUTLOOK = sunny AND HUMIDITY > 70 THEN PLAY = no (3.3|0.3)

En definitiva, la eleccin del criterio de divisin parece depender del problema, aunque empricamente se ha comprobado que el clasificador generado no es muy sensible a esta eleccin. Los rboles de decisin permiten la construccin de clasificadores simples e intuitivos con un error comparable al de mtodos ms complejos (generalmente inferior), robustos y poco sensibles a la presencia de .

75 1 0 '% 6342")(&$

q FU iF@R`Y6V e I X W ac v t WH )@R Gt #u9 t q efcdbB2R`Y6V p a I X W xy@R Gt #u9 t w v t W H U S r I HC C A 9 6sQ6#GEFDB@8 q p ghefcdB2R`Y6V i b a I X W U S R P I HC C A 9 6TGQ6#GEFDB@8 cw ydbhh "#!    

75 1 0 '% 6342")(&$

"#!    

Describe las caractersticas esenciales de CARTTM desde un punto de vista prctico y poco riguroso (de forma que pueda entenderlo cualquier persona). Viene a ser un resumen del libro de Breiman, Friedmanm, Olsten y Stone titulado Classification And Regression Trees (Wadsworth, 1984), donde se describe detalladamente el programa CARTTM.

Manual del paquete IND, una implementacin en C de distintos algoritmos de construccin de rboles de decisin (CART esencialmente, aunque tambin incluye C4 y distintas variaciones bayesianas y basadas en el principio MDL de Rissanen).

Se analizan distintas tcnicas empleadas en Data Mining y sus aplicaciones comerciales. Se incluye un captulo, puramente descriptivo, dedicado a la construccin de rboles de decisin. Sin embargo, el libro en s no parece estar escrito para informticos, sino ms bien para gerentes y administradores de empresas.

Este artculo propone la aplicacin del principio MDL [Minimum Description Length] a la poda de rboles de decisin. Los resultados obtenidos con el algoritmo propuesto son comparables a los obtenidos con la poda pesimista en C4.5.

c}c{|jcccccblfebads)WU( c} xVeVWUbb ccb )(eaa))Fgfec)YVctad } b b j j dX dsd l b b s s V es ds VX f b ec)Fd()w)YVf((d adc U ebFts6Fta#c4maecbttfrot))cbaW`tVechU f b i `fdi b v d f V b sgj `d U f b
En este artculo se presenta el algoritmo SLIQ, un algoritmo de construccin de rboles de decisin diseado especficamente para aplicaciones de Data Mining en el IBM Almaden Research Center para el proyecto Quest.

6}c{|ja(XectsFc)e6 (pj6(#Ycec`a(dcdcbb ecad)F)(eada))Fgec)YVctad `R } d b j V i u f X fb V d X s d l f b b s s V s s V f f f l f f b X k f b i VeWUbb ))adY) VtcbFdYbeaeencF)v n k d bff b osg v f b bs i fdi b j `d U f b aecttVrt))geFt6F`ta#c4cbaW`tVechU

cc|j(e adcF eeeaXYVnVbet)) Yfel } { h X j s b k f b f k bV s V b s u f d U i e (#Yce)e`WrpF|lm)YVXce)s i

(eaY(XekFadR&)Fma(ecae&))edReVnc aXcaar d X dV s e q o l d X b i s f ` s b d f d s V VV s b d f s e X d e)YncF(YVt)((rccb 4D m)YVce)s Xe bbesb l ` V v d q b cc)cmaXYreV)erutspw

~ }}{ f k v V w `g ik &c|jtc)ezwudYfYyxc))evp(u s s q q e k s d o f e j f df b d s b U s f d e d ` X d V V tn)creFap)n)FlmccbRtaYeckRj6V#itchg))accYVeca(ceWUbb V s x e)et)yvwuYtarpi ))(decaYWU s s d q h h g f b ` XV QDRP&DDFDB&8 TS Q I H GAE CA @ 9

75 1 0 '% 6342")(&$

"#!    

Uno de los libros de texto ms populares de IA. Incluye un captulo dedicado a tcnicas de aprendizaje. En l se tratan, a un nivel casi meramente informativo, distintas formas de afrontar el problema del aprendizaje automtico (entendido ste como un proceso por el cual un ordenador acrecienta su conocimiento y mejora su habilidad).

Un artculo sobre un algoritmo eficiente y escalable de construccin de rboles de decisin diseado para ser paralelizado, lo cual lo hace idneo para trabajar con grandes bases de datos. SPRINT es un algoritmo derivado de SLIQ que, al igual que ste, ha sido desarrollado por los participantes en el proyecto Quest del IBM Almaden Research Center.

IedITQSIP V p(Spp)p)A 6IP I Su`bdAQHSp((YIi e y H X f Y P fi f cP e v X f c C xP Xff A qQHSQsT`T))pa)c HITQR R(aRaRSDIfaTQRaSpS)g V  U x P PH e i A c i fH C f Ti T R R TY @ T`pfDCQSIt6SDGuDp#I4Dp)pIII))8 u s u H P T s R T Ti x C f T @ i f cT u P u A


Otro libro sobre tcnicas de aprendizaje automtico que incluye, entre otros, un captulo dedicado por completo a la construccin de rboles de decisin.

e H T C xP f P P f Y i F H C Hif R T fY ` f IeydITQaRSDi`j)FQHip(fSQHrxP4XIIT(YSPpfaH(Spf`&)A PQpfapSRaS(aHPpi qBP)aHHCQIISrpfaSGpf)A U A ` HFX f xX R AP X ` T ` F P H 9 Ti T ug )AaRaRabeSIDII)AHjpSIQI ` ` C f T PH i T

s)aH(aHSpf &j eIdQRaabDis P Y X e y RH T Y q R H H ` i TH P f HR ` V (STQ(Ya)c HjGQ(YSprx a(fP WU `x SGQH((paHBSQSQB u H P P f u Y @ f PH TR


El libro del , uno de los muchos derivados de . En realidad, el algoritmo C4.5 se puede considerar un hbrido entre CART y C4. De hecho, permite usar como regla de divisin la ganancia de informacin de ID3, el ndice de diversidad de Gini de CART o el criterio de proporcin de ganancia.

h gf

s|

IeydIQSDi))c aST )(YQ(SIDIIDDpSDCQHaIIdSTGI)s e TH P A HR A CH Y P T i P T C i f u R F P P T cF P T xi A q x H Pi Tf v f H uY T s iAcC i xA PQSDIpwSPQSpSt6))ITD#iS9 4U P R PH E C A 9 ITQSQIFGBCD)B@)8


Uno de los artculos clsicos en Machine Learning. En l se describe el algoritmo . Este algoritmo se enmarca dentro de la familia [ ] de sistemas de aprendizaje, cuyo patriarca es [ ].

hf g

wyWzDo ppjD)pSyDpj| S| u ~ v o{y } u l t ok ~ } z DWpiBjwkWz DD&QjwkwvDssppfjgSlW(i f&ji y y{ o v v t y g xk o u t r q o o n k m k i g g

IydDDipfSDCQaFaHpfSITpY&ipfFaR#IIDIyxQHSDIpwSQSpYSts e C u HR Y X y y P P i T f v f PH u T qrpf()gh)AaCQ(Y(fbGdb)aHISIP WU C fi P H H e cA P A ` Y F X V P R PH E C A 9 ITQSQIFGBCD)B@)8

Вам также может понравиться