Arboles de Decisión Naive Bayes

Modelos Grficos Probabilistas
L. Enrique Sucar
INAOE
Sesin 6:
Clasificadores Bayesianos
La teora de probabilidades en el fondo no
es nada ms que sentido comn reducido a
clculos ...
[Pierre Simon Laplace, 1819]
Clasificadores
Introduccin a Clasificacin
Clasificador bayesiano simple
Extensiones - TAN, BAN
Mejora estructural
Clasificadores multidimensionales
Discriminadores lineales y discretizacin
Evaluacin
L.E. Sucar: MGP - Bsicos
Clasificacin
El concepto de clasificacin tiene dos
significados:
No supervisada: dado un conjunto de datos,
establecer clases o agrupaciones (clusters)
Supervisada: dadas ciertas clases, encontrar
una regla para clasificar una nueva observacin
dentro de las clases existentes
Clasificacin
El problema de clasificacin (supervisada)
consiste en obtener el valor ms probable de una
variable (hiptesis) dados los valores de otras
variables (evidencia, atributos)
ArgH [ Max P(H | E1, E2, ...EN) ]
ArgH [ Max P(H | E) ]
E = {E1, E2, ...EN}
Tipos de Clasificadores
Mtodos estadsticos clsicos
Clasificador bayesiano simple (naive Bayes)
Descriminadores lineales
Modelos de dependencias
Redes bayesianas
Aprendizaje simblico
rboles de decisin, reglas,
Redes neuronales, SVM,

Clasificacin
Consideraciones para un clasificador:
Exactitud proporcin de clasificaciones
correctas
Rapidez tiempo que toma hacer la
clasificacin
Claridad que tan comprensible es para los
humanos
Tiempo de aprendizaje tiempo para obtener o
ajustar el clasificador a partir de datos
Regla de Bayes
La probabilidad posterior se puede obtener
en base a la regla de Bayes:
P(H | E) = P(H) P(E | H) / P(E)
P(H | E) = P(H) P(E | H) / i P(E | Hi ) P(Hi)
Normalmente no se requiere saber el valor
de probabilidad, solamente el valor ms
probable de H
Regla de Bayes
Para el caso de 2 clases H:{0, 1}, la regla de
decisin de Bayes es:
H*(E) = 1 si P(H=1 | E) > 1/2
0, de otra forma
Se puede demostrar que la regla de Bayes es
ptima
Valores Equivalentes
Se puede utilizar cualquier funcin
monotnica para la clasificacin:
ArgH [ Max P(H | E) ]
ArgH [ Max P(H) P(E | H) / P(E) ]
ArgH [ Max P(H) P(E | H) ]
ArgH [ Max log {P(H) P(E | H)} ]
ArgH [ Max ( log P(H) + log P(E | H) ) ]

Estimar la probabilidad: P(E | H) es complejo, pero se
simplifica si se considera que los atributos son
independientes dada la hipotesis:
P(E1, E2, ...EN | H) = P(E1 | H) P(E2 | H) ... P(EN | H)
Por lo que la probabilidad de la hiptesis dada la
evidencia puede estimarse como:
P(H | E1, E2, ...EN) = P(H) P(E1 | H) P(E2 | H) ... P(EN | H)
P(E)
Esto se conoce como el clasificador bayesiano simple
10

Como veamos, no es necesario calcular el
denominador:
P(H | E1, E2, ...EN) ~
P(H) P(E1 | H) P(E2 | H) ... P(EN | H)
P(H) se conoce como la probabilidad a priori,
P(Ei | H) es la probabilidad de los atributos dada
la hiptesis (verosimilitud), y P(H | E1, E2, ...EN)
es la probabilidad posterior
11
Ejemplo
Para el caso del golf, cul es la accin ms
probable (jugar / no-jugar) dado el
ambiente y la temperatura?
12
Ventajas
Bajo tiempo de clasificacin

Bajo tiempo de aprendizaje
Bajos requerimientos de memoria
Sencillez
Buenos resultados en muchos dominios
13
Limitaciones
En muchas ocasiones la suposicin de independencia
condicional no es vlida
Para variables continuas, existe el problema de
discretizacin
Alternativas dependencias:
Estructuras que consideran dependencias
Mejora estructural del clasificador
Alternativas variables continuas:

Descriminador lineal (variables gaussianas)
Tcnicas de discretizacin
14
CBS modelo grfico

C
A1
A2
An
15
Enfoques para clasificacin

C
P(C)
P(A|C)
P(C|A)
Generativo
Descriminativo
16
Extensiones
TAN
Se incorpora algunas
dependencias entre
atributos mediante la
construccin de un
rbol entre ellos
A1
A2
An
17
Extensiones
BAN
Se incorpora una red

para modelar las
dependencias entre
atributos
A1
An
A2
18
Extensiones
Los clasificadores TAN y BAN son en
casos particulares de redes bayesianas, por
lo que para realizar el aprendizaje y
clasificacin en base a estos modelos se
utilizan tcnicas de redes bayesianas
Mejora estructural
Otra alternativa para mejorar el CBS es partir de
una estructura simple y modificarla mediante:
Eliminacin de atributos irrelevantes (seleccin de
atributos)
Verificacin de las relaciones de independencia entre
atributos y alterando la estructura:
Eliminar nodos
Combinar nodos
Insertar nodos
20
Eliminacin de atributos
Medir la dependencia entre la clase y atributos
(por ejemplo con la informacin mutua), y
eliminar aquellos con poca aportacin
C
A1
A2
A3
A4
21
Mejora estructural
Medir la dependencia entre pares de atributos

dada la clase (por ejemplo mediante la
informacin mutua condicional), alterar la
estructura si hay 2 dependientes:
1.
2.
3.
Eliminacin: quitar uno de los dos (redundantes)

Unin: juntar los 2 atributos en uno, combinando sus
valores
Insercin: insertar un atributo virtual entre la clase
y los dos atributos que los haga independientes.
22
Mejora Estructural
Z
X
XY
Y
23
Atributos redundantes
Prueba de dependencia entre cada atributo
y la clase
Informacin mutua:
I(C, Ai) = P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]
Eliminar atributos que no provean

informacin a la clase
24
Atributos dependientes
Prueba de independencia de cada atributo
dada la clase
Informacin mutua condicional
I(Ai, Aj | C) =
P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)]

Eliminar, unir o (insertar) atributos
25
Ejemplo:
clasificacin de piel
9 atributos - 3 modelos de color: RGB,
HSV, YIQ
S
Q
26
Mejora estructural
Elimina B
S
Q
27
Elimina Q
S
I
28
Elimina H
S
S
I
29
Unir RG
S
RG
S
I
30
Elimina V
S
RG
S
I
31
Exactitud: inicial 94%

final 98%
Elimina S
S
RG
Y
I
32
Clasificadores
Multidimensionales
A diferencia de los clasificadores tradicionales
(de una dimensin), los clasificadores
multidimensionales asignan cada instancia a
varias clases a la vez
Ejemplos:
Textos, un documento puede pertenecer a varias
categoras
Gentica, un gen puede tener varias funciones
Imgenes, una imagen puede tener varios objetos
Clasificadores
Multidimensionales
En un clasificador multidimensional se desea maximizar
la probabilidad del conjunto posible de clases dados los
atributos:
ArgH [ Max P(H1, H2, Hm | E1, E2, ...EN) ]

ArgH [ Max P(H1, H2, Hm | E) ]
E = {E1, E2, ...EN}
Enfoques Bsicos
Existen dos enfoques bsicos para resolver este
problema:
Binario: se separa en m clasificadores
independientes y se obtiene un clasificador
independiente para cada clase, y luego se concatena el
resultado (no considera la dependencia entre clases)
Conjunto potencia: se forma una variable clase global
que es la combinacin de todas las clases individuales
(complejidad computacional, aumenta
exponencialmente con el nmero de clases base)
Multidimensionales
Para considerar las dependencias entre clases y
atributos, se construye un modelo grfico de 3
capas:
Dependencias entre Clases
Dependencias entre Atributos
Dependencias entre Clases y Atributos
Aprender y clasificar con este modelo es

computacionalmente complejo (explicacin ms
probable o MAP)
Multidimensionales
Subgrafo
de Clases
c1
c3
c2
c4
Puente
Subgrafo
de atributos
a2
a1
a3
a4
a5
Clasificadores en Cadena
Otra alternativa ms sencilla es partir de
clasificadores binarios y agregar otras clases
como atributos para de cierta forma tomar en
cuenta las dependencias entre clases
Se forma una cadena entre las clases de forma
que las clases previas en la cadena se incluyen
como atributos de las siguientes clases
c1
c2
c3
c4
Bayesianos
Se aprende un modelo de dependencias
entre clases (red bayesiana)
El modelo de dependencias puede ser de
diversos tipos: rbol, polirbol, red
multiconectada
Dicho modelo se utiliza para definir el
orden de la cadena y los atributos
adicionales que se incluyen en cada clase
Bayesianos
Descriminador lineal
Se define un hiperplano (descriminante) que es
una combinacin lineal de los atributos:
g(X) = aj xj,
xj valores de los atributos,
a1 ...an - coeficientes
Asumiendo una distribucin normal multivariada,
se puede obtener la ecuacin del hiperplano en
funcin de los promedios y covarianzas de las
clases
42
Descriminador lineal
X2
C2
C1
X1
43
Descriminador Lineal
Para el caso gaussiano, la probabilidad
posterior es una funcin logstica (rampa):
P( Cn | X ) = 1 / [ 1 + exp ( -TX) ]
Donde el parmetro depende de las
medias y covarianzas de las distribuciones
condicionales de cada clase
44
Discretizacin
Si los atributos no siguen una distribucin
gaussiana, la alternativa es convertirlos a
discretos agrupando los valores en un
conjunto de rangos o intervalos
Dos tipos de tcnicas de discretizacin:
No supervisada: no considera la clase
Supervisada: en base a la clase
45
Discretizacin no supervisada
Intervalos iguales
Intervalos con los mismos datos
En base al histograma
46
Discretizacin supervisada
Considerando los posibles cortes entre
clases:
Probar clasificador (con datos diferentes)
Utilizar medidas de informacin (p. ej., reducir
la entropa)
Problema de complejidad computacional
47
Costo de mala clasificacin

En realidad, no slo debemos considerar la
clase ms probable si no tambin el costo
de una mala clasificacin
Si el costo es igual para todas las clases,
entonces es equivalente a seleccionar la de
mayor probabilidad
Si el costo es diferente, entonces se debe
minimizar el costo esperado
48
Costo de mala clasificacin

El costo esperado (para dos clases, + y -) est
dado por la siguiente ecuacin:
CE = FN p(-) C(-|+) + FP p(+) C(+|-)
FN: razn de falsos negativos
FP: razn de falsos positivos
p: probabilidad de negativo o positivo
C(-|+): costo de clasificar un positivo como negativo
C(+|-): costo de clasificar un negativo como positivo
Considerando esto y tambin la proporcin de

cada clase, existen tcnicas ms adecuadas para
comparar clasificadores como la curva ROC y las
curvas de costo
49
Referencias
Clasificadores:
D. Michie, D.J. Spiegelhalter , C.C. Taylor, Machine
Learning, Neural and Statistical Classification, Ellis
Horwood, 1994
L. E. Sucar, D. F. Gillies, D. A. Gillies, "Objective
Probabilities in Expert Systems", Artificial Intelligence
Journal, Vol. 61 (1993) 187-208.
J. Cheng, R. Greiner, Comparing Bayesian network
classifiers, UAI99, 101-108.
M. Pazzani, Searching for attribute dependencies in
Bayesian classifiers, Preliminary Papers of Intelligence
and Statistics, 424-429.
M. Martnez, L.E. Sucar, Learning an optimal naive
Bayesian classifier, ICPR, 2006
50
Referencias
Clasificadores multidimensionales:
Read, et al., Classifier chains for multilabel
classification, ECML/PKDD, 2009
Bielza, Li, Larraaga, Multidimensional classification
with Bayesian networks, IJAR, 2011
Zaragoza, Sucar, Morales, Larraaga, Bielza, Bayesian
chain classifiers for multidimensional classification,
IJCAI, 2011
Evaluacin:
C. Drummond, R. C. Holte, Explicitly representing
expected cost: an alternative to the ROC representation.
51
Actividades
Leer referencias de clasificadores
Ejercicios clasificacin
Ejercicios con Weka (entregar)
52

Arboles de Decisión Naive Bayes

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Arboles de Decisión Naive Bayes

Загружено:

Авторское право:

Доступные форматы

Modelos Grficos Probabilistas

L.E. Sucar: MGP - Bsicos

Redes neuronales, SVM,

L.E. Sucar: MGP - Bsicos

Clasificador bayesiano simple

Clasificador bayesiano simple

L.E. Sucar: MGP - Bsicos

Bajo tiempo de clasificacin

L.E. Sucar: MGP - Bsicos

Alternativas variables continuas:

CBS modelo grfico

L.E. Sucar: MGP - Bsicos

Enfoques para clasificacin

L.E. Sucar: MGP - Bsicos

L.E. Sucar: MGP - Bsicos

Se incorpora una red

L.E. Sucar: MGP - Bsicos

Medir la dependencia entre pares de atributos

Eliminacin: quitar uno de los dos (redundantes)

Eliminar atributos que no provean

P(Ai,Aj|C) log [P(Ai,Aj|C) / P(Ai|C) P(Aj|C)]

L.E. Sucar: MGP - Bsicos

L.E. Sucar: MGP - Bsicos

L.E. Sucar: MGP - Bsicos

Exactitud: inicial 94%

ArgH [ Max P(H1, H2, Hm | E1, E2, ...EN) ]

Aprender y clasificar con este modelo es

L.E. Sucar: MGP - Bsicos

L.E. Sucar: MGP - Bsicos

Problema de complejidad computacional

L.E. Sucar: MGP - Bsicos

Costo de mala clasificacin

Costo de mala clasificacin

Considerando esto y tambin la proporcin de

L.E. Sucar: MGP - Bsicos

Вам также может понравиться