Академический Документы
Профессиональный Документы
Культура Документы
L. Enrique Sucar
INAOE
Sesin 6:
Clasificadores Bayesianos
La teora de probabilidades en el fondo no
es nada ms que sentido comn reducido a
clculos ...
[Pierre Simon Laplace, 1819]
Clasificadores
Introduccin a Clasificacin
Clasificador bayesiano simple
Extensiones - TAN, BAN
Mejora estructural
Clasificadores multidimensionales
Discriminadores lineales y discretizacin
Evaluacin
L.E. Sucar: MGP - Bsicos
Clasificacin
El concepto de clasificacin tiene dos
significados:
No supervisada: dado un conjunto de datos,
establecer clases o agrupaciones (clusters)
Supervisada: dadas ciertas clases, encontrar
una regla para clasificar una nueva observacin
dentro de las clases existentes
Clasificacin
El problema de clasificacin (supervisada)
consiste en obtener el valor ms probable de una
variable (hiptesis) dados los valores de otras
variables (evidencia, atributos)
ArgH [ Max P(H | E1, E2, ...EN) ]
ArgH [ Max P(H | E) ]
E = {E1, E2, ...EN}
L.E. Sucar: MGP - Bsicos
Tipos de Clasificadores
Mtodos estadsticos clsicos
Clasificador bayesiano simple (naive Bayes)
Descriminadores lineales
Modelos de dependencias
Redes bayesianas
Aprendizaje simblico
rboles de decisin, reglas,
Clasificacin
Consideraciones para un clasificador:
Exactitud proporcin de clasificaciones
correctas
Rapidez tiempo que toma hacer la
clasificacin
Claridad que tan comprensible es para los
humanos
Tiempo de aprendizaje tiempo para obtener o
ajustar el clasificador a partir de datos
L.E. Sucar: MGP - Bsicos
Regla de Bayes
La probabilidad posterior se puede obtener
en base a la regla de Bayes:
P(H | E) = P(H) P(E | H) / P(E)
P(H | E) = P(H) P(E | H) / i P(E | Hi ) P(Hi)
Normalmente no se requiere saber el valor
de probabilidad, solamente el valor ms
probable de H
L.E. Sucar: MGP - Bsicos
Regla de Bayes
Para el caso de 2 clases H:{0, 1}, la regla de
decisin de Bayes es:
H*(E) = 1 si P(H=1 | E) > 1/2
0, de otra forma
Se puede demostrar que la regla de Bayes es
ptima
Valores Equivalentes
Se puede utilizar cualquier funcin
monotnica para la clasificacin:
ArgH [ Max P(H | E) ]
ArgH [ Max P(H) P(E | H) / P(E) ]
ArgH [ Max P(H) P(E | H) ]
ArgH [ Max log {P(H) P(E | H)} ]
ArgH [ Max ( log P(H) + log P(E | H) ) ]
L.E. Sucar: MGP - Bsicos
10
11
Ejemplo
Para el caso del golf, cul es la accin ms
probable (jugar / no-jugar) dado el
ambiente y la temperatura?
12
Ventajas
13
Limitaciones
En muchas ocasiones la suposicin de independencia
condicional no es vlida
Para variables continuas, existe el problema de
discretizacin
Alternativas dependencias:
Estructuras que consideran dependencias
Mejora estructural del clasificador
14
A1
A2
An
15
P(C)
P(A|C)
P(C|A)
Generativo
Descriminativo
16
Extensiones
TAN
Se incorpora algunas
dependencias entre
atributos mediante la
construccin de un
rbol entre ellos
A1
A2
An
17
Extensiones
BAN
A1
An
A2
L.E. Sucar: MGP - Bsicos
18
Extensiones
Los clasificadores TAN y BAN son en
casos particulares de redes bayesianas, por
lo que para realizar el aprendizaje y
clasificacin en base a estos modelos se
utilizan tcnicas de redes bayesianas
Mejora estructural
Otra alternativa para mejorar el CBS es partir de
una estructura simple y modificarla mediante:
Eliminacin de atributos irrelevantes (seleccin de
atributos)
Verificacin de las relaciones de independencia entre
atributos y alterando la estructura:
Eliminar nodos
Combinar nodos
Insertar nodos
L.E. Sucar: MGP - Bsicos
20
Eliminacin de atributos
Medir la dependencia entre la clase y atributos
(por ejemplo con la informacin mutua), y
eliminar aquellos con poca aportacin
C
A1
A2
A3
A4
21
Mejora estructural
22
Mejora Estructural
Z
X
XY
L.E. Sucar: MGP - Bsicos
Y
23
Atributos redundantes
Prueba de dependencia entre cada atributo
y la clase
Informacin mutua:
I(C, Ai) = P(C, Ai) log [P(C, Ai) / P(C) P(Ai)]
24
Atributos dependientes
Prueba de independencia de cada atributo
dada la clase
Informacin mutua condicional
I(Ai, Aj | C) =
25
Ejemplo:
clasificacin de piel
9 atributos - 3 modelos de color: RGB,
HSV, YIQ
S
Q
26
Mejora estructural
Elimina B
S
Q
27
Elimina Q
S
I
28
Elimina H
S
S
L.E. Sucar: MGP - Bsicos
I
29
Unir RG
S
RG
S
L.E. Sucar: MGP - Bsicos
I
30
Elimina V
S
RG
S
L.E. Sucar: MGP - Bsicos
I
31
Elimina S
S
RG
Y
L.E. Sucar: MGP - Bsicos
I
32
Clasificadores
Multidimensionales
A diferencia de los clasificadores tradicionales
(de una dimensin), los clasificadores
multidimensionales asignan cada instancia a
varias clases a la vez
Ejemplos:
Textos, un documento puede pertenecer a varias
categoras
Gentica, un gen puede tener varias funciones
Imgenes, una imagen puede tener varios objetos
Clasificadores
Multidimensionales
En un clasificador multidimensional se desea maximizar
la probabilidad del conjunto posible de clases dados los
atributos:
Enfoques Bsicos
Existen dos enfoques bsicos para resolver este
problema:
Binario: se separa en m clasificadores
independientes y se obtiene un clasificador
independiente para cada clase, y luego se concatena el
resultado (no considera la dependencia entre clases)
Conjunto potencia: se forma una variable clase global
que es la combinacin de todas las clases individuales
(complejidad computacional, aumenta
exponencialmente con el nmero de clases base)
Clasificadores Bayesianos
Multidimensionales
Para considerar las dependencias entre clases y
atributos, se construye un modelo grfico de 3
capas:
Dependencias entre Clases
Dependencias entre Atributos
Dependencias entre Clases y Atributos
Clasificadores Bayesianos
Multidimensionales
Subgrafo
de Clases
c1
c3
c2
c4
Puente
Subgrafo
de atributos
a2
a1
a3
a4
a5
Clasificadores en Cadena
Otra alternativa ms sencilla es partir de
clasificadores binarios y agregar otras clases
como atributos para de cierta forma tomar en
cuenta las dependencias entre clases
Se forma una cadena entre las clases de forma
que las clases previas en la cadena se incluyen
como atributos de las siguientes clases
Clasificadores en Cadena
c1
c2
c3
c4
Clasificadores en Cadena
Bayesianos
Se aprende un modelo de dependencias
entre clases (red bayesiana)
El modelo de dependencias puede ser de
diversos tipos: rbol, polirbol, red
multiconectada
Dicho modelo se utiliza para definir el
orden de la cadena y los atributos
adicionales que se incluyen en cada clase
Clasificadores en Cadena
Bayesianos
Descriminador lineal
Se define un hiperplano (descriminante) que es
una combinacin lineal de los atributos:
g(X) = aj xj,
xj valores de los atributos,
a1 ...an - coeficientes
Asumiendo una distribucin normal multivariada,
se puede obtener la ecuacin del hiperplano en
funcin de los promedios y covarianzas de las
clases
L.E. Sucar: MGP - Bsicos
42
Descriminador lineal
X2
C2
C1
X1
L.E. Sucar: MGP - Bsicos
43
Descriminador Lineal
Para el caso gaussiano, la probabilidad
posterior es una funcin logstica (rampa):
P( Cn | X ) = 1 / [ 1 + exp ( -TX) ]
Donde el parmetro depende de las
medias y covarianzas de las distribuciones
condicionales de cada clase
44
Discretizacin
Si los atributos no siguen una distribucin
gaussiana, la alternativa es convertirlos a
discretos agrupando los valores en un
conjunto de rangos o intervalos
Dos tipos de tcnicas de discretizacin:
No supervisada: no considera la clase
Supervisada: en base a la clase
L.E. Sucar: MGP - Bsicos
45
Discretizacin no supervisada
Intervalos iguales
Intervalos con los mismos datos
En base al histograma
46
Discretizacin supervisada
Considerando los posibles cortes entre
clases:
Probar clasificador (con datos diferentes)
Utilizar medidas de informacin (p. ej., reducir
la entropa)
47
48
49
Referencias
Clasificadores:
D. Michie, D.J. Spiegelhalter , C.C. Taylor, Machine
Learning, Neural and Statistical Classification, Ellis
Horwood, 1994
L. E. Sucar, D. F. Gillies, D. A. Gillies, "Objective
Probabilities in Expert Systems", Artificial Intelligence
Journal, Vol. 61 (1993) 187-208.
J. Cheng, R. Greiner, Comparing Bayesian network
classifiers, UAI99, 101-108.
M. Pazzani, Searching for attribute dependencies in
Bayesian classifiers, Preliminary Papers of Intelligence
and Statistics, 424-429.
M. Martnez, L.E. Sucar, Learning an optimal naive
Bayesian classifier, ICPR, 2006
L.E. Sucar: MGP - Bsicos
50
Referencias
Clasificadores multidimensionales:
Read, et al., Classifier chains for multilabel
classification, ECML/PKDD, 2009
Bielza, Li, Larraaga, Multidimensional classification
with Bayesian networks, IJAR, 2011
Zaragoza, Sucar, Morales, Larraaga, Bielza, Bayesian
chain classifiers for multidimensional classification,
IJCAI, 2011
Evaluacin:
C. Drummond, R. C. Holte, Explicitly representing
expected cost: an alternative to the ROC representation.
L.E. Sucar: MGP - Bsicos
51
Actividades
Leer referencias de clasificadores
Ejercicios clasificacin
Ejercicios con Weka (entregar)
52