Вы находитесь на странице: 1из 33

Inteligencia Artificial Redes de Bayes

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Construccin Utilizacin Inferencia Probabilstica Aprendizaje Ejemplo de utilizacin Conclusiones

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Redes de Bayes
Las Redes de Bayes se usan para modelar dominios que contengan incertidumbre. Se conocen tambin como:
Redes Bayesianas Redes probabilsticas causales Redes de creencias Redes de creencias bayesianas

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Incertidumbre: fuentes
Conocimiento incompleto del dominio Entendimiento/comprensin incorrecta del dominio Relaciones en el dominio de naturaleza no determinstica (ej: enfermedades y sntomas) Trminos involucrados muy vagos (grande, hermosa, dolor) Realizacin de algn tipo de abstraccin Naturaleza aleatoria de los mecanismos que rigen el comportamiento del dominio (ej. modelado de usuarios)
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Concepto
Una Red de Bayes consiste de un conjunto de nodos y de un conjunto de arcos dirigidos entre estos nodos. Los arcos reflejan relaciones causa-efecto dentro del dominio. Estos efectos normalmente no son determinsticos (ej: enfermedad sntoma). La fuerza de un efecto es modelada como una probabilidad. La base matemtica est dada por el Teorema de Bayes.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Definicin
Una Red Bayesiana es un grafo dirigido acclico (GDA) donde cada nodo representa una variable aleatoria y los arcos entre los nodos representan dependencias probabilsticas entre las variables. Cada nodo contiene los estados de la variable que representa y una tabla de probabilidad condicional (CPT). La CPT de un nodo contiene las probabilidades de que el nodo est en un estado especfico dados los estados de sus padres.
Ladrn Terremoto

Alarma Llamar a Juan Inteligencia Artificial 2008 Llamar a Mary

Dra. Silvia Schiaffino

Nodos
Un nodo representa una variable aleatoria discreta con un nmero finito de estados o una variable aleatoria continua (distribucin Gaussiana). Si un nodo no tiene padres, el nodo contendr una tabla de probabilidad marginal. Si el nodo es discreto, contiene una distribucin de probabilidad sobre los estados de la variable que representa. Si el nodo es continuo, contiene una funcin de densidad Gaussiana (dada por la media y la varianza) para la variable aleatoria que representa.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Tablas de Probabilidad
Si el nodo tiene padres, contiene una tabla de probabilidad condicional (CPT). Si el nodo es discreto, cada celda en la CPT de un nodo contiene una probabilidad condicional para cada estado en que pueda estar el nodo dada una configuracin especfica de los estados de sus padres. Si el nodo es continuo, la CPT contiene una media y una varianza para cada configuracin de los estados de sus padres discretos (una si no hay padres discretos) y un coeficiente de regresin por cada padre continuo.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Ejemplo 1: Apple Jack


Un da Apple Jack descubre que su mejor rbol de manzanas est perdiendo sus hojas. Entonces, quiere saber qu est pasando. l sabe que si el rbol est seco (causado por una sequa) es muy comn que pierda sus hojas. Por el otro lado, perder las hojas puede ser un indicio de que el rbol est enfermo.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo 1
Dry=yes 0.1
P(sick)

Dry=no 0.9 Sick=yes 0.1

P(dry)

Sick=no 0.9

p(Loses/ Sick, Dry) Loses=yes Loses=no

Dry=yes Dry=yes Sick=yes Sick=no 0.95 0.05 0.85 0.15

Dry=no Dry=no Sick=yes Sick=no 0.90 0.10 0.02 0.98


Dra. Silvia Schiaffino

Inteligencia Artificial 2008

Dependencias causales
Cuando existe una dependencia causal de un nodo A a un nodo B, se espera que cuando A est en un cierto estado esto tiene un impacto en el estado de B. En el ejemplo, existe un vnculo causal de Sick a Loses porque cuando un rbol est enfermo puede causar que pierda las hojas.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Independencia Condicional

Dos conjuntos de variables A y B son (condicionalmente) independientes de un tercer conjunto C si cuando los valores de C son conocidos, el conocimiento acerca de B no provee ms informacin sobre los valores de A. p(A/B,C) = p(A/C)

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo 2

p(Bronchitis/Visit Asia,Smoker) = p(Bronchitis/Smoker)


Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Distribucin de Probabilidad Conjunta

Dado un conjunto de variables V1,V2,...,Vk cuyos valores se denotan v1,v2,....,vk, una expresin de la forma p(V1,V2,...,Vk) se denomina funcin de probabilidad conjunta sobre las variables V1,V2,.....,Vk.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo 3: Robot
Un robot es capaz de levantar una bandeja si la bandeja es liviana y si las bateras de la fuente de energa del robot estn cargadas. Si estas condiciones se satisfacen, entonces cuando el robot trata de levantar la bandeja, mueve sus brazos. Se determina si la batera est cargada mediante un medidor.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo 3: Red
P(B) = 0.95 B P(L) = 0.7 L

G P(G/B) = 0.95 P(G/B) = 0.1

P(M/B,L) = 0.9 P(M/B,L) = 0.05 P(M/B,L) = 0.0 P(M/B,L) = 0.0

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo 3
Probabilidad Conjunta P(B,M,L,G) 4 variables binarias conjuntas (B,M,L,G) (V,V,V,V) (V,V,V,F) (V,V,F,V) (V,V,F,F) ... 16 probabilidades

Prob. Conj. 0.5686 0.0299 0.0135 0.0007 ...

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo 3
Probabilidad Conjunta

P(A,B,D,L,S,X,T)

7 variables binarias

128 Probs. Conjuntas!!!!

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Problema de la Probabilidad Conjunta


Se necesitan en el orden de 2k valores para definir la funcin de probabilidad conjunta.

Solucin Las relaciones de independencia condicional entre las variables contribuyen a la disminucin de la complejidad del problema

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Caractersticas principales
Representacin compacta de distribuciones de probabilidades via independencia condicional Family of Alarm E B P(A | E,B) Parte cualitativa: Burglary Earthquake Grafo dirigido acclico (gda) Nodos - variables aleatorias Arcos influencia directa

Radio

Alarm

e e e e

b b b b

0.9 0.1 0.2 0.8 0.9 0.1

0.01 0.99

Juntos: Definen una nica distribucin conjunta de manera factorizada

Call

Parte cuantitativa: Conjunto de distribuciones de probabilidades condicionales


Dra. Silvia Schiaffino

P (B , E , A, C , R ) = P (B )P (E )P (A | B , E )P (R | E )P (C | A)
Inteligencia Artificial 2008

Semntica de las Redes de Bayes


S L X C E D
Independencias condicionales en la estructura de la red Distribucin de Modelos de probabilidad + probabilidades = conjunta sobre locales un dominio

P (s , c , l , e , x , d ) = P (s ) P (c ) P (l | s ) P (e | s , c ) P (x | l ) P (d | l , e )
Representacin natural y compacta:
nodos tienen k padres O(2 kn) vs. O(2 n) parmetros parmetros naturales y fciles de elicitar.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Ventajas
Teora de probabilidades
Mtodo consistente y axiomtico para razonar en condiciones de incertidumbre

+ Redes Bayesianas
Forma intuitiva de representar y razonar con relaciones entre eventos inciertos

Teora normativa para disear agentes o sistemas capaces de razonar y actuar bajo condiciones de incertidumbre
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Utilizacin Inferencia Probabilstica Construccin Aprendizaje Ejemplo de utilizacin Conclusiones

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Utilizacin de Redes de Bayes


Obtener los valores de probabilidades de ciertas variables de inters a partir de la informacin (evidencia) del estado de otras variables. Ej: Sabemos que el rbol est perdiendo sus hojas, cul es la probabilidad de que el rbol est enfermo? Y cul es la probabilidad de que el rbol est seco?

Inferencia
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Inferencia probabilstica
Consiste en calcular probabilidades de inters a partir de una distribucin de probabilidades conjunta. La estructura de la red de Bayes permite calcular cualquier probabilidad de inters; donde la independencia condicional simplifica el clculo

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inferencia en Redes de Bayes


La inferencia consiste en el clculo de los resultados a una consulta (distribucin de probabilidades) con respecto a una red dada y a la presencia de cierta evidencia P(A/E) Red E Evidencia P(A/E)? Consulta
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Inferencia

a0

a1

Ejemplo
Consulta: est enfermo el rbol?

Evidencia: el rbol pierde las hojas

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Distribuciones tras inferencia

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Teorema de Bayes
Vi Vj

p(Vi / Vj ) =

p(Vj / Vi ) p(Vi ) p(Vj )

El teorema de Bayes nos dice como obtener una probabilidad a posteriori en una hiptesis Vi luego de la observacin de alguna evidencia Vj, dadas la probabilidad a priori de Vi y la probabilidad de observar Vj dado Vi.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo Teorema de Bayes


Si una persona ve que un brazo del robot se est moviendo, se quiere obtener la probabilidad de que esto haya ocurrido cuando la batera est descargada. Evidencia: p(M = V) Probabilidad a priori: p(B = F) Probabilidad condicional: p(M = V / B = F)

P(B = F / M = V) = p( M = V / B = F) p(B = F) / p(M = V)

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

10

Inferencia en Redes de Bayes


Inferencia causal o top-down

Inferencia de diagnstico o bottom-up

Explicacin

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inferencia Causal
Probabilidad de que el brazo se mueva dado que la bandeja es liviana P(M/L) Consulta Evidencia

p(M/L) = p(M,B/L) + p(M, B/L)

expansin

= p(M/B,L) P(B/L)+ p(M/ B,L) P(B/L) = p(M/B,L) P(B)+ p(M/ B,L) P(B)

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inferencia Diagnstico
Probabilidad de que la bandeja est pesada dado que el brazo no se mueve P(L/M) Causa Efecto

p(L/M) = p(M/L) p(L) / p(M)

Bayes

Se resuelve p(M/L) usando razonamiento causal

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

11

Explicacin
Evidencia: M, el brazo no se mueve P(L) ? Si se conoce tambin B, entonces L resulta ser menos seguro o acertado. Se dice que B explica M, haciendo que L sea menos cierto. Se utiliza un razonamiento causal embebido en uno de diagnstico. p(L/B,M) = p(M,B/ L) p( L) / p(B,M) Bayes

= p(M/B, L)p(B/ L) p( L) / p(B,M) = p(M/B, L)p(B) p( L) / p(B,M)


Inteligencia Artificial 2008

Red

Dra. Silvia Schiaffino

Inferencia exacta
A pesar de poder explotar las propiedades de la red, la inferencia probabilstica exacta en una red de Bayes arbitraria es NP-hard. Para muchas aplicaciones, donde las redes son pequeas o pueden simplificarse, la complejidad puede no ser fatal. La inferencia aproximada (mtodos de Monte Carlo) es tambin NP-hard
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Algoritmos de Inferencia
Existen numerosos algoritmos de inferencia implementados

Centrados en operaciones algebraicas


Variable Elimination [Zhang96] Bucket Elimination [Dechter99] SPI [DAmbrosio94]

Centrados en propiedades grficas


Junction trees [Jensen96]
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

12

Algoritmos de inferencia
Aprovechan las relaciones de independencia condicional para calcular las probabilidades:
Algoritmos que invierten los arcos de la red hasta que la respuesta a la consulta quede leerse directamente del grafo [Howard81, Olmsted83] Pasaje de mensajes que actualizan las distribuciones de probabilidades para cada nodo en respuesta a la observacin de una o ms variables [Pearl86] Simplificacin de sumas y productos en el clculo de probabilidades [DAmbrosio91]
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Utilizacin Inferencia Probabilstica Construccin Aprendizaje Ejemplo de utilizacin Conclusiones

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Construccin de la Red
Ingeniera del Conocimiento

Un experto en el dominio identifica los aspectos cualitativos (y a veces cuantitativos) del problema Codificar el conocimiento existente de expertos en una red Usar una base de datos para actualizar este conocimiento: refinar el conocimiento experto original e identificar nuevas relaciones

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

13

Construccin de la Red
Determinar las variables que intervienen en el modelo Determinar cada uno de los estados o valores que pueden tomar las variables Determinar las relaciones (dependencias) entre las variables Construir un gda que codifique las aserciones de independencia condicional

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Construccin de la Red
Cmo obtener los valores de las probabilidades?
Conocimiento de expertos en el dominio Estudios estadsticos Derivados analticamente Aprenderlos a partir de los datos crudos

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Construccin de la Red
Cmo obtener la estructura de la red?
A partir del conocimiento de un experto Algoritmos de aprendizaje en Redes de Bayes

Datos completos o incompletos Estructura conocida o desconocida

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

14

Aprendizaje de Redes de Bayes

Datos + Informacin Previa

B A C

Aprendizaje

E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2

e b .99 .01
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Estructura conocida, datos completos


E, B, A <Y,N,N> <Y,N,Y> <N,N,Y> <N,Y,Y> . . <N,Y,Y>

B A

Aprendizaje
E A B

E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2

E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?

e b .99 .01

La estructura de la red est especificada


Se necesitan estimar los parmetros (probabilidades)

Los datos no contienen valores faltantes


Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Estructura desconocida, datos completos


E, B, A <Y,N,N> <Y,N,Y> <N,N,Y> <N,Y,Y> . . <N,Y,Y>

B A

Aprendizaje
E A B

E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2

E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?

e b .99 .01

La estructura de la red no est especificada


Se necesitan seleccionar los arcos y estimar los parmetros

Los datos no contienen valores faltantes


Inteligencia Artificial 2008 Dra. Silvia Schiaffino

15

Estructura conocida, datos incompletos


E, B, A <Y,N,N> <Y,?,Y> <N,N,Y> <N,Y,?> . . <?,Y,Y>

B A

Aprendizaje
E A B

E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2

E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?

e b .99 .01

La estructura de la red est especificada Los datos contienen valores faltantes


Se necesitan considerar asignaciones a los valores faltantes
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Estructura desconocida, datos incompletos


E, B, A <Y,N,N> <Y,?,Y> <N,N,Y> <N,Y,?> . . <?,Y,Y>

B A

E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?

Aprendizaje
E A B

E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2

e b .99 .01

La estructura de la red no est especificada


Se necesitan seleccionar los arcos y estimar los parmetros

Los datos contienen valores faltantes


Se necesitan considerar asignaciones a los valores faltantes
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Aprendizaje en Redes de Bayes


Aprendizaje paramtrico
Aprender los parmetros que describen el grado de dependencia entre las variables del dominio

Aprendizaje estructural
Aprender las dependencias entre las variables que intervienen en el problema

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

16

Aprendizaje paramtrico
Aprendizaje Adaptativo
Se utiliza cuando se quieren adaptar todas o algunas de las tablas de probabilidad condicional a partir de un nuevo conjunto de datos.

Aprendizaje Batch
Se utiliza cuando se quieren generar las tablas de probabilidad condicional a partir de los datos. Ej: EM (Expectation Maximization), Mtodos de Monte Carlo, Aproximaciones Gaussianas.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Aprendizaje adaptativo

La

adaptacin es el proceso de refinar las probabilidades condicionales especificadas en la Red de Bayes teniendo en cuenta los resultados de experimentos o casos reales.

Se utilizan para ello tablas de experiencia y/o tablas de desvanecimiento.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Aprendizaje adaptativo
Un paso del proceso de aprendizaje adaptativo consiste de: - ingresar evidencia, - propagar la evidencia, - y finalmente actualizar (adaptar) las tablas de probabilidad condicional y las tablas de experiencia (stas cuentan el n de observaciones hechas sobre una variable dada).

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

17

Ejemplo: Tablas de Experiencia


Cantidad de experiencias 10

P(Smoker=yes) = Nro(yes) / (Nro(yes) + Nro(no)) = 10 / 15 = 0.667


Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Tablas de desvanecimiento (fading)


A veces, las observaciones viejas no son tan importantes como las nuevas en el proceso de adaptacin. Entonces, tenemos que desaprender u olvidar algunas de ellas. Las observaciones nuevas son ms importantes que las viejas, y por lo tanto se les debe dar ms peso durante la adaptacin. Se introduce un factor de desvanecimiento, que indica la tasa con la cual se olvidan las observaciones previas (0 no hay adaptacin, 1 no hay desvanecimiento).

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo
Smoker?=yes Fading factor(s) = 0.5

N(Smoker=yes) = factor * N(yes-previos) + 1= 0.5 * 5 + 1 = 3.5 N(Smoker=no) = factor * N(no-previos) = 0.5 * 5 = 2.5 N(experiencias) = 3.5 + 2.5 = 6 P(Smoker?=yes) = 3.5 / 6 = 0.58333 P(Somker?=no) = 2.5 / 6 = 0.416667

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

18

Aprendizaje Batch
A menudo ocurre que muchas (o todas) las distribuciones de probabilidad de las variables en la red son desconocidas, y queremos aprender estas probabilidades (parmetros) a partir de una serie de observaciones obtenidas al realizar experimentos, de la literatura, o de otras fuentes.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Algoritmo EM [Dempster77]
El algoritmo conocido como EM (EstimationMaximization) es uno de los ms utilizados para aprendizaje paramtrico. Permite aproximar una distribucin de probabilidades a partir de datos generalmente incompletos.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Aprendizaje con datos incompletos


La mayora de los datos del mundo real estn incompletos debido a varias razones:
En respuesta a encuestas por email, solamente se devuelven un subconjunto de los formularios En estudios clnicos, una droga se administra solamente a un subconjunto de la muestra de estudio Los datos se sensores gralmente. Contienen valores faltantes

Cmo modelo los valores faltantes? Solucin: descartar todos los registros con datos faltantes. Problema: descartara mucha informacin valiosa (de 10.000 atributos, solamente 5 son faltantes)

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

19

Modelo para datos faltantes


Datos faltantes: Xmis; Datos observados: Xobs; Total de los datos; X=(Xmis, Xobs) [Rubin76] propuso:
Definir una matriz arbitraria R cuyas filas representen instancias, y donde R(i,j)=1 si el j-simo atributo es observado en la instancia i. Se quiere especificar la distribucin de R. MAR(Missing at random): la distribucin de R no puede depender de los datos faltantes, pero si de los datos observados. R es condicionalmente independiente de Xmis dado Xobs: P(R/Xobs,Xmis) = P(R/Xobs) - MCAR(Missing completely at random): caso especial de MAR cuando la probabilidad de que un atributo sea faltante es una muestra aleatoria de todos los datos, y no est influenciada por la distribucin de los datos observados
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Algoritmo EM
Dado algn dato X observado y un modelo parametrizado por un estimador , el objetivo del algoritmo EM (bsico) es encontrar tal que la probabilidad p(X/ ) se maximice. Cada ciclo del algoritmo revisa el valor de de manera de ir aumentando la probabilidad hasta llegar a un valor mximo. : MAP (Maximum a Posteriori), ML (maximum likelihood)
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

EM
EM explota la dependencia entre los datos faltantes Xmis y los parmetros del modelo Xmis contiene informacin vital para determinar , y a su vez ayuda a encontrar valores probables para Xmis. Idea general: Llenar los valores faltantes Xmis basndose en un estimado inicial, luego reestimar basndose en Xobs y los Xmis completos y repetir hasta que converja.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

20

Expectation Maximization

Red Inicial (G,0)


X1 X2 H Y1 Y2 Y3 X3

Red actualizada (G,1) Valores Esperados


N(X1) N(X2) N(X3) N(H, X1, X1, X3) N(Y1, H) N(Y2, H) N(Y3, H) X1 X2 H Y2 Y3 X3

Clculo (E-Step)

Reparametrizacin (M-Step)

Y1

Datos Entrenamiento

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Aprendizaje Estructural: Motivacin


Earthquake Alarm Set Burglary

Sound

Si falta un arco
Earthquake Alarm Set Burglary

Si sobra un arco
Earthquake Alarm Set Burglary

Sound

Sound

No puede ser solucionado ajustando los parmetros Suposiciones errneas acerca del dominio
Inteligencia Artificial 2008

Aumenta el nmero de parmetros a ser estimados Suposiciones errneas acerca del dominio
Dra. Silvia Schiaffino

Aprendizaje Estructural
Dos enfoques: 1. Basados en restricciones Testear (in)dependencias en los datos (ej. usando tests de hiptesis estadsticos). Encontrar una estructura que sea consistente con las dependencias encontradas. 2. Basados en Optimizacin Definir una mtrica para evaluar los candidatos (segn los datos) Buscar candidato(s) que maximice la mtrica
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

21

Basados en Optimizaciones
Definir una funcin que evale qu tan bien se asemeja el modelo a los datos

E, B, A <Y,N,N> <Y,Y,Y> <N,N,Y> <N,Y,Y> . . <N,Y,Y>

E A

E A B B

E A

Buscar una estructura que maximice esa funcin


Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Aprendizaje estructural
Seleccin de modelos
Bsqueda Greedy: Hill-climbing, K2, MCMC EM estructural

Promediado de modelos
MCMC sobre la estructura MCMC sobre los atributos

Otros: heursticas, anlisis de dependencias, matriz de correlacin, etc.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Hill-climbing (bsqueda local)


Se comienza con un grafo G y luego se realiza bsqueda local sobre los vecinos de este grafo Se generan grafos vecinos candidatos agregando, borrando, invirtiendo arcos en el grafo. Se calculan las mtricas sobre cada uno y se selecciona el mejor. G*=max(G) Se elige un grafo que tenga mayor valor de mtrica que el grafo previo (G*>G)

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

22

Greedy
Se da un orden para los nodos. Inicialmente cada nodo no tiene padres. Luego, se agrega incrementalmente aquel padre cuyo agregado aumente la mtrica de la estructura resultante Cuando el agregado de ningn padre puede aumentar la mtrica, se para el agregado de padres para ese nodo, y se sigue con otro nodo. Se necesita aprender los parmetros de la red
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Ejemplos de utilizacin de Redes de Bayes


Modelado de usuarios (reconocer objetivos, planes) Diagnstico mdico (enfermedades de corazn, enfermedades neuromusculares: PathFinder, QMR) Diagnstico de fallas (MS Word y Windows NT: Microsoft troubleshooter, NASA/Rockwell Vista project) Segmentacin e Interpretacin de Imgenes Recuperacin de Informacin (Ricoh helpdesk)

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Construccin Utilizacin Inferencia Probabilstica Aprendizaje Ejemplo de utilizacin: Estilos de aprendizaje Conclusiones

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

23

Motivacin
Las principales caractersticas que se desean en los sistemas e-learning son que sean adaptativos y personalizados, dado que son usados por una gran variedad de estudiantes con diferentes habilidades y preferencias. Los estilos de aprendizaje pueden ser detectados observando como los estudiantes aprenden e interactan con el sistema de educacin a distancia.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Solucin Propuesta

SAVER

Logs

Estilo de Aprendizaje Red Bayes


Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Estilos de Aprendizaje
Modelo propuesto por Richard Felder:
Sensitivo Intuitivo Visual Verbal Activo Reflexivo Secuencial Global Percepcin

Entrada Procesamiento Comprensin

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

24

Percepcin
Sensitivos:
Observacin y recoleccin de datos a travs de los sentidos. Prefieren hechos concretos, muchos ejemplos y problemas para resolver. Prcticos y cuidadosos.

Intuitivos:
Percepcin indirecta a travs de la imaginacin, especulacin y presentimiento. Prefieren todo tipo de informacin abstracta y demostraciones. Innovadores

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Procesamiento
Activo:
Realizacin de ciertas actividades con la informacin como debatir, explicar y evaluar los conocimientos. Prefieren los trabajos grupales.

Reflexivo:
Evaluacin y manipulacin de la nueva informacin introspectivamente. Prefieren pensar sobre los nuevos conceptos y realizar trabajos individuales.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Comprensin
Secuencial:
Los alumnos con aprendizaje secuencial tienden a entender la informacin linealmente sin saltar de un tema a otro.

Global:
Los alumnos con aprendizaje global necesitan tener una visin general del tema para despus centrarse en los detalles.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

25

Entrada
Visual
Los estudiantes con aprendizaje visual recuerdan mejor lo que ven por lo que sus cursos deben contener un gran nmero de diagramas, imgenes, grficos, cuadros, videos, entre otros.

Verbal
Los estudiantes con aprendizaje verbal retienen ms las explicaciones que leen y escuchan.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Deteccin de Estilos de Aprendizaje


Una de las formas de deteccin utilizada por varios sistemas es a travs de cuestionarios. Se propone la deteccin automtica de estilos a travs de la observacin de la interaccin del alumno con el sistema. La propuesta de deteccin automtica de estilos fue implementada sobre el sistema SAVER (Software de Asistencia Virtual para Educacin Remota).

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Acciones Observadas

Material Didctico: Concreto o Abstracto

Acceso Informacin: Saltos, Secuencial

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

26

Acciones Observadas
Ejercicios: muchos (>75%), pocos (25% - 75%), ninguno

Acceso a Ejemplos: muchos (>75%), pocos (25% - 75%), ninguno

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Acciones Observadas
Revisin Examenes: <10%, 10%-20%, >20% Resultados Examenes: alto, medio, bajo

Tiempo Examen: < 50%, 50% - 75 %, > 75%

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Acciones Observadas

Mail: redacta, responde, lee

Participacin en foros: postea mensajes, responde, lee mensajes.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

27

Acciones Observadas

Chat: es utilizado o no por el estudiante.

Mensajes: postea mensajes, enva SMS, lee Tareas en grupo: propone, contrapropone, lee Participacin : elige soluciones o no participa

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Construccin de la Red de Bayes


Determinar las variables del modelo y los estados para cada variable. Construir el grafo acclico definiendo las relaciones entre las variables. Establecer las tablas de probabilidad asociada a cada variable

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Estructura del Modelo

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

28

Estructura del Modelo


Foro
IniciaTema Responde Lee

Probabilidad
0.30 0.50 0.20

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Estructura del Modelo

Comprensin

Acc.= Saltos ER = Alto

Acc.= Saltos ER = Medio

Acc.= Saltos ER = Bajo

Acc = Secuencial ER = Alto 1 0

Acc = Secuencial ER = Medio 0.75 0.25

Acc = Secuencial ER = Bajo 0.5 0.5

Secuencial Global

0 1

0.25 0.75

0.5 0.5

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Actualizacin del Modelo


Aprendizaje adaptativo
Es necesario grandes cantidades de datos para obtener resultados razonables.

Algoritmo de tipo batch con factor de desvanecimiento


Consiste en reunir un grupo de datos y procesarlos en conjunto. El factor de desvanecimiento da mayor importancia a las nuevas experiencias sobre las antiguas. Se generan archivos XML con los nuevos datos para cargar a la Red.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

29

Inferencia
Es el proceso de introducir nuevas observaciones y calcular las nuevas probabilidades que tendrn el resto de las variables de la red. Consiste en calcular las probabilidades a posteriori P(X/Y=yi) de un conjunto de variables X, despues de obtener un conjunto de observaciones Y=yi. El fundamento matemtico en que se basa las Redes de Bayes para llevar a cabo la inferencia es el Teorema de Bayes.

P( A / B) =
Inteligencia Artificial 2008

P( B / A) * P( A) P(B)
Dra. Silvia Schiaffino

Inferencia: ejemplo
consulta

evidencia

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Cursos Experimentales
La tcnica de deteccin de estilos fue evaluada a travs de 3 cursos experimentos con la participacin de ms de 120 alumnos. Se dict un curso en el ao 2005, dos en el ao 2006 y uno en 2007. En el 2006 se mejor los contenidos del curso y se incentivo a los alumnos para trabajar con las herramientas para trabajo colaborativo. En los cursos de Redes de Bayes dictados en el 2006 y 2007 se incorpor la herramienta para trabajo colaborativo

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

30

Precisin
Se compararon los resultados obtenidos a travs del sistema con los arrojados por el cuestionario ILS. Se consideraron 3 valores por cada dimensin para que los resultados sean comparables. Se defini la ecuacin:
n

precisin =

Sim ( ILS , RB )
1

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Resultados - Percepcin

Las Redes de Bayes permitieron obtener con alta precisin el estilo de un estudiante en la dimensin de Percepcin. En esta dimensin es donde se obtuvieron la mayor cantidad de observaciones. La precisin alcanzada en la dimensin Percepcin fue del 66% en el primer curso y luego se mejor al 70%.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Resultados - Comprensin
Se descubrieron pocos estudiantes con aprendizaje Global. Precisin final del 70%, en los primeros cursos la precisin no super el 54%. Problemas encontrados:
La cantidad de contenido en el curso Los alumnos leen todo el material secuencialmente Falta de experiencia de los estudiantes en cursos Web.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

31

Resultados - Procesamiento
La mayora de los alumnos se comportaron como estudiantes reflexivos en el sistema. Problemas encontrados:
Falta de incentivacin en el uso de las herramientas colaborativas como chat, foro y mail. Dificultades en el uso de la herramienta ETG.

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Publicaciones
Publicaciones en revistas Evaluating Bayesian Networks' Precision for Detecting Students' Learning Styles P. Garca, A. Amandi, S. Schiaffino, M. Campo Computers and Education Vol. 49, N 3, pp. 794-808 Elsevier (2007) An enhanced Bayesian model to detect students' learning styles in Web-based courses - P. Garca, S. Schiaffino, A. Amandi Journal of Computer Assisted Learning, Blackwell Publishing En prensa Publicaciones en Congresos Using Bayesian Networks to Detect Students' Learning Styles in a Web-based Education System - P. Garca, A. Amandi, S. Schiaffino, M. Campo Proceedings de ASAI 05, VII Simposio Argentino de Inteligencia Artificial (34 JAIIO), ISSN 1666 1079 pp. 115 126 Rosario, Argentina, Agosto 2005
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Conclusiones
La caracterstica clave de las Redes de Bayes es que proveen un mtodo para descomponer una distribucin de probabilidad conjunta en un conjunto de distribuciones locales.

En sistemas donde las interacciones entre variables son escasas las redes Bayesianas reducen drsticamente el nmero de valores de probabilidades requeridos

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

32

Conclusiones
Adecuadas para representar y razonar bajo incertidumbre Permiten descubrir nuevo conocimiento combinando conocimiento experto de dominio junto con datos estadsticos Existen algoritmos de inferencia eficientes Separacin de la representacin cualitativa de las influencias entre las variables de la cuantificacin numrica de la rigidez de las influencias
Inteligencia Artificial 2008 Dra. Silvia Schiaffino

Referencias
B. D'Ambrosio. Symbolic probabilistic inference in large BN2O networks. In R. Lopez de Mantaras and D. Poole, editor, Proc. Tenth Conf. on Uncertainty in Artificial Intelligence, pages 128--135, Seattle, July 1994. R. Dechter. Bucket elimination: A unifying framework for probabilistic inference. In E. Horvits and F. Jensen, editor, Proc. Twelthth Conf. on Uncertainty in Artificial Intelligence, pages 211--219, Portland, Oregon, 1996. R. Dechter - Bucket elimination: A unifying framework for reasoning, Artificial Intelligence 113, (1999), 41-85. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977) J. Roy. Statist. Soc. B 39, 1--38. Jensen, F.V. (1996) An Introduction to Bayesian Networks. Springer Verlag, New York; 178 pages. F. V. Jensen. Bayesian Networks and Decision Graphs, Springer, 2001. S. L. Lauritzen, A. P. Dawid, B. N. Larsen, and H. G. Leimer. Independence properties of directed markov fields. Networks, 20:491--506, 1990 J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Mateo, CA, 1988.
Dra. Silvia Schiaffino

Inteligencia Artificial 2008

33

Вам также может понравиться