Clase

Inteligencia Artificial Redes de Bayes
Inteligencia Artificial 2008
Dra. Silvia Schiaffino
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Construccin Utilizacin Inferencia Probabilstica Aprendizaje Ejemplo de utilizacin Conclusiones
Redes de Bayes
Las Redes de Bayes se usan para modelar dominios que contengan incertidumbre. Se conocen tambin como:
Redes Bayesianas Redes probabilsticas causales Redes de creencias Redes de creencias bayesianas
Incertidumbre: fuentes
Conocimiento incompleto del dominio Entendimiento/comprensin incorrecta del dominio Relaciones en el dominio de naturaleza no determinstica (ej: enfermedades y sntomas) Trminos involucrados muy vagos (grande, hermosa, dolor) Realizacin de algn tipo de abstraccin Naturaleza aleatoria de los mecanismos que rigen el comportamiento del dominio (ej. modelado de usuarios)
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Concepto
Una Red de Bayes consiste de un conjunto de nodos y de un conjunto de arcos dirigidos entre estos nodos. Los arcos reflejan relaciones causa-efecto dentro del dominio. Estos efectos normalmente no son determinsticos (ej: enfermedad sntoma). La fuerza de un efecto es modelada como una probabilidad. La base matemtica est dada por el Teorema de Bayes.
Definicin
Una Red Bayesiana es un grafo dirigido acclico (GDA) donde cada nodo representa una variable aleatoria y los arcos entre los nodos representan dependencias probabilsticas entre las variables. Cada nodo contiene los estados de la variable que representa y una tabla de probabilidad condicional (CPT). La CPT de un nodo contiene las probabilidades de que el nodo est en un estado especfico dados los estados de sus padres.
Ladrn Terremoto
Alarma Llamar a Juan Inteligencia Artificial 2008 Llamar a Mary
Nodos
Un nodo representa una variable aleatoria discreta con un nmero finito de estados o una variable aleatoria continua (distribucin Gaussiana). Si un nodo no tiene padres, el nodo contendr una tabla de probabilidad marginal. Si el nodo es discreto, contiene una distribucin de probabilidad sobre los estados de la variable que representa. Si el nodo es continuo, contiene una funcin de densidad Gaussiana (dada por la media y la varianza) para la variable aleatoria que representa.
Tablas de Probabilidad
Si el nodo tiene padres, contiene una tabla de probabilidad condicional (CPT). Si el nodo es discreto, cada celda en la CPT de un nodo contiene una probabilidad condicional para cada estado en que pueda estar el nodo dada una configuracin especfica de los estados de sus padres. Si el nodo es continuo, la CPT contiene una media y una varianza para cada configuracin de los estados de sus padres discretos (una si no hay padres discretos) y un coeficiente de regresin por cada padre continuo.
Ejemplo 1: Apple Jack

Un da Apple Jack descubre que su mejor rbol de manzanas est perdiendo sus hojas. Entonces, quiere saber qu est pasando. l sabe que si el rbol est seco (causado por una sequa) es muy comn que pierda sus hojas. Por el otro lado, perder las hojas puede ser un indicio de que el rbol est enfermo.
Ejemplo 1
Dry=yes 0.1
P(sick)
Dry=no 0.9 Sick=yes 0.1
P(dry)
Sick=no 0.9
p(Loses/ Sick, Dry) Loses=yes Loses=no
Dry=yes Dry=yes Sick=yes Sick=no 0.95 0.05 0.85 0.15
Dry=no Dry=no Sick=yes Sick=no 0.90 0.10 0.02 0.98

Dependencias causales
Cuando existe una dependencia causal de un nodo A a un nodo B, se espera que cuando A est en un cierto estado esto tiene un impacto en el estado de B. En el ejemplo, existe un vnculo causal de Sick a Loses porque cuando un rbol est enfermo puede causar que pierda las hojas.
Independencia Condicional
Dos conjuntos de variables A y B son (condicionalmente) independientes de un tercer conjunto C si cuando los valores de C son conocidos, el conocimiento acerca de B no provee ms informacin sobre los valores de A. p(A/B,C) = p(A/C)
Ejemplo 2
p(Bronchitis/Visit Asia,Smoker) = p(Bronchitis/Smoker)

Distribucin de Probabilidad Conjunta
Dado un conjunto de variables V1,V2,...,Vk cuyos valores se denotan v1,v2,....,vk, una expresin de la forma p(V1,V2,...,Vk) se denomina funcin de probabilidad conjunta sobre las variables V1,V2,.....,Vk.
Ejemplo 3: Robot
Un robot es capaz de levantar una bandeja si la bandeja es liviana y si las bateras de la fuente de energa del robot estn cargadas. Si estas condiciones se satisfacen, entonces cuando el robot trata de levantar la bandeja, mueve sus brazos. Se determina si la batera est cargada mediante un medidor.
Ejemplo 3: Red
P(B) = 0.95 B P(L) = 0.7 L
G P(G/B) = 0.95 P(G/B) = 0.1
P(M/B,L) = 0.9 P(M/B,L) = 0.05 P(M/B,L) = 0.0 P(M/B,L) = 0.0
Ejemplo 3
Probabilidad Conjunta P(B,M,L,G) 4 variables binarias conjuntas (B,M,L,G) (V,V,V,V) (V,V,V,F) (V,V,F,V) (V,V,F,F) ... 16 probabilidades
Prob. Conj. 0.5686 0.0299 0.0135 0.0007 ...
Ejemplo 3
Probabilidad Conjunta
P(A,B,D,L,S,X,T)
7 variables binarias
128 Probs. Conjuntas!!!!
Problema de la Probabilidad Conjunta

Se necesitan en el orden de 2k valores para definir la funcin de probabilidad conjunta.
Solucin Las relaciones de independencia condicional entre las variables contribuyen a la disminucin de la complejidad del problema
Caractersticas principales
Representacin compacta de distribuciones de probabilidades via independencia condicional Family of Alarm E B P(A | E,B) Parte cualitativa: Burglary Earthquake Grafo dirigido acclico (gda) Nodos - variables aleatorias Arcos influencia directa
Radio
Alarm
e e e e
b b b b
0.9 0.1 0.2 0.8 0.9 0.1
0.01 0.99
Juntos: Definen una nica distribucin conjunta de manera factorizada
Call
Parte cuantitativa: Conjunto de distribuciones de probabilidades condicionales

P (B , E , A, C , R ) = P (B )P (E )P (A | B , E )P (R | E )P (C | A)
Semntica de las Redes de Bayes

S L X C E D
Independencias condicionales en la estructura de la red Distribucin de Modelos de probabilidad + probabilidades = conjunta sobre locales un dominio
P (s , c , l , e , x , d ) = P (s ) P (c ) P (l | s ) P (e | s , c ) P (x | l ) P (d | l , e )
Representacin natural y compacta:
nodos tienen k padres O(2 kn) vs. O(2 n) parmetros parmetros naturales y fciles de elicitar.
Ventajas
Teora de probabilidades
Mtodo consistente y axiomtico para razonar en condiciones de incertidumbre
+ Redes Bayesianas
Forma intuitiva de representar y razonar con relaciones entre eventos inciertos
Teora normativa para disear agentes o sistemas capaces de razonar y actuar bajo condiciones de incertidumbre
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Utilizacin Inferencia Probabilstica Construccin Aprendizaje Ejemplo de utilizacin Conclusiones
Utilizacin de Redes de Bayes

Obtener los valores de probabilidades de ciertas variables de inters a partir de la informacin (evidencia) del estado de otras variables. Ej: Sabemos que el rbol est perdiendo sus hojas, cul es la probabilidad de que el rbol est enfermo? Y cul es la probabilidad de que el rbol est seco?
Inferencia
Inferencia probabilstica
Consiste en calcular probabilidades de inters a partir de una distribucin de probabilidades conjunta. La estructura de la red de Bayes permite calcular cualquier probabilidad de inters; donde la independencia condicional simplifica el clculo
Inferencia en Redes de Bayes

La inferencia consiste en el clculo de los resultados a una consulta (distribucin de probabilidades) con respecto a una red dada y a la presencia de cierta evidencia P(A/E) Red E Evidencia P(A/E)? Consulta
Inferencia
a0
a1
Ejemplo
Consulta: est enfermo el rbol?
Evidencia: el rbol pierde las hojas
Distribuciones tras inferencia
Teorema de Bayes
Vi Vj
p(Vi / Vj ) =
p(Vj / Vi ) p(Vi ) p(Vj )
El teorema de Bayes nos dice como obtener una probabilidad a posteriori en una hiptesis Vi luego de la observacin de alguna evidencia Vj, dadas la probabilidad a priori de Vi y la probabilidad de observar Vj dado Vi.
Ejemplo Teorema de Bayes

Si una persona ve que un brazo del robot se est moviendo, se quiere obtener la probabilidad de que esto haya ocurrido cuando la batera est descargada. Evidencia: p(M = V) Probabilidad a priori: p(B = F) Probabilidad condicional: p(M = V / B = F)
P(B = F / M = V) = p( M = V / B = F) p(B = F) / p(M = V)
10
Inferencia en Redes de Bayes

Inferencia causal o top-down
Inferencia de diagnstico o bottom-up
Explicacin
Inferencia Causal
Probabilidad de que el brazo se mueva dado que la bandeja es liviana P(M/L) Consulta Evidencia
p(M/L) = p(M,B/L) + p(M, B/L)
expansin
= p(M/B,L) P(B/L)+ p(M/ B,L) P(B/L) = p(M/B,L) P(B)+ p(M/ B,L) P(B)
Inferencia Diagnstico
Probabilidad de que la bandeja est pesada dado que el brazo no se mueve P(L/M) Causa Efecto
p(L/M) = p(M/L) p(L) / p(M)
Bayes
Se resuelve p(M/L) usando razonamiento causal
11
Explicacin
Evidencia: M, el brazo no se mueve P(L) ? Si se conoce tambin B, entonces L resulta ser menos seguro o acertado. Se dice que B explica M, haciendo que L sea menos cierto. Se utiliza un razonamiento causal embebido en uno de diagnstico. p(L/B,M) = p(M,B/ L) p( L) / p(B,M) Bayes
= p(M/B, L)p(B/ L) p( L) / p(B,M) = p(M/B, L)p(B) p( L) / p(B,M)

Red
Inferencia exacta
A pesar de poder explotar las propiedades de la red, la inferencia probabilstica exacta en una red de Bayes arbitraria es NP-hard. Para muchas aplicaciones, donde las redes son pequeas o pueden simplificarse, la complejidad puede no ser fatal. La inferencia aproximada (mtodos de Monte Carlo) es tambin NP-hard
Algoritmos de Inferencia
Existen numerosos algoritmos de inferencia implementados
Centrados en operaciones algebraicas

Variable Elimination [Zhang96] Bucket Elimination [Dechter99] SPI [DAmbrosio94]
Centrados en propiedades grficas

Junction trees [Jensen96]
12
Algoritmos de inferencia
Aprovechan las relaciones de independencia condicional para calcular las probabilidades:
Algoritmos que invierten los arcos de la red hasta que la respuesta a la consulta quede leerse directamente del grafo [Howard81, Olmsted83] Pasaje de mensajes que actualizan las distribuciones de probabilidades para cada nodo en respuesta a la observacin de una o ms variables [Pearl86] Simplificacin de sumas y productos en el clculo de probabilidades [DAmbrosio91]
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Utilizacin Inferencia Probabilstica Construccin Aprendizaje Ejemplo de utilizacin Conclusiones
Construccin de la Red
Ingeniera del Conocimiento
Un experto en el dominio identifica los aspectos cualitativos (y a veces cuantitativos) del problema Codificar el conocimiento existente de expertos en una red Usar una base de datos para actualizar este conocimiento: refinar el conocimiento experto original e identificar nuevas relaciones
13
Determinar las variables que intervienen en el modelo Determinar cada uno de los estados o valores que pueden tomar las variables Determinar las relaciones (dependencias) entre las variables Construir un gda que codifique las aserciones de independencia condicional
Cmo obtener los valores de las probabilidades?
Conocimiento de expertos en el dominio Estudios estadsticos Derivados analticamente Aprenderlos a partir de los datos crudos
Cmo obtener la estructura de la red?
A partir del conocimiento de un experto Algoritmos de aprendizaje en Redes de Bayes
Datos completos o incompletos Estructura conocida o desconocida
14
Aprendizaje de Redes de Bayes
Datos + Informacin Previa
B A C
Aprendizaje
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
e b .99 .01
Estructura conocida, datos completos

E, B, A <Y,N,N> <Y,N,Y> <N,N,Y> <N,Y,Y> . . <N,Y,Y>
B A
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?
e b .99 .01
La estructura de la red est especificada

Se necesitan estimar los parmetros (probabilidades)
Los datos no contienen valores faltantes

Estructura desconocida, datos completos

E, B, A <Y,N,N> <Y,N,Y> <N,N,Y> <N,Y,Y> . . <N,Y,Y>
B A
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
? ? ? ? ? ? ? ?
e b .99 .01
La estructura de la red no est especificada

Se necesitan seleccionar los arcos y estimar los parmetros
Los datos no contienen valores faltantes

15
Estructura conocida, datos incompletos

E, B, A <Y,N,N> <Y,?,Y> <N,N,Y> <N,Y,?> . . <?,Y,Y>
B A
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
? ? ? ? ? ? ? ?
e b .99 .01
La estructura de la red est especificada Los datos contienen valores faltantes

Se necesitan considerar asignaciones a los valores faltantes
Estructura desconocida, datos incompletos

E, B, A <Y,N,N> <Y,?,Y> <N,N,Y> <N,Y,?> . . <?,Y,Y>
B A
? ? ? ? ? ? ? ?
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
e b .99 .01
La estructura de la red no est especificada

Se necesitan seleccionar los arcos y estimar los parmetros
Los datos contienen valores faltantes

Se necesitan considerar asignaciones a los valores faltantes
Aprendizaje en Redes de Bayes

Aprendizaje paramtrico
Aprender los parmetros que describen el grado de dependencia entre las variables del dominio
Aprendizaje estructural
Aprender las dependencias entre las variables que intervienen en el problema
16
Aprendizaje paramtrico
Aprendizaje Adaptativo
Se utiliza cuando se quieren adaptar todas o algunas de las tablas de probabilidad condicional a partir de un nuevo conjunto de datos.
Aprendizaje Batch
Se utiliza cuando se quieren generar las tablas de probabilidad condicional a partir de los datos. Ej: EM (Expectation Maximization), Mtodos de Monte Carlo, Aproximaciones Gaussianas.
Aprendizaje adaptativo
La
adaptacin es el proceso de refinar las probabilidades condicionales especificadas en la Red de Bayes teniendo en cuenta los resultados de experimentos o casos reales.
Se utilizan para ello tablas de experiencia y/o tablas de desvanecimiento.
Un paso del proceso de aprendizaje adaptativo consiste de: - ingresar evidencia, - propagar la evidencia, - y finalmente actualizar (adaptar) las tablas de probabilidad condicional y las tablas de experiencia (stas cuentan el n de observaciones hechas sobre una variable dada).
17
Ejemplo: Tablas de Experiencia

Cantidad de experiencias 10
P(Smoker=yes) = Nro(yes) / (Nro(yes) + Nro(no)) = 10 / 15 = 0.667

Tablas de desvanecimiento (fading)

A veces, las observaciones viejas no son tan importantes como las nuevas en el proceso de adaptacin. Entonces, tenemos que desaprender u olvidar algunas de ellas. Las observaciones nuevas son ms importantes que las viejas, y por lo tanto se les debe dar ms peso durante la adaptacin. Se introduce un factor de desvanecimiento, que indica la tasa con la cual se olvidan las observaciones previas (0 no hay adaptacin, 1 no hay desvanecimiento).
Ejemplo
Smoker?=yes Fading factor(s) = 0.5
N(Smoker=yes) = factor * N(yes-previos) + 1= 0.5 * 5 + 1 = 3.5 N(Smoker=no) = factor * N(no-previos) = 0.5 * 5 = 2.5 N(experiencias) = 3.5 + 2.5 = 6 P(Smoker?=yes) = 3.5 / 6 = 0.58333 P(Somker?=no) = 2.5 / 6 = 0.416667
18
Aprendizaje Batch
A menudo ocurre que muchas (o todas) las distribuciones de probabilidad de las variables en la red son desconocidas, y queremos aprender estas probabilidades (parmetros) a partir de una serie de observaciones obtenidas al realizar experimentos, de la literatura, o de otras fuentes.
Algoritmo EM [Dempster77]
El algoritmo conocido como EM (EstimationMaximization) es uno de los ms utilizados para aprendizaje paramtrico. Permite aproximar una distribucin de probabilidades a partir de datos generalmente incompletos.
Aprendizaje con datos incompletos

La mayora de los datos del mundo real estn incompletos debido a varias razones:
En respuesta a encuestas por email, solamente se devuelven un subconjunto de los formularios En estudios clnicos, una droga se administra solamente a un subconjunto de la muestra de estudio Los datos se sensores gralmente. Contienen valores faltantes
Cmo modelo los valores faltantes? Solucin: descartar todos los registros con datos faltantes. Problema: descartara mucha informacin valiosa (de 10.000 atributos, solamente 5 son faltantes)
19
Modelo para datos faltantes

Datos faltantes: Xmis; Datos observados: Xobs; Total de los datos; X=(Xmis, Xobs) [Rubin76] propuso:
Definir una matriz arbitraria R cuyas filas representen instancias, y donde R(i,j)=1 si el j-simo atributo es observado en la instancia i. Se quiere especificar la distribucin de R. MAR(Missing at random): la distribucin de R no puede depender de los datos faltantes, pero si de los datos observados. R es condicionalmente independiente de Xmis dado Xobs: P(R/Xobs,Xmis) = P(R/Xobs) - MCAR(Missing completely at random): caso especial de MAR cuando la probabilidad de que un atributo sea faltante es una muestra aleatoria de todos los datos, y no est influenciada por la distribucin de los datos observados
Algoritmo EM
Dado algn dato X observado y un modelo parametrizado por un estimador , el objetivo del algoritmo EM (bsico) es encontrar tal que la probabilidad p(X/ ) se maximice. Cada ciclo del algoritmo revisa el valor de de manera de ir aumentando la probabilidad hasta llegar a un valor mximo. : MAP (Maximum a Posteriori), ML (maximum likelihood)
EM
EM explota la dependencia entre los datos faltantes Xmis y los parmetros del modelo Xmis contiene informacin vital para determinar , y a su vez ayuda a encontrar valores probables para Xmis. Idea general: Llenar los valores faltantes Xmis basndose en un estimado inicial, luego reestimar basndose en Xobs y los Xmis completos y repetir hasta que converja.
20
Expectation Maximization
Red Inicial (G,0)

X1 X2 H Y1 Y2 Y3 X3
Red actualizada (G,1) Valores Esperados

N(X1) N(X2) N(X3) N(H, X1, X1, X3) N(Y1, H) N(Y2, H) N(Y3, H) X1 X2 H Y2 Y3 X3
Clculo (E-Step)
Reparametrizacin (M-Step)
Y1
Datos Entrenamiento
Aprendizaje Estructural: Motivacin

Earthquake Alarm Set Burglary
Sound
Si falta un arco
Si sobra un arco
Sound
Sound
No puede ser solucionado ajustando los parmetros Suposiciones errneas acerca del dominio
Aumenta el nmero de parmetros a ser estimados Suposiciones errneas acerca del dominio
Aprendizaje Estructural
Dos enfoques: 1. Basados en restricciones Testear (in)dependencias en los datos (ej. usando tests de hiptesis estadsticos). Encontrar una estructura que sea consistente con las dependencias encontradas. 2. Basados en Optimizacin Definir una mtrica para evaluar los candidatos (segn los datos) Buscar candidato(s) que maximice la mtrica
21
Basados en Optimizaciones
Definir una funcin que evale qu tan bien se asemeja el modelo a los datos
E, B, A <Y,N,N> <Y,Y,Y> <N,N,Y> <N,Y,Y> . . <N,Y,Y>
E A
E A B B
E A
Buscar una estructura que maximice esa funcin

Aprendizaje estructural
Seleccin de modelos
Bsqueda Greedy: Hill-climbing, K2, MCMC EM estructural
Promediado de modelos
MCMC sobre la estructura MCMC sobre los atributos
Otros: heursticas, anlisis de dependencias, matriz de correlacin, etc.
Hill-climbing (bsqueda local)

Se comienza con un grafo G y luego se realiza bsqueda local sobre los vecinos de este grafo Se generan grafos vecinos candidatos agregando, borrando, invirtiendo arcos en el grafo. Se calculan las mtricas sobre cada uno y se selecciona el mejor. G*=max(G) Se elige un grafo que tenga mayor valor de mtrica que el grafo previo (G*>G)
22
Greedy
Se da un orden para los nodos. Inicialmente cada nodo no tiene padres. Luego, se agrega incrementalmente aquel padre cuyo agregado aumente la mtrica de la estructura resultante Cuando el agregado de ningn padre puede aumentar la mtrica, se para el agregado de padres para ese nodo, y se sigue con otro nodo. Se necesita aprender los parmetros de la red
Ejemplos de utilizacin de Redes de Bayes

Modelado de usuarios (reconocer objetivos, planes) Diagnstico mdico (enfermedades de corazn, enfermedades neuromusculares: PathFinder, QMR) Diagnstico de fallas (MS Word y Windows NT: Microsoft troubleshooter, NASA/Rockwell Vista project) Segmentacin e Interpretacin de Imgenes Recuperacin de Informacin (Ricoh helpdesk)
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Construccin Utilizacin Inferencia Probabilstica Aprendizaje Ejemplo de utilizacin: Estilos de aprendizaje Conclusiones
23
Motivacin
Las principales caractersticas que se desean en los sistemas e-learning son que sean adaptativos y personalizados, dado que son usados por una gran variedad de estudiantes con diferentes habilidades y preferencias. Los estilos de aprendizaje pueden ser detectados observando como los estudiantes aprenden e interactan con el sistema de educacin a distancia.
Solucin Propuesta
SAVER
Logs
Estilo de Aprendizaje Red Bayes

Estilos de Aprendizaje
Modelo propuesto por Richard Felder:
Sensitivo Intuitivo Visual Verbal Activo Reflexivo Secuencial Global Percepcin
Entrada Procesamiento Comprensin
24
Percepcin
Sensitivos:
Observacin y recoleccin de datos a travs de los sentidos. Prefieren hechos concretos, muchos ejemplos y problemas para resolver. Prcticos y cuidadosos.
Intuitivos:
Percepcin indirecta a travs de la imaginacin, especulacin y presentimiento. Prefieren todo tipo de informacin abstracta y demostraciones. Innovadores
Procesamiento
Activo:
Realizacin de ciertas actividades con la informacin como debatir, explicar y evaluar los conocimientos. Prefieren los trabajos grupales.
Reflexivo:
Evaluacin y manipulacin de la nueva informacin introspectivamente. Prefieren pensar sobre los nuevos conceptos y realizar trabajos individuales.
Comprensin
Secuencial:
Los alumnos con aprendizaje secuencial tienden a entender la informacin linealmente sin saltar de un tema a otro.
Global:
Los alumnos con aprendizaje global necesitan tener una visin general del tema para despus centrarse en los detalles.
25
Entrada
Visual
Los estudiantes con aprendizaje visual recuerdan mejor lo que ven por lo que sus cursos deben contener un gran nmero de diagramas, imgenes, grficos, cuadros, videos, entre otros.
Verbal
Los estudiantes con aprendizaje verbal retienen ms las explicaciones que leen y escuchan.
Deteccin de Estilos de Aprendizaje

Una de las formas de deteccin utilizada por varios sistemas es a travs de cuestionarios. Se propone la deteccin automtica de estilos a travs de la observacin de la interaccin del alumno con el sistema. La propuesta de deteccin automtica de estilos fue implementada sobre el sistema SAVER (Software de Asistencia Virtual para Educacin Remota).
Acciones Observadas
Material Didctico: Concreto o Abstracto
Acceso Informacin: Saltos, Secuencial
26
Acciones Observadas
Ejercicios: muchos (>75%), pocos (25% - 75%), ninguno
Acceso a Ejemplos: muchos (>75%), pocos (25% - 75%), ninguno
Acciones Observadas
Revisin Examenes: <10%, 10%-20%, >20% Resultados Examenes: alto, medio, bajo
Tiempo Examen: < 50%, 50% - 75 %, > 75%
Acciones Observadas
Mail: redacta, responde, lee
Participacin en foros: postea mensajes, responde, lee mensajes.
27
Acciones Observadas
Chat: es utilizado o no por el estudiante.
Mensajes: postea mensajes, enva SMS, lee Tareas en grupo: propone, contrapropone, lee Participacin : elige soluciones o no participa
Construccin de la Red de Bayes

Determinar las variables del modelo y los estados para cada variable. Construir el grafo acclico definiendo las relaciones entre las variables. Establecer las tablas de probabilidad asociada a cada variable
Estructura del Modelo
28

Foro
IniciaTema Responde Lee
Probabilidad
0.30 0.50 0.20
Comprensin
Acc.= Saltos ER = Alto
Acc.= Saltos ER = Medio
Acc.= Saltos ER = Bajo
Acc = Secuencial ER = Alto 1 0
Acc = Secuencial ER = Medio 0.75 0.25
Acc = Secuencial ER = Bajo 0.5 0.5
Secuencial Global
0 1
0.25 0.75
0.5 0.5
Actualizacin del Modelo

Es necesario grandes cantidades de datos para obtener resultados razonables.
Algoritmo de tipo batch con factor de desvanecimiento

Consiste en reunir un grupo de datos y procesarlos en conjunto. El factor de desvanecimiento da mayor importancia a las nuevas experiencias sobre las antiguas. Se generan archivos XML con los nuevos datos para cargar a la Red.
29
Inferencia
Es el proceso de introducir nuevas observaciones y calcular las nuevas probabilidades que tendrn el resto de las variables de la red. Consiste en calcular las probabilidades a posteriori P(X/Y=yi) de un conjunto de variables X, despues de obtener un conjunto de observaciones Y=yi. El fundamento matemtico en que se basa las Redes de Bayes para llevar a cabo la inferencia es el Teorema de Bayes.
P( A / B) =
P( B / A) * P( A) P(B)
Inferencia: ejemplo
consulta
evidencia
Cursos Experimentales
La tcnica de deteccin de estilos fue evaluada a travs de 3 cursos experimentos con la participacin de ms de 120 alumnos. Se dict un curso en el ao 2005, dos en el ao 2006 y uno en 2007. En el 2006 se mejor los contenidos del curso y se incentivo a los alumnos para trabajar con las herramientas para trabajo colaborativo. En los cursos de Redes de Bayes dictados en el 2006 y 2007 se incorpor la herramienta para trabajo colaborativo
30
Precisin
Se compararon los resultados obtenidos a travs del sistema con los arrojados por el cuestionario ILS. Se consideraron 3 valores por cada dimensin para que los resultados sean comparables. Se defini la ecuacin:
n
precisin =
Sim ( ILS , RB )
1
Resultados - Percepcin
Las Redes de Bayes permitieron obtener con alta precisin el estilo de un estudiante en la dimensin de Percepcin. En esta dimensin es donde se obtuvieron la mayor cantidad de observaciones. La precisin alcanzada en la dimensin Percepcin fue del 66% en el primer curso y luego se mejor al 70%.
Resultados - Comprensin
Se descubrieron pocos estudiantes con aprendizaje Global. Precisin final del 70%, en los primeros cursos la precisin no super el 54%. Problemas encontrados:
La cantidad de contenido en el curso Los alumnos leen todo el material secuencialmente Falta de experiencia de los estudiantes en cursos Web.
31
Resultados - Procesamiento
La mayora de los alumnos se comportaron como estudiantes reflexivos en el sistema. Problemas encontrados:
Falta de incentivacin en el uso de las herramientas colaborativas como chat, foro y mail. Dificultades en el uso de la herramienta ETG.
Publicaciones
Publicaciones en revistas Evaluating Bayesian Networks' Precision for Detecting Students' Learning Styles P. Garca, A. Amandi, S. Schiaffino, M. Campo Computers and Education Vol. 49, N 3, pp. 794-808 Elsevier (2007) An enhanced Bayesian model to detect students' learning styles in Web-based courses - P. Garca, S. Schiaffino, A. Amandi Journal of Computer Assisted Learning, Blackwell Publishing En prensa Publicaciones en Congresos Using Bayesian Networks to Detect Students' Learning Styles in a Web-based Education System - P. Garca, A. Amandi, S. Schiaffino, M. Campo Proceedings de ASAI 05, VII Simposio Argentino de Inteligencia Artificial (34 JAIIO), ISSN 1666 1079 pp. 115 126 Rosario, Argentina, Agosto 2005
Conclusiones
La caracterstica clave de las Redes de Bayes es que proveen un mtodo para descomponer una distribucin de probabilidad conjunta en un conjunto de distribuciones locales.
En sistemas donde las interacciones entre variables son escasas las redes Bayesianas reducen drsticamente el nmero de valores de probabilidades requeridos
32
Conclusiones
Adecuadas para representar y razonar bajo incertidumbre Permiten descubrir nuevo conocimiento combinando conocimiento experto de dominio junto con datos estadsticos Existen algoritmos de inferencia eficientes Separacin de la representacin cualitativa de las influencias entre las variables de la cuantificacin numrica de la rigidez de las influencias
Referencias
B. D'Ambrosio. Symbolic probabilistic inference in large BN2O networks. In R. Lopez de Mantaras and D. Poole, editor, Proc. Tenth Conf. on Uncertainty in Artificial Intelligence, pages 128--135, Seattle, July 1994. R. Dechter. Bucket elimination: A unifying framework for probabilistic inference. In E. Horvits and F. Jensen, editor, Proc. Twelthth Conf. on Uncertainty in Artificial Intelligence, pages 211--219, Portland, Oregon, 1996. R. Dechter - Bucket elimination: A unifying framework for reasoning, Artificial Intelligence 113, (1999), 41-85. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977) J. Roy. Statist. Soc. B 39, 1--38. Jensen, F.V. (1996) An Introduction to Bayesian Networks. Springer Verlag, New York; 178 pages. F. V. Jensen. Bayesian Networks and Decision Graphs, Springer, 2001. S. L. Lauritzen, A. P. Dawid, B. N. Larsen, and H. G. Leimer. Independence properties of directed markov fields. Networks, 20:491--506, 1990 J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Mateo, CA, 1988.
33

Clase

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Clase

Загружено:

Авторское право:

Доступные форматы

Inteligencia Artificial Redes de Bayes

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Alarma Llamar a Juan Inteligencia Artificial 2008 Llamar a Mary

Dra. Silvia Schiaffino

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo 1: Apple Jack

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Dry=no 0.9 Sick=yes 0.1

p(Loses/ Sick, Dry) Loses=yes Loses=no

Dry=yes Dry=yes Sick=yes Sick=no 0.95 0.05 0.85 0.15

Dry=no Dry=no Sick=yes Sick=no 0.90 0.10 0.02 0.98

Inteligencia Artificial 2008

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

p(Bronchitis/Visit Asia,Smoker) = p(Bronchitis/Smoker)

Distribucin de Probabilidad Conjunta

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

G P(G/B) = 0.95 P(G/B) = 0.1

P(M/B,L) = 0.9 P(M/B,L) = 0.05 P(M/B,L) = 0.0 P(M/B,L) = 0.0

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Prob. Conj. 0.5686 0.0299 0.0135 0.0007 ...

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

128 Probs. Conjuntas!!!!

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Problema de la Probabilidad Conjunta

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

0.9 0.1 0.2 0.8 0.9 0.1

Juntos: Definen una nica distribucin conjunta de manera factorizada

Parte cuantitativa: Conjunto de distribuciones de probabilidades condicionales

Semntica de las Redes de Bayes

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Utilizacin de Redes de Bayes

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Inferencia en Redes de Bayes

Evidencia: el rbol pierde las hojas

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Distribuciones tras inferencia

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

p(Vj / Vi ) p(Vi ) p(Vj )

Inteligencia Artificial 2008

Dra. Silvia Schiaffino

Ejemplo Teorema de Bayes

P(B = F / M = V) = p( M = V / B = F) p(B = F) / p(M = V)

Inteligencia Artificial 2008