Академический Документы
Профессиональный Документы
Культура Документы
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Construccin Utilizacin Inferencia Probabilstica Aprendizaje Ejemplo de utilizacin Conclusiones
Redes de Bayes
Las Redes de Bayes se usan para modelar dominios que contengan incertidumbre. Se conocen tambin como:
Redes Bayesianas Redes probabilsticas causales Redes de creencias Redes de creencias bayesianas
Incertidumbre: fuentes
Conocimiento incompleto del dominio Entendimiento/comprensin incorrecta del dominio Relaciones en el dominio de naturaleza no determinstica (ej: enfermedades y sntomas) Trminos involucrados muy vagos (grande, hermosa, dolor) Realizacin de algn tipo de abstraccin Naturaleza aleatoria de los mecanismos que rigen el comportamiento del dominio (ej. modelado de usuarios)
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Concepto
Una Red de Bayes consiste de un conjunto de nodos y de un conjunto de arcos dirigidos entre estos nodos. Los arcos reflejan relaciones causa-efecto dentro del dominio. Estos efectos normalmente no son determinsticos (ej: enfermedad sntoma). La fuerza de un efecto es modelada como una probabilidad. La base matemtica est dada por el Teorema de Bayes.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Definicin
Una Red Bayesiana es un grafo dirigido acclico (GDA) donde cada nodo representa una variable aleatoria y los arcos entre los nodos representan dependencias probabilsticas entre las variables. Cada nodo contiene los estados de la variable que representa y una tabla de probabilidad condicional (CPT). La CPT de un nodo contiene las probabilidades de que el nodo est en un estado especfico dados los estados de sus padres.
Ladrn Terremoto
Nodos
Un nodo representa una variable aleatoria discreta con un nmero finito de estados o una variable aleatoria continua (distribucin Gaussiana). Si un nodo no tiene padres, el nodo contendr una tabla de probabilidad marginal. Si el nodo es discreto, contiene una distribucin de probabilidad sobre los estados de la variable que representa. Si el nodo es continuo, contiene una funcin de densidad Gaussiana (dada por la media y la varianza) para la variable aleatoria que representa.
Tablas de Probabilidad
Si el nodo tiene padres, contiene una tabla de probabilidad condicional (CPT). Si el nodo es discreto, cada celda en la CPT de un nodo contiene una probabilidad condicional para cada estado en que pueda estar el nodo dada una configuracin especfica de los estados de sus padres. Si el nodo es continuo, la CPT contiene una media y una varianza para cada configuracin de los estados de sus padres discretos (una si no hay padres discretos) y un coeficiente de regresin por cada padre continuo.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Ejemplo 1
Dry=yes 0.1
P(sick)
P(dry)
Sick=no 0.9
Dependencias causales
Cuando existe una dependencia causal de un nodo A a un nodo B, se espera que cuando A est en un cierto estado esto tiene un impacto en el estado de B. En el ejemplo, existe un vnculo causal de Sick a Loses porque cuando un rbol est enfermo puede causar que pierda las hojas.
Independencia Condicional
Dos conjuntos de variables A y B son (condicionalmente) independientes de un tercer conjunto C si cuando los valores de C son conocidos, el conocimiento acerca de B no provee ms informacin sobre los valores de A. p(A/B,C) = p(A/C)
Ejemplo 2
Dado un conjunto de variables V1,V2,...,Vk cuyos valores se denotan v1,v2,....,vk, una expresin de la forma p(V1,V2,...,Vk) se denomina funcin de probabilidad conjunta sobre las variables V1,V2,.....,Vk.
Ejemplo 3: Robot
Un robot es capaz de levantar una bandeja si la bandeja es liviana y si las bateras de la fuente de energa del robot estn cargadas. Si estas condiciones se satisfacen, entonces cuando el robot trata de levantar la bandeja, mueve sus brazos. Se determina si la batera est cargada mediante un medidor.
Ejemplo 3: Red
P(B) = 0.95 B P(L) = 0.7 L
Ejemplo 3
Probabilidad Conjunta P(B,M,L,G) 4 variables binarias conjuntas (B,M,L,G) (V,V,V,V) (V,V,V,F) (V,V,F,V) (V,V,F,F) ... 16 probabilidades
Ejemplo 3
Probabilidad Conjunta
P(A,B,D,L,S,X,T)
7 variables binarias
Solucin Las relaciones de independencia condicional entre las variables contribuyen a la disminucin de la complejidad del problema
Caractersticas principales
Representacin compacta de distribuciones de probabilidades via independencia condicional Family of Alarm E B P(A | E,B) Parte cualitativa: Burglary Earthquake Grafo dirigido acclico (gda) Nodos - variables aleatorias Arcos influencia directa
Radio
Alarm
e e e e
b b b b
0.01 0.99
Call
P (B , E , A, C , R ) = P (B )P (E )P (A | B , E )P (R | E )P (C | A)
Inteligencia Artificial 2008
P (s , c , l , e , x , d ) = P (s ) P (c ) P (l | s ) P (e | s , c ) P (x | l ) P (d | l , e )
Representacin natural y compacta:
nodos tienen k padres O(2 kn) vs. O(2 n) parmetros parmetros naturales y fciles de elicitar.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Ventajas
Teora de probabilidades
Mtodo consistente y axiomtico para razonar en condiciones de incertidumbre
+ Redes Bayesianas
Forma intuitiva de representar y razonar con relaciones entre eventos inciertos
Teora normativa para disear agentes o sistemas capaces de razonar y actuar bajo condiciones de incertidumbre
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Utilizacin Inferencia Probabilstica Construccin Aprendizaje Ejemplo de utilizacin Conclusiones
Inferencia
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Inferencia probabilstica
Consiste en calcular probabilidades de inters a partir de una distribucin de probabilidades conjunta. La estructura de la red de Bayes permite calcular cualquier probabilidad de inters; donde la independencia condicional simplifica el clculo
Inferencia
a0
a1
Ejemplo
Consulta: est enfermo el rbol?
Teorema de Bayes
Vi Vj
p(Vi / Vj ) =
El teorema de Bayes nos dice como obtener una probabilidad a posteriori en una hiptesis Vi luego de la observacin de alguna evidencia Vj, dadas la probabilidad a priori de Vi y la probabilidad de observar Vj dado Vi.
10
Explicacin
Inferencia Causal
Probabilidad de que el brazo se mueva dado que la bandeja es liviana P(M/L) Consulta Evidencia
expansin
= p(M/B,L) P(B/L)+ p(M/ B,L) P(B/L) = p(M/B,L) P(B)+ p(M/ B,L) P(B)
Inferencia Diagnstico
Probabilidad de que la bandeja est pesada dado que el brazo no se mueve P(L/M) Causa Efecto
Bayes
11
Explicacin
Evidencia: M, el brazo no se mueve P(L) ? Si se conoce tambin B, entonces L resulta ser menos seguro o acertado. Se dice que B explica M, haciendo que L sea menos cierto. Se utiliza un razonamiento causal embebido en uno de diagnstico. p(L/B,M) = p(M,B/ L) p( L) / p(B,M) Bayes
Red
Inferencia exacta
A pesar de poder explotar las propiedades de la red, la inferencia probabilstica exacta en una red de Bayes arbitraria es NP-hard. Para muchas aplicaciones, donde las redes son pequeas o pueden simplificarse, la complejidad puede no ser fatal. La inferencia aproximada (mtodos de Monte Carlo) es tambin NP-hard
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Algoritmos de Inferencia
Existen numerosos algoritmos de inferencia implementados
12
Algoritmos de inferencia
Aprovechan las relaciones de independencia condicional para calcular las probabilidades:
Algoritmos que invierten los arcos de la red hasta que la respuesta a la consulta quede leerse directamente del grafo [Howard81, Olmsted83] Pasaje de mensajes que actualizan las distribuciones de probabilidades para cada nodo en respuesta a la observacin de una o ms variables [Pearl86] Simplificacin de sumas y productos en el clculo de probabilidades [DAmbrosio91]
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Utilizacin Inferencia Probabilstica Construccin Aprendizaje Ejemplo de utilizacin Conclusiones
Construccin de la Red
Ingeniera del Conocimiento
Un experto en el dominio identifica los aspectos cualitativos (y a veces cuantitativos) del problema Codificar el conocimiento existente de expertos en una red Usar una base de datos para actualizar este conocimiento: refinar el conocimiento experto original e identificar nuevas relaciones
13
Construccin de la Red
Determinar las variables que intervienen en el modelo Determinar cada uno de los estados o valores que pueden tomar las variables Determinar las relaciones (dependencias) entre las variables Construir un gda que codifique las aserciones de independencia condicional
Construccin de la Red
Cmo obtener los valores de las probabilidades?
Conocimiento de expertos en el dominio Estudios estadsticos Derivados analticamente Aprenderlos a partir de los datos crudos
Construccin de la Red
Cmo obtener la estructura de la red?
A partir del conocimiento de un experto Algoritmos de aprendizaje en Redes de Bayes
14
B A C
Aprendizaje
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
e b .99 .01
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
B A
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?
e b .99 .01
B A
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?
e b .99 .01
15
B A
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?
e b .99 .01
B A
E B P(A | E,B) e b e b e b e b
? ? ? ? ? ? ? ?
Aprendizaje
E A B
E B P(A | E,B) e b .9 e b .7 e b .8
.1 .3 .2
e b .99 .01
Aprendizaje estructural
Aprender las dependencias entre las variables que intervienen en el problema
16
Aprendizaje paramtrico
Aprendizaje Adaptativo
Se utiliza cuando se quieren adaptar todas o algunas de las tablas de probabilidad condicional a partir de un nuevo conjunto de datos.
Aprendizaje Batch
Se utiliza cuando se quieren generar las tablas de probabilidad condicional a partir de los datos. Ej: EM (Expectation Maximization), Mtodos de Monte Carlo, Aproximaciones Gaussianas.
Aprendizaje adaptativo
La
adaptacin es el proceso de refinar las probabilidades condicionales especificadas en la Red de Bayes teniendo en cuenta los resultados de experimentos o casos reales.
Aprendizaje adaptativo
Un paso del proceso de aprendizaje adaptativo consiste de: - ingresar evidencia, - propagar la evidencia, - y finalmente actualizar (adaptar) las tablas de probabilidad condicional y las tablas de experiencia (stas cuentan el n de observaciones hechas sobre una variable dada).
17
Ejemplo
Smoker?=yes Fading factor(s) = 0.5
N(Smoker=yes) = factor * N(yes-previos) + 1= 0.5 * 5 + 1 = 3.5 N(Smoker=no) = factor * N(no-previos) = 0.5 * 5 = 2.5 N(experiencias) = 3.5 + 2.5 = 6 P(Smoker?=yes) = 3.5 / 6 = 0.58333 P(Somker?=no) = 2.5 / 6 = 0.416667
18
Aprendizaje Batch
A menudo ocurre que muchas (o todas) las distribuciones de probabilidad de las variables en la red son desconocidas, y queremos aprender estas probabilidades (parmetros) a partir de una serie de observaciones obtenidas al realizar experimentos, de la literatura, o de otras fuentes.
Algoritmo EM [Dempster77]
El algoritmo conocido como EM (EstimationMaximization) es uno de los ms utilizados para aprendizaje paramtrico. Permite aproximar una distribucin de probabilidades a partir de datos generalmente incompletos.
Cmo modelo los valores faltantes? Solucin: descartar todos los registros con datos faltantes. Problema: descartara mucha informacin valiosa (de 10.000 atributos, solamente 5 son faltantes)
19
Algoritmo EM
Dado algn dato X observado y un modelo parametrizado por un estimador , el objetivo del algoritmo EM (bsico) es encontrar tal que la probabilidad p(X/ ) se maximice. Cada ciclo del algoritmo revisa el valor de de manera de ir aumentando la probabilidad hasta llegar a un valor mximo. : MAP (Maximum a Posteriori), ML (maximum likelihood)
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
EM
EM explota la dependencia entre los datos faltantes Xmis y los parmetros del modelo Xmis contiene informacin vital para determinar , y a su vez ayuda a encontrar valores probables para Xmis. Idea general: Llenar los valores faltantes Xmis basndose en un estimado inicial, luego reestimar basndose en Xobs y los Xmis completos y repetir hasta que converja.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
20
Expectation Maximization
Clculo (E-Step)
Reparametrizacin (M-Step)
Y1
Datos Entrenamiento
Sound
Si falta un arco
Earthquake Alarm Set Burglary
Si sobra un arco
Earthquake Alarm Set Burglary
Sound
Sound
No puede ser solucionado ajustando los parmetros Suposiciones errneas acerca del dominio
Inteligencia Artificial 2008
Aumenta el nmero de parmetros a ser estimados Suposiciones errneas acerca del dominio
Dra. Silvia Schiaffino
Aprendizaje Estructural
Dos enfoques: 1. Basados en restricciones Testear (in)dependencias en los datos (ej. usando tests de hiptesis estadsticos). Encontrar una estructura que sea consistente con las dependencias encontradas. 2. Basados en Optimizacin Definir una mtrica para evaluar los candidatos (segn los datos) Buscar candidato(s) que maximice la mtrica
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
21
Basados en Optimizaciones
Definir una funcin que evale qu tan bien se asemeja el modelo a los datos
E A
E A B B
E A
Aprendizaje estructural
Seleccin de modelos
Bsqueda Greedy: Hill-climbing, K2, MCMC EM estructural
Promediado de modelos
MCMC sobre la estructura MCMC sobre los atributos
22
Greedy
Se da un orden para los nodos. Inicialmente cada nodo no tiene padres. Luego, se agrega incrementalmente aquel padre cuyo agregado aumente la mtrica de la estructura resultante Cuando el agregado de ningn padre puede aumentar la mtrica, se para el agregado de padres para ese nodo, y se sigue con otro nodo. Se necesita aprender los parmetros de la red
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Contenidos
Motivacin: Manejo de Incertidumbre Redes de Bayes Definicin Ejemplos Conceptos de Probabilidades Construccin Utilizacin Inferencia Probabilstica Aprendizaje Ejemplo de utilizacin: Estilos de aprendizaje Conclusiones
23
Motivacin
Las principales caractersticas que se desean en los sistemas e-learning son que sean adaptativos y personalizados, dado que son usados por una gran variedad de estudiantes con diferentes habilidades y preferencias. Los estilos de aprendizaje pueden ser detectados observando como los estudiantes aprenden e interactan con el sistema de educacin a distancia.
Solucin Propuesta
SAVER
Logs
Estilos de Aprendizaje
Modelo propuesto por Richard Felder:
Sensitivo Intuitivo Visual Verbal Activo Reflexivo Secuencial Global Percepcin
24
Percepcin
Sensitivos:
Observacin y recoleccin de datos a travs de los sentidos. Prefieren hechos concretos, muchos ejemplos y problemas para resolver. Prcticos y cuidadosos.
Intuitivos:
Percepcin indirecta a travs de la imaginacin, especulacin y presentimiento. Prefieren todo tipo de informacin abstracta y demostraciones. Innovadores
Procesamiento
Activo:
Realizacin de ciertas actividades con la informacin como debatir, explicar y evaluar los conocimientos. Prefieren los trabajos grupales.
Reflexivo:
Evaluacin y manipulacin de la nueva informacin introspectivamente. Prefieren pensar sobre los nuevos conceptos y realizar trabajos individuales.
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Comprensin
Secuencial:
Los alumnos con aprendizaje secuencial tienden a entender la informacin linealmente sin saltar de un tema a otro.
Global:
Los alumnos con aprendizaje global necesitan tener una visin general del tema para despus centrarse en los detalles.
25
Entrada
Visual
Los estudiantes con aprendizaje visual recuerdan mejor lo que ven por lo que sus cursos deben contener un gran nmero de diagramas, imgenes, grficos, cuadros, videos, entre otros.
Verbal
Los estudiantes con aprendizaje verbal retienen ms las explicaciones que leen y escuchan.
Acciones Observadas
26
Acciones Observadas
Ejercicios: muchos (>75%), pocos (25% - 75%), ninguno
Acciones Observadas
Revisin Examenes: <10%, 10%-20%, >20% Resultados Examenes: alto, medio, bajo
Acciones Observadas
27
Acciones Observadas
Mensajes: postea mensajes, enva SMS, lee Tareas en grupo: propone, contrapropone, lee Participacin : elige soluciones o no participa
28
Probabilidad
0.30 0.50 0.20
Comprensin
Secuencial Global
0 1
0.25 0.75
0.5 0.5
29
Inferencia
Es el proceso de introducir nuevas observaciones y calcular las nuevas probabilidades que tendrn el resto de las variables de la red. Consiste en calcular las probabilidades a posteriori P(X/Y=yi) de un conjunto de variables X, despues de obtener un conjunto de observaciones Y=yi. El fundamento matemtico en que se basa las Redes de Bayes para llevar a cabo la inferencia es el Teorema de Bayes.
P( A / B) =
Inteligencia Artificial 2008
P( B / A) * P( A) P(B)
Dra. Silvia Schiaffino
Inferencia: ejemplo
consulta
evidencia
Cursos Experimentales
La tcnica de deteccin de estilos fue evaluada a travs de 3 cursos experimentos con la participacin de ms de 120 alumnos. Se dict un curso en el ao 2005, dos en el ao 2006 y uno en 2007. En el 2006 se mejor los contenidos del curso y se incentivo a los alumnos para trabajar con las herramientas para trabajo colaborativo. En los cursos de Redes de Bayes dictados en el 2006 y 2007 se incorpor la herramienta para trabajo colaborativo
30
Precisin
Se compararon los resultados obtenidos a travs del sistema con los arrojados por el cuestionario ILS. Se consideraron 3 valores por cada dimensin para que los resultados sean comparables. Se defini la ecuacin:
n
precisin =
Sim ( ILS , RB )
1
Resultados - Percepcin
Las Redes de Bayes permitieron obtener con alta precisin el estilo de un estudiante en la dimensin de Percepcin. En esta dimensin es donde se obtuvieron la mayor cantidad de observaciones. La precisin alcanzada en la dimensin Percepcin fue del 66% en el primer curso y luego se mejor al 70%.
Resultados - Comprensin
Se descubrieron pocos estudiantes con aprendizaje Global. Precisin final del 70%, en los primeros cursos la precisin no super el 54%. Problemas encontrados:
La cantidad de contenido en el curso Los alumnos leen todo el material secuencialmente Falta de experiencia de los estudiantes en cursos Web.
31
Resultados - Procesamiento
La mayora de los alumnos se comportaron como estudiantes reflexivos en el sistema. Problemas encontrados:
Falta de incentivacin en el uso de las herramientas colaborativas como chat, foro y mail. Dificultades en el uso de la herramienta ETG.
Publicaciones
Publicaciones en revistas Evaluating Bayesian Networks' Precision for Detecting Students' Learning Styles P. Garca, A. Amandi, S. Schiaffino, M. Campo Computers and Education Vol. 49, N 3, pp. 794-808 Elsevier (2007) An enhanced Bayesian model to detect students' learning styles in Web-based courses - P. Garca, S. Schiaffino, A. Amandi Journal of Computer Assisted Learning, Blackwell Publishing En prensa Publicaciones en Congresos Using Bayesian Networks to Detect Students' Learning Styles in a Web-based Education System - P. Garca, A. Amandi, S. Schiaffino, M. Campo Proceedings de ASAI 05, VII Simposio Argentino de Inteligencia Artificial (34 JAIIO), ISSN 1666 1079 pp. 115 126 Rosario, Argentina, Agosto 2005
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Conclusiones
La caracterstica clave de las Redes de Bayes es que proveen un mtodo para descomponer una distribucin de probabilidad conjunta en un conjunto de distribuciones locales.
En sistemas donde las interacciones entre variables son escasas las redes Bayesianas reducen drsticamente el nmero de valores de probabilidades requeridos
32
Conclusiones
Adecuadas para representar y razonar bajo incertidumbre Permiten descubrir nuevo conocimiento combinando conocimiento experto de dominio junto con datos estadsticos Existen algoritmos de inferencia eficientes Separacin de la representacin cualitativa de las influencias entre las variables de la cuantificacin numrica de la rigidez de las influencias
Inteligencia Artificial 2008 Dra. Silvia Schiaffino
Referencias
B. D'Ambrosio. Symbolic probabilistic inference in large BN2O networks. In R. Lopez de Mantaras and D. Poole, editor, Proc. Tenth Conf. on Uncertainty in Artificial Intelligence, pages 128--135, Seattle, July 1994. R. Dechter. Bucket elimination: A unifying framework for probabilistic inference. In E. Horvits and F. Jensen, editor, Proc. Twelthth Conf. on Uncertainty in Artificial Intelligence, pages 211--219, Portland, Oregon, 1996. R. Dechter - Bucket elimination: A unifying framework for reasoning, Artificial Intelligence 113, (1999), 41-85. Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977) J. Roy. Statist. Soc. B 39, 1--38. Jensen, F.V. (1996) An Introduction to Bayesian Networks. Springer Verlag, New York; 178 pages. F. V. Jensen. Bayesian Networks and Decision Graphs, Springer, 2001. S. L. Lauritzen, A. P. Dawid, B. N. Larsen, and H. G. Leimer. Independence properties of directed markov fields. Networks, 20:491--506, 1990 J. Pearl. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. Morgan Kaufmann, San Mateo, CA, 1988.
Dra. Silvia Schiaffino
33