Capitulo Ii

UNIVERSIDAD TECNICA DEL NORTE
SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES
CAPITULO II
2.1 INTRODUCCIN El proceso de construir y mantener un modelo del alumno se basa en inferir a partir de sus interacciones con el sistema (respuestas a las preguntas planteadas, pantallas visitadas, etc.) cul es su estado de conocimiento. Aparte de lo complicado que puede resultar realizar este tipo de inferencias, hay varias fuentes de incertidumbre que pueden dificultarlo an ms. En efecto, la informacin que pueda proporcionar el comportamiento del alumno es incierta, dada la gran cantidad de factores que pueden influir en l. Una respuesta incorrecta puede deberse a muchas causas diferentes, como errores de concepto, falta de conocimiento, deficiencias en la adquisicin de habilidades, pero tambin a errores en los clculos o incluso a un fallo al elegir la respuesta correcta. De la misma forma, una respuesta correcta puede demostrar que el alumno ha alcanzado cierto nivel de conocimiento, pero tambin puede deberse a haber acertado por casualidad, como puede ocurrir sobre todo cuando se plantean preguntas tipo test. Adems, si el objetivo del sistema es la enseanza no basta slo con poder clasificar una respuesta como correcta o incorrecta sino que tambin es importante saber por qu esa pregunta fue respondida correcta o incorrectamente, ya que de otro modo ser imposible seleccionar la estrategia instructora ms adecuada para la situacin actual del alumno. En Inteligencia Artificial (IA) se han desarrollado varias teoras para razonamiento aproximado. Revisaremos brevemente los enfoques ms significativos, utilizando ejemplos de modelado del alumno.
CASTILLO EDISON LARA MANUEL
35
2.2 TCNICAS DE RAZONAMIENTO APROXIMADO A continuacin presentaremos de una forma muy breve las diferentes tcnicas de razonamiento aproximado que se han aplicado al problema de modelado del alumno. Con esta presentacin no se pretende hacer una descripcin exhaustiva ni un anlisis detallado de dichas tcnicas, sino ms bien presentar de forma introductoria los aspectos bsicos de cada teora para despus poder analizar lo referente al modelado del alumno. 2.2.1 SISTEMAS BASADOS EN REGLAS (MYCIN)
Quizs la primera teora que se aplic con xito para el problema de tratamiento de la incertidumbre en IA (Inteligencia Artificial) fue el modelo de los factores de certeza, tal como se desarroll para el sistema MYCIN, un sistema experto que diagnostica enfermedades infecciosas. En este modelo la informacin se estructura en hechos y reglas (afirmaciones de la forma SIENTONCES). Asociados a estos hechos y reglas aparecen los factores de certeza, que son nmeros entre (1 y 1) que se usan para expresar el grado de creencia de dos formas distintas: a) Para expresar el grado de creencia en una hiptesis, dada la evidencia disponible hasta el momento. b) Para indicar el grado de creencia en una conclusin que se establece a partir de una premisa en una regla. Un factor de creencia cercano a 1 implica que la evidencia disponible apoya fuertemente la hiptesis. Un factor de certeza cercano a 1 implica que la evidencia disponible apoya la negacin de la hiptesis. Un factor de certeza de 0 indica que la evidencia disponible no apoya ni la hiptesis ni su negacin. Un factor de certeza de una regla se usa para expresar la confianza en determinada agrupacin antecedente -consecuente.
36
Veamos un ejemplo sencillo: Regla 1: SI el alumno conoce el concepto 1, y ENTONCES el alumno no conoce el concepto 2. Supongamos que el factor de certeza CF de la regla es 0.6, y que los factores de certeza de las hiptesis son: h1: el alumno conoce el concepto1, CF(h1) = 0.8 h2: hacemos al alumno una pregunta sobre los conceptos 1 y 2, CF(h2) = 1 h3: la respuesta del alumno no es correcta, CF(h3) = 1 Esto quiere decir que tenemos una creencia de 0.8 en que el alumno conoce el concepto 1, y que le hemos propuesto una pregunta relativa a los conceptos 1 y 2 que no ha sabido contestar adecuadamente. En este caso, la tarea de diagnstico consistira en determinar la creencia que tendra el sistema en que el alumno no conozca el concepto 2 (h4). Para responder a esta pregunta, se desarrollaron reglas para combinar la evidencia y actualizar las creencias 1, intentando imitar el modo de razonamiento humano en este contexto. En nuestro ejemplo, parece lgico que nuestra creencia en h1 ^ h2 ^ h3 sea igual al mnimo de los tres factores de certeza, es decir, 0.8, y que entonces la creencia en h4 sea 0.48, que es exactamente lo que hacen las reglas de actualizacin de MYCIN (sistema experto que diagnostica enfermedades infecciosas). La principal ventaja de este enfoque es que los clculos que hay que realizar para la propagacin de la incertidumbre son muy fciles de comprender, realizar e implementar. Aunque MYCIN (sistema experto que diagnostica enfermedades infecciosas) tuvo mucho xito en su dominio (diagnstico mdico), Heckerman demostr no slo que el modelo contiene graves incoherencias, sino que es imposible construir un modelo coherente de factores de certeza. [Heckerman, 1986]
proponemos al alumno una
pregunta sobre los conceptos 1 y 2, y la respuesta del alumno no es correcta,
37
2.2.2
LGICA DIFUSA
La Lgica Difusa, que hoy en da se encuentra en constante evolucin, naci en los aos 60 como la lgica del razonamiento aproximado, y en ese sentido poda considerarse una extensin de la Lgica Multivaluada. La Lgica Difusa actualmente est relacionada y fundamentada en la teora de los Conjuntos Difusos. Segn esta teora, el grado de pertenencia de un elemento a un conjunto va a venir determinado por una funcin de pertenencia, que puede tomar todos los valores reales comprendidos en el intervalo [0,1]. La representacin de la funcin de pertenencia de un elemento a un Conjunto Difuso se representa segn la figura 2.1
(grado) 1 0.5 0
Funcin de pertenencia (x)
10 15 25 30 00 funcin de pertenencia a un Conjunto Difuso Figura 2.1 Ejemplo de una Los operadores lgicos que se utilizarn en Lgica Difusa (AND, OR, etc.) se definen tambin usando tablas de verdad, pero mediante un "principio de extensin" por el cual gran parte del aparato matemtico clsico existente puede ser adaptado a la manipulacin de los Conjuntos Difusos y, por tanto, a la de las variables lingsticas. La operacin ms importante para el desarrollo y creacin de Reglas Lgicas es la implicacin, simbolizada por " " que representa el "Entonces" de las reglas heursticas: Si (...) Entonces ( ) (...).
38
As, en la Lgica Difusa hay muchas maneras de definir la implicacin. Se puede elegir una "funcin (matemtica) de implicacin" distinta en cada caso para representar a la implicacin. La ltima caracterstica de los sistemas lgicos es el procedimiento de razonamiento, que permite inferir resultados lgicos a partir de una serie de antecedentes. Generalmente, el razonamiento lgico se basa en silogismos, en los que los antecedentes son por un lado las proposiciones condicionales (nuestras reglas), y las observaciones presentes por otro (sern las premisas de cada regla). Los esquemas de razonamiento utilizados son "esquemas de razonamiento aproximado", que intentan reproducir los esquemas mentales del cerebro humano en el proceso de razonamiento. Estos esquemas consistirn en una generalizacin de los esquemas bsicos de inferencia en Lgica Binaria (silogismo clsico). Tan importante ser la seleccin de un esquema de razonamiento como su representacin material, ya que el objetivo final es poder desarrollar un procedimiento analtico concreto para el diseo de controladores difusos y la toma de decisiones en general. Una vez que dispongamos de representaciones analticas de cada uno de los elementos lgicos que acabamos de enumerar, estaremos en disposicin de desarrollar formalmente un controlador "heurstico" que nos permita inferir el control adecuado de un determinado proceso en funcin de un conjunto de reglas "lingsticas", definidas de antemano tras la observacin de la salida y normas de funcionamiento de ste. CONJUNTOS DIFUSOS Los conjuntos clsicos se definen mediante un predicado que da lugar a una clara divisin del Universo de Discurso X en los valores "Verdadero" y "Falso".
39
Sin embargo, el razonamiento humano utiliza frecuentemente predicados que no se pueden reducir a este tipo de divisin: son los denominados predicados vagos. Por ejemplo, tomando el Universo de Discurso formado por todas las posibles temperaturas ambientales en la ciudad de Huelva, se puede definir en dicho universo el conjunto A como aqul formado por las temperaturas "clidas". Por supuesto, es imposible dar a A una definicin clsica, ya que su correspondiente predicado no divide el universo X en dos partes claramente diferenciadas. No podemos afirmar que una temperatura es "clida" o no lo es. El problema podra resolverse en parte considerando que una temperatura es "clida" cuando su valor supera cierto umbral fijado de antemano. Se dice que el problema tan slo se resuelve en parte, y de manera no muy convincente, por dos motivos: de una parte el umbral mencionado se establece de una manera arbitraria, y por otro lado podra darse el caso de que dos temperaturas con valores muy diferentes fuesen consideradas ambas como "clidas". Evidentemente, el concepto "calor" as definido nos dara una informacin muy pobre sobre la temperatura ambiental. La manera ms apropiada de dar solucin a este problema es considerar que la pertenencia o no pertenencia de un elemento X al conjunto A no es absoluta sino gradual. En definitiva, definiremos A como un Conjunto Difuso. Su funcin de pertenencia ya no adoptar valores en el conjunto discreto {0,1} (lgica booleana), sino en el intervalo cerrado [0,1]. En conclusin podemos observar que los Conjuntos Difusos son una generalizacin de los conjuntos clsicos. Mediante notacin matemtica se define un Conjunto Difuso B como: B = { ( x , u B( x ) ) / x X } u B: X [0,1]
40
La funcin de pertenencia se establece de una manera arbitraria, lo cual es uno de los aspectos ms flexibles de los Conjuntos Difusos. Por ejemplo, se puede convenir que el grado de pertenencia de una temperatura de "45C" al conjunto A es 1, el de "25C" es 0.4 , el de "6C" es 0, etc.: cuanto mayor es el valor de una temperatura, mayor es su grado de pertenencia al conjunto B. Para operar en la prctica con los Conjuntos Difusos se suelen emplear funciones de pertenencia del tipo representado en la figura 2.2
FUNCION DE PERTENENCIA
0 Figura 2.2 Tipos de funciones de pertenencia.
(X)
En la figura se pueden observar dos tipos de funciones de pertenencia de todos los posibles: el tipo triangular, que puede ser un caso concreto del trapezoidal en el que los dos valores centrales son iguales, y el de forma de campana gaussiana. Tmese ahora el Universo de Discurso de la edad. El Conjunto Difuso "Joven" representa el grado de pertenencia respecto al parmetro juventud que tendran los individuos de cada edad. Es decir, el conjunto expresa la posibilidad de que un individuo sea considerado joven. Un Conjunto Difuso podra ser considerado como una distribucin de posibilidad, que es diferente a una distribucin de probabilidad. Se puede observar que los Conjuntos Difusos de la figura 2.3 se superponen, por lo que un individuo Xl podra tener distintos grados de pertenencia en dos conjuntos al mismo tiempo: "Joven" y "Maduro". Esto indica que posee
41
cualidades asociadas con ambos conjuntos. El grado de pertenencia de X en A, como ya se ha sealado anteriormente, se representa por u A(x). El Conjunto Difuso A es la unin de los grados de pertenencia para todos los puntos en el Universo de Discurso X, que tambin puede expresarse como:
A=
U A(X ) X X
Bajo la notacin de los Conjuntos Difusos, A(x)/x es un elemento del conjunto A. La operacin
x
representa la unin de los elementos difusos A(x)/x. Los
Universos de Discurso con elementos discretos utilizan los smbolos "+" y " " para representar la operacin unin. Veamos un ejemplo:
( ) 1 0.6 0.4 0 0 50 100 Figura 2.3. Ejemplo de Conjuntos Difusos en el universo de la edad. Tmese un individuo X cuya edad sea de 20 aos. Como se puede observar en la figura, pertenece al Conjunto Difuso "Joven" y al Conjunto Difuso "Maduro". Se puede observar que posee un grado de pertenencia A(x) de 0.6 para el Conjunto Difuso "Joven" y un grado de 0.4 para el Conjunto Difuso "Maduro"; tambin posee un grado de 0 para "Viejo". De este ejemplo se puede deducir que un elemento puede pertenecer a varios Conjuntos Difusos a la vez aunque con distinto grado. As, nuestro individuo X tiene un grado de pertenencia
42
mayor al conjunto "Joven " que al conjunto "Maduro"(0.6 > 0.4), pero no se puede decir, tratndose de Conjuntos Difusos, que x es joven o que x es maduro. Para representar la imprecisin, la lgica difusa utiliza los siguientes conceptos: Conjuntos difusos. Un conjunto difuso A es un conjunto cuya funcin caracterstica o funcin de pertenencia uA toma valores en el intervalo [0,1]. Supongamos que queremos determinar el grado de dificultad de una pregunta, y que tenemos el tanto por ciento de alumnos que la han contestado correctamente. Definimos entonces cuatro (por ejemplo) conjuntos difusos: Difcil, Poco difcil, Bastante fcil y Fcil. Si representamos en el eje de abscisas el tanto por ciento de alumnos que responden correctamente a la pregunta y en el eje de ordenadas el valor de la funcin de pertenencia, obtenemos la grfica de las funciones de pertenencia que aparece representada en la Figura 2.4:
Fcil
Poco difcil
Bastante fcil
Difcil
0 1 2 3 4 5 6 7 8 9 10
Figura 2.4 Funciones de pertenencia para los conjuntos difusos
Los conjuntos difusos y las funciones de pertenencia difusas pueden utilizarse de dos formas diferentes: Para estimar grados de pertenencia a un conjunto. Por ejemplo, si sabemos que slo el 35% de los alumnos respondieron correctamente a la pregunta, en qu grado es difcil la pregunta?
43
Para expresar posibilidades en una situacin con informacin incompleta. Por ejemplo, si decimos que una pregunta es fcil, cuntos alumnos la respondern correctamente? En este caso, podemos interpretar la funcin de pertenencia ufcil como una distribucin de posibilidad que indica preferencias en los valores que puede tomar esta variable. Las operaciones sobre conjuntos difusos (unin, interseccin, etc.) se definen como anlogos a las operaciones correspondientes en conjuntos ordinarios. Variables difusas. Una variable difusa A es una variable que toma como valores conjuntos difusos. En nuestro ejemplo, puede definir una variable X = grado de dificultad de una pregunta, pudiendo entonces X tomar cuatro valores posibles: Difcil, poco difcil, Bastante fcil y Fcil. Relaciones difusas, que son conjuntos difusos definidos sobre el conjunto producto. Por ejemplo, podemos definir una relacin difusa como la dificultad de las preguntas X e Y es la misma en trminos del tanto por ciento de alumnos que dan respuesta correcta a cada una de las preguntas. Como ejemplo, en la Tabla 2.1 damos una posible funcin de pertenencia para esta relacin difusa:
X/Y 0% 25% 50% 75% 100% 1 0.3
0% 0.3 1 0.3
25%
50% 0.001 0.3 1 0.3 0.01
75% 0 0.01 0.3 1 0.3 0 0
100%
0.001 0 0
0.001 0.3 1
0.01 0
Tabla.2.1 Funcin de pertenencia de la relacin difusa X=Y
Reglas difusas, que relacionan dos o ms afirmaciones difusas. Las reglas difusas se utilizan (como en otras tcnicas de razonamiento no exacto) para
44
determinar la creencia en la conclusin dado la evidencia disponible sobre la premisa de la regla. Veamos un ejemplo simple. Supongamos que tenemos la siguiente regla: Si el conocimiento del alumno sobre el concepto i es bastante bueno, y el concepto i es prerrequisito para el concepto j, y el concepto j no es demasiado difcil, ENTONCES El concepto j debe ser el prximo objetivo instructor. Diferentes tcnicas de inferencia, como por ejemplo la tcnica mx-mn o la tcnica del producto mximo pueden ser aplicadas para determinar el resultado, que ser un conjunto difuso que se llama conjunto difuso inducido. Una vez que tenemos el resultado del clculo difuso, necesitamos convertir el resultado en un resultado ntido. Los mtodos ms usados para este proceso de paso de difuso a ntido son: el mtodo del mximo, que selecciona el punto del dominio en el que se alcanza el grado mximo del conjunto difuso y el mtodo del centroide, que selecciona el punto del dominio para el cual una perpendicular al eje de abscisas pasara por el centro del conjunto. Estos elementos del razonamiento difuso pueden ahora combinarse entre s: podemos tener los conjuntos difusos como entrada, usarlos en las reglas difusas que sean apropiadas, y despus combinar la salida de las diferentes reglas usadas. Finalmente, el conjunto de salidas difusas se convierte en un conjunto de salidas ntidas mediante un proceso de paso de difuso a ntido. Es decir, la configuracin bsica de un sistema experto basado en lgica difusa es la que se muestra en la siguiente figura 2.5:
Entradas
ntidas o difusas CASTILLO
Base de Base de Conocimientos Conocimientos difusa difusa

(no difusa)
EDISON LARA MANUEL
Accin 45
Conversin ntidoConversin ntidodifuso difuso
Motor Motor difuso difuso de de
Paso ntidoPaso ntidodifuso difuso
Figura 2.5 Estructura bsica de un sistema experto basado en lgica difusa
2.2.3
REDES DE INFERENCIA
Una red de inferencia puede ser representada como un grfico en el que los nodos representan parmetros que son los hechos obtenidos como datos o derivados de otros datos. Cada parmetro es una declaracin acerca de algn aspecto del problema bajo anlisis y puede servir como un antecedente o consecuente de una regla. Estas declaraciones pueden copar un rango que va desde la conclusin final de un sistema, hasta hechos simples, observados o derivados. Cada uno de estos parmetros puede tener uno o ms valores asociados, parmetro. Las reglas en el sistema estn representadas dentro del grfico por las interconexiones entre los varios nodos. Este conocimiento es utilizado por el proceso de inferencia para propagar resultados a travs de la red. Ntese que todas las interconexiones entre los varios nodos de la red de inferencia son conocidas previa a la ejecucin del sistema. Esto trae como consecuencia la minimizacin del proceso de bsqueda de hechos que se identifiquen con las premisas. Adicionalmente, simplifican la implementacin del mecanismo de inferencia y el manejo de las facilidades de explicacin. Las redes de inferencia son muy tiles para dominios donde el nmero de diferentes soluciones alternativas es limitado. Por ejemplo, la clasificacin de
donde
cada
valor
tiene
una
medida
correspondiente
de
incertidumbre que representa cuan creble es el valor particular de un
46
elementos en las ciencias naturales y problemas de diagnstico. Una red de inferencia es fcil de implementar, pero es menos poderosa ya que se debe conocer de antemano todas las relaciones entre reglas y hechos. Sistemas comerciales de desarrollo, basados en esta arquitectura son los siguientes: Personal Consultant, EXSYS, y VP-Expert. 2.2.4 RAZONAMIENTO ESTADSTICO PROBABILSTICO
La tcnica ms antigua y mejor definida para manejar la incertidumbre es la Regla de Bayes, la misma que est basada en la teora clsica de la probabilidad. Las hiptesis son ms o menos probables dependiendo de las posibilidades de los hechos o evidencias que las sostienen. La probabilidades se calculan en base a la frmula general de la probabilidad condicionada de Bayes o alguna transformacin de la misma. El procedimiento para el modelo probabilstico es el siguiente: El factor de un conjunto de condiciones unidas por el operador lgico Y (AND) es igual al producto de cada una de las evidencias que intervienen. El factor de un conjunto de condiciones unidas por el operador lgico O (OR) es igual al complementario del producto de los complementarios de cada una de las evidencias que intervienen. Para el clculo del coeficiente de la regla se aplica la Regla de Bayes:
Donde, P es la probabilidad, C son las conclusiones o resultados, H son los hechos o evidencias, i es una conclusin determinada, j es una variable que va de 1 al nmero de conclusiones posibles. Para aplicar esta frmula, las conclusiones deben ser excluyentes y completas.
47
A pesar que el mtodo de Bayes es mucho ms desarrollado que otros mtodos para manejar incertidumbre, no deja de tener ciertas dificultades prcticas: a) Requiere de una gran cantidad de datos probabilsticos para construir una base de conocimientos. Por ejemplo, si un sistema de diagnstico posee p conclusiones detectables y q caractersticas observables relevantes, requiere un mnimo de (p * q + p) valores probabilsticos, asumiendo que: todas las conclusiones son mutuamente excluyentes, las caractersticas son condicionalmente independientes para cada conclusin, y que todas las caractersticas son valores verdaderos. Caso contrario, se requerira de un nmero significativamente mayor que el indicado. b) Los tamaos de la muestra para obtener las probabilidades
condicionales deben ser lo suficientemente grandes, como para que las probabilidades obtenidas sean exactas y significativas. c) A menudo las relaciones entre la hiptesis y la evidencia son importantes para determinar la forma en que la incertidumbre ser manejada. Al reducirse estas asociaciones a simples nmeros, remueve informacin relevante que podra utilizarse para razonar con xito acerca de las incertidumbres. d) La reduccin de dichas asociaciones a nmeros tambin elimina la posibilidad de utilizar este conocimiento en otras tareas.
2.2.5
REDES BAYESIANAS 48
Una red bayesiana es un grafo acclico dirigido en el que los nodos son variables y los arcos representan relaciones de influencia causal entre ellos. Los parmetros usados para representar la incertidumbre son las probabilidades condicionadas de cada nodo dado los diferentes estados de sus padres, es decir, si las variables de la red son {Xi, i = 1, , n} y pa(Xi) representa el conjunto de los padres de Xi para cada i = 1,..., n, entonces los parmetros de la red son (Xi/pa(Xi), i =1, ..., n}. Este conjunto de probabilidades define la distribucin de probabilidad expresin:
n
conjunta asociada
mediante la
P(Xi,. . . ,Xn) = P(Xi/pa(Xi))

i=1
Por tanto, para definir una red bayesiana tendremos que especificar: Un conjunto de variables, X1, ..., Xn. Un conjunto de enlaces entre esas variables, de forma que la red formada con estas variables y enlaces sea un grafo acclico dirigido. Para cada variable, su probabilidad condicionada al conjunto de sus padres, es decir, {P(Xi/pa(Xi)), i =1, ..., n}. Las variables pueden representar el conocimiento del alumno, o el grado alcanzado en la habilidad correspondiente, o si ha sido capaz de resolver determinado problema. Tomarn valores binarios (sabido/no_sabido), discretos (mal/bastante mal/regular/bastante bien/bien) o continuos (el conocimiento del alumno es un nmero entre 0 y 1), segn el nivel de detalle requerido. Una vez que el curriculum y el comportamiento del alumno se han representado mediante variables, utilizamos los enlaces para describir diferentes tipos de influencias: relaciones de prerrequisito, relaciones de agregacin, relaciones entre el conocimiento que posee un alumno y las acciones que realiza, etc. Para terminar de definir la red es necesario especificar las probabilidades condicionadas, y a partir de ah es posible utilizar la red definida para establecer conclusiones a medida que se va obteniendo nueva informacin o
49
evidencia acerca del alumno. El mecanismo que permite establecer dichas conclusiones se llama propagacin de evidencia o simplemente propagacin, y consiste en actualizar las distribuciones de probabilidad de las variables segn la nueva evidencia disponible. Las redes bayesianas permiten hacer dos tipos de inferencia distintos: Inferencia abductiva: Sabiendo que el alumno ha resuelto correctamente una situacin, cul es la probabilidad de que domine cierta parte del curriculum? Inferencia predictiva: Sabiendo que el alumno domina cierta parte del curriculum, cul es la probabilidad de que sea capaz de resolver cierto problema P? 2.3 SISTEMAS BASADOS EN REDES BAYESIANAS La primera propuesta de usar redes bayesianas en el modelado del alumno aparece en 1992. La aplicacin de dos modelos tericos distintos al problema del modelado: la teora del espacio de conocimiento y las redes bayesianas. Es aqu donde se pueden encontrar las primeras ideas acerca de cmo construir y usar tales modelos. Desde entonces se han desarrollado varios sistemas en los que las redes bayesianas se han utilizado con xito para construir y actualizar el modelo del alumno. Vamos por tanto a describir los principales trabajos y aportaciones que desde entonces se han hecho a este campo. Sistemas OLAE, ANDES y POLA Los sistemas OLAE (Martin & VanLehn, 1995a; Martin & VanLehn, 1995b), POLA (Conati & VanLehn, 1996a; Conati & VanLehn, 1996b) y ANDES (Conati, Gertner et al., 1997; Conati, Larkin et al., 1997; Gertner, 1998; VanLehn, 1996; VanLehn, Niu et al., 1998) son el resultado de una dcada (la de los noventa)
50
de investigacin del equipo liderado por Kurt Vahn Lehn en la Universidad de Pittsburgh. POLA (1996) es el mdulo de diagnstico del alumno en ANDES (1997) (Sistema Instructor Inteligente para Fsica Newtoniana), y representa una mejora respecto a OLAE (1995), puesto que permite construir el modelo del alumno con la tcnica de traza del modelo. Por tanto, describiremos primero el sistema OLAE, y despus el sistema POLA. OLAE OLAE es una herramienta que recopila informacin sobre alumnos que resuelven problemas a nivel introductorio de Fsica, analiza esos datos con mtodos probabilsticos (redes bayesianas) y determina lo que sabe el alumno. OLAE genera automticamente para cada problema una red bayesiana que relaciona el conocimiento (representado en forma de reglas de primer orden) con acciones concretas, como por ejemplo ecuaciones escritas. Usando la red resultante, OLAE observa el comportamiento del alumno y calcula las probabilidades de que el alumno conozca y use cada una de las reglas. En la red bayesiana de OLAE, se consideran cuatro tipos de nodos: nodos de regla, para recoger si el alumno conoce o no una regla del dominio; nodos de aplicacin de la regla, para saber si el alumno us determinada regla durante la resolucin del problema propuesto; nodos de hecho, que recogen si el alumno sabe determinado hecho acerca del problema y nodos de accin, que recogen si el alumno ha realizado determinada accin. Estos nodos se conectan mediante arcos dirigidos en la red. Los diferentes caminos que se pueden seguir a travs de la red representan la multitud de formas que un alumno puede utilizar para resolver determinado problema. Una vez que el alumno da una respuesta, los algoritmos de propagacin actualizan las probabilidades a travs de los arcos para determinar la probabilidad a posteriori de que el alumno conozca determinada regla. El grafo de resolucin de problemas es una red dirigida de unos 150 nodos, que se va generando de forma automtica de la siguiente forma: siempre que se pueda usar una regla para producir una conclusin a partir de ciertos
51
antecedentes, se introduce un nodo en la red para representar la aplicacin de la regla. Asimismo se introduce un arco desde el nodo de aplicacin de la regla hasta un nodo de hecho que represente su conclusin (dicho nodo se crea en ese momento si es que no existe). Para cada antecedente (hechos usados para justificar que la regla se dispare) se introduce un arco desde su nodo de hecho hasta el nodo de la aplicacin de la regla. Tambin se introduce un arco desde el nodo de la regla hasta el nodo de aplicacin de la regla. Si un hecho tiene una accin observable correspondiente, se crea un nodo de accin y se coloca un arco desde el nodo de hecho hasta el nodo de accin. De esta forma OLAE genera automticamente la red bayesiana a partir del modelo del dominio. Una vez la red bayesiana est generada el alumno resuelve el problema y OLAE propaga esta informacin a travs de la red actualizando las probabilidades de cada uno de los nodos. Otra caracterstica importante de OLAE es que proporciona un segundo tipo de red bayesiana que est diseada especficamente para el profesor, que consulta el sistema una vez terminado el proceso descrito anteriormente. Esta red para el profesor contiene los siguientes nodos: (a) los nodos de regla de la red bayesiana original que representan el resultado del proceso de inferencias del sistema y (b) nodos dimensionales que almacenan la informacin de variables ms abstractas que representan el dominio que tiene el alumno sobre partes especficas del currculum, como Cinemtica o Dinmica. En nuestra opinin, estos nodos podran incluirse directamente en la red, de forma que sus probabilidades se fuesen actualizando a medida que evolucionan las otras probabilidades de la red. Esto permitira adems que, si por cualquier circunstancia adquirimos conocimiento acerca de que el alumno domina determinada parte del currculum, este conocimiento afectara tambin a la probabilidad de que domine las reglas que lo componen. Cabe resaltar que el sistema OLAE acta cuando el alumno ha terminado de resolver el problema, puesto que su propsito no era servir de soporte a una enseanza interactiva,
52
sino simplemente diagnosticar de una forma precisa qu partes del dominio eran conocidas por el alumno. POLA POLA es una extensin del sistema OLAE para determinar no slo las reglas que sabe el alumno sino el camino seguido por el mismo para la resolucin del problema, tratando la incertidumbre en la interpretacin de las acciones del alumno de forma consistente utilizando probabilidades. Es decir, mientras que OLAE slo realiza lo que Anderson y otros (Anderson, Corbett et al., 1995) llaman traza del conocimiento (determinacin de qu sabe el alumno, incluyendo conocimiento correcto y errores), POLA realiza tambin la traza del modelo (seguimiento de la forma de resolver un problema). En particular, cuando existan varios caminos de resolucin que sean consistentes con la accin que ha tomado el alumno, POLA tendr la capacidad de decidir qu camino es ms probable que haya sido el seguido por el alumno. A partir de tal informacin se dota al sistema de nuevas capacidades, como contestar preguntas formuladas por el alumno o generar pistas a un nivel adecuado, y tambin se pueden tomar decisiones pedaggicas como proporcionar una ayuda, presentar cierto material o elegir el siguiente problema a proponer. Con este objeto, es preciso que el mdulo de diagnstico del sistema conozca las posibles lneas de razonamiento que los alumnos pueden seguir. El conjunto de tales lneas se denomina espacio de soluciones, y a la estructura de datos usada para representarlo grafo solucin. El grafo solucin se construye automticamente a partir de una base de conocimientos de reglas de produccin y contiene tres tipos de informacin: a) todos los planes para resolver el problema que se pueden derivar de las reglas de la base de conocimiento; b) todos los caminos algebraicos de resolucin que desarrollan dichos planes, y c) el razonamiento que subyace a dichos planes. Los nodos de aplicacin son nodos de tipo AND (ya que para que una regla se aplique es necesario que la regla y todos sus antecedentes sean conocidos) y los nodos de hecho son nodos de tipo OR (modelando el hecho de que a ellos
53
se puede llegar por varios caminos diferentes). As, el sistema genera un grafo AND/OR que codifica todas las formas conceptualmente distintas en las que se pueden combinar las reglas y los datos dados para llegar a la solucin final. Para determinar cules de los posibles caminos solucin ha escogido el alumno, es necesario distinguir entre las reglas que el alumno ha utilizado ya y las que pertenecen a su camino solucin pero an no han sido utilizadas. Para ello, Conati y VanLehn adoptan la estrategia de ir construyendo la red bayesiana de una forma incremental conforme el alumno va resolviendo el problema, de forma que las reglas que an no han sido usadas no forman parte de la red bayesiana que se utiliza para la inferencia. Uno de los artculos relativos a ANDES merece especial mencin por su
relacin con nuestro trabajo. El objetivo de esta investigacin era determinar las probabilidades a priori que tiene un alumno de conocer o no cada una de las 350 reglas (items elementales de conocimiento) en las que se ha dividido el dominio en el sistema ANDES. Para ello, los profesores de Fsica asociados al proyecto desarrollaron un examen de 34 preguntas (con respuestas cortas o tipo test multirespuesta) que se evaluaban como correctas o incorrectas y que utilizaban 66 de las 350 reglas. El problema era entonces encontrar un algoritmo de diagnstico, es decir, un algoritmo que dadas las respuestas de un alumno a las preguntas y las relaciones entre preguntas y reglas, determinase el subconjunto de reglas que eran conocidas por el alumno que ha hecho el examen. Para evaluar dicho algoritmo VanLehn usa alumnos simulados, en los que modela tambin los aciertos casuales sin poseer conocimiento (adivinanzas, en ingls guesses) y los errores no intencionados (descuidos, en ingls slips), utilizando las siguientes expresiones: P(respuesta correcta/domina todas las reglas) = 1 P(descuido) P(respuesta correcta/al menos una de las reglas no es conocida) = P(adivinanza)/nmero de posibles respuestas.
54
En nuestra opinin la segunda regla para asignacin de probabilidades puede mejorarse, porque, especialmente en preguntas tipo test, contra ms conocimiento posea el alumno ms fcil es que d la respuesta correcta (aunque sea descartando las alternativas incorrectas), y por tanto creemos que no se debe dar la misma probabilidad de responder correctamente si al alumno no conoce una de las reglas que si no conoce ninguna de ellas. Las medidas que utilizan para evaluar la bondad del algoritmo de diagnstico son: la precisin, que definen como la proporcin entre el nmero de reglas que el sistema ha diagnosticado correctamente como dominadas por el alumno simulado y el nmero de reglas que fueron diagnosticadas como dominadas, y la cobertura, que definen como la proporcin entre el nmero de reglas que el sistema ha diagnosticado correctamente como dominadas por el alumno simulado y el nmero de reglas que el alumno domina. Por tanto, ambos parmetros deben tomar (idealmente) valores prximos a 1.
55

Capitulo Ii

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Capitulo Ii

Загружено:

Авторское право:

Доступные форматы

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

CASTILLO EDISON LARA MANUEL

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

proponemos al alumno una

pregunta sobre los conceptos 1 y 2, y la respuesta del alumno no es correcta,

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

Funcin de pertenencia (x)

CASTILLO EDISON LARA MANUEL

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

CASTILLO EDISON LARA MANUEL

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

0 Figura 2.2 Tipos de funciones de pertenencia.

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

representa la unin de los elementos difusos A(x)/x. Los

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

Figura 2.4 Funciones de pertenencia para los conjuntos difusos

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

X/Y 0% 25% 50% 75% 100% 1 0.3

50% 0.001 0.3 1 0.3 0.01

75% 0 0.01 0.3 1 0.3 0 0

Tabla.2.1 Funcin de pertenencia de la relacin difusa X=Y

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

Base de Base de Conocimientos Conocimientos difusa difusa

EDISON LARA MANUEL

Conversin ntidoConversin ntidodifuso difuso

Motor Motor difuso difuso de de

Paso ntidoPaso ntidodifuso difuso

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

Figura 2.5 Estructura bsica de un sistema experto basado en lgica difusa

incertidumbre que representa cuan creble es el valor particular de un

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

CASTILLO EDISON LARA MANUEL

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

P(Xi,. . . ,Xn) = P(Xi/pa(Xi))

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE

SISTEMA INTELIGENTE PARA EVALUACIN AUTOMTICA DE ESTUDIANTES

UNIVERSIDAD TECNICA DEL NORTE