Академический Документы
Профессиональный Документы
Культура Документы
DE
SISTEMAS INFORMTICOS
Estructura
Problemas
apropiados
Estrategias de
Sistemas Expertos
Software convencional
control
Suelen incluir estructuras de explicacin de las
datos
conocimiento
Problemas mal definidos, que no pueden ser
no en su almacenamiento o estructuracin
Problemas bien definidos, que pueden ser
computacional
computacional
se obtiene.
Interpretan datos
Manipulan datos
resolucin
Tienen en cuenta aspectos como la abstraccin, la
incertidumbre, el aprendizaje, etc.
Naturaleza del
conocimiento
empleado
Tipo de
conclusiones
Se suelen construir a partir de herramientas
Informacin numrica
informacin
utilizada
FUENTE DE
CONOCIMIENTO
Experto
humano
MODO DE
ADQUISICIN
Ingeniero del
conocimiento
Manuales
2
Textos
Experto
humano
Programa
inteligente
de edicin
Semiautomticos
Ejemplos y
casos histricos
4
Textos
Programa de
induccin
Programa de
comprensin
de textos
Automticos
Desarrollo
incremental
Paradigma 2
Herramienta 2
Cambio de
paradigmas
Desarrollo
incremental
Esquema
2
Retraso en el
proyecto
Paradigma 1
Herramienta 1
Esquema
1
Paradigmas
inapropiados
Continuar sin
cambios
Dificultades en
el diseo
Los mecanismos o modelos de razonamiento forman parte de las estructuras de control del
conocimiento en la mayor parte de los casos del motor de inferencias-, y son fundamentales
a la hora de organizar la bsqueda de soluciones.
Ya hemos comentado que las caractersticas del dominio, y las caractersticas del problema,
condicionan en gran medida el modelo de razonamiento que debe ser implementado.
Recordamos ahora algunos dominios tpicos y los modelos de razonamiento apropiados:
Modelos Categricos
Modelos Estadsticos
(Bayes, Redes de Creencia)
Modelos Cuasi-Estadsticos
(Factores de Certidumbre, Teora Evidencial)
Lgica Difusa
Los datos y la informacin estn disponibles, pero son ambiguos debido a errores en las
medidas, a la presencia de medidas contradictorias, o a otras causas similares.
8
Adems de las circunstancias que acabamos de detallar, la incertidumbre puede ser una
caracterstica esencial del propio conocimiento heurstico del experto, ya que puede
representar suposiciones que los expertos hacen basndose en asociaciones plausibles (pero
no necesariamente ciertas) observadas.
Todas estas consideraciones sobre la incertidumbre obligan a que, durante el proceso de
validacin, tengamos que considerar aspectos relacionados con la representacin del
conocimiento incierto, la forma de tratar la informacin imprecisa, y los mecanismos segn
los cuales podemos inferir conocimiento a partir de datos inciertos. Al respecto, algunos
autores sostienen que, debido a la capacidad limitada de los sistemas inteligentes en el
tratamiento de la incertidumbre, el rendimiento de tales sistemas puede estar lejos del
conseguido por un humano, incluso no tan experto. Estaramos pues fallando en la
construccin de un modelo computacional de comportamiento inteligente. En consecuencia,
hay que seguir trabajando en la construccin de modelos y teoras que nos permitan tratar de
manera eficiente esta escurridiza incertidumbre.
10
Requisitos
Identificacin
Conceptos
Conceptualizacin
Estructuras
Formalizacin
Reglas
Rediseos
Refinamientos
Implementacin
Reformulaciones
Prueba
Sin embargo el proceso real no est tan bien definido como puede sugerir la figura anterior,
y ms bien representa una aproximacin a las distintas y complejas fases que se llevan a
cabo a la hora de desarrollar un sistema inteligente, y que pueden variar de una situacin a
otra.
La descripcin de cada una de estas fases es la siguiente:
11
Formalizacin. Esta fase consiste en traducir los conceptos clave, los subproblemas, y
las caractersticas del flujo de informacin, identificados durante la fase anterior, en
representaciones formales basadas en herramientas o esquemas de la ingeniera del
conocimiento.
Prueba. Esta fase consiste en la evaluacin del rendimiento del prototipo construido para
encontrar errores o anomalas en la base de conocimientos o en los mecanismos de
inferencia.
Buchanan sita los lazos de realimentacin despus de la fase de prueba, pero tambin
indica que el proceso no tiene por qu seguir estrictamente la secuencia representada en la
12
figura anterior. Autores posteriores, como Mayrhauser, sealan que las retroalimentaciones
pueden aparecer entre cualquier par de fases de la metodologa. As, por ejemplo, si el
ingeniero del conocimiento no encuentra reglas adecuadas durante la implementacin puede
requerir una vuelta atrs y una reformulacin del problema. La nueva representacin del
ciclo de vida de los sistemas inteligentes sera tal y como se presenta en la siguiente figura,
una red completamente comunicada.
Identificacin
Prueba
Implementacin
Conceptualizacin
Formalizacin
Las estructuras de este tipo son muy complejas de controlar y de manejar, ya que el nmero
de iteraciones entre las fases es desconocido, y los objetivos pueden cambiar a medida que
avanza el desarrollo. Tambin es difcil llevar a cabo un control de los progresos realizados.
14
15
Anlisis
Especificacin
Implementacin
Diseo preliminar
Prueba (V&V)
Prototipo inicial
Mantenimiento
Evaluacin
Diseo final
Esta descripcin coincide con un modelo de desarrollo del software convencional que
incluya el prototipado rpido y el desarrollo incremental. Sin embargo las fases descritas
incorporan ciertas diferencias de forma que admitan las caractersticas diferenciales de los
sistemas inteligentes, como veremos a continuacin:
Anlisis del problema. Evala el problema y los recursos disponibles para determinar la
aplicabilidad de la solucin basada en el conocimiento. Se realizan anlisis de costebeneficio, y tambin pueden establecerse estudios de mercado.
Diseo preliminar. Trata las decisiones de alto nivel necesarias para el desarrollo del
prototipo inicial. Se determina el esquema de representacin del conocimiento, la
eleccin de la herramienta, y la eleccin de los expertos humanos que colaborarn en el
16
Diseo final. Implica la seleccin de las herramientas y los recursos necesarios para el
desarrollo del sistema (tambin incluye la seleccin del esquema de representacin del
conocimiento). Se deben especificar cules son los mdulos en los que se va a dividir el
sistema, cules son sus entradas y cules son las salidas que se pretenden obtener.
Implementacin. Sigue las indicaciones obtenidas del diseo para implementar la base de
conocimientos del sistema.
Ajuste del diseo. A medida que el trabajo progresa es necesario realizar ajustes de
diseo al principio de cada iteracin. Si estos ajustes son de poca importancia no suelen
plantearse problemas adicionales, pero si los ajustes requieren cambios significativos
pueden aparecer desplazamientos del paradigma.
ANLISIS
Identificacin
ESPECIFICACIN
DESARROLLO
Refinamiento
y extensin
UTILIZACIN
Identificacin de la potencial
aplicacin
Valoracin
Comprobacin de la adecuacin
de las tcnicas de ingeniera del
conocimiento
Familiarizacin
Diseo conceptual
Diseo de
implementacin
Implementacin
Seguir el diseo de
implementacin para construir la
base de conocimientos
Evaluacin
Pruebas de campo
Mantenimiento
Los sucesivos prototipos que se van construyendo son una ayuda para el proceso de
adquisicin del conocimiento.
Como vemos, las caractersticas de esta metodologa son muy parecidas a las de la
metodologa de Gonzalez y Dankel, slo que la forma de representar las fases es diferente.
Sin embargo, en la metodologa de Scott se presta ms atencin a la fase de adquisicin del
conocimiento. Aunque esta fase no aparece en la figura anterior, la adquisicin del
conocimiento es un proceso que se distribuye en todas las fases que se han representado; es
decir, la adquisicin del conocimiento tiene cierta importancia en cada una de las fases de
desarrollo de un sistema inteligente, segn se ilustra en la figura siguiente.
Identificacin
Fam iliarizacin
Diseo de im plem entacin
Evaluacin
Mantenim iento
0
10
20
30
40
50
60
70
80
90
100
19
Tipos de prototipos
Como hemos visto en las metodologas expuestas en los apartados anteriores, el desarrollo
incremental consiste en la construccin de una serie de prototipos que son modificados
sucesivamente hasta obtener el sistema final. Waterman divide estos prototipos en cinco
categoras a partir de una serie de criterios: uso, robustez, eficacia, nmero de reglas, tiempo
de desarrollo, etc. Hoy en da ya no existe una correspondencia clara entre el nmero de
reglas y el nivel del prototipo aunque en esta divisin se siguen manteniendo los criterios de
Waterman. Los distintos prototipos son:
20
Prototipo de campo. Son sistemas de tamao medio y grande, que han sido validados a
travs de casos reales. Son moderadamente fiables, contienen interfaces amigables y
recogen las necesidades de los usuarios finales. Un prototipo de campo suele contener
entre 500 y 1000 reglas, se comporta muy bien en un gran nmero de casos y su
desarrollo puede llevar de 2 a 3 aos.
Prototipo o modelo de produccin. Son grandes sistemas que han sido intensivamente
probados en el entorno de trabajo real y que pueden ser reimplementados en lenguajes
ms eficientes para incrementar su velocidad y reducir las necesidades de
almacenamiento. Un prototipo de produccin suele contener entre 500 y 1500 reglas; es
correcto, rpido y eficiente en la toma de decisiones y su desarrollo lleva de 2 a 4 aos.
Sistema comercial. Son prototipos de produccin que son usados de forma regular en
sistemas o mbitos comerciales. XCON, uno de los mejores ejemplos de un sistema
comercial tena alrededor de 3000 reglas, alcanzaba conclusiones correctas entre un 90 y
un 95 por cien de las veces y su desarrollo necesit de 6 aos.
Desgraciadamente todava hay muy pocos sistemas que alcanzan el rango de prototipo de
produccin, y menos an los que llegan a convertirse en un sistema comercial. La mayora
de los sistemas se quedan en las fases de prototipo de demostracin o prototipo de
investigacin.
21
Anlisis de
Requisitos
(AR)
AR
AR
Verificacin
de Requisitos
(VR)
AR
AR
Recoleccin
de datos
Test de
campo
Validacin
VR
VR
AC
Casos de Test
NAR
Prot. demostracin
Verificacin
VR
VR
Prototipo de
investigacin
AC
NAR
AC
Adquisicin del
conocimiento
(AC)
AC
Grupo de
control
Prototipo de
campo
Verificacin
Prototipado
Modelo de
produccin
NAR
NAR
Fijar un nivel
aceptable de
rendimiento(NAR)
sistema debe cumplir, y que puede ser fijado por los usuarios, los desarrolladores, los
encargados de la financiacin del proyecto, o por terceras personas
Imaginemos un sistema que produce una interpretacin dividida en 4 categoras: A, B, C y
D. Un sistema ideal obtendra rendimientos de casi en 100% en su clasificacin, sin
embargo, un nivel aceptable de rendimiento puede no ser tan estricto. As, por ejemplo,
podemos indicar que la clasificacin de A y B debe ser correcta pero se permite cierta
variacin en la clasificacin de C y D, adems nunca se debe clasificar un caso A como B,
pero puede no ser tan importante si un caso B se clasifica como A. Muchas veces el nivel
aceptable de rendimiento reflejar la habilidad de trabajar a niveles similares a los de la
experiencia humana (como el sistema es un modelo del experto no trabajar mejor que el
experto). As Bachant y McDermott (1984) comprobaron que al sistema R1 los usuarios no
le pedan ms de lo que le pedan a sus predecesores humanos.
El nivel aceptable de rendimiento se define normalmente en los requisitos del sistema pero,
a menudo, es redefinido y expandido despus de la adquisicin de conocimiento. La
comprobacin del cumplimiento de este nivel se realiza a travs de diversos mtodos
(pruebas basadas en casos, tests de Turing, tests de campo, etc.), que veremos
detalladamente un poco ms adelante. En las ltimas espirales esta comprobacin tender a
desplazarse hacia criterios de usabilidad, siempre teniendo en cuenta el tipo de sistema que
estamos construyendo.
En este modelo, el desarrollo de un sistema inteligente se divide en cuatro fases:
Anlisis de requisitos. Una cuestin fundamental a la que hay que responder antes de
desarrollar un sistema es la siguiente:es de utilidad el sistema? (OKeefe, 1989). Es
muy importante fijar desde el inicio cul es el problema a resolver, cules son los
potenciales usuarios y cul es el impacto que tendr el sistema en la organizacin (un
sistema que funcione perfectamente, pero que no se adapte a la forma de realizar las
tareas por los usuarios, no tendr ningn valor, porque no ser usado). Por ello es
necesaria una fase de definicin de requisitos en los que se especifiquen cuestiones
como: qu tipo de problemas se quieren resolver o en qu entornos se van a ejecutar, etc.
As, el problema a resolver debe ser adecuado para la aplicacin de tcnicas de IA, debe
poder descomponerse en subproblemas de forma que los ingenieros del conocimiento
puedan organizar el conocimiento, etc.
23
Evaluacin
Validacin
Verificacin
Laverificacines,segnBoehm(1981),lacomprobacindequeestamosconstruyendoel
productocorrectamente.Alahoradetratarsistemasinteligentesestadefinicinseformula
deformadistinta,comoporejemplocomprobarqueelsistemanotieneerroresycumple
susespecificacionesiniciales.
La validacin, tambin segn Boehm (1981), es la comprobacin de que estamos
construyendo el producto correcto. Lo que, expresado en trminos de sistemas inteligentes
significa comprobar que la salida del sistema es la correcta y que se cumplen las
necesidades y los requisitos del usuario.
Muchos autores incluyen una o varias fases despus de la validacin, comnmente
agrupadas bajo el trmino evaluacin, que se encargaran de analizar aspectos que van ms
all de la correccin de las soluciones finales. As la evaluacin se encargara de analizar
26
Las facilidades de explicacin son apropiadas para los potenciales usuarios del sistema.
Verificacin de la consistencia
La verificacin de la consistencia de la base de conocimientos consiste en la deteccin de
reglas redundantes, reglas conflictivas, reglas englobadas en otras, reglas circulares, y
condiciones IF innecesarias.
Reglas redundantes
Existen dos tipos de redundancias, por un lado redundancias sintcticas, que ocurren cuando
dos reglas tienen las mismas premisas y alcanzan idnticas conclusiones:
p(x) q(x) r(x)
q(x) p(x) r(x)
Por otro lado tenemos redundancias semnticas, que ocurren cuando las premisas o las
conclusiones de una regla no son idnticas en la sintaxis, pero s en el significado.
p(x) q(x) r(x) = Tormenta
q(x) p(x) r(x) = Actividad Elctrica
Las redundancias semnticas son menos comunes que las sintcticas, pero tambin son ms
difciles de detectar.
Las redundancias no causan necesariamente problemas lgicos, aunque pueden afectar a la
eficiencia del sistema (Suwa et al., 1982). Sin embargo, los problemas pueden aparecer
cuando, en futuras versiones del sistema, se cambie una regla pero no la otra.
30
Reglas conflictivas
Dos reglas son conflictivas cuando sus premisas son idnticas pero sus conclusiones son
contradictorias.
p(x) q(x) r(x)
p(x) q(x) r(x)
No siempre que las premisas de dos reglas sean idnticas podemos decir que ha ocurrido un
conflicto. As, por ejemplo, si la conclusin es un atributo multivaluado, podemos estar
tratando de establecer la probabilidad de aparicin de las distintas hiptesis. Tambin puede
suceder que el atributo est tomando, a la vez, varios valores (i.e. una persona puede ser
alrgica a varias substancias o haber sido infectada por varios organismos).
Reglas circulares
Un conjunto de reglas es circular si el encadenamiento de las mismas forma un ciclo, es
decir, se comienza por una determinada condicin y que al final del razonamiento volvemos
de nuevo a la misma condicin.
p(x) q(x)
31
q(x) r(x)
r(x) p(x)
Los conjuntos de reglas circulares pueden provocar que el sistema caiga en un bucle infinito
durante su ejecucin, salvo que se incluya algn mecanismo para evitarlo.
Condiciones IF innecesarias
Una condicin IF innecesaria existe cuando dos reglas tienen idnticas conclusiones, una
premisa de una regla est en contradiccin con una premisa en la otra regla, y el resto de
premisas son equivalentes.
p(x) q(x) r(x)
p(x) q(x) r(x)
En este caso las dos reglas pueden resumirse en una que contemple slo las premisas
equivalentes.
p(x) r(x)
Puede haber situaciones especiales en la que una condicin IF innecesaria no implique
necesariamente que se unan las dos reglas. As por ejemplo en el conjunto de reglas:
p(x) q(x) r(x)
q(x) r(x)
el problema quedara resuelto eliminando la condicin IF innecesaria de la primera regla
pero manteniendo intacta la segunda regla:
p(x) r(x)
q(x) r(x)
32
Verificacin de la completitud
Frecuentemente ocurre que el proceso de adquisicin de conocimiento a partir de fuentes de
experiencia no es completo, lo que puede producir huecos en el conocimiento adquirido.
Existen una serie de situaciones tpicas que pueden ser indicativas de un hueco en la base
de conocimientos, como son valores no referenciados de atributos, valores ilegales de
atributos, reglas inalcanzables, o reglas sin salida. Veamos estos casos ms
detalladamente.
33
Reglas inalcanzables
En un sistema inteligente que utiliza una bsqueda regresiva dirigida por las metas-, una
regla es inalcanzable si la conclusin de la regla no aparece en el objetivo a buscar, y no
aparece en la condicin IF de otra regla. Por ejemplo la regla IF Temperatura > 37 THEN
Fiebre sera inalcanzable si Fiebre no aparece en el objetivo buscado ni en la condicin
IF de otra regla.
En caso de que el razonamiento fuese dirigido por los datos, la regla sera inalcanzable si sus
premisas no pueden ser obtenidas del exterior (por ejemplo, preguntndole al usuario), y no
aparecen como conclusin de ninguna regla. Siguiendo con el ejemplo anterior, la regla IF
Temperatura > 37 THEN Fiebre sera inalcanzable si el valor de Temperatura no puede
ser actualizado desde el exterior, ni aparece como conclusin de alguna otra regla.
Esta situacin puede afectar a la eficiencia del sistema pero nunca a su salida (ya que la
regla con la conclusin inalcanzable nunca ser disparada). Una causa muy comn de este
tipo de situaciones son errores en la terminologa. As, por ejemplo, la conclusin Fiebre
podra aparecer en la parte IF de una regla de la siguiente forma:
IF Temperatura_Elevada THEN ...
en donde los trminos Temperatura_Elevada y Fiebre son sinnimos para el experto,
pero no para el sistema inteligente.
incertidumbre, la validez de estas pruebas es dudosa, ya que en estos casos pueden aparecer
situaciones normales que sean interpretadas como errores.
En sistemas que pretenden trabajar con incertidumbre, o con grados de asociacin
(utilizando factores de certeza, probabilidades bayesianas, o cualquier otro mtodo) tambin
es importante verificar cuestiones como la consistencia, la completitud, la correccin, y la no
redundancia. Estas tareas se realizan, en primer lugar, asegurndonos de que cada regla
incluye un factor de incertidumbre (o cualquier otra medida de caractersticas similares), y
que estos factores cumplen las restricciones impuestas por la teora o modelo en que se
basan.
La bsqueda de anomalas en las medidas de incertidumbre de un sistema inteligente es un
proceso que no ha recibido mucha atencin por parte de los investigadores, quiz debido al
limitado nmero de sistemas inteligentes que hacen un uso extensivo de las medidas de
incertidumbre. Un ejemplo de verificacin de este tipo aparece publicado en un trabajo que
OLeary (1990) desarroll en sistemas que seguan el esquema bayesiano. El modo en que el
uso de medidas de incertidumbre tambin puede afectar a la realizacin de los tests de
consistencia y completitud puede verse en los siguientes ejemplos (Nguyen et al., 1987):
Reglas englobadas en otras: Esta situacin puede no ser errnea ya que las dos reglas
pueden indicar la misma conclusin pero con distintas confianzas. La regla englobada
sera un refinamiento de la regla ms general para el caso de que tengamos ms
informacin.
35
Reglas sin salida: La deteccin de este tipo de reglas se complica con la introduccin
de incertidumbre. As, una regla puede convertirse en una regla sin salida si su
conclusin tiene una certidumbre por debajo del umbral en el cual un valor se considera
conocido. Por ejemplo, la siguiente cadena de reglas:
R1
R2
R3
podraparecervlida,sinembargosiAseconocecontotalcertidumbre,elfactorde
certezadeDdespusdeunrazonamientoprogresivosera0.40.70.7=0.196,valor
que cae por debajo del umbral antes mencionado. En este caso el valor de D sera
desconocidoylalneaderazonamientoacabaraenunpuntosinsalida.
Reglas inalcanzables: de forma similar al ejemplo anterior pueden existir reglas que, por
causa de los factores de certeza, se convierten en inalcanzables. Si consideramos el
siguiente conjunto de reglas:
R1
R2
A 0.1 B 1 C
36
Por estas razones la mayora de los sistemas se verifican con una aproximacin
independiente del dominio.
38
Criterios de validacin.
Mtodos de validacin
Ingeniero del
conocimiento
Experto
humano
Evaluadores
independientes
Validacin del
sistema
Usuarios
finales
39
Tambinesnecesariocontarconexpertoshumanos.Comoveremos,elmtodobsicopara
realizarlavalidacineselanlisisdecasosdepruebayaresueltos.Estoscasoshabrnsido
analizadostambinporexpertoshumanosconlosquepodremosestudiarlasdiscrepancias
encontradas.Generalmenteesconvenientequelosexpertosqueparticipenenlavalidacin
noseanlosmismosquecolaboraneneldesarrollodelsistema.Conestamedidaseintenta
conseguirqueelconocimientodelsistemaseadecealdeunconsensodeexpertos,yno
sloalconocimientodelexpertoquehacolaboradoensudiseo.
Relacionadaconlanecesidaddeindependenciaenlavalidacinsurgelaideadehacerrecaer
todaslasresponsabilidadesenungrupodeexpertosindependientequeOKeefeyOLeary
(1993)denominantercerosexpertos.Sinembargo,sielconstructordelsistemapoda
sobrevalorarsuproducto,laparticipacindeungrupohumanodevalidacintotalmente
independiente puede provocar el efecto contrario (Buchanan y Shortliffe, 1984). Esta
situacineslaqueChandrasekaran(1983)describicomolafalaciadelsuperhombre:se
leexigemsalsistemainteligentedeloqueseleexigiraaunexpertohumano,teniendoen
cuenta que el conocimiento del sistema inteligente es simplemente un modelo del
conocimientodelosexpertoshumanos.
Tambinpuedenaparecerproblemassilosevaluadoresnoaceptanfcilmentelautilizacin
desistemasinteligentesensureadetrabajo,osilasolucinpropuestaperteneceauna
escueladepensamientodiferentealasuya.Comoveremosposteriormente,paraevitar
subjetividadesenelprocesodevalidacin,sepuedenllevaracaboloquesedenominan
estudiosciegos.
Los usuarios finales del sistema tambin pueden participar en el proceso de validacin; sin
embargo, puede ocurrir que la experiencia de los mismos no sea suficiente para realizar la
validacin del sistema inteligente. Por ello generalmente su labor se destina a una validacin
orientada al uso.
del sistema son correctos, o si el razonamiento seguido hasta dar con la solucin es
apropiado.
La validacin de los resultados intermedios puede ser interesante porque los resultados
finales dependen de ellos. As, el anlisis de dichos resultados intermedios nos da una
descripcindelfuncionamientointernodelsistemaynospermiteunarpidacorreccinde
loserrorescometidos.
Tambin puede resultar apropiado validar las estructuras de razonamiento; es decir,
comprobarqueelsistemaalcanzalarespuestacorrectaporlasrazonescorrectas(Gaschnig
et al., 1983). Un proceso de razonamiento incorrecto puede provocar errores cuando
queramosampliarnuestrabasedeconocimientos (Chandrasekaran,1983).Enestecasolo
quesepretendeesemularelprocesoderazonamientoquerealizanlosexpertoshumanos.
Deestaformalosusuariosdelsistemaencontrarnmsagradablesuutilizacinalseguir
unalnealgicaalahoradeplantearlascuestiones.
Para ver con ms claridad lo que acabamos de comentar, consideremos el siguiente ejemplo:
sea un paciente en una unidad de cuidados intensivos, en la cual estamos monitorizando
constantemente sus datos gasomtricos. Adems contamos con las caractersticas del
contexto particular de su caso. Con estos datos intentamos interpretar su balance cido-base
a travs de un sistema inteligente. En la figura podemos observar que, ante un caso
determinado, se ha producido un error y el resultado no es el esperado.
SISTEMA EXPERTO
Datos
Gasometras
pCO2 = 48 mmHg
pH
= 7.32
[HCO3] = 17 mg / l
Contexto
Paciente
No presenta fallo
renal
Razonamiento
Resultado
(Balance cido-base)
ACIDOSIS METABLICA
Valor esperado
ACIDOSIS METABLICA Y
RESPIRATORIA
41
Gasometras
pCO2 = 48 mmHg
pH
= 7.32
[HCO3] = 17 mg / l
Contexto
Resultado
(Balance cido-base)
ACIDOSIS METABLICA Y
RESPIRATORIA
SISTEMA EXPERTO
Resultados intermedios
Razonamiento
previo
Estado_pCO2 = Normal
Alto
Estado_pH
= Bajo
Estado_HCO3 = Bajo
Razonamiento
final
No presenta fallo
renal
=
Valor esperado
ACIDOSIS METABLICA Y
RESPIRATORIA
Corregido el error las conclusiones del sistema son correctas. Sin embargo, si analizamos los
procesos de razonamiento empleados vemos que en la determinacin del estado del [HCO 3]
no se ha tenido en cuenta el hecho de que el paciente presente o no Fallo Renal. La
presencia de fallo renal puede alterar los valores normales del [HCO 3], si en nuestro
estudio no aparece ningn caso con esta patologa el sistema parecer funcionar
perfectamente, pero sus conclusiones sern errneas en el momento que aparezca un
paciente con fallo renal, como se muestra en la figura.
Resultado
(Balance cido-base)
SISTEMA EXPERTO
Gasometras
pCO2 = 48 mmHg
pH
= 7.32
[HCO3] = 17 mg / l
Contexto
ACIDOSIS METABLICA Y
RESPIRATORIA
Resultados intermedios
Razonamiento
previo
Estado_pCO2 = Alto
Estado_pH
= Bajo
Estado_HCO3 = Bajo
=
Razonamiento
final
No presenta fallo
renal
Valor esperado
ACIDOSIS METABLICA Y
RESPIRATORIA
42
Conesteejemplohemospretendidoilustrarcmoelanlisisdelosresultadosintermedios
puedeayudaraladeteccindeerroresenlasconclusionesfinales,ycmounaestructurade
razonamiento inadecuada en este caso incompleta puede parecer correcta, pero dar
problemascuandoelmbitodetrabajoseamplaenestecasocuandoaparecenpacientes
confallorenal.
Casustica de la Validacin
Elusodecasosdepruebaeselmtodomsampliamenteutilizadoparalavalidacinde
sistemasinteligentes.Alrespecto,loidealserapodercontarconunagrancantidaddecasos
representativosdeunespectrocompletodeproblemas,datosquefuesenanalizadosporun
grupoms omenos numeroso deexpertos.En larealidad, desafortunadamente, es muy
comnnodisponermsquedeunnmeroreducidodecasosyconpocosexpertosque
colaborenensuanlisis.Paraqueunamuestradecasosseasusceptibledeseraceptadaen
un proceso de validacin debe cumplir dos propiedades fundamentales: cantidad y
representatividad.
Elnmerodecasosempleadosenlavalidacintienequesersuficienteparaquelasmedidas
de rendimiento que obtengamos sean estadsticamente significativas (Chandrasekaran,
1983). Ante esto podemos plantearnos un mtodo muy sencillo de captura de datos: ir
recogiendo todos los casos de que podamos disponer hasta que tengamos un nmero
suficientedeellos.
No obstante hay que considerar otra caracterstica de la muestra como es su
representatividad.Noslohayquecapturarunnmeroelevadodecasos,sinoquestos
debenserrepresentativosdelosproblemascomunesalosquesevaaenfrentarelsistema
experto,aquellosproblemasqueconstituyensudominio.Chandrasekaran (1983)aconseja
queaquellosproblemasqueresuelvaelsistemainteligentedebenaparecerrepresentadosen
loscasosdeprueba.OKeefeetal.(1987)destacanquelacoberturadeloscasosesmucho
msimportantequesunmero,yqueloscasosdebenrepresentarconfiabilidadeldominio
deentradadelsistema.Eldominiodeentradaestconstituidoporaquelloscasosqueson
43
susceptibles de ser tratados por el sistema inteligente, cuanto mayor sea el dominio de
entradamscomplejasehacelavalidacindelsistema.
Para intentar mantener la representatividad de los datos se suelen emplear muestreos
estratificados. As, por ejemplo, supongamos que tenemos un sistema experto mdico a
partir del cual pretendemos obtener tres posibles diagnsticos: A, B y C. Revisando la
historia clnica comprobamos que en este tipo de clasificaciones el diagnstico A ha
aparecidoel80%delasveces,Bel15%yCel5%.Deestaforma,sinuestramuestraest
compuestapor200casos,160deellosdebenperteneceraldiagnsticoA,30aldiagnstico
By10aldiagnsticoC.
Aunque el procedimiento de muestras estratificadas pueda parecer vlido, su utilizacin
tambinhasidoobjetodecontroversias.As,OLeary(1993),presentaelejemplodelos
sistemas expertos que analizan las probabilidades de bancarrota en firmas comerciales
estadounidenses.Enunaoseproducensloentreun3yun5%debancarrotas,loque
significaqueenunamuestraestratificadaunacantidadcercanaal96%loconstituirncasos
pertenecientesafirmascomercialesquenohansufridounabancarrota.Estainundacinde
casos puede provocar que el sistema obtenga tasas de acierto elevadas an cuando sus
capacidadesparapredecirunabancarrotanoseanadecuadas.Entalescasospuederesultar
adecuadoestablecerunamuestraequilibrada,enlaqueelnmerodecasosdebancarrotasea
similaralnmerodecasosenlosquenosehaproducidounabancarrota.
Tambinpuedeocurrirqueelexpertoestinteresadoencomprobarlarespuestadelsistema
antecasosextraosycomplejosque,siempleramosunamuestraestratificada,apareceran
enunaproporcinminscula.Entalcasolamuestradebevariarseparaacogerunnmero
representativodecasosdeltipoespecificado.
Otroproblemaquepuedeapareceresquenoseaposibledisponerdecasosdepruebapara
validarelsistema.Hayquerecordarqueenlavalidacinsiempreesaconsejablenoutilizar
aquelloscasosquesehanutilizadoeneldiseo delsistemayaque,previsiblemente,el
sistemahabrsidoadaptadoparatratarestoscasosadecuadamente.
Unasolucinalacarenciadecasoseslautilizacindecasossintticos,esdecir,casos
generados artificialmente por los expertos. El problema con esta aproximacin es que
44
demanda una considerable objetividad por parte de los evaluadores siempre es una
tentacingenerarcasosqueresaltenlospuntosfuertesdelsistema.
Apesardetodoslosproblemascomentados,elestudiodecasosdepruebaresultaadecuado
paralavalidacindesistemasinteligentesporqueseadaptaperfectamentealosmtodosde
desarrolloincremental.Podemospartirdeunconjuntodecasoslimitadopararealizarla
validacindelasprimerasetapasdedesarrolloy,amedidaqueelsistemasevayaampliando
ysedesarrollennuevosaspectosfuncionales(siempredeacuerdoconlaespecificacinde
requisitosyelalcancedeldominio),podemoscapturarnuevoscasosdepruebaparavalidar
las nuevas capacidades del sistema. Despus de una modificacin importante podemos
volveraanalizarcasosyaresueltosparacomprobarsialgn efectolateral haprovocado
erroresque,antesdelamodificacin,noaparecan.
La casustica empleada en la validacin del sistema debe incluir dos tipos de datos: por un
lado las caractersticas de cada caso en particular y, por otro lado, un criterio que permita
identificar el tipo de caso que estamos tratando. A continuacin, el proceso de validacin
podra plantearse del siguiente modo:
Los resultados del sistema y el criterio de validacin que acompaa a los datos sirven de
entrada para un proceso de validacin en el que se analizar el rendimiento del sistema
inteligente.
Aunque el proceso pueda parecer sencillo aparecen cuestiones importantes, que a veces son
difciles de resolver. Por ejemplo: qu utilizamos como criterio de validacin?, quin
asocia cada caso de prueba con una interpretacin (o categora de interpretaciones) en
particular?. Al respecto, podemos diferenciar dos tipos de validacin atendiendo al tipo de
criterio establecido: validacin contra el experto y validacin contra el problema (Gaschnig
et al., 1983).
45
Los expertos pueden no ser independientes y estar influidos por otro de mayor categora
profesional, o de mayor prestigio, o de mayor poder, etc.
Ambigedades o errores en la adquisicin de los datos pueden provocar que los expertos
den opiniones diferentes ante los mismos casos.
Tendencias, a favor o en contra, de los sistemas inteligentes pueden hacer variar las
opiniones de los expertos humanos en la validacin
46
deideasyevaluacin deopciones.EstemtodofuedesarrolladoporlacompaaRAND
comounmtododeprospeccin,ysebasaenlarecopilacindeinformacincualitativa
basadaenjuicios deexpertos.Elmodeloaspiraaeliminarlosefectos indeseables dela
interaccindirectaeliminandoelcontactopersonalentrelosmiembrosdelproyectoque,ni
tansiquiera,conocenlaidentidaddelosdemsmiembrosdelgrupo.
Delphi utiliza un grupo o panel de expertos, seleccionados de acuerdo con su vala
profesionaly enfuncindelanaturalezadelproblema,alqueseenvauncuestionario
completopararecopilarjuiciosacercadeprocesosofenmenosreales,msespecficamente
sobresutendenciaydesarrollofuturo.Todoslosparticipantesformulandemanerasecretae
independientelashiptesiseideasquelessugiereelproblema,quesonenviadasporescrito
al coordinador del proyecto. ste interpreta y consolida los resultados preliminares
hiptesis,reasdeintersenrelacinalproblema,propuestasenunresumenglobaly
annimodecarcterestadsticoyfrecuentementetabular.
Dichoresumenglobalseenva,juntoconinformacinestadstica,alosexpertos,aquienes
sesolicitaque,ensucaso,modifiquensusapreciacionesinicialesorealicenlaspropuestaso
aclaraciones queconsiderenoportunas,teniendoencuentalasrazonesoconsideraciones
expuestasporlosdemsparticipantes.Enlamedidaenquesusapreciacionesdifierandela
opinin predominante del grupo se solicita que aclaren su posicin, lo que permite
incorporarnuevasideasyperspectivasalgrupodedecisin.Tabuladalainformacin,el
coordinadorenvaunnuevoinformealosparticipantesysereiniciaelciclodeconsulta.A
medidaquesteserepite,lasposicionesdelosexpertostiendenaconvergerenlasvariables
y procesos crticos del fenmeno, hasta alcanzar un grado suficientemente amplio de
consenso.
Estemtodosediferenciadelpaneldeexpertostradicional,ensucarcterannimoyenla
realizacindedosomsciclositerativosdeconsulta,loqueleconfieregranpotenciaen
cuantoalageneracindeideasylaorientacinalcompromisologradaporlainformacin
estadstica que se proporciona, al trmino de cada ciclo, a los expertos. Entre sus
deficienciasmssignificativascabedestacarelelevadogradodedependenciaenrelacinal
contenido,laformulacin delaspreguntasenelcuestionarioinicial,ylaseleccindelos
expertos.
48
Existen otros muchos mtodos para lograr un consenso entre varios expertos como el
Brainstorming, las tcnicas de grupos nominales, el AHP, ... (Medsker et al., 1994).
Tambienautorescomo(Xuetal.,1992)hanpropuestomtodosmatemticosparacombinar
informacinprovenientededistintasfuentes.Sinembargoelmtodomspopulardentrode
lossistemasexpertoseselmtodoDelphidebidoasucarcterannimoyasumtodode
realimentacin controlada (Clarke et al., 1994). Podemos encontrar ejemplos de la
utilizacin del mtodo Delphi en la validacin de sistemas inteligente en (Hamilton y
Breslawski,1996)y(RothyWood,1993).
decir,exigirlemsalsistemaexpertodeloqueseleexigiraalunexpertohumano.As,
supongamosunsistemaquepresentaunacuerdodel70%conlasolucinrealdelproblema.
Esteresultadopuedeparecerinadecuado,sinembargo,cuandoanalizamoslosresultadosde
losdistintosexpertoshumanosvemosqueelacuerdodeestosconlasolucinrealtampoco
sobrepasael70%yquesusinterpretacionessonmuysimilaresalasdelsistemaexperto.En
talcasopodremossuponerqueelcomportamientodelsistemaexpertoesaceptableyaquesu
rendimientoessimilaraldelosexpertoshumanosdeldominio.
Otroproblemaquesurgeenlavalidacincontraelproblemaesque,puedenoserposible
obtener una solucin real. Siguiendo con el ejemplo de MYCIN, el sistema experto
aconsejaba una terapia para cada caso, la nica forma de comprobar que la terapia es
adecuadaesprobarlasobreelpaciente.Evidentemente,porrazonesticas,slosepodr
probarunaterapiasobreunpacientesicoincideconlaterapiaquehaprescritoelexperto
humano(loquelimitabastanteelestudio).Ademselhechodequeelpacienteevolucione
bienpuedenoserindicativodequelaterapiaaplicadaeslamejor(puedeexistirotraque
hagaevolucionaralpacientemsdeprisayconmenossufrimiento).Portodosestosmotivos
lavalidacindeMYCINserealizcontralosexpertosynocontraelproblema(Yuetal.,
1979).
OKeefeetal.(1987)tambinrecomiendanlavalidacincontraexpertoshumanos,aunque
indicaque,siestdisponiblelasolucinrealdelproblema,suutilizacindentrodelproceso
devalidacinpuedeproporcionarinformacinmuyinteresante.
desarrollodelsistema,realizandopreferentementeundesarrolloincrementalenelcual,al
finaldecadaincremento,serealizaunavalidacin.SinembargoelrazonamientodeBachant
yMcDermotttambines,enciertosentido,vlido.As,enlasprimerasetapasdedesarrollo,
puedesernormalqueelrendimientodelsistemanoseaelevado,yloqueseesperaesque
esterendimientoseeleveamedidaquesevadesarrollandoelproyecto.
La validacin que se realiza en etapas tempranas del desarrollo esta muy vinculada al
proceso de adquisicin del conocimiento. As surge un nuevo proceso, denominado
refinamientodelconocimiento,yquepodemosencuadrardentrodelafasedeadquisicin.
Elprocesoderefinamientoconsisteenverificaryvalidarelconocimientorecinadquirido
en busca de problemas, resultados incorrectos, estructuras inadecuadas, etc. Existen
herramientas como SEEK (Politakis, 1985) y SEEK2 (Ginsber y Weiss, 1985) que se
encargandeverificaryvalidarelnuevoconocimientoadquiridoidentificandolasreglasque
puedensercausadeloserrores.
Otro aspecto a tener en cuenta, y que guarda cierta relacin con el momento de realizar la
validacin, es la diferenciacin existente entre la llamada validacin retrospectiva y la
validacin prospectiva. La validacin retrospectiva se realiza sobre casos histricos ya
resueltos y almacenados en una base de datos. Este tipo de validacin es la ms comnmente
realizada en los sistemas inteligentes, y los casos utilizados pueden incluir como referencia
de validacin tanto opiniones de expertos humanos, como la solucin real al problema
planteado (validacin contra expertos o contra el problema). La validacin retrospectiva se
utiliza en las etapas de desarrollo del sistema, antes de que este se instale en su entorno de
trabajo habitual.
Por otro lado, la validacin prospectiva consiste en confrontar al sistema con casos reales y
ver si es capaz de resolverlos o no (est frecuentemente relacionada con la validacin
orientada al problema). En la validacin prospectiva no se utilizan casos almacenados en
bases de datos sino que se utilizan casos que en ese momento estn siendo tratados por
expertos humanos. De este modo se puede evaluar, no slo la correccin de los resultados,
sino aspectos referentes al uso del sistema. El problema surge, al igual que en la validacin
contra el problema, cuando el dominio de aplicacin es crtico, y el sistema intenta
manipular el entorno (por ejemplo, administrndole una terapia a un paciente). Si la
51
manipulacin no ha sido aprobada por un experto humano no podr llevarse a cabo, lo que
puede limitar la utilidad de este tipo de validacin.
La validacin prospectiva se utiliza una vez que hemos validado el sistema en un entorno de
desarrollo y utilizando casos histricos, y se desea realizar una nueva validacin en el campo
de aplicacin del sistema. Este tipo de validacin es similar a las pruebas beta que
analizaremos ms adelante.
Mtodos de Validacin
Los mtodos para realizar la validacin pueden dividirse en dos grupos principales: mtodos
cualitativos y mtodos cuantitativos (OKeefe et al., 1987). Los mtodos cualitativos
emplean tcnicas subjetivas de comparacin del rendimiento, mientras que los mtodos
cuantitativos se basan en la utilizacin de medidas estadsticas. Esto no implica que los
mtodos cualitativos sean menos formales que los mtodos cuantitativos. Estas tcnicas no
son mutuamente excluyentes y lo normal es utilizar una combinacin de las mismas.
Dentrodelosmtodoscualitativosdevalidacinpodemosdestacarlossiguientes:
Validacin superficial.
Esunavalidacininformalquesebasaenreunionesentrelosdesarrolladoresdelsistema
inteligente,algnexpertohumanodeldominioy,ocasionalmente,algnusuario.Endichas
reunionesseanalizan,subjetivamente,lasconclusionesalasquellegaelsistemacuandoes
confrontadoconunaseriedecasosdeprueba.
Este tipo de validacin es habitualmente realizado en fases de desarrollo del sistema
inteligente,peroserecomiendaquenoseaelnicotipodevalidacinaplicadaalsistema.
Pruebas de Turing
Unodelosprincipalesproblemasdelacolaboracindeexpertosenlavalidacindesistemas
inteligenteseslapresenciadetendenciasafavoroencontradelpropiosistema,odelas
opinionesdeotrosexpertos.Conobjetodeevitarestastendenciasseutilizanlaspruebasde
Turing,desarrolladasapartirdelaideapropuestaporelmatemticoAlanTuringen1950.
52
Enestaspruebasloquesepretendeesreuniraungrupodeexpertoshumanosyhacerque
estosanalicenlosresultados desuscompaeros ylosresultados delsistemainteligente.
Estos resultados deben ser presentados de tal forma que resulte imposible conocer la
identidaddelapersona,omquina,queloshaanalizado.
Chandrasekaran (1983) recomienda la utilizacin de estas pruebas en sistemas expertos
mdicosymuestraunametodologaparallevarlasacabo,queincluyelavalidacindelos
resultadosfinalesdelsistema,ascomosusestructurasderazonamiento.Laspruebasde
TuringtambinsehanempleadoenlavalidacindelossistemasexpertosMYCIN(Yuet
al.,1979)yONCOCIN(Hickametal.,1985).
Test de campo
Lostestsdecampoconsistenencolocaralsistemainteligenteenelquevaasersuentorno
detrabajohabitual,ypermitirquelosusuariosinteraccionenconlenbuscadeposibles
errores.Esloqueenlaingenieradelsoftwareconocamoscomopruebasbeta.
Los tests de campo presentan una serie de ventajas como: (1) parte de las tareas de
validacinseefectanporlosusuariosdelsistema,(2)elnivelderendimientoaceptablese
obtiene implcitamente cuando los usuarios dejan de notificar problemas y, (3) permite
descubrirerroresquesehabanpasadoporaltoenotrotipodevalidaciones.
Sin embargo su utilizacin conlleva una serie de problemas: (1) los usuarios pueden
inundarnos con llamadas sobre preguntas menores que tienen poca relacin con el
rendimientodelsistema,(2)elsistemapuedeperdercredibilidadsielprototipomostradoes
muyincompleto,y(3)slopuedeutilizarseenaquellosdominiosnocrticosenlosquelos
usuariosestncapacitadosparacomprobarlacorreccindelasconclusionesdelsistema
experto.
Unejemplodelautilizacindelostestsdecampopuedeverseenlavalidacindelsistema
R1/Xcon(BachantyMcDermott,1984)
53
Validacin de subsistemas
Estemtodorequiereladivisindelabasedeconocimientos endiversossubsistemaso
mdulosque,posteriormente,sevalidanporseparadoutilizandootrosmtodos.
Estatcnicadedivideyvencerspermitereconocermsfcilmenteloserroresyfacilitael
procesodevalidacin.Sinembargo,presentaunaseriedeinconvenientescomoson:(1)no
todos los sistemas se pueden dividir fcilmente en subsistemas independientes y, (2) la
validacin de todos los subsistemas por separado no es equivalente a la validacin del
sistemacompleto.Porejemplo,supongamosdosmdulosdeunsistemaexpertomdicoque
proponenporseparadolaadministracindedosdrogasdistintas.Laadministracindelas
drogasporseparadonoofreceproblemas,sinembargo,suadministracinconjuntapuedeser
peligrosaparalavidadelpaciente.
Anlisis de sensibilidad
Estatcnicaconsisteenpresentar,alaentradadelsistema,unaseriedecasosmuysimilares
entres,entreloscuales haysinembargopequeas diferencias. Elimpacto dedichas
variacionesenloscasosdeentradapuedeserestudiadoobservandoloscambiosresultantes
enlasalida.
Esta tcnica es especialmente til cuando tratamos sistemas que manejan medidas de
incertidumbre,yaquepuedeestudiarseelimpactodeloscambiosendichasmedidas,tanto
enlosresultadosintermedios,comoenlasconclusionesfinales.
Grupos de control
Lossistemasinteligentespretendensimplificareltrabajoarealizarporpartedelosexpertos
humanos. Por ello, no slo debe evaluarse el sistema por separado, tambin es til
comprobarelimpactoquetieneelsistemaenlaorganizacin.Unatcnicacomnmente
empleadaenestecometidoeslabasadaengruposdecontrol.
En este caso se presentan los casos a dos grupos de expertos, unos que utilizan el sistema
inteligente, y otros que trabajan sin l -y constituyen el denominado grupo de control-. De
esta forma podemos comparar el rendimiento de los expertos cuando utilizan el sistema
54
inteligente, y cuando no lo utilizan. Para una mayor discusin sobre los grupos de control y
otras tcnicas denominadas quasi-experimentales se puede consultar (Adelman, 1991b).
Por otra parte, la validacin cuantitativa consiste en el empleo de medidas estadsticas para
cuantificar el rendimiento de un sistema experto. Muchos mtodos estadsticos se han
empleado en la validacin: contrastes de hiptesis, anlisis de la varianza (ANOVA),
intervalos de confianza, etc. Sin embargo, estas tcnicas pueden resultar confusas para
alguien que no tenga amplios conocimientos de estadstica, y son difciles de interpretar.
Enestecursohemosdecididocentrarnosenaquellas tcnicasmscomunesyfcilesde
interpretar (comoel ndice deacuerdo) que,utilizadas junto aotras medidas ytcnicas
grficas,permitentenerunconocimientoampliosobreelrendimientodenuestrosistema.
Podemosdividirnuestrastcnicascuantitativasentresgrupos:medidasdepares,medidasde
grupoyratiosdeacuerdo.Acontinuacinharemosunabrevedescripcindetodasellas,yse
analizarnconmsdetallealgomsadelante.
Medidas de pares
Las medidas de pares pretenden evaluar el grado de acuerdo y/o asociacin entre las
interpretaciones de dos expertos (incluyendo sistema experto, expertos humanos, o una
referenciaestndar).
Lasmedidasdeacuerdoseconsideranuntipoespecialdemedidasdeasociacindestinadas
acomprobarlafiabilidadolareproducibilidaddelasobservacionesrealizadas.Dentrode
ellasdestacamos:elndicedeacuerdo,elndicedeacuerdodentrodeuno(similaralanterior
peroqueconsideracomoacuerdosparcialesaquellasdiscrepanciasquesediferenciasenuna
slocategorasemnticaasumiendoquelasinterpretacionespuedenserordenadassegn
unaescalaordinal),kappa(quecorrigeaquellosacuerdosquesondebidosalacasualidad)y
kappa ponderada (similar a la anterior pero ponderando las distintas discrepancias en
funcindelamagnituddelasdesviaciones).
Enlasmedidas deasociacin seinvestigaelgradoderelacinlinealexistenteentrelas
variablesy,siesposible,predecirlosvaloresdeunavariableapartirdelosvaloresdeotra.
Dentrodeestasmedidaspodemosdestacarlatau( )ylataub(b)deKendall,larhode
55
Spearman(rs)ylagammadeGoodmanKruskal().Todasellasmedidasnoparamtricas,
yaquenohacenningunasuposicinsobreladistribucinsubyacentedelosdatos.
Medidas de grupo
Lasmedidasdegrupotratanlainformacindeungrupodeexpertossobreunadeterminada
interpretacin.Elobjetivoesverqugrupospuedenaparecerentreunconjuntodeexpertos
ycomprobarsilasopinionesdelsistemainteligentesonsimilaresalasdelosotrosexpertos
(especialmentedeaquellosqueseconsideranconmayorcategora).Dentrodelasmedidas
degrupopodemosdestacar:
Las medidas de Williams, Con las que se pretende ver si la relacin de un experto
aislado con el grupo de referencia es similar a la relacin existente entre los expertos del
grupo.
Las medidas de dispersin y tendencias, en donde se analiza cmo de dispersos son los
resultados de un experto si los comparamos con el resto de expertos del grupo, y hacia
qu interpretaciones tienden a dirigir sus conclusiones los expertos.
Ratios de acuerdo
Losratiosdeacuerdoseencargandecompararlasinterpretacionesdeunexperto(osistema
inteligente)conunareferenciaestndar(yaseaunconsensoentrelosexpertoshumanosola
solucin real al problema planteado). Esta comparacin se hace para cada una de las
posiblescategorasenlasquesedivideunainterpretacin(porejemplo,sieldiagnsticode
unaenfermedadpuedeobtener3posiblesvalores:enfermedadA,BoC,podemoshallarlos
ratiosdeacuerdoparacadaunadelas3posiblesenfermedades).Losratiosdeacuerdose
calculanapartirdeunatabla22,ylosmsutilizadossonlasensibilidad,laespecificidad,
56
elvalorpredictivopositivo,elvalorpredictivonegativo,elndicedeacuerdoylamedidade
Jaccard.
Coeficientes de exactitud
Enlossistemasinteligentespuedesercomnqueunasalidaserepresentemedianteuna
etiquetasemnticayunaprobabilidad(ounfactordecertidumbre)asociada.Porejemplo,
imaginemosqueunsistemaexpertopredicequeunpacientetienelaenfermedadXconuna
probabilidad del 0.75, y otro sistema experto tambin predice que el paciente tiene la
enfermedadXperoestavezconprobabilidad0.95.Sielpacienteefectivamentetenala
enfermedadXambasrespuestaspuedenconsiderasecorrectas,perolarespuestadelsegundo
sistemaexpertosermscorrectaqueladelprimero.
Paracuantificarestasdiferenciassehapropuestolautilizacindecoeficientesdeexactitud
(Shapiro, 1977). Reggia (1985) utiliz el coeficiente Q para la validacin del sistema
experto TIA (un sistema para la deteccin de ataques isqumicos transitorios). Este
coeficientesedefinecomo:
n
2 pi 0.5
i 1
endondepieslaprobabilidadasignadaporelsistemaexpertoalasalidaisima.Lamedida
Qseinterpretadelasiguienteforma:suvalores1siprediccinesperfecta,0sielsistema
nopresentacapacidadesdepredicciny1silaprediccinestotalmenteincorrecta.
Curvas ROC
LascurvasROC(ReceiverOperatingCharacteristic)estnmuyrelacionadasconlosratios
deacuerdoyconelanlisisdesensibilidad.Seutilizan,sobretodo,paraanalizarcmoun
determinadocriteriodedecisininternoafectaalrendimientodelsistema.Paradescubrir
estainfluenciasecomputanlosratiosdeacuerdoparavariassituacionesenlasqueseha
57
variadoelcriteriodedecisininternosobresuposiblerango.Elgrficoquerelacionalos
verdaderospositivosconlosfalsospositivosesloqueseconocecomocurvaROC.
Como ejemplo tomemos el grfico de la figura que sigue a continuacin. En este grfico, un
umbral interno del sistema se vara desde el valor 0.9 hasta el valor 0.05. La mejor relacin
entre los verdaderos positivos (TP) y los falsos positivos (FP) se da cuando el valor del
umbral es 0.1.
Distancias aritmticas
Existenocasionesenlasquesepuedenmedirlasdiferenciasentredosexpertosapartirde
distanciasaritmticas(comoladistanciaeucldea).Unejemplodeutilizacindeestamedida
loencontramos enlavalidacin delossistemas expertos probabilsticos PNEUMONIA
(Verdagueretal.,1992)yRENOIR(Hernndezetal.,1994).Enambostrabajoslasalidadel
sistemainteligenteesunvectorenelquesedetallanlasprobabilidadesdeaparicindelas
distintashiptesistomadasenconsideracin.Paracompararlassalidadelsistemaexperto
con la de varios expertos humanos se utiliza la distancia eucldea, la distancia de
Mahalanobis,ladistanciadeChebychevoladistancia Manhattan(odebloquesdecasas).
Ladefinicindeestasmedidaseslasiguiente:
Eucldea
d (i, j )
x
N
m 1
Mahalanobis
d (i, j )
im
x jm 2
(x i x j ) W 1 (x i x j )
Chebychev
d (i, j ) Max m x im x jm
Manhattan(obloquesdecasas)
d (i, j ) xim x jm
m 1
endondedrepresentaladistancia,iyjsonexpertos,Neselnmerodecoordenadas(eneste
casodeposibleshiptesis)yximeslaprobabilidadquehaasignadoelexpertoialahiptesis
58
m.ParaelcasodeladistanciadeMahalanobis(xixj)eselvectorcolumnamdimensional
dediferenciasentrelosvectoresdeprobabilidadesdelexpertoiydelexpertoj,(xixj)es
el vector transpuesto correspondiente y W1 es la inversa de la matriz de varianzas y
covarianzasparalasdistintasenfermedades.En(Bisquerra,1989)oen(CoxyCox,1994)
podemosencontrarotrostiposdedistanciasmatemticas.
como vlido
El sistema NO se acepta
como vlido
Decisin correcta
Error Tipo I
(Riesgo para el desarrollador)
El sistema NO es vlido
Error Tipo II
(riesgo para el usuario)
Decisin correcta
59
LoserroresdeTipoIseproducencuandounsistemaesconsideradocomoinvlido,ana
pesardeservlido.Esteerroraumentainnecesariamenteloscostesdedesarrollodelsistema
ymermalacredibilidadenelmismo.Secalificancomoderiesgoparaeldesarrollador
porqueelpropiodesarrollodelsistemapuedeponerseenentredicho.
Porotrolado,loserroresdeTipoIIseproducencuandoseaceptacomovlidounsistema
quenoloes.LasconsecuenciasdeesteerrorsonmspeligrosasquelasdelerrordeTipoI,
sobre todo si el sistema acta en dominios crticos (un sistema experto mdico que
diagnostiqueunaenfermedadincorrectamentepuedeprovocaralospacientesunsufrimiento
innecesario).
60