Академический Документы
Профессиональный Документы
Культура Документы
IN
I(X, Y W|Z).
4. Uni on fuerte e interseccion tambien implican composicion:
I(X, Y |Z)
UF
I(X, Y |Z W)
I(X, W|Z)
UF
I(X, W|Z Y )
IN
I(X, Y W|Z).
5.4 Modelos de Dependencia 197
Las propiedades anteriores se utilizar an en la seccion siguiente para con-
cluir independencias adicionales a partir de algunas listas de independen-
cias particulares, que verican ciertas propiedades y permitir an caracterizar
las estructuras de dependencia e independencia contenidas en los modelos
probabilsticos y gracos.
5.4 Modelos de Dependencia
Ahora que ya han sido introducidas algunas propiedades de la independen-
cia condicional es posible analizar el Problema 5.2:
Pregunta 5.2: Dada una lista inicial de relaciones de independen-
cia L, como pueden obtenerse nuevas independencias a partir de L
utilizando ciertas propiedades de independencia condicional?
Observese que, hasta ahora, no se ha requerido que las listas de rela-
ciones de independencia cumpliesen ninguna condici on (solo que los sub-
conjuntos que componen cada relaci on sean disjuntos). Cuando se impone
alguna condici on a estos modelos como, por ejemplo, que cumplan un
cierto conjunto de propiedades de independencia condicional, se obtienen
algunos tipos especiales de listas de independencias, algunos de los cuales
se describen a continuaci on.
Denicion 5.6 Grafoide. Un grafoide es un conjunto de relaciones de
independencia que es cerrado con respecto a las propiedades de simetra,
descomposici on, uni on debil, contracci on e intersecci on.
Denicion 5.7 Semigrafoide. Un semigrafoide es un conjunto de rela-
ciones de independencia que es cerrado con respecto a las propiedades de
simetra, descomposici on, uni on debil y contracci on.
Por tanto, un grafoide debe satisfacer las cinco primeras propiedades, mien-
tras que un semigrafoide debe satisfacer solo las cuatro primeras (ver Pearl
y Paz (1987) y Geiger (1990)).
Dada una lista inicial de independencias, un grafo, o una funci on de
probabilidad conjunta, siempre es posible determinar que relaciones de in-
dependencia se cumplen en el modelo y, por tanto, determinar su estructura
cualitativa. Por tanto, estos tipos de modelos denen clases particulares de
los denominados modelos de dependencia.
Denicion 5.8 Modelo de Dependencia. Cualquier modelo M de un
conjunto de variables {X
1
, . . . , X
n
} mediante el cual se pueda determinar
si la relaci on I(X, Y |Z) es o no cierta, para todas las posibles ternas de
subconjuntos X, Y y Z, se denomina modelo de dependencia.
198 5. Construccion de Modelos Probabilsticos
Denicion 5.9 Modelo de dependencia probabilstico. Un modelo
de dependencia M se denomina probabilstico si contiene todas las rela-
ciones de independencia dadas por una funcion de probabilidad conjunta
p(x
1
, . . . , x
n
).
Denicion 5.10 Modelo de dependencia probabilstico no ex-
tremo. Un modelo de dependencia probabilstico no extremo es un mo-
delo de dependencia probabilstico obtenido de una funci on de probabilidad
no extrema, o positiva; es decir, p(x
1
, . . . , x
n
) toma valores en el intervalo
abierto (0, 1).
Dado que todas las funciones de probabilidad satisfacen las cuatro primeras
propiedades de independencia condicional, todos los modelos de dependen-
cia probabilsticos son semigrafoides. Por otra parte, dado que s olo las fun-
ciones de probabilidad no extremas satisfacen la propiedad de intersecci on,
solo los modelos de dependencia probabilsticos no extremos son grafoides.
Denicion 5.11 Modelo de dependencia compatible con una pro-
babilidad. Un modelo de dependencia M se dice compatible con una fun-
ci on de probabilidad p(x
1
, . . . , x
n
) si todas las relaciones de independencia
derivadas M son tambien satisfechas por p(x
1
, . . . , x
n
).
Observese que un modelo de dependencia compatible con una probabilidad
es aquel que puede obtenerse de una funci on de probabilidad conjunta
p(x
1
, . . . , x
n
), pero sin necesidad de ser completo, es decir, no tienen por
que contener todas las relaciones de independencia que pueden obtenerse
de p(x
1
, . . . , x
n
).
Dado que toda funci on de probabilidad cumple las cuatro primeras pro-
piedades de la independencia condicional, si un modelo de dependencia
M es compatible con una funci on de probabilidad p(x
1
, . . . , x
n
), entonces
el menor semigrafoide generado por M tambien debe ser compatible con
p(x
1
, . . . , x
n
). Por tanto, un problema interesante desde el punto de vista
pr actico es calcular el menor semigrafoide generado por un modelo de
dependencia M. El siguiente algoritmo puede ser utilizado con este n:
Algoritmo 5.2 Generando un grafoide mnimo.
Datos: Un modelo de dependencia inicial M.
Resultado: El mnimo grafoide que contiene a M.
1. Generar nuevas relaciones de independencia aplicando las propieda-
des de simetra, descomposicion, uni on debil, contracci on e inter-
seccion a las relaciones del modelo M. El conjunto resultante es el
grafoide buscado.
El algoritmo anterior tambien puede ser utilizado para generar un semi-
grafoide; para ello basta con no utilizar la propiedad de intersecci on. El
ejemplo siguiente ilustra este algoritmo.
5.5 Factorizaciones de una Funcion de Probabilidad 199
Ejemplo 5.7 Generando grafoides. Sup ongase que se tiene un con-
junto de cuatro variables {X
1
, X
2
, X
3
, X
4
} y que se da la siguiente lista de
relaciones de independencia:
M = {I(X
1
, X
2
|X
3
), I(X
1
, X
4
|X
2
), I(X
1
, X
4
|{X
2
, X
3
})}. (5.9)
La Tabla 5.2 muestra las relaciones de independencia iniciales, y las rela-
ciones derivadas necesarias para completar el modelo hasta convertirlo en
un semigrafoide y un grafoide, respectivamente. Las nuevas relaciones de in-
dependencia son generadas utilizando un programa de ordenador llamado
X-pert Maps,
2
que implementa el Algoritmo 5.2. La Tabla 5.2 tambien
muestra las relaciones de independencia que se utilizan para obtener las
nuevas independencias.
Por tanto, las cinco primeras propiedades pueden ser utilizadas para au-
mentar un modelo de dependencia M compatible con una funci on de pro-
babilidad p(x
1
, . . . , x
n
). Tanto el modelo inicial como el completado son
compatibles con p(x
1
, . . . , x
n
). Esto motiva el siguiente problema:
Pregunta 5.3. Constituyen las cuatro propiedades descritas ante-
riormente una caracterizacion completa de los modelos probabilsticos?
Pearl y Paz (1987) (ver Pearl, (1988) p. 88) conjeturaron que las primeras
cuatro propiedades (simetra, descomposicion, uni on debil, y contracci on)
eran completas. Sin embargo, esta conjetura fue refutada por Studen y
(1989) encontrando, primeramente, un propiedad que no puede derivarse
de las cuatro anteriores y mostrando, despues, que no existe ning un con-
junto completo de propiedades que caractericen los modelos probabilsticos
(Studen y (1992)).
Como se vera en los captulos siguientes, la estructura cualitativa de
un modelo probabilstico puede ser representada mediante un modelo de
dependencia que permitir a obtener una factorizaci on de la funci on de pro-
babilidad. En la secci on siguiente se introducen algunos conceptos sobre
factorizaciones de una funci on de probabilidad.
5.5 Factorizaciones de una Funci on de
Probabilidad
Cualquier funci on de probabilidad de un conjunto de variables aleato-
rias puede ser denida por medio de funciones de probabilidad condicio-
nada m as sencillas formando una factorizaci on. En esta seccion se analizan
distintas formas de factorizar una funci on de probabilidad.
2
El programa X-Pert Maps puede obtenerse en la direccion WWW
http://ccaix3.unican.es/AIGroup.
200 5. Construccion de Modelos Probabilsticos
Lista inicial
M = {I(X
1
, X
2
|X
3
), I(X
1
, X
4
|X
2
), I(X
1
, X
4
|X
2
X
3
)}
RIC adicionales para Semigrafoide
Propiedad RIC Derivadas Derivada de
Simetra I(X
2
, X
1
|X
3
) I(X
1
, X
2
|X
3
)
Simetra I(X
4
, X
1
|X
2
) I(X
1
, X
4
|X
2
)
Simetra I(X
4
, X
1
|X
2
X
3
) I(X
1
, X
4
|X
2
X
3
)
Contracci on I(X
1
, X
2
X
4
|X
3
) I(X
1
, X
2
|X
3
) y I(X
1
, X
4
|X
2
X
3
)
Simetra I(X
2
X
4
, X
1
|X
3
) I(X
1
, X
2
X
4
|X
3
)
Uni on Debil I(X
1
, X
2
|X
3
X
4
) I(X
1
, X
2
X
4
|X
3
)
Simetra I(X
2
, X
1
|X
3
X
4
) I(X
1
, X
2
|X
3
X
4
)
Descomposicion I(X
1
, X
4
|X
3
) I(X
1
, X
2
X
4
|X
3
)
Simetra I(X
4
, X
1
|X
3
) I(X
1
, X
4
|X
3
)
RIC adicionales para Grafoide
Propiedad RIC Derivadas Derivada de
Interseccion I(X
1
, X
2
X
4
|) I(X
1
, X
2
|X
3
X
4
) y I(X
1
, X
4
|X
2
)
Simetra I(X
2
X
4
, X
1
|) I(X
1
, X
2
X
4
|)
Descomposicion I(X
1
, X
2
|) I(X
1
, X
2
X
4
|)
Simetra I(X
2
, X
1
|) I(X
1
, X
2
|)
Uni on Debil I(X
1
, X
2
|X
4
) I(X
1
, X
2
X
4
|)
Simetra I(X
2
, X
1
|X
4
) I(X
1
, X
2
|X
4
)
Descomposicion I(X
1
, X
4
|) I(X
1
, X
2
X
4
|)
Simetra I(X
4
, X
1
|) I(X
1
, X
4
|)
TABLA 5.2. Mnimos semigrafoide y grafoide generados por la lista inicial M de
relaciones de independencia condicional (RIC) en (5.9), obtenidos utilizando el
Algoritmo 5.2.
Denicion 5.12 Factorizacion mediante funciones potenciales. Sean
C
1
, . . . , C
m
subconjuntos de un conjunto de variables X = {X
1
, . . . , X
n
}. Si
la funci on de probabilidad conjunta de X puede ser escrita como producto
de m funciones no negativas
i
(i = 1, . . . , m), es decir,
p(x
1
, . . . , x
n
) =
m
i=1
i
(c
i
), (5.10)
donde c
i
es una realizaci on de C
i
, entonces se dice que (5.10) es una fac-
torizaci on de la funci on de probabilidad. Las funciones
i
se denominan
factores potenciales de la funci on de probabilidad.
En el Captulo 6 se ver an ejemplos importantes de este tipo de factorizacion.
Observese que los conjuntos C
1
, . . . , C
m
no son necesariamente disjuntos
5.5 Factorizaciones de una Funcion de Probabilidad 201
y que las funciones
i
no son necesariamente funciones de probabilidad.
Cuando se exige que las funciones
i
sean funciones de probabilidad, se
obtienen factorizaciones particulares, algunas de las cuales se comentan a
continuaci on.
Sea {Y
1
, . . . , Y
m
} una partici on (subconjuntos disjuntos dos a dos cuya
uni on es el conjunto total) del conjunto {X
1
, . . . , X
n
}. Un tipo importante
de factorizaciones se obtiene aplicando la f ormula siguiente, conocida como
regla de la cadena.
Denicion 5.13 Regla de la cadena. Cualquier funci on de probabilidad
de un conjunto de variables {X
1
, . . . , X
n
} puede ser expresada como el
producto de m funciones de probabilidad condicionada de la forma
p(x
1
, . . . , x
n
) =
m
i=1
p(y
i
|b
i
), (5.11)
o, de modo equivalente,
p(x
1
, . . . , x
n
) =
m
i=1
p(y
i
|a
i
), (5.12)
donde B
i
= {Y
1
, . . . , Y
i1
} es el conjunto de variables anteriores a Y
i
y
A
i
= {Y
i+1
, . . ., Y
n
} es el conjunto de variables posteriores a Y
i
. Observese
que a
i
y b
i
son realizaciones de A
i
y B
i
, respectivamente.
Cuando los conjuntos Y
i
estan formados por una unica variable, en-
tonces se tiene m = n y el conjunto {Y
1
, . . . , Y
n
} es simplemente una
permutaci on de {X
1
, . . . , X
n
}. En este caso, (5.11) y (5.12) se denominan
reglas can onicas de la cadena y se tiene
p(x
1
, . . . , x
n
) =
n
i=1
p(y
i
|b
i
) (5.13)
y
p(x
1
, . . . , x
n
) =
n
i=1
p(y
i
|a
i
), (5.14)
respectivamente.
Ejemplo 5.8 Regla de la cadena. Considerese el conjunto de variables
{X
1
, . . . , X
4
} y la partici on Y
1
= {X
1
}, Y
2
= {X
2
}, Y
3
= {X
3
}, Y
4
=
{X
4
}. Entonces (5.13) y (5.14) proporcionan la siguientes factorizaciones
equivalentes de la funci on de probabilidad:
p(x
1
, . . . , x
4
) = p(x
1
)p(x
2
|x
1
)p(x
3
|x
1
, x
2
)p(x
4
|x
1
, x
2
, x
3
) (5.15)
y
p(x
1
, . . . , x
4
) = p(x
1
|x
2
, x
3
, x
4
)p(x
2
|x
3
, x
4
)p(x
3
|x
4
)p(x
4
). (5.16)
202 5. Construccion de Modelos Probabilsticos
Por tanto, la funci on de probabilidad puede expresarse como el producto de
cuatro funciones de probabilidad condicionada. N otese que existen varias
formas de aplicar la regla de la cadena a una misma funci on de probabili-
dad (considerando distintas particiones), lo que origina distintas factoriza-
ciones. Por ejemplo, a continuaci on se muestran dos factorizaciones equi-
valentes obtenidas aplicando la regla de la cadena a distintas particiones
de {X
1
, . . . , X
4
}:
La partici on Y
1
= {X
1
}, Y
2
= {X
2
, X
3
}, y Y
3
= {X
4
} da lugar a
p(x
1
, . . . , x
4
) = p(x
1
)p(x
2
, x
3
|x
1
)p(x
4
|x
1
, x
2
, x
3
).
La partici on Y
1
= {X
1
, X
4
} y Y
2
= {X
2
, X
3
} produce la factorizaci on
p(x
1
, . . . , x
4
) = p(x
1
, x
4
)p(x
2
, x
3
|x
1
, x
4
).
En la Secci on 3.5 se ha visto que el n umero de par ametros que denen un
modelo probabilstico puede ser reducido imponiendo ciertas restricciones.
Por ejemplo, los distintos modelos presentados en la Secci on 3.5 fueron ob-
tenidos suponiendo ciertas relaciones de independencia condicional para el
modelo. Con el n de ilustrar la forma en la que la inclusi on de una relaci on
de independencia en un modelo probabilstico da lugar a una reducci on de
par ametros en el modelo, es conveniente escribir la funcion de probabili-
dad conjunta como producto de funciones de probabilidad condicionada
utilizando, por ejemplo, la regla de la cadena. Este hecho se ilustra en el
siguiente ejemplo.
Ejemplo 5.9 Restricciones dadas por independencias. Considerese
el conjunto de variables dado en el Ejemplo 5.8 y sup ongase que un experto
propone las dos siguientes relaciones de independencia:
I(X
3
, X
1
|X
2
) y I(X
4
, {X
1
, X
3
}|X
2
). (5.17)
A n de incluir estas relaciones en el modelo probabilstico, interesa calcular
las restricciones que deben cumplir los par ametros del modelo para satis-
facer estas condiciones de independencia. La primera de estas relaciones
implica
p(x
3
|x
1
, x
2
) = p(x
3
|x
2
), (5.18)
mientras que la segunda implica
p(x
4
|x
1
, x
2
, x
3
) = p(x
4
|x
2
). (5.19)
Observese que la forma general del modelo probabilstico no es una forma
conveniente para calcular las restricciones entre los par ametros, dadas por
(5.18) y (5.19). Sin embargo, si se sustituyen estas dos igualdades en la
5.5 Factorizaciones de una Funcion de Probabilidad 203
factorizaci on del modelo probabilstico (5.15), se obtiene la siguiente es-
tructura
p(x
1
, . . . , x
4
) = p(x
1
)p(x
2
|x
1
)p(x
3
|x
2
)p(x
4
|x
2
). (5.20)
Suponiendo que las variables son binarias, la funci on de probabilidad en
(5.15) depende de 2
4
1 = 15 par ametros libres.
3
Por otra parte, la funci on
de probabilidad en (5.20) depende de siete par ametros (p(x
1
) depende de
un par ametro, y cada una de las restantes funciones de probabilidad con-
dicionada depende de dos par ametros). Por tanto, las dos relaciones de
independencia dadas en (5.17) dan lugar a una reducci on de 8 par ametros
en el modelo probabilstico.
Denicion 5.14 Funcion de probabilidad condicionada canonica.
Sea U
i
X = {X
1
, . . . , X
n
}. Una funci on de probabilidad condicionada
p(x
i
|u
i
) se dice canonica si X
i
esta formada por una unica variable que no
esta contenida en U
i
.
El siguiente teorema, probado por Gelman y Speed (1993), garantiza que
cada conjunto de funciones de probabilidad condicionada, dado en forma
no can onica, tiene asociado un conjunto can onico equivalente.
Teorema 5.1 Existencia de formas canonicas. Considerese el con-
junto de variables X = {X
1
, . . . , X
n
} y sup onganse las funciones de pro-
babilidad marginales y condicionadas P = {p(u
1
|v
1
), . . . , p(u
m
|v
m
)}, donde
U
i
y V
i
son subconjuntos disjuntos de X, tal que U
i
= y V
i
puede ser vaco
(para el caso de funciones marginales). Entonces, a partir de P puede obte-
nerse un conjunto equivalente en el que los nuevos conjuntos U
i
contienen
una unica variable de X.
Demostracion: Aplicando la regla de la cadena a p(u
i
|v
i
) pueden ob-
tenerse tantas nuevas funciones condicionadas can onicas como variables
contenga el conjunto U
i
, es decir, el conjunto
{p(x
j
|c
ij
, v
i
) X
j
U
i
}, (5.21)
donde C
ij
= {X
r
| X
r
U
i
, r < j}.
El algoritmo siguiente convierte un conjunto dado de funciones condi-
cionadas P en una representaci on can onica equivalente.
Algoritmo 5.3 Forma canonica.
Datos: Un conjunto P = {p(u
i
|v
i
), i = 1, . . . , m} de m funciones de
probabilidad condicionada, donde U
i
y V
i
son subconjuntos disjuntos
de X.
3
Realmente existen 16 parametros, pero la suma de todos ha de ser 1. Por
tanto, existen unicamente 15 parametros libres.
204 5. Construccion de Modelos Probabilsticos
Resultado: Un conjunto equivalente P
= e i = 1.
2. Asignar j = 1, S
i
= U
i
V
i
y L = card(U
i
).
3. Eliminar de S
i
una de las variables contenidas en U
i
, por ejemplo X
,
y a nadir p(x
|s
i
) a P
.
4. Si j < L, incrementar el ndice j en una unidad e ir a la Etapa 3; en
caso contrario, ir a la Etapa 5.
5. Si i < m, incrementar el ndice i en una unidad e ir a la Etapa 2; en
caso contrario, devolver P
como resultado.
Ejemplo 5.10 Sup ongase el conjunto de variables X = {A, B, C, D} y
el conjunto de funciones de probabilidad P = {p(a, b|c), p(a, c, d|b)}. Uti-
lizando la notaci on del Algoritmo 5.3, los conjuntos U
i
y V
i
son
U
1
= {A, B}, V
1
= {C},
U
2
= {A, C, D}, V
2
= {B}.
Para convertir las dos funciones de probabilidad condicionada de P en sus
formas canonicas correspondientes, se utiliza el Algoritmo 5.3 obteniendose
p(a, b|c) = p(a|b, c)p(b|c),
p(a, c, d|b) = p(a|c, d, b)p(c|d, b)p(d|b).
(5.22)
Por tanto, se obtiene la representaci on can onica
P
i=1
p(y
i
|b
i
), (5.24)
donde B
i
= {Y
1
, . . . , Y
i1
} o, de forma equivalente,
p(x) =
n
i=1
p(y
i
|a
i
), (5.25)
donde A
i
= {Y
i+1
, . . . , Y
n
}. Las ecuaciones (5.24) y (5.25) se denomi-
nan representaciones canonicas estandar de la probabilidad. Los terminos
p(y
i
|b
i
) y p(y
i
|a
i
) se denominan componentes canonicas estandar.
Por ejemplo, (5.24) y (5.25) corresponden a dos representaciones can onicas
estandar de p(x
1
, . . . , x
4
). Las formas canonicas estandar no son unicas,
al igual que las formas can onicas, pues pueden obtenerse distintas repre-
sentaciones aplicando la regla de la cadena a distintas permutaciones de
X.
206 5. Construccion de Modelos Probabilsticos
Las consecuencias practicas de la existencia de una representacion can o-
nica para cualquier conjunto P de funciones de probabilidad condicionada
son
1. Cualquier conjunto no can onico de funciones de probabilidad condi-
cionada P puede ser expresado en forma can onica de forma equiva-
lente.
2. Cualquier funci on de probabilidad puede ser factorizada, utilizando
la regla de la cadena, como un producto de funciones de probabilidad
condicionada en forma can onica estandar.
3. S olo es necesario considerar funciones de probabilidad condicionada
de una unica variable para denir la funci on de probabilidad de un
conjunto de variables.
Las principales ventajas de este tipo de representaciones son las si-
guientes:
La denici on de un modelo probabilstico se simplica enorme-
mente al tratar con funciones de probabilidad condicionada de
una unica variable (dado un conjunto de variables). Este pro-
ceso es mas sencillo que la especicacion directa de una funci on
de probabilidad pues, generalmente, las funciones de probabili-
dad condicionada dependen de muchas menos variables que la
funci on de probabilidad conjunta.
La programaci on de algoritmos tambien se simplica ya que
solo es necesario considerar un unico modelo generico para las
funciones de probabilidad condicionada.
4. Las formas canonicas estandar permiten identicar f acilmente aque-
llos conjuntos de funciones de probabilidad condicionada que son con-
sistentes con alg un modelo probabilstico. Tambien permiten determi-
nar cu ando es unico el modelo probabilstico denido (ver el Captulo
7).
5.6 Construcci on de un Modelo Probabilstico
El problema de construir una funci on de probabilidad para un conjunto de
variables puede simplicarse notablemente considerando una factorizaci on
de la probabilidad como producto de funciones de probabilidad condicio-
nada m as sencillas. El grado de simplicaci on depender a de la estructura de
independencia (incondicional o condicional) existente entre las variables del
modelo. Por tanto, para encontrar una factorizaci on apropiada del modelo
probabilstico, primero se necesita conocer su estructura de independencia.
Esta estructura de independencia (modelo de dependencia) caracteriza la
5.6 Construccion de un Modelo Probabilstico 207
estructura cualitativa de las relaciones entre las variables. Por ejemplo, se
necesita denir que variables son independientes y/o condicionalmente in-
dependientes de otras y cu ales no. La estructura de independencia y, por
tanto, la factorizaci on asociada al modelo probabilstico, puede ser obtenida
de varias formas:
1. Modelos denidos gracamente: Como se ha visto en las sec-
ciones anteriores, las relaciones existentes entre las variables de un
conjunto pueden ser descritas mediante un grafo. Posteriormente,
utilizando un criterio de separaci on apropiado, se puede obtener el
conjunto de relaciones de independencia asociado. Estos modelos de
dependencia se conocen como modelos denidos gr acamente, y tie-
nen como ejemplos mas importantes a las redes de Markov, y las redes
Bayesianas, que se analizan en detalle en los Captulos 6 y 7. Las ta-
reas de comprobar la validez de un grafo, entender sus implicaciones,
y modicarlo de forma apropiada han de ser realizadas partiendo
de la comprension de las relaciones de dependencia e independencia
existentes en el conjunto de variables.
2. Modelos denidos por listas de independencias: Los grafos son
herramientas muy utiles para denir la estructura de independencia
de un modelo probabilstico. El problema de los modelos gr acos es
que no todas las funciones de probabilidad pueden ser representadas
mediante estos modelos (ver Seccion 6.2). Una descripci on alternativa
a los modelos gracos consiste en utilizar directamente un conjunto
M de relaciones de independencia que describan las relaciones en-
tre las variables. Este conjunto puede ser denido por un experto
a partir de sus opiniones sobre las relaciones entre las variables del
modelo. Cada una de las independencias del conjunto indica que va-
riables contienen informaci on relevante sobre otras y cu ando el cono-
cimiento de algunas variables hace que otras sean irrelevantes para
un conjunto de variables dado. Este conjunto inicial de independen-
cias puede ser completado incluyendo aquellas otras que cumplan una
serie de propiedades de independencia condicional. El conjunto resul-
tante puede ser nalmente utilizado para obtener una factorizaci on
de la funci on de probabilidad del modelo. Los modelos resultantes
se conocen como modelos denidos por listas de relaciones de in-
dependencia. El Captulo 7 presenta un an alisis detallado de estos
modelos.
3. Modelos denidos condicionalmente: Como alternativa a los mo-
delos gr acos y los modelos dados por listas de relaciones de indepen-
dencia, la estructura cualitativa de un modelo probabilstico puede
venir dada por un conjunto de funciones de probabilidad marginales
y condicionadas
P = {p
1
(u
1
|v
1
), . . . , p
m
(u
m
|v
m
)}.
208 5. Construccion de Modelos Probabilsticos
Sin embargo, las funciones de este conjunto no pueden denirse li-
bremente, sino que han de satisfacer ciertas relaciones para ser com-
patibles y denir un unico modelo probabilstico. En el Captulo 7
se analiza detalladamente la forma de comprobar la compatibilidad,
la unicidad, y de obtener la funci on de probabilidad asociada a un
conjunto de probabilidades marginales y condicionadas.
Una ventaja de utilizar modelos gr acos, o modelos denidos por listas de
independencias, para construir un modelo probabilstico es que estos mode-
los denen una factorizaci on de la funci on de probabilidad como producto
de funciones de probabilidad condicionada que determinan la estructura
cualitativa del modelo probabilstico. Normalmente, estas funciones condi-
cionadas contienen un n umero menor de variables que la funci on de pro-
babilidad conjunta y, por tanto, el proceso de denici on del modelo proba-
bilstico es mas sencillo. Esta tecnica de romper (de dividir y conquistar)
la funci on de probabilidad como producto de funciones condicionadas m as
sencillas se analiza en los Captulos 6 y 7.
Una vez que se conoce la estructura cualitativa del modelo probabilstico
(la factorizaci on de la funci on de probabilidad), la estructura cuantita-
tiva de un modelo particular se dene mediante la asignaci on de valores
numericos a los parametros asociados a las funciones de probabilidad con-
dicionada que intervienen en la factorizaci on del modelo. Estos valores han
de ser denidos por alg un experto, o estimados a partir de un conjunto de
datos.
Por tanto, si la estructura cualitativa del modelo es desconocida, que
es el caso habitual en la pr actica, entonces tanto la estructura cualitativa,
como la cuantitativa (los par ametros) han de ser estimadas a partir del
conjunto de datos disponible (una base de datos, etc.). Este problema, que
se conoce como aprendizaje, se trata en detalle en el Captulo 11.
Como resumen de todo lo anterior, la construcci on de un modelo proba-
bilstico puede ser realizada en dos etapas:
1. Factorizar la funci on de probabilidad mediante un producto de fun-
ciones de probabilidad condicionada. Esta factorizaci on puede obte-
nerse de tres formas distintas:
(a) Utilizando grafos (ver Captulo 6).
(b) Utilizando listas de relaciones de independencia (ver Captulo
7).
(c) A partir de un conjunto de funciones de probabilidad condicio-
nada (Captulo 7).
2. Estimar los par ametros de cada una de las funciones de probabilidad
condicionada resultantes.
Este proceso se ilustra de modo esquematico en la Figura 5.9. En este
diagrama, una lnea continua de un rect angulo A a un rect angulo B signica
Modelos
especificados
grficamente
Modelos
especificados
por listas
Estructura
cualitativa
(Factorizacin)
Modelo
Probabilstico
Estructura
cuantitativa
(Estimacin de
parmetros)
Distribuciones
de probabilidad
condicionada
5.6 Construccion de un Modelo Probabilstico 209
que cada miembro de A es tambien un miembro de B, mientras que una
lnea discontinua signica que algunos, pero no necesariamente todos, los
miembros de A son miembros de B. El camino m as simple para denir
un modelo probabilstico es comenzar con un grafo que se supone describe
la estructura de dependencia e independencia de las variables. A conti-
nuaci on, el grafo puede utilizarse para construir una factorizaci on de la
funci on de probabilidad de las variables. De forma alternativa, tambien
puede comenzarse con una lista de relaciones de independencia y, a partir
de ella, obtener una factorizaci on de la funci on de probabilidad. La factori-
zacion obtenida determina los par ametros necesarios para denir el modelo
probabilstico. Una vez que estos parametros han sido denidos, o estimados
a partir de un conjunto de datos, la funci on de probabilidad que dene el
modelo probabilstico vendr a dada como el producto de las funciones de
probabilidad condicionada resultantes.
FIGURA 5.9. Diagrama mostrando las formas alternativas de denir un modelo
probabilstico.
Por otra parte, si se conoce la funci on de probabilidad que dene un mo-
delo probabilstico (que no es el caso habitual en la pr actica), se puede
seguir el camino inverso y obtener varias factorizaciones distintas (uti-
lizando la regla de la cadena denida en la Secci on 5.5). Tambien se puede
obtener la lista de independencias correspondiente al modelo comprobando
cuales de todas las posibles relaciones de independencia de las variables
son vericadas por la funci on de probabilidad. A partir del conjunto de
independencias obtenido, tambien puede construirse una factorizaci on de
la familia parametrica que contiene a la funci on de probabilidad dada.
Este proceso de construccion de modelos probabilsticos plantea los si-
guientes problemas.
Problema 5.4: Puede representarse cualquier lista de relaciones de
independencia mediante un grafo de forma que las independencias
que se deriven del grafo coincidan con las de la lista dada?
210 5. Construccion de Modelos Probabilsticos
Aunque un grafo puede ser representado de forma equivalente por una lista
de relaciones de independencia, el recproco no siempre es cierto. Por esta
razon, la Figura 5.9 muestra una arista continua que va del rect angulo que
representa a los modelos denidos gr acamente al rectangulo que repre-
senta a los modelos denidos por listas de relaciones de independencia, y
una arista discontinua en la direcci on opuesta. El Captulo 6 analiza en
mayor detalle este hecho, tanto en el caso de grafos dirigidos, como en el
caso de grafos no dirigidos.
Problema 5.5: Como puede obtenerse la funci on de probabilidad
que contiene las independencias asociadas a un grafo dirigido o no
dirigido?
Problema 5.6: Como puede obtenerse la funci on de probabili-
dad que contiene las independencias de una lista de relaciones de
independencia?
Estos dos problemas se analizan en los Captulos 6 y 7.
Desgraciadamente, los grafos no siempre pueden reproducir las indepen-
dencias condicionales contenidas en una lista arbitraria de relaciones de
independencia, o en un modelo probabilstico. Por tanto, es importante ca-
racterizar las clases de modelos probabilsticos que pueden representarse
mediante grafos. Esto plantea los siguientes problemas:
Problema 5.7: Cu al es la clase de modelos probabilsticos que
pueden representarse por medio de grafos?
Problema 5.8: Que listas de relaciones de independencia pueden
ser representadas por medio de grafos?
Problema 5.9: Cu al es el conjunto de funciones de probabilidad
condicionadas necesario para denir un modelo probabilstico y cuales
son los par ametros necesarios para cuanticarlo?
Estos problemas se analizan en detalle en los Captulos 6 y 7. En es-
tos captulos se vera que, aunque todo grafo dene una estructura cua-
litativa de un modelo probabilstico (a traves de una factorizacion), no
todas las estructuras cualitativas pueden ser representadas por medio de
grafos. Por tanto, la Figura 5.9 muestra una arista s olida que va de los
modelos denidos gr acamente a los modelos factorizados, y una arista
discontinua en la direcci on opuesta. De forma similar, se ver a que todo
modelo probabilstico dene una lista de relaciones de independencia, pero
no cualquier lista de independencias dene un modelo probabilstico. Este
hecho se ilustra en la Figura 5.9 con las correspondientes aristas continua
y discontinua.
De la discusion anterior, y de la Figura 5.9, puede concluirse que existen
tres formas fundamentales de construir un modelo probabilstico:
5.6 Construccion de un Modelo Probabilstico 211
Grafo Modelos factorizados Estimacion de par ametros Mo-
delo probabilstico.
Listas de relaciones de independencia Modelos factorizados
Estimacion de par ametros Modelo probabilstico.
Conjunto de funciones condicionadas Modelos factorizados Es-
timacion de par ametros Modelo probabilstico.
En los Captulos 6 y 7 se vera que la forma m as sencilla es comenzar con un
grafo, pero que la forma m as general es a partir de una lista de relaciones
de independencia.
Apendice al Captulo 5
En este apendice se demuestran algunas de las propiedades de independen-
cia condicional que cumplen las funciones de probabilidad. Se demuestra
que cualquier funci on de probabilidad verica las cuatro primeras propie-
dades, pero que s olo las probabilidades no extremas verican la ultima.
5.7.1 Demostraci on de la Propiedad de Simetra
Dado que la funci on de probabilidad p(x, y, z) cumple I(X, Y |Z), se tiene
p(x|y, z) = p(x|z) p(x, y|z) = p(x|z)p(y|z). (5.26)
Veamos ahora que tambien se cumple I(Y, X|Z). Suponiendo que p(x, z) >
0, se tiene
p(y|x, z) =
p(x, y|z)
p(x|z)
=
p(x|z)p(y|z)
p(x|z)
= p(y|z) I(Y, X|Z),
donde la segunda igualdad se ha obtenido a partir de (5.26).
5.7.2 Demostraci on de la Propiedad de Descomposicion.
Dado que la funci on de probabilidad p(x, y, z) cumple I(X, Y W|Z), se
tiene
p(x|z, y, w) = p(x|z). (5.27)
Veamos primero que tambien se cumple I(X, Y |Z). Se tiene
p(x|z, y) =
v
p(x, v|z, y)
=
v
p(x|z, y, v)p(v|z, y),
212 5. Construccion de Modelos Probabilsticos
donde V = W \ Y es el conjunto W excluyendo los elementos de Y .
Aplicando (5.27) se tiene
p(x|z, y) =
v
p(x|z)p(v|z, y)
= p(x|z)
v
p(v|z, y)
= p(x|z).
La ultima igualdad se obtiene de
v
p(v|z, y) = 1,
es decir, la suma de las probabilidades para todos los valores posibles de
una variable ha de ser uno. Por tanto, p(x|z, y) = p(x|z), y as, I(X, Y |Z).
Se puede demostrar, de forma similar, que la relaci on de independencia
I(X, W|Z) tambien se cumple.
5.7.3 Demostraci on de la Propiedad de Uni on Debil
Dado que la funci on de probabilidad p(x, y, z) cumple I(X, Y W|Z), se
tiene
p(x|z, y, w) = p(x|z). (5.28)
Primero se muestra que esta relacion de independencia implica I(X, W|Z
Y ). Si se aplica la propiedad de descomposici on a I(X, Y W|Z), se tiene
I(X, Y |Z), es decir,
p(x|z, y) = p(x|z). (5.29)
Aplicando (5.28) y (5.29) resulta
p(x|z, y, w) = p(x|z) = p(x|z, y),
lo cual implica I(X, W|ZY ). De forma similar puede obtenerse I(X, Y |Z
W).
5.7.4 Demostraci on de la Propiedad de Contracci on
Dado que la funci on de probabilidad p(x, y, z) cumple I(X, W|Z Y ) en
(5.4), se tiene que
p(x|z, y, w) = p(x|z, y). (5.30)
De forma similar, si se satisface I(X, Y |Z), entonces
p(x|z, y) = p(x|z). (5.31)
A partir de (5.30) y (5.31) resulta
p(x|z, y, w) = p(x|z, y) = p(x|z).
Por tanto, tambien se cumple I(X, Y W|Z).
E
B A
C D
F G
H
5.6 Construccion de un Modelo Probabilstico 213
5.7.5 Demostraci on de la Propiedad de Intersecci on
Dado que la funci on de probabilidad no extrema p(x, y, z) cumple I(X, W|Z
Y ), se tiene
p(x|z, y, w) = p(x|z, y). (5.32)
De forma similar, si se cumple I(X, Y |Z W), entonces
p(x|z, y, w) = p(x|z, w). (5.33)
Las ecuaciones (5.32) y (5.33) implican
p(x|z, y, w) = p(x|z, y) = p(x|z, w),
que, dado que la probabilidad es no extrema, implica p(x|z, y, w) = p(x|z).
Por tanto, tambien se verica I(X, Y W|Z).
Ejercicios
5.1 Considerese el grafo no dirigido de la Figura 5.10. Comprobar c uales
de las siguientes relaciones de independencia son ciertas utilizando el
criterio de U-separacion:
(a) I(F, H|).
(b) I(F, H|D).
(c) I(A, G|{D, E}).
(d) I(C, {B, G}|D).
(e) I({A, B}, {F, G}|{C, D}).
(f) I({C, F}, {G, E}|{A, D}).
FIGURA 5.10. Grafo no dirigido.
A
C D
F G H
E
B
214 5. Construccion de Modelos Probabilsticos
5.2 Considerese el grafo dirigido de la Figura 5.11. Comprobar c uales de
las siguientes relaciones de independencia son ciertas utilizando el
criterio de D-separacion dado en la Denici on 5.3:
(a) I(E, G|).
(b) I(C, D|).
(c) I(C, D|G).
(d) I(B, C|A).
(e) I({C, D}, E|).
(f) I(F, {E, H}|A).
(g) I({A, C}, {H, E}|D).
FIGURA 5.11. Grafo dirigido.
5.3 Repetir el ejercicio anterior utilizando el criterio de D-separacion
dado en la Denici on 5.4.
5.4 Considerese el conjunto de cuatro variables {X, Y, Z, W}, relacionadas
mediante
I(X, Y |) y I(X, Z|{Y, W}).
Encontrar el conjunto mnimo de relaciones de independencia gene-
rado por las dos relaciones de independencia anteriores y que adem as
cumpla:
(a) La propiedad de simetra.
(b) Las propiedades de simetra y descomposicion.
(c) Las propiedades de semigrafoide.
(d) Las propiedades de grafoide.
5.5 Repetir el ejercicio anterior considerando las siguientes relaciones de
independencia:
I(X, W|{Y, Z}) y I(Y, Z|{X, W}).
5.6 Construccion de un Modelo Probabilstico 215
x y z w p
1
(x, y, z, w) p
2
(x, y, z, w)
0 0 0 0 p
5
p
8
/p
13
(p
13
p
4
+p
12
p
5
+p
4
p
8
+p
5
p
8
)/a
0 0 0 1 p
5
p
9
/p
13
(p
13
p
4
p
12
p
5
+p
4
p
9
+p
5
p
9
)/a
0 0 1 0 p
10
p
7
/p
15
(p
10
p
6
p
15
p
6
+p
10
p
7
+p
14
p
7
)/b
0 0 1 1 p
11
p
7
/p
15
(p
11
p
6
+p
15
p
6
+p
11
p
7
p
14
p
7
)/b
0 1 0 0 p
12
p
5
/p
13
p
4
0 1 0 1 p
5
p
5
0 1 1 0 p
14
p
7
/p
15
p
6
0 1 1 1 p
7
p
7
1 0 0 0 p
8
p
8
1 0 0 1 p
9
p
9
1 0 1 0 p
10
p
10
1 0 1 1 p
11
p
11
1 1 0 0 p
12
p
12
1 1 0 1 p
13
p
13
1 1 1 0 p
14
p
14
1 1 1 1 p
15
p
15
TABLA 5.3. Dos familias parametricas de funciones de probabilidad, donde a =
p
12
+ p
13
y b = p
14
+ p
15
.
5.6 Obtener el conjunto de todas las posibles relaciones de independencia
condicional para un conjunto de tres variables.
5.7 Encontrar el conjunto de relaciones de independencia correspondiente
a la funci on de probabilidad
p(x, y, z) = 0.3
x+y
0.7
2xy
x +y
2
1
x +y
2
1z
,
donde x, y, z {0, 1}.
5.8 Dado el conjunto de cuatro variables {X, Y, Z, W} y la familia pa-
rametrica de funciones de probabilidad p
1
(x, y, z, w) descrita en la
Tabla 5.3,
(a) Probar que esta familia satisface la relaci on de independencia
I(X, Y W|Z).
(b) Es esta la familia de funciones de probabilidad m as general que
cumple esta propiedad?
5.9 Dado el conjunto de cuatro variables {X, Y, Z, W} y la familia pa-
rametrica de funciones de probabilidad p
2
(x, y, z, w) descrita en la
Tabla 5.3,
216 5. Construccion de Modelos Probabilsticos
(a) Probar que esta familia satisface I(X, Y |Z) y I(X, W|Z).
(b) Es esta la familia de funciones de probabilidad m as general que
cumple estas propiedades?
(c) Es suciente suponer que p
6
= p
14
p
7
/p
15
y p
4
= p
12
p
5
/p
13
para
que la familia anterior satisfaga I(X, Y W|Z)?
5.10 Expresar en forma factorizada la funci on de probabilidad del Ejemplo
5.8 considerando las siguientes particiones del conjunto de variables:
(a) Y
1
= {X
1
, X
3
}, Y
2
= {X
2
, X
4
}.
(b) Y
1
= {X
4
}, Y
2
= {X
2
}, Y
3
= {X
1
, X
3
}.
(c) Y
1
= {X
2
}, Y
2
= {X
1
, X
3
, X
4
}.
5.11 Considerese el conjunto de cuatro variables dado en el Ejemplo 5.9
y sup ongase que X
1
es una variable ternaria y que las otras tres
variables son binarias.
(a) Cu al es el n umero maximo de par ametros libres de la funci on
de probabilidad?
(b) Cu antos par ametros libres denen las funciones de probabilidad
que cumplen las relaciones de independencia en (5.17)?
5.12 Repetir el ejercicio anterior suponiendo que las tres variables son
ahora ternarias.
5.13 Considerese de nuevo el conjunto de cuatro variables dado en el Ejem-
plo 5.9. Escribir la forma factorizada asociada a cada uno de los si-
guientes casos y calcular el n umero de par ametros libres en cada uno
de los modelos resultantes
(a) La funci on de probabilidad que cumple I(X
1
, X
4
|{X
2
, X
3
}).
(b) La funci on de probabilidad que satisface las condiciones de in-
dependencia I(X
2
, X
3
|X
1
), I(X
3
, X
4
|X
1
), y I(X
2
, X
4
|X
1
).
5.14 Encontrar la lista de relaciones de independencia asociada a la funci on
de probabilidad dada en la Tabla 3.2.
5.15 Sup ongase que una funci on de probabilidad de cuatro variables {X, Y,
Z, W} puede ser factorizada como
p(x, y, z, w) = p(x)p(y|x)p(z|x)p(w|y, z).
Comprobar cu ales de las siguientes relaciones de independencia se
cumplen:
(a) I(X, W|Y ).
(b) I(X, W|Z).
(c) I(X, W|Y, Z).
(d) I(Y, Z|X, W).