Estadistica Bayesiana

Estadstica Bayesiana
Ms. Carlos Lpez de Castilla Vsquez1

19 de octubre de 2011
1 Si
tienes comentarios o correcciones envalos al siguiente correo electrnico:

clopez@lamolina.edu.pe
ndice general
1. Introduccin
2. Teora de la probabilidad y Estadstica Clsica

2.1. Reglas de probabilidad . . . . . . . . . . . . . .
2.2. Algunas distribuciones importantes . . . . . . .
2.2.1. Distribucin binomial . . . . . . . . . . .
2.2.2. La distribucin multinomial . . . . . . .
2.2.3. La distribucin de Poisson . . . . . . . .
2.2.4. La distribucin normal . . . . . . . . . .
2.2.5. La distribucin normal multivariada . . .
2.2.6. La distribucin t de student . . . . . . .
2.3. Estimacin por mxima verosimilitud . . . . . .
2.3.1. Construyendo la funcin de verosimilitud
2.3.2. Obteniendo los errores estndar . . . . .
.
.
.
.
.
.
.
.
.
.
.
3
3
4
4
4
5
5
5
5
5
6
6
3. Estadstica Bayesiana
3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. El teorema de Bayes para probabilidades puntuales . . . . . .
3.3. El teorema de Bayes aplicado a distribuciones de probabilidad
3.4. Distribucin predictiva . . . . . . . . . . . . . . . . . . . . . .
3.5. Familias conjugadas . . . . . . . . . . . . . . . . . . . . . . . .
3.6. La distribucin a priori . . . . . . . . . . . . . . . . . . . . . .
3.6.1. Principio de invariancia de Jeffreys . . . . . . . . . . .
3.6.2. Algunas distribuciones a priori tiles . . . . . . . . . .
3.6.2.1. La distribucin Dirichlet . . . . . . . . . . . .
3.6.2.2. La distribucin gamma inversa . . . . . . . .
3.6.2.3. Distribucin Wishart y Wishart Inversa . . .
3.7. Crticas a la estadstica Bayesiana . . . . . . . . . . . . . . . .
8
8
8
9
10
11
11
11
12
12
13
13
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
NDICE GENERAL
ii
4. Modelos basados en la distribucin normal

4.1. Distribucin normal con un solo parmetro desconocido .
4.1.1. Distribucin normal con 2 conocida . . . . . . .
4.1.2. Distribucin normal con conocida . . . . . . . .
4.2. Distribucin normal con ambos parmetros desconocidos
4.2.1. Distribucin a priori no informativa . . . . . . . .
4.2.2. Distribucin a priori informativa . . . . . . . . . .
4.3. Caractersticas de la aproximacin Bayesiana . . . . . . .
4.4. Objeciones a la inferencia Bayesiana . . . . . . . . . . . .
4.5. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . .
4.6. Prediccin . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Odds y razn de verosimilitud . . . . . . . . . . . . . . .
4.8. La naturaleza secuencial del teorema de Bayes . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5. Modelos uniparamtricos
5.1. Distribucin binomial . . . . . . . . . . . . . . . . . . . . . .
5.2. Distribucin normal . . . . . . . . . . . . . . . . . . . . . . .
5.2.1. Estimacin de la media con varianza conocida . . . .
5.2.2. Distribucin normal con media conocida y varianza desconocida . . . . . . . . . . . . . . . . . . . . . . . .
5.3. El modelo de Poisson . . . . . . . . . . . . . . . . . . . . . .
5.4. Modelo exponencial . . . . . . . . . . . . . . . . . . . . . . .
5.5. Distribuciones a priori no informativas . . . . . . . . . . . .
5.6. Mixtura de distribuciones a priori . . . . . . . . . . . . . . .
6. Modelos multiparamtricos
6.1. Distribucin normal con media y varianza desconocidas
6.2. Distribucin marginal posterior de la media . . . . . .
6.3. Distribucin marginal posterior de la varianza . . . . .
6.4. Distribucin condicional de la media dada la varianza .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
15
16
16
17
19
20
20
22
22
23
28
. 28
. 35
. 35
.
.
.
.
.
38
39
41
42
46
.
.
.
.
48
48
49
50
50
Captulo 1
Introduccin
La estadstica Bayesiana le debe su nombre al trabajo pionero del reverendo Thomas Bayes titulado An Essay towards solving a Problem in the
Doctrine of Chances publicado pstumamente en 1764 en la Philosophical
Transactions of the Royal Society of London. El artculo fue enviado a la
Real Sociedad de Londres por Richard Price, amigo de Bayes, en 1763, quin
escribi:
Yo ahora le mando un ensayo que he encontrado entre los
papeles de nuestro fallecido amigo Thomas Bayes, y el cual, en
mi opinin, tiene un gran mrito, y bien merece ser preservado
... En una introduccin que l ha escrito para este ensayo, l
dice, que su objetivo en un principio fue, descubrir un mtodo
por el cual se pueda juzgar la probabilidad de que un evento
tenga que ocurrir bajo circunstancias dadas, y bajo la suposicin
de que nada es conocido sobre dicho evento, salvo que, bajo las
mismas circunstancias, ste ha ocurrido un cierto nmero de veces
y fallado otro tanto ... Cualquier persona juiciosa ver que el
problema aqu mencionado no es de ninguna manera una simple
especulacin producto de la curiosidad, sino un problema que
se necesita resolver para contar con un fundamento seguro para
todos nuestros razonamientos concernientes a hechos pasados y a
lo que probablemente ocurra de ah en adelante ... El propsito
a m me parece es, mostrar qu razones nosotros tenemos para
creer que en la constitucin de las cosas existen leyes fijas de
acuerdo con las cuales las cosas pasan, y que, por lo tanto, el
1
CAPTULO 1. INTRODUCCIN
funcionamiento del mundo debe ser el efecto de la sabidura y

el poder de una causa inteligente, y as, confirmar el argumento
tomado desde las causas finales para la existencia de la deidad.
Aunque la obra de Thomas Bayes data ya de hace ms de dos siglos, la
estadstica Bayesiana es relativamente nueva, y actualmente ostenta un gran
desarrollo aunque no ajeno a tambin grandes controversias.
El marco terico en el cual se desarrolla la inferencia Bayesiana es idntico
al de la teora clsica. Se tiene un parmetro poblacional sobre el cual se
desea hacer inferencias y se tiene un modelo de probabilidad f (x/) el cual
determina la probabilidad de los datos observados x bajo diferentes valores
de . La diferencia fundamental entre la teora clsica y la bayesiana est en
que es tratado como una cantidad aleatoria. As, la inferencia Bayesiana se
basa en f (/x) en vez de f (x/), esto es, en la distribucin de probabilidades
del parmetro dados los datos.
La inferencia Bayesiana, se puede resumir como el proceso de ajustar un
modelo de probabilidad a un conjunto de datos y resumir los resultados mediante una distribucin de probabilidades para los parmetros del modelo y
para cantidades desconocidas pero observables tales como predicciones para
nuevas observaciones. La caracterstica esencial de los mtodos Bayesianos
est en su uso explcito de probabilidades para cuantificar la incertidumbre
en inferencias basadas en el anlisis estadstico de los datos. Esto permite un
manejo mucho ms natural e intuitivo de la inferencia, salvando por ejemplo
el problema de la interpretacin frecuencial de los resultados. Sin embargo,
para hacer uso de un enfoque Bayesiano, es necesario especificar una distribucin de probabilidades a priori f (), la cual representa el conocimiento
que se tiene sobre la distribucin de previo a la obtencin de los datos. Esta
nocin de una distribucin a priori para el parmetro constituye el centro del
pensamiento Bayesiano y, dependiendo de si se es un defensor o un opositor
a esta metodologa, su principal ventaja sobre la teora clsica o su mayor
vulnerabilidad.
Captulo 2
Teora de la probabilidad y
Estadstica Clsica
2.1.
Reglas de probabilidad
La definicin de probabilidad es una tarea complicada. Una forma es travs

de la frecuencia relativa de resultados para una serie infinita de eventos. Segn
esta perspectiva la razn de considerar que la probabilidad de obtener cara al
lanzar una moneda es 1/2 es que en una serie infinita de lanzamientos observaramos este resultado el 50 % de las veces. La definicin anterior constituye
la base de la estadstica clsica. Otra forma de definir la probabilidad es a
travs de la representacin subjetiva de la incertidumbre sobre los eventos.
Cuando se afirma que la probabilidad de obtener cara en una moneda es 1/2
se asume que la modena es justa y que a partir de nuestra experiencia a priori
sabemos que las caras se obtienen el 50 % de las veces. Esta tima definicin es la base del pensamiento Bayesiano que considera existen elementos
subjetivos que juegan un rol importante en el anlisis de la incertidumbre.
En cualquiera de las dos definiciones se requiere conocer los axiomas fundamentales de la probabilidad. Se representa la probabilidad de un evento
particular E como Pr(E). Todos los eventos posibles de un experimento constituyen el espacio muestral S, y la suma de las probabilidades de todos estos
eventos definidos en S es 1:
X
Pr(E) = 1
(2.1.1)
ES
Si el espacio muestral es continuo entonces debe integrarse en lugar de

3
CAPTULO 2. TEORA DE LA PROBABILIDAD Y ESTADSTICA CLSICA4

sumar. Si se esta interesado en la ocurrencia del evento A o el evento B se
usa la siguiente regla:
Pr(A B) = Pr(A) + Pr(B) Pr(A B)
(2.1.2)
donde Pr(A B) representa la probabilidad de ocurrencia del evento A

y el evento B.
Existen dos reglas de probabilidad para probabilidades conjuntas. Primero:
Pr(A B) = Pr(A) Pr(B)
(2.1.3)
si y solo si A y B son eventos independientes. Segundo, si A y B no son

eventos independientes entonces:
Pr(A B) = Pr(A|B) Pr(B)
(2.1.4)
que puede expresarse como:

Pr(A|B) =
2.2.
Pr(A B)
Pr(B)
(2.1.5)
Algunas distribuciones importantes
2.2.1.
Distribucin binomial
Esta distribucin representa la probabilidad de observar x xitos en n ensayos

independientes cuya probabilidad de xito es p. Si X BI (n, p) entonces:
!
n x
f (x|n, p) =
p (1 p)nx
x
(2.2.1)
Cuando n = 1 la distribucin binomial se reduce a la distribucin Bernoulli.
2.2.2.
La distribucin multinomial
La distribucin multinomial es la generalizacin de la distribucin binomial

ya que se tienen ms de dos posibles categoras, cada una con una probabilidad de xito correspondiente. Si X M (n, p1 , , pk ) entonces:
f (x1 , , xk |n, p1 , , pk ) =
donde
Pk
i=1
xi = n y
Pk
i=1
pi = 1.
n!
px1 1 pxkk
x1 !, , xk !
(2.2.2)
2.2.3.
La distribucin de Poisson
La distribucin de Poisson permite calcular la probabilidad de obtener un

nmero particular de xitos para una cantidad infinita de eventos. Si X
P (), entonces:
e x
(2.2.3)
f (x|) =
x!
2.2.4.
La distribucin normal
La distribucin ms usada en estadstica y en la mayora de las ciencias es

la distribucin normal. Si X N (, ), entonces:
1
(x )2
f (x|, ) =
exp
2 2
2 2
(
2.2.5.
(2.2.4)
La distribucin normal multivariada
La distribucin normal puede extenderse a ms de una dimensin. Si X

N M (, ), entonces:
1
k
1
f (X|, ) = (2) 2 || 2 exp (X )T (X )
2
2.2.6.
(2.2.5)
La distribucin t de student
La funcin de densidad de la distribucin t aparece mucho ms complicada

que la distribucin normal. Si X T (, , ), entonces:
f (x|, , ) =
2.3.
+1
2

1+
2 ! +1
2
(2.2.6)
Estimacin por mxima verosimilitud
El mtodo clsico de enseanza de la estadstica tiene dos etapas bsicas:

(1) la estimacin del modelo y (2) el proceso de inferencia. La primera etapa
involucra determinar un modelo de probabilidad apropiado para la data a
travs de la estimacin de sus parmetros. El mtodo ms popular es el de
mxima verosimilitud.

La idea fundamental detrs del mtodo es elegir como estimacin del parmetro
el valor que hace que la data observada tenga la mayor probabilidad de ocurrencia. Para realizar este proceso se requiere establecer una funcin para las
probabilidades en la data conocida como la funcin de verosimilitud y se
obtiene como el producto de la funcin de probabilidad o densidad de cada
observacin en la muestra. El proceso de estimacin involucra los siguientes
pasos:
1. Construir la funcin de verosimilitud para el parmetro(s) de inters.
2. Simplificar la funcin anterior y tomarle el logaritmo.
3. Tomar la derivada parcial de la funcin logverosimilitud con respecto
a cada parmetro e igualar la(s) ecuacion(es) resultantes a cero.
4. Resolver el sistema de ecuaciones para encontrar los estimadores.
2.3.1.
Construyendo la funcin de verosimilitud
Si x1 , , xn son observaciones independientes de una variable aleatoria X,

en una muestra de tamao n, entonces la funcin de verosimilitud para el
vector x es:
n
f (x|) = L (|x) =
f (xi |)
(2.3.1)
i=1
2.3.2.
Obteniendo los errores estndar
Una caracterstica importante de este mtodo es que la segunda derivada del

logaritmo de L (|x) puede usarse para estimar la variancia del estimador.
Especificamente:
!!1
2 log L
1
(2.3.2)
I () = E
2
donde es el parmetro o quizs un vector de parmetros y I () es llamada
la matriz de informacin. La raz cuadrada de los elementos de la diagonal
de esta matriz son los errores estndar.
Ejemplo 2.3.1 Un mdico sugiere un nuevo tratamiento para una forma
de cncer. Con el tratamiento normal un 40 % de las pacientes sobreviven
ms de seis meses despus del diagnstico. El mdico cree que con el nuevo

tratamiento la tasa de supervivencia ser mejor. Sea la probabilidad de que
un paciente con el nuevo tratamiento sobreviva ms de seis meses. Suponga
que una muestra de 150 pacientes ha recibido el tratamiento y 60 de ellos
han sobrevivido ms de 6 meses. Hallar el estimador de mxima verosimilitud
para y su error estndar.
Captulo 3
Estadstica Bayesiana
3.1.
Introduccin
Suponga que una mujer cree que se encuentra embarazada despus de un

encuentro sexual pero no esta de todo segura. Ella decide tomar una prueba
de embarazo que sabe es 90 % segura y la prueba resulta ser positiva. Obviamente, la mujer desea conocer cual es la probabilidad de estar embarazada,
dado el resultado de la prueba en funcin a la probabilidad de obtener un
resultado positivo en la prueba, dado que esta embarazada y adems considerando el hecho de que la prueba result positiva.
3.2.
El teorema de Bayes para probabilidades

puntuales
El teorema de Bayes aplicado a las probabilidades puntuales es:

Pr (B|A) =
Pr (A|B) Pr (B)
Pr (A)
(3.2.1)
En el denominador Pr (A) es la probabilidad marginal del evento A, tambien llamada probabilidad total. Si el espacio muestral es discreto:
Pr (A) =
Pr (A|Bi ) Pr (Bi )
Bi SB
Voviendo al ejemplo, suponga que tambin se sabe que la prueba da falsos

positivos el 50 % de las veces. Se tienen entonces dos eventos: B1 = Embarazo
8
CAPTULO 3. ESTADSTICA BAYESIANA
y B2 = No embarazo. Sin embargo, para calcular la probabilidad de inters

para la mujer se requiere cierta informacin a priori sobre la probabilidad
de embarazo en un encuentro sexual.
La informacin a priori necesaria es la probabilidad marginal de estar
embarazada sin saber nada ms que el hecho de que la mujer tuvo un encuentro sexual. Esta informacin es considerada a priori por que es la que
se tiene antes de conocer el resultado de la prueba. Se poda cosiderar que
sin ninguna informacin adicional la probabilidad de concepcin es aproximadamente 15 % para un encuentro sexual. Usando el teorema de Bayes
se obtiene que la probabilidad que la mujer se encuentre embarazada, dado
que la prueba resulto positiva es 0.241. Usando la terminologa Bayesiana la
probabilidad anterior es llamada a probabilidad posterior ya que es obtenida
luego de observar la data (el resultado de la prueba).
Suponga que la mujer decide volverse a hacer la prueba de embarazo. Se
puede utilizar la probabilidad calculada en la primera prueba como probabilidad a priori para calcular la probabilidad posterior actualizada. Si la segunda
prueba resulto positiva entonces la nueva probabilidad posterior es 0.364.
Si el resultado anterior no es convincente para ella, puede volver a repetir
la prueba y de obtener nuevamente un resultado positivo su probabilidad se
incrementa a 0,507. Si el proceso nuevamente se repite se tendria: prueba 4
= 0.649, prueba 5 = 0.769, prueba 6 = 0.857, prueba 7 = 0.915, prueba 8 =
0.951, prueba 9 = 0.972 y prueba 10 = 0.984.
Este proceso de repetir la prueba y recalcular la probabilidad de inters es
el proceso bsico en la estadstica Bayesiana. Desde esta perspectiva se puede
tener cierta informacin inicial sobre algn evento que puede actualizarse con
informacin nueva para obtener una probabilidad posterior. Esta probabilidad posterior puede ser utilizada como probabilidad a priori en un siguiente
anlisis. Desde el punto de vista Bayesiano se trata de una estrategia apropiada para conducir el anlisis cientfico.
3.3.
El teorema de Bayes aplicado a distribuciones de probabilidad
El teorema de Bayes expresado en trminos de distribuciones de probabilidad es:

f (data|) f ()
(3.3.1)
f (|data) =
f (data)
10
donde f (|data) es la distribucin posterior para el parmetro , f (data|)

es la distribucin de muestreo de la data, la cual es proporcional a la funcin
de verosimilitud, f () es la distribucin a priori para el parmetro y f (data)
es la funcin de probabilidad marginal para la data, tambien conocida como
distribucin predictiva a priori. Para un espacio muestral continuo se calcula
por:
f (data) = f (data|) f () d
El valor anterior actua como una constante normalizadora que hace posible que la distribucin posterior sea propia, es decir:
Posterior Verosimilitud Priori
Ejemplo 3.3.1 Se toma una muestra aleatoria de tamao n desde la distribucin E (). Suponga que la distribucin a priori para es GI (, ).
Hallar la distribucin posterior para .
Ejemplo 3.3.2 Se toma una muestra aleatoria de tamao n desde la distribucin P (). Suponga que la distribucin a priori para es G (, ). Demostrar que la media posterior siempre se encuentra entre la media a priori
y el estimador de mxima verosimilitud para .
3.4.
Distribucin predictiva
Despus que observar la data se pueden predecir nuevos valores desde el

mismo proceso usando la distribucin predictiva posterior:
f (y|data) = f (y|) f (|data) d

Ejemplo 3.4.1 Considere una secuencia de n ensayos independientes cuya
probabilidad de xito es . Suponga que la distribucin a priori para es
BE (, ). Hallar la distribucin predictiva posterior para el nmero de xitos
obtenidos en otra muestra de tamao m.
Ejemplo 3.4.2 Resolver el ejemplo anterior asumiendo que la distribucion
a priori para es uniforme.
3.5.
11
Familias conjugadas
Una gran parte de la literatura Bayesiana esta dedicada a encontrar distribuciones a priori conjugadas ya que permiten encontrar la distribucin
posterior sin mayores complicaciones.
Definicin 3.5.1 Si F es una familia de distribuciones de muestreo para
f (data|) y P es una familia de distribuciones a priori para , entonces la
famila P es conjugada para F si f (|data) P para todo f (data|) F y
f () P.
Ejemplo 3.5.1 La familia de distribuciones gamma es conjugada con la distribucin de muestreo de Poisson.
3.6.
La distribucin a priori
Cuando las distribuciones a priori no tienen ninguna base poblacional

pueden ser difciles de construir, y ha habido por mucho tiempo un deseo
por contar con aquellas que puedan garantizar una mnima influencia en
la distribucin posterior. Tales distribuciones son llamadas distribuciones a
priori de referencia y la densidad a priori es descrita como vaga, plana,
difusa o no informativa. La razn para utilizar distribuciones a priori no
informativas es frecuentemente explicada como la intencin de dejar que los
datos hablen por s mismos, de modo que el proceso de inferencia no est
afectado por informacin externa a los datos.
En general, se llamar a una densidad a priori f () propia si esta no
depende de datos e integra a uno. Si f () integra a cualquier valor positivo
finito, ser llamada una densidad no normalizada y que puede ser normalizada
multiplicndola por una constante para que integre uno.
3.6.1.
Principio de invariancia de Jeffreys
Una aproximacin usada para definir distribuciones a priori no informativas fue desarrollada por Jeffreys a partir de una transformacin uno a uno
del parmetro. El principio general de Jeffreys es que cualquier procedimiento para determinar la densidad a priori f () debe conducir a un resultado
equivalente si se aplica al parmetro transformado = h ().
12

Definicin 3.6.1 La distribucin a priori no informativa de Jeffreys es:
f ()
J ()
donde J () es la informacin de Fisher para definida por:

"
d2
J () = E
log f (X|)
d2
Ejemplo 3.6.1 Suponga que X| E (1 ). Hallar la distribucin a priori

no informativa de Jeffreys para .
Ejemplo 3.6.2 Suponga que X| N (, 2 ) con 2 conocido. Hallar la
distribucin a priori no informativa de Jeffreys para .
El principio de Jeffreys puede ser extendido a modelos multiparamtricos,
pero los resultados son ms controvertidos.
Definicin 3.6.2 La distribucin a priori no informativa de Jeffreys para el
vector de parmetros es:
f ()
J ()
donde J () es el determinante de la matriz cuyo elemento (i, j) es:

"
2
E
log f (X|)
i j
Ejemplo 3.6.3 Suponga que X|, 2 N (, 2 ). Hallar la distribucin a

priori no informativa de Jeffreys para = (, 2 ).
3.6.2.
Algunas distribuciones a priori tiles
3.6.2.1.
La distribucin Dirichlet
As como la distribucin multinomial es la generalizacin de la distribucin binomial, la distribucin Dirichlet es la extensin de la distribucin beta.
Si X D (1 , 2 , , k ) entonces:
f (X) =
(1 + 2 + + k ) 1 1
x
xk k 1
(1 ) (2 ) (k ) 1
13

3.6.2.2.
La distribucin gamma inversa
Si 1/X G (, ) entonces X GI (, ) cuya funcin de densidad es:
(+1)
x
exp
f (x) =
()
x
(
para x > 0.
3.6.2.3.
Distribucin Wishart y Wishart Inversa
Las distribuciones Wishart y Wishart inversa son generalizaciones de las

distribuciones gamma y gamma inversa respectivamente. Si X WI (S),
donde S es la matriz de escala de dimensin d, entonces:
f (X) |X|
(d1)/2

1
exp tr S1 X
2

donde representa los grados de libertad. Si X WII (S1 ) entonces:

f (X) |X|
(+d+1)/2
3.7.

1
exp tr SX1
2

Crticas a la estadstica Bayesiana
La principal objecin a la inferencia bayesiana, es que las conclusiones dependen de la seleccin especfica de la distribucin a priori. Aunque para otros
esto es lo interesante de la aproximacin Bayesiana, este es un debate an
no cerrado. Sin embargo, antes de dejar esta caracterstica, se debe sealar
que inclusive en inferencia clsica, y adems en investigacin cientfica en
general, estos conocimientos a priori son utilizados implcitamente. As por
ejemplo, el conocimiento a priori es utilizado para formular un modelo de
verosimilitud apropiado. En pruebas de hiptesis, las creencias a priori acerca de la plausibilidad de una hiptesis son frecuentemente utilizadas para
ajustar el nivel de significancia de la prueba. As, si se cree que los datos
pueden conducir al rechazo de la hiptesis, esto se puede ajustar escogiendo
un nivel de significancia bastante alto. En este sentido entonces, la inferencia
bayesiana formaliza la incorporacin de la informacin a priori, la cual es
incorporada frecuentemente debajo de la mesa en el anlisis clsico.
Captulo 4
Modelos basados en la
distribucin normal
4.1.
4.1.1.
Distribucin normal con un solo parmetro

desconocido
Distribucin normal con 2 conocida
La distribucin normal es fundamental en la mayora de los modelos

estadsticos. El teorema del lmite central ayuda a justificar el uso de la
verosimilitud normal en muchos problemas. Suponga que X| N (, 2 )
con 2 conocida. La funcin de verosimilitud para x es:
(xi )2
1
exp
L (|x) =
2 2
2 2
i=1
n
Y
Si adems se asume que la distribucin priori para N (1 , 12 ), se

tiene:
(
)
( 1 )2
1
exp
f () = q
212
212
La distribucin posterior es el producto de la verosimilitud y la distribucin a priori, es decir:
( 1 )2
f (|x) exp
212
(
14
Pn
i=1
(xi )2
2 2
CAPTULO 4. MODELOS BASADOS EN LA DISTRIBUCIN NORMAL15

Con un poco de lgebra puede demostrarse que:
2 1 + n12 x 2
12 2
|x N 2 =
,
=
2
n12 + 2
n12 + 2
La distribucin predictiva posterior para una nueva observacin es:
f (y|x) =
f (y|) f (|x) d
)
(
)
(
(y )2
( 2 )2
d
exp
exp
2 2
222
Claramente la expresin dentro del integral corresponde a una distribucin normal bivariada para y y , y por lo tanto se puede demostrar que
la distribucin predictiva posterior de y tiene una media igual a la media
posterior de y dos componentes de variancia: la variancia predictiva 2 del
modelo y la variancia 22 debida a la incertidumbre posterior sobre .
4.1.2.
Distribucin normal con conocida
El modelo normal con media conocida y variancia desconocida es un importante ejemplo, no necesariamente por su aplicacin directa, sino como
parte de modelos tiles ms complicados, quiz el ms inmediato, el modelo normal con ambos parmetros desconocidos que se ver en la siguiente
seccin. Adems, la distribucin normal con media conocida y variancia desconocida provee un ejemplo introductorio de la estimacin de un parmetro
de escala.
Sea X| 2 N (, 2 ) con conocido. La funcin de verosimilitud para x
es:
)
(
n

n/2
1 X
2
2
2
(xi )
L |x
exp 2
2 i=1
La distribucin a priori conjugada es GI (, ) se tiene:

f |x

2 n/2
)
(
)
n
(+1)
1 X
2
2
exp 2
exp 2
(xi )
2 i=1

2 (+n/2+1)
1
exp 2
n
1X
(xi )2 +
2 i=1
!)

La distribucin posterior para 2 es:
n
1X
n
|x GI = + , =
(xi )2 +
2
2 i=1
Una reparametrizacin importante realizada sobre la distribucin gamma

inversa nos lleva hacia la distribucin 2 inversa de escala cuya funcin de
densidad es:
s2
(/2)/2 (/2+1)
s
exp
f () =
(/2)
2
(
que corresponde a la distribucin GI ( = /2, = s2 /2) .
4.2.
Distribucin normal con ambos parmetros desconocidos
Un modelo de probabilidad completo para y 2 es:

f , 2 |x f x|, 2 f , 2
Luego, es necesario especificar una funcin de probabilidad conjunta para

y 2 . Si se asume que son independientes entonces f (, 2 ) = f () f ( 2 ).
Como especificar esta distribucin a priori?
4.2.1.
Distribucin a priori no informativa
Una primera metodologa considera una distribucin a priori no informativa sobre y 2 asumiendo independencia, es decir la distribucin a priori
conjunta es f (, 2 ) 2 .
Bajo esta distribucin a priori impropia, la distribucin posterior conjunta
es proporcional a:

f , |x
n2

1
2
exp 2 (n 1) s + n (x )
2

donde s2 es la varianza muestral de los datos. La distribucin posterior

conjunta se puede factorizar de la siguiente manera:

f , 2 |x = f | 2 , x f 2 |x

tal que:
2
| , x N x,
n
n1
(n 1) s2
y |x GI =
, =
2
2
La media poblacional es generalmente la cantidad de inters y, por lo

tanto, el objetivo del anlisis bayesiano es la distribucin posterior marginal
para la cual se puede obtener integrando la distribucin posterior conjunta
con respecto de 2 obteniendo:
|x Tn1
s2
x,
n
Adems la distribucin predictiva posterior para una nueva observacin

puede ser escrita como:

f (y|x) =
f y|, 2 f , 2 |x dd 2
lo cual conduce a:

y|x N x, 2 (1 + 1/n)
4.2.2.
Distribucin a priori informativa
Una segunda metodologa considera una distribucin a priori propia (no

uniforme sobre la linea real, la cual es impropia). Si se asume que
N (M, 2 ) se puede elegir una distribucin a priori relativamente no informativa para 2 considerando que su distribucin es gamma inversa:

f |a, b

2 (a+1)
b
exp 2
cuando a y b tienden a cero se obtiene la distribucin a priori no informativa 2 .

La distribucin poterior resultante para y 2 es:
n
1 Y
1
(xi )2
2
exp
f , |x 2
i=1 2 2
2 2
(4.2.1)

Para determinar la distribucin posterior para se tiene que:
n2 2nx
f | 2 , x exp
2 2

lo cual resulta en | 2 , x N x, n .
Para hallar la distribucin posterior para 2 hay que notar que:

f | , x
( 2 ) 2 +1
exp
(xi )2
2 2
tiene la forma de la distribucin gamma

fuese conocido,
la
inversa. Si P

distribucin condicional para 2 sera GI a = n/2, b = (xi )2 /2 .
Otra forma de abordar el problema es considerando que la distribucin
posterior conjunta para y 2 puede factorizarse usando las reglas de probabilidad condicional como:

f , 2 |x = f | 2 , x f 2 |x
donde el ltimo trmino es la disribucin posterior marginal para 2 . Tcnicamente puede obtenerse una expresin
exacta integrando la distribucin
conjunta posterior sobre , es decir f (, 2 ) d (ver Gelman et al 1995).

Finalmente 2 |x GI (a = (n 1)/2, b = (n 1)s2 /2).
Ejemplo 4.2.1 Considere el modelo X/ BI (10, ) para evaluar si la
hiptesis H0 : = 0,5 puede ser rechazada a favor de H1 : < 0,5 en cada
una de las siguientes situaciones:
Una bebedora de t que afirma que es capaz de detectar si en una taza
de t la leche fue agregada antes o despus del t.
Un msico experto que afirma poder distinguir entre una partitura de
Hayden y una de Mozart.
Un borracho que afirma poder predecir el resultado del lanzamiento de
una moneda regular.
Suponga que en los tres casos se obtuvieron 10 xitos en 10 intentos. Con esta
informacin, fijndonos solamente en los datos, tendramos que aceptar H0
en los tres casos, pero nuestras creencias a priori nos induciran a permanecer
muy escpticos en cuanto al borracho (tuvo suerte), muy impresionados con
la bebedora de t y no tanto con el experto en msica.

El punto esencial es el siguiente: los experimentos no son procedimientos
abstractos. Definitivamente, nosotros tenemos cierto conocimiento acerca de
los procesos que estn siendo investigados antes de obtener los datos. Por
esto, muchos expertos (sobre todo los bayesianos) sostienen que las inferencias
deben basarse en informacin combinada del conocimiento previo y los datos,
y la inferencia bayesiana es el mecanismo que posibilita esto.
Sin embargo, es esta extremada dependencia en las creencias previas la
que los opositores al punto de vista bayesiano ms objetan. Diferentes creencias a priori pueden conducir a diferentes inferencias (demasiada subjetividad) en el anlisis bayesiano, y es el hecho de que a usted le parezca bien o mal
esta caracterstica el cual determinar su simpata o no con el procedimiento
bayesiano.
4.3.
Caractersticas de la aproximacin Bayesiana
De acuerdo con OHagan (1994), se pueden identificar cuatro aspectos

fundamentales que caracterizan la aproximacin Bayesiana a la inferencia
estadstica:
Informacin a priori. Todos los problemas son nicos y tienen su propio
contexto. De tal contexto se deriva informacin a priori, y es la formulacin y uso de esta informacin a priori la que diferencia la inferencia
Bayesiana de la estadstica clsica.
Probabilidad subjetiva. La estadstica bayesiana formaliza la nocin de
que todas las probabilidades son subjetivas, dependiendo de las creencias individuales y la informacin disponible. As, el anlisis bayesiano
resulta personal, nico de acuerdo con las creencias individuales de
cada uno.
Auto consistente. Al tratar al parmetro como aleatorio, la inferencia
bayesiana se basa completamente en la teora de la probabilidad. Esto
tiene muchas ventajas y significa que toda inferencia puede ser tratada
en trminos de declaraciones probabilsticas para .
No adhockery. Debido a que la inferencia clsica no puede hacer declaraciones probabilsticas acerca de , se desarrollan varios criterios para
juzgar si un estimador particular es en algn sentido bueno. Esto ha

conducido a una proliferacin de procedimientos, frecuentemente en
conflicto unos con otros. La inferencia bayesiana deja de lado esta tendencia a inventar criterios ad hoc para juzgar y comparar estimadores
al basarse exclusivamente en la distribucin posterior para expresar
en trminos exclusivamente probabilsticos toda inferencia referente al
parmetro.
4.4.
Objeciones a la inferencia Bayesiana
4.5.
Teorema de Bayes
En su forma bsica, el teorema de Bayes es un simple resultado de probabilidades condicionales. Sean A y B dos eventos con Pr (A) > 0, entonces:
Pr (B/A) =
Pr (A/B) Pr (B)
Pr (A)
El uso principal de este teorema, en aplicaciones de probabilidad, es revertir el condicionamiento de los eventos, es decir, mostrar como la probabilidad
de B/A est relacionada con la de A/B. Este teorema puede extenderse a k
eventos B1 , , Bk , los cuales constituyen una particin del espacio muestral
. As se tiene:
Pr (Bi /A) =
Pr (A/Bi ) Pr (Bi )
Pr (A/Bi ) Pr (Bi )
= Pk
Pr (A)
j=1 Pr (A/Bj ) Pr (Bj )
donde Pr (A) se le conoce como probabilidad total.

Ejemplo 4.5.1 Cuando se envian mensajes codificados pueden existir errores en la transmisin. En particular, el cdigo Morse usa puntos y guiones
en las proporciones 3:4, es decir que para cualquier smbolo:
Pr (B1 ) =
3
4
y Pr (B2 ) =
7
7
donde B1 = enviar un punto, B2 = enviar un guin. Suponga que existe

interferencia en la lnea de transmisin y que, con probabilidad 1/8, un punto
es recibido equivocadamente como un guin y viceversa. Si se recibe un punto,
cual es la probabilidad de haberlo recibido correctamente?

Si se define el evento A = recibir un punto, entonces usando el teorema
de Bayes:
Pr (B1 /A) =
7/8 3/7
25
Pr (A/B1 ) Pr (B1 )
=
=
Pr (A)
7/8 3/7 + 1/8 4/7
56
Desde el punto de vista Bayesiano, el objetivo es relacionar probabilsticamente a un parmetro con los datos por lo que el teorema de Bayes
puede presentarse en trminos de densidades:
f (/x) =
f (x/) f ()
f (, x)
=
f (x)
f (x)
(4.5.1)
donde f (x) puede ser obtenido, dependiendo de si es continuo o discreto,

de la siguiente manera:
f (x) =
f (x/) f ()
f (x/) f () d
si es discreto
si es continuo
En la expresin anterior:
f () representa lo que es conocido de antes de recolectar los datos y
es llamada la distribucin a priori de .
f (/x) representa lo que se conoce de despus de recolectar los datos
y es llamada la distribucin posterior de dado x.
f (x/) es la distribucin fundamental que incorpora al modelo la informacin proporcionada por los datos. Dado que x es conocido y no,
f (x/) puede ser reconocido como una funcin de en vez de x, a la
cual se le denomina la funcin de verosimilitud de dado x y a la que
se le denota usualmente por l (/x).
Una forma equivalente de presentar f (x/) omite el factor f (x) ya que no
depende de y, al ser x fijo, puede ser considerado como una constante:
f (/x) f (x/) f ()
(4.5.2)
Lo que se obtiene al lado derecho es la distribucin posterior no normalizada.
4.6.
Prediccin
Antes que los datos sean observados, la distribucin de los x desconocidos

pero observables es:
f (x) =
f (x/) f () d
Esta distribucin marginal de X es llamada la distribucin predictiva a

priori. A priori debido a que no est condicionada por ninguna observacin
previa, y predictiva porque es la distribucin de una cantidad que es observable.
Despus que los datos han sido observados, se pueden predecir nuevos
valores, y, desde el mismo proceso. La distribucin de los Y es llamada la
distribucin predictiva posterior, debido a que se encuentra condicionada por
los datos ya observados x:
f (y/x) =
f (y, /x) d
=
f (y/, x) f (/x) d
=
f (y/) f (/x) d
4.7.
Odds y razn de verosimilitud
La razn de la densidad de evaluada en dos puntos 1 y 2 es llamada

odds:
Odds a priori:
Odds posterior:
f (1 )
f (2 )
f (1 /x)
f (2 /x)
Los odds son de gran aplicacin en el caso discreto donde 1 y 2 son

dos eventos complementarios (por ejemplo los eventos sano y enfermo, con
tratamiento y sin tratamiento, vivo y muerto, etc.), ya que permiten evaluar
cuan ms probable es un evento que el otro. Note que el odds posterior puede
escribirse como:
f (1 /x)
f (1 ) f (x/1 ) /f (x)
f (1 ) f (x/1 )
=
=
f (2 /x)
f (2 ) f (x/2 ) /f (x)
f (2 ) f (x/2 )

por lo que el odds posterior es igual al odds a priori multiplicado por la
razn de verosimilitud. A esta razn de verosimilitud se le conoce como el
factor de Bayes. La importancia del factor de Bayes es que es una medida
de la informacin contenida exclusivamente en los datos.
Los odds y el factor de Bayes son utilizados en inferencia Bayesiana
para contrastar dos modelos de probabilidad (pruebas de hiptesis sobre los
parmetros).
4.8.
La naturaleza secuencial del teorema de

Bayes
La expresin f (/x) f (/x) f () proporciona un mecanismo que combina el conocimiento previo con conocimiento nuevo y adems permite continuar actualizando la informacin acerca del parmetro conforme se tienen
ms observaciones.
Suponga que se tiene una muestra inicial x1 , entonces aplicando el teorema de Bayes:
f (/x1 ) l (/x1 ) f ()
Ahora, suponga que se tiene una segunda muestra x2 , independiente de
la primera, entonces:
f (/x1 , x2 ) f () l (/x1 ) l (/x2 )
f (/x1 ) l (/x2 )
El proceso anterior puede ser repetido muchas veces. En particular, si
se tienen n observaciones independientes la distribucin posterior puede ser
recalculada despus de cada nueva observacin tal que en la m-sima etapa la verosimilitud asociada con la m-sima observacin se combina con la
distribucin posterior de despus de m 1 observaciones lo cual permite
obtener:
f (/x1 , , xm ) f (/x1 , , xm1 ) l (/xm )
para m = 2, , n. Luego, el teorema de Bayes describe en forma clara el
proceso de aprendizaje de la experiencia y demuestra como el conocimiento
acerca de se modifica continuamente conforme estan disponibles nuevos
datos.

Ejemplo 4.8.1 Los hombres tienen un cromosoma X y uno Y, mientras
que las mujeres tienen dos cromosomas X, siendo cada cromosoma heredado
desde un padre. La hemofilia es una enfermedad heredada mediante un gen
recesivo ligado al cromosoma X, lo cual significa que un hombre que hereda
el gen que causa esta enfermedad en su cromosoma X es afectado por la
enfermedad, mientras que una mujer que hereda este gen en solo uno de sus
cromosomas X no es afectada. La enfermedad es generalmente fatal para las
mujeres que heredan dos de tales genes, aunque esto es muy raro, ya que la
frecuencia de ocurrencia de este gen es baja en poblaciones humanas.
Considere una mujer que tiene un hermano enfermo, lo cual implica que
su madre debe ser una portadora del gen de la hemofilia con un gen bueno y
uno malo. Se sabe adems que el padre no est enfermo, por lo que la mujer
tiene una probabilidad del 50 % de llevar el gen. La cantidad desconocida
de inters, el estado de la mujer, tiene solo dos posibles valores: la mujer
es portadora ( = 1) o no ( = 0). Basado en la informacin dada hasta el momento, la distribucin a priori para puede ser expresada como
Pr ( = 1) = Pr ( = 0) = 0,5.
Los datos utilizados para actualizar esta informacin a priori consisten
en el estado, sano o enfermo, de los hijos de la mujer. Suponga que ella tiene
dos hijos, ninguno de los cuales est afectado. Sea xi = 1 0 que denota
un hijo enfermo o sano respectivamente. Los resultados de los dos hijos son
intercambiables y, condicionados sobre , independientes. Se asumir que los
dos hijos no son gemelos. Esta informacin genera la siguiente funcin de
verosimilitud:
Pr (x1 = 0, x2 = 0/ = 1) = (0,5) (0,5) = 0,25
Pr (x1 = 0, x2 = 0/ = 0) = (1) (1) = 1
El teorema de Bayes puede ser ahora usado para combinar la informacin
de los datos con las probabilidades a priori. El inters principal probablemente est en la probabilidad posterior de que la mujer sea una portadora.
Usando z para denotar la informacin conjunta (x1 , x2 ) se tiene:
Pr (z/ = 1) Pr ( = 1)
Pr (z/ = 1) Pr ( = 1) + Pr (z/ = 0) Pr ( = 0)
(0,25) (0,5)
=
= 0,2
(0,25) (0,5) + (1) (0,5)
Pr ( = 1/z) =
Intuitivamente es claro que si una mujer tiene un hijo sano, es menos

probable que sea una portadora, y el teorema de Bayes provee un mecanismo

formal para determinar el alcance de la correccin. El resultado puede tambin ser descrito en trminos de odds a priori y posterior. El odds a priori de
que la mujer sea portadora es 0,5/0,5 = 1. La razn de verosimilitud basada
en la informacin de sus dos hijos sanos es 0,25/1 = 0,25, y el odds posterior
ser (1)(0,25) = 0,25. Volviendo a partir de estos resultados a trminos de
probabilidad se tiene 0,25 / (1 + 0,25) = 0,2, igual que al principio.
Un aspecto clave del anlisis bayesiano es la facilidad con la que puede
realizarse un anlisis secuencial. Por ejemplo, suponga que la mujer tiene un
tercer hijo, el cual tambin resulta sano. El clculo completo no necesita ser
hecho de nuevo; en lugar de eso, se usar los resultados posteriores obtenidos
anteriormente como la nueva distribucin a priori para obtener:
(0,5) (0,20)
= 0,1111
(0,5) (0,20) + (1) (0,80)
De igual manera, si se supone que el tercer hijo est enfermo, es fcil verificar que la probabilidad posterior de que la mujer sea portadora se convierte
en 1. La naturaleza secuencial del teorema de Bayes puede ser interpretada
como un proceso de aprendizaje en trminos de probabilidades, el cual permite incorporar al anlisis de un problema nuevos datos y con ellos ajustar
la distribucin posterior.
Pr ( = 1/x1 , x2 , x3 ) =
Ejemplo 4.8.2 Se tienen dos ratones de dos colores: negro y marrn. Los
ratones negros son de dos tipos genticos: homocigotes (BB) y heterozigotes
(Bb) mientras que los ratones marrones son de un tipo (bb). Resultados
genticos indican que las probabilidades asociadas son:
Tabla 4.1: Probabilidades de carcter gentico
BB (Negro)
Ratones
BB con bb
0
Bb con bb
0
Bb con Bb
1/4
Bb (Negro) bb (Marrn)
1
0
1/2
1/2
1/2
1/4
Suponga que se tiene un ratn de prueba que es negro y ha sido obtenido

de dos ratones (Bb). Usando la informacin de la ltima linea de la tabla,
se deduce que en este caso, las probabilidades a priori del ratn de prueba de ser (BB) y (Bb) son 1/3 y 2/3 respectivamente (conocidas previamente). Dada esta informacin a priori, podemos calcular las probabilidades

posteriores usando el teorema de Bayes. Supongamos que el ratn de prueba fue cruzado con un ratn marrn y se obtuvieron 7 negros. Entonces
Pr ( = 0) = Pr (BB) = 1/3 y Pr ( = 1) = Pr (Bb) = 2/3. Si x es la variable
aleatoria que denota la descendencia, luego:
l ( = 0/x = 7 negros) Pr (7 negros/BB) = 1
l ( = 1/x = 7 negros) Pr (7 negros/Bb) = (1/2)7
Recordando que f (/x) l (/x) f (), entonces:
Pr ( = 0/x = 7 negros) 1/3
Pr ( = 1/x = 7 negros) (2/3) (1/2)7
Normalizando las probabilidades posteriores se tiene:
Pr ( = 0/x = 7 negros) = 64/65
Pr ( = 1/x = 7 negros) = 1/65
lo cual representa el conocimiento posterior del ratn de prueba de ser
(BB) o (Bb). Se puede observar que, dadas las caracterstica genticas de la
descendencia, el resultado de tener 7 descendientes negros cambia considerablemente nuestro conocimiento acerca del ratn de prueba de ser (BB) o
(Bb) de una razn a priori de 2:1 a favor de (Bb) a una razn posterior de
64:1 en contra de ste.
Para ilustrar la naturaleza secuencial del teorema de Bayes, suponga que
los siete descendientes de ratones negros son vistos como una secuencia de siete observaciones independientes. Es decir y = (x1 , , x7 ) y la verosimilitud
puede ser escrita:
l (/y = 7 negros) = l (/x1 = negros) l (/x7 = negros)
donde
l (/xm = negros)
=0
1/2 = 1
para m = 1, , 7. Aplicando la ecuacin:

Pr (/x1 , , xm ) Pr (/x1 , , xm1 ) l (/xm )

para m = 2, , 7 es posible calcular las probabilidades del ratn de
prueba de ser (BB) o (Bb) despus de la m-sima observacin. Estas probabilidades se muestran en la siguiente tabla:
Tabla 4.2: Probabilidades del ratn de prueba
Probabilidades
Ratn = 0 (BB) = 1 (Bb)
Inicial
1/3
2/3
1/2
1/2
1 negro
2 negro
2/3
1/3
3 negro
4/5
1/5
4 negro
8/9
1/9
5 negro
16/17
1/17
32/33
1/33
6 negro
7 negro
64/65
1/65
Lo cual demuestra la certeza creciente del ratn de prueba de ser (BB)
conforme son observados ms y ms descendientes negros .
Captulo 5
Modelos uniparamtricos
5.1.
Distribucin binomial
En el modelo binomial, el objetivo es estimar una proporcin poblacional

desconocida a partir de los resultados de una secuencia de ensayos de Bernoulli, es decir x1 , x2 , , xn , cada uno de los cuales puede ser 0 1.
La distribucin binomial provee un modelo para informacin proveniente
de una secuencia de n ensayos o extracciones intercambiables obtenidas desde una gran poblacin donde cada ensayo puede tomar uno de dos posibles
resultados, convencionalmente llamados xito y fracaso. Debido a la intercambiabilidad, los datos pueden ser resumidos por el nmero total de xitos
en los n ensayos, al cual se denotar por x. Se puede pasar de una formulacin basada en trminos de ensayos intercambiables a una basada en
variables aleatorias independientes e idnticamente distribuidas definiendo
al parmetro como la proporcin de xitos en la poblacin o, equivalentemente, como la probabilidad de xito en cada ensayo. El modelo muestral
binomial queda definido por:
!
n x
f (x/) =
(1 )nx
x
Para efectuar una inferencia bayesiana en el modelo binomial, se debe
especificar una distribucin a priori para . Por simplicidad, en este punto,
se asumir que la distribucin a priori para tiene distribucin uniforme en
el intervalo [0,1]. La aplicacin del teorema de Bayes a este modelo da la
28
CAPTULO 5. MODELOS UNIPARAMTRICOS
29
siguiente distribucin posterior:

f (/x) x (1 )nx

Con n y x fijos, el factor nx no depende del parmetro desconocido ,

y por lo tanto puede ser considerado como una constante al calcular la distribucin posterior. Como es comn en muchos casos, la densidad posterior
puede ser escrita inmediatamente en una forma definida sobre una constante
de proporcionalidad. En problemas uniparamtricos esto permite una representacin grfica inmediata de la distribucin posterior. Por ejemplo la
figura 5.1 presenta la densidad no normalizada para cuatro experimentos
diferentes, esto es, con diferentes valores de n y x, pero con la misma proporcin de xitos. En este caso, la forma de la densidad posterior no normalizada
corresponde a una distribucin beta:
f (/x) =
1
x (1 )nx
B (x + 1, n x + 1)
Prediccin
En el ejemplo binomial con distribucin a priori uniforme, la distribucin
predictiva a priori puede ser evaluada explcitamente.
1 !
1
n x
, x = 0, 1, , n
f (x) =
(1 )nx d =
n+1
x
0
Bajo este modelo, todos los posibles valores de x son igualmente probables a priori. Para la prediccin posterior a partir de este modelo, el inters
principal estar en el resultado de un nuevo ensayo, en vez de en otro grupo
de n nuevos ensayos. Usando y para denotar el resultado de un nuevo ensayo,
intercambiable con los primeros n:
Pr (y = 1/x) =
Pr (y = 1/, x) f (/x) d
0
f (/x) d =
0
x+1
n+2
a partir de las propiedades de la distribucin beta.
30
Figura 5.1: Distribucin posterior no normalizada para
La distribucin posterior como un resultado entre los

datos y la distribucin a priori
El proceso de inferencia bayesiana involucra pasar desde una distribucin
a priori, a una distribucin posterior, y por lo tanto, es natural esperar que
existan algunas relaciones generales entre estas dos distribuciones. Por ejemplo, se podra esperar que, debido a que la distribucin posterior incorpora la
informacin de los datos, esta sea menos variable que la distribucin a priori.
Estas nociones son formalizadas, con respecto a la media y la variancia de ,
por las siguientes expresiones:
E [] = E [E [/x]] y Var () = E [Var (/x)] + Var (E [/x])
31
En el ejemplo binomial con distribucin a priori uniforme, la media a priori es 1/2 y la variancia a priori es 1/12. La media posterior, (x + 1) / (n + 2),
es un resultado entre la media a priori y la proporcin muestral x/n, donde
claramente, la media a priori tiene un efecto menor conforme el tamao de
la muestra aumenta.
Inferencia posterior
La distribucin posterior contiene toda la informacin actual sobre el
parmetro e idealmente, uno podra reportar la distribucin posterior f (/x).
En muchos casos, sin embargo, se requiere conocer los valores de algunas medidas de posicin como la media, mediana y moda; medidas de dispersin
como la desviacin estndar, el rango intercuartlico y otros cuantiles.
Adicionalmente a las estimaciones puntuales, es importante reportar la incertidumbre posterior. El mtodo usual para esto consiste en presentar cuantiles de la distribucin posterior o intervalos centrales de probabilidad posterior, los cuales corresponden, en el caso de un intervalo del 100 (1 ) %,
al rango de valores abajo y arriba de los cuales cae exactamente 100 (/2) %
de la probabilidad posterior. Tales intervalos son conocidos como intervalos
posteriores. En modelos simples, tales como el binomial y el normal, los intervalos posteriores pueden ser calculados directamente desde las funcin de
distribucin acumulada, y en general, pueden ser calculados usando el proceso de simulacin a partir de la distribucin posterior. Un mtodo alternativo
para resumir la incertidumbre posterior consiste en calcular el intervalo de
mxima densidad posterior, esto es, la regin de valores que contienen el
100 (1 ) % de la probabilidad posterior pero que adems, tienen la caracterstica de que la densidad dentro de la regin nunca es menor a la de
cualquier punto fuera de la misma. Obviamente, tal regin es idntica a la
de un intervalo central posterior si la distribucin posterior es unimodal y
simtrica. En general, los intervalos centrales posteriores son preferibles a los
intervalos de mxima densidad posterior debido a que:
Estos tienen una interpretacin directa como los cuantiles posteriores
/2 y 1 /2.
Son invariantes a las trasformaciones uno a uno de las cantidades estimadas.
Son usualmente ms fciles de calcular.
32
La figura 5.2 presenta una comparacin entre un intervalo central posterior

y un intervalo de mxima densidad posterior para una distribucin bimodal
hipottica.
Figura 5.2: Intervalo central posterior e intervalo de mxima densidad posterior
Distribuciones a priori informativas

En el ejemplo binomial, se ha considerado una distribucin a priori uniforme para . Cmo se puede justificar esta eleccin, y cmo en general se
puede resolver el problema de construir distribuciones a priori? Definitivamente, la distribucin a priori debe incluir todos los valores posibles de ,
pero la distribucin no tiene que estar necesariamente concentrada en torno
al verdadero valor ya que frecuentemente la informacin acerca de obtenida
en los datos modificar y dominar cualquier razonable especificacin probabilstica a priori.
En el ejemplo binomial, se ha visto que la distribucin a priori uniforme
para implica que la distribucin predictiva a priori para x (dado n) es
uniforme sobre el conjunto discreto {0, 1, , n}, dando igual probabilidad
a cada uno de los n + 1 posibles valores. En su tratado original sobre este
problema, la justificacin de Bayes para la distribucin a priori uniforme
parece haberse basado en esta observacin; el argumento es atractivo debido a
que est expresado enteramente en trminos de las cantidades observables x y
33
n. El razonamiento de Laplace para esta densidad a priori uniforme fue menos

claro, pero interpretaciones posteriores le atribuyen a l el llamado principio
de la razn insuficiente, el cual declara que si nada es conocido acerca de
, entonces no hay ninguna razn para asignar probabilidades diferentes a
algunos de sus valores.
Binomial con diferentes distribuciones a priori

Considerada como una funcin de , la verosimilitud binomial es de la
forma:
f (x/) a (1 )b
As, si la densidad a priori es de la misma forma, con sus propios valores
de a y b, entonces la densidad posterior ser tambin de esta forma. Aqu se
reparametrizar tal densidad a priori como:
f () 1 (1 )1
la cual es una distribucin beta con parmetros y . Comparando ambas
distribuciones, f () y f (x/), se puede intuir que la distribucin a priori es
equivalente a 1 xitos y 1 fracasos a priori.
Con estas distribuciones, la densidad posterior de es:
f (/x) x (1 )nx 1 (1 )1
x+1 (1 )nx+1
BE (x + , n x + )
Dado que la distribucin posterior sigue la misma forma paramtrica que
la distribucin a priori, se dice que la distribucin a priori beta es una familia
conjugada para la verosimilitud binomial. Trabajar con familias conjugadas
es matemticamente conveniente ya que esto determina que la distribucin
posterior siga una forma paramtrica conocida.
Continuando con el modelo binomial con distribucin a priori beta, la
media posterior de , la cual puede ser interpretada como la probabilidad
posterior de xito para un ensayo futuro, es:
E [/x] =
+x
++n
34
la cual cae entre la proporcin muestral x/n y la media a priori / ( + ).

La variancia posterior es:
Var (/x) =
E [/x] (1 E [/x])
( + x) ( + n x)
=
2
++n+1
( + + n) ( + + n + 1)
Con y fijos, conforme x y n x aumentan:

E [/x]
x
n
Var (/x) =
1x
x
1
nn
n

Claramente, en el lmite los parmetros de la distribucin a priori no

tienen influencia en la distribucin posterior. Adicionalmente, el teorema del
lmite central de la teora de la probabilidad puede ser puesto en un contexto
bayesiano para mostrar:
E [/x]
q
Var (/x)
N (0, 1)
Este resultado es frecuentemente usado para justificar la aproximacin de

la distribucin posterior con una distribucin normal. Para el parmetro binomial , la distribucin normal ser una aproximacin ms exacta si se aplica
una transformacin logit a , esto es, efectuar inferencias para ln (/ (1 ))
en vez de para , con lo cual se expande el espacio paramtrico de [0, 1] a
(, ). Debe tenerse en cuenta que la aproximacin normal no es aplicable
en los casos lmite en los que x = 0 1 o, desde otro punto de vista, los casos
en los que x/n 0 1.
Distribuciones a priori conjugadas

Formalmente, una familia conjugada de distribuciones puede definirse como sigue.
Definicin 5.1.1 Si F es una clase de distribuciones muestrales f (x/),
y P es una clase de distribuciones a priori para , entonces la clase P es
conjugada para F si:
f (/x) P para todo f (/) F y f () P.
35
Esta definicin puede resultar vaga desde que si P es escogida como la

clase de todas las distribuciones, entonces P ser siembre conjugada sin importar qu clase de distribuciones de muestreo sea usada. El inters fundamental aqu, sin embargo, estar en las familias de distribuciones a priori
conjugadas naturales, las cuales se definen al tomar a P como el conjunto de
todas las densidades que tienen la misma forma funcional que la verosimilitud.
Las distribuciones a priori conjugadas tienen la ventaja prctica, adicionalmente a su conveniencia para el clculo, de ser interpretables como informacin adicional, as como se ha visto en el ejemplo binomial aqu tratado.
Por otro lado, aunque la interpretacin de las inferencias posteriores pudiera
ser menos clara y los clculos ms complicados, las distribuciones a priori
no conjugadas no poseen ningn problema conceptual. En la prctica, para
modelos ms complicados, distribuciones a priori conjugadas podran no ser
posibles.
5.2.
5.2.1.
Distribucin normal
Estimacin de la media con varianza conocida
La distribucin normal es fundamental en la mayora de los modelos

estadsticos. El teorema del lmite central ayuda a justificar el uso de la
verosimilitud normal en muchos problemas.
Verosimilitud para una observacin

Considere una simple observacin x desde una distribucin normal parametrizada por una media y una variancia 2 conocida. La distribucin de muestreo
es:

1
1
exp 2 (x )2
f (x/) =
2
2
Distribucin a priori conjugada y distribucin posterior

Considerada como una funcin de , la verosimilitud es un exponencial
de una forma cuadrtica en , por lo que la familia de densidades a priori
conjugadas es de la forma:
n
f () = exp a2 + b + c
36

la cual se puede reparametrizar como:
1
f () exp 2 ( 0 )2
20
(
esto es, N (0 , 02 ).
La densidad a priori conjugada implica que la distribucin posterior para
es el exponencial de una forma cuadrtica y por lo tanto normal. En la
densidad posterior, todas las variables excepto son consideradas como constantes, lo cual da la siguiente densidad condicional:
1 (x )2 ( 0 )2
f (/x) exp
+
2
2
02
(
"
#)
Aplicando algunas operaciones algebraicas se tiene:

1
f (/x) exp 2 ( 1 )2
21
(
donde
1 =
1
+ 12 x
02 0
1
+ 12
02
1
1
1
= 2+ 2
2
1
0
Se puede notar que esta distribucin es normal con media 1 y variancia

12 . En distribuciones normales, la inversa de la variancia tiene un papel
importante y es llamada la precisin. El resultado anterior indica que la
precisin posterior es igual a la precisin a priori ms la precisin del dato,
mientras que la media posterior es igual a la media ponderada de la media a
priori y el dato, donde las ponderaciones estn dadas por las precisiones.
Distribucin predictiva posterior

La distribucin predictiva posterior para una futura observacin puede
ser calculada directamente por integracin:
f (y/x) =
f (y/) f (/x) d
(
)

1
1
2
2
exp 2 (y ) exp 2 ( 1 ) d
2
21
37
Claramente la expresin dentro del integral corresponde a una distribucin normal bivariada para y y , y por lo tanto, por las propiedades de
la distribucin normal bivariada, la distribucin posterior marginal de y es
tambin normal.
Para determinar la media y la variancia de la distribucin predictiva
posterior, se puede hacer uso de las siguientes propiedades sabiendo que,
por la definicin del modelo, E [Y /] = y Var (Y /) = 2 .
E [Y /x] = E [E [Y /] /x]
= E [/x]
= 1
Luego
Var (Y /x) = E [Var (Y /) /x] + Var (E [Y /] /x)
h
= E 2 /x + Var (/x)
= 2 + 12
As, la distribucin predictiva posterior de Y tiene una media igual a la
media posterior de y dos componentes de variancia: la variancia predictiva
2 del modelo y la variancia 12 debida a la incertidumbre posterior sobre .
Modelo normal con mltiples observaciones

El desarrollo del modelo normal con una observacin puede ser fcilmente
extendido a la situacin ms realista en la que se dispone de una muestra de
observaciones idnticas e independientemente distribuidas x = (x1 , , xn ).
La densidad posterior en este caso ser:
f (/x) f () l (/x)
f ()
n
Y
f (xi /)
i=1

n
Y
1
1
2
2
exp 2 (xi )
exp 2 ( 0 )
20
2
i=1
)
n
1 1
1 X
2
exp
(
)
+
(xi )2
0
2 02
2 i=1
"
#)
38
Una simplificacin algebraica de esta expresin muestra que la distribucin posterior depende de x solo a travs de la media muestral, esto es x,
es una estadstica suficiente para este modelo. De hecho, dado que X
N (, 2 /n), los resultados obtenidos para una simple observacin pueden
aplicarse aqu inmediatamente para obtener f (/x) = f (/x) donde:
n =
1
+ n2 x
02 0
1
+ n2
02
1
n
1
= 2+ 2
2
n
0
Tenga en cuenta que el mismo resultado sera obtenido si, en vez de incorporar la informacin de las n observaciones en un solo paso, se incorporara la
informacin de los puntos x1 , , xn , de uno en uno, usando la distribucin
posterior obtenida en cada paso como la distribucin a priori para el paso
siguiente.
5.2.2.
Distribucin normal con media conocida y varianza desconocida
El modelo normal con media conocida y variancia desconocida es un importante ejemplo, no necesariamente por su aplicacin directa, sino como
parte de modelos tiles ms complicados, quiz el ms inmediato, el modelo normal con ambos parmetros desconocidos que se ver en el siguiente
captulo. Adems, la distribucin normal con media conocida y variancia desconocida provee un ejemplo introductorio de la estimacin de un parmetro
de escala.
Para f (x/, 2 ) = N (x/, 2 ), con conocida y 2 desconocida, la
verosimilitud para un vector x de n observaciones independientes e identicamente distribuidas es:

f x/
n
1 X
(xi )2
exp 2
2 i=1

n/2
n
exp 2 u
2
2
donde la estadstica suficiente es:

u=
n
1X
(xi )2
n i=1
39

La correspondiente densidad a priori conjugada es la gamma inversa:

2 (+1)
exp 2
con parmetros y . Una parametrizacin conveniente es la distribucin

inversa de escala con parmetro de escala 02 y 0 grados de libertad, esto
es, la distribucin a priori de 2 es la distribucin de 02 0 /X, donde X es una
variable aleatoria 20 . Aqu se utilizar la notacin 2 2 inversa(0 , 02 ) .
La densidad posterior resultante para 2 es:
2
f 2 /x
f 2 f x/ 2
!
(
)

02
0 02 2 n/2
n u
exp 2
exp 2
2
2
2

((n+0 )/2+1)

1
2
2
exp 2 0 0 + nu

2
y as:
0 02 + nu
2 /x 2 inversa 0 + n,
0 + n
la cual es una distribucin 2 inversa de escala con parmetro de escala

igual a la media ponderada por los grados de libertad del parmetro de escala
a priori y el parmetro de escala de los datos, y grados de libertad iguales
a la suma de los grados de libertad a priori y los grados de libertad de los
datos. La distribucin a priori puede ser interpretada como portadora de la
informacin de 0 observaciones con una desviacin al cuadrado media de 02 .
5.3.
El modelo de Poisson
La distribucin de Poisson es utilizada frecuentemente en informacin

tomada desde conteos; por ejemplo, el nmero de enfermos por unidad de
tiempo, o el nmero de individuos encontrados por unidad de rea. Si X
sigue una distribucin de Poisson con tasa media de ocurrencias , entonces
la probabilidad de una observacin x es:
f (x/) =
x exp {}
,
x!
x = 0, 1,
40
y para un vector x = (x1 , , xn ) de observaciones independientes e

identicamente distribuidas, la verosimilitud es:
n
Y
xi exp {}
f (x/) =
i=1
t(x)
xi !
exp {n}
donde t (x) = ni=1 xi es una estadstica suficiente. Esta verosimilitud se

puede escribir en la forma de la familia exponencial:
P
f (x/) exp {n} exp {t (x) ln }

lo cual revela que el parmetro natural es () = ln . Esta verosimilitud
es de la forma a exp {b}, y por lo tanto, la densidad a priori conjugada
debe ser de la forma f () A exp {B}. En una parametrizacin ms
conveniente:
f () exp {} 1
la cual es una densidad gamma con parmetros y . Una comparacin
entre f (x/) y f () revela que la densidad a priori es, en cierto sentido,
equivalente a un total de 1 ocurrencias en observaciones a priori. Con
esta distribucin a priori conjugada, la distribucin posterior es:
/x G ( + nx, + n)
Con familias conjugadas, la forma conocida de las distribuciones a priori
y posterior puede ser usada para encontrar la distribucin marginal f (x),
usando la frmula:
f (x/) f ()
f (x) =
f (/x)
Por ejemplo, en el modelo Poisson para una observacin x, la distribucin
predictiva a priori es:
P (x/) G (/, )
G (/ + x, 1 + )
( + x)
=
() x! (1 + )+x
f (x) =
la cual se reduce a:
+x1
f (x) =
x
+1
1
+1
!x
41

que es conocida como la distribucin binomial negativa:
X BN (, )
El anlisis anterior demuestra que:
BN (x/, ) = P (x/) G (/, ) d
En muchas aplicaciones, es conveniente extender el modelo de Poisson a

mltiples observaciones x1 , , xn de la forma:
xi P (zi )
donde los zi son valores conocidos positivos de una variable explicatoria
Z, y es el parmetro desconocido de inters. En epidemiologa, el parmetro
es frecuentemente llamado la tasa, y zi , es llamado la exposicin de la isima unidad. Este modelo no es intercambiable en los xi pero si en los pares
(zi , xi ). La verosimilitud para en este modelo ser:
f (x/)
Pn
x
i=1 i
exp
n
X
zi
i=1
y as, la distribucin gamma para es conjugada con esta verosimilitud.

Con la distribucin a priori G (, ), la distribucin posterior resultante
es:
!
/x G +
n
X
xi , +
i=1
5.4.
n
X
zi
i=1
Modelo exponencial
La distribucin exponencial es comnmente usada para modelar tiempos

de espera y otras variables aleatorias continuas positivas, usualmente medidas
en una escala de tiempo. La distribucin de muestreo de un resultado x, dado
el parmetro , es:
f (x/) = exp {x} ,
x>0
y = E1 [X/] es llamado la tasa. Matemticamente, la distribucin

exponencial es un caso especial de la distribucin gamma con parmetros
42
(, ) = (1, ). En este caso sin embargo, esta distribucin est siendo usada como una distribucin de muestreo para el resultado x, y no como una
distribucin a priori para el parmetro , como en el ejemplo de Poisson.
La distribucin exponencial tiene la propiedad de prdida de memoria,
lo cual la convierte en un modelo natural para informacin de supervivencia
o tiempos de vida. La probabilidad de que un objeto sobreviva un tiempo adicional t es independiente del tiempo transcurrido hasta ese punto:
Pr (X > t + s/X > s, ) = Pr (X > t/) para cualquier valor positivo s y t.
La distribucin a priori conjugada para el parmetro exponencial , as como
para la media Poisson, es la G (/, ) con la correspondiente distribucin
posterior G (/ + 1, + x). La distribucin muestral de n observaciones exponenciales independientes, x = (x1 , , xn ), con tasa constante es:
f (x/) = n exp {nx} ,
x0
la cual vista como la verosimilitud de , para x fijo, es proporcional a la

densidad G (n + 1, nx). As, la distribucin a priori G (/, ) para puede
ser vista como 1 observaciones exponenciales con un tiempo de espera
total de .
5.5.
Distribuciones a priori no informativas
Cuando las distribuciones a priori no tienen ninguna base poblacional,

pueden ser difciles de construir, y ha habido por mucho tiempo un deseo
por contar con distribuciones a priori que puedan garantizar una mnima
influencia en la distribucin posterior. Tales distribuciones son algunas veces llamadas distribuciones a priori de referencia y la densidad a priori es
descrita como vaga, plana, difusa o no informativa. La razn para utilizar
distribuciones a priori no informativas es frecuentemente explicada como la
intencin de dejar que los datos hablen por s mismos, de modo que las
inferencias no estn afectadas por informacin externa a los datos.
Distribuciones a priori propias e impropias

Volvamos al problema de estimar la media de un modelo normal con
variancia conocida 2 , con una distribucin a priori para N (0 , 02 ).
Si la precisin a priori, 1/02 , es pequea en relacin a la precisin de los
43
datos, n/ 2 , entonces la distribucin posterior es, en tanto que 02 = ,

aproximadamente:

f (/x) N /x, 2 /n
Dicho de otra forma, la distribucin posterior es aproximadamente aquella
que resultara al asumir que f () es proporcional a una constante para
(, ). Tal distribucin no es estrictamente posible dado que la integral de
la f () asumida es infinito, lo cual viola la asuncin de que las probabilidades
suman 1. En general, se llamar a una densidad a priori f () propia si esta
no depende de datos e integra 1. Si f () integra a cualquier valor positivo
finito, ser llamada una densidad no normalizada y que puede ser normalizada
multiplicndola por una constante para que integre uno. A pesar de que la
distribucin a priori de este ejemplo es impropia, la distribucin posterior es
propia, dada al menos una observacin.
Como un segundo ejemplo de una distribucin a priori no informativa,
considere el modelo normal con media conocida pero variancia desconocida,
con la distribucin a priori conjugada 2 inversa de escala. Si los grados
de libertad a priori 0 son pequeos en relacin con los grados de libertad
de los datos n, entonces la distribucin posterior es, en tanto que 0 = 0,
aproximadamente:

f 2 /x 2 -Inversa 2 /n,
Esta forma lmite de la distribucin posterior puede tambin ser deducido

al definir la densidad a priori para 2 como f ( 2 ) 1/ 2 , la cual es impropia
ya que integra infinito sobre el rango (0, ).
Distribuciones a priori impropias pueden conducir a distribuciones posteriores propias

En ninguno de los dos casos anteriores la densidad a priori se combina
con la verosimilitud para definir un modelo de probabilidad conjunta propio, f (x, ). Sin embargo, se puede proceder con el lgebra de la inferencia
bayesiana y definir una funcin de densidad posterior no normalizada dada
por:
f (/x) f (x/) f ()
En los ejemplos anteriores
(aunque no siempre), la densidad posterior es
de hecho propia, esto es, f (x/) d es finito para todo x.
44
Principio de invariancia de Jeffreys

Una aproximacin que es algunas veces usada para definir distribuciones a
priori no informativas fue desarrollada por Jeffreys, quien se bas en considerar transformaciones uno a uno del parmetro: = h (). Por transformacin
de variables, la densidad a priori es equivalente, en trminos de expresar la
misma informacin, a la siguiente densidad a priori para :
f () = f

d

()
d
El principio general de Jeffreys es que cualquier regla para determinar la

densidad a priori f () debe conducir a un resultado equivalente si se aplica al
parmetro transformado; esto es, f () calculado a partir de f () aplicando la
transformacin anterior debe coincidir con la distribucin que sera obtenida
determinando f () directamente usando el modelo transformado, f (x, ) =
f () f (x/).
La seleccin de Jeffreys para una densidad a priori no informativa es:
f () [J ()]1/2
donde J () es la informacin de Fisher para :
d ln f (x/)
J () = E
d
d2 ln f (x/)
= E
d2
Para verificar que el modelo a priori de Jeffreys es invariante a la reparametrizacin,

evale J () en = h1 ():
d2 ln f (x/)
J () = E
d2
#
"
!
d2 ln f (x/ = h1 ()) d
= E

d
d2
"

d 2

= J ()
d

d
()1/2 d
, tal y
!#
As, J ()1/2 = J
como es requerido.
El principio de Jeffreys puede ser extendido a modelos multiparamtricos,
pero los resultados son ms controvertidos. Aproximaciones simples basadas
al asumir distribuciones a priori no informativas para los componentes de un
vector de parmetros pueden dar diferentes resultados que los obtenidos
con el principio de Jeffreys.
45
Cantidades pivotales
Para el modelo binomial y otros modelos uniparamtricos, principios
diferentes dan distribuciones a priori ligeramente diferentes. Pero para dos
casos, parmetros de posicin y de escala, todos los principios parecen concordar.
1. Si la densidad de x es tal que f (x /) es una funcin que no depende
ni de ni de x, digamos f (u) donde u = x , entonces u es una cantidad pivotal, y es llamado un parmetro de posicin puro. En tales
casos, es razonable que una distribucin a priori no informativa para
genere para la distribucin posterior f (x /x) . Esto es, bajo la distribucin posterior, y debe seguir siendo una cantidad pivotal, cuya
distribucin no depende ni de x ni de . Bajo esta condicin, usando
la regla de Bayes, f (x /x) f () f (x /), y esto implica que la
densidad a priori no informativa es uniforme en , esto es, f () cte.
sobre el rango (, ).

2. Si la densidad de x es tal que f x / es una funcin que no depende

ni de ni de x, digamos g (u) donde u = x , entonces u es una cantidad
pivotal, y es llamado un parmetro de escala puro. En tales casos, es
razonable que una distribucin a priori no informativa
para genere

x
g (x/) para la distribucin posterior f /x . Por transformacin de
variables, la distribucin condicional de x dado puede ser expresada
en trminos de la distribucin de u dado :
1
f (x/) = f (u/)
y similarmente:
x
f (u/x)
2
Al igualar ambas distribuciones, f (u/) y f (u/x) a g (u), se obtiene la
siguiente identidad:
x
f (/x) = f (x/)
As, en este caso, la distribucin a priori de referencia es f () 1/ o,

equivalentemente, f (ln ) cte.
f (/x) =
46
Algunas distribuciones a priori no informativas para el

parmetro binomial
Considere la distribucin binomial, X BI (n, ), para la cual el logaritmo de la verosimilitud es:
ln f (x/) = Constante + x ln + (n x) ln (1 )
La evaluacin de la segunda derivada y la sustitucin de E [X/] = n da
la siguiente informacin de Fisher:
d2 ln f (x/)
J () = E
d2
n
(1 )
La densidad a priori de Jeffreys es entonces f () 1/2 (1 )1/2 , la

cual es una densidad BE (1/2, 1/2).
De acuerdo al criterio de Bayes y Laplace, una densidad a priori uniforme
podra ser adecuada, esto es, una densidad BE (1, 1). Por otro lado, la densidad a priori que es uniforme sobre el parmetro natural de la representacin
bajo la forma de la familia exponencial de la distribucin es f (logit ()) cte.,
la cual corresponde a la densidad a priori impropia para , BE (0, 0).
En la prctica, la diferencia entre estas distribuciones a priori es pequea,
dado que la diferencia desde una BE (0, 0) hasta una BE (1, 1) puede ser
interpretada como el paso de una distribucin a priori a una posterior dado
por un xito y un fracaso adicional, y usualmente 2 es una pequea fraccin
del nmero total de observaciones. Sin embargo, uno debe tener cuidado con
la distribucin impropia BE (0, 0) dado que si en la muestra se obtiene x = 0
o x = n, la distribucin posterior resultante tambin ser impropia.
5.6.
Mixtura de distribuciones a priori
El uso de distribuciones a priori conjugadas es solo posible cuando existe

una distribucin que representa en forma adecuada el conocimiento previo sobre el parmetro. En algunos casos, la distribucin a priori conjugada natural
puede ser demasiado restrictiva para que esto sea posible.
Considere el siguiente ejemplo. Cuando una moneda es lanzada, la probabilidad de que una cara aparezca es casi siempre igual a 0.5. Sin embargo,
cuando la moneda es hecha girar sobre una mesa, suele ocurrir que ligeras
47
imperfecciones en el borde la moneda produzcan una tendencia a obtener

ms caras o ms sellos. Teniendo esto en cuenta, se podra esperar dar a la
probabilidad de que aparezca una cara una distribucin a priori que favorezca por ejemplo los valores de 0.3 y 0.7. Esto es, el conocimiento a priori
puede ser representado por una distribucin bimodal (o inclusive trimodal si
se va contemplar la posibilidad de que la moneda sea regular, en cuyo caso
= 0,5). La verosimilitud para el nmero de caras en n intentos sera una
binomial y por lo tanto la familia a priori conjugada es la distribucin beta;
sin embargo, ningn miembro de esta familia es bimodal.
Una solucin es usar una mixtura de distribuciones conjugadas. Esta familia extendida tambin ser una familia a priori conjugada por la siguiente
razn. Suponga que f1 () , , fk (), son todas distribuciones a priori conjugadas para , las cuales conducen a las respectivas distribuciones posteriores f1 (/x) , , fk (/x). Ahora considere la siguiente mixtura de distribuciones:
f () =
k
X
wi fi ()
i=1
donde wi es el peso o ponderacin de la distribucin a priori fi () en

f (). Entonces:
f (/x) f () f (x/)
=
=
k
X
i=1
k
X
wi fi () f (x/)
wi fi (/x)
i=1
y por lo tanto, la distribucin posterior pertenece a la misma familia de

distribuciones mixtas. Note que en general, las ponderaciones en la distribucin posterior, wi , sern diferentes que aquellas de la distribucin a priori.
El uso de una mixtura de distribuciones a priori conjugadas puede ser
implementado sin mayor dificultad con software, y el First Bayes permite
usar mixturas de distribuciones a priori para los cuatro modelos conjugados ms comunes (modelo binomial, modelo Poisson, modelo exponencial y
modelo normal). Por ltimo, tenga presente que el uso de una mixtura de
distribuciones a priori no est limitado al uso de familias conjugadas.
Captulo 6
Modelos multiparamtricos
6.1.
Distribucin normal con media y varianza desconocidas
La funcin de densidad de distribucin N (, 2 ), con ambos parmetros

son desconocidos, se denota por:

1/2
1
f x/, 2 = 2 2
exp 2 (x )2
2 (
)
(
)
1/2
2
x
x2
1/2
2
= (2)
exp 2 exp
2
2
2
2
La densidad anterior pertenece a una familia exponencial de dos parmetros. Suponga que se tiene un conjunto de observaciones x = (x1 , , xn ),
entonces la funcin de verosimilitud es:

l , 2 /x
n
Y
f xi /, 2
i=1
n/2
n
1 X
(xi )2
exp 2
2 i=1
n
1 X

exp 2
(xi x)2 + n (x )2
2 i=1

n/2

1
2
2

exp 2 S + n (x )
2

2 n/2
!)
donde S = (xi x)2 , es decir s2 = S/ (n 1). Adems el vector bidimensional (x, S), equivalente a (x, s2 ), es suficiente para (, 2 ) dado x.
P
48
49
CAPTULO 6. MODELOS MULTIPARAMTRICOS

Supongamos que la funcin de densidad conjunta para (, 2 ) es:

f , 2
1
2
que es el producto de las distribuciones a priori de referencia f () 1 y

f ( 2 ) 1/ 2 . Entonces:

f , 2 /x
n/21
exp

1
2
)
S
+
n
(x
2 2
Si se definen = n 1 y 2 = se tiene:

1
exp
S + n (x )2
2
(
f (, /x)
(+1)/21
6.2.
Distribucin marginal posterior de la media
En muchos problemas reales el inters se centra en la media y se

considera como un parmetro de ruido. En la teora clsica los parmetros de
ruido pueden traer complicaciones, sin embargo stos no constituyen problemas en la teor Bayesiana. Todo lo que se requiere es hallar la distribucin
posterior marginal de . Es decir:
f (/x) =
f (, /x) d

1
S + n (x )2 d
exp
2
(
(+1)/21
S + n (x )2
(+1)/2
corresponde al ncleo de la distribucin posterior de , sin embargo no

es la forma ms conveniente de expresar el resultado. Es usual definir:
t=
s/ n
50
donde s2 = S/ (n 1) = S/. Como el jacobiano |d/dt| de la transformacin desde hacia t es constante, la distribucin posterior de t est dada
por:
f (t/x)
s2 + (st)2
1 + t2 /
o(+1)/2
o(+1)/2
que corresponde a la densidad de una variable aleatoria con distribucin

t-student con grados de libertad. Notar que si el lmite exponencial
es proporcional a exp {t2 /2} que tiene la forma de la distribucin normal
estndar. Por otro lado, si = 1 entonces t tiene distribucin C (0, 1), o
equivalentemente C (x, s2 /n).
6.3.
Distribucin marginal posterior de la varianza
Si el inters esta en en lugar de , se tiene:
f (/x) =
f (, /x) d

1
S + n (x )2 d
=
exp
2
)
(
)
(
S
1
2
1/2
/21

exp
(2/n)
exp n (x ) d
2
2
(
)
S
/21 exp
2
(+1)/21
es decir que la distribucin posterior de es S2

.
6.4.
Distribucin condicional de la media dada la varianza
En algunas situaciones resulta til expresar la distribucin posterior en

la forma:
f (, /x) = f (/x) f (/, x)
51

donde:

1
f (, /x)
exp
S + n (x )2
2
(
)
S
f (/x) = /21 exp
2
(
(+1)/21
lo cual implica que:

1
f (/, x)
exp n (x )2
2
(
)
1
1/2
2
= (2/n)
exp n (x )
2
(
1/2
es decir que, dados y x, la distribucin de la media es N (x, /n).

Estadistica Bayesiana

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Estadistica Bayesiana

Загружено:

Авторское право:

Доступные форматы

Estadstica Bayesiana

Ms. Carlos Lpez de Castilla Vsquez1

tienes comentarios o correcciones envalos al siguiente correo electrnico:

2. Teora de la probabilidad y Estadstica Clsica

4. Modelos basados en la distribucin normal

funcionamiento del mundo debe ser el efecto de la sabidura y

La definicin de probabilidad es una tarea complicada. Una forma es travs

Si el espacio muestral es continuo entonces debe integrarse en lugar de

CAPTULO 2. TEORA DE LA PROBABILIDAD Y ESTADSTICA CLSICA4

donde Pr(A B) representa la probabilidad de ocurrencia del evento A

si y solo si A y B son eventos independientes. Segundo, si A y B no son

que puede expresarse como:

Algunas distribuciones importantes

Esta distribucin representa la probabilidad de observar x xitos en n ensayos

Cuando n = 1 la distribucin binomial se reduce a la distribucin Bernoulli.

La distribucin multinomial es la generalizacin de la distribucin binomial

CAPTULO 2. TEORA DE LA PROBABILIDAD Y ESTADSTICA CLSICA5

La distribucin de Poisson permite calcular la probabilidad de obtener un

La distribucin ms usada en estadstica y en la mayora de las ciencias es

La distribucin normal multivariada

La distribucin normal puede extenderse a ms de una dimensin. Si X

La funcin de densidad de la distribucin t aparece mucho ms complicada

Estimacin por mxima verosimilitud

El mtodo clsico de enseanza de la estadstica tiene dos etapas bsicas:

CAPTULO 2. TEORA DE LA PROBABILIDAD Y ESTADSTICA CLSICA6

Construyendo la funcin de verosimilitud

Si x1 , , xn son observaciones independientes de una variable aleatoria X,

Obteniendo los errores estndar

Una caracterstica importante de este mtodo es que la segunda derivada del

CAPTULO 2. TEORA DE LA PROBABILIDAD Y ESTADSTICA CLSICA7

Suponga que una mujer cree que se encuentra embarazada despus de un

El teorema de Bayes para probabilidades

El teorema de Bayes aplicado a las probabilidades puntuales es:

Voviendo al ejemplo, suponga que tambin se sabe que la prueba da falsos

CAPTULO 3. ESTADSTICA BAYESIANA

y B2 = No embarazo. Sin embargo, para calcular la probabilidad de inters

El teorema de Bayes aplicado a distribuciones de probabilidad

El teorema de Bayes expresado en trminos de distribuciones de probabilidad es:

CAPTULO 3. ESTADSTICA BAYESIANA

donde f (|data) es la distribucin posterior para el parmetro , f (data|)

Despus que observar la data se pueden predecir nuevos valores desde el

f (y|data) = f (y|) f (|data) d

CAPTULO 3. ESTADSTICA BAYESIANA

Cuando las distribuciones a priori no tienen ninguna base poblacional

Principio de invariancia de Jeffreys

CAPTULO 3. ESTADSTICA BAYESIANA

donde J () es la informacin de Fisher para definida por:

Ejemplo 3.6.1 Suponga que X| E (1 ). Hallar la distribucin a priori

donde J () es el determinante de la matriz cuyo elemento (i, j) es:

Ejemplo 3.6.3 Suponga que X|, 2 N (, 2 ). Hallar la distribucin a

Algunas distribuciones a priori tiles

CAPTULO 3. ESTADSTICA BAYESIANA

La distribucin gamma inversa

Si 1/X G (, ) entonces X GI (, ) cuya funcin de densidad es:

Distribucin Wishart y Wishart Inversa

Las distribuciones Wishart y Wishart inversa son generalizaciones de las

donde representa los grados de libertad. Si X WII (S1 ) entonces:

Crticas a la estadstica Bayesiana

Distribucin normal con un solo parmetro

La distribucin normal es fundamental en la mayora de los modelos

Si adems se asume que la distribucin priori para N (1 , 12 ), se

CAPTULO 4. MODELOS BASADOS EN LA DISTRIBUCIN NORMAL15

La distribucin predictiva posterior para una nueva observacin es: