Академический Документы
Профессиональный Документы
Культура Документы
Introducción a la
Estadı́stica Bayesiana
2008
Prefacio
iii
iv
Índice general
1. Introducción 3
1.1. Aproximaciones al análisis bayesiano . . . . . . . . . . . . . . . . 6
1.2. Problemas con la aproximación clásica . . . . . . . . . . . . . . . 6
3. Teorema de Bayes 19
3.1. Usos de la Función de Verosimilitud en Análisis Bayesiano . . . . 22
4. Distribuciones Conjugadas 23
4.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Elicitación de los Parámetros de la Beta para Proporciones 26
4.2. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . . . 28
4.3. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . . . 28
4.5. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . 30
4.7. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.7.1. Precisión Conocida . . . . . . . . . . . . . . . . . . . . . . 30
4.7.2. Precisión Desconocida . . . . . . . . . . . . . . . . . . . . 31
4.7.3. Media y Precisión Desconocidas . . . . . . . . . . . . . . . 31
v
vi ÍNDICE GENERAL
5. Distribuciones No Informativas 35
5.1. El Principio de la Razón Insuficiente de Laplace . . . . . . . . . . 36
5.2. Apriori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.3. Otras Alternativas . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4. Marginalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6. Inferencia Bayesiana 43
6.1. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2. Regiones de Credibilidad . . . . . . . . . . . . . . . . . . . . . . . 49
6.3. Región de la Densidad Posterior Más Alta (RDPMA) . . . . . . 49
6.3.1. Intervalos frecuentistas tradicionales para la Poisson . . . 51
6.4. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.4.1. Comparación de Modelos . . . . . . . . . . . . . . . . . . 58
6.5. La aproximación BIC . . . . . . . . . . . . . . . . . . . . . . . . . 61
7. Inferencia Predictiva 65
7.1. Tamaño Muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8. WinBUGS 69
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8.2. Qué se espera de un software para estadı́stica bayesiana? . . . . . 69
8.3. Utilización de WinBUGS . . . . . . . . . . . . . . . . . . . . . . 70
8.4. Algunos de los comandos del WinBUGS . . . . . . . . . . . . . . 76
8.4.1. Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.4.2. Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9. Modelos Lineales 81
9.1. La regresión clásica . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.1.1. Usos del Análisis de Regresión . . . . . . . . . . . . . . . 81
9.1.2. Estrategia Tı́pica en un Análisis de Regresión . . . . . . 82
9.1.3. Regresión simple . . . . . . . . . . . . . . . . . . . . . . . 82
9.1.4. Modelo de Regresión Lineal Múltiple . . . . . . . . . . . 83
9.1.5. Notación Matricial . . . . . . . . . . . . . . . . . . . . . . 83
9.2. Aproximación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 84
9.3. Distribución Normal-Gamma . . . . . . . . . . . . . . . . . . . . 84
9.4. Distribución Aposteriori . . . . . . . . . . . . . . . . . . . . . . . 85
9.5. Análisis Conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.5.1. Distribución Predictiva . . . . . . . . . . . . . . . . . . . 88
9.5.2. Inferencias . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.5.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . 89
9.6. Precios de Oferta de Vehı́culos . . . . . . . . . . . . . . . . . . . 90
9.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.8. Estrategias en Modelación . . . . . . . . . . . . . . . . . . . . . . 97
9.9. Regresión Inversa o Calibración . . . . . . . . . . . . . . . . . . . 98
ÍNDICE GENERAL vii
16.Datos 169
16.1. Apellidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
16.2. Mordeduras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
ÍNDICE GENERAL 1
18.Referencias 187
2 ÍNDICE GENERAL
Capı́tulo 1
Introducción
Ejemplo 1.1 La loterı́a que jugó anoche Suponga que a usted un amigo le
ofrece un billete de loterı́a, pero con el problema que la loterı́a jugó anoche. Su
amigo, que ha demostrado ser una persona honesta le informa que él no sabe el
resultado de la loterı́a, y usted tampoco. En una situación como ésta podemos
pensar en una probabilidad de que el billete sea el ganador es la misma que el
billete tenı́a antes de que se jugara la loterı́a, no lo piensa ası́?
3
4 CAPÍTULO 1. INTRODUCCIÓN
Los problemas de predicción no son más difı́ciles que los problemas de esti-
mación de parámetros. Parámetros y observaciones futuras son cantidades
desconocidas que son modeladas subjetivamente.
1. En pruebas de hipótesis:
2. En estimación:
La apuesta debe ser reversible y que ninguna apuesta pueda ser elaborada
tal que uno pierda o gane con certeza. Esta condición obliga al sujeto a
asignar las apuestas consistentemente con sus creencias.
9
10 CAPÍTULO 2. PROBABILIDAD SUBJETIVA “APRIORI”
3. Ella tiene una función de utilidad que es lineal con respecto al dinero en
el rango relevante. Además, ella escoge sus respuestas de tal forma que
maximiza su utilidad esperada.
las probabilidades,
apuestas,
loterı́as hipotéticas,
que ese valor. En otras palabras, quiero que me dé un valor para el que
crea que es igualmente probable que π sea mayor o menor que él.
Cliente: (Después de pensar un rato). Yo dirı́a que 0.60. Pero no estoy nada
seguro. Creo que la mayorı́a de los médicos prefieren tomar cerveza.
Analista: Por “igualmente probable” , en este contexto, quiero decir que ust-
ed es indiferente entre recibir un premio muy deseable condicionado a
que π sea menor que 0.60, y recibir este mismo premio condicionado a
que π sea mayor que 0.60. O, de forma más dramática, si su vida de-
pendiera de ello, optarı́a igualmente por un π ≤ 0,60 que por un π ≥ 0,60.
Está siguiéndome?
Analista: De acuerdo. Ahora deme un número para el que crea que es igual-
mente probable que π esté comprendido entre cero y ese número y ese
número y 0.60.
Analista: Tal como están las cosas usted pierde. Mire, si me dice que el número
es π ∗ , esto quiere decir que sus probabilidades de ganar el premio son
igualmente buenas si elege el intervalo de cero a π ∗ como lo son si elige el
intervalo de π ∗ a 0.60. Si π es mayor que 0.60 , no obtendrı́a el premio
sea cual sea el lado de π ∗ que elija, porque π no estarı́a en esos intervalos.
Cliente: De acuerdo. Veamos... Diré que 0.50 divide el intervalo de cero a 0.60
en dos partes igualmente probables.
2.8. UN DIÁLOGO PARA LA OBTENCIÓN DE LA PROPORCIÓN 15
Analista: Le hubiera sido más fácil si, una vez que me habı́a dado el número
0.60 le hubiera hecho la última pregunta de esta otra manera?: “Mire,
suponga que le digo que π es menor que 0.60. Cómo dividirı́a ahora el
intervalo de cero a 0.60 en dos partes igualmente probables?”
Cliente: Supongo que son iguales. La segunda me parece más fácil, pero las
cosas siempre me parecen más fáciles a la segunda vez.
Analista: Continuemos. Imagı́nese que le digo que π es mayor que 0.60. Cómo
dividirı́a el intervalo 0.60 a 1 en dos partes igualmente probables?
Cliente: Creo que apostarı́a que está dentro del intervalo. Pero estoy siendo
inconsistente, no?
Analista: Sı́, lo está siendo, pero es normal. Quiero que piense más sobre ello.
Es una ventaja que trate conscientemente de ser consistente.
Cliente: Bien, no quiero cambiar el 0.60. Me siento más inseguro con el 0.70.
Supongo que estarı́a dispuesto a admitir un 0.68. En lo que a mı́ respecta,
hay una probabilidad del 50-50 de que π esté en el intervalo [0.50 a 0.68].
Analista: Bien, podrı́a usted imaginar terminar con números tales como 0.20,
0.40 y 0.55?
Cliente: 0.42.
Analista: Bien. Suponga que yo le dijera que π es menor que 0.42. Preferirı́a
apostar por el intervalo [0 a 0.21] o por el intervalo [0.21 a 0.42]?
Esta discusión puede continuar por largo tiempo y a medida que el cliente
es más y más consciente del proceso de elicitación y su información es cada vez
mejor.
2.9. ANÁLISIS PREPOSTERIOR 17
Prueba: (Ejercicio)
f (x|θ) ξ(θ)
ξ (θ|x) = R
Θ
f (x|θ) ξ(θ) dθ
19
20 CAPÍTULO 3. TEOREMA DE BAYES
Por lo tanto solo necesitamos conocer la distribución posterior hasta una con-
stante de normalización. Muchas veces somos capaces de identificar la distribu-
ción posterior de θ mirando solamente este numerador. El teorema de Bayes lo
que hace es una “actualización” de ξ(θ) a ξ (θ|x1 , · · · , xn ).
Nota: El aprendizaje bayesiano será
π ∼ U (π0 , π1 )
Esto es,
1
ξ (π|π0 , π1 ) = 0 ≤ π0 < π < π1 ≤ 1
π1 − π0
La distribución posterior de π dado x es
Γ(n+2) (y+1)−1
Γ(y+1)Γ(n−y+1) π (1 − π)(n−y+1)−1
ξ (π|x, π0 , π1 ) = R π1 Γ(n+2)
π0 Γ(y+1)Γ(n−y+1)
π (y+1)−1 (1 − π)(n−y+1)−1 dπ
Pn
donde y = i=1 xi . Notemos que el denominador de la función es la P (π0 < W < π1 |y + 1, n − y + 1),
donde W ∼ Beta(y + 1, n − y + 1), y esto se calcula fácilmente en programas
como el R.
21
1
ξ(π) = para π ∈ (0,35, 0,70)
0,70 − 0,35
= 0 en otro caso.
Z π∗ Γ(12) 4
− π)6
Γ(5)Γ(5) π (1
dπ = 0,95
π∗ K(0,70; 5, 7) − K(0,35; 5, 7)
1. Tratabilidad analı́tica:
23
24 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS
α
E(π) =
α+β
α−1
M oda =
α+β−2
αβ E(π)(1 − E(π))
V ariancia = =
(α + β)2 (α + β + 1) α+β+1
Ejemplo 4.1 Este ejemplo es desarrollado por Draper (2000) y hace referen-
cia a entradas de pacientes a un hospital universitario con Ataque Agudo del
Miocardio (AAM). Se considera la tasa de mortalidad de los pacientes en los
30 dı́as siguientes a la admisión al hospital. Se conoce que en Inglaterra esta
tasa es del 15 % (No necesariamente para este hospital la tasa sea igual). Para
elicitar la distribución apriori sobre la proporción de pacientes con AAM que
muere en lo 30 dı́as siguientes, se utiliza esta información como, digamos el
promedio. Ahora se necesita un poco más de información y el analista,tal vez
usando el Teorema Central del Lı́mite, piensa que el 95 % de las posibles tasas
de mortalidad para este hospital deben estar entre 5 % y 30 %. Debemos buscar
por lo tanto una distribución Beta(α, β) que tenga una media de 0.15 y el área
bajo la curva entre los lı́mites (0.05, 0.30) debe ser igual a 0.95. Mediante ensayo
y error se encuentra que α = 4,5 y β = 25,5 se tiene una distribución con las
caracterı́sticas deseada.
Escrito esto en forma jerárquica el modelo es
α
r=
α+β
α+1
r+ =
α+β+1
3. Resuelva simultáneamente
r (1 − r+ )
α =
r+ − r
(1 − r) (1 − r+ )
β =
r+ − r
α
r− =
α+β+1
X∞ X ∞
(α)m+n (β)n m n
Φ1 (α, β, γ, x, y) = x y
m=0 n=0
(γ)m+n m!n!
P (X = k) = (1 − π)π k k = 0, 1, 2, · · ·
√
Su media es π/(1 − π) y su varianza π/(1 − π)2 . El sesgo es (1 + π)/ π.
Γ(α1 + · · · + αk ) α1 −1
f (x|α) = x · · · xkαk −1
Γ(α1 ) · · · Γ(αk ) 1
La media de Xi es
αi
E(Xi ) =
α0
Pk
donde α0 = i=1 α1 .
La varianza de Xi es
αi (α0 − αi )
var(Xi ) =
α02 (α0 + 1)
αi αj
Cov(Xi , Xj ) = − 2
α0 (α0 + 1)
4.5. DISTRIBUCIÓN POISSON 29
Γ(α1 + · · · + αk ) α1 −1
ξD (π|α) = π · · · πkαk −1
Γ(α1 ) · · · Γ(αk ) 1
θx exp(−θ)
f (x) = x = 0, 1, 2, 3, · · ·
x!
Prueba: (Ejercicio)
Distribución Posterior:
(W |X = x) ∼ Gamma (α1 , β1 )
donde
n
α1 = α0 +
2
n
1X 2
β1 = β0 + (xi − m) .
2 i=1
Prueba: (Ejercicio)
(µ|X = x) ∼ N (µ1 , τ1 )
donde
τ0 µ0 + nx̄
µ1 =
τ0 + n
τ1 = (τ0 + n)r
y x̄ es la media muestral.
2. la distribución marginal de R es Gamma(α1 , β1 ) donde
n
α1 = α0 +
2
n
1X
2
2 τ n (x̄ − µ0 )
β1 = β0 + (xi − x̄) +
2 i=1 2(τ + n)
Prueba: (Ejercicio)
β α α−1
f (x|α, β) = x exp (−βx) x > 0, α > 0
Γ(α)
donde
n
X
s = xi
i=1
Yn
p = xi
i=1
Miller (1980) usa una clase conjugada muy general definida por la conjunta
′
β ν α−1 ′ α−1
ξ(α, β) ∝ (p ) exp (−s′ β)
[Γ(α)]n′
′
donde α > 0, β > 0, n′ > 0, ν ′ > 0, s′ > 0 y p′ > 0, tal que n′ (p′ )1/n /s′ < 1.
La distribución posterior es proporcional a
′′
β ν α−1 ′′ α−1
ξ(α, β|x) ∝ p exp (−s′′ β)
[Γ(α)]n′′
donde
√ ′′ ′ ′ ′
r′′ ν ′′
p (p′ )1/(ν +n) (r/n)n/(ν +n) sn/(ν +n)
= =
n′′ s′′ s′ + s
34 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS
Capı́tulo 5
Distribuciones No Informativas
Notas:
35
36 CAPÍTULO 5. DISTRIBUCIONES NO INFORMATIVAS
!
2
n (ȳ − θ)
L (θ|y) ∝ exp −
2 σ2
y la distribución posterior es
σ2
θ|y ∼ N ȳ,
n
la cual es una distribución propia.
Yang y Berger (1998) presentan varias razones por las cuales es importante
considerar las distribuciones no informativas. Tenemos entre ellas
Con frecuencia la elicitación de las distribuciones apriori es imposible, por
múltiples razones, por ejemplo, limitaciones de costo o tiempo, o resisten-
cia o falta de entrenamiento de los clientes.
El análisis estadı́stico debe aparecer como “objetivo”.
La elicitación subjetiva puede producir malas distribuciones subjetivas,
por ejemplo si la elicitación es sesgada.
En problemas de alta dimensión, lo más que se puede esperar es obtener
buenas distribuciones subjetivas para algunos pocos parámetros, y a los
parámetros de perturbación se les asignan distribuciones no informativas.
El análisis bayesiano con distribuciones no informativas puede utilizarse
para obtener procedimientos clásicos buenos.
Aún cuando un investigador tenga creencias apriori fuertes, puede ser más
convincente analizar los datos utilizando una apriori de referencia dominada por
la verosimilitud. Además podemos automatizar el proceso de hallar aprioris.
Yang y Berger (1998) proporcionan un amplio catálogo de distribuciones no
informativas que es útil en el trabajo aplicado.
1/2
ξ(θ) ∝ |I(θ)|
p(y|π) = π y (1 − π)1−y
Entonces tenemos
ξ(π) ∝ I(π)1/2
1/2
1
=
π(1 − π)
= π −1/2 (1 − π)−1/2
= π 1/2−1 (1 − π)1/2−1
Ası́ π ∼ Beta 21 , 21 . Por lo que vemos en este caso la distribución apriori de
Jeffreys es propia.
1 1 2
f (x|µ, σ) = √ exp − 2 (x − µ)
2πσ 2σ
1 1 2
log (f (x|µ, σ)) = − log(2π) − log(σ) − 2 (x − µ)
2 2σ
∂ log (f (x|µ, σ)) 1
= (x − µ)
∂µ σ2
2
∂ log (f (x|µ, σ)) 1
= − 2
∂µ2 σ
∂ log (f (x|µ, σ)) 1 1
= − + 3 (x − µ)2
∂σ σ σ
∂ 2 log (f (x|µ, σ)) 1 3
= − 4 (x − µ)2
∂σ 2 σ2 σ
∂ 2 log (f (x|µ, σ)) 2
= − 3 (x − µ)
∂µ∂σ σ
Tomando la esperanza obtenemos
1
µ 0
I = σ2 2
σ 0 σ2
dψ(µ) −1
(I(ψ(µ))) 1/2
= (I(µ))1/2
dµ
= 1 × e−µ
= e−µ
5.4. Marginalización
Ejemplo 5.5 Eliminando un término de molestia. En muchas situaciones
tenemos un vector de parámetros, pero solo estamos interesados realmente en
unos pocos. Debemos por lo tanto proceder a “eliminar” aquellos términos de
molestia. Esto lo hacemos mediante la marginalización.
Suponga
que x1 , · · · , xn
es una muestra aleatoria de una N µ, σ 2 , donde µ, σ 2 son desconocidos. Sea
τ = 1/σ 2 . Suponga que especificamos una apriori no informativa de Jeffreys
ξ µ, σ 2 ∝ τ
Ahora,
( n
)
n τX 2
ξ (µ, τ |x) ∝ τ 2 −1 exp − (xi − µ) .
2 i=1
No es difı́cil llegar a
Z ( )
∞
n τ X
n n nτ o
2 −1
2 2
ξ (µ |x) ∝ τ exp − (xi − x̄) exp − (x̄ − µ) dτ.
0 2 i=1 2
Sea
5.4. MARGINALIZACIÓN 41
n
1 X 2
s2 = (xi − x̄)
n − 1 i=1
Entonces
Z n τ
n
∞ o
ξ (µ |x) ∝ τ 2 −1 exp − (n − 1)s2 + n(µ − x̄)2 dτ
0 2
−n/2
∝ (n − 1)s2 + n(µ − x̄)2
−(n−1+1)/2
n 2
∝ 1+ (µ − x̄)
(n − 1)s2
Ası́
s2
µ|x ∼ t n − 1, x̄,
n
Por lo tanto
µ − x̄
√ ∼ t(n−1)
s/ n
Z n τ
∞
n o
ξ (τ |x) ∝ τ 2 −1 exp − (n − 1)s2 + n(µ − x̄)2 dµ
−∞ 2
n−1
n τ o
∝ τ 2 −1 exp − (n − 1)s2
2
Ası́
n − 1 (n − 1)s2
τ |x ∼ Gamma ,
2 2
(n − 1)s2 τ ∼ ξn−1
2
42 CAPÍTULO 5. DISTRIBUCIONES NO INFORMATIVAS
Capı́tulo 6
Inferencia Bayesiana
D: Un espacio de decisiones
43
44 CAPÍTULO 6. INFERENCIA BAYESIANA
Z
E [L(d, θ)] = L(a, θ) ξ (θ|x) dθ
Z
= (a − b + b − θ)2 ξ (θ|x) dθ
Z
= (a − b) + (b − θ)2 ξ (θ|x) dθ
2
Z
≥ (b − θ)2 ξ (θ|x) dθ
,
L(d, θ) = |d − θ|
+(d − d∗ )P (θ ≤ d∗ )
= (d − d∗ ) [P (θ ≤ d∗ ) − P (θ > d∗ )] ≥ 0
Esta última desigualdad sigue del hecho que d∗ es la mediana de la distribución
de θ. La primera desigualdad en este conjunto de ecuaciones será una igualdad
si, y solo si, P (d∗ < θ < d) = 0. La desigualdad final será una igualdad si, y
solo sı́,
1
P (θ ≤ d∗ ) = P (θ > d∗ ) = .
2
Estas condiciones implican que d es también una mediana. Por lo tanto, E(|θ −
d|) ≥ E(|θ − d∗ |), y la igualdad se cumple si, y solo si, d es también mediana.
Una prueba similar puede hacerse si d < d∗ .
L(d, θ) = 0 si |d − θ| ≤ δ
= 1 si |d − θ| > δ
Z
E [L(d, θ)] = I (|d − θ| > δ) ξ (θ|x) dθ
ZΘ
= I (1 − (|d − θ| ≤ δ)) ξ (θ|x) dθ
Θ
Z d+δ
= 1− ξ (θ|x) dθ
d−δ
≈ 1 − 2δξ (d|x)
o !
2
1 (θ − µo )
ξ(θ) ∝ exp −
2 σo2
Verosimilitud:
n
!
Y 1 (yi − θ)
2
2
f y|θ, σ = √ exp −
i=1 2πσ 2 2σ 2
n
!
X (yi − θ)
2
∝ exp − 2
i=1
2σ
θ|y ∼ N µn , σn2
donde
1 n
σo2 µo + σ 2 ȳ τo µo + nrȳ
µn = 1 n =
σo2 + σ 2
τo + nr
y
1 1 n
2
= 2+ 2
σn σo σ
6.1. ESTIMACIÓN PUNTUAL 47
Bajo las tres funciones de pérdida el estimador bayesiano para la media será
θ̂ = µn .
calcula.estimadores.poisson<-function(alfa0,beta0,x,n=lenght(x)) {
alfa1<-alfa0+sum(x)
beta1<-beta0+n
estimador.fpc<-alfa1/beta1
estimador.fpa<-qgamma(0.5,alfa1,beta1)
estimador.fpe<-(alfa1-1)/beta1
list(estimador.fpc=estimador.fpc,
estimador.fpa=estimador.fpa,
estimador.fpe=estimador.fpe)
}
La utilización será
>calcula.estimadores.poisson(1,1,16,n=4)
$estimador.fpc
[1] 3.4
$estimador.fpa
[1] 3.333571
$estimador.fpe
[1] 3.2
48 CAPÍTULO 6. INFERENCIA BAYESIANA
1. P (θ ∈ R|Y ) = α
para θ > 0, −∞ < α < ∞ y β ≥ 0. Note que esta distribución apriori cor-
responde al kernel de una distribución gamma cuando α ≥ 0. La distribución
aposteriori es por lo tanto
( n
)!
X
n+α−1
ξ (θ|x1 , · · · xn ) ∝ θ exp −θ β + xi
i=1
50 CAPÍTULO 6. INFERENCIA BAYESIANA
n+1
Estimador de Mı́nima Varianza Insesgado n máx {Xi }
intervalo.poisson <-function(a,b)
{
x1<-1:499/10000
x2<-0.950+x1
dif<-abs(dgamma(qgamma(x1,a,rate=b),a,rate=b)
-dgamma(qgamma(x2,a,rate=b),a,rate=b))
x3<-qgamma(x1[which.min(dif)],a,rate=b)
x4<-qgamma(x2[which.min(dif)],a,rate=b)
list(x3=x3,x4=x4)
}
>intervalo.poisson(17,5)
$x3
[1] 1.871629
$x4
[1] 5.045115
Mientras que el intervalo tradicional hallado con ambas colas iguales a α/2 es
$x3
[1] 1.980625
$x4
[1] 5.1966
Método Exacto
Pn
Se sabe que S = i=1 Xi se distribuye Poisson con parámetro nλ. Un in-
tervalo de confianza exacto se obtiene resolviendo
s
X i
(nλL ) α
exp (nλL ) =1−
i=0
i! 2
y
s
X i
(nλU ) α
exp (nλU ) =
i=0
i! 2
Lo que se debe hacer entonces es hallar las raı́ces que nos dan los lı́mites
del intervalo. Para el caso del parámetro de la exponencial, λ, tenemos que un
intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal que
nX̄
L(λ) λ
R(λ) = = ≥ K(k, α)
L(λ̂) X̄
Bootstrap
El método bootstrap proporciona una manera directa y sencilla para hallar
intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:
1
H0 : π = (El sujeto no tiene poderes)
2
1
H1 : π 6= (El sujeto tiene poderes)
2
El valor − p = PH0 X − n2 ≥ x − n2 ≈ 0,0003 nos lleva a concluir que
hay una fuerte evidencia contra H0 .
Si pensamos bayesianamente necesitamos una distribución apriori, pero aho-
ra definida sobre las hipótesis en juego:
H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1
Sea f (x|θ) la verosimilitud de x dado θ. Tenemos las siguientes formas del factor
de Bayes
f (x|θ0 )
B01 (x) = (Prueba simple vs. simple)
f (x|θ1 )
f (x|θ0 )
B01 (x) = R (Prueba simple vs. compuesta)
Θ1
f (x|θ)ξ1 (θ)dθ
R
f (x|θ0 )ξ0 (θ)dθ
B01 (x) = RΘ0 (Prueba compuesta vs. compuesta)
Θ1
f (x|θ)ξ1 (θ)dθ
Jeffreys presenta los siguientes criterios sobre el factor de Bayes para decidir
cuándo optar por H0 :
Esto sugiere que esta persona parece tener algún poder discriminatorio, pero no
mucho.
donde
Z
mi (y) = fi (y|θ i )ξ(θ i ) dθ i , para i = 1, · · · , s,
Θi
es la distribución marginal de los datos bajo el modelo Mi . La razón de las
probabilidades posteriores nos permiten hacer una comparación entre modelos.
Para los modelos Mj y Mk se tiene:
P r (Mj |y) pj
= Bjk (y),
P r (Mk |y) pk
donde
mj (y)
Bjk (y) =
mk (y)
es el factor de Bayes para el modelo Mj contra el modelo Mk a partir de los
datos y.
x
M0 : f (x|θ0 ) = θ0 (1 − θ0 ) , x = 0, 1, · · ·
M1 : f (x|θ1 ) = e−θ1 θ1x /x!, x = 0, 1, · · ·
Por simplicidad asumamos que θ0 y θ1 son conocidos. Cómo nos decidimos entre
los dos modelos utilizando la evidencia muestral?
Ya que los parámetros se asumieron conocidos no necesitamos asumir ningu-
na distribución apriori para ellos. Por lo tanto
nx̄
f (x|M0 ) = θ0n (1 − θ0 )
y
e−nθ1 θnx̄
f (x|M1 ) = Qn 1
i=1 xi !
Asumamos que tenemos datos x que surge de uno de los siguientes modelos
(hipótesis):
M1 : X tiene densidad f1 (x |θ 1 )
M2 : X tiene densidad f2 (x |θ 2 )
.. ..
. .
Mq : X tiene densidad fq (x |θ q )
Le asignamos probabilidades apriori a cada modelo ξ (Mi ). Bajo el modelo
Mi :
Densidad apriori de θ i : ξi (θ i )
Densidad marginal de X:
Z
mi (x) = fi (x | θ i ) ξi (θ i ) dθ i
mj (x)
Bji =
mi (x)
La probabilidad posterior de Mi :
−1
X q
ξ (Mi ) mi (x) ξ (M j )
ξ (Mi |x ) = Pq = Bji
j=1 ξ (Mj ) mj (x) j=1
ξ (M i )
mi (x) 1
ξ (Mi |x ) = m̄i (x) = Pq = Pq
j=1 m j (x) j=1 Bji
60 CAPÍTULO 6. INFERENCIA BAYESIANA
Uniforme:
1
m (x |MU ) = (n−1)
n(n − 1) x(n) − x(1)
Exponencial izquierda:
(n − 2)!
m (x |ML ) = (n−1)
nn x(n) − x̄
Exponencial derecha:
(n − 2)!
m (x |MR ) = (n−1)
nn x̄ − x(1)
6.5. LA APROXIMACIÓN BIC 61
p (D|M2 )
B12 = .
p (D|M1 )
p(z, x)
p (z|x) =
p(x)
R
ΘR
p(z, x, θ) dθ
=
p(x, θ) θ
R Θ
ΘR
p(z, x|θ)ξ(θ) dθ
=
p(x|θ)ξ(θ) θ
R Θ
Θ R
p(z|θ)p(x|θ)ξ(θ) dθ
=
Θ
p(x|θ)ξ(θ) θ
Z
p(x|θ)ξ(θ)
= p(z|θ) R dθ
Θ Θ
p(x|θ)ξ(θ) θ
Z
= p(z|θ)ξ (θ|x) dθ
Ası́
Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
= Eθ|x [p(z|θ)]
65
66 CAPÍTULO 7. INFERENCIA PREDICTIVA
Ahora
p(z|π) = π z (1 − π)1−z , z = 0, 1,
y
P P
xi +α−1
ξ(π|x) ∝ π (1 − π)n− xi +β−1
P P
Ahora, si denotamos por α∗ = xi + α y β ∗ = n − xi + β tenemos que
Z 1
Γ(n + α + β) z+α∗ −1 ∗
p(z|x) = ∗ ∗
π (1 − π)β +1−z−1 dπ
0 Γ(α )Γ(β )
Γ(n + α + β) Γ(z + α∗ )Γ(1 − z + β ∗ )
=
Γ(α∗ )Γ(β ∗ ) Γ(n + α + β + 1)
Ası́
Γ(n + α + β)Γ(1 + β ∗ )
P (z = 0|x) =
Γ(β ∗ )Γ(n + α + β + 1)
β∗
=
n+α+β
β∗
=
α∗ + β ∗
y
α∗
P (z = 1|x) =
α∗ + β∗
P (z = 1|x) = E(π|x),
la media posterior.
67
θz e−θ
p(z|x) =
z!
Ası́
Z ∞ ∗
θz e−θ (β ∗ )α −β ∗ θ
p(z|x) = e dθ
0 z! Γ (α∗ )
∗ Z ∞
(β ∗ )α ∗ ∗
= ∗
θz+α −1 e−(β +1)θ dθ
z!Γ (α ) 0
∗
(β ∗ )α Γ (z + α∗ )
= ∗
z!Γ (α ) (β ∗ + 1)(z+α∗ )
α∗ z
z + α∗ − 1 β∗ 1
=
z β∗ + 1 β∗ + 1
para z = 0, 1, 2, · · · Por lo tanto
1
z|x ∼ Binomial − N egativa α∗ ,
β∗ + 1
Z (Z a(x,n)+l
)
ξ(θ|x) dθ f (x) dx ≥ 1 − α
X a(x,n)
Z a(x,n)+l′ (x,n)
ξ(θ|x) dθ = 1 − α
a(x,n)
Criterio del Peor Resultado (WOC): Otra aproximación es definir una lon-
gitud máxima permisible l y una probabilidad de cobertura mı́nima de
1 − α, no importa qué datos tengamos. Debemos escoger el mı́nimo valor
de n tal que
(Z )
a(x,n)+l
ı́nf ξ(θ|x) dθ ≥1−α
x∈X a(x,n)
Capı́tulo 8
WinBUGS
8.1. Introducción
Uno de los inconvenientes que han tenido los métodos bayesianos para ser
utilizados en la práctica ha sido la carencia de software especializado. Ninguno
de los grandes paquetes en estadı́stica, SAS, SPSS, etc., tienen módulos para
hacer estadı́stica bayesiana.
Existe un programa de acceso gratuito al público que permite utilizar simu-
lación estadı́stica basada en cadenas de Markov en una forma simple y efectiva
para gran variedad de modelos llamado BUGS, que es un acrónimo de Bayesian
analysis Using the Gibbs Sampler (Muestreador Gibbs, que lo veremos en un
capı́tulo posterior). Este programa está disponible en
http://www.mrc-bsu.cam.ac.uk/bugs
y para el entorno de Windows existe WinBUGS. Este programa fue de-
sarrollado por UK Medical Research Council y el Imperial College of Science,
Technology and Medicine.
Existen otros programas que permiten resolver problemas bayesianos como
el BACC, First Bayes, etc. El R trae algunas librerı́as con soluciones a ciertos
problemas especı́ficos, por ejemplo la MCMCPack y CODA.
69
70 CAPÍTULO 8. WINBUGS
5. Para los modelos no incluidos, debe ser fácil la inclusión de los simuladores
posteriores que se necesitan por parte del usuario.
10. Todo lo anterior debe poderse llevar a cabo de una manera simple, trans-
parente y conveniente para el usuario.
1. Los comandos anteriores los escribimos en una ventana que abrimos se-
leccionando File y luego New. Si usted ya tiene algún archivo con un
programa creado y salvado con anterioridad en formato .odc puede abrirlo
para trabajar con él.
Si seleccionamos New el programa muestra una ventana en blanco en la
cual podemos escribir los comados apropiados, como los que se encuentran
enseguida. Con el cursor seleccionamos toda la parte correspondiente al
modelo y seleccionamos Edit y luego Copy.
Figura 8.1: Pantalla al iniciar el programa. Aparece una ventana con la nota
sobre el Copyright.
72 CAPÍTULO 8. WINBUGS
list(Y = c(24.2,25.4,25.0,25.9,25.5,24.4), N = 6)
Figura 8.2: Tenemos la panatalla para los pasos de definición del modelo.
74 CAPÍTULO 8. WINBUGS
check model:
8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 75
load data:
compile:
load inits:
gen inits:
num of chains:
for chain:
Update
Este comando se activa una vez el modelo ha sido compilado e inicializado.
El produce la ventana Update Tool con los siguientes comandos:
8.4.2. Inference
La opción Inference tiene varias opciones, pero la más importante
es Samples.
Samples...: Bajo este comando aparece una ventana con tı́tulo Sam-
ple Monitor Tool. Contiene los siguientes campos:
percentiles:
set: Debe utilizarse para empezar a guardar los valores para una
variable.
78 CAPÍTULO 8. WINBUGS
coda: Produce una representación ASCII del proceso para ser reanalizada
con CODA.
quantiles:
GR diag: Calcula el estadı́stico para convergencia de Gelman-Rubin.
Correlations:
8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 79
Control
Predicción
81
82 CAPÍTULO 9. MODELOS LINEALES
E [Y |X = x] = µY |X=x = β0 + β1 x
Yi = β0 + β1 Xi + ei
Supuestos:
a ) ei ∼ N ormal 0, σ 2 , varianza constante (homoscedasticidad)
b ) Cov (ei , ej ) = 0 para todo i 6= j
Notación:
yi = Yi − Ȳ
xi = Xi − X̄
Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ei
donde
9.1. LA REGRESIÓN CLÁSICA 83
e: Error aleatorio
a ) E (e; ) = 0
b ) V ar (e; ) = σe2
Y ∼ N β0 + β1 X1 + · · · + βk Xk , σ 2
Condicion
Cov (Yi , Yj ) = 0 para todo i 6= j
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βk Xik + ei para i = 1, 2, · · · , n
el modelo aplicado al i-ésimo punto
Para las n observaciones tenemos
ˆ −1 T
Si β̂ denota el estimador de β, se puede mostrar que β̂ = X T X X Y.
Este es el estimador de máxima verosimilitud y coincide con el estimador de
mı́nimos cuadrados. Ŷ = X β̂ son los valores de la respuesta predichos por el
modelo estimado. Ŷ es el estimador de E[Y |X] y los residuales están dados por
e = Y − Ŷ . La predicción para una observación X 0 tenemos Ŷ0 = X T0 β̂
84 CAPÍTULO 9. MODELOS LINEALES
X ′ X b̂ = X ′ y
Estas son conocidas como las ecuaciones normales. Si X es una matriz de rango
completo, entonces X ′ X es no singular, y llegamos a la solución bien conocida
b̂ = (X ′ X)−1 X ′ y.
donde
−1
β1 = τ + X ′X τ µ + X ′y
1 ′ ′
β1 = β+ (y − Xβ 1 ) y + (µ − β 1 ) τ µ
2
Por lo tanto
86 CAPÍTULO 9. MODELOS LINEALES
2
2 −n/2 1 ′
L β, σ | y = 2πσ exp − 2 (y − Xβ) (y − Xβ)
2σ
2
−n/2 1 ′
= 2πσ exp − 2 y − Xβ̂ y − Xβ̂
2σ
1 ′
′
× exp − 2 β − β̂ X X β − β̂
2σ
−1
donde β̂ = (X′ X) X′ y, el estimador de mı́nimos cuadrados y utilizamos el
hecho que
′
−1
y − Xβ̂ X β − β̂ = y′ I − X (X′ X) X′ X β − β̂
= y′ (X − X) β − β̂ = 0.
′
Por lo tanto se concluye que S = y − Xβ̂ y − Xβ̂ , X′ X y β̂ son estadı́sti-
cos suficientes para β y σ 2 .
1 Un vector aleatorio X se dice que tiene una distribución t multivaiable con n grados de
−(n−k−2)/2−1 1 ′
L β, σ 2 | y ∝ σ2 exp − 2 y − Xβ̂ y − Xβ̂
2σ
′
−k/2 1
× σ2 exp − 2 β − β̂ X′ X β − β̂
2σ
β | σ2 ∼ N β0 , σ 2 M−1
0
σ2 ∼ IG2 (S0 , v0 )
tenemos
2
2 −(n−k−2)/2−1 S 1 ′
′
ξ β, σ | y ∝ σ exp − 2 exp − 2 β − β̂ X X β − β̂
2σ 2σ
2
−v 0 /2−1 S 0 2
−k/2 1 ′
× σ exp − 2 σ exp − 2 (β − β0 ) M0 (β − β0 )
2σ 2σ
−(v +n)/2−1 S 1
= σ2
0
exp − 2
2σ
2 −k/2 1 ′
× σ exp − 2 (β − β1 ) M1 (β − β1 )
2σ
donde
M1 = M0 + X′ X
β1 = M−1
1 M 0 β0 + X ′
X β̂
S1 = S0 + S + Sβ
′ h i
−1 −1
Sβ = β0 − β̂ M−1 ′
0 + (X X) β0 − β̂
h i
−1 −1 −1
(M0 + (X′ X)) = M−1
0 − M−1
0 M−1
0 + (X ′
X) M−1
0
88 CAPÍTULO 9. MODELOS LINEALES
h i
−1 −1 −1 −1 −1
= (X′ X) − (X′ X) M−1
0 + (X ′
X) (X′ X)
h i
−1 −1 −1
(X′ X) M0 + (X′ X) M0 = M−1 ′ ′
0 (M0 + (X X)) (X X)
h i
−1 −1
= M−1 ′
0 + (X X)
β | y, σ 2 ∼ N β1 , σ 2 M−1
1
σ2 | y ∼ IG2 (S1 , v1 )
donde v1 = v0 + n.
La distribución marginal posterior para β es una t multivariable. Si integramos
para eliminar σ 2 de la distribución conjunta posterior obtenemos el kernel de la
marginal posterior como
′ −(v1+k)/2
ξ (β | y) ∝ S1 + (β − β1 ) M1 (β − β1 )
Este es el kernel de la distribución t multidimensional con v1 grados de libertad
y parámetros de escala S1 y M1 , y denotado por
β | y ∼ tk (β1 , S1 , M1 , v1 )
βa
β =
βb
Maa Mab
M−1 =
Mba Mbb
Ya que β es normal condicionado en σ 2 tenemos
β a | σ2 ∼ N ba , σ 2 Maa
−1 b −1 ba
β a | β b , σ2 ∼ N ba + Mab Mbb β − bb , σ 2 Maa − Mab Mbb M .
−1
βa ∼ tka ba , S, (Maa ) , v
−1 b −1 ba −1
βa | βb ∼ tka ba + Mab Mbb β − bb , S, Maa − Mab Mbb M ,v .
9.5. ANÁLISIS CONJUGADO 89
9.5.2. Inferencias
Intervalos de Probabilidad
βi − βi1
p
M1ii S1 /v1
tiene una distribución t estándar y una región de más alta probabilidad 1 − α
está dada por
q q
βi1 − tα/2,v1 M1ii S1 /v1 , βi1 + tα/2,v1 M1ii S1 /v1
y por lo tanto
′ −1
(δ − Rβ 1 + r) RM−1
1 R (δ − Rβ 1 + r) /q
∼ F(q,v1 )
S1 /v1
′ −1
(Rβ 1 − r) RM−1
1 R (Rβ 1 − r) /q
< F(q,v1 )
S1 /v1
y ∗ = X∗ β ∗ + ǫ
2
Bajo H2 , especificamos una apriori β | σ 2 ∼ N β0 , σ 2 M−1 0 , σ ∼ IG1 (S0 , v0 )
y el análisis es igual al anterior. El factor de Bayes será entonces
−1
∗ −1
tn X∗ β0∗ , S0 , ∗
I + X M0 X , v0 ∗′
B12 =
−1
tn Xβ0 , S0 , (I + XM0 ; −1X′ ) , v0
9.6. PRECIOS DE OFERTA DE VEHÍCULOS 91
Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8
9.7.
El modelo usual de regresión es
y = Xβ + ǫ, ǫ ∼ N (0, Σ) , β ∈ Rp
−(k+1)/2
ξ (β, Σ) |Σ|
Calidad de la construcción.
etc.
model
{
for( i in 1 : N ) {
Precio[i ] ~ dnorm(mu[i],tau)
mu[i] <- alpha + beta * (metros[i] - mean(metros[]))
}
tau ~ dgamma(0.001,0.001)
sigma <- 1 / sqrt(tau)
alpha ~ dnorm(0.0,1.0E-6)
error~dnorm(0,tau)
beta ~ dnorm(0.0,1.0E-6)
Precio175<-alpha+beta*(175-mean(metros[]))
9.7. 95
Precio175indi<-Precio175+error
for(i in 1:N){
PrecioIndi[i]<-alpha+beta*(metros[i]-mean(metros[]))+error
}
}
list(N=25, Precio=c(92,130,125,90,65, 130,110,120,89,145, 85,89,105,75,112,
112,125, 145,205,115, 105,89,150,89,108, 66,64,135,125,65), metros=c(113,140,140,110,69,
152,105,144,103,107, 112,103,120,86,143, 115,136.5,168.5,217,132.8,
120,108,220,110,228, 83,78,150,135,90))
list(tau=1,beta=0,alpha=0,error=0)
Ajustamos en R el modelo P recio = α + β M etros2 − M edia(M etros2 ) por
el método clásico (esto es, no bayesiano) y obtuvimos
Call:
lm(formula = Precio ~ Metros)
Residuals:
Min 1Q Median 3Q Max
-61.584 -8.028 -1.644 11.202 49.097
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.74757 12.44011 2.472 0.0198 *
Metros 0.60893 0.09303 6.546 4.27e-07 ***
9.7. 97
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
predict.lm(lm(Precio~Metros),data.frame(Metros=175),
interval=’prediction’)
fit lwr upr
[1,] 137.3109 95.13768 179.4841
> predict.lm(lm(Precio~Metros),data.frame(Metros=175),
interval=’confidence’)
fit lwr upr
[1,] 137.3109 125.6862 148.9355
Pd
recio = 30,7475 + 0,6089M etros2
′ 30,0 3838,8
XX=
3838,8 536471,3
“Es vano hacer con más lo que se puede hacer con menos”
Este ha sido un principio heurı́stico, pero ellos argumentan que puede ser justi-
ficado y aceptado bajo la escuela bayesiana.
Loredo (199*) habla de la Cuchilla de Occam Automtizada
Para probabilidades predictivas se prefieren modelos simples.
El Factor de Occam
Z
P (D|Mi ) = ξ (θi |M ) L(θi ) dθi
≈ xi θ̂i |M L(θ̂i ) δθi
δθi
≈ L(θ̂i )
∆θi
≈ Máxima Verosilitud × Factor de Occam
Los modelos con más parámetros usualmente hacen que los datos produzcan un
mejor ajuste. El Factor de Occam penaliza los modelos por el “volumen” del
espacio parametral desperdiciado.
No existen reglas rı́gidas que se deban seguir en el proceso de modelación, más
bien lo que se presenta a continuación nace más bien de la experiencia:
Y0 − β̂0
X̂0 = con β̂1 6= 0
β̂1
y1i = β1 + β2 xi + ǫ1i i = 1, · · · , n
y2j = β1 + β2 x + ǫ2j j = 1, · · · , m
donde los ǫ1i ’s y los ǫ1j ’s están mutua e independientemente distribuidas N 0, σ 2 .
Se asume que x1 , · · · , xn son constantes conocidas, y que β1 , β2 , σ 2 y x son
desconocidas. El problema es realizar inferencias con respecto a x basados en
y11 , · · · , y1n , y21 , · · · , y2m . Sin pérdida de generalidad se asume que las xi ’s son
seleccionadas tal que
X P 2
i xi
xi = 0, =1
i
n
model
{
for( i in 1 : N ) {
85,89,105,75,112,
112,125, 145,205,115,
105,89,150,89,
66,64,135,125,65),
metros=c(113,140,140,110,69,
152,105,144,103,107,
112,103,120,86,143,
115,136.5,168.5,217,132.8,
120,108,220,110,
83,78,150,135,90))
list(tau=1,beta=0.5,alpha=0)
El modelo clásico asume que la media E (Yi ) = µ′ (θi ) está relacionada al inter-
cepto β0 y al vector de parámetros de las covariables β a través de una función de
encadenamiento monótona y diferenciable, y el espacio parametral no es vacı́o.
103
104 CAPÍTULO 10. MODELO LINEAL GENERALIZADO
πi
log = xTi β
1 − πi
N
Y ni (1−yi )
L(β) = πini yi (1 − πi )
i=1
donde
exp xTi β
πi =
1 + exp xTi β
ξ (β|y) ∝ ξ(β)L(β)
10.1. MODELO LOGÍSTICO 105
Para el linkeo logı́stico, esta apriori sobre {πi } es equivalente a una apriori sobre
β que es de la misma forma que la verosimilitud con “observaciones apriori”
{(mi , wi , xi )}. Esta es llamada una apriori de datos aumentados (ADA). Es
fácil actualizar la densidad aposteriori de β utilizando esta forma de distribución
apriori. La densidad posterior es proporcional a
N
Y k
Y
ni (1−yi ) wi (1−mi )−1
ξ (β|y) ∝ πini yi (1 − πi ) πiwi mi −1 (1 − πi )
i=1 i=1
Duración de Retinopatı́a
la Diabetes Datos Previos Datos Actuales
z Si No Si No
0-2 (1) 17 215 46 290
3-5 (4) 26 218 52 211
6-8 (7) 39 137 44 134
9-11 (10) 27 62 54 91
12-14 (13) 35 36 38 53
15-17 (16) 37 16 39 42
18-20 (19) 26 13 23 23
21+ (24) 23 15 52 32
106 CAPÍTULO 10. MODELO LINEAL GENERALIZADO
Un análisis que se realizó tomó como información apriori la generada por los
estimadores de máxima verosimilitud de generada por los datos previos
−3,17
β o = +0,33
−0,007
638,0
D o = 10−4 −111,0 24,1
3,9 −0,9 0,04
y se consideró como la distribución apriori de β la normal trivariable N (β o , D o ).
Por lo tanto con los datos presentes la distribución aposteriori de β será pro-
porcional a
X8
1 ′
ξ (β|Datos) ∝ exp − (β o ) D −1 o (β o ) {x1j log (ηj ) − (x1j + x2j ) log (1 + eηj )}
2 j=1
donde x1j y x2j son los números actuales en cada categorı́a de edad con o sin
retinopatı́a. Para obtener la constante de normalización se necesita una inte-
gración numérica tridimensional.
Dellaporta y Smith (1993) comentan que Knuiman y Speed optaron por una
aproximación normal basados en la moda posterior, una solución de
∂
log (β|Datos) = 0
∂β
y una medida de dispersión dada por la matriz
−1
∂ 2 {log (β|Datos)}
D (β) = −
∂β ∂β ′
evaluada en la moda posterior
−2,37
β = +0,21
−0,004
207,0
D = 10−4 −36,0 8,1
1,2 −0,3 0,01
10.1. MODELO LOGÍSTICO 107
201,0
D ∗ = 10−4 −35,7 7,9
1,2 −0,3 0,01
{
for( i in 1 : N ) {
r[i] ~ dbin(p[i],n[i])
logit(p[i]) <- alpha.star + beta * (x[i] - mean(x[]))
rhat[i] <- n[i] * p[i]
}
alpha <- alpha.star - beta * mean(x[])
beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)
}
list( x = c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,
14.33,14.58,14.83,15.08,15.33,15.58),
n = c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94),
r = c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92), N =20)
list(alpha.star=0, beta=0)
Procedimiento Clásico en R
>edad<- c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33, 13.58,13.83,14.08,14.33,14.58,
14.83,15.08,15.33,15.58)
108 CAPÍTULO 10. MODELO LINEAL GENERALIZADO
>exitos<-c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92)
>n<-c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94)
>summary(glm(cbind(exitos,n-exitos) edad,family=’binomial’))
Call:
Deviance Residuals:
Min 1Q Median 3Q Max
-1.2267 -0.8613 -0.3124 0.7507 1.2841
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.46917 0.83475 -24.52 <2e-16 ***
edad 1.57545 0.06379 24.70 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
extraña puede explicarse por un número grande de factores, por ejemplo, clima,
salubridad, educación, etc. El número de defectos que aparece en cierto rollo de
tela depende de la longitud del rollo, época de elaboración. Es común asumir
una respuesta poissoniana, que perteneciendo a la familia exponencial puede
resolverse con la metodologı́a que estamos desarrollando.
Yi ∼ P oisson(λi )
e−λi λyi i
f (yi ; λi ) =
yi !
= exp (yi log λi − λi − log(yi !))
= exp (yi θi − λi − log(yi !))
donde
θi = log(λi )
E[yi ] = λi
var[yi ] = λi
se reduce a
n
X
(yi − λi )xij = 0
i=1
ya que
2
1
∂λi
wi = = λi
∂ηi
var(yi )
−1
la matriz de covarianza estimada de β̂ es X ′ Ŵ X c es la matriz
donde W
diagonal con elementos de λ̂ en la diagonal principal.
110 CAPÍTULO 10. MODELO LINEAL GENERALIZADO
model
{
for( i in 1 : N ) {
NHIJOS[i] ~ dpois(media[i])
log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))
}
alpha <- alpha.star - beta * mean(TPOCAS[])
beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)
}
list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,
5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,
24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,
2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,
4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,
5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,
46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,
5,36,31,0),
NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,3,1,1,
1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,2,4,9,0,
0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,2,2,0,1,
1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,2,3,2,2,
0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,2,3,1,2,
2,0,4,0,1,2,1,3,2,0))
list(alpha.star=0, beta=0)
> nrohijos<-c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,
3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,
2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,
3,2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,
2,2,2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,
2,1,2,2,3,1,2,2,0,4,0,1,2,1,3,2,0)
> tpocasados<-c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,5,4,
3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,24,8,
4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,2,25,20,
28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,4,11,4,14,
29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,5,10,24,12,
12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,46,6,8,13,12,
24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,5,36,31,0)
> summary(glm(nrohijos~tpocasados,family=’poisson’))
Call:
glm(formula = nrohijos ~ tpocasados, family = "poisson")
Deviance Residuals:
Min 1Q Median 3Q Max
-2.02693 -0.54123 -0.06717 0.43187 2.09419
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.105135 0.102899 -1.022 0.307
tpocasados 0.042891 0.003568 12.020 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
si es menor que 1.
model
{
for( i in 1 : N ) {
NHIJOS[i] ~ dpois(media[i])
log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))
+ tau*TPOCAS[i]
list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,
9,5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,
27,24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,
4,2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,
27,4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,
16,4,5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,
16,6,46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,
12,5,36,31,0), NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,
3,2,2,3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,
0,2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,
2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,
2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,
2,3,1,2,2,0,4,0,1,2,1,3,2,0))
∂ 2 log (f (x))
H = (Hij (x)) , Hij (x) =
∂xi ∂xj
g(µ) = log(µ)
g(µ) = log(µ)
Este capı́tulo está basado en la revisión de Casella (1985). Este método fue prop-
uesto por Robbins en 1955 (Miller, 1989), también conocida como Estadı́stica
Bayesiana Empı́rica Noparamétrica, ya que dejaba inespecificada la distribución
apriori. La estadı́stica Bayesiana Empı́rica Paramétrica es un hı́brido que asume
la existencia de datos previos para estimar los parámetros de f (θ).
Supongamos que tenemos p variables observadas, cada una de ellas de una
población normal
Xi ∼ N µ, σ 2 para i = 1, · · · , p.
El
115
116 CAPÍTULO 11. ESTADÍSTICA BAYESIANA EMPÍRICA
Capı́tulo 12
Análisis Multivariable
ξ (µ) ∝ 1
−(p+1)/2
ξ (Σ) ∝ |Σ|
−(p+1)/2
ξ (µ, Σ) = ξ (µ) ξ (Σ) ∝ |Σ|
Definamos
n
1X
Ȳ = Yi
n i=1
n
X ′
S = Y i − Ȳ Y i − Ȳ
i=1
117
118 CAPÍTULO 12. ANÁLISIS MULTIVARIABLE
y de donde se desprende
1
µ|Σ, Y ∼ Np Ȳ , Σ
n
Σ|Y ∼ W −1 (S, p, n − p)
119
120 CAPÍTULO 13. DATOS CATEGÓRICOS
1
π̂ = n
N
−1 −1 !
n−y+1 n−y
1+ , 1+
yF2y,2(n−y+1),1−α/2 (y + 1)F2(y+1),2(n−y),α/2
Bootstrap
ni
π̂i = i = 1, 2, · · · , k
n
n oM
c) Para cada π̂ij , construya un histograma y calcule los per-
j=1
centiles .025/(k-1) y 0.975/(k-1), denotémoslos por π̂i0,025 y π̂i0,975
La siguiente tabla presenta los datos sobre el tipo de sangre en una muestra de
personas de la región central y oriental de Antioquia
122 CAPÍTULO 13. DATOS CATEGÓRICOS
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
Intervalos simultáneos: TCL
0.556465534 0.270242626 0.003511297 0.051322879
0.64353447 0.35254218 0.02433680 0.09804421
Intervalos simultáneos: Quesenberry y Hurst
0.53763946 0.25675391 0.00505438 0.04795771
0.65927993 0.37184116 0.03776781 0.11451171
Intervalos simultáneos Bootstrap
0.625 % 0.5509415 0.2746835 0.005063291 0.05094146
99.375 % 0.6414636 0.3518987 0.026582278 0.09842563
Intervalos simultáneos: Sison y Glaz
0.5658 0.2772 0.0000 0.0405
0.6363 0.3477 0.0502 0.1109
Intervalos simultáneos: Sison y Glaz II
0.5646 0.2759 -0.0215 0.0392
0.6354 0.3465 0.0494 0.1101
list(k=4,NN=790,n=c(474,246,11,59), alfa=c(1,1,1,1))
model
{
p[1:k]~ddirch(alfa[])
n[1:k]~dmulti(p[],NN)
(AP + sp − 1)
prevalencia verdadera = .
(se + sp − 1)
sp ∼ beta(9999, 1).
a) MODELO
Model {
for(i in 1:1){
y[i] ~ dbin(ap[i],n[i])
ap[i] <- se*pi+(1-sp)*(1-pi)
}
se ~ dbeta(8, 8)
sp ~ dbeta(9999, 1)
pi ~ dbeta(1, 1)
pvn <- sp*(1-pi)/((1-se)*pi+sp*(1-pi))
pvp <- se*pi/(se*pi+(1-sp)*(1-pi))
OneMinusPVN <- 1-pvn
}
b) DATOS
list(y=c(0),n=c(100))
c) RESULTADOS
Fisher (1962) la llama Razón del Producto Cruzado. Un problema con este es-
timador es la presencia de ceros en las celdas, ya que puede convertirse en una
forma indeterminada.
Troendle y Frank (2001) presentan una aproximación bayesiana para trabajar
la razón de odds. Asumamos que π1 y π2 son variables aleatorias independientes
condistribuciones apriori uniformes en (0, 1). Consideremos las variables x y y
distribuidas binomialmente con parámetros n1 , π1 , y n2 , π2 , respectivamente.
La distribución de ψ dado el vector de observaciones (x, y) es
RR
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
ξ (θ|x, y) = R 1 RR1
0 0
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
donde
w(1 − z)
R= (w, z) ∈ (0, 1)2 : ≤θ
z(1 − w)
Esta región puede representarse como
w
R = (w, z) ∈ (0, 1)2 : z ≥
w + θ − θw
Ası́ tenemos
R1R1
0 w wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
w+θ−θw
ξ (θ|x, y) = R1R1
0 0
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
=
(n1 − m2 )! (n2 − m2 )!m2 ! (N − n1 − n2 + m2 )!
Este es conocido como el modelo Lincoln-Peterson (Brroks et al. 199*). El esti-
mador de máxima verosimilitud para el tamaño poblacional es
n1 n2
N̂ =
m2
N −n1
ξ (π1 |π2 , N, n1 , n2 , m2 ) ∝ ξ (π1 ) π1n1 (1 − π1 )
β−1 N −n1
ξ (π1 |π2 , N, n1 , n2 , m2 ) ∝ π1α−1 (1 − π1 ) π1n1 (1 − π1 )
∝ Beta (α + n1 , β + N − n1 )
128 CAPÍTULO 13. DATOS CATEGÓRICOS
Capı́tulo 14
Métodos Computacionales
Tratamiento
Bloqueador Beta Placebo
Total Muertos Total Muertos
26 3 23 4
47 1 48 6
46 3 35 1
33 1 15 1
35 2 71 4
73 3 187 6
238 29 242 24
698 18
129
130 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
αj ∼ σGamma (dα )
βj ∼ σGamma (dβ )
αj
λ1j = (La media)
αj + βj
λ2j = αj + βj (La precisión)
ξ (π, α, β|y, n, dα , dβ , σ) =
15
zZ }| Z{
Q2 QIj
··· j=1 i=1 f (yij |nij , πij , αj , βj ) ξ (π, α, β|dα , dβ , σ) dy
Z Z
Q2 QIj
··· j=1 i=1 f (yij |nij , πij , αj , βj ) ξ (π, α, β|dα , dβ , σ) dy dπ dα dβ
| {z }
34
que no es una densidad de probabilidad en sı́ misma, sino que debe ajustarse
por un factor que se calcula como
131
Z
L (θ|Datos) ξ (θ) dθ
Θ
R
1 X
Φ̂ = h (θ r )
R r=1
R
Es claro que i los vectores {θ r }r=1 corresponden a una muestra de F (θ),
h si
entonces E Φ̂ = Φ. También, a medida queR se incrementa la varianza de Φ̂
disminuye ya que es σ 2 /R, donde σ 2 es la varianza de h(θ).
De lo anterior se desprende una propiedad importante del método Monte Carlo:
la exactitud de la estimación Monte Carlo no depende de la dimensionalidad del
espacio muestreado. La varianza de Φ̂ es siempre σ 2 /R. En teorı́a si tenemos una
muestra aún pequeña de observaciones independientes podemos obtener una es-
timación buena de Φ. El problema está en que obtener muestras independientes
de F puede no ser una tarea fácil.
Asumamos que la densidad de la cual deseamos obtener muestras es la cor-
respondiente a la distribución aposteriori de un parámetro de un experimento
exponencial, digamos λ para el cual la única información apriori que disponi-
amos era que λ ∼ U (0, 5). Se obtuvieron cinco muestras con resultados x1 =
1, x2 = 1, x3 = 4, x4 = 2, x5 = 3. Por lo tanto la distrribución posterior será
y
p∗
pi =
Z
y nuestreamos de la distribución de probabilidad {pi }. Cuál es el costo de este
procedimiento? Para poder calcular Z se requiere visitar cada punto en la dis-
cretización. En nuestro caso la dimensión del espacio era uno, pero si el espacio
tuviera dimensión 100, el número de puntos a visitar serı́a 50100 . Un número
inmenso de visitas.
p∗ (θ)
p(θ) =
Z
donde Z es una constante de normalización.
Supongamos que muestrear directamente de p(θ) es muy complicado. Ahora
asumamos quen existe una distribución q(θ) de la cual sabemos es fácil muestrear
y que tiene el mismo soporte que p. La densidad q es llamada la densidad
muestreadora.
En el muestreo de importancia procedemos ası́:
R
1 X
Φ̂ = h (θ r )
R r=1
Los métodos MCMC son algoritmos iterativos que se utilizan cuando el muestreo
directo de una distribución de interés ξ no es factible.
Una cadena de Markov es generada muestreando
θ (t+1) ∼ p θ|θ (t)
c) Calcule
∗ ξ (θ ∗ ) q (θ|θ ∗ )
α (θ, θ ) = mı́n 1,
ξ (θ) q (θ ∗ |θ)
Note que la densidad objetivo ξ solo entra en al proceso a través del cociente
∗
ξ (θ )
y por lo tanto no hay necesidad de conocer la constante de normalización
ξ (θ )
para implementar el algoritmo.
Casos especiales:
El Algoritmo Metropolis
q (θ|θ ∗ ) = q (θ ∗ |θ) ,
q (θ|θ ∗ )
= 1,
q (θ ∗ |θ)
b) El Algoritmo Metropolis
Genere un vector de candidatos nuevo β1′ , β2′ , σ 2′ de una distribu-
ción conocida y fácil de usar
q β1 , β2 , σ 2 |β1′ , β2′ , σ 2′
Condición
Cáncer Control Total
Fumador Sı́ 83 72 155
No 3 14 17
Total 86 86 192
83 72 3 14
L (πL , πC ) = πL (1 − πL ) πC (1 − πC ) , 0 < πL , πC < 1
c) Calcule
!
(t) (t)
(t) πL /(1 − πL )
λ = log (t) (t)
πC /(1 − πC )
Recomendaciones
Esta parte está basada en Casella y George (1992). Supongamos el caso de una
tabla 2 × 2 bajo un esquema de muestreo multinomial.
X
0 1 Marginal de Y
Y 0 p1 p2 p1 + p2
1 p3 p4 p3 + p4
Marginal de X p1 + p3 p2 + p4 1
La distribución condicional de Y |X = x es
p1 p3
p1 +p3 p1 +p3
Ay|x = p2 p4
p2 +p4 p2 +p4
Las matrices Ay|x y Ax|y pueden pensarse como las matrices de transición de
alcanzar un estado dado otro.
Si solo estamos interesados en generar la distribución marginal de X, entonces
empezando en X0 tenemos que pasar a través de Y1 para llegar a X1 , ya que
el proceso es X0 → Y1 → X1 , y X0 → X1 forma una cadena de Markov con
probabilidad de transición
X
P (X1 = x1 |X0 = x0 ) = P (X1 = x1 |X0 = y) P (Y1 = y|X0 = x0 )
y
k
fk = f0 Ax|x = fk−1 Ax|x
f Ax|x = f
1 si la muestra prueba positivo
T =
0 en caso contrario
Denotemos por
π = P (D = 1) = prevalencia
τ = P (T = 1)
Sensitividad: η = P (T = 1|D = 1)
Especificidad: θ = P (T = 0|D = 0)
π = P (D = 1) = P (D = 1, T = 1) + P (D = 1, T = 0)
Este proceso se estabilizará en el lı́mite. Ası́ obtenemos D(1), D(2), D(3), · · · , D(M1 )
como valores iniciales de “quemado” (se descartan), donde M1 es un valor
“grande” para lograr estabilidad, y de ahı́ en adelante obtenemos D(M1 +
1), D(M1 + 2), D(M1 + 3), · · · , D(M2 ) de la distribución estable.
Finalmente, estimamos π como la proporción de pasos para los cuales D(m) = 1.
142 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
P (Y = 0) = ω + (1 − ω)P (X = 0)
P (Y = j) = (1 − ω)P (X = j) , j = 1, 2, 3, · · ·
Cuando 0 < ω < 1 el modelo tiene más ceros. Si ω < 0 el modelo tiene menos
ceros.
Un caso de especial importancia es cuando X ∼ P oisson(λ). La versoimilitud
en este caso es
n
Y
L(ω, λ) = P (Yi = yi )
i=1
Yn n o
I(yi =0) 1−I(yi =0)
= (P (Yi = 0)) (P (Yi = yi ))
i=1
( )
n
Y yi −λ 1−I(yi =0)
I(y =0) λ e
ω + (1 − ω)e−λ
i
= (1 − ω)
i=1
yi !
ξ(ω, λ) ∝ L(ω, λ)
Gupta et al. (1996) hacen referencia a los datos analizados por Leroux y Puter-
man en 1992 sobre movimientos fetales. Estos datos se recogieron en un estudio
sobre respiración y movimiento corporal en fetos de ovejas diseñado para ex-
aminar los posibles cambios en el patrón de la actividad fetal durante las dos
terceras partes del perı́odo de gestación. El número de movimientos efectuados
por el feto fue registrado por ultrasonido. Se analizaron los conteos del número
de movimientos en una sucesión particular de 240 intervalos de a 5 segundos.
Número de movimientos 0 1 2 3 4 5 6 7
Número de movimientos 182 41 12 2 2 0 0 1
L<-function(omega,lambda,y){
indicador<-ifelse(y==0,1,0)
14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 143
prod1<-prod((omega+(1-omega)*exp(-lambda))^indicador)
prod2<-prod(((1-omega)*exp(-lambda))^(1-indicador)
*lambda^(y*(1-indicador)))
productoria<-prod1*prod2
productoria
}
muestreadora<-function(teta.viejo){
omega<-teta.viejo[1]
lambda<-teta.viejo[2]
valor.negativo<-1
while(valor.negativo==1){
nuevo1<-rnorm(1,mean=omega)
if(nuevo1>0 & nuevo1<1) valor.negativo<-0
}
valor.negativo<-1
while(valor.negativo==1){
nuevo2<-rnorm(1,mean=lambda)
if(nuevo2>0 ) valor.negativo<-0
}
teta.nuevo<-c(nuevo1,nuevo2)
teta.nuevo }
qmuestreadora<-function(nuevo,viejo,y){
omega1<-viejo[1]
omega2<-nuevo[1]
lambda2<-nuevo[2]
lambda1<-viejo[2]
resultado<-(dnorm(omega1)*dnorm(lambda1))
/(dnorm(omega2)*dnorm(lambda2))
resultado<-resultado*L(omega2,lambda2,y)
/L(omega1,lambda1,y)
resultado<-min(1,resultado)
resultado
}
DATOS
>y<-c(rep(0,182),rep(1,41),rep(2,12),3,3,4,4,7)
VALOR INICIAL
>viejo<-c(0.05,1)
14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 145
>nuevo<-muestreadora(viejo)
>nuevo
[1] 0.8752859 0.2031465
>qmuestreadora(nuevo,viejo,y)
[1] 1.966996e-16
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 2.728314e-12
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1 ESTE VALOR SE ACEPTA
>nuevo
[1] 0.4595973 0.5060316
>viejo<-nuevo
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 0.03142081
>runif(1)
[1] 0.2793600
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 6.851616e-05
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 3.287750e-64
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1.64309e-14
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 2.542491e-106
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1 ESTE VALOR SE ACEPTA
>nuevo
[1] 0.5490383 0.6058326
>viejo<-nuevo
>nuevo<-muestreadora(viejo)
>qmuestreadora(nuevo,viejo,y)
[1] 1 ESTE VALOR SE ACEPTA
>nuevo
[1] 0.5416923 0.6257388
>viejo<-nuevo
>nuevo<-muestreadora(viejo)
146 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
a) Saque x ∗∼ g(x)
b) Saque x ∗∼ f (y|x∗ )
Repita los pasos m veces. Los pares (x1 , y1 ), · · · , (xm , ym ) forman una mues-
tra aleatoria de la densidad conjunta h(x, y) = f (y|x) g(x). Las cantidades
y1 , · · · , ym forman una muestra aleatoria de la marginal J(y).
En una cadena irreducible todos los estados tienen el mismo perı́odo. Si ese
perı́odo es d = 1, la cadena de Markov es aperiódica.
Xn → X ∼ π
n
1X
h (Xi ) → Eπ [h(X)]
n i=1
(i+1) (i+1) (i) (i)
Muestree X2 de p X2 X1 , X3 · · · , Xd
..
.
(i+1) (i+1),···,Xd−1
(i+1)
Muestree Xd de p Xd X1
148 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
Definición 14.6 Decimos que dos cadenas están acopladas si ellas utilizan la
misma sucesión de números aleatorios para las transiciones.
P !
2
2 −α−n/2−1 β κ(µ − ξ)2 (Yi − µ)
ξ (µ, σ|Y ) ∝ σ exp − 2 − −
σ 2 2σ 2
Y X
f (Y |ρ, κ) = κm ρmk Yiκ−1 exp −ρκ Yiκ
U
Q
donde m y U son el número y el producto sobre las observaciones sin censura.
Supongamos distribuciones apriori independientes Gamma para ρ y κ:
X
ξ (ρ|κ) ∝ ρmk exp −ρκ Yiκ ρα−1 e−βρ
Y X
ξ (κ|ρ) ∝ κm ρmk Yiκ−1 exp −ρκ Yiκ κγ−1 e−δκ
U
Tiene una forma estándar difı́cil de trabajar con el muestreador de Gibbs, ası́ que
se recurre al Metropolis o Hastings.
Un MCMC fácilmente implementable como:
alterne entre ρ y κ
proponga un nuevo valor de una distribución simétrica alrededor del valor
actual.
rechácelo si está por fuera del rango,
acéptelo con probabilidad mı́n {1, ξ (ρ′ |κ) /ξ (ρ|κ)}
14.5. Algoritmo E − M
Esta es una técnica para obtener los estimadores de máxima verosimilitud, de-
sarrollada originalmente en el contextod edatos faltantes. Defina
Z
Q θ(t) , θ = ln (p (θ|Yobs , Yperd )) f Yper |Yobs , θ(t) dYperd
donde
Los y ∗ son tratados como datos perdidos. La estimación se puede realizar me-
diante el algoritmo E − M :
n
n 1X ∗ 2
ln (p (β|X, y, y ∗ )) = − ln(2π) − (y − x′i β)
2 2 i=1 i
n 1 X h ∗
n i2
(t)
Q β, β = − ln(2π) − E (yi − x′i β) |yi , X, β (t)
2 2 i=1
152 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
n h i h i2
n 1X ∗ ′ (t) ∗ ′ (t)
= − ln(2π)− V ar (yi − xi β) |yi , X, β + E (yi − xi β) |yi , X, β
2 2 i=1
1 X h i h i2
n
n
=− ln(2π) − V ar yi∗ |yi , X, β (t) + E (yi∗ ) |yi , X, β (t) − x′i β
2 2 i=1
La estimación actual de β, β (t+1) , se encuentra maximizando Q β, β (t) con
respecto a β. Los términos varianza y la esperanza no involucran a β, y por lo
tanto
1 Xh ∗ i2
n
β (t+1) = mı́n E yi |yi , X, β (t) − x′i β
β 2 i=1
= (X ′ X)−1 X ′ E y ∗ |y, X, β (t)
donde
(t) −φi /Φi si yi = 0
Mi = Eβ (t) ǫi |yi , xi , β =
φi /(1 − Φi ) si yi = 1
Se recomienda como paso inicial generar cuatro gráficos para cada parámetro
considerado:
Diagnósticos CODA
La librerı́a del R CODA posee varios diagnósticos útiles para analizar los resul-
tados de una cadena, entre ellos:
Autocorrelaciones
σ̂ 2 = (n − 1)B/n + W/n
y varianza
V̂ = σ̂ 2 + B/(mn)
V̂
d=2
V ar(V̂ )
#
# Chained data augmentation - Example from Casella and George
#
nr <- 50
m <- 500
k <- 10
n <- 16
alpha <- 2.0
beta <- 4.0
lambda <- 16.0
maxn <- 24
betabinomial <- function(x,n,alpha,beta)
{
y <- log(choose(n,x))
y <- y + lgamma(alpha + beta) - lgamma(alpha) - lgamma(beta)
y <- y + lgamma(x + alpha) + lgamma(n - x + beta) -
lgamma(alpha + beta + n)
y <- exp(y)
return(y)
}
cat("\n")
cat("Based on ’Explaining the Gibbs sampler’, C. Casella \n")
cat("and E.I. George, Amer. Statist. 46 (3) (1992), 167-174. \n")
h <- rep(0,n+1)
fe <- rep(0,n+1)
for (i in 1:m)
{
156 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
y <- runif(1);
for (j in 1:k)
{
x <- rbinom(1,n,y)
newalpha <- x + alpha
newbeta <- n - x + beta
y <- rbeta(1,newalpha,newbeta)
}
for (t in 0:n)
{
if (t == x)
h[t+1] <- h[t+1] + 1
term <- choose(n,t)*exp(t*log(y)+(n-t)*log(1-y))
fe[t+1] <- fe[t+1] + term
}
}
cat("\n")
cat("Histogram (cf. Fig. 1)) \n")
cat(" t Obs Exp Diff Ratio Comp of X2 \n")
cat("\n")
x2h <- 0
bbe <- rep(0,n+1)
bb <- rep(0,n+1)
for (t in 0:n)
{
bbe[t+1] <- m*betabinomial(t,n,alpha,beta)
bb[t+1] <- round(bbe[t+1])
diff <- h[t+1] - bb[t+1]
ratio <- h[t+1]/bbe[t+1]
compx2 <- (h[t+1]-bbe[t+1])*(h[t+1]-bbe[t+1])/bbe[t+1]
x2h <- x2h + compx2
if (t < 10) cat(" ")
cat(" ",t," ")
if (h[t+1] < 10) cat(" ")
cat(h[t+1]," ")
if (bb[t+1]<10) cat(" ")
cat(bb[t+1]," ")
if (diff >= 0) cat(" ")
if (abs(diff) < 10) cat(" ")
cat(diff," ",ratio," ",compx2,"\n")
}
cat("\n")
cat("Chi-squared equals",x2h,"on",n,"degrees of freedom \n")
cat("\n")
cat("Estimated densities (cf. Fig. 3) \n")
cat("\n")
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 157
}
}
}
cat("\n\n")
cat("Histogram (n random) \n")
cat("\n")
cat(" t Obs Histogram \n")
cat("\n")
practmaxn <- 4*n/3
for (t in 0:(practmaxn+1))
{
if (t < 10) cat(" ")
cat(t," ")
if (hp[t+1] < 10) cat(" ")
cat(hp[t+1]," ")
if (hp[t+1] > 0)
for (j in 1:hp[t+1]) cat("*")
cat("\n")
}
cat("\n")
cat("Estimated densities (n random; cf. Fig. 5) \n")
cat("\n")
cat(" t Obs Estimate \n")
cat("\n")
x2f <- 0
fp <- rep(0,practmaxn)
for (t in 1:practmaxn)
{
fp[t+1] <- round(fep[t+1])
if (t < 10) cat(" ")
cat(t)
cat(" ")
if (fp[t+1] < 10) cat(" ")
cat(fp[t+1]," ")
if (fp[t+1] > 0)
for (j in 1:fp[t+1]) cat("*")
cat("\n")
}
#
# Change-point analysis of coal disaster data
#
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 159
x11(record=T)
m <- 2 # Number of replications
t <- 15 # Number of iterations
startyear <- 1851 # First year for which data is available
daytab <- c(0, 31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)
leaptab <- c(0, 31, 29, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)
i <- 1
while (yearday > tab[i])
{
yearday <- yearday - tab[i]
i <- i + 1
}
return(i-1)
}
{
L[k] <- exp((lambda-theta)*k+
(log(theta)-log(lambda))*cumsum(Y)[k])
}
# Find p(k | Y,theta,lambda,b1,b2) and cumulation thereof
p <- L/sum(L)
cumprob <- cumsum(p)
# Pick U at random between 0 and 1
U <- runif(1)
# Sample k | Y,theta,lambda,b1,b2
for (i in 1:n)
if ((cumprob[i] < U)&&(U <= cumprob[i+1])) k <- i
} # End iteration
pp <- pp + p/m
} # End replication
# Find posterior density and mean of k
year <- startyear:endyear
meandate <- sum((year+0.5)*pp)
# Print out results
for (i in 30:50) cat(startyear+i," ",pp[i],"\n")
cat("\n")
for (i in 30:50)
{
cat(startyear+i," ")
for (j in 1:80)
if (100*pp[i] > j) cat("*")
cat("\n")
}
cat("\n")
meanyear <- floor(meandate)
fracyear <- meandate - floor(meandate)
leap <- meanyear%%4 == 0 && meanyear%%100 != 0 || meanyear%%400 == 0
if (leap)
tab <- leaptab else
tab <- daytab
daysinyear <- if (leap) 366 else 365
remnant <- fracyear*(daysinyear)-cumsum(tab)
monthspast <- remnant[remnant>0]
meanmonth <- length(monthspast)
if (meanmonth==1) monthname <- "Jan"
if (meanmonth==2) monthname <- "Feb"
if (meanmonth==3) monthname <- "Mar"
if (meanmonth==4) monthname <- "Apr"
if (meanmonth==5) monthname <- "May"
if (meanmonth==6) monthname <- "Jun"
if (meanmonth==7) monthname <- "Jul"
162 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
#
# Hierachical normal model in Chapter 9, Exercise 6
#
niter <- 25
r <- 4
n <- c(4,4,4,4)
dat <- c(
98,97,99,96,
91,90,93,92,
96,95,97,95,
95,96,99,98)
x <- matrix(dat,max(n),r)
cat("\n")
cat("Data quoted in P.M. Lee, Bayesian Statistics: An Introduction \n")
cat("(2nd edn), London: Arnold 1997, Chapter 9, Exercise 6. \n")
cat("\n")
N <- sum(n)
xidot <- rep(0,r)
ssi <- rep(0,r)
for (i in 1:r){
xidot[i] <- sum(x[1:n[i],i])/n[i]
ssi[i] <- (n[i]-1)*var(x[1:n[i],i])
}
xdotdot <- sum(x)/N
ssw <- sum(ssi)
ssb <- (r-1)*var(xidot)
mu <- xdotdot
phi <- ssw/(N-1)
psi <- ssb/(r-1)
muold <- mu
phiold <- phi
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 163
#
#/* Hierachical normal model at end of Section 9.2
#
niter <- 25
r <- 4
n <- c(4,6,6,8)
dat <- c(62,60,63,59,NA,NA,NA,NA,
63,67,71,64,65,66,NA,NA,
68,66,71,67,68,68,NA,NA,
56,62,60,61,63,64,63,59)
x <- matrix(dat,max(n),r)
cat("\n")
cat("Based on A. Gelman, J.B. Carlin, H.S. Stern and D.B. Rubin \n")
cat("Bayesian Data Analysis, London: Chapman & Hall 1995, Sec. 9.8 \n")
cat("\n")
N <- sum(n)
xidot <- rep(0,r)
ssi <- rep(0,r)
164 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
for (i in 1:r){
xidot[i] <- sum(x[,i],na.rm=TRUE)/n[i]
ssi[i] <- (n[i]-1)*var(x[,i],na.rm=TRUE)
}
xdotdot <- sum(x,na.rm=TRUE)/N
ssw <- sum(ssi)
ssb <- (r-1)*var(xidot)
mu <- xdotdot
phi <- ssw/(N-1)
psi <- ssb/(r-1)
muold <- mu
phiold <- phi
psiold <- psi
for (t in 1:niter){
muold <- mu
phiold <- phi
psiold <- psi
mu <- 0
phi <- 0
psi <- 0
v <- 1/(1/psiold + n/phiold)
theta <- v*(muold/psiold + n*xidot/phiold)
mu <- mean(theta)
for (i in 1:r)
for (j in 1:n[i])
phi <- phi + (v[i]+(x[j,i]-theta[i])^2)/(N+2)
psi <- sum(v + (mu-theta)^2)/r
}
for (i in 1:r)
cat("Theta[",i,"] =",theta[i],"\n")
cat("\n")
cat("mu =",mu,"\n")
cat("phi =",phi,"\n")
cat("psi =",psi,"\n")
cat("\n")
#
# Crude Monte Carlo - Chapter 9, Exercise 1
#
niter <- 10
n <- 10
integral <- rep(0,niter)
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 165
#
# Semi-conjugate prior with normal likelihood (Section 9.4)
#
iter <- 10 # Number of iterations of the EM algorithm
m <- 500 # Number of replications
t <- 10 # Number of iterations
n <- 100
xbar <- 89
sxx <- 2970
s0 <- 175
nu0 <- 4
n0 <- 1
theta0 <- 85
phi0 <- s0/(n0*(nu0-2))
thetabar <- 0
phibar <- 0
thetass <- 0
phiss <- 0
cat("\n")
cat("Data quoted in P M Lee, ‘Bayesian Statistics: An Introduction’, \n")
cat("Arnold 1989, Section 2.13. Taking n=12, xbar=139, S=13,045 and \n")
cat("prior for theta ~ N(theta0,S0/n0(nu0-2)), that is, N(",
theta0,",",phi0,"),\n")
cat("and for phi independent and such that phi ~ S0 chi_{nu0}^{-2}, \n")
cat("that is, phi/",s0," is a chi-squared variate on",nu0,"d.f. \n")
cat("\n")
cat("Iterations of the EM algorithm give the following values for theta \n")
# # EM algorithm
theta <- theta0; # Initialize
166 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
n1 <- nu0 + n
for (j in 1:iter) # Iterate iter times
{
if (j-1 == 5*floor((j-1)/5)) cat("\n")
s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)
theta1 <- (theta0/phi0+n*xbar/(s1/n1))/(1/phi0+n/(s1/n1))
theta <- theta1
cat(theta," ")
}
cat("\n")
# # Gibbs sampler
phi <- sxx/(n-1) # Initialize
thetafinal <- rep(0,m)
phifinal <- rep(0,m)
for (j in 1:m) # Replicate m times
{
for (s in 1:t) # Iterate t times
{
phi1 <- 1/((1/phi0)+(n/phi))
theta1 <- phi1*((theta0/phi0)+(n*xbar/phi))
# theta | phi ~ N(theta1,phi1
theta <- theta1+sqrt(phi1)*rnorm(1)
# s1=s0+sum(x(i)-theta)^2
s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)
# phi | theta ~ s1*\chi_{\nu1}^{-2}
phi <- s1/rchisq(1,nu0+n)
}
thetafinal[j] <- theta
phifinal[j] <- phi
}
thetabar <- mean(thetafinal)
phibar <- mean(phifinal)
thetavar <- var(thetafinal)
phivar <- var(phifinal)
cat("\n")
cat("The Gibbs sampler gives rise to the following conclusions: \n")
cat("We deduce posterior for theta has mean",thetabar,"and variance",
thetavar,"\n")
cat("and that posterior for phi has mean",phibar,"and variance",phivar,"\n")
cat("\n")
#
# Example of rejection sampling (Section 9.5)
#
n <- 1000
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 167
alpha <- 2
beta <- 4
cc <- exp((alpha-1)*log(alpha-1)+(beta-1)*log(beta-1)-
(alpha+beta-2)*log(alpha+beta-2))
theormean <- alpha/(alpha+beta)
theorvar <- alpha*beta/
((alpha+beta)*(alpha+beta)*(alpha+beta+2))
mean <- 0
ss <- 0
for (i in 1:n)
{
cont <- TRUE
while (cont)
{
y <- runif(1)
u <- runif(1)
if (u <= exp((alpha-1)*log(y)+(beta-1)*log(1-y)))
{
x <- y
mean <- mean + x/n
ss <- ss + x*x
cont <- FALSE
}
}
}
var <- (ss-n*mean*mean)/(n-1)
cat("\n")
cat(" Alpha =",alpha,"Beta =",beta,"; Mean =",mean,"Variance =",var,"\n")
cat(" Theoretical values ",theormean,"and ",theorvar,"\n")
cat(" Ratios ",mean/theormean,"and ",var/theorvar)
cat("\n\n")
#
# Rat data in Chapter 9, Exercise 11
#
# Remember to load the file wishart.r first
#
p <- P <- 2
m <- 500
k <- 30
ni <- 5
epsilon <- 0.001
x <- c(8, 15, 22, 29, 36)
dat <- read.table("rats.dat")
y <- dat[,2:(ni+1)]
alpha0 <- 0.0
beta0 <- 0.0
a <- aalpha <- abeta <- epsilon # B P Carlin and T A Louis p. 169
b <- balpha <- bbeta <- 1/epsilon # B P Carlin and T A Louis p. 170
sigma2 <- 1.0 # Initially sigma2 is IG(a,b)
sigmaa2 <- 100 # A E Gelfand et al. p. 979 col.1
sigmab2 <- 0.1 # A E Gelfand et al. p. 979 col.1
# Thus R = (100 0 )
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 169
# ( 0 0.1)
#
# Take values for alpha[i] and beta[i] given
# alpha0, beta0, sigmaa2, sigmab2 and sigma2
alphabar <- 0.0
betabar <- 0.0
alpha <- rep(0,k)
beta <- rep(0,k)
for (i in 1:k)
{
vara <- ni/sigma2 + 1/sigmaa2
suma <- sum(y[i,])
meana <- (suma/sigma2 + alpha0/sigmaa2)/vara
# alpha[i] ~ N(meana,vara)
alpha[i] <- meana+sqrt(vara)*rnorm(1)
alphabar <- alpha[i]/k
varb <- var(x)/sigma2 + 1/sigmab2
sumb <- sum((x-mean(x))*unlist(y[i,]))
meanb <- (sumb/sigma2 + 1/sigmab2)/varb
# beta[i] ~ N(meanb,varb)
beta[i] <- meanb+sqrt(varb)*rnorm(1)
betabar <- betabar + beta[i]/k
}
# Initialize var (capital sigma)
v <- matrix(c(sigmaa2,0,0,sigmab2),P,P)
# Take values for alpha0 and beta0 given
# alpha[i], beta[i], sigmaa2, sigmab2 and sigma2
wish(p,k,var)
# alpha0 ~ N(alphabar,sigmaa2/k)
alpha0 <- alphabar+sqrt(sigmaa2/k)*rnorm(1)
# beta0 ~ N(betabar,sigmab2/k)
beta0 <- betabar+sqrt(sigmab2/k)*rnorm(1)
# See last displayed formula on p. 168 of
# B P Carlin and T A Louis
# simplified by taking C^{-1} = 0
#
# Take values for sigmaa2 and sigmab2 given
# alpha[i], beta[i], alpha0, beta0 and sigma2
# sigmaa2 ~ IG(alpha0,beta0)
sigmaa2 <- 1/(beta0*rgamma(1,alpha0))
# sigmab2 ~ IG(alpha)
sigmab2 <- 1/(beta0*rgamma(1,alpha0))
#
# Take value for sigma2 given
# alpha[i], beta[i], alpha0, beta0, sigmaa2 and sigmab2
# sigma2 ~ IG(alpha0,beta0)
170 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
Si utilizamos información previa sobre el mismo problema, por ejemplo los pre-
cios de oferta del mismo tipo de carro que aparecieron en El Colombiano en
Diciembre 16 del 2002, en el cual aparecieron los siguientes datos
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 171
Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8
173
174 CAPÍTULO 15. MODELOS JERÁRQUICOS
15.1. Meta-análisis
La idea básica del meta-análisis es combinar información provenientes de difer-
entes estudios pero realizados esencialmente sobre el mismo fenómeno, con el
propósito de tener unas inferencias y predicciones más exactas que las que se
tengan de cualquier estudio individual. Aquı́ tenemos sujetos dentro de estudios
y habrá predictores a la vez de los sujetos y de los estudios.
Stangl (2001) presenta el siguiente caso donde se realizó un análisis de los efectos
de la droga antidepresiva S-adenosylometionina (SAMe). Participaron nueve
lugares en el ensayo. Cada sitio tenı́a caracterı́sticas propias que afectaba los
resultados de los estudios. El resultado de interés era la tasa de éxito observada
con la SAMe. Los datos están presentados en la siguiente tabla:
Sitio si ni si /ni
1 20 20 1.00
2 4 10 0.40
3 11 16 0.69
4 10 19 0.53
5 5 14 0.36
6 36 46 0.78
7 9 10 0.90
8 7 9 0.78
9 4 6 0.67
Total 106 150 0.71
Asumimos que la tabla anterior proviene de un estudio con 150 pacientes y nue-
stro objetivo es estimar la tasa de éxito, digamos π, del tratamiento. Asumamos
que la distribución apriori de π es una Beta (α, β). Los datos son generados de
una distribución binomial con tamaño muestral n y tasa de éxito π.
Una formulación multinivel, o jerárquica o de efectos aleatorios evita el supuesto
de homogenidad modelando un efecto aleatorio, π para el estudio i. Cada πi
se asume sacado de la distribución de los efectos de estudio. Aquı́ se usa la
Beta (α, β) para los efectos de estudio. La respuesta del estudio i es
si ∼ Binomial (ni , πi )
πi ∼ Beta (α, β)
I
Y ni −si
πisi (1 − πi )
i=1
ξ(α, β)
I
Y Γ(α + β + ni ) β+ni −si −1
ξ (π|α, β, s) ∝ πiα+si −1 (1 − πi )
i=1
Γ(α + si )Γ(β + ni − si )
YI
Γ(α + β) Γ(α + si )Γ(β + ni − si )
ξ (α, β|s) ∝ ξ(α, β)
i=1
Γ(α)Γ(β) Γ(α + β + ni )
176 CAPÍTULO 15. MODELOS JERÁRQUICOS
Capı́tulo 16
Datos
16.1. Apellidos
Una muestra tomada al azar de los apellidos de suscriptores telefónicos tomada
del directorio de páginas blancas produjo los siguientes resultados:
177
178 CAPÍTULO 16. DATOS
2 1 1 1 2 1
correa cortes cossio cuartas cuellar cuervo
7 1 1 1 1 3
david delosrios diaz duarte duque durango
1 1 2 1 10 1
ebratt echavarria echeverri echeverry escobar escudero
1 7 2 3 3 1
espinal estrada fernandez florez foronda franco
2 1 5 2 2 3
galeano gallego gamboa garces garcia garro
2 6 1 1 16 1
gaviria gil giraldo gomez gonzalez gragales
5 4 12 28 10 1
granada granados guayiboy guerra guiral gutierrez
1 1 1 1 2 11
guzman henao hernandez herrera hidalgo higuita
2 6 8 2 1 3
hincapie hoyos hurtado idarraga isaza jaramillo
4 2 2 1 2 21
jimenez laiseca legarda leyva llano londono
4 1 1 1 1 8
lopera lopez lora loreto machado macia
2 13 1 1 1 1
maldonado manco manjarres manrique marin marquez
2 3 1 1 4 1
martinez marulanda maya mazo medina mejia
7 1 2 3 5 10
merino mesa misas molina mona moncada
1 8 1 4 1 2
monsalve montes montoya mora morales moreno
3 1 19 1 8 5
mosquera munera muneton munoz murillo naranjo
3 4 1 12 2 3
narino norena obando ocampo ochoa orozco
1 4 1 2 6 5
ortega ortiz osorio osorno ospina pabon
5 9 9 1 6 1
palacio palacios palomino paniagua parra patino
5 3 1 2 3 7
pelaez pena penagos perez piedrahita pineda
3 2 2 11 5 4
pino posada preciado presiga puerta pulgarin
1 7 1 1 1 4
pulido quiceno quijano quintero quiros ramirez
1 1 1 6 1 28
rangel rave rendon rengifo restrepo reyes
2 3 5 1 32 1
ricaurte rico rios rivera rodas rodriguez
1 2 6 6 2 5
rojas roldan roman romero royero rueda
16.2. MORDEDURAS 179
1 2 1 2 1 2
ruge ruiz saenz salazar salgado salinas
1 5 1 6 1 2
sanchez santa santamaria saraza sepulveda serna
21 1 1 1 6 4
sierra sosa soto suarez suaza tabares
2 2 2 5 2 4
tabera taborda tamayo tangarife tapias tejada
1 2 2 1 2 1
tilano tobon tocora toro torres trejos
1 6 1 6 3 1
trujillo uribe urrego usuga valencia vallejo
1 5 2 3 8 1
vanegas vargas vasquez velasquez velez vera
4 3 9 6 14 1
vergara vidales villa villada villegas vitola
1 1 5 1 3 1
yepes zapata zea zuleta zuluaga
1 13 1 2 9
1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 19 21 22 28 32
114 52 23 14 16 17 8 7 4 3 2 4 2 1 1 1 2 1 2 1
16.2. Mordeduras
El siguiente modelo permite estimar el número de mordeduras promedio para
cada municipio y construir un intervalo de probabilidad para este valor.
Los comandos en W inBU GS serán
model
{
for (i in 1 : N) {
theta[i] ~ dgamma(alpha, beta)
lambda[i] <- theta[i] * Pobtotal[i]
Mordeduras[i] ~ dpois(lambda[i])
}
alpha ~ dexp(1)
beta ~ dgamma(0.1, 1.0)
}
list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,
180 CAPÍTULO 16. DATOS
6,2,18,4,4,5,9,6,5,4,6,0,4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,
14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,
1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,
92,9,10,23,3,14,16,20,21,14,12),
Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,
209030,44464,32339,22854,57235,48422,10906,25771,26816,
7023,9036,36514,13388,11836,11698,20387,14690,10518,18825,
21313,13549,35006,15818,9249,16594,15119,5650,10070,11453,
4635,14250,7697,9975,6675,37118,9887,3558,19346,27651,9638,
12968,36907,3870,8103,7068,8217,22685,28445,16061,26240,4946,
8104,11071,2868,9512,9006,11313,22626,12969,9223,79874,26689,
5715,12944,23105,6530,40300,17078,15809,28940,18422,31092,7241,
41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,26111,
41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,
17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,
86941,23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))
list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,6,2,18,4,4,5,9,6,5,4,6,0,
4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,
0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,
9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,92,9,10,23,3,14,16,20,21,14,12),
Altmar=c(1550,1300,1450,1750,1425,1575,1425,1550,1775,1550,100,
50,50,30,125,50,625,950,125,125,150,75,1550,1535,1050,700,1475,
1975,650,980,1250,1450,1675,2550,1200,1700,1800,2200,2300,1800,
1875,1550,1475,2550,2475,2550,1850,1165,2300,1920,625,1800,1625,
1300,450,1150,1350,1925,1440,700,500,1200,850,780,550,750,650,
2125,2125,1650,1750,1300,1875,2150,2000,2175,2150,2050,2150,1925,
2200,2500,2120,1650,1000,1250,1050,1000,2150,2475,1400,1350,1900,
1550,1600,1800,2050,1200,2000,1800,1000,1750,2000,2350,1800,1250,
1800,1600,1325,1550,1800,1375,1350,25,4,28,34,25,75,8,2,200,2,18),
Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,209030,
44464,32339,22854,57235,48422,10906,25771,26816,7023,9036,36514,
13388,11836,11698,20387,14690,10518,18825,21313,13549,35006,15818,
9249,16594,15119,5650,10070,11453,4635,14250,7697,9975,6675,37118,
9887,3558,19346,27651,9638,12968,36907,3870,8103,7068,8217,22685,
28445,16061,26240,4946,8104,11071,2868,9512,9006,11313,22626,12969,
9223,79874,26689,5715,12944,23105,6530,40300,17078,15809,28940,18422,
31092,7241,41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,
26111,41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,
17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,86941,
23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))
184 CAPÍTULO 16. DATOS
model
{
for (i in 1 : N) {
theta[i] ~ dgamma(alpha, beta)
lambda[i] <- theta[i] * Pobtotal[i]*(Altmar[i]/100)
Mordeduras[i] ~ dpois(lambda[i])
teta[i]<-theta[i]*100000
}
alpha ~ dexp(1)
beta ~ dgamma(0.1, 1.0)
191
192 CAPÍTULO 17. PROBABILIDAD SUBJETIVA: FUNDAMENTOS
A ≻ B,
A ≺ B, ó
A ∼ B.
T
Supuesto 2 Si A1 , A2 , B1 y B2 son cuatro eventos tales que A1 A2 =
T ≺ S ≺ S
B1 B2 = ∅ y Ai ∼ Bi para i = 1, 2, entonces
S A1S A2 ∼ B1 B2 . Si en
adición, A1 ≻ B1 ó A2 ≻ B2 , entonces A1 A2 ≺ B1 B2 .
T T
Resultado 1 Suponga que A, B y D son eventos tales que A D=B D = ∅.
≺ S ≺ S
Entonces A ∼ B si y solo si A D ∼ B D.
≺
Prueba: Suponga que A ∼ B. Entonces el resultado sigue del supuesto 2.
Contrariamente,
S S suponga que A ≻ B. Entonces, de nuevo por el supuesto 2,
A D ≺ B D.
≺ ≺
Teorema 17.1 Si A, B y D son eventos tales que A ∼ B y B ∼ D, entonces
≺
A∼D
S S
Prueba: Es fácil ver que A B D se puede expresar como
\ \ [ \ \ [ \ \ [ \ \
A B D A BC DC AC B DC AC BC D
S T T S T T S T T
A B DC A BC D AC B D
≺
Ya que A ∼ B, sigue del Resultado 1 que
\ \ [ \ \ ≺ \ \ [ \ \
A BC DC A BC D ∼ AC B DC AC B D
≺
Similarmente, ya que B ∼ D, sigue del Resultado 1 que
\ \ [ \ \ \ \ [ \ \
≺
A B DC AC B DC ∼ A B C D AC BC D .
Ya que los lados izquierdos de las dos últimas expresiones son disjuntas y los
lados derechos también son disjuntos, se sigue del supuesto 2 que
\ \ [ \ \ [ \ \ [ \ \
≺
A BC DC A BC D A B DC AC B DC ∼
\ \ [ \ \ [ \ \ [ \ \
AC B DC AC B D A BC D AC BC D
17.2. EL EXPERIMENTO AUXILIAR 193
T T S C T C T
Si el evento común A B C D A B D es eliminado de ambos
lados de esta relación, se sigue del resultado 1 que
\ \ [ \ \ \ \ [ \ \
≺
A BC DC A B DC ∼ AC B D AC BC D
≺
De donde A ∼ D.
≺
Del teorema anterior y del supuesto 1 vemos que la relación ∼ produce una
ordenación completa de los eventos en A.
≺ ≻
Teorema 17.3 Para cualquier par de eventos A y B, A ∼ B si y solo si AC ∼
BC
≺ ≺
Supuesto 3 Si A es cualquier evento, entonces ∅ ∼ A. Además, ∅ ∼ S.
≺
Teorema 17.4 Si A y B son eventos tales que A ⊂ B, entonces A ∼ B. En
≺ ≺
particular, si A es un evento cualquiera, entonces ∅ ∼ A ∼ S.
195
196 CAPÍTULO 18. REFERENCIAS