Bayesilibro

ii
Introducción a la
Estadı́stica Bayesiana
Juan Carlos Correa Morales

Escuela de Estadı́stica
Universidad Nacional de Colombia
Sede Medellı́n
2008
Prefacio
Estas notas presentan una introducción a la estadı́stica bayesiana. Este es un

campo que ha tenido un desarrollo impresionante en los últimos años, en espe-
cial desde la introducción de la parte computacional. Muchas ideas han estado
circulando desde hace mucho tiempo, pero su imposibilidad práctica hacı́an que
se miraran con cierto pesar, ya que eran muy atractivas pero inaplicables. Esto
afortunadamente ha cambiado. Es lamentable los libros básicos en estadı́stica
no hagan una presentación de los elementos básicos de esta aproximación para
la solución de problemas estadı́sticos.
Aquı́ vamos a presentar una aproximación eminentemente práctica, esto es,
el lector puede aplicar de forma casi inmediata los métodos a problemas reales.
El software que se utilizará es de dominio público como el R o de permiso
libre para educación como el W inBU GS. Se requiere familiaridad con el primer
programa al menos a un nivel operativo básico.
Se asume que el lector tiene familiaridad con los métodos estadı́sticos a un
nivel operativo, al menos. Conocimiento de inferencia a un nivel de un texto
básico de estadı́stica matemática ayuda bastante.
iii
iv
Índice general
1. Introducción 3
1.1. Aproximaciones al análisis bayesiano . . . . . . . . . . . . . . . . 6
1.2. Problemas con la aproximación clásica . . . . . . . . . . . . . . . 6
2. Probabilidad Subjetiva “Apriori” 9

2.1. Probabilidad Personal . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Probabilidad Subjetiva y Apuestas . . . . . . . . . . . . . . . . . 9
2.3. Clasificación de las Distribuciones Apriori . . . . . . . . . . . . . 10
2.4. Distribuciones Apriori No Informativas . . . . . . . . . . . . . . . 11
2.5. Distribuciones Apriori Informativas . . . . . . . . . . . . . . . . . 11
2.6. Elicitación de Probabilidades Subjetivas . . . . . . . . . . . . . . 11
2.6.1. Supuestos de Coherencia . . . . . . . . . . . . . . . . . . . 12
2.7. Formas de Elicitación . . . . . . . . . . . . . . . . . . . . . . . . 12
2.8. Un Diálogo para la Obtención de la Proporción . . . . . . . . . . 13
2.9. Análisis preposterior . . . . . . . . . . . . . . . . . . . . . . . . . 17
3. Teorema de Bayes 19
3.1. Usos de la Función de Verosimilitud en Análisis Bayesiano . . . . 22
4. Distribuciones Conjugadas 23
4.1. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . 24
4.1.1. Elicitación de los Parámetros de la Beta para Proporciones 26
4.2. Distribución Binomial Negativa . . . . . . . . . . . . . . . . . . . 28
4.3. Distribución Geométrica . . . . . . . . . . . . . . . . . . . . . . . 28
4.4. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . . . 28
4.5. Distribución Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.6. Distribución Exponencial . . . . . . . . . . . . . . . . . . . . . . 30
4.7. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.7.1. Precisión Conocida . . . . . . . . . . . . . . . . . . . . . . 30
4.7.2. Precisión Desconocida . . . . . . . . . . . . . . . . . . . . 31
4.7.3. Media y Precisión Desconocidas . . . . . . . . . . . . . . . 31
v
vi ÍNDICE GENERAL
4.8. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 32
5. Distribuciones No Informativas 35
5.1. El Principio de la Razón Insuficiente de Laplace . . . . . . . . . . 36
5.2. Apriori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.3. Otras Alternativas . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.4. Marginalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6. Inferencia Bayesiana 43
6.1. Estimación Puntual . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.2. Regiones de Credibilidad . . . . . . . . . . . . . . . . . . . . . . . 49
6.3. Región de la Densidad Posterior Más Alta (RDPMA) . . . . . . 49
6.3.1. Intervalos frecuentistas tradicionales para la Poisson . . . 51
6.4. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.4.1. Comparación de Modelos . . . . . . . . . . . . . . . . . . 58
6.5. La aproximación BIC . . . . . . . . . . . . . . . . . . . . . . . . . 61
7. Inferencia Predictiva 65
7.1. Tamaño Muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8. WinBUGS 69
8.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
8.2. Qué se espera de un software para estadı́stica bayesiana? . . . . . 69
8.3. Utilización de WinBUGS . . . . . . . . . . . . . . . . . . . . . . 70
8.4. Algunos de los comandos del WinBUGS . . . . . . . . . . . . . . 76
8.4.1. Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
8.4.2. Inference . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
9. Modelos Lineales 81
9.1. La regresión clásica . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.1.1. Usos del Análisis de Regresión . . . . . . . . . . . . . . . 81
9.1.2. Estrategia Tı́pica en un Análisis de Regresión . . . . . . 82
9.1.3. Regresión simple . . . . . . . . . . . . . . . . . . . . . . . 82
9.1.4. Modelo de Regresión Lineal Múltiple . . . . . . . . . . . 83
9.1.5. Notación Matricial . . . . . . . . . . . . . . . . . . . . . . 83
9.2. Aproximación Bayesiana . . . . . . . . . . . . . . . . . . . . . . . 84
9.3. Distribución Normal-Gamma . . . . . . . . . . . . . . . . . . . . 84
9.4. Distribución Aposteriori . . . . . . . . . . . . . . . . . . . . . . . 85
9.5. Análisis Conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.5.1. Distribución Predictiva . . . . . . . . . . . . . . . . . . . 88
9.5.2. Inferencias . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.5.3. Pruebas de Hipótesis . . . . . . . . . . . . . . . . . . . . . 89
9.6. Precios de Oferta de Vehı́culos . . . . . . . . . . . . . . . . . . . 90
9.7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.8. Estrategias en Modelación . . . . . . . . . . . . . . . . . . . . . . 97
9.9. Regresión Inversa o Calibración . . . . . . . . . . . . . . . . . . . 98
ÍNDICE GENERAL vii
10.Modelo Lineal Generalizado 101

10.1. Modelo Logı́stico . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
10.1.1. Selección de la Distribución Apriori . . . . . . . . . . . . 102
10.1.2. Análisis Bayesiano de Residuales de Modelos Logı́sticos . 106
10.2. Regresión Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
10.3. Log-concavidad de la log-verosimilitud . . . . . . . . . . . . . . . 111
11.Estadı́stica Bayesiana Empı́rica 113
12.Análisis Multivariable 115

12.1. Distribución Normal Multivariable . . . . . . . . . . . . . . . . . 115
13.Datos Categóricos 117

13.1. Distribución Multinomial . . . . . . . . . . . . . . . . . . . . . . 117
13.1.1. Obtención de la prevalencia verdadera from prevalencia
aparente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
13.1.2. La Razón de Odds . . . . . . . . . . . . . . . . . . . . . . 122
13.1.3. Modelos Loglineales . . . . . . . . . . . . . . . . . . . . . 123
13.1.4. Tablas con faltantes . . . . . . . . . . . . . . . . . . . . . 123
13.1.5. Estimación de N (El tamaño de toda una población) . . . 123
14.Métodos Computacionales 125

14.0.6. Muestreo de Importancia . . . . . . . . . . . . . . . . . . 128
14.0.7. Muestreo por Rechazo . . . . . . . . . . . . . . . . . . . . 128
14.1. MCMC: Monte Carlo por Cadenas de Markov . . . . . . . . . . . 130
14.1.1. Algoritmo Metropolis-Hastings . . . . . . . . . . . . . . . 131
14.1.2. Muestreador Griddy Gibbs . . . . . . . . . . . . . . . . . 140
14.2. Cálculo de Integrales via Simulación . . . . . . . . . . . . . . . . 141
14.2.1. Composición . . . . . . . . . . . . . . . . . . . . . . . . . 141
14.3. Métodos Monte Carlo de Cadenas de Markov (MCMC) . . . . . 141
14.3.1. Glosario de Cadenas de Markov . . . . . . . . . . . . . . . 141
14.3.2. Muestreador Gibbs . . . . . . . . . . . . . . . . . . . . . . 142
14.4. Simulación Exacta . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.4.1. El Muestreador Perfecto . . . . . . . . . . . . . . . . . . . 142
14.5. Algoritmo E − M . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
14.5.1. Modelo Probit para Datos Binarios . . . . . . . . . . . . . 144
14.6. Diagnósticos de los Muestreadores MCMC . . . . . . . . . . . . . 146
14.6.1. Monitoreo y Convergencia de una MCMC . . . . . . . . . 147
15.Modelos Jerárquicos 165

15.1. Meta-análisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
16.Datos 169
16.1. Apellidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
16.2. Mordeduras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
ÍNDICE GENERAL 1
17.Probabilidad Subjetiva: Fundamentos 183

17.1. Verosimilitud Relativa . . . . . . . . . . . . . . . . . . . . . . . . 183
17.2. El Experimento Auxiliar . . . . . . . . . . . . . . . . . . . . . . . 185
18.Referencias 187
2 ÍNDICE GENERAL
Capı́tulo 1
Introducción
La escuela bayesiana en estadı́stica ha tomado fuerza en los últimos años

debido a su potencial para resolver problemas que no se pueden atacar con
otros métodos y porque permite incorporar naturalmente información que es
útil en la solución del problema enfrentado. El siguiente ejemplo ilustra una
situación tı́pica:
Ejemplo 1.1 La loterı́a que jugó anoche Suponga que a usted un amigo le
ofrece un billete de loterı́a, pero con el problema que la loterı́a jugó anoche. Su
amigo, que ha demostrado ser una persona honesta le informa que él no sabe el
resultado de la loterı́a, y usted tampoco. En una situación como ésta podemos
pensar en una probabilidad de que el billete sea el ganador es la misma que el
billete tenı́a antes de que se jugara la loterı́a, no lo piensa ası́?
Nadie niega que ante un problema debemos utilizar toda la información

disponible acerca de un problema particular. Para nuestro caso estadı́stico la
incertidumbre sobre parámteros poblacionales se resume por medio de distribu-
ciones de probabilidad, que anterior a recoger información muestral relevante
para ellos, se conoce como ‘distribución apriori.’ El problema está en la forma
de cuantificar esta información sin generar alguna contradicción.
Un problema que se ha planteado cuando se habla de la escuela bayesiana
es que dos personas enfrentadas ante un problema y una decisión a tomar,
y asumiendo que tengan la misma información muestral, pueden llegar a dos
decisiones opuestas si su información adicional es diferente. Greenland (2001)
afirma que “los epidemiólogos perciben la especificación de la distribución apriori
como impráctica y además pocos epidemiólogos emplearı́an métodos que no
están disponibles en paquetes estadı́sticos lı́deres.”
Albert (1997) presenta las siguientes razones por las cuales se deberı́a enseñar
estadı́stica desde el punto de vista bayesiano:
3
4 CAPÍTULO 1. INTRODUCCIÓN
El paradigma bayesiano es un medio natural de implementar el método

cientı́fico donde la distribución apriori representa sus creencias iniciales
acerca del modelo, usted recoge los datos adecuados, y la distribución
posterior representa sus creencias actualizadas después de ver los datos.
Si la incertidumbre acerca de los modelos es expresada utilizando proba-

bilidad subjetiva, entonces la regla de Bayes es la única receta que uno
necesita para realizar inferencias de los datos.
Las afirmaciones inferenciales bayesianas son más fáciles de entender que

las basadas en la inferencia tradicional basadas en muestreo repetido. La
probabilidad que un parámetro caiga dentro de un intervalo calculado es
igual a 0.95. También, en contraste con los procedimientos tradicionales
de pruebas de hipótesis, tiene sentido hablar acerca de la probabilidad que
una hipótesis estadı́stica sea cierta.
Por el principio de condicionalidad, los únicos datos relevantes para eje-

cutar inferencias son los datos realmente observados. Uno puede ignorar
otros resultados de un espacio muestral que no son observados.
Los problemas de predicción no son más difı́ciles que los problemas de esti-
mación de parámetros. Parámetros y observaciones futuras son cantidades
desconocidas que son modeladas subjetivamente.
Ejemplo 1.2 Estatura de los colombianos. Si pensamos en la estatura

promedio de los hombres colombianos podemos pensar seriamente que este valor
no es mayor que 180 cms. ni menor que 160 cms. Es claro que si conocemos
muchos hombres colombianos nuestra información puede utilizarse en un proceso
inferencial, pero confiarı́amos más si la información sobre la estatura proviene
de algún estudio previo realizado sobre el mismo tema.
Ejemplo 1.3 La nota esperada. A un estudiante que acaba de presentar

un examen se le puede preguntar cuál será su nota esperada. Con base en su
propio conocimiento de su capacidad y de su preparación, de cómo respondió el
examen él puede tener una idea sobre la nota que espera obtener al ser calificado
su examen. Obviamente la nota exacta no la conoce ya que existen múltiples
factores que entran en una evaluación, pero puede proporcionar un rango dentro
del cual se sienta muy seguro.
Ejemplo 1.4 Sobre una proporción. Ya que estamos familiarizados con

el tipo de estudiantes que están en este lugar, podemos establecer valores entre
los cuales creemos cae el porcentaje de mujeres que estudian en la universidad.
La aproximación bayesiana es una herramienta fundamental en situaciones

donde la recolección de información muestral sea muy difı́cil, por ejemplo en
5
tópicos de alta sensibilidad social o extremadamente costosa o imposible, como

serı́a el caso de la determinación del riesgo de falla de una nueva nave espacial
o cuál es la probabilidad de que haya vida inteligente en nuestra galaxia. Un
problema adicional es cómo cuantificar la información que se tenga.
Ejemplo 1.5 Porcentaje de estudiantes que consumen una droga. Si

queremos determinar el porcentaje de estudiantes que consumen un tipo de dro-
gas, podemos utilizar la información que se haya recogido en estudios pasados.
Ejemplo 1.6 Tasa de estudiantes que ejercen la prostitución. Si quer-

emos determinar el porcentaje de estudiantes que ejercen la prostitución en
nuestra universidad, no parece fácil resolver esto mediante una simple encuesta,
aunque es posible utilizar procedimientos como el de la respuesta aleatorizada,
el hecho de enfrentar un encuestador puede llevar a dar respuestas socialmente
aceptables.
Las ideas iniciales de la probabilidad surgieron relacionadas con los juegos

de azar y su interpretación es básicamente frecuentista. Esta formulación fre-
cuentista trabaja bien en muchas situaciones, pero no en todas.
Una caracterı́stica distintiva de la estadı́stica bayesiana es que tiene en cuenta
de forma explı́cita la información previa y se involucra en el análisis en forma de
distribución, llamada distribución apriori. La teorı́a clásica la considera básica-
mente para determinar tamaños muestrales y el diseño de experimentos y, a
veces, como forma de crı́tica de los resultados hallados.
La expresión de la información previa en forma cuantitativa puede ser un
proceso complejo y delicado, aunque se han hallado soluciones que pueden lle-
gar a parecer extrañas, como lo puede ser el uso de lo que se conoce como
distribuciones no informativas, pero que se utilizan extensamente en el trabajo
bayesiano aplicado.
Fuentes tradicionales para la construcción de la distribución apriori son:
Estudios previos similares. La utilización de estudios previos sobre unos

pocos parámetros especı́ficos ha dado origen a un área conocida como
metanálisis, la cual puede trabajarse desde el punto clásico y bayesiano.
Un problema cuando se trabaja con datos sacados de pubicaciones y no
con los estudios originales, es el que se conoce como sesgo de publicación,
que hace referencia a la publicación, por parte de los editores o autores,
solo a aquellos resultados que son significativos.
Opinión de expertos. La utilización de expertos es casi obligatoria en situa-

ciones completamente nuevas donde experimentar puede ser muy costoso,
por ejemplo en la implementación de polı́ticas a nivel macroeconómico.
1.1. Aproximaciones al análisis bayesiano

Esta sección está basada en Berger (1999).
1. Análisis bayesiano objetivo: Esta posición se caracteriza por la utilización

de distribuciones no informativas.
2. Análisis bayesiano subjetivo: La utilización de distribuciones apriori sub-

jetivas es a menudo disponible como alternativa en algunos problemas.
3. Análisis bayesiano robusto: Esta posición asume que es imposible especi-

ficar completamente la distribución apriori o el modelo, en cuyo caso es
mejor trabajar dentro de clases donde haya un nivel de incertidumbre
sobre esta distribución o modelo.
4. Análisis bayesiano-frecuentista: Hay problemas en los cuales la aproxi-

mación frecuentista produce resultados satisfactorios, como en los méto-
dos no paramétricos, y al bayesiano le toca aceptarlos como soluciones
seudobayesianas.
5. Análisis cuasibayesiano: Esta aproximación utiliza distribuciones apriori

seleccionadas de una forma que acomoden a la solución “bonita” del prob-
lema, ajustando estas distribuciones apriori de diversas formas, por ejem-
plo seleccionando distribuciones apriori vagas, o ajustando los parámetros.
1.2. Problemas con la aproximación clásica

Harrell (1998) ha presentado algunos de los problemas que ocurren con la
aproximación clásica a varios problemas estadı́sticos:
1. En pruebas de hipótesis:
Un experimento proporciona los elementos para una posibilidad de

rechazar la hipótesis nula.
El rechazo de una hipótesis nula es diferente de su rechazo lógico.
Una hipótesis contradicha por los datos (un valor-p pequeño) significa
que un evento improbable ha ocurrido, o que la hipótesis nula es falsa,
o ambas.
Qué hacer si la hipótesis nula no es rechazada?
De acuerdo a Fisher una hipótesis nula nunca es aceptada.
Cuál estadı́stico de prueba utilizar?
• No hay una regla general sobre cuál estadı́stico de prueba utilizar.
• Diferentes estadı́sticos pueden llevar a diferentes conclusiones del
mismo análisis.
1.2. PROBLEMAS CON LA APROXIMACIÓN CLÁSICA 7
• Se pueden obtener conclusiones inconsistentes de manera lógi-

ca, por ejemplo colapasando tablas de contingencia y realizando
pruebas χ2 .
En la teorı́a de Neyman-Pearson una prueba estadı́stica de hipótesis
(Ho ) no está sola sino contra teorı́as competidoras (H1 ). Se pueden
cometer dos tipos de errores y la idea es tener probabililidades de
ambos errores tan pequeñas como sean posibles. El problema es de
interpretación: Qué significa aceptar o rechazar?
En ambas escuelas no hay probabilidades de que las teorı́as sean
correctas.
Problemas con los valores-p.
• Solo pueden ser utilizados como evidencia contra una hipótesis,
no proporcionan evidencia a favor de una hipótesis.
• Valores-p iguales no proporcionan igual evidencia acerca de una
hipótesis.
• Si usamos valor-p < 0,05 como un evento binario, la evidencia es
mayor en estudios más grandes.
• Si usamos el valor-p real, la evidencia es mayor en estudios más
pequeños.
Muchos resultados pueden ser estadı́sticamente significativos debido
a un n grande y no a una diferencia significativa.
2. En estimación:
Los intervalos de confianza son a menudo malinterpretados
Diferencias entre la teorı́a clásica

y la teorı́a bayesiana
Caracterı́stica Teorı́a Clásica Teorı́a Bayesiana
Parámetros de interés Constantes desconocidas Variables aleatorias
Distribución apriori No existe Existe y es explı́cita
Modelo muestral Se asume Se asume
Distribución posterior No existe Existe y se deriva
Razonamiento Inductivo Deductivo
Utilizaremos la siguiente notación:
θ ′ = (θ1 , · · · , θk ) Vector de parámetros

x1 , · · · , xn Observaciones muestrales (i.i.d.)
ξ(θ) Distribución apriori conjunto de Θ
f (xi |θ) Distribución de Xi dado θ
Capı́tulo 2
Probabilidad Subjetiva “Apriori”
El trabajo estadı́stico descansa en el concepto de probabilidad. La definición

matemática es clara: Es una función aditiva no negativa, cuyo máximo valor
es la unidad (Jackman). El problema fundamental está en la forma como se
determine esa función.
2.1. Probabilidad Personal

Horowitz (1968) define la probabilidad como
“La probabilidad no es sino un número ı́ndice entre 0 y 1, que

expresa un pensamiento del individuo sobre la posibilidad del resul-
tado, relativo, de una experiencia... Debemos por tanto, reconocer
que podemos evaluar la probabilidad, bien cuando el suceso es único
o se trata de un suceso de carácter repetitivo, que pueda presen-
tarse en varias pruebas. El hecho de que el suceso vaya a ocurrir una
vez no impide que un individuo pueda formar un juicio acerca de lo
probable que suceda respecto a otros posibles resultados; es decir,
puede asignar probabilidades a cada uno de los posibles resultados.”
2.2. Probabilidad Subjetiva y Apuestas

Las creencias pueden ser expresadas en términos de apuestas, esto se hace
mucho en la práctica, y esto puede ser utilizado como una forma general de hacer
las creencias relativas explı́citas (D’Agostini, 2000). Hay condiciones naturales
a ser impuestas sobre las apuestas:
La apuesta debe ser reversible y que ninguna apuesta pueda ser elaborada
tal que uno pierda o gane con certeza. Esta condición obliga al sujeto a
asignar las apuestas consistentemente con sus creencias.
9
10 CAPÍTULO 2. PROBABILIDAD SUBJETIVA “APRIORI”
La anterior también obliga a aceptar la segunda condición: una vez él ha

fijado los odds, él debe estar preparado para apostar en cualquier dirección.
Esta coherencia juega dos papeles importantes:
1. es moral y obliga a la gente a ser honesta,
2. y otro formal, que permite que las reglas básicas de la probabilidad
sean derivadas como teoremas.
Es evidente que “subjetividad” no se puede confundir con “arbitrariedad”,
ya que todos los elementos para la asignación de probabilidades deben tenerse
en cuenta, incluyendo el conocimiento que otros puedan asignar a las diferentes
posibilidades de los mismos eventos.
2.3. Clasificación de las Distribuciones Apriori

Propias
Distribuciones Apriori =
Impropias
Definición 2.1 (Distribución Apriori Propia) Es una distribución que asigna
pesos no negativos y que suman o integran hasta uno, a todos los valores posibles
del parámetro.
Ası́, una distribución propia satisface las condiciones de función de densidad
de probabilidad. Una distribución impropia es la que suma o integra a un valor
diferente de uno, digamos K. Si K es finito, entonces la distribución impropia
induce una distribución propia normalizando la función. Si K es infinito, en-
tonces la distribución tiene un papel de ponderación o de herramienta técnica
para llegar a una dsitribución posterior.

Informativas
No informativas
Definición 2.2 (Distribución Apriori No Informativa) Decimos que una
distribución apriori es no informativa cuando refleja una ignorancia total o un
conocimiento muy limitado sobre el parámetro de interés.
El área de las distribuciones no informativas es grande y polémica. Existen
diferentes posiciones sobre cómo reflejar ignorancia mediante una distribución.
A este tema le dedicaremos una sección ya que es de crucial importancia en
estadı́stica bayesiana.

Conjugadas
No conjugadas
Definición 2.3 (Distribución Apriori Conjugada) Decimos que una dis-
tribución apriori es conjugada, si al proceder a su actualización mediante la
información muestral, la distribución aposteriori es igual a la apriori, excepto
en los hiperparámetros.
2.4. DISTRIBUCIONES APRIORI NO INFORMATIVAS 11
2.4. Distribuciones Apriori No Informativas

En muchas ocasiones sabemos nada o muy poco acerca del parámetro de
interés o no queremos involucrar en nuestro estudio información previa, sino
más bien dejar que sean los datos los que “hablen por ellos mismos”. En este
caso la distribución debe reflejar nuestro total desconocimento de los valores
posibles del parámetro. Esta es un área de trabajo que ha crecido enormemente.
2.5. Distribuciones Apriori Informativas

Una de las mayores dificultades en la ejecución de un análisis bayesiano
concierne con la identificación, de la selección y la justificación de la distribución
apriori. Preguntas como:
Qué clase de distribución apriori debemos utilizar?
Qué tipos de datos están disponibles para seleccionar el modelo apriori?
Cómo cuantificificamos la información subjetiva?
Cómo ajustamos la distribución apriori con los datos subjetivos disponibles?
deben ser resueltas sin lugar a dudas.
2.6. Elicitación de Probabilidades Subjetivas

En muchas situaciones es de importancia cuantificar la información subjetiva
que sobre la posibilidad de la ocurrencia de un evento sientan uno o varios
individuos. La idea es entonces “desarrollar métodos que ayuden a la persona
que asigna las probabilidades, las asigne de acuerdo con sus juicios” ( Winkler,
1967a, 1967b). Esta tarea es difı́cil y puede llegar a ser frustante.
En esta asignación de probabilidades personales a eventos hay dos requisitos:
1. La asignación debe obedecer ciertos postulados de coherencia, y
2. las asignaciones deben corresponder a los juicios de la persona.
Es fácil chequear el primer punto, pero en el segundo una probabilidad asig-

nada a un evento es el resultado de la interacción de numerosas creencias o
juicios que solo existen en la mente de la persona. Y hay que tener en cuenta
que esta asignación se realiza en un punto del tiempo y que la misma persona
puede revisarlas a la luz de nueva información. Uno definitivamente no puede
probar que las probabilidades asignadas corresponden realmente a los juicios de
la persona.
2.6.1. Supuestos de Coherencia

Asumimos que la persona que asigna las probabilidades subjetivas mediante
interrogación directa, posee las siguientes condiciones ideales:
1. Ella nunca viola el supuesto de coherencia.
2. Ella entiende perfectamente los métodos utilizados para la asignación de

probabilidades. Esto es, ella entiende las alternativas que se le presentan
y las implicaciones de cada alternativa.
3. Ella tiene una función de utilidad que es lineal con respecto al dinero en
el rango relevante. Además, ella escoge sus respuestas de tal forma que
maximiza su utilidad esperada.
2.7. Formas de Elicitación

Una forma de asignación de probabilidades es la interrogación directa, que
consiste en preguntas que conciernen con
las probabilidades,
CDF (Función de Distribución Acumulada)

PDF (Función Densidad de Probabilidad)
• No paramétrica
• Paramétrica.
Ejemplo 2.1 Para ilustrar esta situación consideremos este ca-
so presentado en Bracken (1966). Supongamos que una persona
quiere asignar una distribución apriori beta a la variable aleato-
ria π que representa el voto liberal en una elección futura como
la fracción del total de votos. Asumamos que él encuentra difı́cil
asignar un valor esperado subjetivo al valor de π, pero es capaz
de expresar sus juicios asignando una probabilidad de 0.50 a la
afirmación π ≤ 0,50 y asignando una probabilidad de 0.75 a la
proposición π ≤ 0,60.
previsión de muestras futuras,
HFS (Muestras Hipotéticas Futuras)

EPS (Información Muestral Apriori Equivalente)
apuestas,
loterı́as hipotéticas,
gráficos de distribuciones de probabilidad, etc.

2.8. UN DIÁLOGO PARA LA OBTENCIÓN DE LA PROPORCIÓN 13
Oakley y O’Hagan (2002) consideran el caso de elicitación de la información

apriori de un sujeto que solo puede dar información parcial. De todas formas
en un proceso de elicitación hay incertidumbre con relación a la información
proporcionada por el experto. Ellos se limitan al caso en el cual el experto
proporciona información sobre un θ observable.
Chesley (1978) hace una comaparación entre diferentes métodos de elic-
itación. la técnica usada para la elicitación afecta cómo el sujeto mira el prob-
lema, la exactitud de sus respuestas y la consistencia de las mismas.
2.8. Un Diálogo para la Obtención de la Pro-

porción
El siguiente diálogo ilustra una posible forma de elicitar información sobre
una proporción y es presentado en Raiffa (1970)
Analista: Quisiera mostrarle una forma de obtener una distribución de prob-

abilidad subjetiva acerca de una proporción π. Quiero elegir un contexto
que sea lo suficientemente significativo para usted porque sus opiniones son
las que interesan. Consideremos la población de médicos no abstemios en
Colombia. Supongamos que π es la propoción de estos bebedores que con-
sumieron más cerveza que aguardiente durante el último año. Por cierto,
sabe usted algo de los hábitos alcohólicos de los médicos?
Cliente: No mucho. Conozco personalmente a tres o cuatro médicos, pero me
imagino que los doctores no serán muy diferentes de los abogados, los
dentistas o los ingenieros. El problema es que no sabrı́a responder a su
pregunta para cualquiera de esos grupos. No tengo ni la más remota idea
del valor de π.
Analista: Bueno. Esto es justamente lo que querı́a.
Cliente: Supongo que quiere que haga una predicción óptima de π. No sé si
podrı́a hacerlo.
Analista: No, no es eso lo que quiero. De hecho no creo que tenga sentido
hablar de una predicción “óptima”. Optima para qué? Déjeme hacerle unas
preguntas de precalentamiento. Cree usted que es probable que π sea menor
o mayor que 0.10?
Cliente: Mayor, seguro.
Analista: Es probable que π sea mayor o menor que 0.90?
Cliente: Menor.
Analista: Estas preguntas eran fáciles. Vea usted, ya sabe algo sobre π. Ahora
quiero que piense bien antes de contestarme. Déme una proporción tal que
sea extremadamente difı́cil decidir si es probable que π sea mayor o menor
que ese valor. En otras palabras, quiero que me dé un valor para el que
crea que es igualmente probable que π sea mayor o menor que él.
Cliente: (Después de pensar un rato). Yo dirı́a que 0.60. Pero no estoy nada
seguro. Creo que la mayorı́a de los médicos prefieren tomar cerveza.
Analista: No se preocupe demasiado; si quiere cambiar de opinión más tarde,

no hay inconveniente. Me acaba de decir que cree que es igualmente prob-
able que π sea mayor o menor que 0.60.
Cliente: Exactamente. Pero no me pida que defina lo que significa “igualmente

probable”.
Analista: Por “igualmente probable” , en este contexto, quiero decir que ust-
ed es indiferente entre recibir un premio muy deseable condicionado a
que π sea menor que 0.60, y recibir este mismo premio condicionado a
que π sea mayor que 0.60. O, de forma más dramática, si su vida de-
pendiera de ello, optarı́a igualmente por un π ≤ 0,60 que por un π ≥ 0,60.
Está siguiéndome?
Cliente: Hasta ahora sı́.
Analista: Esencialmente, me acaba de decir, y usted lo cree, que 0.60 divide

el intervalo de cero a uno en dos partes igualmente probables,en su opi-
nión. Ahora voy a pedirle que repita este proceso de dividir imaginaria-
mente diferentes intervalos en dos partes igualmente probables. Por ejem-
plo, qué cree usted que es más probable, que π sea menor que 0.20 o que
esté comprendido entre 0.20 y 0.60?
Cliente: Entre 0.20 y 0.60.
Analista: Entre cero y 0.58, o entre 0.58 y 0.60?
Cliente: Entre 0 y 0.58.
Analista: De acuerdo. Ahora deme un número para el que crea que es igual-
mente probable que π esté comprendido entre cero y ese número y ese
número y 0.60.
Cliente: Qué ocurre si π es mayor que 0.60?
Analista: Tal como están las cosas usted pierde. Mire, si me dice que el número
es π ∗ , esto quiere decir que sus probabilidades de ganar el premio son
igualmente buenas si elege el intervalo de cero a π ∗ como lo son si elige el
intervalo de π ∗ a 0.60. Si π es mayor que 0.60 , no obtendrı́a el premio
sea cual sea el lado de π ∗ que elija, porque π no estarı́a en esos intervalos.
Cliente: De acuerdo. Veamos... Diré que 0.50 divide el intervalo de cero a 0.60
en dos partes igualmente probables.
2.8. UN DIÁLOGO PARA LA OBTENCIÓN DE LA PROPORCIÓN 15
Analista: Le hubiera sido más fácil si, una vez que me habı́a dado el número
0.60 le hubiera hecho la última pregunta de esta otra manera?: “Mire,
suponga que le digo que π es menor que 0.60. Cómo dividirı́a ahora el
intervalo de cero a 0.60 en dos partes igualmente probables?”
Cliente: Son iguales las preguntas?
Analista: Creo que sı́. Piénselo.
Cliente: Supongo que son iguales. La segunda me parece más fácil, pero las
cosas siempre me parecen más fáciles a la segunda vez.
Analista: Continuemos. Imagı́nese que le digo que π es mayor que 0.60. Cómo
dividirı́a el intervalo 0.60 a 1 en dos partes igualmente probables?
Cliente: 0.70. El intervalo de 0.60 a 0.70 me parece igualmente probable que

los valores superiores a 0.70. Pero realmente me siento un poco incómodo
acerca de 0.50 y 0.70 porque el 0.60 es muy poco firme. Me parece como
si estuviera construyendo sobre una esponja. Espero que se dé cuenta de
que estos números son muy poco firmes.
Analista: Me doy cuenta de ello. Animo! Ahora me ha dado tres números,

0.60, 0.50 y 0.70. Voy a dibujar un intervalo de cero a 1 y colocar estos
puntos en él.
0 1
Me acaba de decir que, en lo que a usted respecta, cree que es igualmente
probable que π esté situado en cualquiera de los cuatro intervalos [0 a
0.50], [0.50 a 0.60], [0.60 a 0.70] y (0.70 a 1.00].
Cliente: Si, creo que eso es lo que he dicho.
Analista: Ahora voy a comprobarlo. No pretendo confudirle ni molestarle, pero

es importante considerar estas cuestiones desde todos los ángulos. Por
ejemplo, prefirirı́a usted apostar que π está en el intervalo [0.50 a 0.70 ]
o apostar que está fuera de este intervalo?
Cliente: Creo que apostarı́a que está dentro del intervalo. Pero estoy siendo
inconsistente, no?
Analista: Sı́, lo está siendo, pero es normal. Quiero que piense más sobre ello.
Es una ventaja que trate conscientemente de ser consistente.
Cliente: Bien, no quiero cambiar el 0.60. Me siento más inseguro con el 0.70.
Supongo que estarı́a dispuesto a admitir un 0.68. En lo que a mı́ respecta,
hay una probabilidad del 50-50 de que π esté en el intervalo [0.50 a 0.68].
Analista: Estarı́a dispuesto a decir que es igualmente probable que π esté en

el intervalo [0.60 a 0.68] o en el intervalo [0.68 a 1]?
Cliente: De acuerdo, lo admitiré. Pero, si lo hiciéramos todo otra vez y si

borrara esta convesación de mi memoria, puedo imaginar que, en lugar de
terminar con los números 0.50, 0.60 y 0.68, podrı́a haber terminado con
números como 0.52, 0.64 y 0.74.
Analista: Bien, podrı́a usted imaginar terminar con números tales como 0.20,
0.40 y 0.55?
Cliente: No. Realmente no. Pero, qué harı́a si yo dijera “Sı́”?
Analista: Seguirı́a presionándole y utilizarı́a algún sistema de promedios que

separara aún más los tres que me ha dado. Pero, continuemos. Me referiré al
número 0.60 como su percentil 0.50, al número 0.50 como su percentil 0.25
y al número 0.68 como su percentil 0.75. Necesito unos cuantos porcentajes
más. Cómo dividirı́a usted el intervalo [0 a 0.50] en dos partes igualmente
probables?
Cliente: 0.42.
Analista: Ahora divida el intervalo [0 a 0.42]
Cliente: Me está forzando un poco demasiado.
Analista: Bien. Suponga que yo le dijera que π es menor que 0.42. Preferirı́a
apostar por el intervalo [0 a 0.21] o por el intervalo [0.21 a 0.42]?
Cliente: Por el último, por supuesto. De acuerdo, utilice 0.36.
Analista: Ahora pasemos al extremo superior. Divida [0.68 a 1.00].
Cliente: Utilice 0.75.
Analista: De acuerdo. Divida [0.75 a 1.00].
Cliente: Utilice 0.80.
Analista: Resumamos sus respuestas en una tabla:

Distribución Subjetiva del Cliente
Percentil Valor del Percentil
0.0625 0.36
0.125 0.42
0.25 0.50
0.50 0.60
0.75 0.68
0.875 0.75
0.9375 0.80
Esta discusión puede continuar por largo tiempo y a medida que el cliente
es más y más consciente del proceso de elicitación y su información es cada vez
mejor.
2.9. ANÁLISIS PREPOSTERIOR 17
2.9. Análisis preposterior

Martz y Waller (1982) recomiendan lo siguiente para garantizar la realización
de un buen análisis bayesiano:
Una justificación y análisis detallados de la distribución apriori selecciona-

da, con un claro entendimiento de las implicaciones matemáticas de la
apriori,
Una documentación completa de las fuentes de datos utilizados en la iden-
tificación y selección de la apriori,
Un análisis preposterior de la distribución apriori con resultados de prueba

hipotéticos,
Una distribución aposteriori claramente definida para los parámetros de

interés,
Un análisis de sensibilidad de las inferencias bayesianas para el modelo

apriori seleccionado.
Capı́tulo 3
Teorema de Bayes
El Teorema de Bayes es ahora una de las piedras fundamentales del trabajo

estadı́stico y sigue siendo de cierta discusiones tanto de sus orı́genes como de sus
implicaiones filosóficas (Dawid, 2004). Este teorema fue publicado varios años
después de la muerte de reverendo Thomas Bayes por un amigo.
Teorema 3.1 (Teorema de Bayes) Sean B1 , B2 , · · · , Bk eventos mutuamente

excluyentes y exhaustivos. Para cualquier evento nuevo A, tenemos
T
P (Bi A) P (A|Bi ) P (Bi )
P (Bi |A) = = Pk
P (A) i=1 P (A|Bi ) P (Bi )
Prueba: (Ejercicio)
Teorema 3.2 (Teorema de Bayes para Variables Aleatorias) Sean X y

θ variables aleatorias con fdp’s f (x|θ) y ξ(θ).
f (x|θ) ξ(θ)
ξ (θ|x) = R
Θ
f (x|θ) ξ(θ) dθ
Dentro del marco bayesiano tenemos que:
X : Datos (escalar o vector o matriz)
θ: Parámetro desconocido (escalar o vector o matriz)
f (x1 , · · · , xn |θ): Verosimilitud de los datos dado el parámetro (desconoci-

do) θ.
ξ(θ): Distribución apriori de θ.
19
20 CAPÍTULO 3. TEOREMA DE BAYES
Por el teorema anterior

f (x1 , · · · , xn |θ) ξ(θ)
ξ (θ|x1 , · · · , xn ) = R
Θ
f (x1 , · · · , xn |θ) ξ(θ) dθ
Esta es llamada la distribución posterior. La inferencia bayesiana se deriva

de esta distribución. En la práctica, el denominador de la expresión anterior no
necesita ser calculado en general, y la regla de Bayes se escribe como
ξ (θ|x1 , · · · , xn ) ∝ f (x1 , · · · , xn |θ) ξ(θ)
Por lo tanto solo necesitamos conocer la distribución posterior hasta una con-
stante de normalización. Muchas veces somos capaces de identificar la distribu-
ción posterior de θ mirando solamente este numerador. El teorema de Bayes lo
que hace es una “actualización” de ξ(θ) a ξ (θ|x1 , · · · , xn ).
Nota: El aprendizaje bayesiano será
ξ (θ|x1 ) ∝ f (x1 |θ) ξ(θ)

ξ (θ|x1 , x2 ) ∝ f (x2 |θ) f (x1 |θ) ξ(θ)
∝ f (x2 |θ) ξ (θ|x1 )
Por lo tanto el teorema de Bayes nos muestra cómo el conocimiento acerca

del estado de la naturaleza representada por θ es continuamente modificada a
medida que nuevos datos son adquiridos.
Ejemplo 3.1 Distribución Apriori Uniforme Truncada Muchas veces

somos capaces en un problema binomial de especificar claramente en qué región
es imposible que esté el parámetro, pero somos incapaces de especificar mejor
nuestro conocimiento sobre él. Podemos pensar en utilizar una distribución apri-
ori que refleje esta ignorancia, para ello considremos una uniforme truncada, esto
es,
π ∼ U (π0 , π1 )
Esto es,
1
ξ (π|π0 , π1 ) = 0 ≤ π0 < π < π1 ≤ 1
π1 − π0
La distribución posterior de π dado x es
Γ(n+2) (y+1)−1
Γ(y+1)Γ(n−y+1) π (1 − π)(n−y+1)−1
ξ (π|x, π0 , π1 ) = R π1 Γ(n+2)
π0 Γ(y+1)Γ(n−y+1)
π (y+1)−1 (1 − π)(n−y+1)−1 dπ
Pn
donde y = i=1 xi . Notemos que el denominador de la función es la P (π0 < W < π1 |y + 1, n − y + 1),
donde W ∼ Beta(y + 1, n − y + 1), y esto se calcula fácilmente en programas
como el R.
21
Es fácil hallar la media y la varianza aposteriori. Ellas son

y + 1 P (π0 < W < π1 |y + 2, n − y + 1)
E (π|x, π0 , π1 ) =
n + 2 P (π0 < W < π1 |y + 1, n − y + 1)
y
(y + 2)(y + 1) P (π0 < W < π1 |y + 3, n − y + 1)

V ar (π|x, π0 , π1 ) =
(n + 3)(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)
2
(y + 1) P (π0 < W < π1 |y + 2, n − y + 1)
−
(n + 2) P (π0 < W < π1 |y + 1, n − y + 1)
Ejemplo 3.2 Aplicación Numérica del Caso Anterior Suponga que

creemos que el porcentaje de mujeres que actualmente estudia en la universidad
está entre el 35 % y el 70 %, o sea
1
ξ(π) = para π ∈ (0,35, 0,70)
0,70 − 0,35
= 0 en otro caso.
Asumamos además que tomamos una muestra al azar de la población de

10 estudiantes y encontramos que 6 son hombres y 4 mujeres, o sea, y = 4 y
n = 10. El intervalo de confianza clásico (clásico porque la mayorı́a de los textos
básicos es el único que presentan) basado en el teorema central del lı́mite, a
pesar del tamaño muestral ser pequeño, dada la casi simetrı́a de la distribución
poblacional, se puede aplicar, será
r
π̂ (1 − π̂)
π̂ ± 1,96
n
lo que produce (0.0963, 0.703).
La aproximación bayesiana nos da una distribución posterior
Γ(12) 4
Γ(5)Γ(5) π (1 − π)6
ξ (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) =
K(0,70; 5, 7) − K(0,35; 5, 7)
donde Z z
Γ(α + β) α−1
K(z; α, β) = x (1 − x)β−1 dx
0 Γ(α)Γ(β)
Entonces
E (π|n = 10, y = 4, π0 = 0,35, π1 = 0,70) = 0,4823673
y un intervalo de credibilidad del 95 % es (0.3561442, 0.6680237). Este último

se encuentra resolviendo
22 CAPÍTULO 3. TEOREMA DE BAYES
Z π∗ Γ(12) 4
− π)6
Γ(5)Γ(5) π (1
dπ = 0,95
π∗ K(0,70; 5, 7) − K(0,35; 5, 7)
y formando el intervalo (π∗ , π ∗ ).
3.1. Usos de la Función de Verosimilitud en Análi-

sis Bayesiano
Berger et a. (1998) presenta diferentes usos para la función de verosimilitud,
L(θ):
1. Reporte Cientı́fico: Se considera una buena práctica de reporte presentar

separadamente L(θ) y ξ(θ|x), a menudo gráficamente, para indicar el efecto
de la distribución apriori. Esto le permite a otros investigadores utilizar
sus propias distribuciones apriori.
2. Análisis de Sensibilidad: Es importante estudiar la sensibilidad a ξ(θ), y

tener disponible L(θ) para este propósito es valioso.
3. Costo de Elicitación: Obtener distribuciones apriori subjetivas es a menudo

muy costoso, tanto en tiempo como en esfuerzo. Es a menudo efectivo a
nivel de costos eliminar los parámetros de molestia de una forma básica,
produciendo L(θ), y concentrar la elicitación subjetiva a ξ(θ).
4. Objevitivismo: Aunque la “objetividad” no se puede garantizar en ningún

estudio, el presentar L(θ) ayuda a darle esta impresión a muchos investi-
gadores.
5. Combinación de Verosimilitudes: Si se obtiene información sobre θ de

diferentes fuentes independientes, y vienen con sus respectivas verosimili-
Q
tudes, digamos Li (θ), podemos resumir toda esta información como i Li (θ).
Esta es la base del meta-análisis. De hecho, no se pueden multiplicar apos-
terioris de esta forma.
6. Aprioris Impropias: Se reduce los peligros de utlizar aprioris impropias.

Capı́tulo 4
Distribuciones Conjugadas
Dada la magnitud de la tarea de determinar una distribución apriori que

refleje de una manera clara nuestra información bayesiana, uno intuitivamente
piensa en limitar la búsqueda a familias de distribuciones apriori que posean
ciertas caracterı́sticas, tales como:
1. Tratabilidad analı́tica:
a) Facilidad de determinación de la distribución posterior de la muestra

y de la apriori.
b) Facilidad para obtener caracterı́sticas de interés, por ejemplo, valores
esperados.
c) La apriori y aposteriori deben ser miembros de la misma familia
(cerrada).
2. Flexibilidad y riqueza: Debe permitir modelar una gran variedad de infor-

mación apriori y creencias.
3. Interpretabilidad: Los parámetros deben ser de tal forma que el analista

pueda relacionarlos fácilmente con sus creencias e información.
Las distribuciones conjugadas juegan un papel importante en los métodos

bayesianos, ya que su uso puede simplificar el procedimiento de integración
requerido para la marginalización. Ya que al pertenecer la apriori y la aposteri-
ori a la misma familia, el proceso de actualización de parámetros se simplifica
(Ramoni y Sebastiani, 1998), lo cual es una gran ventaja para los sistemas in-
teligentes.
La conjugación nos limita a la selección de una clase de aprioris limitada y la
información apriori solo puede utilizarse para la selección de los hiperparámet-
ros. Si la clase es lo suficientemente grande esto puede no ser un gran problema.
23
24 CAPÍTULO 4. DISTRIBUCIONES CONJUGADAS
4.1. Distribución Binomial

Teorema 4.1 Suponga que X1 , · · · , Xn es una muestra aleatoria de una dis-
tribución Bernoulli con parámetro π, donde el valor de π es desconocido. Tam-
bién supongamos que la distribución apriori de π es una beta con parámetros
α(> 0) y β(> 0). Entonces la distribución posterior
Pn de π cuandoPXi = xi , para
n
i = 1, · · · , n es una beta con parámetros α + i=1 xi y β + n − i=1 xi .
Sean X1 , · · · , Xn variables aleatorias independientes Bernoulli(π). La verosimil-

itud es P P
L(θ) ∝ π i Xi (1 − π)n− i Xi
El parámetro π es univariable, y restringido al intervalo [0, 1]. La distribución
conjugada será
ξ(π) ∝ π α−1 (1 − π)β−1 , con α, β > 0
α y β son llamados hiperparámetros. Esta palabra se utiliza para distiguirlos
del parámetro modelo muestral π. SiP
comparamos la apriori Pcon la verosimilitud
vemos que α−1 puede asociarse con i Xi y β −1 con n− i Xi . Por lo tanto el
experto que debe expresar su información apriori puede realizar la tarea mental
de extraer una muestra imaginaria de 0’s y 1’s de tamaño α + β − 2 y distribuir
tanto los ceros y los unos como su imaginación se lo dicte. El tamaño de esta
muestra imaginaria puede asociarse con el nivel de confianza subjetiva que el
experto tenga en sus asignaciones. Esta distribución apriori se puede resumir
mediante:
α
E(π) =
α+β
α−1
M oda =
α+β−2
αβ E(π)(1 − E(π))
V ariancia = =
(α + β)2 (α + β + 1) α+β+1
La esperanza apriori E(π) corresponde a la probabilidad marginal de tener

un éxito antes de obtener cualquier observación:
Z Z
E(π) = πξ(θ) dπ = p(Y = 1|π)ξ(π) dπ = p(X = 1)
Ya que la varianza de π es una función decreciente de α + β para una media

dada, la suma de los hiperparámetros α + β es también llamada la precisión de
la distribución.
La distribución posterior es
P P
ξ(π|X1 , · · · , Xn ) ∝ π α+ i Xi −1 (1 − π)β+n− i Xi −1
P P
la cual es una distribución beta con hiperparámetros α + i Xi y β +n− i Xi .
Por lo tanto, la precisión posterior se incrementa por el tamaño muestral n.
4.1. DISTRIBUCIÓN BINOMIAL 25
La media aposteriori se puede expresar como

Pn Pn
α + i=1 Xi α+β α n i=1 Xi
= +
α+β+n α+β+n α+β α+β+n n
lo que es una media ponderada

Pn
i=1 Xi
E (π|X1 , · · · , Xn , α, β) = w · E(π|α, β) + (1 − w) ·
n
donde w = (α + β)/(α + β + n).
Ejemplo 4.1 Este ejemplo es desarrollado por Draper (2000) y hace referen-
cia a entradas de pacientes a un hospital universitario con Ataque Agudo del
Miocardio (AAM). Se considera la tasa de mortalidad de los pacientes en los
30 dı́as siguientes a la admisión al hospital. Se conoce que en Inglaterra esta
tasa es del 15 % (No necesariamente para este hospital la tasa sea igual). Para
elicitar la distribución apriori sobre la proporción de pacientes con AAM que
muere en lo 30 dı́as siguientes, se utiliza esta información como, digamos el
promedio. Ahora se necesita un poco más de información y el analista,tal vez
usando el Teorema Central del Lı́mite, piensa que el 95 % de las posibles tasas
de mortalidad para este hospital deben estar entre 5 % y 30 %. Debemos buscar
por lo tanto una distribución Beta(α, β) que tenga una media de 0.15 y el área
bajo la curva entre los lı́mites (0.05, 0.30) debe ser igual a 0.95. Mediante ensayo
y error se encuentra que α = 4,5 y β = 25,5 se tiene una distribución con las
caracterı́sticas deseada.
Escrito esto en forma jerárquica el modelo es
(α, β) = (4,5, 25,5) (Hiperparámetros)

π|α, β ∼ Beta(α, β) (Apriori)
X 1 , · · · , Xn ∼ Bernoulli(π) (Verosimilitud)
La función de verosilmilitud de los datos es
L(π) = p (X1 , · · · , Xn |π) = π S (1 − π)n−S ∝ Beta(S + 1, n − S + 1)

Pn
donde S = i=1 Xi . Si hemos observado 400 personas con AMM en el hospi-
tal, de los cuales 72 fallecieron en los siguientes 30 dı́as, lo cual produce una
verosimilitud proporcional a una Beta(73, 329). La distribución posterior será,
por lo tanto,
ξ(π|S = 72, n = 400) ∝ Beta(76,5, 353,5)
La información muestral equivalente en la distribución apriori se puede aso-

ciar con n∗ = α + β, en este caso es n∗ = 4,5 + 25,5 = 30. La información
muestral es muy grande con relación a la apriori 400/30 es más de 13 a 1.
4.1.1. Elicitación de los Parámetros de la Beta para Pro-

porciones
1. Determine la probabilidad r de que un elemento sacado al azar sea un
éxito. Esta probabilidad será considerada como la media de la beta
α
r=
α+β
2. Dada la información que el primer elemento sea un éxito, determine la

probabilidad, r+ , de que el segundo elemento seleccionado al azar sea otro
éxito. La regla dice que la densidad actualizada es una Beta (α + 1, β),
ası́ que
α+1
r+ =
α+β+1
3. Resuelva simultáneamente
r (1 − r+ )
α =
r+ − r
(1 − r) (1 − r+ )
β =
r+ − r
4. Chequee consistencia: Pregunte por la probabilidad de que el segundo

artı́culo sea un éxito dado que el primero fue un fracaso, diga r− . Uti-
lizando los valores de α y β calcule
α
r− =
α+β+1
y compruebe si los valores elicitados concuerdan.
5. Si el resultado no es satisfactorio se pueden ajustar los valores de r yr+ o

r− hasta obtener un resultado consistente.
En lugar de una Beta

El modelo apriori Beta tiene limitaciones prácticas para representar conocimien-
to apriori sobre la proporción. Gordy1 revisa algunos modelos y propone otro
para representar una variable continua que esté definida en un intervalo acotado.
1 Gordi, B. M. (1998) A generalization of generalized beta distributions. Board of Governors
of the Federal Reserve System

4.1. DISTRIBUCIÓN BINOMIAL 27
La Hipergeométrica Gaussiana (GH) tiene densidad
xp−1 (1 − x)q−1 (1 + λx)−r

GH (x |p, q, r, λ ) =
B(p, q) 2 F1 (r, p, p + q, −λ)
para 0 < x < 1, p > 0, q > 0 y 2 F1 es la función gaussiana hipergeométri-

ca. Cuando r = 0 ó λ = 0 se tiene la beta ordinaria. Esta distribución se
ha usado en análisis bayesiano.
La beta generalizada se define por

q−1
|a| xap−1 (1 − (1 − c)(x/b)a )
GB (x |a, b, c, p, q ) = p+q
bap B(p, q) (1 + c(x/b)a )
para 0 < xa < ba /(1−c), 0 ≤ c ≤ 1, y b, p y q positivos. Cuando a = b = 0

y c = 1 se tiene la beta prima.
Gordy propone la beta generalizada llamada hipergeométrica confluente

y definida por
xp−1 (1 − p)q−1 exp (−sx)

CH(x |p, q, s ) =
B(p, q) 1 F1 (p, p + q, −s)
para 0 < x < 1. La 1 F1 es la hipergeométrica confluente.
Gordy propone la hipergeométrica confluente compuesta definida por
xp−1 (1 − νx)q−1 (θ + (1 − θ)νx)−r exp(−sx)

CCH(x |p, q, r, s, ν, θ ) =
B(p, q)H(p, q, r, s, ν, θ)
para 0 < x < 1/ν, p > 0, q > 0, r ∈ R, s ∈ R, 0 ≤ ν ≤ 1 y θ > 0. Además

H está dada por
H(p, q, r, s, ν, θ) = ν −p exp (−s/ν) Φ1 (q, r, p + q, s/ν, 1 − θ)
con Φ1 es la función hipergeométrica confluyente definida por
X∞ X ∞
(α)m+n (β)n m n
Φ1 (α, β, γ, x, y) = x y
m=0 n=0
(γ)m+n m!n!
y donde (a)k es la notación de Pochhammer, esto es, (a)0 = 1, (a)1 = a

y (a)k = (a)k−1 (a + k − 1). Para esta distribución el k-ésimo momento se
calcula como
(p)k H(p + k, q, r, s, ν, θ)
E(X k ) =
(p + q)k H(p, q, r, s, ν, θ)
4.2. Distribución Binomial Negativa

tribución binomial negativa con parámetros r y π, donde r tiene una valor es-
pecı́fico (r > 0) y el valor de π es desconocido. También supongamos que la
distribución apriori de π es una beta con parámetros α(> 0) y β(> 0). Entonces
Pπn cuando Xi = xi , para i = 1, · · · , n es una beta on
la distribución posterior de
parámetros α + rn y β + i=1 xi .
4.3. Distribución Geométrica

Otra distribución de conteo popular es la geométrica, la cual cuenta el
número de fracasos antes de obtener el primer éxito. Su función de probabilidad
está dada por
P (X = k) = (1 − π)π k k = 0, 1, 2, · · ·
√
Su media es π/(1 − π) y su varianza π/(1 − π)2 . El sesgo es (1 + π)/ π.
4.4. Distribución Multinomial

′
Definición 4.1 (Distribución Dirichlet) El vector aleatorio X = (X1 , · · · , Xk )
′
se distribuye como una Dirichlet con vector de parámetros α = (α1 , · · · , αk ) con
Pk
αi > 0; i = 1, · · · , k, si la p.d.f. f (x|α) para x = (x1 , · · · , xk ) y i=1 xi = 1
está dada por:
Γ(α1 + · · · + αk ) α1 −1
f (x|α) = x · · · xkαk −1
Γ(α1 ) · · · Γ(αk ) 1
La media de Xi es
αi
E(Xi ) =
α0
Pk
donde α0 = i=1 α1 .
La varianza de Xi es
αi (α0 − αi )
var(Xi ) =
α02 (α0 + 1)
y la covarianza entre Xi y Xj es, (i 6= j),
αi αj
Cov(Xi , Xj ) = − 2
α0 (α0 + 1)
4.5. DISTRIBUCIÓN POISSON 29
Teorema 4.3 Suponga que Y = (Y1 , · · · , Yk )′ tiene una distribución multino-

mial con parámetros n (fijo) y W = (W1 , · · · , Wk )′ , desconocidos. Suponga tam-
bién que la distribución apriori de W es una Dirichlet con vector de parámetros
′
α = (α1 , · · · , αk ) con αi > 0; i = 1, · · · , k. Entonces la distribución posterior
de W cuando Yi = yi , i = 1, · · · , k, es una distribución Dirichlet con vector de
′
parámetros α∗ = (α1 + y1 , · · · , αk + yk ) .
Gustafson y Walker (200*) extienden el problema a datos multinomiales

longitudinales. Ellos penalizan la distribución apriori Dirichlet para mermar
el impacto de grandes cambios en las probabilidades en puntos sucesivos del
tiempo. Si denotamos
Γ(α1 + · · · + αk ) α1 −1
ξD (π|α) = π · · · πkαk −1
Γ(α1 ) · · · Γ(αk ) 1
Entonces esta función es reemplazada por

( T
)
T
!
Y 1 X i,t 2
i
ξ π |σ = c(σ) i,t
ξD (π |α = 1) exp − 2 π − π i,t−1
t=1
σ t=2
donde ||·|| es la norma euclı́dea, y σ es un hiperparámtero que debe ser especifi-

cado. La i hace referencia al i-ésimo sujeto. Claramente σ gobierna el grado en el
cual la apriori favorece los pequeños cambios en el tiempo. En particular valores
grandes de σ corresponden a menos favoritismo, con independencia surgiendo
cuando σ → ∞.
4.5. Distribución Poisson

El modelo de conteo más utilizado es el modelo Poisson ya que su desarrollo
teórico es claro y muchos problemas reales pueden modelarse muy bien de esta
forma. Decimos que una variable aleatoria de conteo X se distribuye P oisson(θ)
si su función de probabilidad está dada por
θx exp(−θ)
f (x) = x = 0, 1, 2, 3, · · ·
x!
Para esta distribución se tiene que E(X) = V ar(X) = θ.
Teorema 4.4 Suponga que X1 , · · · , Xn es una muestra de una distribución

Poisson con media desconocida θ. También supongamos que la distribución apri-
ori de θ es una gamma con parámetros α(> 0) y β(> 0). Entonces la distribución
Pn de θ cuando Xi = xi , para i = 1, · · · , n es una gamma con parámetros
posterior
α + i=1 xi y β + n.
4.6. Distribución Exponencial

La distribución exponencial tiene función de densidad de probabilidad dada
por
f (x) = θe−θx x ∈ (0, ∞)
Teorema 4.5 Suponga que X1 , · · · , Xn es una muestra de una distribución ex-
ponencial con parámetro desconocido θ. También supongamos que la distribución
apriori de θ es una gamma con parámetros α(> 0) y β(> 0). Entonces la dis-
cuando Xi = xi , para i = 1, · · · , n es una gamma con
tribución posterior de θ P
n
parámetros α + n y β + i=1 xi .
4.7. Distribución Normal

La distribución normal es la más ampliamente conocida y utilizada distribu-
ción en el trabajo estadı́stico. Hay básicamente dos razones para ello:
Muchas poblaciones pueden ser modeladas aproximadamente por esta dis-
tribución.
Como resultados lı́mites se llega a ella en muchas situaciones.
Su función de densidad es

1 1 (x − µ)2
f (x) = √ exp −
2πσ 2 σ2
con soporte x ∈ (−∞, ∞). Su función de distribución acumulada se denota
Φ(x), su media es µ y su varianza σ 2 . Esta distribución posee dos parámetros,
lo cual nos lleva a considerar diferentes situaciones. La precisión es el inverso de
la varianza.
4.7.1. Precisión Conocida

tribución normal con un valor desconocido de la media µ y un valor especificado
de la precisión r (r > 0).
Distribución Apriori: µ ∼ N (µ0 , τ0 ) donde τ0 es la precisión, tal que
−∞ < µ0 < ∞ y τ0 > 0.
Distribución Posterior:
(µ|X = x) ∼ N (µ1 , τ1 )
donde
τ0 µ0 + nrx̄
µ1 =
τ0 + nr
τ1 = τ0 + nr es la precisión
y x̄ es la media muestral.
4.7. DISTRIBUCIÓN NORMAL 31
Prueba: (Ejercicio)
Observe que la media posterior se puede expresar como

τ0 µ0 + nrx̄ nr τ0
µ1 = = x̄ + µ0
τ0 + nr τ0 + nr τ0 + nr
Se ve claramente que la media posterior es una media ponderada de la media
apriori y la media muestral.
4.7.2. Precisión Desconocida

Este tipo de problema surge en control de calidad cuando lo que interesa
controlar es la variabilidad de un proceso determinado.

tribución normal con un valor conocido de la media m (−∞ < m < ∞) y un
valor desconocido de la precisión W (W > 0).
Distribución Apriori: W ∼ Gamma2 (α0 , β0 ) donde α0 > 0 y β0 > 0.
Distribución Posterior:
(W |X = x) ∼ Gamma (α1 , β1 )
donde
n
α1 = α0 +
2
n
1X 2
β1 = β0 + (xi − m) .
2 i=1
Prueba: (Ejercicio)
4.7.3. Media y Precisión Desconocidas

Este caso, a pesar de lo simple que puede parecer, muestra la complejidad a la
que puede llegar a enfrentar el estadı́stico ante la presencia de varios parámetros.

tribución normal con un valor desconocido de la media µ y un valor desconocido
de la precisión R (R > 0).
2 Asumimos una gamma de la forma
β α α−1 −βx
f (x) = x e
Γ(α)
Distribución Apriori Conjunta de µ y R:
1. La distribución condicional de µ cuando R = r es µ ∼ N (µ0 , τ0 r)

donde τ0 r es la precisión, tal que −∞ < µ0 < ∞ y τ0 > 0, y
2. la distribución marginal de R es Gamma (α0 , β0 ) donde α0 > 0 y
β0 > 0.
Distribución Posterior Conjunta de µ y R cuando X = x:
1. La distribución condicional de µ cuando R = r es
(µ|X = x) ∼ N (µ1 , τ1 )
donde
τ0 µ0 + nx̄
µ1 =
τ0 + n
τ1 = (τ0 + n)r
y x̄ es la media muestral.
2. la distribución marginal de R es Gamma(α1 , β1 ) donde
n
α1 = α0 +
2
n
1X
2
2 τ n (x̄ − µ0 )
β1 = β0 + (xi − x̄) +
2 i=1 2(τ + n)
Prueba: (Ejercicio)
4.8. Distribución Gamma

La distribución gamma ha sido ampliamente aplicada en confiabilidad y en
pruebas de vida. Decimos que la variable aleatoria X tiene una distribución
gamma con parámetros β y α si su densidad es
β α α−1
f (x|α, β) = x exp (−βx) x > 0, α > 0
Γ(α)
donde α denota el parámetro de forma y β es el recı́proco de un parámetro de

escala. Si x1 , x2 , · · · , xn es una muestra aleatoria de esta distribución, entonces
la función de densidad conjunta es
n
Y β nα
f (xi |α, β) = pα−1 exp (−sβ)
i=1
[Γ(α)]n
4.8. DISTRIBUCIÓN GAMMA 33
donde
n
X
s = xi
i=1
Yn
p = xi
i=1
Miller (1980) usa una clase conjugada muy general definida por la conjunta
′
β ν α−1 ′ α−1
ξ(α, β) ∝ (p ) exp (−s′ β)
[Γ(α)]n′
′
donde α > 0, β > 0, n′ > 0, ν ′ > 0, s′ > 0 y p′ > 0, tal que n′ (p′ )1/n /s′ < 1.
La distribución posterior es proporcional a
′′
β ν α−1 ′′ α−1
ξ(α, β|x) ∝ p exp (−s′′ β)
[Γ(α)]n′′
donde ν ′′ = ν ′ + n, p′′ = p′ p, s′′ = s′ + s y n′′ = n′ + n.

La distribución condicional de β dado α es una Gamma (ν ′′ , s′′ ), y la dis-
tibución marginal posterior de α es proporcional a
ν ′′ α
Γ (ν ′′ α) r′′
[Γ(α)]′′ n′′
donde
√ ′′ ′ ′ ′
r′′ ν ′′
p (p′ )1/(ν +n) (r/n)n/(ν +n) sn/(ν +n)
= =
n′′ s′′ s′ + s
Capı́tulo 5
Distribuciones No Informativas
El uso de distribuciones apriori no informativas buscan que ellas tengan un

impacto mı́nimo sobre la distribución posterior del parámetro de interés y que
sea relativamente plana con relación a la verosimilitud. Esto busca que sean
los datos los que tengan un claro dominio en la distribución posterior, y, por
lo tanto, en todas las inferencias que de ellas se obtengan. También se conocen
como vagas, difusas, planas o de referencia. Estas distribuciones no informativas
se reunen en dos grupos:
Propias: Cuando la distribución de probabilidad integra a una constante finita,

se dice que es propia. Por ejemplo, para el caso de la distribución bino-
mial, su parámetro π, que denota el porcentaje de éxitos en la población,
podemos asumir como apriori la U (0, 1), lo cual refleja nuestra ignorancia
total, al asumir que cualquier valor en este intervalo es igualmente posible
como valor.
Impropias: Una distribución apriori ξ(θ) es impropia si

Z
ξ(θ) dθ = ∞
Θ
Notas:
1. Una distribución apriori impropia puede terminar en una aposteriori im-

propia y por lo tanto no se podrán hacer inferencias.
2. Una distribución apriori impropia puede llevar a una aposteriori propia.
Ejemplo 5.1 Asumamos que y1 , · · · , yn |θ son variables distribuidas normal e

independientemente con media θ y con varianza conocida σ 2 . Asumamos que
ξ(θ) ∝ 1 es la distribución apriori uniforme (impropia) sobre los números reales.
La verosimilitud es
35
36 CAPÍTULO 5. DISTRIBUCIONES NO INFORMATIVAS
!
2
n (ȳ − θ)
L (θ|y) ∝ exp −
2 σ2
y la distribución posterior es

σ2
θ|y ∼ N ȳ,
n
la cual es una distribución propia.
Yang y Berger (1998) presentan varias razones por las cuales es importante
considerar las distribuciones no informativas. Tenemos entre ellas
Con frecuencia la elicitación de las distribuciones apriori es imposible, por
múltiples razones, por ejemplo, limitaciones de costo o tiempo, o resisten-
cia o falta de entrenamiento de los clientes.
El análisis estadı́stico debe aparecer como “objetivo”.
La elicitación subjetiva puede producir malas distribuciones subjetivas,
por ejemplo si la elicitación es sesgada.
En problemas de alta dimensión, lo más que se puede esperar es obtener
buenas distribuciones subjetivas para algunos pocos parámetros, y a los
parámetros de perturbación se les asignan distribuciones no informativas.
El análisis bayesiano con distribuciones no informativas puede utilizarse
para obtener procedimientos clásicos buenos.
Aún cuando un investigador tenga creencias apriori fuertes, puede ser más
convincente analizar los datos utilizando una apriori de referencia dominada por
la verosimilitud. Además podemos automatizar el proceso de hallar aprioris.
Yang y Berger (1998) proporcionan un amplio catálogo de distribuciones no
informativas que es útil en el trabajo aplicado.
5.1. El Principio de la Razón Insuficiente de Laplace

Si el espacio parametral es finito se puede utilizar una distribución apriori
uniforme para reflejar ignorancia total.
5.2. Apriori de Jeffreys

La distribución apriori de Jeffreys satisface la propiedad local de uniformidad
para distribuciones apriori no informativas. Esta apriori está basada en la matriz
de información de Fisher. Jeffreys la propuso como una “regla general” para
determinar la distribución apriori (Kass y Wasserman, 1994).
5.2. APRIORI DE JEFFREYS 37
Definición 5.1 Sea f (x|θ) la densidad de x dado θ. La información de Fisher

es definida como
2
∂ log (f (x|θ))
I(θ) = −E
∂θ2
Si θ es un vector de p componentes, entonces

∂ 2 log (f (x|θ))
I(θ) = −E
∂θi ∂θj p×p
y entonces I(θ) será una matriz de dimensión p × p.
Definición 5.2 La distribución apriori de Jeffreys se define como
1/2
ξ(θ) ∝ |I(θ)|
La distribución apriori de Jeffreys es localmente uniforme y por lo tanto no

informativa. Esta propiedad es importante ya que nos proporciona un esquema
automatizado para hallar distribuciones apriori no informativas para cualquier
modelo paramétrico (Ibrahim, 2002). Esta distribución es impropia para muchos
modelos, sin embargo, es propia para algunos.
Ejemplo 5.2 Asumamos que y1 , · · · , yn son variables distribuidas independi-

entemente Bernoulli(π). Encontremos la distribución apriori de Jeffreys para
π.
La densidad para una variable Bernoulli(π) es
p(y|π) = π y (1 − π)1−y
Entonces tenemos
log (p(y|π))= y log(π) + (1 − y) log(1 − π)

∂ y 1−y
log (p(y|π))= −
∂π π 1−π
∂2 y 1−y
log (p(y|π))= − 2−
∂π 2 π (1 − π)2
2
∂
I(π) = −E log (p(y|π))
∂π 2
E(y) 1 − E(y) 1 1−π
= + = +
π2 (1 − π)2 π (1 − π)2
1 1 1
= + = .
π 1−π π(1 − π)
Por lo tanto la distribución apriori de Jeffreys es

ξ(π) ∝ I(π)1/2
1/2
1
=
π(1 − π)
= π −1/2 (1 − π)−1/2
= π 1/2−1 (1 − π)1/2−1

Ası́ π ∼ Beta 21 , 21 . Por lo que vemos en este caso la distribución apriori de
Jeffreys es propia.
Ejemplo 5.3 Asumamos que y1 , · · · , yn |µ son variables distribuidas normal e

independientemente con media µ y con varianza σ 2 desconocidas. calculemos la
distribución apriori de Jeffreys para (µ, σ)

1 1 2
f (x|µ, σ) = √ exp − 2 (x − µ)
2πσ 2σ
1 1 2
log (f (x|µ, σ)) = − log(2π) − log(σ) − 2 (x − µ)
2 2σ
∂ log (f (x|µ, σ)) 1
= (x − µ)
∂µ σ2
2
∂ log (f (x|µ, σ)) 1
= − 2
∂µ2 σ
∂ log (f (x|µ, σ)) 1 1
= − + 3 (x − µ)2
∂σ σ σ
∂ 2 log (f (x|µ, σ)) 1 3
= − 4 (x − µ)2
∂σ 2 σ2 σ
∂ 2 log (f (x|µ, σ)) 2
= − 3 (x − µ)
∂µ∂σ σ
Tomando la esperanza obtenemos
1
µ 0
I = σ2 2
σ 0 σ2
Ası́ la distribución apriori será

1/2
µ
ξ(µ, σ)
∝ I
σ
1/2
1 2
= × 2
σ2 σ
1
∝
σ2
5.3. OTRAS ALTERNATIVAS 39
Esta distribución apriori de Jeffreys es impropia.
La distribución apriori de Jeffreys tiene la propiedad de invarianza, ya que

para cualquier otra transformación uno a uno sigue siendo no informativa. Esto
surge de la relación
2
dψ(θ)
I(θ) = I(ψ(θ))
dθ
donde ψ(θ) es una transformación uno a uno de θ. Ası́

1/2 1/2 dψ(θ)
(I(θ)) = (I(ψ(θ)))
dθ

Note que dψ(θ)
dθ es el valor absoluto del jacobiano de la transformación de θ a
ψ(θ). Ası́
1/2 1/2
(I(θ)) dθ = (I(ψ)) dψ
La apriori de Jeffreys preserva la escala en parametrizaciones.
Ejemplo 5.4 Supongamos x ∼ N (µ, 1). La distribución apriori de Jeffreys para

µ es ξ(µ) ∝ 1. Sea ψ(µ) = eµ . Esta es una transformación uno a uno en µ. La
correspondiente apriori de jeffreys para ψ(µ) es

dψ(µ) −1
(I(ψ(µ))) 1/2
= (I(µ))1/2
dµ
= 1 × e−µ
= e−µ
Ası́ la distribución apriori de Jeffreys para ψ(µ) = eµ es
ξ(µ) ∝ e−µ , −∞ < µ < ∞.
La propiedad de invarianza significa que si tenemos una distribución apriori

localmente uniforme en θ, y si ψ(θ) es una función uno a uno de θ, entonces
ξ (ψ(θ)) es una distribución apriori localmente uniforme para ψ(θ).
5.3. Otras Alternativas

Definición 5.3 (Distribución Apriori de Máxima Entropı́a) Cuando θ es
univariable y puede tomar cualquier valor sobre la recta real, y la media y la var-
ianza apriori están especificadas, la distribución apriori de máxima entropı́a es
la Normal con la media y la varianza especificadas.
Kass y Wasserman (1994) presentan la definición planteada por Novick y

Hall:
Definición 5.4 (Distribución Apriori Indiferente) Se define una distribu-

ción apriori indiferente si identificando una clase de conjugadas se selecciona
una apriori de esta clase que satisfaga:
La apriori debe ser impropia y
una “muestra mı́nima necesaria” debe inducir una posterior propia.
Un ejemplo de la anterior definición es claro en el problema binomial, con la

−1
clase conjugada de las Betas, la distribución apriori {π(1 − π)} es una apriori
indiferente.
Box y Tiao (1973) proponen el uso de distribuciones apriori localmente uni-
formes, las cuales consideran el comportamiento local de la apriori en una región
donde la verosimilitud es apreciable, pero la apriori no se asume grande por fuera
de esa región.
5.4. Marginalización
Ejemplo 5.5 Eliminando un término de molestia. En muchas situaciones
tenemos un vector de parámetros, pero solo estamos interesados realmente en
unos pocos. Debemos por lo tanto proceder a “eliminar” aquellos términos de
molestia. Esto lo hacemos mediante la marginalización.
Suponga
que x1 , · · · , xn
es una muestra aleatoria de una N µ, σ 2 , donde µ, σ 2 son desconocidos. Sea
τ = 1/σ 2 . Suponga que especificamos una apriori no informativa de Jeffreys

ξ µ, σ 2 ∝ τ
Ahora,
( n
)
n τX 2
ξ (µ, τ |x) ∝ τ 2 −1 exp − (xi − µ) .
2 i=1
Ası́, para eliminar el término nuisance τ marginalizamos

Z ∞ ( n
)
n
−1 τX 2
ξ (µ |x) ∝ τ 2 exp − (xi − µ) dτ.
0 2 i=1
No es difı́cil llegar a
Z ( )
∞
n τ X
n n nτ o
2 −1
2 2
ξ (µ |x) ∝ τ exp − (xi − x̄) exp − (x̄ − µ) dτ.
0 2 i=1 2
Sea
5.4. MARGINALIZACIÓN 41
n
1 X 2
s2 = (xi − x̄)
n − 1 i=1
Entonces
Z n τ
n
∞ o
ξ (µ |x) ∝ τ 2 −1 exp − (n − 1)s2 + n(µ − x̄)2 dτ
0 2
−n/2
∝ (n − 1)s2 + n(µ − x̄)2
−(n−1+1)/2
n 2
∝ 1+ (µ − x̄)
(n − 1)s2
Ası́

s2
µ|x ∼ t n − 1, x̄,
n
Por lo tanto
µ − x̄
√ ∼ t(n−1)
s/ n
A pesar de haber llegado a un resultado que es de uso común en la estadı́stica

clásica, la interpretación aquı́ es diferente.
Ejemplo 5.6 Eliminando otro término de molestia. En el ejemplo anterior

supongamos que el término de molestia es µ. Debemos por lo tanto halla ξ (τ |x).
procedemos de manera similar
Z n τ
∞
n o
ξ (τ |x) ∝ τ 2 −1 exp − (n − 1)s2 + n(µ − x̄)2 dµ
−∞ 2
n−1
n τ o
∝ τ 2 −1 exp − (n − 1)s2
2
Ası́

n − 1 (n − 1)s2
τ |x ∼ Gamma ,
2 2
De lo anterior obtenemos que
(n − 1)s2 τ ∼ ξn−1
2
Capı́tulo 6
Inferencia Bayesiana
6.1. Estimación Puntual

Dada una distribución sobre un parámetro particular, digamos θ, requerimos
seleccionar un mecanismo para escoger un “buen” un estimador θ̂. Supongamos
que θ0 es el verdadero parámetro, desconocido. Sea d nuestra adivinanza de este
valor. Debemos de alguna forma medir el error que cometemos (digamos que
esto puede ser una multa o un pago) al adivinar a θ0 mediante d. Esto puede
2
ser medido por (d − θ0 ) o por |d − θ0 | o mediante alguna otra función.
Un problema estadı́stico puede resumirse como (S, Ω, D, L), donde
S: Es el espacio muestral de un experimento relevante que tiene asociada una

variable aleatoria X cuya distribución de probabilidad está parametrizada
por un elemento de Ω.
Ω: Espacio parametral (en un sentido amplio)
D: Un espacio de decisiones
L: Una función de pérdida.
Una vez un problema estadı́stico ha sido especificado, el problema de infer-

encia estadı́stica es seleccionar un procedimiento (estadı́stico), a veces llamado
una función de decisión, que nos describe la forma de tomar una decisión una
vez un resultado muestral ha sido obtenido.
Definición 6.1 Una función de decisión o procedimiento estadı́stico es una fun-

ción o estadı́stico d que mapea de S a D.
Definición 6.2 Sea D un espacio arbitrario de decisiones. Una función no neg-

ativa L que mapea de Ω × D a R es llamada una función de pérdida.
43
44 CAPÍTULO 6. INFERENCIA BAYESIANA
Definición 6.3 El valor esperado de L(θ, d(X)) cuando θ es el verdadero valor

es llamada la función de riesgo
Z
R(θ, d) = Eθ [L (θ, d(X))] = L (θ, d(x)) dPθ (x)
Función de Pérdida Cuadrática:

2
L(d, θ) = (d − θ)
Miremos el riesgo para esta función de pérdida. Sea

Z
b = Eξ(θ|x) (θ) = θ ξ (θ|x) dθ
el promedio de la distribución aposteriori. Entonces
Z
E [L(d, θ)] = L(a, θ) ξ (θ|x) dθ
Z
= (a − b + b − θ)2 ξ (θ|x) dθ
Z
= (a − b) + (b − θ)2 ξ (θ|x) dθ
2
Z
≥ (b − θ)2 ξ (θ|x) dθ
,
para cualquier valor de d. La desigualdad anterior se convierte en igual-

dad cuando d = b. El estimador bayesiano bajo una función de pérdida
cuadrática es la media de la distribución posterior.
Función de Pérdida Error Absoluto:
L(d, θ) = |d − θ|
El riesgo es minimizado tomando d como la mediana de la distribución

posterior, digamos d∗ . O sea, la mediana es el estimador bayesiano cuando
la función de pérdida es el valor absoluto. Para mostrar esto supongamos
otra decisión tal que d > d∗ . Entonces
 ∗
 d −d si θ ≥ d,
|θ − d| − |θ − d∗ | = d + d∗ − 2θ si d∗ < θ < d,

d − d∗ si θ ≤ d∗ .
Ya que (d + d∗ − 2θ) > (d∗ − d) cuando d∗ < θ < d, entonces el siguiente

resultado se consigue
6.1. ESTIMACIÓN PUNTUAL 45
E(|θ − d| − |θ − d∗ |) ≥ (d∗ − d)P (θ ≥ d) + (d∗ − d)P (d∗ < θ < d)
+(d − d∗ )P (θ ≤ d∗ )
= (d − d∗ ) [P (θ ≤ d∗ ) − P (θ > d∗ )] ≥ 0
Esta última desigualdad sigue del hecho que d∗ es la mediana de la distribución
de θ. La primera desigualdad en este conjunto de ecuaciones será una igualdad
si, y solo si, P (d∗ < θ < d) = 0. La desigualdad final será una igualdad si, y
solo sı́,
1
P (θ ≤ d∗ ) = P (θ > d∗ ) = .
2
Estas condiciones implican que d es también una mediana. Por lo tanto, E(|θ −
d|) ≥ E(|θ − d∗ |), y la igualdad se cumple si, y solo si, d es también mediana.
Una prueba similar puede hacerse si d < d∗ .
Función de Pérdida Escalonada:
L(d, θ) = 0 si |d − θ| ≤ δ
= 1 si |d − θ| > δ
donde δ es un número predeterminado, usualmente pequeño.
Z
E [L(d, θ)] = I (|d − θ| > δ) ξ (θ|x) dθ
ZΘ
= I (1 − (|d − θ| ≤ δ)) ξ (θ|x) dθ
Θ
Z d+δ
= 1− ξ (θ|x) dθ
d−δ
≈ 1 − 2δξ (d|x)
Para minimizar el riesgo es necesario maximizar ξ (d|x) con respecto a d y el

estimador bayesiano es el maximizador. Por lo tanto, el estimador bayesiano
será el que maximiza la posterior, esto es, el valor modal. Este estimador es
llamado el estimador máximo-aposteriori (MAP).
Una estimación que puede ser utilizada en una o más dimensiones, espe-
cialmente cuando la función de pérdida no ha sido definida explı́citamente, es
el valor del parámetro en el cual se maximiza la disribución posterior. Para
cualquier observación de x, sea ψ(·|x) que denota la distribución posterior de
W en el espacio parametral Ω. Sea ŵ(x) el valor de w que satisface la relación
Ejemplo 6.1 Estimación Puntual de la Media de una Población Nor-

mal con Varianza Conocida
Datos: y = (y1 , y2 , · · · , yn )′ . Asumimos que yi ∼ N (θ, σ 2 ), para todo

i = 1, 2, · · · , n. y la varianza es conocida.
Distribución Apriori para θ:

θ ∼ N µo , σo2 ,
o !
2
1 (θ − µo )
ξ(θ) ∝ exp −
2 σo2
Verosimilitud:
n
!
Y 1 (yi − θ)
2
2
f y|θ, σ = √ exp −
i=1 2πσ 2 2σ 2
n
!
X (yi − θ)
2
∝ exp − 2
i=1
2σ
Distribución Aposterior: Se aplica la regla de Bayes
ξ (θ|y) ∝ ξ(θ) · f (y|θ)

∝ ξ(θ) · L (θ|)
! n
!
1 (θ − µo )
2 X (yi − θ)
2
∝ exp − exp −
2 σo2 i=1
2σ 2
( n
)!
1 (θ − µo )
2 X (yi − θ)
2
∝ exp − +
2 σo2 i=1
σ2
La distribución posterior se puede reorganizar y mostrar que

θ|y ∼ N µn , σn2
donde
1 n
σo2 µo + σ 2 ȳ τo µo + nrȳ
µn = 1 n =
σo2 + σ 2
τo + nr
y
1 1 n
2
= 2+ 2
σn σo σ
6.1. ESTIMACIÓN PUNTUAL 47
Bajo las tres funciones de pérdida el estimador bayesiano para la media será
θ̂ = µn .
Ejemplo 6.2 Poisson

Sea y1 , · · · yn una muestra aleatoria de una P oisson(λ). Supongamos tam-
bién
Pn que la apriori es una Gamma(1, 1). Por lo tanto la aposterior será Gamma(1+
i=1 yi , n + 1).
El estimador bayesiano para λ
bajo la función de pérdida cuadrática es

Pn
1 + i=1 yi
λ̂ =
n+1
bajo la función de pérdida escalonada

Pn
α∗ − 1 i=1 yi
λ̂ = = si α∗ ≥ 1
β∗ n+1
La siguiente función en R calcula los tres estimadores, bajo el supuesto de

una aprori Gamma(α0 , β0 ) :
calcula.estimadores.poisson<-function(alfa0,beta0,x,n=lenght(x)) {
alfa1<-alfa0+sum(x)
beta1<-beta0+n
estimador.fpc<-alfa1/beta1
estimador.fpa<-qgamma(0.5,alfa1,beta1)
estimador.fpe<-(alfa1-1)/beta1
list(estimador.fpc=estimador.fpc,
estimador.fpa=estimador.fpa,
estimador.fpe=estimador.fpe)
}
La utilización será
>calcula.estimadores.poisson(1,1,16,n=4)
$estimador.fpc
[1] 3.4
$estimador.fpa
[1] 3.333571
$estimador.fpe
[1] 3.2
Figura 6.1: Distribuciones Apriori Gamma(α0 = 1, β0 = 1) y Aposteriori

Gamma(α1 = 17, β1 = 5) para un problema de conteo Poisson con parámetro
P4
λ . La muestra n = 4 y i=1 yi = 16.
6.2. REGIONES DE CREDIBILIDAD 49
Definición 6.4 Estimador generalizado de máxima verosimilitud Si tal

valor de w existe para todo valor de x,
ξ [ŵ(x)|x] = sup ξ(w|x)

w∈Ω
entonces decimos que el estimador ŵ(X) es un estimador generalizado de máxi-

ma verosimilitud de W .
6.2. Regiones de Credibilidad

Los intervalos de confianza clásicos frecuentemente son malinterpretados y
los usuarios actúan como si “grado de confianza” fuera sinónimo de uniformidad
dentr del intervalo.
Valores p iguales no proporcionan igual evedencia acerca de la hipótesis,
Harrel Jr., F. E. (2000)
6.3. Región de la Densidad Posterior Más Alta

(RDPMA)
Si p(θ|Y ) denota la densidad posterior entonces podemos definir un intervalo
de credibilidad utilizando la RDPMA.
Definición 6.5 (Box y Tiao, 1973) Una región R en un espacio parametral Θ

es llamada la región de la densidad posterior más alta (RDPMA) de contenido
α si
1. P (θ ∈ R|Y ) = α
2. Para θ1 ∈ R y θ2 6∈ R, se cumple P (θ1 ∈ R|Y ) ≥ P (θ2 ∈ R|Y ).
Para un contenido de probabilidad α, la RDPMA tiene el volumen más

pequeño en el espacio parametral.
Ejemplo 6.3 Distribución Exponencial Elfessi y Reineke (2001) con-

struyen intervalos de credibilidad para la media de la distribución exponencial
bajo una distribución apriori propia conjugada
ξ(θ) = θα−1 exp (−βθ)
para θ > 0, −∞ < α < ∞ y β ≥ 0. Note que esta distribución apriori cor-
responde al kernel de una distribución gamma cuando α ≥ 0. La distribución
aposteriori es por lo tanto
( n
)!
X
n+α−1
ξ (θ|x1 , · · · xn ) ∝ θ exp −θ β + xi
i=1
Esta distribución posterior es propia cuando α + n > 0, y la constante de

proporcionalidad es
Pn α+n
(β + i=1 )
.
Γ(α + n)
El intervalo de credilidad de probabilidad C100 % es

!
χ22(α+n),(1−(1−C)/2) χ22(α+n),((1−C)/2)
Pn , Pn
2 (β + i=1 xi ) 2 (β + i=1 xi )
Ejemplo 6.4 Distribución Uniforme Rossman et al. (1998) presentan la

contrucción de la región de mayor probabilidad para el “parámetro” de la dis-
tribución uniforme U (0, θ). La estadı́stica clásica nos presenta, asumiendo que
X1 , · · · , Xn sea una muestra aleatoria,
Estimador de Máxima Verosimilitud máx {Xi }
n+1
Estimador de Mı́nima Varianza Insesgado n máx {Xi }
Si escogemos una distribución apriori impropia o aplanada de la forma

ξ(θ) = 1 para θ > 0, la distribución posterior es proporcional a la función
de verosimilitud,
1
ξ (θ|X) ∝ n para θ ≥ máx {Xi }
θ
La constante de proporcionalidad, que vuelve la distribución posterior propia
n−1
es (n − 1) (máx {Xi }) . Bajo la función de pérdida cuadrática el estimador
bayesiano es igual a la media aposteriori
Z ∞
n−1
E[θ|X] = θ · ξ (θ|X) dθ = máx {Xi }
−∞ n−2
Un intervalo de probabilidad del 95 % se halla resolviendo

Z LS n−1
(n − 1) (máx {Xi })
dθ
LI θn
Ejemplo 6.5 la siguiente función permite construir un intervalo del 95 % de

probabilidad de la mayor densidad para el parámetro de la Poisson
6.3. REGIÓN DE LA DENSIDAD POSTERIOR MÁS ALTA (RDPMA) 51
intervalo.poisson <-function(a,b)
{
x1<-1:499/10000
x2<-0.950+x1
dif<-abs(dgamma(qgamma(x1,a,rate=b),a,rate=b)
-dgamma(qgamma(x2,a,rate=b),a,rate=b))
x3<-qgamma(x1[which.min(dif)],a,rate=b)
x4<-qgamma(x2[which.min(dif)],a,rate=b)
list(x3=x3,x4=x4)
}
En el ejemplo que tenı́amos nos da
>intervalo.poisson(17,5)
$x3
[1] 1.871629
$x4
[1] 5.045115
Mientras que el intervalo tradicional hallado con ambas colas iguales a α/2 es
$x3
[1] 1.980625
$x4
[1] 5.1966
6.3.1. Intervalos frecuentistas tradicionales para la Pois-

son
El ejemplo anterior nos permite ilustrar una de la múltiples dificultades que
tiene la aproximación tradicional, en la cual pueden existir más de una regla
para construir intervalos de confianza y muchas veces sin la suficiente claridad
por parte del investigador sobre cúal de ellos usar, debido en parte a la carencia
de elementos de juicio que le permita escoger el mejor en una circunstancia
particular.
Intervalo basado en transformaciones (M.T.)

Si X̄ ∼ λ, σ 2 /n , entonces log(X̄) ∼ (log(λ), 1/n), asumiendo que λ > 0
(Serfling, 1980). El intervalo de confianza está dado por
!
1 √
X̄ √ , X̄ exp zα/2 / n
exp zα/2 / n
Método basado en el Teorema Central del Lı́mite (T.C.L.)

Si el tamaño muestral es lo suficientemente grande, podemos aplicar el teo-
rema central del lı́mite.

s s
X̄ − zα/2 √ , X̄ + zα/2 √
n n
Pn 2
donde s2 = 1/n i=1 Xi − X̄ . Este es el intervalo propuesto en la mayorı́a
de textos básicos en estadı́stica (Canavos, 1988; Wonnacott y Wonnacott, 1979;
Roussas, 1973; Walpole, 1992; Meyer, 1986; Mood et al., 1974)
Método basado en la Máxima Verosimilitud

Se sabe que si θ̂ es el estimador máximo verosı́mil para θ (puede ser un vec-

tor), bajo ciertas condiciones suaves (Serfling, 1980), entonces θ̂ ∼ θ, I −1 (θ) ,
con I(θ) siendo la matriz de información de Fisher. Entonces, en el caso expo-
nencial
√ √ !
X̄ X̄
X̄ − zα/2 √ , X̄ + zα/2 √
n n
Método Exacto
Pn
Se sabe que S = i=1 Xi se distribuye Poisson con parámetro nλ. Un in-
tervalo de confianza exacto se obtiene resolviendo
s
X i
(nλL ) α
exp (nλL ) =1−
i=0
i! 2
y
s
X i
(nλU ) α
exp (nλU ) =
i=0
i! 2
Intervalos basados en la Razón de Verosimilitud Relativa

Kalbfleish (1985) presenta la metodologı́a para construir intervalos de verosimi-
litud. Si L(µ) es la función de verosimilitud, se define la función de verosimilitud
relativa como
L(λ)
R(λ) =
L(λ̂)
El conjunto de valores de λ para los cuales R(λ) ≥ p es llamado la intervalo de
100 %p de verosimilitud para λ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %.
6.4. PRUEBAS DE HIPÓTESIS 53
Lo que se debe hacer entonces es hallar las raı́ces que nos dan los lı́mites
del intervalo. Para el caso del parámetro de la exponencial, λ, tenemos que un
intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal que
nX̄
L(λ) λ
R(λ) = = ≥ K(k, α)
L(λ̂) X̄
Esto se resuelve numéricamente.
Bootstrap
El método bootstrap proporciona una manera directa y sencilla para hallar
intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:
1. A partir de la muestra estime el parámetro por máxima verosimilitud.

n
1X
λ̂ = Xj
n j=1
2. Genere M muestras de tamaño n de una distribución exponencial con

parámetro λ̂. Para cada muestra estime el parámetro λ, digamos que para
la muestra j el estimador es λ̂j
n oM
3. Para los λ̂j , construya un histograma y calcule los percentiles .025/(k-
j=1
(0,025) (0,975)
1) y 0.975/(k-1), denotémoslos por λ̂i y π̂i
Otro Método Exacto, K − B

Kabila y Byrne (2000) presentan un método para calcular intervalos de con-
fianza exactos más cortos.
6.4. Pruebas de Hipótesis

Ejemplo 6.6 Poderes Sobrenaturales Bayarri y Berger en la reunión an-
ual que se lleva a cabo en Valencia (España) presentaron el siguiente caso de
sicokinesis: Tres investigadores (Schmidt, Jahn y Radin) en 1987 utilizaron un
generador cuántico que recibe una fila de partı́culas y él desvı́a cada partı́cula,
independientemente de las otras, hacia una luz roja o una luz verde con igual
probabilidad. Se le pidió a un sujeto quien alegaba tener poderes sicokinéticos
que tratara de influenciar el generador de tal forma que las partı́culas se fueran
para la luz roja. Se generaron 104.490.000 partı́culas y se contaron 52.263.470
partı́culas que se fueron hacia la luz roja. Habrá suficiente evidencia que permita
decir que el sujeto tiene poderes sicokinéticos?
Podemos pensar en este exprimento ası́: Cada partı́cula corresponde a un

ensayo Bernoulli(π), y un éxito será si la partı́cula se va para la luz roja. Si
X denota el número de éxitos, X ∼ Binomial (n, π). Tenemos x = 52,263,470
como la observación real. Se necesita probar
1
H0 : π = (El sujeto no tiene poderes)
2
1
H1 : π 6= (El sujeto tiene poderes)
2

El valor − p = PH0 X − n2 ≥ x − n2 ≈ 0,0003 nos lleva a concluir que
hay una fuerte evidencia contra H0 .
Si pensamos bayesianamente necesitamos una distribución apriori, pero aho-
ra definida sobre las hipótesis en juego:
ξ (Hi ) = probabilidad apriori de que Hi sea cierta, i = 0, 1.

Bajo H1 : π 6= 1/2, sea ξ(π) la densidad apriori sobre π. El Bayes objetivo
selecciona
1
P r (H0 ) = P r (H1 ) =
2
con ξ(π) = 1 (0 < π < 1)
La probabilidad posterior de la hipótesis
P r (H0 |x) = probabilidad de queH0 sea cierta dados los datos x

f (x|π = 1/2) P r (H0 )
= R
P r (H0 ) f (x|π = 1/2) + P r (H1 ) f (x|π) ξ(π) dπ
Para la apriori objetiva
P r (H0 |x = 52,263,470) ≈ 0,92

La densidad posterior en H1 : π 6= 1/2 es
ξ (π|x, H1 ) ∝ ξ(π)f (x|π) ∝ 1 × π x (1 − π)n−x ,

que es una Beta (52,263,470, 52,226,530)
La aproximación bayesiana a las pruebas de hipótesis está basada en el cálcu-

lo de de la probabilidad condicional de una hipótesis Ho dada la información
T Cuando la hipótesis nula es Ho : θ ∈ Θo
disponible, digamos Io , esto es, p(H|Io ).
y la alternativa H1 : θ ∈ Θ1 , con Θo Θ1 = ∅, son formuladas, hay creencias
apriori sobre ambas, digamos ξ(Ho |Io ) y ξ(H1 |Io ), con ξ(Ho |Io ) + ξ(H1 |Io ) = 1.
Por el teorema de la probabilidad total, la distribución apriori de θ es:
ξ(θ|Io ) = ξ(θ|Ho , Io )ξ(Ho |Io ) + ξ(θ|H1 , Io )ξ(H1 |Io )
donde ξ(θ|Hi , Io ), son las densidades apriori de θ, condicionadas en cada hipótesis.

La información muestral es utilizada entonces para calcular de los odds apriori:
ξ(Ho |Io )
ξ(H1 |Io )
los odds posteriores en favor de Ho :
ξ(Ho |I1 ) p(y|Ho ) ξ(Ho |Io )
=
ξ(H1 |I1 ) p(y|H1 ) ξ(H1 |Io )
de la cual se deriva la siguiente regla de decisión:
si ξ(Ho |I1 ) < ξ(H1 |I1 ) Rechace Ho

si ξ(Ho |I1 ) > ξ(H1 |I1 ) Acepte Ho
si ξ(Ho |I1 ) = ξ(H1 |I1 ) Indecisión acerca de Ho
Definición 6.6 (Factor de Bayes) La razón p(y|Ho )/p(y|H1 ) es llamado el

factor de Bayes, denotado por BF o B01 (y).
Si queremos probar
H0 : θ ∈ Θ0 versus H1 : θ ∈ Θ1
Sea f (x|θ) la verosimilitud de x dado θ. Tenemos las siguientes formas del factor
de Bayes
f (x|θ0 )
B01 (x) = (Prueba simple vs. simple)
f (x|θ1 )
f (x|θ0 )
B01 (x) = R (Prueba simple vs. compuesta)
Θ1
f (x|θ)ξ1 (θ)dθ
R
f (x|θ0 )ξ0 (θ)dθ
B01 (x) = RΘ0 (Prueba compuesta vs. compuesta)
Θ1
f (x|θ)ξ1 (θ)dθ
Jeffreys presenta los siguientes criterios sobre el factor de Bayes para decidir
cuándo optar por H0 :
1 < B Hipótesis Nula se sostiene

10−1/2 < B < 1 Evidencia contra H0 , pero
apenas para mencionar.
10−1 < B < 10−1/2 Evidencia sustancial contra H0 ,
10−3/2 < B < 10−1 Evidencia fuerte contra H0 ,
10−2 < B < 10−3/2 Evidencia muy fuerte contra H0 ,
B < 10−2 Evidencia decisiva contra H0 ,
Ejemplo 6.7 Continuación del ejemplo de Sicokinesia Calculemos el

factor de Bayes para la situación del individuo con poderes.

f x π = 12
B01 = R 1 ≈ 12
0
f (x|π)ξ(π) dπ
P r(H0 |x) P r(H0 )
P r(H0 |x) = P r(H0 ) × B01
Note que
(Odds posterior) (Odds apriori) (Factor de Bayes)
Una región de credibilidad del 95 % para π bajo el supuesto de H1 es C =

(0,50008, 0,50027).
Cuando las probabilidades apriori son iguales, el factor de Bayes determina

la regla de decisión. La evaluación del factor de Bayes involucra el cálculo de
Z
p(y|Ho ) = p(y|Ho , θ)ξ(θ|Ho , Io ) dθ
Z
p(y|H1 ) = p(y|H1 , θ)ξ(θ|H1 , Io ) dθ
El factor de Bayes proporciona una indicación de cuánto cambian nuestras

razones de probabilidad de una situación sin datos, a la luz de los datos, para fa-
vorecer un modelo. Puede verse como una medida de la evidencia proporcionada
por los datos en favor de un modelo comparado con un competidor. El logaritmo
del factor de Bayes ha sido llamado el peso de la evidencia proporcionada por
los datos (De Santis y Spezzaferri, 1999).
Ejemplo 6.8 La Prueba de Sabor (Sahu, 2000) Se conduce un experi-
mento para determinar si un individuo tiene poder discriminatorio. El individuo
debe identificar correctamente cuál de las dos marcas de un producto ha recibido
(obviamente las condiciones experimentales deben ser óptimas). Si θ denota la
probabilidad de que seleccione la correcta en el i-ésimo ensayo, entonces la vari-
able Bernoulli xi denota el resultado del experimento, tomando el valor de 1 si
acierta y 0 si falla. Supongamos que en los 6 primeros ensayos los resultados son
1, 1, 1, 1, 1 y 0. Nuestro problema es verificar
1 1
H0 : θ = versus H1 : θ > .
2 2
En este caso tenemos una hipótesis simple contra una compuesta donde
Θ0 = 12 y Θ1 = 21 , 1 . Asumamos una distribución apriori uniforme sobre θ
bajo la hipótesis alternativa. Ası́ ξ1 (θ) = 2 si 12 < θ < 1. Ahora el factor de
Bayes es

1 6
2 1
B01 (x) = R 1 = .
θ5 (1 − θ)2dθ 2,86
1/2
Esto sugiere que esta persona parece tener algún poder discriminatorio, pero no
mucho.
El factor de Bayes puede verse como la versión bayesiana de la prueba clásica

de la razón de verosimilitudes (De Santis y Spezzaferri, 1999). Si se asumen dos
hipótesis simples, digamos θ 1 y θ 2 , el factor de Bayes se reduce a la razón de
verosimilitud f (y|θ 1 )/f (y|θ 2 ).
Ejemplo 6.9 Sean y1 , · · · , yn |θ variables independientes y distribuidas Poisson

con parámtero θ. Ası́,
θyi e−θ
p (yi |θ) =
yi !
para θ > 0, yi = 0, 1, 2, · · ·. Sea H0 : θ = θ0 y H1 : θ = θ1 dos hipótesis simples,
con ξ (H0 |I0 ) = ξ (H1 |I0 ). El Factor Bayes es
P yi
θ0 i
exp (θ1 − θ0 )
θ1
y por lo tanto, ya que la distribución apriori asigna igual probabilidad a las

hipótesis, la regla de decisión será aceptar H0 si el Factor de Bayes es mayor
que 1.
Ejemplo 6.10 Comparación de dos proporciones Un problema común

en estadı́stica es el de verificar que dos proporciones son iguales (H0 : π1 = π2 )
contra la alternativa H1 : π1 6= π2 . Bajo el supuesto de H0 solo tenemos un
párametro que puede tomar un valor en (0, 1) y por lo tanto necesitamos es-
pecificar una distribución apriori en esta situación, digamos ξH0 (π) (podemos
pensar en una Beta(α, β)), donde α y β se escogen de tal forma que reflejen el
conocimiento apriori (en caso de ignorancia podemos escoger α = 1 y β = 1). Ba-
jo la alternativa H1 debemos pensar en una distribución conjunta para (π1 , π2 ),
digamos ξH1 (π1 , π2 ). Bajo la alternativa una selección obvia es una uniforme
en el área (0, 1) × (0, 1), con π1 6= π2 y esto corresponde al producto de dos
uniformes independientes. Además asumamos que la probabilidad apriori de H0
es 0.5.
Asumamos que nuestros datos son
Exitos Fracasos Total

Muestra 1 2 13 15
Muestra 2 14 1 15
El factor de Bayes es 0.0000894 y la probabilidad posterior de la hipótesis

nula es 0.0000894.
6.4.1. Comparación de Modelos

Esta parte está basada en De Santis y Spezzaferri (1999). Si pensamos en
términos de modelos, digamos M1 , · · · , Ms , donde asumimos que Mi está parametriza-
do por θ i ∈ Θi , de dimensión di , y con función de densidad de probabilidad
de los datos fi (y|θ i ) y distribución apriori ξ(θ i ). Si se tienen las probabilidades
apriori para los modelos p1 , · · · , ps , por el teorema de Bayes tenemos
pi mi (y)
P r (Mi |y) = Ps
j=1 pj mj (y)
donde
Z
mi (y) = fi (y|θ i )ξ(θ i ) dθ i , para i = 1, · · · , s,
Θi
es la distribución marginal de los datos bajo el modelo Mi . La razón de las
probabilidades posteriores nos permiten hacer una comparación entre modelos.
Para los modelos Mj y Mk se tiene:
P r (Mj |y) pj
= Bjk (y),
P r (Mk |y) pk
donde
mj (y)
Bjk (y) =
mk (y)
es el factor de Bayes para el modelo Mj contra el modelo Mk a partir de los
datos y.
Ejemplo 6.11 Geométrica vs. Poisson (Sahu, 2000) Supongamos ten-

emos una muestra aleatoria x1 , x2 , · · · , xn de uno de los dos modelos hipotéticos
x
M0 : f (x|θ0 ) = θ0 (1 − θ0 ) , x = 0, 1, · · ·
M1 : f (x|θ1 ) = e−θ1 θ1x /x!, x = 0, 1, · · ·
Por simplicidad asumamos que θ0 y θ1 son conocidos. Cómo nos decidimos entre
los dos modelos utilizando la evidencia muestral?
Ya que los parámetros se asumieron conocidos no necesitamos asumir ningu-
na distribución apriori para ellos. Por lo tanto
nx̄
f (x|M0 ) = θ0n (1 − θ0 )
y
e−nθ1 θnx̄
f (x|M1 ) = Qn 1
i=1 xi !
ahora, el factor de Bayes es la razón de las dos últimas ecuaciones. Supongamos,

θ0 = 1/3 y θ1 = 2, o sea que las dos distribuciones tienen la misma media. Si
n = 2 y x1 = x2 = 0 entonces B01 (x) = 6,1, sin embargo, si n = 2 y x1 = x2 = 2

entonces B01 (x) = 0,3
Definición 6.7 (Modelos Encajados) Dos modelos Mk y Mj son encajados

(con Mk en Mj ), si θ j = (φ, η) y θ k = φ y fk (y|φ) = fj (y|φ, η 0 ), donde η 0
es un valor especı́fico de η, y φ es un parámetro común.
Asumamos que tenemos datos x que surge de uno de los siguientes modelos
(hipótesis):
M1 : X tiene densidad f1 (x |θ 1 )
M2 : X tiene densidad f2 (x |θ 2 )
.. ..
. .
Mq : X tiene densidad fq (x |θ q )
Le asignamos probabilidades apriori a cada modelo ξ (Mi ). Bajo el modelo
Mi :
Densidad apriori de θ i : ξi (θ i )
Densidad marginal de X:
Z
mi (x) = fi (x | θ i ) ξi (θ i ) dθ i
que mide qué tan verosı́mil es x bajo Mi .

Densidad posterior:
fi (x | θ i ) ξi (θ i )
ξi (θ i |x ) =
mi (x)
El factor de Bayes de Mj con respecto a Mi :
mj (x)
Bji =
mi (x)
La probabilidad posterior de Mi :
 −1
X q
ξ (Mi ) mi (x) ξ (M j )
ξ (Mi |x ) = Pq = Bji 
j=1 ξ (Mj ) mj (x) j=1
ξ (M i )
En el caso particular ξ (Mj ) = 1/q, entonces
mi (x) 1
ξ (Mi |x ) = m̄i (x) = Pq = Pq
j=1 m j (x) j=1 Bji
Ejemplo 6.12 Localización-Escala Suponga que X1 , X2 , · · · , Xn es una

muestra aleatoria con densidad

1 xi − µ
f (xi |µ, σ ) = g
σ σ
Podemos considerar varios modelos:
1. MN : g es N (0, 1)
2. MU : g es U nif orme(0, 1)
1 x−µ

3. ML : g es Exponencial a la izquierda , para x ≤ µ
σe

4. MR : g es Exponencial a la derecha σ1 e−(x−µ) , para x ≥ µ
Observe que estos modelos no son encajados.
Ejemplo 6.13 Localización-Escala Suponga que X1 , X2 , · · · , Xn es una
muestra aleatoria con densidad

1 xi − µ
f (xi |µ, σ ) = g
σ σ
Podemos considerar varios modelos:
1. MN : g es N (0, 1)
2. MU : g es U nif orme(0, 1)
1 x−µ

3. ML : g es Exponencial a la izquierda , para x ≤ µ
σe

4. MR : g es Exponencial a la derecha σ1 e−(x−µ) , para x ≥ µ
Observe que estos modelos no son encajados.
Normal:

Γ n−1
2
m (x |MN ) =
√ hP 2
i(n−1/2)
(2π)(n−1)/2 n i (x i − x̄)
Uniforme:
1
m (x |MU ) = (n−1)
n(n − 1) x(n) − x(1)
Exponencial izquierda:
(n − 2)!
m (x |ML ) = (n−1)
nn x(n) − x̄
Exponencial derecha:
(n − 2)!
m (x |MR ) = (n−1)
nn x̄ − x(1)
6.5. LA APROXIMACIÓN BIC 61
6.5. La aproximación BIC

Esta sección está basada en Raftery (1994). La cantidad básica que subyace
en el factor Bayes es la verosimilitud integrada para el modelo, dada por
Z
p(D|M1 ) = p(D|θ 1 , M1 )ξ(θ 1 |M1 ) dθ 1
Primero se derivará una aproximación simple para esta cantidad, y mostrar

posteriormente como lleva a aproximar los factores de Bayes al criterio BIC
para cualificar modelos. Por simplicidad la ecuación anterior se escribe como
Z
p(D) = p(D|θ)ξ(θ) dθ
Consideremos el caso donde D consiste de n observaciones i.i.d. y1 , · · · , yn , que

pueden ser vectores.
Considere la expansión en series de Taylor de g(θ) = log (p(D|θ)ξ(θ)) alrede-
dor de θ̄, el valor de θ que maximiza g(θ), esto es, la moda posterior. La ex-
pansión es
T 1 T
g(θ) = g(θ̄) + θ − θ̄ g ′ (θ̂) + θ − θ̄ g ′′ (θ̄) θ − θ̄ + o ||θ − θ̄||2
2
donde  
∂g(θ )
∂θ1
 .. 
g ′ (θ) = 
 .


∂g(θ )
∂θd
y g ′′ (θ) es la matriz Hessian de segundas derivadas parciales

 ∂ 2 g(θ ) ∂ 2 g(θ )

∂θ1 ∂θ1 · · · ∂θ 1 ∂θd
 .. .. .. 
g ′′ (θ) = 
 . . .


∂ g(θ )
2
∂ g(θ )
2
∂θd ∂θ1 · · · ∂θd ∂θd
Ahora, ya que g(θ̄) = 0 tenemos

1 T
g(θ) ≈ g(θ̄) + θ − θ̄ g ′′ (θ̄) θ − θ̄
2
Esta aproximación es buena si θ está cercano a θ̂. Cuando n es grande la
verosimilitud p(D|θ) está concentrada alrededor de su máxima y declina rápi-
damente cuando
R se aleja de θ̂, ası́ que los únicos valores de θ que contribuyen
a p(D) = p(D|θ)ξ(θ) dθ son los que están cercanos a θ̂. Se sigue por lo tanto
que
Z Z
T
p(D) = exp (g(θ)) dθ ≈ exp g(θ̄) exp θ − θ̄ g ′′ (θ̄) θ − θ̄ dθ
La integral en la ecuación anterior es proporcional a una densidad normal mul-

tivariable, por lo tanto
d/2
p(D) ≈ exp g(θ̄) (2π) |A|−1/2

donde A = −g ′′ θ̄ . El error en la ecuación anterior es O n−1 , ası́
d 1
log (p(D)) = log p(D|θ̄) + log ξ(θ̄) + log(2π) − log (|A|) + O n−1
2 2
Ahora, si la muestra es grande, θ̄ ≈ θ̂, donde θ̂ es el estimador de máxima

verosimilitud, y A ≈ nI, donde I es la matrix de Información de Fisher esperada
para una observación.
Ası́ |A| ≈ nd |I|. Estas dos aproximaciones introducen un
−1/2
error O n en la ecuación anterior, la cual se convierte en
d d 1
log (p(D)) = log p(D|θ̂) +log ξ(θ̂) + log(2π)− log(n)− log (|I|)+O n−1/2 (∗)
2 2 2
Removiendo los términos de orden O(1) o menores queda
d
log (p(D)) = log p(D|θ̂) − log(n) + O(1)
2
La ecuación anterior nos dice que la verosimilitud
log-integrada,
log(p(D)),
es igual a la logverosimilitud maximizada, log p(D|θ̂) , menos un factor de
corrección.
La ecuación anterior es la aproximación en la cual está basada el BIC, y
su error O(1) significa que, en general, el error no se deparaece aún con una
cantidad infinita de datos. Esto no es tan malo como parece, ya que los otros
términos de la derecha de la ecuación tienden a infinito cuando n lo hace, por lo
tanto ellos eventualmente dominarán. Ası́ el error en la ecuación tenderá hacia
cero como una proporción del log (p(D)), asegurando que el error no afectará la
conclusión a la cual se llegue, dado que se tengan suficientes datos.
Suponga que la apriori ξ (θ) es normal multivariable con media π̂ y matriz
de covarianzas I −1 . Ası́, hablando aproximadamente, la distribución apriori con-
tiene la misma cantidad de información que una solo observación. Esto parece
razonable en una situación en la cual haya poca información apriori. Entonces
d 1
log ξ(θ̂) = − log (2π) + log (|I|)
2 2
y sustituyendo en (*) se llega a
d
log (p(D)) = log p(D|θ̂) − log(n) + O(n−1/2 )
2
Ası́ para la distribución apriori particular seleccionada, el error en la aprox-
imación es O(n−1/2 ) en vez de O(n−1/2 )
Esta aproximación puede usarse para aproximar el factor de Bayes
6.5. LA APROXIMACIÓN BIC 63
p (D|M2 )
B12 = .
p (D|M1 )
Esto queda mejor en la escala logarı́tmica
2 log (B12 ) = 2 (log (p (D|π̂ 2 , M2 )) − log (p (D|π̂ 1 , M1 )))−(d2 − d1 ) log(n)+O(n−1/2 )
Si M1 está encajado en M2 , la ecuación anterior puede re-escribirse
2 log (B12 ) ≈ χ221 − (d2 − d1 ) log(n)
donde χ221 es el estadı́stico de la prueba de la razón de verosimilitud corriente

para probar M1 contra M2 , y d2 − d1 son los grados de libertad asociados con
la prueba.
Capı́tulo 7
Inferencia Predictiva
Muchas situaciones aplicadas implican realizar inferencias sobre una obser-

vación futura de una variable aleatoria, cuya distribución depende de un número
finito de parámetros (desconocidos), esta distribución se conoce como distribu-
ción predictiva. Smith (1998) argumenta que afirmaciones predictivas acerca de
variables aleatorias no observadas tiene más sentido a menudo que la estimación
tradicional de parámetros.
Asumiendo que ξ (θ) es la distribución apriori y que ξ (θ|x) es la posterior,
la distribución predictiva bayesiana se calcula como
p(z, x)
p (z|x) =
p(x)
R
ΘR
p(z, x, θ) dθ
=
p(x, θ) θ
R Θ
ΘR
p(z, x|θ)ξ(θ) dθ
=
p(x|θ)ξ(θ) θ
R Θ
Θ R
p(z|θ)p(x|θ)ξ(θ) dθ
=
Θ
p(x|θ)ξ(θ) θ
Z
p(x|θ)ξ(θ)
= p(z|θ) R dθ
Θ Θ
p(x|θ)ξ(θ) θ
Z
= p(z|θ)ξ (θ|x) dθ
Ası́
Z
p (z|x) = p(z|θ)ξ (θ|x) dθ
= Eθ|x [p(z|θ)]
65
66 CAPÍTULO 7. INFERENCIA PREDICTIVA
La función p(z|θ) es la de verosimilitud de θ evaluada en z.
Ejemplo 7.1 Suponga que x1 , · · · , xn es una muestra aleatoria de una Bernoulli(π)

y suponga que la distribución apriori de π es una Beta(α, β). Encontremos la
distribución predictiva de una observación futura z.
Tenemos
Z
p (z|x) = p(z|π)ξ (π|x) dπ
Ahora
p(z|π) = π z (1 − π)1−z , z = 0, 1,
y
P P
xi +α−1
ξ(π|x) ∝ π (1 − π)n− xi +β−1
P P
Ahora, si denotamos por α∗ = xi + α y β ∗ = n − xi + β tenemos que
Z 1
Γ(n + α + β) z+α∗ −1 ∗
p(z|x) = ∗ ∗
π (1 − π)β +1−z−1 dπ
0 Γ(α )Γ(β )
Γ(n + α + β) Γ(z + α∗ )Γ(1 − z + β ∗ )
=
Γ(α∗ )Γ(β ∗ ) Γ(n + α + β + 1)
Ası́
Γ(n + α + β)Γ(1 + β ∗ )
P (z = 0|x) =
Γ(β ∗ )Γ(n + α + β + 1)
β∗
=
n+α+β
β∗
=
α∗ + β ∗
y
α∗
P (z = 1|x) =
α∗ + β∗
Vale la pena notar que
P (z = 1|x) = E(π|x),
la media posterior.
67
Ejemplo 7.2 Suponga que x1 , · · · , xn es una muestra aleatoria de un P oisson(θ).

Además supongamos que la distribución apriori de θ es una Gamma(α, β). En-
contremos la distribución predictiva p(z|x). P
Sabemos que la distribución aposteriori es una Gamma(α∗ = α+ xi , β ∗ =
β + n). Ahora
θz e−θ
p(z|x) =
z!
Ası́
Z ∞ ∗
θz e−θ (β ∗ )α −β ∗ θ
p(z|x) = e dθ
0 z! Γ (α∗ )
∗ Z ∞
(β ∗ )α ∗ ∗
= ∗
θz+α −1 e−(β +1)θ dθ
z!Γ (α ) 0
∗
(β ∗ )α Γ (z + α∗ )
= ∗
z!Γ (α ) (β ∗ + 1)(z+α∗ )
α∗ z
z + α∗ − 1 β∗ 1
=
z β∗ + 1 β∗ + 1
para z = 0, 1, 2, · · · Por lo tanto

1
z|x ∼ Binomial − N egativa α∗ ,
β∗ + 1
Ejemplo 7.3 Sea x1 , · · · , xn una muestra aleatoria de una exponencial con

densidad θe−θx , con x > 0, θ > 0. Sea Z que denota una observación futu-
ra de la misma densidad. Estamos interesados en la probabilidad predictiva
que Z > z para algún nivel dado z. Cuando θ es conocido, esto está dado por
φ = φ(z|θ) = e−θz .
Si asumimos que la distribución apriori de θ es ξ(θ) ∝ θa−1 e−bθ , una apriori
Gamma con parámetros (a, b). La distribución aposteriori de θ es también una
Gamma con parámetros (a + n, b + Sn ), donde Sn = x1 +· · ·+xn , y la esperanza
posterior de φ se calcula como
a+n
b + Sn
φ̂ =
b + Sn + z
Cuando a = b = 0 se tiene una distribución apriori Jeffreys y la esperanza
se reduce a
n
Sn
φ̂ =
Sn + z
68 CAPÍTULO 7. INFERENCIA PREDICTIVA
7.1. Tamaño Muestral

Existen varias aproximaciones en estadı́stica bayesiana para la determinación
del tamaño muestral. Joseph et al (1999) presentan los siguientes criterios
Criterio de Cobertura Promedio (ACC): Este criterio permite variar el

nivel de cobertura 1−α con x, mientras se tiene fija la longitud del intervalo
HPD, l. El tamaño muestral se obtiene hallando el mı́nimo n que satisfaga
Z (Z a(x,n)+l
)
ξ(θ|x) dθ f (x) dx ≥ 1 − α
X a(x,n)
donde a(x, n) es el lı́mite inferior del intervalo HPD de longitud l para

la distribución posterior ξ(θ|x), la cual dpende de x y n. f (x) es la dis-
tribución predictiva de x, también conocida como la distribución marginal
pre-posterior de los datos y está dada por
Z
f (x) = f (x|θ)ξ(θ) dθ
Θ
Criterio de Longitud Promedio (ALC): En este caso se fija la probabili-

dad de cobertura, 1 − α, y se permite que la longitud del intervalo HPD
varı́e dependiendo de los datos. En este caso para cada x en X debemos
hallar la longitud HPD l′ (x, n) tal que
Z a(x,n)+l′ (x,n)
ξ(θ|x) dθ = 1 − α
a(x,n)
y el tamaño muestral n es el mı́nimo entero que satisfaga

Z
l′ (x, n)f (x) dx ≤ l,
X
donde l es la longitud promedio preespecificada.
Criterio del Peor Resultado (WOC): Otra aproximación es definir una lon-
gitud máxima permisible l y una probabilidad de cobertura mı́nima de
1 − α, no importa qué datos tengamos. Debemos escoger el mı́nimo valor
de n tal que
(Z )
a(x,n)+l
ı́nf ξ(θ|x) dθ ≥1−α
x∈X a(x,n)
Capı́tulo 8
WinBUGS
8.1. Introducción
Uno de los inconvenientes que han tenido los métodos bayesianos para ser
utilizados en la práctica ha sido la carencia de software especializado. Ninguno
de los grandes paquetes en estadı́stica, SAS, SPSS, etc., tienen módulos para
hacer estadı́stica bayesiana.
Existe un programa de acceso gratuito al público que permite utilizar simu-
lación estadı́stica basada en cadenas de Markov en una forma simple y efectiva
para gran variedad de modelos llamado BUGS, que es un acrónimo de Bayesian
analysis Using the Gibbs Sampler (Muestreador Gibbs, que lo veremos en un
capı́tulo posterior). Este programa está disponible en
http://www.mrc-bsu.cam.ac.uk/bugs
y para el entorno de Windows existe WinBUGS. Este programa fue de-
sarrollado por UK Medical Research Council y el Imperial College of Science,
Technology and Medicine.
Existen otros programas que permiten resolver problemas bayesianos como
el BACC, First Bayes, etc. El R trae algunas librerı́as con soluciones a ciertos
problemas especı́ficos, por ejemplo la MCMCPack y CODA.
8.2. Qué se espera de un software para estadı́sti-

ca bayesiana?
Koop (1999) señala algunos requisitos claves que todo software bayesiano
deberı́a cumplir:
1. Debe ser computacionalmente eficiente.
2. Debe estar bien documentado.
69
70 CAPÍTULO 8. WINBUGS
3. El grupo de soporte debe ser amplio y reconocido.
4. Debe proporcionar simuladores posteriores para la clase de modelos que

los investigadores quieran usar.
5. Para los modelos no incluidos, debe ser fácil la inclusión de los simuladores
posteriores que se necesitan por parte del usuario.
6. Debe tener una base amplia de funciones g(θ).
7. Debe proporcionar medidas del error en la aproximación para las esti-

madas de E (g(θ)|Y ) y las verosimilitudes marginales.
8. Debe permitir al usuario graficar la aposteriori y la apriori.
9. Debe permitirle al usuario realizar un análisis de sensibilidad apriori de

una manera fácil.
10. Todo lo anterior debe poderse llevar a cabo de una manera simple, trans-
parente y conveniente para el usuario.
8.3. Utilización de WinBUGS

La utilización por primera vez del programa puede ser una experiencia ex-
traña, ya que el programa no funciona en una forma lineal, sino que requiere
múltiples pasos que pueden parecer repetitivos, pero que en realidad no lo son.
En W inBU GS el sı́mbolo ∼ significa “distribuido como” y se utiliza para
Especificar la distribución de los datos.
Especificar la distribución apriori.
Los valores a la izquierda de ∼ son llamados “estocásticos”.

La flecha (conformada por dos sı́mbolos) a la izquierda <- se utiliza como el
igual. Por ejemplo var <- 1/precision . Los valores a la izquierda de <- son
llamados “lógicos”.
Los pasos en el programa para correr un modelo son:
1. Los comandos anteriores los escribimos en una ventana que abrimos se-
leccionando File y luego New. Si usted ya tiene algún archivo con un
programa creado y salvado con anterioridad en formato .odc puede abrirlo
para trabajar con él.
Si seleccionamos New el programa muestra una ventana en blanco en la
cual podemos escribir los comados apropiados, como los que se encuentran
enseguida. Con el cursor seleccionamos toda la parte correspondiente al
modelo y seleccionamos Edit y luego Copy.
Ejemplo con la longitud máxima del pie de estudiantes universitarios:

8.3. UTILIZACIÓN DE WINBUGS 71
Figura 8.1: Pantalla al iniciar el programa. Aparece una ventana con la nota
sobre el Copyright.
El programa W inBU GS permite utilizar un languaje conciso para

expresar un modelo: β y τ son expresados con distribuciones apriori
propias pero lo más mı́nimo informativas que se pueda, mientras
que la expresión lógica sigma permite que la desviación estándar
sea estimada.
Primero seleccionamos el menú Model.
Abrimos la herramienta Specification. Aquı́ nos aparece una ventana
con varias opciones.
nalamos la palabra check model en el comenzo de la descripción
Se~
del modelo. Necesitamos chequear que la descripción del modelo
define completamente un modelo de probabilidad. Si el modelo fue
especificado correctamente aparece el mensaje model is syntacti-
cally correct en la parte inferior izquierda de la ventana principal.
Sino, nos aparece el tipo de error que tenemos en el modelo.
Luego se~
nalamos los datos (los cuales deben estar en un formato
especial, estilo S−P lus) y los copiamos con Edit y luego Copy.
Nuevamente nos vamos a la ventana Specification Tool y seleccionamos
load data. Si los datos están conformes al modelo, aparece un mensaje
en la parte inferior izquierda de la ventana principal donde se
informa que los datos fueron cargados. (Estos datos pueden estar
copiados en la misma ventana en la cual escribimos nuestro modelo.
Lo que hacemos es se~ nalarlos y copiarlos y luego oprimimimos el
cuadro load data).
list(Y = c(24.2,25.4,25.0,25.9,25.5,24.4), N = 6)
El siguiente paso se ejecuta en la ventana Specification Tool y seleccionamos

compile.
A continuación en la ventana Specification Tool seleccionamos load
inits. Los valores iniciales para el proceso iterativo (Estos valores
iniciales pueden estar copiados también en la misma ventana en
la cual escribimos nuestro modelo y los datos. Lo que hacemos
es se~nalarlos y copiarlos y luego oprimimimos el cuadro load inits).
Otra opción nos permite que el programa genere automáticamente

valores iniciales, esto lo hace generando números aleatorios de
la distribución apriori. El programa permite correr más de una
cadena simultáneamente, para lo cual se necesta especificar más
de un conjunto de valores iniciales.
Del menú model seleccione Update... y del menú Inference seleccione
Samples. Ahora usted tiene dos nuevas ventanas, una con el nombre
Update Tool y la otra con el nombre Sample Monitor Tool.
8.3. UTILIZACIÓN DE WINBUGS 73
Figura 8.2: Tenemos la panatalla para los pasos de definición del modelo.
La ventana Update Tool nos permite generar muestras. En MCMC usualmente

hay que dejar correr el muestreador duarante algún tiempo (quizá 1000
iteraciones) para asegurarnos de que el proceso está estable antes
de guardar valores.
Después de una corrida inicial nos ubicamos en la ventana Sam-
ple Monitor Tool. Para empezar escribimos los nombres de los nodos
(parámetros) que queremos estudiar. Escribimos en la parte de
node beta y seleccionamos luego set. Procedemos igual con tau.
De la ventana Update Tool seleccionamos la opción update. Esto lo

podemos realizar tantas veces como sea necesario para que el proceso
converja.
De la ventana Sample Monitor Tool seleccionamos ya lo que sea de
nuestro interés. Por ejemplo, seleccionamos un nodo, diagamos
beta y luego stats, nos aparece una nueva ventana con algunos resultados
de interés acerca de este parámetro. Lo mismo hacemos para tau.
node mean sd MC error 2.5 % median 97.5 % start sample

beta 25.06 0.3443 0.006615 24.34 25.06 25.75 1 3000
sigma 0.778 0.3284 0.0068 0.4095 0.698 1.589 1 3000
Ejemplo 8.1 El caso normal con varianza conocida Supongamos que

tenemos una muestra aleatoria de una normal y asumimos que su varianza es
conocida e igual a 1.
Distribucion apriori mu dnorm(0,1) }

list(y=c(1.84,-0.23,1.12,0.35,-0.24, -0.89,1.65,-1.01,2.01,1.12))
8.4. Algunos de los comandos del WinBUGS

8.4.1. Model
Specification
Este comnado activa una ventana llamada Specification Tool que
nos permite definir completamente el modelo.
check model:
8.4. ALGUNOS DE LOS COMANDOS DEL WINBUGS 75
Figura 8.3: Ventanas de salida de resultados de la ejecución del programa.

Figura 8.4: Ventana de definición del modelo.
load data:
compile:
load inits:
gen inits:
num of chains:
for chain:
Update
Este comando se activa una vez el modelo ha sido compilado e inicializado.
El produce la ventana Update Tool con los siguientes comandos:
updates: número de actualizaciones MCMC a ser llevadas a cabo.

refresh: el número de actualizaciones entre reactualizaciones de
la pantalla.
thin: las muestras de cada k-ésima iteración será guardada, donde
k es el valor de thin. Hacer k > 1 puede ayudar a reducir la autocorrelación
en la muestra.
update: clickee para comenzar a actualizar el modelo.
over relax: esta selección permite trabajar con una versión más
relajada del MCMC.
adapting: Esta selección permite un proceso de adaptación inicial
para un mejor ajuste de los parámetros. Toda la información generada
en este proceso es descartada.
Figura 8.5: Ventana de Actualización.
8.4.2. Inference
La opción Inference tiene varias opciones, pero la más importante
es Samples.
Samples...: Bajo este comando aparece una ventana con tı́tulo Sam-
ple Monitor Tool. Contiene los siguientes campos:
node: Se epecifica el parámetro o variable de interés para el

análisis.
chains: Se pueden seleccionar las cadenas con las que se construirán

los estadı́sticos.
to: Opera junto con el comando anterior.
beg: Cuando se utiliza una submuestra para el análisis este comando

nos indica desde dónde empezamos a utilizar los valores originales.
Marca el comienzo de la submuestra.
end: Marca el final de la submuestra que se inició con el comando

anterior.
thin: las muestras de cada k-ésima iteración será utilizada para

los estadı́sticos a producir, donde k es el valor de thin.
percentiles:
clear: Remueve cualquier valor guardado de las variables.
set: Debe utilizarse para empezar a guardar los valores para una
variable.
Figura 8.6: Ventana de Muestras.
trace: Presenta una gráfica del valor de la variable contra el

número de la iteración. La traza es dinámica y se está reactualizando.
history: Grafica la traza completa para la variable.
density: Presenta un gráfico de densidad para la variable si es

continua, o un histograma si es discreta,
stats: Produce un resumen estadı́stico para la variable.
coda: Produce una representación ASCII del proceso para ser reanalizada
con CODA.
quantiles:
GR diag: Calcula el estadı́stico para convergencia de Gelman-Rubin.
autoC: Grafica la función de autocorrelación de variable hasta

un rezago de 50.
Fit...: Fit Tool
Correlations:
Figura 8.7: Ventana de Ajuste.

Capı́tulo 9
Modelos Lineales
9.1. La regresión clásica

Un modelo de regresión es un medio formal para expresar los dos
ingredientes esenciales de una relación estadı́stica:
a ) Una tendencia de la variable dependiente Y que cambia, cuando

la variable independiente cambia, en una forma sistemática.
b ) Una dispersión de los puntos alrededor de la relación estadı́stica.
Estas caracterı́sticas se expresan en un modelo de regresión como:
a ) Para cada nivel de X hay una distribución de probabilidad de Y .
b ) Las medias de estas distribuciones de probabilidad cambian en

una forma sistemática con X.
9.1.1. Usos del Análisis de Regresión

Descripción
Control
Predicción
9.1.2. Estrategia Tı́pica en un Análisis de Regresión

a ) Dise~
no del Experimento
b ) Análisis Exploratorio o inicial de los datos
c ) Desarrollo de uno o más modelos de regresión tentativos
81
82 CAPÍTULO 9. MODELOS LINEALES
d ) Hay uno o más modelos adecuados en los datos? Sı́.

e ) Identifique el modelo más adecuado
f ) Haga todas las inferencias necesarias basado en el modelo seleccionado
g ) Revise los modelos y/o desarrolle otros diferentes
h ) Presentacion de resultados e interpretación.
9.1.3. Regresión simple

El modelo más sencillo, pero el más útil, es el que se conoce
como modelo de regresión simple. Si tenemos una variable, Y , en cuyo
comportamiento estamos interesados cuando la condicionamos en
ciertos valores de otra variable, X, el modelo de regresión simple
nos dice que la media condicional de Y dado un valor de X = x,
denotada por E [Y |X] = µY |X , es una función lineal de X, o sea,
E [Y |X = x] = µY |X=x = β0 + β1 x
donde β0 y β1 se conocen como los parámetros del modelo. Estos

valores usualmente son desconocidos y el problema es estimarlos
a partir de una muestra de individuos de la población.
Sea (Y1 , X1 ), (Y2 , X2 ), · · · , (Yn , Xn ) una muestra aleatoria extraı́da de
la población de referencia. Observe como cada individuo proporciona
información simultáneamente sobre X y sobre Y . El individuo i-ésimo
puede representarse en términos del modelos ası́:
Yi = β0 + β1 Xi + ei
Supuestos:

a ) ei ∼ N ormal 0, σ 2 , varianza constante (homoscedasticidad)
b ) Cov (ei , ej ) = 0 para todo i 6= j
Notación:

yi = Yi − Ȳ

xi = Xi − X̄
Las minúsculas denotan desviaciones de la media.
9.1.4. Modelo de Regresión Lineal Múltiple
Y = β0 + β1 X1 + β2 X2 + . . . + βk Xk + ei
donde
9.1. LA REGRESIÓN CLÁSICA 83
Y : Respuesta o variable dependiente
X1 , X2 , · · · , Xk : k variables explicatorias o independientes (no

estocásticas)
β0 , β1 , · · · , βk : k + 1 parámetros (usualmente desconocidos)
e: Error aleatorio
a ) E (e; ) = 0
b ) V ar (e; ) = σe2
c ) Adicionalmente se asume normal
Y ∼ N β0 + β1 X1 + · · · + βk Xk , σ 2
E [Y |X1 , X2 , · · · , Xk ] = β0 +β1 X1 +· · ·+βk Xk Lamuestraaleatoriaconstadenpuntos.Eli−ésimopuntosedeno
(Xi1 , Xi2 , · · · , Xik , Yi ) , para i = 1, 2, · · · , n
Condicion
Cov (Yi , Yj ) = 0 para todo i 6= j
Yi = β0 + β1 Xi1 + β2 Xi2 + · · · + βk Xik + ei para i = 1, 2, · · · , n
el modelo aplicado al i-ésimo punto
Para las n observaciones tenemos
Y1 = β0 + β1 X11 + β2 X12 + · · · + βk X1k + e1

Y2 = β0 + β1 X21 + β2 X22 + · · · + βk X2k + e2
.. .. ..
. . .
Yn = β0 + β1 Xn1 + β2 Xn2 + · · · + βk Xnk + en
9.1.5. Notación Matricial

La notación matricial simplifica todo el trabajo
Y n×1 = Xn×(k+1) β (k+1)1 + en×1
ˆ −1 T
Si β̂ denota el estimador de β, se puede mostrar que β̂ = X T X X Y.
Este es el estimador de máxima verosimilitud y coincide con el estimador de
mı́nimos cuadrados. Ŷ = X β̂ son los valores de la respuesta predichos por el
modelo estimado. Ŷ es el estimador de E[Y |X] y los residuales están dados por
e = Y − Ŷ . La predicción para una observación X 0 tenemos Ŷ0 = X T0 β̂
9.2. Aproximación Bayesiana

Sea β = (β1 , · · · , βk )′ ∈ Rk , con k ≥ 1 y sea W otro parámetro (positivo).
Supongamos que podemos observar Y1 , · · · , Yn , cada una de las cuales se dis-
tribuye normalmente cuya media es una combinación lineal de las k componentes
de β y cuya precisión es W .
Sea X la matriz de diseño definida ası́:
 
x11 ··· x1k
 x21 ··· x2k 
 
X= .. .. .. 
 . . . 
xn1 ··· xnk
La distribución condicional conjunta de Y = (Y1 , · · · , Yn )′ cuando β = b y

W = w es una normal multivariable con vector de medias Xb y matriz de
precisión wI, donde I es la matriz de identidad de dimensión n × n. Por lo
tanto la función de verosimilitud tendrá la siguiente forma para todo punto
y = (y1 , · · · , yn )T
w
L(b, w|y) ∝ wn/2 exp − (y − Xb)′ (y − Xb)
2
El objetivo principal en el análisis de regresión es el de realizar inferencias con-

cernientes a β yW teniendo como base el valor observado Y = y. Un estimador
de mı́nimos cuadrados de β se define como el vector b = b̂ que minimiza la
forma cuadrática (y − Xb)′ (y − Xb) que aparece en el exponente de la función
de verosimilitud. El valor de b̂ que minimiza la forma cuadrática satisface la
ecuación:
X ′ X b̂ = X ′ y
Estas son conocidas como las ecuaciones normales. Si X es una matriz de rango
completo, entonces X ′ X es no singular, y llegamos a la solución bien conocida
b̂ = (X ′ X)−1 X ′ y.
9.3. Distribución Normal-Gamma

Definición 9.1 Distribución Normal-Gamma Suponga que X 1 , · · · , X n es
una muestra aleatoria de una distribución normal multivariable con vector de
medias M desconocida y matriz de precisión de la forma W R, donde R es
una matriz definida positiva conocida y W desconocida. Suponga también que
la distribución apriori conjunta de M y W es como sigue:
9.4. DISTRIBUCIÓN APOSTERIORI 85
La distribución condicional de M cuando W = w es una distribución

normal multivariable con vector de medias µ y matriz de precisión wτ ,
con µ ∈ Rk y τ k×k es una matriz simétrica definida positiva y,
la distribución marginal de W es una gamma con parámetros α > 0 y

β > 0.
Entonces la distribución posterior conjunta de M y W cuando X 1 = x1 , · · · , X n =

xn es como sigue:
La distribución condicional de M cuando W = w es una distribución

normal multivariable con vector de medias µ∗ y matriz de precisión w(τ +
nR), donde
µ∗ = (τ + nR)−1 (τ µ + nRx̄)
la distribución marginal de W es una gamma con parámetros α + (nk/2)

y β ∗ , donde
n
X
β ∗ = β + 1/2 (xi − x̄)′ R(xi − x̄) + 1/2(µ∗ − µ)′ τ (x̄ − µ)
i=1
Supongamos ahora que la distribución apriori conjunta de β y W es una normal-

gamma multivariable como la definida arriba. La distribución conjunta ξ de β
y W es como sigue para β ∈ Rk y W > 0:

k/2 W
ξ(β, W ) ∝ W exp − (β − µ) τ (β − µ) W α−1 exp(−βW )
′
2
9.4. Distribución Aposteriori

La distribución conjunta ξ de β y W es como sigue para β ∈ Rk y W > 0:

k/2 W ′ ′

ξ(β, W |y) ∝ W exp − (β − β 1 ) τ + X X (β − β 1 )
2
×W α+(n/2)−1 exp(−β1 W )
donde
−1
β1 = τ + X ′X τ µ + X ′y
1 ′ ′
β1 = β+ (y − Xβ 1 ) y + (µ − β 1 ) τ µ
2
Por lo tanto
la distribución condicional de β dado W = w aposterior es

N β1 , w τ + X ′ X

donde w τ + X ′ X es la precisión.

la distribución marginal de W es una Gamma α + n2 , β1
Teorema 9.1 Bajo las condiciones anteriores la distrbución marginal aposte-

riori de β será una distribución t multivariable1
AQUI EMPIEZAN NOTAS NUEVAS

yi | xi ∼ N xi β, σ 2 ó y | X ∼ N Xβ, σ 2 I

2

2 −n/2 1 ′
L β, σ | y = 2πσ exp − 2 (y − Xβ) (y − Xβ)
2σ

2
−n/2 1 ′
= 2πσ exp − 2 y − Xβ̂ y − Xβ̂
2σ

1 ′
′

× exp − 2 β − β̂ X X β − β̂
2σ
−1
donde β̂ = (X′ X) X′ y, el estimador de mı́nimos cuadrados y utilizamos el
hecho que
′
−1
y − Xβ̂ X β − β̂ = y′ I − X (X′ X) X′ X β − β̂

= y′ (X − X) β − β̂ = 0.
′
Por lo tanto se concluye que S = y − Xβ̂ y − Xβ̂ , X′ X y β̂ son estadı́sti-
cos suficientes para β y σ 2 .
1 Un vector aleatorio X se dice que tiene una distribución t multivaiable con n grados de
libertad, vector dfe localización µ y matriz de precisión T , si su densidad es

−(n+k)/2
1
f (x|n, µ, T ) = c 1 + (x − µ)′ T (x − µ)
n
donde
Γ [(n + k)/2] |T |1/2
c= con
Γ(n/2)(nπ)(k/2)
2 α + n grados de libertad, vector de localización β1 y matriz de precisión
2α + n
τ + X′ X
2β1
9.5. ANÁLISIS CONJUGADO 87
9.5. Análisis Conjugado

La verosimilitud es de la forma normal-gamma

−(n−k−2)/2−1 1 ′
L β, σ 2 | y ∝ σ2 exp − 2 y − Xβ̂ y − Xβ̂
2σ
′
−k/2 1
× σ2 exp − 2 β − β̂ X′ X β − β̂
2σ
con β | σ 2 normal y la distribución marginal de σ 2 es una Gamma2 invertida,

denotada por IG2 con n − k − 2 grados de libertad. La distribución apriori
conjugada también es de la forma normal-gamma.

β | σ2 ∼ N β0 , σ 2 M−1
0
σ2 ∼ IG2 (S0 , v0 )
tenemos

2

2 −(n−k−2)/2−1 S 1 ′
′

ξ β, σ | y ∝ σ exp − 2 exp − 2 β − β̂ X X β − β̂
2σ 2σ

2
−v 0 /2−1 S 0 2
−k/2 1 ′
× σ exp − 2 σ exp − 2 (β − β0 ) M0 (β − β0 )
2σ 2σ

−(v +n)/2−1 S 1
= σ2
0
exp − 2
2σ

2 −k/2 1 ′
× σ exp − 2 (β − β1 ) M1 (β − β1 )
2σ
donde
M1 = M0 + X′ X

β1 = M−1
1 M 0 β0 + X ′
X β̂
S1 = S0 + S + Sβ
′ h i
−1 −1
Sβ = β0 − β̂ M−1 ′
0 + (X X) β0 − β̂
El resultado sigue completando el cuadrado para β y reuniendo los otros térmi-

nos en Sβ teniendo en cuenta que
h i
−1 −1 −1
(M0 + (X′ X)) = M−1
0 − M−1
0 M−1
0 + (X ′
X) M−1
0
h i
−1 −1 −1 −1 −1
= (X′ X) − (X′ X) M−1
0 + (X ′
X) (X′ X)
h i
−1 −1 −1
(X′ X) M0 + (X′ X) M0 = M−1 ′ ′
0 (M0 + (X X)) (X X)
h i
−1 −1
= M−1 ′
0 + (X X)
La distribución posterior será entonces

β | y, σ 2 ∼ N β1 , σ 2 M−1
1
σ2 | y ∼ IG2 (S1 , v1 )
donde v1 = v0 + n.
La distribución marginal posterior para β es una t multivariable. Si integramos
para eliminar σ 2 de la distribución conjunta posterior obtenemos el kernel de la
marginal posterior como
′ −(v1+k)/2
ξ (β | y) ∝ S1 + (β − β1 ) M1 (β − β1 )
Este es el kernel de la distribución t multidimensional con v1 grados de libertad
y parámetros de escala S1 y M1 , y denotado por
β | y ∼ tk (β1 , S1 , M1 , v1 )
Resultados similares se obtienen

para subconjuntos de parámetros de la regre-
sión. Sea β ∼ N b, σ 2 M−1 y σ 2 ∼ IG2 (S, v). Asumamos la siguiente partición
conformable

βa
β =
βb

Maa Mab
M−1 =
Mba Mbb
Ya que β es normal condicionado en σ 2 tenemos

β a | σ2 ∼ N ba , σ 2 Maa
−1 b −1 ba
β a | β b , σ2 ∼ N ba + Mab Mbb β − bb , σ 2 Maa − Mab Mbb M .
Marginalizando con respecto a σ 2 tenemos

−1
βa ∼ tka ba , S, (Maa ) , v

−1 b −1 ba −1
βa | βb ∼ tka ba + Mab Mbb β − bb , S, Maa − Mab Mbb M ,v .
9.5. ANÁLISIS CONJUGADO 89
9.5.1. Distribución Predictiva

Recordemos que el modelo de interés es y = Xβ + ǫ, con ǫ ∼ N 0, σ 2 I .Ya que

β | σ 2 ∼ N β0 , σ 2 M−1
0 , entonces Xβ | σ 2 ∼ N(Xβ0 , σ 2 XM−1 ′
0 X ). Se sigue
que

y | σ 2 ∼ N Xβ0 , σ 2 I + XM−1
0 X
′
ya que ǫ es independiente de β cuando condicionamos en σ 2 . La apriori para σ 2

es IG2 (S0 , v0 ) y marginalizando con respecto a σ 2 produce

′ −1
y ∼ tn Xβ0 , S0 , I + XM−10 X , v0
La densidad predictiva para un vector y∗ de m componentes condicionado a un

conjunto de valores para las variables explicatorias X∗ es

∗′ −1
y∗ | X∗ ∼ tm X∗ β1 , S1 , I + X∗ M−1 1 X , v 1
9.5.2. Inferencias
Intervalos de Probabilidad
Regiones de alta probabilidad para conjuntos de parámetros se encuentran direc-

tamente de la distribución marginal posterior. Para un solo parámetro tenemos
−1
βi | y ∼ t βi1 , S1 , Mii
1 , v 1
donde M1ii es el elemento i, i de M−1

1 . La transformación
βi − βi1
p
M1ii S1 /v1
tiene una distribución t estándar y una región de más alta probabilidad 1 − α
está dada por
q q
βi1 − tα/2,v1 M1ii S1 /v1 , βi1 + tα/2,v1 M1ii S1 /v1
Para conjuntos de parámetros notemos que si x ∼ tm (µ, S, M , v) entonces

′
(x − µ) M (x − µ) /m
∼ F(m,n)
S/v
Una región de más alta probabilidad para β está dada por
′
(β − β1 ) M1 (β − β1 ) /k
β: ≤ F(1−α,k,v1 )
S1 /v1
9.5.3. Pruebas de Hipótesis
Las pruebas de hipótesis puntuales son fáciles de implementar utilizando la

técnica de la región de más alta probabilidad y verificando que la hipótesis
está contenida en una región apropiada de más alta probabilidad.
Si la hipótesis tiene la forma de q restricciones lineales Bβ = r, tenemos que la
distribución posterior bajo la hipótesis es
−1
Rβ ∼ tq Rβ 1 , S1 , RM−1
1 R , v1
y por lo tanto
′ −1
(δ − Rβ 1 + r) RM−1
1 R (δ − Rβ 1 + r) /q
∼ F(q,v1 )
S1 /v1
para δ = Rβ 1 − r. La hipótesis δ = 0 está contenida en la región de más alta

probabilidad si
′ −1
(Rβ 1 − r) RM−1
1 R (Rβ 1 − r) /q
< F(q,v1 )
S1 /v1
Para el cálculo de las pruebas bayesianas y los factores de Bayes supongamos

deseamos probar H1 : Rβ = r y H2 : Rβ 6= r. H1 implica excatamente q
restricciones sobre los paámetros que pueden ser sustituidos en el modelo, lo
cual produce
y ∗ = X∗ β ∗ + ǫ
donde β es un vector con k−q componentes.

Especificando
una apriori para β ∗ y
∗ −1
σ 2 bajo H1 , digamos β ∗ | σ 2 ∼ N β0∗ , σ 2 M0 , σ 2 ∼ IG1 (S0 , v0 ) obtenemos
la verosimilitud marginal bajo H1 como
−1
∗ −1
∗
m (y | H1 ) = tn X∗ β0∗ , S0 , ∗
I + X M0 X ∗′
, v0
2
Bajo H2 , especificamos una apriori β | σ 2 ∼ N β0 , σ 2 M−1 0 , σ ∼ IG1 (S0 , v0 )
y el análisis es igual al anterior. El factor de Bayes será entonces
−1
∗ −1
tn X∗ β0∗ , S0 , ∗
I + X M0 X , v0 ∗′
B12 =
−1
tn Xβ0 , S0 , (I + XM0 ; −1X′ ) , v0
9.6. PRECIOS DE OFERTA DE VEHÍCULOS 91
9.6. Precios de Oferta de Vehı́culos

Consideremos los datos referentes a los precios de oferta de carros Chevrolet
Sprint aparecidos en el periódico El Colombiano Abril 14 del 2002 en la sección
de Avisos Clasificados.
Año Precio
(en millones)
87 7.0
88 8.0
92 10.4
94 12.5
Si asumimos que el modelo P recio = β0 + β1 Año nos puede representar de una

manera adecuada la relación entre el Precio de Oferta del vehı́culo y el Año del
mismo. Además asumimos que una observación particular tiene una diferencia
con el modelo teórico que se distribuye normal con media cero y varianza σ 2 .
La pendiente β0 nos indica la diferencia promedio en el precio de dos carros
Sprint de años consecutivos. Podemos entonces utilizar un programa estadı́stico
que ajuste el modelo ( aún hasta calculadoras de bolsillo ajustan este tipo de
modelos). Los resultados son
Precio Estimado = 9,475 + 0,74275Año

Error Estándar 0,17326 0,06055
Desviación Tı́pica del Modelo: 0.3465 con 2 grados de libertad

R-Cuadrado: 0.9869
Obviamente el modelo ajusta bien, pero es claro que tenemos muy pocos datos.
El intervalo de confianza del 95 % para la pendiente es ( 0.4822244, 1.003276),
que es bastante amplio. Un problema con esta aproximación es la interpretación
frecuentista que hay que darle al intervalo y que se basa en el supuesto de la
extracción de infinitas muestras de tamaño 4 de la misma población.
Los precios de oferta del mismo tipo de carro que aparecieron en El Colombiano
en Diciembre 16 del 2001, en el cual aparecieron los siguientes datos
Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8
Si asumimos que β0 se distribuye normalmente con media 10.86 y precisión de

28.08382 y β1 se distribuye normalmente con media 0.6522 y precisión 225.2477.
Para la varianza del modelo asumimos un modelo poco informativo Gamma(0.001,0.001).

Los valores anteriores se construyeron asumiendo inicialmente distribuciones
poco informativas y actualizándolos con la información previa, excepto el de la
varianza, ya que este nos refleja el nivel de credibilidad en las predicciones de
esta actualización, que puede no ser muy alto. Dadas esta nuevas condiciones
para nuestro problema, o sea información previa disponible y cuantificada en
términos de distribuciones, procedemos a mezclarla, utilizando el Teorema de
Bayes, para obtener nuestra distribución actualizada o aposteriori. Esta última
produce los resultados siguientes
Parámetro media sd 2.5 % 97.5 %

β0 10.76 0.1925 10.38 11.14
β1 0.6581 0.06308 0.5339 0.7838
τ 0.5937 0.4655 0.06085 1.825
El intervalo de credibilidad (en la estadı́stica clásica lo llamamos de confianza)

para la pendiente del 95 % de probabilidad es (0.5339 , 0.7838 ), el cual nos dice
que el más probable valor para la diferencia promedio en el precio de oferta de
dos carros Sprint de años consecutivos está entre $534.000.00 y $784.000.00. Este
intervalo es mucho más preciso que el intervalo hallado por el método clásico
que era $482.200.00 y $1.003.000.00.
9.7.
El modelo usual de regresión es
y = Xβ + ǫ, ǫ ∼ N (0, Σ) , β ∈ Rp
Las conjugadas son del tipo β ∼ N (Aθ, C) , donde θ ∈ Rq , con q ≤ p.

En el caso de distribuciones no informativas la apriori de Jeffreys es
−(k+1)/2
ξ (β, Σ) |Σ|
recordando que la verosimilitud puede expresarse como

( " n
#)
−n/2 1 X ′
−1
L (β, Σ|y) ∝ |Σ| exp − traza Σ (yi − xi β) (yi − xi β)
2 i=1
Ejemplo 9.1 Propiedad Raı́z El mercado de propiedad raı́z es uno de los

más importantes y refleja la situción económica de una región. En este caso va-
mos a considerar el mercado de apartamentos usados en el sector de El Poblado.
Seleccionamos este sector básicamente por las siguientes razones:
9.7. 93
a) Es un sector de la ciudad con una gran dinámica en el mercado del usado.
b) A nivel de estratificación socioeconómica es muy homogénea.
c) Los apartamentos son relativamente nuevos, en el sentido que la antigüedad

de la mayorı́a no supera los veinte años.
Uno puede considerar muchos factores que expliquen el precio de oferta de un

apartamento usado, por ejemplo:
Antigüedad del inmueble.
Metros cuadrados construidos.
Calidad de la construcción.
etc.
Nosotros consideramos la información disponible para construir un modelo que

explique el precio de oferta y básicamente se limita a los metros cuadrados
construidos del apartamento.
Apto. No. Metros2 Precio (en millones)

1 113.00 92.00
2 140.00 130.00
3 140.00 125.00
4 110.00 90.00
5 69.00 65.00
6 152.00 130.00
7 105.00 110.00
8 144.00 120.00
9 103.00 89.00
10 107.00 145.00
11 112.00 85.00
12 103.00 89.00
13 120.00 105.00
14 86.00 75.00
15 143.00 112.00
16 115.00 112.00
17 136.50 125.00
18 168.50 145.00
19 217.00 205.00
20 132.80 115.00
21 120.00 105.00
22 108.00 89.00
23 220.00 150.00
24 110.00 89.00
25 228.00 108.00
26 83.00 66.00
27 78.00 64.00
28 150.00 135.00
29 135.00 125.00
30 90.00 65.00
Fuente: El Colombiano, Avisos Clasificados,
Sept. 22 del 2002.
model
{
for( i in 1 : N ) {
Precio[i ] ~ dnorm(mu[i],tau)
mu[i] <- alpha + beta * (metros[i] - mean(metros[]))
}
tau ~ dgamma(0.001,0.001)
sigma <- 1 / sqrt(tau)
alpha ~ dnorm(0.0,1.0E-6)
error~dnorm(0,tau)
beta ~ dnorm(0.0,1.0E-6)
Precio175<-alpha+beta*(175-mean(metros[]))
9.7. 95
Precio175indi<-Precio175+error
for(i in 1:N){
PrecioIndi[i]<-alpha+beta*(metros[i]-mean(metros[]))+error
}
}
list(N=25, Precio=c(92,130,125,90,65, 130,110,120,89,145, 85,89,105,75,112,
112,125, 145,205,115, 105,89,150,89,108, 66,64,135,125,65), metros=c(113,140,140,110,69,
152,105,144,103,107, 112,103,120,86,143, 115,136.5,168.5,217,132.8,
120,108,220,110,228, 83,78,150,135,90))
list(tau=1,beta=0,alpha=0,error=0)
Los resultados del anterior programa se muestran en la siguiente tabla.
Nodo Media sd 2.50 % median 97.5 %

1 alpha 108.70 3.79 101.20 108.70 116.20
2 beta 0.61 0.10 0.41 0.61 0.80
3 Precio175 137.20 5.90 125.40 137.20 148.80
4 Precio175indi 137.20 21.38 94.90 137.20 179.60

Ajustamos en R el modelo P recio = α + β M etros2 − M edia(M etros2 ) por
el método clásico (esto es, no bayesiano) y obtuvimos
Parámetro Estimación error Prueba t Valor-p

1 â 108.66667 3.61327 30.074 < 2e − 16
2 β̂ 0.60893 0.09303 6.546 4,27e − 07
Obs. Media sd EMC 2.50 % Mediana 97.50 %

1 99.45 20.96 0.25 58.01 99.35 141.00
2 115.90 20.96 0.25 74.58 115.80 156.90
3 115.90 20.96 0.25 74.58 115.80 156.90
4 97.63 20.98 0.25 56.52 97.54 139.00
5 72.72 21.64 0.26 30.34 72.53 114.60
6 123.10 21.06 0.26 81.64 123.10 164.70
7 94.59 21.02 0.25 53.26 94.54 136.00
8 118.30 20.99 0.25 76.88 118.20 159.40
9 93.38 21.04 0.25 52.12 93.30 134.70
10 95.81 21.00 0.25 54.43 95.74 137.20
11 98.84 20.97 0.25 57.52 98.76 140.30
12 93.38 21.04 0.25 52.12 93.30 134.70
13 103.70 20.93 0.25 62.52 103.60 144.90
14 83.05 21.28 0.25 41.36 82.92 124.90
15 117.70 20.98 0.25 76.35 117.60 158.70
16 100.70 20.95 0.25 59.33 100.50 142.10
17 113.70 20.94 0.25 72.73 113.60 154.80
18 133.20 21.31 0.26 90.95 133.30 174.80
19 162.60 22.68 0.29 117.50 162.50 208.50
20 111.50 20.93 0.25 70.56 111.30 152.70
21 103.70 20.93 0.25 62.52 103.60 144.90
22 96.41 20.99 0.25 55.03 96.37 137.80
23 164.50 22.79 0.29 119.20 164.40 210.60
24 97.63 20.98 0.25 56.52 97.54 139.00
25 169.30 23.11 0.30 123.40 169.20 216.30
26 81.23 21.33 0.25 39.49 81.10 123.00
27 78.19 21.44 0.25 36.10 78.07 119.70
28 121.90 21.04 0.26 80.46 121.90 163.30
29 112.80 20.94 0.25 71.76 112.70 154.00
30 85.48 21.21 0.25 43.99 85.38 127.10
Call:
lm(formula = Precio ~ Metros)
Residuals:
Min 1Q Median 3Q Max
-61.584 -8.028 -1.644 11.202 49.097
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 30.74757 12.44011 2.472 0.0198 *
Metros 0.60893 0.09303 6.546 4.27e-07 ***
9.7. 97
Figura 9.1: Metros cuadrados de un apartamento versus el Precio de oferta

(en millones) en el sector de El Poblado. El modelo estimado es P d recio =
30,7475+0,6089M etros2 , el cual indica que el metro cuadrado para los usados en
este sector es aproximadamente de $600.000.00 Fuente: El Colombiano, Avisos
Clasificados, Sept. 22 del 2002.
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 19.79 on 28 degrees of freedom

Multiple R-Squared: 0.6048, Adjusted R-squared: 0.5907
F-statistic: 42.85 on 1 and 28 DF, p-value: 4.27e-07
predict.lm(lm(Precio~Metros),data.frame(Metros=175),
interval=’prediction’)
fit lwr upr
[1,] 137.3109 95.13768 179.4841
> predict.lm(lm(Precio~Metros),data.frame(Metros=175),
interval=’confidence’)
fit lwr upr
[1,] 137.3109 125.6862 148.9355
El modelo clásico nos da
Pd
recio = 30,7475 + 0,6089M etros2

′ 30,0 3838,8
XX=
3838,8 536471,3
9.8. Estrategias en Modelación

Jefferys y Berger (1992) discuten el principio que es ahora popular entre los
modeladores conocido como la cuchilla de Ockham, y que dice Pluritas non est
ponenda sine necessitate, que traduce “La pluralidad no se debe imponer sin
necesidad”. Aunque el principio es relativamente vago, varias interpretaciones
se le han dado tales como:
“Las entidades no deben ser multiplicadas sin necesidad”
“Es vano hacer con más lo que se puede hacer con menos”
“Una explicación de los hechos no debe ser más complicada de lo

necesario”
“Entre hipótesis que compiten, favorezca la más simple”

9.9. REGRESIÓN INVERSA O CALIBRACIÓN 99
Este ha sido un principio heurı́stico, pero ellos argumentan que puede ser justi-
ficado y aceptado bajo la escuela bayesiana.
Loredo (199*) habla de la Cuchilla de Occam Automtizada
Para probabilidades predictivas se prefieren modelos simples.
El Factor de Occam
Z
P (D|Mi ) = ξ (θi |M ) L(θi ) dθi

≈ xi θ̂i |M L(θ̂i ) δθi
δθi
≈ L(θ̂i )
∆θi
≈ Máxima Verosilitud × Factor de Occam
Los modelos con más parámetros usualmente hacen que los datos produzcan un
mejor ajuste. El Factor de Occam penaliza los modelos por el “volumen” del
espacio parametral desperdiciado.
No existen reglas rı́gidas que se deban seguir en el proceso de modelación, más
bien lo que se presenta a continuación nace más bien de la experiencia:
Comenzar con modelos pequeños y simples que han sido utilizados

por otras personas y para los cuales los análisis han sido realizados.
Desarrollar modelos más complejos paso a paso.
Cuando realice simulaciones chequee las respuestas finales comen-

zado desde diferentes puntos iniciales y diferentes semillas para los
generadores de números aleatorios.
9.9. Regresión Inversa o Calibración

Suponga que realizamos un experimento para determinar el porcentaje en in-
sectos que mueren cuando se les aplica una cantidad de droga letal. En el ex-
perimento supogamos que tenemos 5 niveles de droga 0.1 0.2 0.3 0.4 0.5 y a
500 insectos en grupos de a 100 les aplicamos el veneno (100 muertos por cada
dosis)
Y 0.1 0.2 0.3 0.4 0.5
X 22 35 4 6 0
La estimación inversa serı́a : Cuál es la dosis que mata el 50 % de los insectos ?
El problema clásico nos da
Ŷ = β̂0 + β̂1 X
Y0 es el valor dado. El estimador “natural”serı́a
Y0 − β̂0
X̂0 = con β̂1 6= 0
β̂1
Un IC del (1 − α) 100 % para X0 es el conjunto de valores X que satisface la

desigualdad
2
Y0 − β̂0 − β̂1 X
≤ t2(α/2,n−2)
σ̂e2 A2
donde 2
1 X − X̄
A2 = 1 + + Pn 2
n
i=1 Xi − X̄
El problema de la regresión lineal inversa puede establecerse como: las observa-

ciones toman la forma
y1i = β1 + β2 xi + ǫ1i i = 1, · · · , n
y2j = β1 + β2 x + ǫ2j j = 1, · · · , m

donde los ǫ1i ’s y los ǫ1j ’s están mutua e independientemente distribuidas N 0, σ 2 .
Se asume que x1 , · · · , xn son constantes conocidas, y que β1 , β2 , σ 2 y x son
desconocidas. El problema es realizar inferencias con respecto a x basados en
y11 , · · · , y1n , y21 , · · · , y2m . Sin pérdida de generalidad se asume que las xi ’s son
seleccionadas tal que
X P 2
i xi
xi = 0, =1
i
n
Ejemplo 9.2 Regresión Inversa: Cúantos metros tendrá un aparta-

mento que cuesta $100 millones?
model
{
for( i in 1 : N ) {
Precio[i ] ~ dnorm(mu[i],tau) mu[i] <- alpha + beta * (metros[i]

- mean(metros[]))
}
tau ~ dgamma(0.001,0.001) sigma <- 1 / sqrt(tau) alpha ~ dnorm(0.0,1.0E-6)
beta ~ dnorm(0.5,1.0E-6) Metros100<-(100-alpha)/beta+ mean(metros[])
}
list(N=29, Precio=c(92,130,125,90,65,
130,110,120,89,145,
9.9. REGRESIÓN INVERSA O CALIBRACIÓN 101
85,89,105,75,112,
112,125, 145,205,115,
105,89,150,89,
66,64,135,125,65),
metros=c(113,140,140,110,69,
152,105,144,103,107,
112,103,120,86,143,
115,136.5,168.5,217,132.8,
120,108,220,110,
83,78,150,135,90))
list(tau=1,beta=0.5,alpha=0)

sigma 15.18 2.16 0.02817 11.59 14.95 20.04 4001 6000
alpha 108.6 2.851 0.02999 103.0 108.6 114.4 4001 6000
beta 0.7906 0.08203 0.00117 0.6274 0.7901 0.9532 4001 6000
Metros100 113.5 3.853 0.04096 105.5 113.6 120.7 4001 6000
Capı́tulo 10
Modelo Lineal Generalizado
El modelo lineal clásico ha sido utilizado extensivamente y con mucho éxito en

múltiples situaciones. En el análisis de regresión estamos interesados en predecir
la media de una variable, llamada la respuesta, basados en un conjunto de
variables, llamadas los predictores. La regresión clásica asume que la respuesta
es continua y distribuı́da normalmente. El modelo lineal clásico cae en una clase
mayor de modelos que se conoce como modelo lineal generalizado, M.L.G., la
cual tiene tres componentes básicas:
a) Un conjunto de variables aleatorias independientes que pertenecen

a la familia exponencial.
b) Una matriz de diseño y un vector de parámetros.
c) Una función link (enlace, conexión) que relaciona las medias del mo-
delo lineal.
Dentro de la clase de modelos lineales generalizados tenemos el modelo lineal

clásico, el modelo loglineal, la regresión Poisson, la regresión logı́stica, etc.
En el modelo lineal generalizado clásico observamos respuestas Yi y covariables
k-dimensionales xi , donde las respuestas condicionales (Yi |θi , φ) se asumen son
variables aleatorias independientes con una densidad que pertenece a la familia
exponencial de un parámetro

yi θi − µ (θi )
f (yi |θi , φ) = exp + c (yi , φ) i = 1, · · · , n
a(φ)
El modelo clásico asume que la media E (Yi ) = µ′ (θi ) está relacionada al inter-
cepto β0 y al vector de parámetros de las covariables β a través de una función de
encadenamiento monótona y diferenciable, y el espacio parametral no es vacı́o.
103
104 CAPÍTULO 10. MODELO LINEAL GENERALIZADO
El modelo lineal generalizado aparece imponiendo una apriori jerárquica so-

bre los parámetros (β0 , β). Una selección particularmente conveniente es usar
aprioris normales con aprioris conjugadas para los hiperparámetros (Ishwaran,
1997)
(β0 |b0 , σ0 ) ∼ N (b0 , σ0 )

(β|b, W ) ∼ Nk (b, W )
(bo |B0 ) ∼ N (0, B0 )
(b|B) ∼ N (0, BI)
−1

σ0 |s1 , s2 ∼ gamma (s1 , s2 )

W −1 |V , v ∼ W ishart V −1 , v
10.1. Modelo Logı́stico

Supongamos que observamos proporciones como respuesta y1 , · · · , yN de pobla-
ciones binomiales con proporciones π1 , · · · , πN y sus correspondientes tamaños
muestrales n1 , · · · , nN . Asociado con la i-ésima observación hay un vector de
covariables xi y la proporción πi es encadenada a las covariables xi por medio
del modelo logı́stico

πi
log = xTi β
1 − πi
La verosimilitud del vector de regresión β está dada por
N
Y ni (1−yi )
L(β) = πini yi (1 − πi )
i=1
donde

exp xTi β
πi =
1 + exp xTi β
Si ξ(β) es la densidad apriori para β, entonces la densidad posterior para β es

proporcional a
ξ (β|y) ∝ ξ(β)L(β)
10.1. MODELO LOGÍSTICO 105
10.1.1. Selección de la Distribución Apriori

Para este caso es difı́cil asignar una distribución apriori directamente al vector de
parámetros de la regresión β ya que está relacionado de una forma no lineal a las
probabilidades {πi }. Puede ser más fácil especificar indirectamente una apriori
para β haciendo suposiciones sobre el valor promedio del valor de la proporción
E(π) para valores seleccionados de las covariables. Si el rango de la matriz de co-
variables es k, entonces uno considera las proporciones π1 , · · · , πk para k conjun-
tos diferentes de la covariable x. Las medias condicionales apriori (MCA) asume
que π1 , · · · , πk son independientes con πi se distribuye Beta (wi mi , wi (1 − mi )),
donde mi es una adivinaza apriori de πi y wi es la precisión de esta adivinanza.
La distribución sobre π1 , · · · , πk es proporcional a
k
Y wi (1−mi )−1
ξ (π1 , · · · , πk ) ∝ πiwi mi −1 (1 − πi )
i=1
Para el linkeo logı́stico, esta apriori sobre {πi } es equivalente a una apriori sobre
β que es de la misma forma que la verosimilitud con “observaciones apriori”
{(mi , wi , xi )}. Esta es llamada una apriori de datos aumentados (ADA). Es
fácil actualizar la densidad aposteriori de β utilizando esta forma de distribución
apriori. La densidad posterior es proporcional a
N
Y k
Y
ni (1−yi ) wi (1−mi )−1
ξ (β|y) ∝ πini yi (1 − πi ) πiwi mi −1 (1 − πi )
i=1 i=1
En otras palabras, la distribución aposteriori de β es equivalente a la verosimil-

itud de los datos observados {(yi , ni , xi )} aumentados con los “datos apriori”
{(mi , wi , xi )}.
Ejemplo 10.1 Modelo logı́stico cuadrático Dellaportas y Smith (1993)

presentan este ejemplo que considera un modelo logı́stico cudrático. Los datos
hacen referencia a la retinopatı́a, una enfermedad de los ojos, y el tiempo que
un paciente ha tenido diabetes. La siguiente tabla presenta información sobre
pacientes que sufrı́an de este padecimiento en dos muestras (una pasada y otra
actual)
Duración de Retinopatı́a
la Diabetes Datos Previos Datos Actuales
z Si No Si No
0-2 (1) 17 215 46 290
3-5 (4) 26 218 52 211
6-8 (7) 39 137 44 134
9-11 (10) 27 62 54 91
12-14 (13) 35 36 38 53
15-17 (16) 37 16 39 42
18-20 (19) 26 13 23 23
21+ (24) 23 15 52 32
El modelo considerado fue

π1j
log = β1 + β2 zj + β3 zj2 = ηj
π2j
Un análisis que se realizó tomó como información apriori la generada por los
estimadores de máxima verosimilitud de generada por los datos previos
 
−3,17
β o =  +0,33 
−0,007
 
638,0
D o = 10−4  −111,0 24,1 
3,9 −0,9 0,04
y se consideró como la distribución apriori de β la normal trivariable N (β o , D o ).
Por lo tanto con los datos presentes la distribución aposteriori de β será pro-
porcional a
 
X8
1 ′
ξ (β|Datos) ∝ exp − (β o ) D −1 o (β o ) {x1j log (ηj ) − (x1j + x2j ) log (1 + eηj )}
2 j=1
donde x1j y x2j son los números actuales en cada categorı́a de edad con o sin
retinopatı́a. Para obtener la constante de normalización se necesita una inte-
gración numérica tridimensional.
Dellaporta y Smith (1993) comentan que Knuiman y Speed optaron por una
aproximación normal basados en la moda posterior, una solución de
∂
log (β|Datos) = 0
∂β
y una medida de dispersión dada por la matriz
−1
∂ 2 {log (β|Datos)}
D (β) = −
∂β ∂β ′
evaluada en la moda posterior
 
−2,37
β =  +0,21 
−0,004
 
207,0
D = 10−4  −36,0 8,1 
1,2 −0,3 0,01
10.1. MODELO LOGÍSTICO 107
y Dellaporta y Smith utilzando el muestrador de Gibbs obtuvieron

 
−2,36
β ∗ =  +0,21 
−0,004
 
201,0
D ∗ = 10−4  −35,7 7,9 
1,2 −0,3 0,01
Ejemplo 10.2 Niñas Polacas
{
for( i in 1 : N ) {
r[i] ~ dbin(p[i],n[i])
logit(p[i]) <- alpha.star + beta * (x[i] - mean(x[]))
rhat[i] <- n[i] * p[i]
}
alpha <- alpha.star - beta * mean(x[])
beta ~ dnorm(0.0,0.001)
alpha.star ~ dnorm(0.0,0.001)
}
list( x = c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33,13.58,13.83,14.08,
14.33,14.58,14.83,15.08,15.33,15.58),
n = c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94),
r = c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92), N =20)
list(alpha.star=0, beta=0)
Procedimiento Clásico en R
>edad<- c(10.83,11.08,11.33,11.58,11.83,12.08,
12.33,12.58,12.83,13.08,13.33, 13.58,13.83,14.08,14.33,14.58,
14.83,15.08,15.33,15.58)
>exitos<-c(2,2,5,10,17,16, 29,39,51,47,67,
81,88,79,90,113, 95,117,107,92)
>n<-c(120,90,88,105,111,100, 93,100,108,99,106,
105,117,98,97,120, 102,122,111,94)
>summary(glm(cbind(exitos,n-exitos) edad,family=’binomial’))
Call:
glm(formula = cbind(exitos, n - exitos) edad, family = "binomial")
Deviance Residuals:
-1.2267 -0.8613 -0.3124 0.7507 1.2841
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.46917 0.83475 -24.52 <2e-16 ***
edad 1.57545 0.06379 24.70 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1278.571 on 19 degrees of freedom
Residual deviance: 14.893 on 18 degrees of freedom
AIC: 100.35
Number of Fisher Scoring iterations: 3
10.1.2. Análisis Bayesiano de Residuales de Modelos Logı́sti-

cos
Este sección está basada en Albert y Chib (1994).
10.2. Regresión Poisson

La distribución Poisson juega un papel de fundamental importancia en el trabajo
aplicado para modelar problemas de conteo en muchas áreas. Los problemas
de regresión donde la variable dependiente es un conteo ocurre con bastante
frecuencia. Ejemplos tenemos el número de muertos por una cierta enfermedad
10.2. REGRESIÓN POISSON 109
extraña puede explicarse por un número grande de factores, por ejemplo, clima,
salubridad, educación, etc. El número de defectos que aparece en cierto rollo de
tela depende de la longitud del rollo, época de elaboración. Es común asumir
una respuesta poissoniana, que perteneciendo a la familia exponencial puede
resolverse con la metodologı́a que estamos desarrollando.
Yi ∼ P oisson(λi )
e−λi λyi i
f (yi ; λi ) =
yi !
= exp (yi log λi − λi − log(yi !))
= exp (yi θi − λi − log(yi !))
donde
θi = log(λi )
el cual es el parámetro natural.
E[yi ] = λi
var[yi ] = λi
ya que g(λi ) = θi cuando g es la función logaritmo. El link canónico es el link

log
log(λi ) = xi ′ β
ya que λi = exp(ηi ) se tiene que

∂λi
= exp(ηi ) = λi
∂ηi
las ecuaciones de verosimilitud

n
X (yi − λi ) ∂λi
xij = 0 j = 1, .., p
i=1
var(yi ) ∂ηi
se reduce a
n
X
(yi − λi )xij = 0
i=1
ya que
2
1
∂λi
wi = = λi
∂ηi
var(yi )
−1
la matriz de covarianza estimada de β̂ es X ′ Ŵ X c es la matriz
donde W
diagonal con elementos de λ̂ en la diagonal principal.
Figura 10.1: Se muestra la relación entre el número de hijos de una pareja y

sus años de casados en una muestra de corte transversal. Estos datos presentan
un efecto de cohorte, esto es, hay cambios estructurales en estos modelos no
observables en los datos, y que se pueden detectar solo en datos que se generan
en forma temporal siguiendo cohortes. Estos cambios se originan en cambios de
la composición familiar, en cambios económicos, etc. Se observa como la media
y la dispersión aumentan a medida que aumenta el número de años.
Ejemplo de una Regresión Poisson
Variable dependiente: Número de hijos en un matrimonio

Independiente: A~
nos de Casados
model
{
for( i in 1 : N ) {
NHIJOS[i] ~ dpois(media[i])
log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))
}
alpha <- alpha.star - beta * mean(TPOCAS[])
beta ~ dnorm(0.0,0.001)
}
list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,
5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,
24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,
2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,
4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,
5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,
46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,
5,36,31,0),
NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,3,1,1,
1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,2,4,9,0,
0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,2,2,0,1,
1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,2,3,2,2,
0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,2,3,1,2,
2,0,4,0,1,2,1,3,2,0))
list(alpha.star=0, beta=0)
node mean sd MC error 2.5% median 97.5% start sample

beta 0.04284 0.003621 7.762E-5 0.03573 0.04286 0.04996 2001 3000
alpha -0.1066 0.1046 0.002465 -0.3118 -0.1043 0.09703 2001 3000
El mismo problema con la aproximación clásica:

> nrohijos<-c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,3,2,2,
3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,0,
2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,
3,2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,
2,2,2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,
2,1,2,2,3,1,2,2,0,4,0,1,2,1,3,2,0)
> tpocasados<-c(28,38,22,1,5,2,3,44,33,10,30,9,21,9,5,4,
3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,27,24,8,
4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,4,2,25,20,
28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,27,4,11,4,14,
29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,16,4,5,10,24,12,
12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,16,6,46,6,8,13,12,
24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,12,5,36,31,0)
> summary(glm(nrohijos~tpocasados,family=’poisson’))
Call:
glm(formula = nrohijos ~ tpocasados, family = "poisson")
Deviance Residuals:
-2.02693 -0.54123 -0.06717 0.43187 2.09419
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.105135 0.102899 -1.022 0.307
tpocasados 0.042891 0.003568 12.020 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 222.330 on 148 degrees of freedom

Residual deviance: 98.788 on 147 degrees of freedom
AIC: 436.91
Number of Fisher Scoring iterations: 4
Sobredispersión es un fenómeno que ocurre en algunos datos, en especial cuando

provienen de binomiales o Poisson. Si la estimación de una medida de dispersión
después de ajustar el modelo, como lo es la deviance o el chi cuadrado de Pearson
dividido por sus respectivos grados de libertad no está cerca a 1, entonces los
datos pueden ser sobredispersos si este cociente es mayor que 1 o subdispersos
si es menor que 1.
# Modelo de regresion Poisson para el numero

# de hijos con sobredispersion
model
{
for( i in 1 : N ) {
NHIJOS[i] ~ dpois(media[i])
log(media[i]) <- alpha.star + beta * (TPOCAS[i] - mean(TPOCAS[]))
+ tau*TPOCAS[i]
alpha <- alpha.star - beta * mean(TPOCAS[])

beta ~ dnorm(0.0,0.001)
gamma ~ dnorm(0.0,1.0E-6)
tau ~ dgamma(0.001, 0.001)
sigma <- 1 / sqrt(tau)
}
list(N=149, TPOCAS=c(28,38,22,1,5,2,3,44,33,10,30,9,21,
9,5,4,3,2,26,5,4,5,18,5,2,23,3,5,1,21,34,10,3,3,10,31,
27,24,8,4,12,32,3,6,55,32,65,13,7,31,36,1,6,29,33,18,7,
4,2,25,20,28,19,6,8,11,2,22,25,26,4,31,28,4,2,24,31,22,
27,4,11,4,14,29,39,21,2,4,0,3,16,3,14,21,3,18,2,6,11,8,
16,4,5,10,24,12,12,28,6,25,3,16,1,4,14,33,17,8,3,22,23,6,
16,6,46,6,8,13,12,24,7,13,26,4,22,31,28,18,27,27,5,28,7,3,
12,5,36,31,0), NHIJOS=c(2,5,3,1,1,1,0,4,4,2,3,2,2,2,2,2,1,1,
3,2,2,3,1,1,1,2,1,0,0,4,8,2,2,1,2,3,1,3,2,1,0,4,0,2,4,4,14,
0,2,4,9,0,0,5,6,1,0,1,1,2,2,2,3,2,1,2,1,4,2,4,1,2,4,0,0,2,3,
2,2,0,1,1,2,2,6,2,0,0,0,3,2,1,3,6,1,3,2,1,1,1,3,0,1,2,2,2,
2,3,2,2,0,2,0,1,2,4,2,1,1,2,4,1,2,0,7,1,1,2,2,4,1,1,2,1,2,
2,3,1,2,2,0,4,0,1,2,1,3,2,0))
list(alpha.star=0, beta=0, gamma = 0, tau = 0.1)

beta 0.04282 0.003487 7.991E-5 0.03587 0.04282 0.04955 2001 2000
alpha -0.1081 0.1015 0.002578 -0.3082 -0.1091 0.09012 2001 2000
alpha.star 0.5482 0.06567 0.001591 0.4201 0.5485 0.6774 2001 2000
tau 1.501E-5 1.492E-4 8.288E-6 3.352E-33 6.125E-17 3.031E-5 2001
2000
10.3. Log-concavidad de la log-verosimilitud

La log-concavidad es una propiedad importante cuando se piensa implementar
procedimientos numéricos de optimización (Dellportas y Smith, 1993).
Definición 10.1 ( Log-Concavidad) Una función positiva f en un conjunto

convexo abierto C en Rn es llamada log-cóncava si
log(f ) es una función de valor real dos veces diferenciable en C, y
si su matriz hessiana es semidefinida negativa, (H ≤ 0), para todo x ∈ C,

donde
∂ 2 log (f (x))
H = (Hij (x)) , Hij (x) =
∂xi ∂xj
Si la hessiana es definida negativa, la función f es llamada estrictamente log-

cóncava.
En el modelo lineal generalizado la log-concavidad se cumple para
Normal: L es estrictamente cóncava solo para la función de linkeo canónica.
Gamma: Log-concavidad estricta para
g(µ) = log(µ)
g(µ) = µγ para −1 ≤ γ < 0
Poisson: Log-concavidad estricta si yi > 0 para g(µ) = µ, y cóncava para

cualquier yi . L es estrictamente cóncavapara
g(µ) = log(µ)
g(µ) = µγ para 0 < γ < 1
Binomial: Los modelos logı́stico, probit y log-complementario tienen log-

concavidad de la función de verosimilitud.
Capı́tulo 11
Estadı́stica Bayesiana Empı́rica
Este capı́tulo está basado en la revisión de Casella (1985). Este método fue prop-
uesto por Robbins en 1955 (Miller, 1989), también conocida como Estadı́stica
Bayesiana Empı́rica Noparamétrica, ya que dejaba inespecificada la distribución
apriori. La estadı́stica Bayesiana Empı́rica Paramétrica es un hı́brido que asume
la existencia de datos previos para estimar los parámetros de f (θ).
Supongamos que tenemos p variables observadas, cada una de ellas de una
población normal

Xi ∼ N µ, σ 2 para i = 1, · · · , p.
El
115
116 CAPÍTULO 11. ESTADÍSTICA BAYESIANA EMPÍRICA
Capı́tulo 12
Análisis Multivariable
12.1. Distribución Normal Multivariable

Supongamos que Y 1 , · · · , Y n es una muestra de una distribución multivariable
p-dimensional, Np (µ, Σ). Una selección corriente para las apriori de µ y Σ es
(Varbanov, 1996):
ξ (µ) ∝ 1
−(p+1)/2
ξ (Σ) ∝ |Σ|
−(p+1)/2
ξ (µ, Σ) = ξ (µ) ξ (Σ) ∝ |Σ|
Definamos
n
1X
Ȳ = Yi
n i=1
n
X ′
S = Y i − Ȳ Y i − Ȳ
i=1
Entonces la verosimilitud de los datos es:

−n/2 1 ′
f (Y |µ, Σ) ∝ |Σ| exp − tr Σ−1 S + n Ȳ − µ Σ−1 Ȳ − µ
2
La distribución posterior conjunta de (µ, Σ) es:

n n
−(n+p+1)/2 1 ′ o
ξ (µ, Σ|Y ) ∝ |Σ| exp − tr Σ−1 S exp − µ − Ȳ Σ−1 µ − Ȳ
2 2
117
118 CAPÍTULO 12. ANÁLISIS MULTIVARIABLE
y de donde se desprende

1
µ|Σ, Y ∼ Np Ȳ , Σ
n
Σ|Y ∼ W −1 (S, p, n − p)
donde W −1 (S, p, n − p) es la distribución Wishart invertida.

Capı́tulo 13
Datos Categóricos
13.1. Distribución Multinomial

La distribución multinomial es la base del trabajo con datos categóricos. En el
capı́tulo de distribuciones conjugadas habı́amos visto que la distribución conju-
gada es la Dirichlet.
Intervalos de Sison y Glaz
Sison y Glaz (1995) proponen dos formas de calcular intervalos de confianza

simultáneos para los parámetros multinomiales.
May y Johnson (2000) proporcionan macros en SAS para calcular estos interva-
los. Ellos argumentan que estos intervalos funcionan mejor que los otro métodos
cuando número de categorı́as es grande y el número de observaciones no lo es
tanto y si no existen celdas que polaricen las probabilidades.
Intervalo de Quesenberry y Hurst
Johnson y Kotz (1969) presentan el intervalo propuesto por Quesenberry y Hurst

en 1964. El intervalo para πi está dado por
r
χ2k−1,1−α + 2ni ± χ2k−1,1−α χ2k−1,1−α + 4 nNi (N − ni )

2 N + χ2k−1,1−α
Una mejora se logra si trabaja con 1 − α/k en lugar de 1 − α.
119
120 CAPÍTULO 13. DATOS CATEGÓRICOS
Método basado en el Teorema Central del Lı́mite
Si el tamaño muestral es lo suficientemente grande, podemos aplicar el teorema

central del lı́mite multivariable. Si n = (n1 , n2, · · · , nk )T es un vector aleatorio
k-dimensional
P proveniente de una multinomial M PU LT IN OM IAL(π, N ), donde
N = nj es fijo y π = (π1 , π2 , · · · , πk ), con πj = 1. Entonces
1
π̂ = n
N
Este es el intervalo propuesto en la mayorı́a de textos básicos en estadı́stica

(Canavos, 1988; Wonnacott y Wonnacott, 1979; Roussas, 1973; Walpole, 1992;
Meyer, 1986; Mood et al., 1974)
r r !
i (1−i ) i (1−i )
i − zα/(2k) ,i +zα/(2k)
n n
Se puede considerar la correción por continuidad (Snedecor y Cochran, 1980)

r r !
i (1−i ) 1 i (1−i ) 1
i − zα/(2k) − ,i +zα/(2k) +
n 2n n 2n
Intervalos basados en la Razón de Verosimilitud Relativa
Kalbfleish (1985) presenta la metodologı́a para construir intervalos de verosimi-

litud. Si L(θ) es la función de verosimilitud, se define la función de verosimilitud
relativa como
L(θ)
R(θ) =
L(θ̂)
El conjunto de valores de θ para los cuales R(θ) ≥ p es llamado la intervalo de
100 %p de verosimilitud para θ. Los intervalos del 14.7 % y del 3.6 % de verosi-
militud corresponden a intervalos de confianza aproximadamente de niveles del
95 % y del 99 %. Lo que se debe hacer entonces es hallar las raı́ces que nos dan
los lı́mites del intervalo. Para el caso del parámetro de la Bernoulli, π, tenemos
que un intervalo de confianza del 95 % se halla encontrando el par de raı́ces tal
que
L(π1 , π2 , · · · , πk )
R(π1 , π2 , · · · , πk ) = ≥ K(k, α)
L(π̂1 , π̂2 , · · · , π̂k )
Esto se resuelve numéricamente.
Método Exacto Basado en la F
Para construir este intervalo con un nivel (1 − α)100 % de confianza para π

debemos determinar los lı́mites inferior, LI y superior, LS , tales que P (Y ≥
13.1. DISTRIBUCIÓN MULTINOMIAL 121
y|π = LI ) = α/2 y P (Y ≤ y|π = LS ) = α/2. Leemis y Trivedi (1996) muestran

dos procedimientos mediante los cuales se calculan LI y LS en términos de la
distribución F . El intervalo “exacto” es:
−1 −1 !
n−y+1 n−y
1+ , 1+
yF2y,2(n−y+1),1−α/2 (y + 1)F2(y+1),2(n−y),α/2
Bootstrap
El método bootstrap proporciona una manera directa y sencilla para hallar

intervalos simultáneos para los parámetros de la distribución multinomial. Para
hallarlos se procede ası́:
a) A partir de la muestra estime los parámetros por máxima verosimil-

itud.
ni
π̂i = i = 1, 2, · · · , k
n
b) Genere M muestras de tamaño n de una distribución multinomi-

al con parámetros π̂1 , π̂2 , · · · , π̂k . Para cada muestra estime los
parámetros π1 , π2 , · · · , πk , digamos que para la muestra j los esti-
madores son π̂1j , π̂2j , · · · , π̂kj
n oM
c) Para cada π̂ij , construya un histograma y calcule los per-
j=1
centiles .025/(k-1) y 0.975/(k-1), denotémoslos por π̂i0,025 y π̂i0,975
La siguiente tabla presenta los datos sobre el tipo de sangre en una muestra de
personas de la región central y oriental de Antioquia
Tipo de Sangre
O A AB B
Frecuencia 474 246 11 59
π̂i 0.60000000 0.31139241 0.01392405 0.07468354
Intervalos simultáneos: TCL
0.556465534 0.270242626 0.003511297 0.051322879
0.64353447 0.35254218 0.02433680 0.09804421
Intervalos simultáneos: Quesenberry y Hurst
0.53763946 0.25675391 0.00505438 0.04795771
0.65927993 0.37184116 0.03776781 0.11451171
Intervalos simultáneos Bootstrap
0.625 % 0.5509415 0.2746835 0.005063291 0.05094146
99.375 % 0.6414636 0.3518987 0.026582278 0.09842563
Intervalos simultáneos: Sison y Glaz
0.5658 0.2772 0.0000 0.0405
0.6363 0.3477 0.0502 0.1109
Intervalos simultáneos: Sison y Glaz II
0.5646 0.2759 -0.0215 0.0392
0.6354 0.3465 0.0494 0.1101
Para la solución bayesiana asumimos que la apriori es una Dirichlet(α = 1) no

informativa.
list(k=4,NN=790,n=c(474,246,11,59), alfa=c(1,1,1,1))
model
{
p[1:k]~ddirch(alfa[])
n[1:k]~dmulti(p[],NN)
node mean sd MC error 2.5\% median 97.5\% start sample

p[1] 0.5986 0.01734 2.691E-4 0.5633 0.5985 0.6328 1 5000
p[2] 0.3107 0.01641 2.374E-4 0.2786 0.3107 0.344 1 5000
p[3] 0.01512 0.004382 5.822E-5 0.00791 0.01457 0.02489 1 5000
p[4] 0.07555 0.009581 1.596E-4 0.05786 0.07524 0.09493 1 5000
13.1.1. Obtención de la prevalencia verdadera from preva-

lencia aparente
Estamos interesados en obtener la distribución posterior para la prevalencia ver-
dadera dados los resultados de una prueba de diagnóstico (prevalencia aparente)
y las aprioris para sensitividad y especificidad.

En muchos casos la interpretación de sondeos de una enfermedad es difı́cil debido
a que la mayorı́a de las pruebas de diagnóstico (o tamizado) tienen sensitividad
y especificidad imperfectas. Ası́, hay una distinción entre prevalencia verdadera
(la proporción de una población que está realmente infectada) y la prevalencia
aparente (la proporción de una población que da positivo en una prueba para
una enfermedad. Dadas las estimaciones puntuales para sensitividad (se), es-
pecificidad (sp), y prevalencia aparente (AP), uno puede calcular la prevalencia
verdadera utilizando la siguiente expresión:
(AP + sp − 1)
prevalencia verdadera = .
(se + sp − 1)
La obtención de la estimada de la prevalencia verdadera cuando la sensitividad

y la especificidad son conocidas con incertidumbre es más difı́cil. Dado el re-
sultado de un experimento binomial y dadas las distribuciones apriori para la
sensitividad y la especificidad, el siguiente código puede usarse para obtener es-
timaciones puntuales e intervalos de probabilidad para la prevalencia verdadera.
Considere el siguiente ejemplo, motivados por los datos hipotéticos de un muestreo
para Salmonella enteriditis (SE). Asuma que el interés se centra en estimar la
prevalencia verdadera (pi), el valor predictivo positivo (pvp), y 1-el valor pre-
dictivo negativo (OneMinusPVN).
Asuma que seleccionamos 100 platos de cultivo de materia fecal para detectar.
Asumamos que los n = 100 individuos sometidos a prueba tuvimos y = 0
pruebas positivas. Esto es, la SE no fue cultivada exitosamente de ninguna de
las 100 aves.
El siguiente modelo puede usarse para obtener probabilidades posteriores de
la SE esparcida, dadas las probabilidades apriori para la sensitividad (se), la
especificidad (sp), y la prevalencia (π) de la prueba.
Asumamos que la especificidad es con casi certeza 1.000. Ası́, modelamos sp
usando la siguiente apriori:
sp ∼ beta(9999, 1).
Asumamos que la sensitividad se modela bien con una apriori donde un 90 %

de la probabilidad apriori está en el intervalo (0.30, 0.70), con una moda apriori
(la mejor adivinanza) de 0.50. Tal afirmación sobre probabilidades corresponde
a la siguiente distribución:
se ∼ beta(8, 8).
Asuma que no hay información sobre la prevalencia verdadera (π), ası́ la apriori
para π es uniforme:
π ∼ beta(1, 1)
El siguiente modelo puede usarse para obtener las distribuciones posteriores de
P V P , π, y de 1 − P V N :
a) MODELO
Model {
for(i in 1:1){
y[i] ~ dbin(ap[i],n[i])
ap[i] <- se*pi+(1-sp)*(1-pi)
}
se ~ dbeta(8, 8)
sp ~ dbeta(9999, 1)
pi ~ dbeta(1, 1)
pvn <- sp*(1-pi)/((1-se)*pi+sp*(1-pi))
pvp <- se*pi/(se*pi+(1-sp)*(1-pi))
OneMinusPVN <- 1-pvn
}
b) DATOS
list(y=c(0),n=c(100))
c) RESULTADOS
node mean sd MC error 2.5\% median 97.5\% start sample

pi 0.02238 0.02437 2.058E-4 5.185E-4 0.01468 0.08842 10000
50001
se 0.4679 0.1249 6.486E-4 0.2308 0.4663 0.7123 10000 50001
sp 0.9999 9.814E-5 8.214E-7 0.9996 0.9999 1.0 10000 50001
pvp 0.9632 0.09053 5.082E-4 0.7125 0.9903 0.9998 10000 50001
OneMinusPVN 0.013 0.01687 1.427E-4 2.418E-4 0.007532 0.05828
10000 50001
13.1.2. La Razón de Odds

Los odds1 de que el evento B ocurra relativo al evento A se define como la razón
de las probabilidades
P [B | A]
P [B c | A]
Los odds de B relativo a Ac son
P [B | Ac ]
P [B c | Ac ]
1 La palabra odds no tiene una única y precisa traducción, algunos la traducen como dis-
paridad y otros como apuestas.

Cornfield (1951) definió la razón de odds como

P [B|A]
P [B c |A]
ψ= P [B|Ac ]
P [B c |Ac ]
El estimador muestral de ψ, sera

a
a+c
a
c
c ad
r= a+c
= b
=
b
b+d d
bc
d
b+d
para lo anterior, se presupone una tabla como la que aparece a continuación

Factor A Ac
B a b
Bc c d
Fisher (1962) la llama Razón del Producto Cruzado. Un problema con este es-
timador es la presencia de ceros en las celdas, ya que puede convertirse en una
forma indeterminada.
Troendle y Frank (2001) presentan una aproximación bayesiana para trabajar
la razón de odds. Asumamos que π1 y π2 son variables aleatorias independientes
condistribuciones apriori uniformes en (0, 1). Consideremos las variables x y y
distribuidas binomialmente con parámetros n1 , π1 , y n2 , π2 , respectivamente.
La distribución de ψ dado el vector de observaciones (x, y) es
RR
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
ξ (θ|x, y) = R 1 RR1
0 0
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
donde

w(1 − z)
R= (w, z) ∈ (0, 1)2 : ≤θ
z(1 − w)
Esta región puede representarse como

w
R = (w, z) ∈ (0, 1)2 : z ≥
w + θ − θw
Ası́ tenemos
R1R1
0 w wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
w+θ−θw
ξ (θ|x, y) = R1R1
0 0
wx (1 − w)n1 −x z y (1 − z)n2 −y dz dw
La distribución posterior de ψ puede ser evaluada numéricamente de la ecuación

anterior.
Otra aproximación puede realizarse sabiendo que el log la razón de odds muestral
se distribuye asintóticamente normal con media log(ψ) y varianza 1/x + 1/(n1 −
x) + 1/y + 1/(n2 − y) podemos entonces utilizar la familia conjugada normal.
13.1.3. Modelos Loglineales

Al realizar un análisis bayesiano de tablas de contingencia, es necesario especi-
ficar aprioris bien sea en las celdas (en los conteos o en términos de las proba-
bilidades y el total) o, equivalentemente, en los parámetros loglineales (King y
Brooks, 2000).
13.1.4. Tablas con faltantes

Tebaldi y West (1998) utilizan métodos bayesianos para tablas de contingencia
con tablas parcialmente observadas.
13.1.5. Estimación de N (El tamaño de toda una población)

Brooks et al. (199*) presentan el problema de estimar el tamaño de una población
de animales y su supervivencia desde el punta de vista bayesiano. Usualmente
el proceso de estimación del tamaño de una población consiste en un proceso de
mı́nimo dos etapas: una primera de una captura de una muestra, su marcación
y su posterior devolución al medio. Una segunda etapa consiste en otra captura
y el conteo de sujetos marcados en la primera etapa. Con una relación relativa-
mente simple es posible estimar el tamaño de la población, si ciertos supuestos
de aleatoriedad se cumplen.
Supongamos que en el tiempo t1 se cogieron y marcaron n1 animales. Más tarde,
en el tiempo t2 , una segunda muestra de tamaño n2 se coge de la población y
se encuentran m2 marcados. Se asume que la captura de un animal particular
en el tiempo ti es un experimento Bernoulli con probabilidad de éxito πi , la
verosimilitud es el producto de los términos; la primera es la probabilidad de
muestrear n1 sujetos de una población de tamaño N y la segunda es la proba-
bilidad de una muestra de tamaño n2 de los cuales m2 son los marcados, dado
que habı́a n1 sujetos marcados en la población. La verosimilitud será

N N −n1 N − n1 n1 N −n2
L (N, π1 , π2 |n, m2 ) = π1n1 (1 − π1 ) π2n2 (1 − π2 )
n1 n2 − m2 m2
N −n N −n
N !π1n1 (1 − π1 ) 1
π2n2 (1 − π2 ) 2
=
(n1 − m2 )! (n2 − m2 )!m2 ! (N − n1 − n2 + m2 )!
Este es conocido como el modelo Lincoln-Peterson (Brroks et al. 199*). El esti-
mador de máxima verosimilitud para el tamaño poblacional es
n1 n2
N̂ =
m2
Si asumimos que ξ (π1 ) es la distribución apriori de π1 , entonces su distribución

condicional será
N −n1
ξ (π1 |π2 , N, n1 , n2 , m2 ) ∝ ξ (π1 ) π1n1 (1 − π1 )
Si adoptamos una Beta (α, β) como la apriori para π1 , la distribución condicional

será
β−1 N −n1
ξ (π1 |π2 , N, n1 , n2 , m2 ) ∝ π1α−1 (1 − π1 ) π1n1 (1 − π1 )
∝ Beta (α + n1 , β + N − n1 )
Capı́tulo 14
Métodos Computacionales
Ejemplo 14.1 La necesidad de utilizar métodos numéricos en el análisis bayesianos

queda ilustrado con el siguiente ejemplo (Escobar, 199*). Considere la sigu-
iente tabla que presenta información sobre la sobrevivencia en una semana de
pacientes que sufrieron un ataque al miocardio y que fueron tratados con un
bloqueador beta
Tratamiento
Bloqueador Beta Placebo
Total Muertos Total Muertos
26 3 23 4
47 1 48 6
46 3 35 1
33 1 15 1
35 2 71 4
73 3 187 6
238 29 242 24
698 18
La probabilidad de no sobrevivir una semana se estima como el cociente entre

el número de pacientes que murieron y el número de pacientes que entraron con
infarto de miocardio. Usemos la siguiente notación:
yij = de muertes en el j-ésimo tratamiento en el sitio i

nij = de casos en el j-ésimo tratamiento en el sitio i
Entonces podemos pensar en el siguiente modelo
129
130 CAPÍTULO 14. MÉTODOS COMPUTACIONALES
Yij |nij , πij ∼ Binomial (πij , nij )

πij |αj , βj ∼ Beta (αj , βj )
αj ∼ σGamma (dα )
βj ∼ σGamma (dβ )
Una parametrización alternativa para α y β es
αj
λ1j = (La media)
αj + βj
λ2j = αj + βj (La precisión)
λ1j ∼ Beta (dα , dβ )

λ2j ∼ σGamma (dα + dβ )
Tenemos un modelo, tenemos las distribuciones apriori y para realizar el análisis

bayesiano solo necesitamos hallar la distribución posterior conjunta que se halla
como:
ξ (π, α, β|y, n, dα , dβ , σ) =
15
zZ }| Z{
Q2 QIj
··· j=1 i=1 f (yij |nij , πij , αj , βj ) ξ (π, α, β|dα , dβ , σ) dy
Z Z
Q2 QIj
··· j=1 i=1 f (yij |nij , πij , αj , βj ) ξ (π, α, β|dα , dβ , σ) dy dπ dα dβ
| {z }
34
Obviamente este es un trabajo que no se puede realizar a mano, lo cual obliga

a implementar porcedimientos numéricos para su solución.
Una de las dificultades que surgen en el trabajo bayesiano aparecen cuando

tratamos de manipular la distribución aposteriori que usualmente aparece de la
siguiente forma
ξ (θ|Datos) ∝ L (θ|Datos) ξ (θ)
que no es una densidad de probabilidad en sı́ misma, sino que debe ajustarse
por un factor que se calcula como
131
Z
L (θ|Datos) ξ (θ) dθ
Θ
Solo en problemas muy sencillos es posible evaluar exactamente las expresiones

anteriores, lo cual limitarı́a el uso de los métodos bayesianos sino fuera por
la posibilidad de utilizar métodos computacionales como es el Método Monte
Carlo. Con esta técnica es posible:
generar muestras θ 1 , θ 2 , · · · , θ R , de una distribución de probabilidad

dada, digamos F (θ), y
estimar valores esperados de funciones bajo esta distribución, por
ejemplo, Z
Φ = E [h (θ)] = h (θ) dF (θ)
Denotamos por f (θ) la densidad asociada con la distribución y la llamaremos

densidad objetivo, ella puede ser la distribución aposteriori, que en nuestro caso
es el interés y es una distribución condicionada en los datos. La generación de
muestras es más importante ya que Φ puede ser estimada como
R
1 X
Φ̂ = h (θ r )
R r=1
R
Es claro que i los vectores {θ r }r=1 corresponden a una muestra de F (θ),
h si
entonces E Φ̂ = Φ. También, a medida queR se incrementa la varianza de Φ̂
disminuye ya que es σ 2 /R, donde σ 2 es la varianza de h(θ).
De lo anterior se desprende una propiedad importante del método Monte Carlo:
la exactitud de la estimación Monte Carlo no depende de la dimensionalidad del
espacio muestreado. La varianza de Φ̂ es siempre σ 2 /R. En teorı́a si tenemos una
muestra aún pequeña de observaciones independientes podemos obtener una es-
timación buena de Φ. El problema está en que obtener muestras independientes
de F puede no ser una tarea fácil.
Asumamos que la densidad de la cual deseamos obtener muestras es la cor-
respondiente a la distribución aposteriori de un parámetro de un experimento
exponencial, digamos λ para el cual la única información apriori que disponi-
amos era que λ ∼ U (0, 5). Se obtuvieron cinco muestras con resultados x1 =
1, x2 = 1, x3 = 4, x4 = 2, x5 = 3. Por lo tanto la distrribución posterior será
ξ(λ|Datos) ∝ λ5 e−11λ I(0, 5)
Si la constante de normalización fuera difı́cil de calcular (obviamente en este

problema no lo es!) entonces no serı́a fácil muestrear de ξ. Si el problema fuera
unidimensional podemos pensar en una discretización y muestrear de esta dis-

tribución discreta como se muestra en la figura 1. Cada punto discretizado en
esta gráfica tiene una altura igual al valor de la densidad en ese punto, o sea
p∗i = λ5i e−11λi . Podemos calcular una constante de normalización Z como
X
Z= p∗i
i
y
p∗
pi =
Z
y nuestreamos de la distribución de probabilidad {pi }. Cuál es el costo de este
procedimiento? Para poder calcular Z se requiere visitar cada punto en la dis-
cretización. En nuestro caso la dimensión del espacio era uno, pero si el espacio
tuviera dimensión 100, el número de puntos a visitar serı́a 50100 . Un número
inmenso de visitas.
14.0.6. Muestreo de Importancia

Este no es un método para generar muestras. Este es un método para calcular
la esperanza de h(θ). Asumamos que nuestra densidad unidimensional objetivo
es p(θ), y de la cual tenemos su kernel, digamos p∗ (θ) tal que
p∗ (θ)
p(θ) =
Z
donde Z es una constante de normalización.
Supongamos que muestrear directamente de p(θ) es muy complicado. Ahora
asumamos quen existe una distribución q(θ) de la cual sabemos es fácil muestrear
y que tiene el mismo soporte que p. La densidad q es llamada la densidad
muestreadora.
En el muestreo de importancia procedemos ası́:
a) Generamos R muestras θ(1) , θ(2) , · · · , θR de q(θ).
b) Calculamos los pesos

p∗ (θ(r) )
wr =
q(θ(r) )
c) Utilizamos los pesos anteriores para ajustar la “importancia” de cada

punto en nuestro estimador ası́:
R
X wr
(r)
Φ̂ = PR h θ
r=1 j=1
133
Figura 14.1: La gráfica derecha muestra el kernel de la densidad posterior

λ5 e−11λ I(0, 5). Cómo obtener muestras de esta densidad? La gráfica derecha
presenta una discretización del kernel evaluado en 50 puntos equiespaciados en
el intervalo (0, 5). Cómo podemos muestrear de esta distribución?
14.0.7. Muestreo por Rechazo

Asumamos una densidad unidimensional p(θ) = p∗ (θ)/Z que suponemos tiene
una forma muy complicada para muestrear directamente de ella. Asumamos
además que tenemos una distribución que es más simple y de la cual podemos
muestrear llamada densidad propuesta q(θ) la cual podemos evaluar hasta un
factor multiplicativo Zq . Además supongamos que conocemos una constante c
tal que
cq ∗ (θ) > p∗ (θ), para todo θ
a) Generamos dos números aleatorios:
1) El primero, digamos θ, es generado de la densidad propuesta

q(θ). Evaluamos cq ∗ (θ).
2) Generamos un número distribuido uniformemente en el inter-

valo [0, cq ∗ (θ)], digamos u.
b) Evaluamos p∗ (θ). Si u > p∗ (θ) entonces θ es aceptado. En otro caso

es rechazado.
14.1. MCMC: Monte Carlo por Cadenas de Markov

Cuando las distribuciones aposteriori son de alta dimensión, las soluciones analı́ticas
o las numéricas comúnes no se pueden obtener. Una solución es considerar un
procedimiento Monte Carlo iterativo o Monte Carlo por Cadenas de Markov. Se
simula una cadena de Markov con distribución estacionaria dada por la distribu-
ción aposteriori ξ (θ|Datos).Las caracterı́sticas de ξ son obtenidas encontrando
promedios ergódicos
R
1 X
Φ̂ = h (θ r )
R r=1
Los métodos MCMC son algoritmos iterativos que se utilizan cuando el muestreo
directo de una distribución de interés ξ no es factible.
Una cadena de Markov es generada muestreando

θ (t+1) ∼ p θ|θ (t)
Este p es llamado el kernel de transición de la cadena de Markov. Ası́ θ (t+1)

depende solo de θ (t) , y no de θ (0) , θ (1) , · · · , θ (t−1)
14.1. MCMC: MONTE CARLO POR CADENAS DE MARKOV 135
Existen dos problemas mayores que rodean la implementación e inferencias de

los métodos MCMC. El primero tiene que ver con la convergencia y el segundo
con la dependencia entre las muestras de la distribución posterior.
Las condiciones bajo las cuales una cadena de Markov tiene una única dis-
tribcuión estacionaria son bien conocidas teóricamente:
Tiene que se aperiódica,

irreducible,
y positiva recurrente.
La forma en que construimos nuestras cadenas garantiza la existencia de la dis-

tribución estacionaria. Sin embargo en la práctica esta convergencia puede ser
penosamente lenta y el mayor problema es saber si se ha logrado una conver-
gencia razonable (esto se conoce como un “burn-in”). Por lo tanto las muestras
obtenidas hasta el punto de “burn-in” son descartadas.
Un asunto relacionado con la convergencia es la tasa de mezclado. Informal-
mente, el mezclado es la tasa con la cual la cadena de Markov se mueve a través
del soporte de la distribución estacionaria. Ası́, si una cadena tiene un mezclado
lento, puede quedarse en cierta porción del espacio de estados por un perı́odo
de tiempo muy largo, y a menos que la longitud de la cadena sea ajustada
acordemente, las inferencias serán afectadas sin ninguna duda.
El segundo asunto está relacionado con el hecho que los valores observados,
siendo un camino muestral de una cadena de Markov, no son independientes
entre sı́. Asumiendo que se ha logrado la convergencia, los valores observados
formarán una muestra dependiente de la distribución posterior. Esto puede ser
molesto para uno pero no es necesariamente malo en MCMC. En la mayorı́a de
los problemas, la estimación tı́pica se obtiene por un promedio sobre las mues-
tras. Aunque las muestras no sean independientes, el teorema ergódico asegura
que estos promedios muestrales convergen a las verdaderas esperanzas. Ası́ que
la aproximación corriente al problema de dependencia es ignorarla. Pero si uno,
por alguna razón, necesita una muestra independiente, puede resolver el proble-
ma corriendo varias cadenas de Markov con puntos de comienzo independientes
y utilizar el último punto de cada cadena.
14.1.1. Algoritmo Metropolis-Hastings

El muestreo de importancia y el muestreo de rechazo trabajan bien si la densi-
dad propuesta q(θ) es similar a p(θ). En problemas complejos puede ser difı́cil
crear una única q(θ) que tenga esta propiedad. El algoritmo Metropolis utiliza
una densidad
propuesta q que depende del estado actual de θ(t) . La densidad
′ (t)
q θ |θ puede ser tan simple como una normal localizada en θ(t) y no es
necesario que se parezca a p(θ).
El algoritmo se resume ası́:
a) Comience en cualquier lugar, y digamos que estamos en θ (t) = θ.
b) Genere θ ∗ de q (θ ∗ |θ). θ ∗ es llamado un punto candidato y q es

llamada una distribución propuesta.
c) Calcule
∗ ξ (θ ∗ ) q (θ|θ ∗ )
α (θ, θ ) = mı́n 1,
ξ (θ) q (θ ∗ |θ)
d ) Acepte θ (t+1) = θ ∗ con probabilidad α (θ, θ ∗ ).
e) En otro caso θ (t+1) = θ
Note que la densidad objetivo ξ solo entra en al proceso a través del cociente
∗
ξ (θ )
y por lo tanto no hay necesidad de conocer la constante de normalización
ξ (θ )
para implementar el algoritmo.
Casos especiales:
a) q (θ|θ ∗ ) = q (θ ∗ |θ): Algoritmo Metropolis.
b) q (θ|θ ∗ ) = g (θ ∗ ): Muestreador independiente.

Qk
c) q (θ|θ ∗ ) = i=1 ξ (θi |θ ∗ < i, θ >i ) ⇒ α (θ, θ ∗ ) = 1: Muestreador de
Gibbs.
El Algoritmo Metropolis
Aquı́ la distribución propuesta es simétrica, esto es,
q (θ|θ ∗ ) = q (θ ∗ |θ) ,
como en el caso de una Normal centrada en el punto actual, entonces el factor
q (θ|θ ∗ )
= 1,
q (θ ∗ |θ)
y el algoritmo Metropolis simplemente se limita a comparar el valor de la den-

sidad objetivo en los dos puntos.
Ejemplo 14.2 Modelo de regresión simple Asumamos

2

Yi ∼ N β1 Xi1 + β2 Xi2 , σ
La formulación bayesiana del modelo consiste en

a) La función de verosimilitud f y|β1 , β2 , σ 2

b) La distribución apriori ξ β1 , β2 , σ 2
Estamos interesados en estimar las siguientes distribuciones posteriores:
La distribución posterior conjunta

ξ β1 , β2 , σ 2 |y ∝ f y|β1 , β2 , σ 2 × ξ β1 , β2 , σ 2

Distribuciones marginales posteriores ξ (β1 |y), ξ (β2 |y) y ξ σ 2 |y
a) El Muestreador de Gibbs: Este muestreador genera muestras iterati-

vamente de cada distribución posterior condicional completa.
Genere β1 de ξ (β1 |β2 , σ, y)
Genere β2 de ξ (β2 |β1 , σ, y)

Genere σ 2 de ξ σ 2 |β1 , β2 , y
b) El Algoritmo Metropolis

Genere un vector de candidatos nuevo β1′ , β2′ , σ 2′ de una distribu-
ción conocida y fácil de usar

q β1 , β2 , σ 2 |β1′ , β2′ , σ 2′
Acepte los valores propuestos con probabilidad

( )
ξ β1′ , β2′ , σ 2′ |y q β1′ , β2′ , σ 2′ |β1 , β2 , σ 2
α = mı́n 1,
ξ (β1 , β2 , σ 2 |y) q (β1 , β2 , σ 2 |β1′ , β2′ , σ 2′ )
Ejemplo 14.3 Tabla 2 × 2 Suponga tenemos la siguiente tabla 2 × 2
Condición
Cáncer Control Total
Fumador Sı́ 83 72 155
No 3 14 17
Total 86 86 192
que presenta información sobre el fumar y desarrollar cáncer pulmonar (Jack-

man, 2001). La pregunta que se hace un investigador es: Existe una diferencia
significativa entre los hábitos de los grupos (los que desarrollan cáncer y los
que no)? Denotemos por πL y πC las probabilidades poblacionales de desarrol-
lar cáncer pulmonar. Podemos responder a la pregunta mirando la distribución
posterior de la diferencia πL − πC , pero esta distribución es altamente sesgada.

Una solución es utilizar el logaritmo de la razón de odds

πL /(1 − πL )
λ = log
πC /(1 − πC )
λ = 0 cuando ambas proporciones son iguales. Si πL > πC entonces λ > 0.

El logaritmo de la razón de odds tiene una distribución más simétrica, y se
parece a la normal, aún para muestras moderadas. La verosimilitud de los datos
está dada por
83 72 3 14
L (πL , πC ) = πL (1 − πL ) πC (1 − πC ) , 0 < πL , πC < 1
Utilicemos la simulación para recobrar la distribución “exacta” de λ. Supong-

amos que la distribución πL es una Beta(83, 3) y de πC es una Beta(72, 14), in-
dependientes. Ni la suma ni la diferencia de dos Betas tiene una forma estándar,
ni la tiene el logaritmo de los odds de dos Beta. Los pasos a seguir son los sigu-
ientes:
(t)
a) Muestree πL de una Beta(83, 3).
(t)
b) Muestree πC de una Beta(72, 14).
c) Calcule
!
(t) (t)
(t) πL /(1 − πL )
λ = log (t) (t)
πC /(1 − πC )
d ) Con los λ(t) construya un histograma y calcule los estadı́sticos requeridos

de esta distribución.
Problemas con el Muestreador de Gibbs
Determinar el número de iteraciones es un problema difı́cil de re-

solver.
Puede ser extremadamente demandante desde el punto de vista

computacional aún para problemas estadı́sticos a escala pequeña
(Raftery y Lewis, 1991).
Puede ser muy ineficiente cuando la correlación posterior entre los

parámetros es alta.
En modelos jerárquicos tiende a “pegarse”.

Recomendaciones
Raftery y Lewis (1991) sugieren que el método funciona bien para

la mayorı́a de los problemas con menos de 5000 iteraciones, aunque
hay importantes excepciones, como se mencionó en la parte anterior.
Una prueba simple de convergencia
Esta parte está basada en Casella y George (1992). Supongamos el caso de una
tabla 2 × 2 bajo un esquema de muestreo multinomial.
X
0 1 Marginal de Y
Y 0 p1 p2 p1 + p2
1 p3 p4 p3 + p4
Marginal de X p1 + p3 p2 + p4 1
O sea, la distribución de probabilidad conjunta de (X, Y ) está dada por

fxy (0, 0) fxy (1, 0) p1 p2
=
fxy (0, 1) fxy (1, 1) p3 p4
La distribución condicional de Y |X = x es
p1 p3
p1 +p3 p1 +p3
Ay|x = p2 p4
p2 +p4 p2 +p4
y la distribución condicional de X|Y = y es

p1 p2
p1 +p2 p1 +p2
Ax|y = p3 p4
p3 +p4 p3 +p4
Las matrices Ay|x y Ax|y pueden pensarse como las matrices de transición de
alcanzar un estado dado otro.
Si solo estamos interesados en generar la distribución marginal de X, entonces
empezando en X0 tenemos que pasar a través de Y1 para llegar a X1 , ya que
el proceso es X0 → Y1 → X1 , y X0 → X1 forma una cadena de Markov con
probabilidad de transición
X
P (X1 = x1 |X0 = x0 ) = P (X1 = x1 |X0 = y) P (Y1 = y|X0 = x0 )
y
La matriz de las probabilidades de transición de la sucesión X, digamos Ax|x ,

está dada por
Ax|x = Ay|x Ax|y
La distribución de probabilidad de cualquier Xk en la secuencia se halla fácil-

k
mente. La matriz de transición que produce P (Xk = xk |X0 = x0 ) es Ax|x .
Además si

f= fk (0) fk (1)
denota la distribución de probabilidad marginal de Xk , entonces para cualquier

k,
k
fk = f0 Ax|x = fk−1 Ax|x
Para cualquier distribución inicial f0 , cuando k → ∞, fk converge a una única

distribución que es un punto estacionario de la ecuación anterior, y satisface
f Ax|x = f
Ası́, si la sucesión de Gibbs converge, entonces f debe ser la distribución marginal

de X.
Ejemplo 14.4 Pruebas de tamizado Supongamos que la Secretarı́a de

Salud quiere determinar la prevalencia de un virus particular en la sangre don-
ada en diferentes partes del departamento. Supongamos además que se aplica
una prueba tipo ELISA (las siglas en inglés de enzime-linked inmunosorbent
assay) para detectar algún tipo particular de virus, por ejemplo el VIH.
Denotemos por D la condición de una unidad particular de sangre y por T el
resultado del test aplicado a esa unidad.

1 si la muestra está infectada
D=
0 en caso contrario

1 si la muestra prueba positivo
T =
0 en caso contrario
Denotemos por
π = P (D = 1) = prevalencia
τ = P (T = 1)
Hay varios conceptos asociados con este tipo de pruebas y son

Sensitividad: η = P (T = 1|D = 1)
Especificidad: θ = P (T = 0|D = 0)
Valor Predictivo de una Prueba Positiva: γ = P (D = 1|T = 1)
Valor Predictivo de una Prueba Negativa: δ = P (D = 0|T = 0)
El interés es determinar π. Esto puede hacerse de varias formas pero el propósito

es utilizar el meustreador de Gibbs.
Si conocemos que la distribución conjunta de las variables aleatorias D y T ,
podemos hallar la prevalencia directamente como la marginal
π = P (D = 1) = P (D = 1, T = 1) + P (D = 1, T = 0)
En su lugar nosotros conocemos las dos distribuciones condicionales T |D y D|T ,

no la conjunta. Para nosotros la distribución condicional de T |D es determinada
por η y θ, y la condicional de D|T es determinada por γ y δ.
Aquı́ están los pasos para proceder con el muestreador de Gibbs para hallar la
prevalencia π
Paso 1: Comienze el paso m = 1 con un valor arbitrario de D, digamos

D(1) = 1.
Paso 2a: En el paso m = 2, condicionado en el valor D(1) simule si T (1)

es 1 o 0. Esto es, simule T (1) = 1 con probabilidad η o T (1) = 0 con
probabilidad 1 − η. (Si hubiésemos comenzado con D(1) = 0, entonces
simuları́amos usando 1 − θ o θ.)
Paso 2b: Ahora simulamos el valor de D(2) utilizando γ o δ, como sea

apropiado. Por ejemplo, si obtuvimos T (1) = 1, entonces simuları́amos
D(2) = 1 con probabilidad γ = P (D(2) = 1|T (1) = 1)
Paso 3a: Esta vez, en el paso m = 3, simulamos T (2) usando η o θ.
Paso 3b: Ahora simule D(3) utilizando γ o δ, dependiendo del valor de

T (2).
Este proceso se estabilizará en el lı́mite. Ası́ obtenemos D(1), D(2), D(3), · · · , D(M1 )
como valores iniciales de “quemado” (se descartan), donde M1 es un valor
“grande” para lograr estabilidad, y de ahı́ en adelante obtenemos D(M1 +
1), D(M1 + 2), D(M1 + 3), · · · , D(M2 ) de la distribución estable.
Finalmente, estimamos π como la proporción de pasos para los cuales D(m) = 1.
Ejemplo 14.5 Distribución ZIP Asumamos que X es una variable aleatoria

discreta con soporte en los enteros nonegativos (una variable de conteo). Un
problema que ocurre con cierta frecuencia en la práctica es que X = 0 se observa
con una frecuencia significativamente mayor (o menor) que la predicha por el
modelo asumido. Entonces la variable aleatoria ajustada Y puede ser descrita
como
P (Y = 0) = ω + (1 − ω)P (X = 0)
P (Y = j) = (1 − ω)P (X = j) , j = 1, 2, 3, · · ·
Cuando 0 < ω < 1 el modelo tiene más ceros. Si ω < 0 el modelo tiene menos
ceros.
Un caso de especial importancia es cuando X ∼ P oisson(λ). La versoimilitud
en este caso es
n
Y
L(ω, λ) = P (Yi = yi )
i=1
Yn n o
I(yi =0) 1−I(yi =0)
= (P (Yi = 0)) (P (Yi = yi ))
i=1
( )
n
Y yi −λ 1−I(yi =0)
I(y =0) λ e
ω + (1 − ω)e−λ
i
= (1 − ω)
i=1
yi !
Ası́, si asumimos una distribución apriori no informativa para ω y para λ, ten-

emos
ξ(ω, λ) ∝ L(ω, λ)
Gupta et al. (1996) hacen referencia a los datos analizados por Leroux y Puter-
man en 1992 sobre movimientos fetales. Estos datos se recogieron en un estudio
sobre respiración y movimiento corporal en fetos de ovejas diseñado para ex-
aminar los posibles cambios en el patrón de la actividad fetal durante las dos
terceras partes del perı́odo de gestación. El número de movimientos efectuados
por el feto fue registrado por ultrasonido. Se analizaron los conteos del número
de movimientos en una sucesión particular de 240 intervalos de a 5 segundos.
Número de movimientos 0 1 2 3 4 5 6 7
Número de movimientos 182 41 12 2 2 0 0 1
L<-function(omega,lambda,y){
indicador<-ifelse(y==0,1,0)
Figura 14.2: Contorno de la función de verosimilitud de la distribución ZIP para

el problema de los fetos de ovejas.
prod1<-prod((omega+(1-omega)*exp(-lambda))^indicador)
prod2<-prod(((1-omega)*exp(-lambda))^(1-indicador)
*lambda^(y*(1-indicador)))
productoria<-prod1*prod2
productoria
}
muestreadora<-function(teta.viejo){
omega<-teta.viejo[1]
lambda<-teta.viejo[2]
valor.negativo<-1
while(valor.negativo==1){
nuevo1<-rnorm(1,mean=omega)
if(nuevo1>0 & nuevo1<1) valor.negativo<-0
}
valor.negativo<-1
while(valor.negativo==1){
nuevo2<-rnorm(1,mean=lambda)
if(nuevo2>0 ) valor.negativo<-0
}
teta.nuevo<-c(nuevo1,nuevo2)
teta.nuevo }
qmuestreadora<-function(nuevo,viejo,y){
omega1<-viejo[1]
omega2<-nuevo[1]
lambda2<-nuevo[2]
lambda1<-viejo[2]
resultado<-(dnorm(omega1)*dnorm(lambda1))
/(dnorm(omega2)*dnorm(lambda2))
resultado<-resultado*L(omega2,lambda2,y)
/L(omega1,lambda1,y)
resultado<-min(1,resultado)
resultado
}
DATOS
>y<-c(rep(0,182),rep(1,41),rep(2,12),3,3,4,4,7)
VALOR INICIAL
>viejo<-c(0.05,1)
>nuevo<-muestreadora(viejo)
>nuevo
[1] 0.8752859 0.2031465
>qmuestreadora(nuevo,viejo,y)
[1] 1.966996e-16
[1] 2.728314e-12
[1] 1 ESTE VALOR SE ACEPTA
>nuevo
[1] 0.4595973 0.5060316
>viejo<-nuevo
[1] 0.03142081
>runif(1)
[1] 0.2793600
[1] 6.851616e-05
[1] 3.287750e-64
[1] 1.64309e-14
[1] 2.542491e-106
>nuevo
[1] 0.5490383 0.6058326
>viejo<-nuevo
>nuevo
[1] 0.5416923 0.6257388
>viejo<-nuevo
14.1.2. Muestreador Griddy Gibbs

Cuando es difı́cil muestrear directamente de p(Xi |Xj , j 6= i) Ritter y Tanner
(1991) propusieron una aproximación simple a la FDA inversa basada en la
evaluación de p(Xi |Xj , j 6= i) en una rejilla de puntos. Los pasos son los sigu-
ientes:
a) Evalúe p(Xi |Xj , j 6= i) en Xi = x1 , x2 , · · · , xn para obtener w1 , w2 , · · · , wn .

b) Utilice w1 , w2 , · · · , wn para obtener una aproximación de la FDA
inversa de p(Xi |Xj , j 6= i).
c) Muestree de una U (0, 1) y transforme la observación via la FDA
inversa aproximada.
14.2. Cálculo de Integrales via Simulación

14.2.1. Composición
Supongamos que f (y|x) es una densidad (donde x y y pueden ser vectores).
Nuestro objetivo es obtener una muestra aleatoria y1 , · · · , ym de
Z
J(y) = f (y|x) g(x) dx
El método de composición procede ası́:
a) Saque x ∗∼ g(x)
b) Saque x ∗∼ f (y|x∗ )
Repita los pasos m veces. Los pares (x1 , y1 ), · · · , (xm , ym ) forman una mues-
tra aleatoria de la densidad conjunta h(x, y) = f (y|x) g(x). Las cantidades
y1 , · · · , ym forman una muestra aleatoria de la marginal J(y).
14.3. Métodos Monte Carlo de Cadenas de Markov

(MCMC)
14.3.1. Glosario de Cadenas de Markov
Definición 14.1 (Irrudicibilidad) Una cadena de Markov X1 , X2 , · · · es ir-
reducible si la cadena puede moverse libremente a través del espacio de estados;
esto es, para dos estados cualesquiera x y x′ , existe un n tal que
P (Xn = x′ |X0 = x) > 0.

14.3. MÉTODOS MONTE CARLO DE CADENAS DE MARKOV (MCMC)147
Definición 14.2 (Recurrencia) Una cadena de Markov es recurrente si el

número promedio de visitas a un estado arbitrario es infinito.
Definición 14.3 (Perı́odo) Un estado x tiene perı́odo d si P (Xn+t = x|Xt = x) =

0 si n no es divisible por d, donde d es el mayor entero con esta propiedad.
Definición 14.4 (Aperiodicidad) Si un estado x tiene perı́odo d = 1 se dice

que es aperiódico.
En una cadena irreducible todos los estados tienen el mismo perı́odo. Si ese
perı́odo es d = 1, la cadena de Markov es aperiódica.
Teorema 14.1 (Convergencia a una Distribución Estacionaria) Si una

cadena de Markov con espacio de estados contable X1 , X2 , · · · es positiva, re-
currente y aperiódica con distribución estacionaria π, entonces desde cualquier
estado inicial
Xn → X ∼ π
Definición 14.5 (Ergodicidad) Una cadena de Markov positiva, recurrente

y aperiódica es llamada ergódica.
Teorema 14.2 (Convergencia de Sumas (Teorema Ergódico)) Si una ca-

dena de Markov con espacio de estados contable X1 , X2 , · · · es ergódica con dis-
tribución esatcionaria π, entonces desde cualquier estado inicial
n
1X
h (Xi ) → Eπ [h(X)]
n i=1
14.3.2. Muestreador Gibbs

Para obtener una muestra de la distribución conjunta p(X1 , · · · , Xd ) el Muestreador
Gibbs itera sobre este ciclo:

(i+1) (i),···,X (i)
Muestree X1
de p X1 X2 d

(i+1) (i+1) (i) (i)
Muestree X2 de p X2 X1 , X3 · · · , Xd
..
.

(i+1) (i+1),···,Xd−1
(i+1)
Muestree Xd de p Xd X1
14.4. Simulación Exacta

Esta sección está basada en Dimakos (2001) Propp y Wilson en 1996 propusieron
un algoritmo de Cadena de Markov llamado Emparejamiento Desde el Pasado
(CFTP, Coupling From The Past)que produce muestras exactas de la distribu-
ción objetivo y determina qué tanto hay dejar correrla.
Definición 14.6 Decimos que dos cadenas están acopladas si ellas utilizan la
misma sucesión de números aleatorios para las transiciones.
14.4.1. El Muestreador Perfecto

14.4. SIMULACIÓN EXACTA 149
Ejemplo 14.6 Caso Trivial: Muestra Aleatoria Normal Asumamos que

tenemos una muestra Y1 , Y2 , · · · , Yn que proviene de una población N µ, σ 2 .
Las distribuciones apriori de µ y σ se supondrán independientes y dadas por:

µ ∼ N ξ, κ−1
σ −2 ∼ Γ (α, β)
La distribución conjunta aposterior
P !
2

2 −α−n/2−1 β κ(µ − ξ)2 (Yi − µ)
ξ (µ, σ|Y ) ∝ σ exp − 2 − −
σ 2 2σ 2
que no es de forma estándar. Las condionales completas se hallan fácilmente:

−2 P
σ Yi + κξ 1
µ|σ, Y ∼ N , −2
σ −2 n + κ σ n+κ
!
n X (Yi − µ)
2
σ −2 |µ, Y ∼ Γ α + , β +
2 2
y podemos implementar el muestreador de Gibbs para sacar alternadamente µ

y σ −2 de estas distribuciones.
Ejemplo 14.7 Experimento Weibull/Gamma Supongamos una muestra

aleatoria, quizá con censura, de una W eibull(ρ, κ):
Y X
f (Y |ρ, κ) = κm ρmk Yiκ−1 exp −ρκ Yiκ
U
Q
donde m y U son el número y el producto sobre las observaciones sin censura.
Supongamos distribuciones apriori independientes Gamma para ρ y κ:
ξ(ρ, κ) ∝ ρα−1 e−βρ κγ−1 e−δκ
La distribución posterior es:

" #
Y X
ξ(ρ, κ) ∝ κ ρ m mk
Yiκ−1 exp −ρ κ
Yiκ ρα−1 e−βρ κγ−1 e−δκ
U
Las distribuciones condicionales son

X
ξ (ρ|κ) ∝ ρmk exp −ρκ Yiκ ρα−1 e−βρ
Y X
ξ (κ|ρ) ∝ κm ρmk Yiκ−1 exp −ρκ Yiκ κγ−1 e−δκ
U
Tiene una forma estándar difı́cil de trabajar con el muestreador de Gibbs, ası́ que
se recurre al Metropolis o Hastings.
Un MCMC fácilmente implementable como:
alterne entre ρ y κ
proponga un nuevo valor de una distribución simétrica alrededor del valor
actual.
rechácelo si está por fuera del rango,
acéptelo con probabilidad mı́n {1, ξ (ρ′ |κ) /ξ (ρ|κ)}
14.5. Algoritmo E − M
Esta es una técnica para obtener los estimadores de máxima verosimilitud, de-
sarrollada originalmente en el contextod edatos faltantes. Defina
Z
Q θ(t) , θ = ln (p (θ|Yobs , Yperd )) f Yper |Yobs , θ(t) dYperd
donde
ln (p (θ|Yobs , Yperd )) es la log-verosimilitud o la log-posterior de los

datos completos.

f Yper |Yobs , θ(t) es la densidad predictiva de Yperd , dados los datos
observados y el valor actual de los parámetros.
La integración es sobre el espacio muestral de Yperd .
PASO E: Utilice las estimadas de los parámetros en la presente
iteración para generar las imputaciones, lo que nos permite calcular
la esperanza de la log-verosimilitud de los datos completos.
PASO M : Maximice la función Q con respecto a θ, produciendo una
actualización de los parámetros estimados θ(t+1) , tal que

Q θ(t+1) , θ(t) ≥ Q θ(t) , θ(t)
14.5. ALGORITMO E − M 151
14.5.1. Modelo Probit para Datos Binarios

Considere un modelo probit para un resultado binario, yi ∈ {0, 1} para i =
1, · · · , n. Relacionamos el resultado binario a las covariables via la función de
regresión latente
yi∗ = x′i β + ǫi
donde
xi es un vector de k covariables asociadas con el sujeto i.

β es un vector de parámetros a ser estimados.
yi∗ ∈ R es una variable dependiente latente, observada solo en térmi-
nos de su signo, esto es,

0, si yi∗ < 0
yi =
1, si yi∗ ≥ 0
ǫi ∼ N (0, 1), para i = 1, · · · , n
Los y ∗ son tratados como datos perdidos. La estimación se puede realizar me-
diante el algoritmo E − M :
a) PASO E: Utilice la estimación actual de β y otros supuestos del

modelo para imputar cada yi .
b) PASO M : Condicionado en los yi∗ escoja β tal que maximice la log-
verosimilitud para datos completos, actualizando la estimada de β.
La función Q para el modelo probit es

Z
(t)
Q β, β = ln (p (β|X, y, y ∗ )) p y ∗ |β (t) , X, y dy ∗
y∗
o el valor esperado de la logverosimilitud de los datos completos, donde la es-
peranza es con respectoa la variable dependiente latente y ∗ , condicional en el
valor actual de β, digamos β (t) , y los datos observados X y y.
La función log-verosimililitud de los datos completos es
n
n 1X ∗ 2
ln (p (β|X, y, y ∗ )) = − ln(2π) − (y − x′i β)
2 2 i=1 i
dado que σ 2 = 1, por supuesto. Sustituyendo esto en Q
n 1 X h ∗
n i2
(t)
Q β, β = − ln(2π) − E (yi − x′i β) |yi , X, β (t)
2 2 i=1
n h i h i2
n 1X ∗ ′ (t) ∗ ′ (t)
= − ln(2π)− V ar (yi − xi β) |yi , X, β + E (yi − xi β) |yi , X, β
2 2 i=1
1 X h i h i2
n
n
=− ln(2π) − V ar yi∗ |yi , X, β (t) + E (yi∗ ) |yi , X, β (t) − x′i β
2 2 i=1

La estimación actual de β, β (t+1) , se encuentra maximizando Q β, β (t) con
respecto a β. Los términos varianza y la esperanza no involucran a β, y por lo
tanto
1 Xh ∗ i2
n
β (t+1) = mı́n E yi |yi , X, β (t) − x′i β
β 2 i=1

= (X ′ X)−1 X ′ E y ∗ |y, X, β (t)
La estimación actualizada de β se obtiene corriendo regresiones por mı́nimos

cuadrados de los valores imputados y ∗ sobre las covariables X.
La imputación para y ∗ es
h i
∗(t)
E yi∗ |yi , xi , β (t) = yi = E (x′i β = ǫi ) |yi , xi , β (t) = x′i β + Mi
donde

(t) −φi /Φi si yi = 0
Mi = Eβ (t) ǫi |yi , xi , β =
φi /(1 − Φi ) si yi = 1
donde φi = φ(−x′i β (t) ) es la función densidad de probabilidad normal, y Φi =

Φ(−x′i β (t) ) es la función de probabilidad acumulada de la distribución normal
evaluada en −x′i β (t) .
14.6. Diagnósticos de los Muestreadores MCMC

Recordando que estamos trabajando con una cadena markoviana, donde el pun-
to de inicio de la cadena es arbitrario y los valores que toma están correlaciona-
dos, además se desea obtener muestras es de la distribución estacionaria, los
primeros valores generados deben descartarse (burning), denotemos este número
por nB , el cual se toma por muchos como 1000 ó 5000. Existen algunas reglas que
nos permiten establecer el número a quemar pero es un tópico que no tiene una
única solución. Después de descartar los primeros valores nos queda la muestra
14.6. DIAGNÓSTICOS DE LOS MUESTREADORES MCMC 153
definitiva que la llamamos muestra a monitorear, su tamaño lo denotamos por

nM .
Si queremos que la estimada θ̄ tenga una alta probabilidad, digamos 1−ǫ0,95, de
no estar a más de d = 0,1, por ejemplo, del verdadero valor medio µ = E(θ|y),
o sea

P θ̄ − µ ≤ d = 1 − ǫ
Bajo el supuesto de un AR1 (ρ)

2
σ 2 (1 + ρ) Φ−1 (1 − ǫ/2)
nM =
d2 (1 − ρ)
donde σ es la desviación estándar de un θt y Φ es la función de distribución

acumulada de una N (0, 1).
Como un ejemplo de lo anterior asumamos que ρ̂ = 0,89, una cadena que no se
mezcla muy bien, σ̂ = 3,3, entonces nM ≈ 79500. Si nB = 5000 debemos generar
entonces aproximadamente 85000 muestras para un solo parámetro. Si se tienen
muchos parámetros a monitorear, como es lo usual en un problema aplicado,
puede realmente ser muy restrictivo a nivel de hardware los requerimientos de
almacenamiento.
Una de las tareas más difı́ciles es establecer cuándo podemos decidir que una
cadena ha llegado a la distribución lı́mite o de equilibrio, esto puede vislumbrarse
a través de pruebas de estacionaridad de los últimos valores generados de la serie,
aunque aún teniendo estacionaridad no hay garantı́a de estar obteniendo valores
de la distribución deseada.
Una faceta indeseable en un muestreo MCMC es de no obtener valores bien
mezclados, lo cual significa que los valores consecutivos están altamente cor-
relacionados, lo cual podrı́a probarse mediante la correlación de primer orden
(correlación serial) de la serie. Una buena cadena tendrı́a un ρ cercano a cero.
14.6.1. Monitoreo y Convergencia de una MCMC

Cuatro Gráficos MCMC
Se recomienda como paso inicial generar cuatro gráficos para cada parámetro
considerado:
a) Un gráfico de los valores de la cadena en forma de serie temporal.

b) Un gráfico de la densidad estimada a partir de estos valores.
c) Un gráfico con las autocorrelaciones.
d ) Un gráfico con las autocorrelaciones parciales.
Diagnósticos CODA
La librerı́a del R CODA posee varios diagnósticos útiles para analizar los resul-
tados de una cadena, entre ellos:
Autocorrelaciones
Prueba de Geweke. Es una prueba de igualdad de medias uti-

lizando el Z − score. Si |Z − score| > 2 se considera que los niveles
son diferentes.
Prueba de Heidelberger y Welch. Esta prueba usa el estadı́stico

Cramér-von Mises para estacionalidad. Funciona ası́: Si falla la prue-
ba se descarta el 10 % de las observaciones (las primeras), y ası́ hasta
descartar el 50 %.
Prueba de Raftery y Lewis. Este es un diagnóstico de la longitud

de la corrida basada en el criterio de la exactitud de la estimación
del cuantil q. Pretende usar una cadena de Markov piloto (corta). Se
calcula el número de iteraciones requeridas para estimar el cuantil q
dentro de una exactitud de ±r con probabilidad p.
Prueba de Gelman y Rubin. Esta es una prueba en la que dos o

más cadenas paralelas corren con valores iniciales que son sobredis-
persos con respecto a la distribución posterior. La convergencia se
diagnostica cuando las cadenas han “olvidado” sus valores iniciales
y las salidas de todas las cadenas son indistinguibles. La prueba
está basada en una comparación de las varianzas dentro y entre las
cadenas y es similar al análisis de varianza clásico. Hay dos formas de
estimar la varianza de una distribución estacionaria: la media de la
varianza empı́rica dentro de cada cadena, W , y la varianza empı́rica
de todas las cadenas combinadas, que puede expresarse como
σ̂ 2 = (n − 1)B/n + W/n
donde B es la varianza empı́rica entre las cadenas.

Si las cadenas han convergido, entonces ambas estimadas son inses-
gadas. De otra manera el primer método subestima la varianza, ya
que las cadenas individuales no han tenido tiempo de llegar a la dis-
tribución estacionaria y el segundo método sobreestima la varianza,
ya que los valores iniciales fueron seleccionados sobredispersos.
El diagnóstico de convergencia está basado en el supuesto que la dis-
tribución objetivo es normal. Un intervalo bayesiano de credibilidad
puede construirse usando una distribución t con media
µ̂ = Media muestral de todas las cadenas combinadas

y varianza
V̂ = σ̂ 2 + B/(mn)
donde m es el número de cadenas, y los grados de libertad son esti-

mado poel método de los momentos
V̂
d=2
V ar(V̂ )
El uso de la distribución t tiene en cuenta el hecho que la media y

la varianza de la distribución posterior son estimados.
El diagnóstico de convergencia es
q
R= (d + 3)V̂ /((d + 1)W )
Valores sustancialmente arriba de 1 indican falta de convergencia.
#
# Chained data augmentation - Example from Casella and George
#
nr <- 50
m <- 500
k <- 10
n <- 16
alpha <- 2.0
beta <- 4.0
lambda <- 16.0
maxn <- 24
betabinomial <- function(x,n,alpha,beta)
{
y <- log(choose(n,x))
y <- y + lgamma(alpha + beta) - lgamma(alpha) - lgamma(beta)
y <- y + lgamma(x + alpha) + lgamma(n - x + beta) -
lgamma(alpha + beta + n)
y <- exp(y)
return(y)
}
cat("\n")
cat("Based on ’Explaining the Gibbs sampler’, C. Casella \n")
cat("and E.I. George, Amer. Statist. 46 (3) (1992), 167-174. \n")
h <- rep(0,n+1)
fe <- rep(0,n+1)
for (i in 1:m)
{
y <- runif(1);
for (j in 1:k)
{
x <- rbinom(1,n,y)
newalpha <- x + alpha
newbeta <- n - x + beta
y <- rbeta(1,newalpha,newbeta)
}
for (t in 0:n)
{
if (t == x)
h[t+1] <- h[t+1] + 1
term <- choose(n,t)*exp(t*log(y)+(n-t)*log(1-y))
fe[t+1] <- fe[t+1] + term
}
}
cat("\n")
cat("Histogram (cf. Fig. 1)) \n")
cat(" t Obs Exp Diff Ratio Comp of X2 \n")
cat("\n")
x2h <- 0
bbe <- rep(0,n+1)
bb <- rep(0,n+1)
for (t in 0:n)
{
bbe[t+1] <- m*betabinomial(t,n,alpha,beta)
bb[t+1] <- round(bbe[t+1])
diff <- h[t+1] - bb[t+1]
ratio <- h[t+1]/bbe[t+1]
compx2 <- (h[t+1]-bbe[t+1])*(h[t+1]-bbe[t+1])/bbe[t+1]
x2h <- x2h + compx2
if (t < 10) cat(" ")
cat(" ",t," ")
if (h[t+1] < 10) cat(" ")
cat(h[t+1]," ")
if (bb[t+1]<10) cat(" ")
cat(bb[t+1]," ")
if (diff >= 0) cat(" ")
if (abs(diff) < 10) cat(" ")
cat(diff," ",ratio," ",compx2,"\n")
}
cat("\n")
cat("Chi-squared equals",x2h,"on",n,"degrees of freedom \n")
cat("\n")
cat("Estimated densities (cf. Fig. 3) \n")
cat("\n")
cat(" t Obs Exp Diff Ratio Comp of X2 \n")

cat("\n")
x2f <- 0
f <- rep(0,n)
for (t in 1:n)
{
f[t+1] <- round(fe[t+1])
diff <- f[t+1] - bb[t+1]
ratio <- f[t+1]/bbe[t+1]
compx2 <- (f[t+1]-bbe[t+1])*(f[t+1]-bbe[t+1])/bbe[t+1]
x2f <- x2f + compx2
if (t < 10) cat(" ")
cat(" ",t," ")
if (f[t+1] < 10) cat(" ")
cat(f[t+1]," ")
if (bb[t+1]<10) cat(" ")
cat(bb[t+1]," ")
if (diff >= 0) cat(" ")
if (abs(diff) < 10) cat(" ")
cat(diff," ",ratio," ",compx2,"\n")
}
cat("\n")
cat("Chi-squared equals",x2f,"on",n,"degrees of freedom. \n")
hp <- rep(0,(maxn+1))
fep <- rep(0,(maxn+1))
for (i in 1:m)
{
y <- 0.5
nn <- (1-y)*lambda;
for (j in 1:k)
{
x <- rbinom(1,nn,y)
newalpha <- x + alpha
newbeta <- nn - x + beta
y <- rbeta(1,newalpha,newbeta)
nn <- x + rpois(1,(1-y)*lambda)
}
for (t in 0:maxn)
{
if (t == x)
hp[t+1] <- hp[t+1] + 1
if (t <= nn)
{
term <- choose(nn,t)*exp(t*log(y)+
(nn-t)*log(1-y))
fep[t+1] <- fep[t+1] + term
}
}
}
cat("\n\n")
cat("Histogram (n random) \n")
cat("\n")
cat(" t Obs Histogram \n")
cat("\n")
practmaxn <- 4*n/3
for (t in 0:(practmaxn+1))
{
if (t < 10) cat(" ")
cat(t," ")
if (hp[t+1] < 10) cat(" ")
cat(hp[t+1]," ")
if (hp[t+1] > 0)
for (j in 1:hp[t+1]) cat("*")
cat("\n")
}
cat("\n")
cat("Estimated densities (n random; cf. Fig. 5) \n")
cat("\n")
cat(" t Obs Estimate \n")
cat("\n")
x2f <- 0
fp <- rep(0,practmaxn)
for (t in 1:practmaxn)
{
fp[t+1] <- round(fep[t+1])
if (t < 10) cat(" ")
cat(t)
cat(" ")
if (fp[t+1] < 10) cat(" ")
cat(fp[t+1]," ")
if (fp[t+1] > 0)
for (j in 1:fp[t+1]) cat("*")
cat("\n")
}
#
# Change-point analysis of coal disaster data
#
x11(record=T)
m <- 2 # Number of replications
t <- 15 # Number of iterations
startyear <- 1851 # First year for which data is available
daytab <- c(0, 31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)
leaptab <- c(0, 31, 29, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31)
# Functions day.of.year, month.of.day and this.month adapted from

# B W Kernighan and D M Ritchie, The C Programming Language,
# Englewood Cloffs, NJ: Prentice-Hall 1978, 1988, Section 5.7.
# day.of.year: set day of year from month & day

day.of.year <- function(year,month,day)
{
leap <- year%%4 == 0 && year%%100 != 0 || year%%400 == 0
if (leap)
tab <- leaptab else
tab <- daytab
yearday <- day
for (i in 1:month)
yearday <- yearday + tab[i];
return(yearday)
}
# month.of.day: set month, day from day of year

day.of.month <- function(year,yearday)
{
if (leap)
tab <- leaptab else
tab <- daytab
i <- 1
while (yearday > tab[i])
{
yearday <- yearday - tab[i]
i <- i + 1
}
return(yearday)
}
this.month <- function(year,yearday)

{
if (leap)
tab <- leaptab else
tab <- daytab
i <- 1
while (yearday > tab[i])
{
yearday <- yearday - tab[i]
i <- i + 1
}
return(i-1)
}
# Data from B P Carlin, A E Gelfand and A F M Smith, Hierachical

# Bayesian Analysis of Changepoint Problems, Appl. Statist. 41 (1992),
# 389-405.
Y <- c(
4,5,4,1,0,4,3,4,0,6,3,3,4,0,2,6,3,3,5,4,5,3,1,4,4,
1,5,5,3,4,2,5,2,2,3,4,2,1,3,2,1,1,1,1,1,3,0,0,1,0,
1,1,0,0,3,1,0,3,2,2,0,1,1,1,0,1,0,1,0,0,0,2,1,0,0,
0,1,1,0,2,2,3,1,1,2,1,1,1,1,2,4,2,0,0,0,1,4,0,0,0,
1,0,0,0,0,0,1,0,0,1,0,0)
n <- length(Y) # Number of years of data available
endyear <- startyear+n-1 # First year for which data is available
a1 <- 0.5
a2 <- 0.5
d1 <- 1
d2 <- 1
plot(startyear:endyear,cumsum(Y))
cat("\n")
pp <- rep(0,n)
L <- rep(0,n)
pp <- rep(0,n)
for (j in 1:m) # Replicate m times
{
k <- 1+floor(n*runif(1)) # Initialize k randomly in [1,n]
b1 <- 1
b2 <- 1 # Initialize b1=b2=1
for (s in 1:t) # Iterate t times
{
# Sample theta | Y,lambda,b1,b2,k
theta <- rgamma(1,a1+cumsum(Y)[k])/(k+(1/b1));
# Sample lambda | Y,theta,b1,b2,k
lambda <- rgamma(1,a2+sum(Y)-cumsum(Y)[k])/(n-k+(1/b2));
# Sample b1 | Y,theta,lambda,b2,k
b1 <- (theta+(1/d1))/rgamma(1,a1);
# Sample b2 | Y,theta,lambda,b1,k
b2 <- (lambda+(1/d2))/rgamma(1,a2);
# Find L(Y;k,theta,lambda) for k = 0 to n-1
for (k in 1:n)
{
L[k] <- exp((lambda-theta)*k+
(log(theta)-log(lambda))*cumsum(Y)[k])
}
# Find p(k | Y,theta,lambda,b1,b2) and cumulation thereof
p <- L/sum(L)
cumprob <- cumsum(p)
# Pick U at random between 0 and 1
U <- runif(1)
# Sample k | Y,theta,lambda,b1,b2
for (i in 1:n)
if ((cumprob[i] < U)&&(U <= cumprob[i+1])) k <- i
} # End iteration
pp <- pp + p/m
} # End replication
# Find posterior density and mean of k
year <- startyear:endyear
meandate <- sum((year+0.5)*pp)
# Print out results
for (i in 30:50) cat(startyear+i," ",pp[i],"\n")
cat("\n")
for (i in 30:50)
{
cat(startyear+i," ")
for (j in 1:80)
if (100*pp[i] > j) cat("*")
cat("\n")
}
cat("\n")
meanyear <- floor(meandate)
fracyear <- meandate - floor(meandate)
leap <- meanyear%%4 == 0 && meanyear%%100 != 0 || meanyear%%400 == 0
if (leap)
tab <- leaptab else
tab <- daytab
daysinyear <- if (leap) 366 else 365
remnant <- fracyear*(daysinyear)-cumsum(tab)
monthspast <- remnant[remnant>0]
meanmonth <- length(monthspast)
if (meanmonth==1) monthname <- "Jan"
if (meanmonth==2) monthname <- "Feb"
if (meanmonth==3) monthname <- "Mar"
if (meanmonth==4) monthname <- "Apr"
if (meanmonth==5) monthname <- "May"
if (meanmonth==6) monthname <- "Jun"
if (meanmonth==7) monthname <- "Jul"
if (meanmonth==8) monthname <- "Aug"

if (meanmonth==9) monthname <- "Sep"
if (meanmonth==10) monthname <- "Oct"
if (meanmonth==11) monthname <- "Nov"
if (meanmonth==12) monthname <- "Dec"
floatday <- fracyear*(daysinyear)-cumsum(tab)[meanmonth]
meanday <- floor(floatday)
cat("Mean is",meanday,monthname,meanyear,", i.e. ")
cat(meanyear,"+",fracyear,"\n")
cat("\n")
#
# Hierachical normal model in Chapter 9, Exercise 6
#
niter <- 25
r <- 4
n <- c(4,4,4,4)
dat <- c(
98,97,99,96,
91,90,93,92,
96,95,97,95,
95,96,99,98)
x <- matrix(dat,max(n),r)
cat("\n")
cat("Data quoted in P.M. Lee, Bayesian Statistics: An Introduction \n")
cat("(2nd edn), London: Arnold 1997, Chapter 9, Exercise 6. \n")
cat("\n")
N <- sum(n)
xidot <- rep(0,r)
ssi <- rep(0,r)
for (i in 1:r){
xidot[i] <- sum(x[1:n[i],i])/n[i]
ssi[i] <- (n[i]-1)*var(x[1:n[i],i])
}
xdotdot <- sum(x)/N
ssw <- sum(ssi)
ssb <- (r-1)*var(xidot)
mu <- xdotdot
phi <- ssw/(N-1)
psi <- ssb/(r-1)
muold <- mu
phiold <- phi
psiold <- psi

for (t in 1:niter){
muold <- mu
phiold <- phi
psiold <- psi
mu <- 0
phi <- 0
psi <- 0
v <- 1/(1/psiold + n/phiold)
theta <- v*(muold/psiold + n*xidot/phiold)
mu <- mean(theta)
for (i in 1:r)
for (j in 1:n[i])
phi <- phi + (v[i]+(x[j,i]-theta[i])^2)/(N+2)
psi <- sum(v + (mu-theta)^2)/r
}
for (i in 1:r)
cat("Theta[",i,"] = ",theta[i],"\n")
cat("\n")
cat("mu = ",mu,"\n")
cat("phi = ",phi,"\n")
cat("psi = ",psi,"\n")
cat("\n")
#
#/* Hierachical normal model at end of Section 9.2
#
niter <- 25
r <- 4
n <- c(4,6,6,8)
dat <- c(62,60,63,59,NA,NA,NA,NA,
63,67,71,64,65,66,NA,NA,
68,66,71,67,68,68,NA,NA,
56,62,60,61,63,64,63,59)
x <- matrix(dat,max(n),r)
cat("\n")
cat("Based on A. Gelman, J.B. Carlin, H.S. Stern and D.B. Rubin \n")
cat("Bayesian Data Analysis, London: Chapman & Hall 1995, Sec. 9.8 \n")
cat("\n")
N <- sum(n)
xidot <- rep(0,r)
ssi <- rep(0,r)
for (i in 1:r){
xidot[i] <- sum(x[,i],na.rm=TRUE)/n[i]
ssi[i] <- (n[i]-1)*var(x[,i],na.rm=TRUE)
}
xdotdot <- sum(x,na.rm=TRUE)/N
ssw <- sum(ssi)
ssb <- (r-1)*var(xidot)
mu <- xdotdot
phi <- ssw/(N-1)
psi <- ssb/(r-1)
muold <- mu
phiold <- phi
psiold <- psi
for (t in 1:niter){
muold <- mu
phiold <- phi
psiold <- psi
mu <- 0
phi <- 0
psi <- 0
v <- 1/(1/psiold + n/phiold)
theta <- v*(muold/psiold + n*xidot/phiold)
mu <- mean(theta)
for (i in 1:r)
for (j in 1:n[i])
phi <- phi + (v[i]+(x[j,i]-theta[i])^2)/(N+2)
psi <- sum(v + (mu-theta)^2)/r
}
for (i in 1:r)
cat("Theta[",i,"] =",theta[i],"\n")
cat("\n")
cat("mu =",mu,"\n")
cat("phi =",phi,"\n")
cat("psi =",psi,"\n")
cat("\n")
#
# Crude Monte Carlo - Chapter 9, Exercise 1
#
niter <- 10
n <- 10
integral <- rep(0,niter)
cat(" Values computed: ")

for (i in 1:niter){
integral[i] <- sum(exp(runif(n)))/n
cat(integral[i])
if (i==n)
cat(".")
else
cat(", ")
if (i==n/2)
cat("\n ")
}
cat("\n")
cat(" Mean is",mean(integral),"and standard deviation is",sd(integral),".")
cat("\n")
#
# Semi-conjugate prior with normal likelihood (Section 9.4)
#
iter <- 10 # Number of iterations of the EM algorithm
m <- 500 # Number of replications
t <- 10 # Number of iterations
n <- 100
xbar <- 89
sxx <- 2970
s0 <- 175
nu0 <- 4
n0 <- 1
theta0 <- 85
phi0 <- s0/(n0*(nu0-2))
thetabar <- 0
phibar <- 0
thetass <- 0
phiss <- 0
cat("\n")
cat("Data quoted in P M Lee, ‘Bayesian Statistics: An Introduction’, \n")
cat("Arnold 1989, Section 2.13. Taking n=12, xbar=139, S=13,045 and \n")
cat("prior for theta ~ N(theta0,S0/n0(nu0-2)), that is, N(",
theta0,",",phi0,"),\n")
cat("and for phi independent and such that phi ~ S0 chi_{nu0}^{-2}, \n")
cat("that is, phi/",s0," is a chi-squared variate on",nu0,"d.f. \n")
cat("\n")
cat("Iterations of the EM algorithm give the following values for theta \n")
# # EM algorithm
theta <- theta0; # Initialize
n1 <- nu0 + n
for (j in 1:iter) # Iterate iter times
{
if (j-1 == 5*floor((j-1)/5)) cat("\n")
s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)
theta1 <- (theta0/phi0+n*xbar/(s1/n1))/(1/phi0+n/(s1/n1))
theta <- theta1
cat(theta," ")
}
cat("\n")
# # Gibbs sampler
phi <- sxx/(n-1) # Initialize
thetafinal <- rep(0,m)
phifinal <- rep(0,m)
for (j in 1:m) # Replicate m times
{
for (s in 1:t) # Iterate t times
{
phi1 <- 1/((1/phi0)+(n/phi))
theta1 <- phi1*((theta0/phi0)+(n*xbar/phi))
# theta | phi ~ N(theta1,phi1
theta <- theta1+sqrt(phi1)*rnorm(1)
# s1=s0+sum(x(i)-theta)^2
s1 <- s0+sxx+n*(xbar-theta)*(xbar-theta)
# phi | theta ~ s1*\chi_{\nu1}^{-2}
phi <- s1/rchisq(1,nu0+n)
}
thetafinal[j] <- theta
phifinal[j] <- phi
}
thetabar <- mean(thetafinal)
phibar <- mean(phifinal)
thetavar <- var(thetafinal)
phivar <- var(phifinal)
cat("\n")
cat("The Gibbs sampler gives rise to the following conclusions: \n")
cat("We deduce posterior for theta has mean",thetabar,"and variance",
thetavar,"\n")
cat("and that posterior for phi has mean",phibar,"and variance",phivar,"\n")
cat("\n")
#
# Example of rejection sampling (Section 9.5)
#
n <- 1000
alpha <- 2
beta <- 4
cc <- exp((alpha-1)*log(alpha-1)+(beta-1)*log(beta-1)-
(alpha+beta-2)*log(alpha+beta-2))
theormean <- alpha/(alpha+beta)
theorvar <- alpha*beta/
((alpha+beta)*(alpha+beta)*(alpha+beta+2))
mean <- 0
ss <- 0
for (i in 1:n)
{
cont <- TRUE
while (cont)
{
y <- runif(1)
u <- runif(1)
if (u <= exp((alpha-1)*log(y)+(beta-1)*log(1-y)))
{
x <- y
mean <- mean + x/n
ss <- ss + x*x
cont <- FALSE
}
}
}
var <- (ss-n*mean*mean)/(n-1)
cat("\n")
cat(" Alpha =",alpha,"Beta =",beta,"; Mean =",mean,"Variance =",var,"\n")
cat(" Theoretical values ",theormean,"and ",theorvar,"\n")
cat(" Ratios ",mean/theormean,"and ",var/theorvar)
cat("\n\n")
1 151 199 246 283 320

2 145 199 249 293 354
3 147 214 263 312 328
4 155 200 237 272 297
5 135 188 230 280 323
6 159 210 252 298 331
7 141 189 231 275 305
8 159 201 248 297 338
9 177 236 285 340 376
10 134 182 220 260 296
11 134 182 220 260 296
12 143 188 220 273 314

13 154 200 244 289 325
14 171 221 270 326 358
15 163 216 242 281 312
16 160 207 248 288 324
17 142 187 234 280 316
18 156 203 243 283 317
19 157 212 259 307 336
20 152 203 246 286 321
21 154 205 253 298 334
22 139 190 225 267 302
23 146 191 229 272 302
24 157 211 250 285 323
25 132 185 237 286 331
26 160 207 257 303 345
27 169 216 261 295 333
28 157 205 248 289 316
29 137 180 219 258 291
30 153 200 244 286 324
#
# Rat data in Chapter 9, Exercise 11
#
# Remember to load the file wishart.r first
#
p <- P <- 2
m <- 500
k <- 30
ni <- 5
epsilon <- 0.001
x <- c(8, 15, 22, 29, 36)
dat <- read.table("rats.dat")
y <- dat[,2:(ni+1)]
alpha0 <- 0.0
beta0 <- 0.0
a <- aalpha <- abeta <- epsilon # B P Carlin and T A Louis p. 169
b <- balpha <- bbeta <- 1/epsilon # B P Carlin and T A Louis p. 170
sigma2 <- 1.0 # Initially sigma2 is IG(a,b)
sigmaa2 <- 100 # A E Gelfand et al. p. 979 col.1
sigmab2 <- 0.1 # A E Gelfand et al. p. 979 col.1
# Thus R = (100 0 )
# ( 0 0.1)
#
# Take values for alpha[i] and beta[i] given
# alpha0, beta0, sigmaa2, sigmab2 and sigma2
alphabar <- 0.0
betabar <- 0.0
alpha <- rep(0,k)
beta <- rep(0,k)
for (i in 1:k)
{
vara <- ni/sigma2 + 1/sigmaa2
suma <- sum(y[i,])
meana <- (suma/sigma2 + alpha0/sigmaa2)/vara
# alpha[i] ~ N(meana,vara)
alpha[i] <- meana+sqrt(vara)*rnorm(1)
alphabar <- alpha[i]/k
varb <- var(x)/sigma2 + 1/sigmab2
sumb <- sum((x-mean(x))*unlist(y[i,]))
meanb <- (sumb/sigma2 + 1/sigmab2)/varb
# beta[i] ~ N(meanb,varb)
beta[i] <- meanb+sqrt(varb)*rnorm(1)
betabar <- betabar + beta[i]/k
}
# Initialize var (capital sigma)
v <- matrix(c(sigmaa2,0,0,sigmab2),P,P)
# Take values for alpha0 and beta0 given
# alpha[i], beta[i], sigmaa2, sigmab2 and sigma2
wish(p,k,var)
# alpha0 ~ N(alphabar,sigmaa2/k)
alpha0 <- alphabar+sqrt(sigmaa2/k)*rnorm(1)
# beta0 ~ N(betabar,sigmab2/k)
beta0 <- betabar+sqrt(sigmab2/k)*rnorm(1)
# See last displayed formula on p. 168 of
# B P Carlin and T A Louis
# simplified by taking C^{-1} = 0
#
# Take values for sigmaa2 and sigmab2 given
# alpha[i], beta[i], alpha0, beta0 and sigma2
# sigmaa2 ~ IG(alpha0,beta0)
sigmaa2 <- 1/(beta0*rgamma(1,alpha0))
# sigmab2 ~ IG(alpha)
sigmab2 <- 1/(beta0*rgamma(1,alpha0))
#
# Take value for sigma2 given
# alpha[i], beta[i], alpha0, beta0, sigmaa2 and sigmab2
# sigma2 ~ IG(alpha0,beta0)
sigma2 <- 1/(beta0*rgamma(1,alpha0))
Ejemplo 14.8 Precio de oferta del Sprint usado

Consideremos los datos referentes a los precios de oferta de carros Chevrolet
Sprint aparecidos en el periódico El Colombiano Abril 14 del 2002.
Año Precio
(en millones)
87 7.0
88 8.0
92 10.4
94 94
list(x = c(87,88,92,94), Y = c(7.0,8.0,10.4,12.5), N = 4)

list(alpha = 0, beta = 0, tau = 1)
Los resultados son:

alpha 9.472 0.5299 0.008244 8.532 9.474 10.35 2001 2000
beta 0.7396 0.1976 0.003458 0.3973 0.7416 1.076 2001 2000
sigma 0.6849 0.9945 0.04225 0.1831 0.4194 2.657 2001 2000
Si no consideramos la aproximación bayesiana y trabajamos directamente con
el modelo clásico tenemos los siguientes resultados
Call: lm(formula = precio ano)

Residuals: 1 2 3 4 -0.06107 0.19618 -0.37481 0.23969
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept)
9.47500 0.17326 54.69 0.000334 *** ano 0.74275 0.06055 12.27 0.006581
** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1
‘ ’ 1
Residual standard error: 0.3465 on 2 degrees of freedom Multiple
R-Squared: 0.9869, Adjusted R-squared: 0.9803 F-statistic: 150.5
on 1 and 2 DF, p-value: 0.006581
>
Si utilizamos información previa sobre el mismo problema, por ejemplo los pre-
cios de oferta del mismo tipo de carro que aparecieron en El Colombiano en
Diciembre 16 del 2002, en el cual aparecieron los siguientes datos
Año Precio
(en millones)
88 7.8
90 8.8
95 11.8
95 12.3
94 12.0
95 8.8
list(x = c(95,95,94,95,88,90), Y = c(11.8,12.5,12.0,12.3,7.8,8.8),

N = 6)
list(alpha = 0, beta = 0, tau = 1)

alpha 10.86 0.1887 0.004687 10.5 10.86 11.24 3001 2000
beta 0.6522 0.06663 0.001457 0.5118 0.6508 0.7817 3001 2000
tau 8.48 5.888 0.193 1.197 7.019 23.54 3001 2000
model for(i in 1:N) Y[i] dnorm(mu[i], tau) mu[i] <- alpha +

beta * (x[i] - mean(x[])) sigma <- 1/sqrt(tau) alpha dnorm(10.86,
28.08382) beta dnorm(0.6522, 225.2477) tau dgamma(1.0E-3, 1.0E-3)
list(x = c(87,88,92,94), Y = c(7.0,8.0,10.4,12.5), N = 4)

list(alpha = 10.86, beta = 0.6522, tau = 8.48)

alpha 10.76 0.1925 0.003257 10.38 10.75 11.14 3001 4000
beta 0.6581 0.06308 9.926E-4 0.5339 0.6572 0.7838 3001 4000
tau 0.5937 0.4655 0.007512 0.06085 0.4749 1.825 3001 4000
Capı́tulo 15
Modelos Jerárquicos
Los modelos jerárquicos surgen en muchas situaciones (Draper, 2000; Stangl,

2001)donde los datos son recogidos en forma jerárquica. Por ejemplo, un estudio
de salud puede recoger información de pacientes dentro de diversos hospitales.
Un estudio sobre educación puede generar información recogida entre estudi-
antes de diversas instituciones educativas. Los modelos jerárquicos permiten que
lugares con tamaños muestrales pequeños “presten fortalezas” de otros lugares,
de tal forma que la varianza entre sitios a ser estimada sea pequeña (DuMouchel
y Waternaux, 1995).
La metodologı́a de estos modelos se puede llevar a otras situaciones más tradi-
cionales, donde la modelación puede ser complicada, por ejemplo en el caso de
la regresión, cuando la varianza residual cambia con las variables explicativas,
se puede considerar meter el modelo de variación constante en una familia de
modelos que generen diferentes supuestos acerca de la varianza residual. En este
caso, en lugar de escoger un solo modelo y arriesgarnos a tener una selección
equivocada, podemos trabajar con muchos modelos a la vez, ponderándolos de
acuerdo a la concordancia con los datos.
En el estudio de modelos jerárquicos surgen dos cuestiones técnicas:
los cálculos bayesianos requieren el uso de simulación tales como los

basados en MCMC y
asuntos sobre diagnósticos para el modelo.
Definición 15.1 (Intercambiabilidad) de Finetti (1930, 1964) dice que vari-

ables con la siguiente propiedad son intercambiables Yi , i = 1, · · · , n son inter-
cambiables si las distribuciones de (Y1 , · · · , Yn ) y (Yπ(1) , · · · , Yπ(n) ) son las mis-
mas para todas las permutaciones (π(1), · · · , π(n))
173
174 CAPÍTULO 15. MODELOS JERÁRQUICOS
Intercambiabilidad e IID no son lo mismo: IID implica intercambibilidad, y

variables intecambiables Yi tienen idénticas distribuciones marginales, pero ellas
no son necesariamente independientes.
15.1. Meta-análisis
La idea básica del meta-análisis es combinar información provenientes de difer-
entes estudios pero realizados esencialmente sobre el mismo fenómeno, con el
propósito de tener unas inferencias y predicciones más exactas que las que se
tengan de cualquier estudio individual. Aquı́ tenemos sujetos dentro de estudios
y habrá predictores a la vez de los sujetos y de los estudios.
Stangl (2001) presenta el siguiente caso donde se realizó un análisis de los efectos
de la droga antidepresiva S-adenosylometionina (SAMe). Participaron nueve
lugares en el ensayo. Cada sitio tenı́a caracterı́sticas propias que afectaba los
resultados de los estudios. El resultado de interés era la tasa de éxito observada
con la SAMe. Los datos están presentados en la siguiente tabla:
Sitio si ni si /ni
1 20 20 1.00
2 4 10 0.40
3 11 16 0.69
4 10 19 0.53
5 5 14 0.36
6 36 46 0.78
7 9 10 0.90
8 7 9 0.78
9 4 6 0.67
Total 106 150 0.71
Asumimos que la tabla anterior proviene de un estudio con 150 pacientes y nue-
stro objetivo es estimar la tasa de éxito, digamos π, del tratamiento. Asumamos
que la distribución apriori de π es una Beta (α, β). Los datos son generados de
una distribución binomial con tamaño muestral n y tasa de éxito π.
Una formulación multinivel, o jerárquica o de efectos aleatorios evita el supuesto
de homogenidad modelando un efecto aleatorio, π para el estudio i. Cada πi
se asume sacado de la distribución de los efectos de estudio. Aquı́ se usa la
Beta (α, β) para los efectos de estudio. La respuesta del estudio i es
si ∼ Binomial (ni , πi )
y los efectos individuales son intercambiables. Condicionados en α y β, los πi

son sacados independientemente de una distribución Beta:
15.1. META-ANÁLISIS 175
πi ∼ Beta (α, β)
La función de verosimilitud de los πi ’s es:
I
Y ni −si
πisi (1 − πi )
i=1
En el último nivel de jerarquı́a, una distribución apriori es colocada sobre α y

β. La dejamos sin especificar por el momento, y simplemente la denotamos por
ξ(α, β)
La distribución posterior conjunta de todos los parámetros es:
ξ (π, α, β|s) ∝ f (s|π, α, β) ξ (π|α, β) ξ(α, β)

I
Y YI
ni −si Γ(α + β) α−1 β−1
∝ πisi (1 − πi ) πi (1 − πi ) ξ(α, β)
i=1 i=1
Γ(α)Γ(β)
Dados α y β, cada uno de los πi tiene una distribución beta independiente. Su

densidad conjunta será:
I
Y Γ(α + β + ni ) β+ni −si −1
ξ (π|α, β, s) ∝ πiα+si −1 (1 − πi )
i=1
Γ(α + si )Γ(β + ni − si )
La marginal posterior de (α, β) es
YI
Γ(α + β) Γ(α + si )Γ(β + ni − si )
ξ (α, β|s) ∝ ξ(α, β)
i=1
Γ(α)Γ(β) Γ(α + β + ni )
176 CAPÍTULO 15. MODELOS JERÁRQUICOS
Capı́tulo 16
Datos
16.1. Apellidos
Una muestra tomada al azar de los apellidos de suscriptores telefónicos tomada
del directorio de páginas blancas produjo los siguientes resultados:
acevedo acosta agudelo aguirre alvarez alzate

6 2 7 2 12 8
andrade angel arango arbelaez arboleda arcila
1 3 7 5 2 2
ardila areiza arenas arias aristizabal arredondo
2 3 3 4 4 1
arroyave avendano ayala balbin ballesteros baron
2 1 1 1 1 1
barrera barrientos bedoya bejarano bello beltran
1 1 6 1 1 1
benitez bermudez bernal berrio betancur betancurt
1 1 1 2 12 1
bilbao bohorquez botero bouhot bravo buitrago
1 1 5 1 2 1
buritica bustamante cadavid caicedo cajamarca calad
1 7 2 1 1 1
calle campillo campo canas cano canola
2 1 1 2 6 1
cardenas cardiba cardona carmona carvajal casas
1 1 22 2 3 2
castaneda castano castillo castrillon castro catano
3 8 1 6 6 1
ceballos cespedes chanci chavarria cordoba corrales
177
178 CAPÍTULO 16. DATOS
2 1 1 1 2 1
correa cortes cossio cuartas cuellar cuervo
7 1 1 1 1 3
david delosrios diaz duarte duque durango
1 1 2 1 10 1
ebratt echavarria echeverri echeverry escobar escudero
1 7 2 3 3 1
espinal estrada fernandez florez foronda franco
2 1 5 2 2 3
galeano gallego gamboa garces garcia garro
2 6 1 1 16 1
gaviria gil giraldo gomez gonzalez gragales
5 4 12 28 10 1
granada granados guayiboy guerra guiral gutierrez
1 1 1 1 2 11
guzman henao hernandez herrera hidalgo higuita
2 6 8 2 1 3
hincapie hoyos hurtado idarraga isaza jaramillo
4 2 2 1 2 21
jimenez laiseca legarda leyva llano londono
4 1 1 1 1 8
lopera lopez lora loreto machado macia
2 13 1 1 1 1
maldonado manco manjarres manrique marin marquez
2 3 1 1 4 1
martinez marulanda maya mazo medina mejia
7 1 2 3 5 10
merino mesa misas molina mona moncada
1 8 1 4 1 2
monsalve montes montoya mora morales moreno
3 1 19 1 8 5
mosquera munera muneton munoz murillo naranjo
3 4 1 12 2 3
narino norena obando ocampo ochoa orozco
1 4 1 2 6 5
ortega ortiz osorio osorno ospina pabon
5 9 9 1 6 1
palacio palacios palomino paniagua parra patino
5 3 1 2 3 7
pelaez pena penagos perez piedrahita pineda
3 2 2 11 5 4
pino posada preciado presiga puerta pulgarin
1 7 1 1 1 4
pulido quiceno quijano quintero quiros ramirez
1 1 1 6 1 28
rangel rave rendon rengifo restrepo reyes
2 3 5 1 32 1
ricaurte rico rios rivera rodas rodriguez
1 2 6 6 2 5
rojas roldan roman romero royero rueda
16.2. MORDEDURAS 179
1 2 1 2 1 2
ruge ruiz saenz salazar salgado salinas
1 5 1 6 1 2
sanchez santa santamaria saraza sepulveda serna
21 1 1 1 6 4
sierra sosa soto suarez suaza tabares
2 2 2 5 2 4
tabera taborda tamayo tangarife tapias tejada
1 2 2 1 2 1
tilano tobon tocora toro torres trejos
1 6 1 6 3 1
trujillo uribe urrego usuga valencia vallejo
1 5 2 3 8 1
vanegas vargas vasquez velasquez velez vera
4 3 9 6 14 1
vergara vidales villa villada villegas vitola
1 1 5 1 3 1
yepes zapata zea zuleta zuluaga
1 13 1 2 9
1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 19 21 22 28 32
114 52 23 14 16 17 8 7 4 3 2 4 2 1 1 1 2 1 2 1
Se hallaron 275 apellidos diferentes.
16.2. Mordeduras
El siguiente modelo permite estimar el número de mordeduras promedio para
cada municipio y construir un intervalo de probabilidad para este valor.
Los comandos en W inBU GS serán
model
{
for (i in 1 : N) {
theta[i] ~ dgamma(alpha, beta)
lambda[i] <- theta[i] * Pobtotal[i]
Mordeduras[i] ~ dpois(lambda[i])
}
alpha ~ dexp(1)
beta ~ dgamma(0.1, 1.0)
}
list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,
Municipio Mordeduras Hectáreas Altura Habitantes Temperatura

Medellı́n 53 23 1550 1933177 22
Barbosa 7 63 1300 36307 22
Bello 3 47 1450 316397 22
Caldas 0 222 1750 60170 19
Copacabana 0 4 1425 51760 22
Envigado 9 44 1575 132414 21
Girardota 0 5 1425 33050 22
Itagui 1 0 1550 209030 21
La Estrella 5 5 1775 44464 20
Sabaneta 0 160 1550 32339 20
Cáceres 19 112 100 22854 28
Caucasia 30 0 50 57235 28
El Bagre 15 108 50 48422 28
Nechi 6 0 30 10906 28
Tarazá 9 169 125 25771 28
Zaragoza 12 182 50 26816 28
Caracolı́ 6 4 625 7023 26
Maceo 2 36 950 9036 23
PuertoBerrio 18 48 125 36514 27
Puerto Nare 4 18 125 13388 27
PuertoTriunf 4 104 150 11836 27
Yondó 5 1522 75 11698 28
Amalfi 9 33 1550 20387 22
Anorı́ 6 7 1535 14690 21
Cisneros 5 0 1050 10518 24
Remedios 4 20 700 18825 25
SanRoque 6 31 1475 21313 21
SantoDomingo 0 37 1975 13549 19
Segovia 4 33 650 35006 24
Vegachı́ 10 40 980 15818 23
Yalı́ 5 10 1250 9249 23
Yolombó 7 61 1450 16594 21
Angostura 0 71 1675 15119 21
Belmira 0 28 2550 5650 14
Briceño 0 9 1200 10070 23
Campamento 0 15 1700 11453 20
Carolina 0 43 1800 4635 19
Donmatias 0 41 2200 14250 16
Entrerı́os 0 54 2300 7697 16
GomezPlata 0 80 1800 9975 20
Guadalupe 1 21 1875 6675 20
Ituango 0 22 1550 37118 21
SanAndres 0 15 1475 9887 22
San José 0 0 2550 3558 13
San Pedro 0 20 2475 19346 14
Santa Rosa 1 361 2550 27651 13
Toledo 0 0 1850 9638 19
Valdivia 3 3 1165 12968 21
Yarumal 14 126 2300 36907 14

Abriaquı́ 0 52 1920 3870 18
Anzá 1 49 625 8103 25
Armenia 1 33 1800 7068 19
Buriticá 0 3 1625 8217 21
CañasGordas 0 152 1300 22685 21
Dabeiba 4 754 450 28445 26
Ebéjico 1 135 1150 16061 23
Frontino 4 177 1350 26240 21
Giraldo 1 52 1925 4946 17
Heliconia 1 10 1440 8104 21
Liborina 0 1 700 11071 24
Olaya 0 22 500 2868 26
Peque 0 45 1200 9512 22
Sabanalarga 0 33 850 9006 25
SanJerónimo 0 20 780 11313 25
SantaFé 1 65 550 22626 27
Sopetrán 0 0 750 12969 25
Uramita 0 191 650 9223 25
Abejorral 4 134 2125 79874 17
Alejandrı́a 1 265 2125 26689 17
Argelia 0 98 1650 5715 20
Carmen 0 44 1750 12944 20
Cocorna 0 130 1300 23105 23
Concepción 1 32 1875 6530 19
El Peñol 0 79 2150 40300 17
El Retiro 0 19 2000 17078 18
El Santuario 0 123 2175 15809 16
Granada 0 13 2150 28940 17
Guarne 0 64 2050 18422 18
Guatapé 1 76 2150 31092 17
La Ceja 0 90 1925 7241 19
La Unión 1 38 2200 41166 16
Marinilla 1 12 2500 17657 13
Nariño 0 61 2120 38980 17
Rionegro 1 192 1650 15957 20
San Carlos 9 54 1000 23517 23
SanFrancisco 3 18 1250 9062 23
San Luis 6 128 1050 15896 24
San Rafael 8 33 1000 20434 23
San Vicente 0 18 2150 24492 17
Sonsón 3 1057 2475 45482 13
Amagá 1 75 1400 26111 21
Andes 20 30 1350 41310 22
Angelopolis 1 42 1900 6598 18
Betania 4 19 1550 12113 22
Betulia 1 74 1600 17200 20
Caicedo 0 3 1800 7684 19
Caramanta 1 142 2050 8285 17
CiudadBoliva 15 39 1200 30377 22
Concordia 9 26 2000 24651 19
Fredonia 3 51 1800 24357 20
Hispania 0 167 1000 4776 21

Jardı́n 1 72 1750 16225 19
Jericó 1 11 2000 17733 18
Montebello 1 6 2350 10121 15
Pueblorico 2 57 1800 10668 19
Salgar 1 94 1250 19102 23
Santabarbara 3 4 1800 24626 19
Támesis 3 55 1600 18705 21
Tarso 0 17 1325 7498 22
Titiribı́ 4 11 1550 12039 21
Urrao 2 36 1800 38054 20
Valparaiso 2 46 1375 7744 21
Venecia 0 22 1350 14123 21
Apartadó 92 645 25 86941 28
Arboletes 9 89 4 23836 28
Carepa 10 263 28 32960 28
Chigorodó 23 281 34 46264 28
Murindó 3 257 25 3241 28
Mutatá 14 156 75 13300 28
Necoclı́ 16 249 8 36002 28
SanJuandeU 20 112 2 19984 28
SanPedrodeU 21 211 200 28915 27
Turbo 14 785 2 106305 28
VigiadelFuer 12 1253 18 10150 28
6,2,18,4,4,5,9,6,5,4,6,0,4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,
14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,
1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,
92,9,10,23,3,14,16,20,21,14,12),
Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,
209030,44464,32339,22854,57235,48422,10906,25771,26816,
7023,9036,36514,13388,11836,11698,20387,14690,10518,18825,
21313,13549,35006,15818,9249,16594,15119,5650,10070,11453,
4635,14250,7697,9975,6675,37118,9887,3558,19346,27651,9638,
12968,36907,3870,8103,7068,8217,22685,28445,16061,26240,4946,
8104,11071,2868,9512,9006,11313,22626,12969,9223,79874,26689,
5715,12944,23105,6530,40300,17078,15809,28940,18422,31092,7241,
41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,26111,
41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,
17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,
86941,23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))
list(N=124, Mordeduras=c(53,7,3,0,0,9,0,1,5,0,19,30,15,6,9,12,6,2,18,4,4,5,9,6,5,4,6,0,
4,10,5,7,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,3,14,0,1,1,0,0,4,1,4,1,1,0,0,0,0,
0,1,0,0,4,1,0,0,0,1,0,0,0,0,0,1,0,1,1,0,1,9,3,6,8,0,3,1,20,1,4,1,0,1,15,
9,3,0,1,1,1,2,1,3,3,0,4,2,2,0,92,9,10,23,3,14,16,20,21,14,12),
Altmar=c(1550,1300,1450,1750,1425,1575,1425,1550,1775,1550,100,
50,50,30,125,50,625,950,125,125,150,75,1550,1535,1050,700,1475,
1975,650,980,1250,1450,1675,2550,1200,1700,1800,2200,2300,1800,
1875,1550,1475,2550,2475,2550,1850,1165,2300,1920,625,1800,1625,
1300,450,1150,1350,1925,1440,700,500,1200,850,780,550,750,650,
2125,2125,1650,1750,1300,1875,2150,2000,2175,2150,2050,2150,1925,
2200,2500,2120,1650,1000,1250,1050,1000,2150,2475,1400,1350,1900,
1550,1600,1800,2050,1200,2000,1800,1000,1750,2000,2350,1800,1250,
1800,1600,1325,1550,1800,1375,1350,25,4,28,34,25,75,8,2,200,2,18),
Pobtotal=c(1933177,36307,316397,60170,51760,132414,33050,209030,
44464,32339,22854,57235,48422,10906,25771,26816,7023,9036,36514,
13388,11836,11698,20387,14690,10518,18825,21313,13549,35006,15818,
9249,16594,15119,5650,10070,11453,4635,14250,7697,9975,6675,37118,
9887,3558,19346,27651,9638,12968,36907,3870,8103,7068,8217,22685,
28445,16061,26240,4946,8104,11071,2868,9512,9006,11313,22626,12969,
9223,79874,26689,5715,12944,23105,6530,40300,17078,15809,28940,18422,
31092,7241,41166,17657,38980,15957,23517,9062,15896,20434,24492,45482,
26111,41310,6598,12113,17200,7684,8285,30377,24651,24357,4776,16225,
17733,10121,10668,19102,24626,18705,7498,12039,38054,7744,14123,86941,
23836,32960,46264,3241,13300,36002,19984,28915,106305,10150))
Nodo Media sd Error MC 2.5 % Mediana 97.5 %

Medellı́n lambda1 53.17 7.25 0.12 39.98 52.86 68.15
Barbosa lambda2 7.11 2.68 0.03 2.84 6.79 13.16
Bello lambda3 3.11 1.74 0.02 0.71 2.78 7.33
Caldas lambda4 0.11 0.35 0.01 0.00 0.00 1.15
Copacabana lambda5 0.11 0.33 0.01 0.00 0.00 1.04
Envigado lambda6 9.14 3.08 0.04 4.11 8.80 16.23
Girardota lambda7 0.10 0.30 0.00 0.00 0.00 1.02
Itaguı́ lambda8 1.13 1.08 0.02 0.04 0.81 4.00
La Estrella lambda9 5.09 2.30 0.03 1.70 4.74 10.58
Sabaneta lambda10 0.11 0.33 0.01 0.00 0.00 1.07
Cáceres lambda11 19.19 4.37 0.07 11.84 18.85 28.94
Caucasia lambda12 30.14 5.42 0.07 20.16 29.87 41.34
El Bagre lambda13 15.04 3.82 0.05 8.62 14.75 23.31
Nechı́ lambda14 6.07 2.43 0.04 2.31 5.77 11.81
Tarazá lambda15 9.11 2.99 0.04 4.24 8.77 15.90
Zaragoza lambda16 12.09 3.49 0.05 6.28 11.78 19.73
Caracolı́ lambda17 6.13 2.46 0.04 2.36 5.79 11.78
Maceo lambda18 2.12 1.46 0.02 0.27 1.80 5.75
PuertoBerrio lambda19 18.17 4.26 0.06 10.94 17.87 27.45
PuertoNare lambda20 4.13 2.03 0.03 1.21 3.81 9.08
PuertoTriunf lambda21 4.10 2.01 0.03 1.09 3.77 8.86
Yondó lambda22 5.13 2.26 0.03 1.70 4.82 10.44
Amalfi lambda23 9.16 3.03 0.04 4.24 8.83 16.01
Anorı́ lambda24 6.12 2.46 0.03 2.32 5.84 11.80
Cisneros lambda25 5.10 2.22 0.03 1.76 4.78 10.32
Remedios lambda26 4.12 2.05 0.03 1.11 3.78 9.01
SanRoque lambda27 6.09 2.49 0.03 2.16 5.79 11.95
SantoDomingo lambda28 0.12 0.37 0.00 0.00 0.00 1.15
Segovia lambda29 4.12 2.01 0.03 1.15 3.79 8.70
Vegachı́ lambda30 10.06 3.18 0.04 4.76 9.71 17.13
Yalı́ lambda31 5.15 2.29 0.03 1.68 4.78 10.46
Yolombo lambda32 7.12 2.67 0.04 2.93 6.76 13.36
Angostura lambda33 0.11 0.33 0.00 0.00 0.00 0.98
Belmira lambda34 0.11 0.34 0.00 0.00 0.00 1.02
Briceño lambda35 0.11 0.35 0.00 0.00 0.00 1.01
Campamento lambda36 0.11 0.33 0.01 0.00 0.00 0.98
Carolina lambda37 0.11 0.33 0.01 0.00 0.00 1.01
Don Matias lambda38 0.11 0.36 0.00 0.00 0.00 1.02
Entrerı́os lambda39 0.11 0.32 0.00 0.00 0.00 1.02
GomezPlata lambda40 0.10 0.33 0.00 0.00 0.00 0.95
Guadalupe lambda41 1.09 1.01 0.01 0.04 0.81 3.69
Ituango lambda42 0.11 0.34 0.00 0.00 0.00 1.02
San Andrés lambda43 0.12 0.35 0.00 0.00 0.00 1.16
San José lambda44 0.10 0.30 0.00 0.00 0.00 0.94
San Pedro lambda45 0.10 0.31 0.00 0.00 0.00 1.01
Santa Rosa lambda46 1.12 1.06 0.01 0.04 0.80 3.98

Toledo lambda47 0.11 0.35 0.01 0.00 0.00 1.12
Valdivia lambda48 3.08 1.75 0.02 0.68 2.73 7.36
Yarumal lambda49 13.99 3.75 0.05 7.81 13.60 22.37
Abriaquı́ lambda50 0.10 0.31 0.00 0.00 0.00 0.95
Anzá lambda51 1.10 1.06 0.02 0.03 0.80 3.80
Armenia lambda52 1.11 1.07 0.02 0.04 0.81 4.04
Buriticá lambda53 0.11 0.33 0.01 0.00 0.00 1.03
CañasGordas lambda54 0.10 0.32 0.00 0.00 0.00 1.02
Dabeiba lambda55 4.10 2.00 0.03 1.17 3.76 8.77
Ebéjico lambda56 1.10 1.06 0.01 0.03 0.77 3.93
Frontino lambda57 4.15 2.05 0.03 1.16 3.80 9.13
Giraldo lambda58 1.06 1.03 0.01 0.04 0.77 3.83
Heliconia lambda59 1.09 1.05 0.02 0.03 0.78 3.90
Liborina lambda60 0.11 0.37 0.01 0.00 0.00 1.11
Olaya lambda61 0.11 0.32 0.00 0.00 0.00 1.02
Peque lambda62 0.10 0.31 0.00 0.00 0.00 0.95
Sabanalarga lambda63 0.11 0.31 0.00 0.00 0.00 1.04
SanJerónimo lambda64 0.11 0.33 0.00 0.00 0.00 1.06
SantaFé lambda65 1.10 1.05 0.01 0.04 0.80 3.98
Sopetrán lambda66 0.11 0.35 0.01 0.00 0.00 1.07
Uramita lambda67 0.11 0.32 0.00 0.00 0.00 1.08
Abejorral lambda68 4.11 2.02 0.03 1.14 3.76 8.88
Alejandrı́a lambda69 1.13 1.09 0.02 0.04 0.82 4.10
Argelia lambda70 0.11 0.33 0.00 0.00 0.00 1.04
Carmen lambda71 0.10 0.31 0.01 0.00 0.00 1.01
Cocorná lambda72 0.11 0.34 0.00 0.00 0.00 1.08
Concepción lambda73 1.09 1.05 0.01 0.04 0.76 3.91
El Peñol lambda74 0.11 0.33 0.00 0.00 0.00 1.05
El Retiro lambda75 0.11 0.32 0.00 0.00 0.00 1.03
El Santuario lambda76 0.10 0.33 0.00 0.00 0.00 1.01
Granada lambda77 0.10 0.30 0.00 0.00 0.00 0.97
Guarne lambda78 0.11 0.34 0.01 0.00 0.00 1.14
Guatapé lambda79 1.10 1.04 0.01 0.04 0.80 3.81
La Ceja lambda80 0.10 0.33 0.01 0.00 0.00 1.02
La Unión lambda81 1.10 1.05 0.02 0.04 0.77 3.88
Marinilla lambda82 1.10 1.02 0.01 0.04 0.80 3.74
Nariño lambda83 0.11 0.32 0.00 0.00 0.00 0.96
Rionegro lambda84 1.11 1.07 0.01 0.04 0.79 4.00
San Carlos lambda85 9.13 3.01 0.04 4.20 8.81 15.79
SanFrancisco lambda86 3.10 1.77 0.02 0.65 2.76 7.44
San Luis lambda87 6.09 2.44 0.03 2.23 5.78 11.65
San Rafael lambda88 8.13 2.79 0.04 3.53 7.82 14.29
San Vicente lambda89 0.10 0.30 0.00 0.00 0.00 0.96
Sonsón lambda90 3.14 1.75 0.03 0.69 2.81 7.42

Amagá lambda91 1.11 1.05 0.01 0.04 0.81 3.95
Andes lambda92 20.10 4.50 0.06 12.26 19.73 29.91
Angelopolis lambda93 1.11 1.07 0.02 0.04 0.79 3.94
Betania lambda94 4.06 2.02 0.03 1.15 3.73 8.97
Betulia lambda95 1.12 1.08 0.02 0.04 0.79 4.02
Caicedo lambda96 0.11 0.33 0.00 0.00 0.00 1.08
Caramanta lambda97 1.10 1.02 0.01 0.04 0.79 3.81
CiudadBoliva lambda98 14.97 3.86 0.05 8.41 14.56 23.72
Concordia lambda99 9.08 3.02 0.04 4.15 8.71 15.90
Fredonia lambda100 3.15 1.80 0.02 0.70 2.83 7.59
Hispania lambda101 0.10 0.31 0.00 0.00 0.00 1.04
Jardı́n lambda102 1.11 1.05 0.02 0.04 0.80 3.90
Jericó lambda103 1.11 1.08 0.02 0.03 0.79 3.98
Montebello lambda104 1.11 1.05 0.01 0.04 0.80 3.91
Pueblorico lambda105 2.13 1.47 0.02 0.28 1.79 5.90
Salgar lambda106 1.12 1.06 0.01 0.04 0.80 3.98
Santabárbara lambda107 3.10 1.77 0.02 0.65 2.78 7.51
Támesis lambda108 3.09 1.75 0.02 0.67 2.76 7.37
Tarso lambda109 0.11 0.32 0.00 0.00 0.00 1.05
Titiribı́ lambda110 4.09 2.01 0.03 1.18 3.80 8.81
Urrao lambda111 2.12 1.47 0.02 0.28 1.80 5.89
Valparaiso lambda112 2.11 1.46 0.02 0.29 1.77 5.84
Venecia lambda113 0.10 0.31 0.00 0.00 0.00 0.99
Apartadó lambda114 92.02 9.54 0.14 74.17 91.59 112.00
Arboletes lambda115 9.13 3.02 0.04 4.20 8.80 15.87
Carepa lambda116 10.19 3.16 0.04 5.02 9.83 17.34
Chigorodó lambda117 23.11 4.82 0.07 14.81 22.72 33.81
Murindó lambda118 3.14 1.77 0.03 0.66 2.81 7.44
Mutatá lambda119 14.15 3.87 0.05 7.66 13.77 22.50
Necoclı́ lambda120 16.06 4.11 0.05 9.08 15.78 25.07
SanJuandeU lambda121 20.05 4.50 0.07 12.32 19.71 29.88
SanPedrodeU lambda122 21.17 4.58 0.07 13.15 20.82 31.20
Turbo lambda123 14.04 3.77 0.05 7.66 13.70 22.36
VigiadelFuer lambda124 12.16 3.48 0.04 6.25 11.88 19.79
model
{
for (i in 1 : N) {
theta[i] ~ dgamma(alpha, beta)
lambda[i] <- theta[i] * Pobtotal[i]*(Altmar[i]/100)
Mordeduras[i] ~ dpois(lambda[i])
teta[i]<-theta[i]*100000
}
alpha ~ dexp(1)
beta ~ dgamma(0.1, 1.0)

lambda[1] 53.03 7.241 0.09261 39.91 52.69 68.13 1 5000
lambda[2] 7.052 2.665 0.04464 2.849 6.716 13.28 1 5000
lambda[3] 3.094 1.777 0.02617 0.6535 2.741 7.383 1 5000
lambda[4] 0.07402 0.2759 0.004382 9.608E-24 6.094E-5 0.8044 1
5000
lambda[5] 0.08192 0.3079 0.0043 3.432E-21 7.282E-5 0.8738 1 5000
lambda[6] 9.107 2.994 0.04055 4.152 8.762 15.9 1 5000
lambda[7] 0.08353 0.2893 0.003992 1.857E-22 7.136E-5 0.8809 1
5000
lambda[8] 1.069 1.05 0.01658 0.02902 0.7583 3.936 1 5000
lambda[9] 5.074 2.234 0.0295 1.661 4.764 10.18 1 5000
lambda[10] 0.06699 0.2495 0.003299 1.771E-21 6.889E-5 0.7058 1
5000
lambda[11] 19.12 4.435 0.05866 11.25 18.83 28.52 1 5000
lambda[12] 30.19 5.598 0.08223 20.3 29.8 42.2 1 5000
lambda[13] 15.03 3.833 0.04774 8.426 14.77 23.49 1 5000
lambda[14] 6.075 2.495 0.0309 2.28 5.666 11.86 1 5000
lambda[15] 9.032 2.939 0.04386 4.197 8.692 15.64 1 5000
lambda[16] 12.09 3.512 0.05112 6.324 11.71 19.95 1 5000
lambda[17] 6.047 2.42 0.03264 2.271 5.705 11.71 1 5000
lambda[18] 2.068 1.454 0.018 0.2716 1.731 5.608 1 5000
lambda[19] 18.12 4.269 0.0568 10.69 17.73 27.32 1 5000
lambda[20] 4.093 2.045 0.03054 1.162 3.746 9.056 1 5000
lambda[21] 4.079 2.011 0.02591 1.137 3.762 8.733 1 5000
lambda[22] 5.097 2.304 0.03559 1.705 4.72 10.52 1 5000
lambda[23] 9.071 3.02 0.03732 4.103 8.78 15.88 1 5000
lambda[24] 6.08 2.435 0.04095 2.333 5.757 11.72 1 5000
lambda[25] 5.077 2.284 0.0332 1.642 4.773 10.38 1 5000
lambda[26] 4.077 2.017 0.02748 1.1 3.745 8.931 1 5000
lambda[27] 6.116 2.443 0.03142 2.336 5.791 11.73 1 5000

lambda[28] 0.0789 0.2883 0.004118 7.216E-22 8.602E-5 0.7831 1
5000
lambda[29] 4.117 2.041 0.02373 1.154 3.756 8.95 1 5000
lambda[30] 10.02 3.121 0.04378 4.844 9.675 16.96 1 5000
lambda[31] 5.145 2.321 0.03423 1.616 4.807 10.31 1 5000
lambda[32] 7.107 2.724 0.04073 2.818 6.753 13.34 1 5000
lambda[33] 0.07554 0.2875 0.004205 8.838E-22 6.443E-5 0.754 1
5000
lambda[34] 0.0789 0.2817 0.003871 8.547E-23 4.837E-5 0.8684 1
5000
lambda[35] 0.07877 0.2864 0.004999 2.178E-22 8.402E-5 0.8483 1
5000
lambda[36] 0.0758 0.2822 0.00392 1.811E-21 7.411E-5 0.7938 1 5000
lambda[37] 0.08195 0.2958 0.003544 7.509E-23 5.694E-5 0.8381 1
5000
lambda[38] 0.0784 0.2692 0.003774 5.428E-22 5.641E-5 0.874 1 5000
lambda[39] 0.08153 0.2897 0.004601 1.758E-22 7.56E-5 0.856 1 5000
lambda[40] 0.07734 0.2704 0.003584 7.124E-22 7.285E-5 0.8078 1
5000
lambda[41] 1.085 1.057 0.01576 0.03266 0.7706 3.914 1 5000
lambda[42] 0.07694 0.2726 0.003719 1.257E-22 5.391E-5 0.8538 1
5000
lambda[43] 0.07124 0.2622 0.003987 1.399E-21 6.008E-5 0.768 1
5000
lambda[44] 0.0782 0.2748 0.003923 2.125E-22 6.923E-5 0.8279 1
5000
lambda[45] 0.08277 0.3061 0.003693 2.017E-22 7.229E-5 0.8465 1
5000
lambda[46] 1.083 1.059 0.01376 0.03416 0.7698 3.913 1 5000
lambda[47] 0.08648 0.3097 0.004438 1.709E-21 9.223E-5 0.9128 1
5000
lambda[48] 3.058 1.759 0.02469 0.612 2.735 7.415 1 5000
lambda[49] 14.01 3.737 0.05099 7.678 13.63 22.24 1 5000
lambda[50] 0.08037 0.2856 0.004087 4.47E-22 7.323E-5 0.8229 1
5000
lambda[51] 1.095 1.029 0.0151 0.03307 0.7896 3.815 1 5000
lambda[52] 1.079 1.039 0.01499 0.03386 0.769 3.926 1 5000
lambda[53] 0.0762 0.2742 0.003709 4.095E-23 8.479E-5 0.8269 1
5000
lambda[54] 0.07597 0.2809 0.00423 3.3E-22 5.897E-5 0.799 1 5000
lambda[55] 4.129 2.077 0.0295 1.074 3.787 9.077 1 5000
lambda[56] 1.093 1.087 0.01427 0.03438 0.7534 4.058 1 5000
lambda[57] 4.114 1.987 0.02958 1.135 3.818 9.022 1 5000
lambda[58] 1.079 1.021 0.01519 0.03359 0.7803 3.775 1 5000
lambda[59] 1.064 1.018 0.01496 0.03462 0.758 3.899 1 5000
lambda[60] 0.08235 0.3011 0.003619 3.601E-23 6.842E-5 0.8848 1

5000
lambda[61] 0.0775 0.2853 0.004069 1.487E-21 7.352E-5 0.7855 1
5000
lambda[62] 0.08216 0.2873 0.003806 5.827E-22 6.571E-5 0.9228 1
5000
lambda[63] 0.08205 0.2959 0.004378 4.16E-23 8.182E-5 0.8801 1
5000
lambda[64] 0.07201 0.2526 0.003375 1.901E-22 4.899E-5 0.7652 1
5000
lambda[65] 1.105 1.051 0.01229 0.03788 0.8012 3.822 1 5000
lambda[66] 0.07128 0.2464 0.003885 3.167E-21 7.952E-5 0.7239 1
5000
lambda[67] 0.0768 0.2689 0.003468 4.271E-22 6.449E-5 0.8381 1
5000
lambda[68] 4.085 2.028 0.03023 1.076 3.718 9.03 1 5000
lambda[69] 1.113 1.055 0.01753 0.0358 0.7935 3.947 1 5000
lambda[70] 0.0768 0.2712 0.004029 1.164E-22 7.004E-5 0.8518 1
5000
lambda[71] 0.07867 0.2861 0.003637 1.911E-22 6.057E-5 0.8364 1
5000
lambda[72] 0.07617 0.2941 0.004111 1.302E-23 6.724E-5 0.818 1
5000
lambda[73] 1.079 1.034 0.01453 0.03872 0.7678 3.835 1 5000
lambda[74] 0.07988 0.2934 0.004182 2.523E-22 6.411E-5 0.7765 1
5000
lambda[75] 0.07835 0.272 0.004159 1.38E-21 5.284E-5 0.8198 1 5000
lambda[76] 0.08152 0.2935 0.004115 7.421E-22 7.738E-5 0.8421 1
5000
lambda[77] 0.0806 0.2857 0.003497 1.009E-21 6.956E-5 0.895 1 5000
lambda[78] 0.07667 0.2949 0.004757 5.751E-22 7.048E-5 0.7752 1
5000
lambda[79] 1.08 1.016 0.0147 0.03593 0.7874 3.828 1 5000
lambda[80] 0.07716 0.2821 0.004974 2.373E-22 4.993E-5 0.8431 1
5000
lambda[81] 1.082 1.041 0.01501 0.03768 0.7619 3.866 1 5000
lambda[82] 1.068 1.025 0.01446 0.0322 0.7748 3.812 1 5000
lambda[83] 0.07511 0.2648 0.003769 5.871E-22 7.259E-5 0.7795 1
5000
lambda[84] 1.089 1.045 0.01522 0.03101 0.771 3.867 1 5000
lambda[85] 9.044 3.032 0.04301 4.149 8.708 15.72 1 5000
lambda[86] 3.049 1.721 0.0224 0.5996 2.763 7.175 1 5000
lambda[87] 6.098 2.486 0.03787 2.229 5.762 11.94 1 5000
lambda[88] 8.075 2.84 0.03865 3.608 7.744 14.52 1 5000
lambda[89] 0.08425 0.2936 0.00355 4.506E-22 7.203E-5 0.9182 1
5000
lambda[90] 3.06 1.73 0.02409 0.6606 2.75 7.187 1 5000

lambda[91] 1.053 1.012 0.01277 0.03698 0.7564 3.758 1 5000
lambda[92] 20.2 4.405 0.06343 12.64 19.9 29.65 1 5000
lambda[93] 1.077 1.067 0.01605 0.03322 0.7641 4.054 1 5000
lambda[94] 4.089 2.067 0.02901 1.143 3.755 9.122 1 5000
lambda[95] 1.065 1.047 0.0138 0.03252 0.759 3.794 1 5000
lambda[96] 0.07711 0.2641 0.004211 2.438E-22 7.472E-5 0.8265 1
5000
lambda[97] 1.048 0.9955 0.01642 0.03126 0.764 3.665 1 5000
lambda[98] 15.15 3.897 0.04886 8.598 14.83 23.71 1 5000
lambda[99] 9.091 3.035 0.03871 4.173 8.744 15.92 1 5000
lambda[100] 3.104 1.747 0.02434 0.674 2.766 7.297 1 5000
lambda[101] 0.07939 0.2735 0.003878 3.799E-22 6.593E-5 0.8455
1 5000
lambda[102] 1.082 1.042 0.01299 0.03363 0.7693 3.912 1 5000
lambda[103] 1.08 1.061 0.01311 0.03771 0.7678 3.807 1 5000
lambda[104] 1.081 1.033 0.01733 0.03428 0.7604 3.915 1 5000
lambda[105] 2.075 1.433 0.01971 0.2586 1.76 5.689 1 5000
lambda[106] 1.061 1.031 0.01384 0.03161 0.7486 3.79 1 5000
lambda[107] 3.081 1.748 0.02439 0.6572 2.761 7.348 1 5000
lambda[108] 3.076 1.729 0.02423 0.6516 2.773 7.313 1 5000
lambda[109] 0.08055 0.2973 0.004679 5.583E-21 5.813E-5 0.8773
1 5000
lambda[110] 4.094 2.042 0.02423 1.113 3.76 8.983 1 5000
lambda[111] 2.078 1.44 0.01807 0.2793 1.756 5.752 1 5000
lambda[112] 2.08 1.458 0.02329 0.2699 1.732 5.815 1 5000
lambda[113] 0.07155 0.2618 0.003964 8.995E-22 6.65E-5 0.7333 1
5000
lambda[114] 92.05 9.575 0.1342 74.13 91.85 111.5 1 5000
lambda[115] 9.089 3.056 0.04152 4.127 8.739 16.05 1 5000
lambda[116] 10.05 3.166 0.04356 4.968 9.713 17.17 1 5000
lambda[117] 23.06 4.823 0.07329 14.8 22.64 33.43 1 5000
lambda[118] 3.013 1.739 0.02421 0.6613 2.714 7.306 1 5000
lambda[119] 14.12 3.772 0.0579 7.755 13.78 22.47 1 5000
lambda[120] 15.99 4.049 0.05373 9.127 15.61 25.05 1 5000
lambda[121] 19.71 4.414 0.05738 12.01 19.46 29.11 1 5000
lambda[122] 21.11 4.552 0.07237 13.1 20.77 30.94 1 5000
lambda[123] 14.06 3.827 0.05345 7.607 13.76 22.55 1 5000
lambda[124] 12.08 3.453 0.05161 6.169 11.81 19.82 1 5000
Capı́tulo 17
Probabilidad Subjetiva:
Fundamentos
17.1. Verosimilitud Relativa

Consideremos un espacio muestral S asociado con con un σ-campo1 de eventos
A, y suponga que deseamos asignar una probabilidad a cada evento en A. Un
concepto fundamental es un evento es al menos tan posible de ocurrir como otro
evento.
Definición 17.1 Cuando dos eventos A y B son comparados podemos decir:
Que A sea más posible de ocurrir que B, denotado por A ≻ B.

Que A sea igualmente posible de ocurrir que B, denotado por A ∼ B.
Que A sea menos posible de ocurrir que B, denotado por A ≺ B.
≺
Que A sea a lo más tan posible de ocurrir como B, denotado por A ∼ B.
≻
Que A sea a lo menos tan posible de ocurrir como B, denotado por A ∼ B.
Ya que la probabilidad de un evento es una medida numérica de la verosimilitud

de que un evento ocurra, cualquier distribución de probabilidad P que se asigne
a los eventos en el σ-campo de eventos A debe tener la propiedad siguiente:
≺
P (A) ≤ P (B) si y solo si A ∼ B. Una distribución P que tiene esta propiedad
≺
se dice que concuerda con la relación ∼.
1 Un σ-campo, o σ-álgebra, es una clase no vacı́a de subconjuntos de S que es cerrada bajo
la formación de uniones contables y el complemento y además contiene el ∅
191
192 CAPÍTULO 17. PROBABILIDAD SUBJETIVA: FUNDAMENTOS
Supuesto 1 Para dos eventos cualesquiera A y B, exactamente una de las

siguientes relaciones debe cumplirse:
A ≻ B,
A ≺ B, ó
A ∼ B.
T
Supuesto 2 Si A1 , A2 , B1 y B2 son cuatro eventos tales que A1 A2 =
T ≺ S ≺ S
B1 B2 = ∅ y Ai ∼ Bi para i = 1, 2, entonces
S A1S A2 ∼ B1 B2 . Si en
adición, A1 ≻ B1 ó A2 ≻ B2 , entonces A1 A2 ≺ B1 B2 .
T T
Resultado 1 Suponga que A, B y D son eventos tales que A D=B D = ∅.
≺ S ≺ S
Entonces A ∼ B si y solo si A D ∼ B D.
≺
Prueba: Suponga que A ∼ B. Entonces el resultado sigue del supuesto 2.
Contrariamente,
S S suponga que A ≻ B. Entonces, de nuevo por el supuesto 2,
A D ≺ B D.
≺ ≺
Teorema 17.1 Si A, B y D son eventos tales que A ∼ B y B ∼ D, entonces
≺
A∼D
S S
Prueba: Es fácil ver que A B D se puede expresar como
\ \ [ \ \ [ \ \ [ \ \
A B D A BC DC AC B DC AC BC D
S T T S T T S T T
A B DC A BC D AC B D
≺
Ya que A ∼ B, sigue del Resultado 1 que
\ \ [ \ \ ≺ \ \ [ \ \
A BC DC A BC D ∼ AC B DC AC B D
≺
Similarmente, ya que B ∼ D, sigue del Resultado 1 que
\ \ [ \ \ \ \ [ \ \
≺
A B DC AC B DC ∼ A B C D AC BC D .
Ya que los lados izquierdos de las dos últimas expresiones son disjuntas y los
lados derechos también son disjuntos, se sigue del supuesto 2 que
\ \ [ \ \ [ \ \ [ \ \
≺
A BC DC A BC D A B DC AC B DC ∼
\ \ [ \ \ [ \ \ [ \ \
AC B DC AC B D A BC D AC BC D
17.2. EL EXPERIMENTO AUXILIAR 193
T T S C T C T
Si el evento común A B C D A B D es eliminado de ambos
lados de esta relación, se sigue del resultado 1 que
\ \ [ \ \ \ \ [ \ \
≺
A BC DC A B DC ∼ AC B D AC BC D
≺
De donde A ∼ D.
≺
Del teorema anterior y del supuesto 1 vemos que la relación ∼ produce una
ordenación completa de los eventos en A.
Teorema 17.2 Si A1 , · · · , An son n eventos disjuntos y B1 , · · · , Bn también son

≺ Sn ≺
Sneventos disjuntos tales que Ai ∼ Bi , para i = 1, · · · , n, entonces Si=1
n
n
Ai ∼
Sni=1 Bi . Si en adición Ai ≺ Bi , para algún i = 1, · · · , n, entonces i=1 Ai ≺
i=1 Bi .
≺ ≻
Teorema 17.3 Para cualquier par de eventos A y B, A ∼ B si y solo si AC ∼
BC
≺ ≺
Supuesto 3 Si A es cualquier evento, entonces ∅ ∼ A. Además, ∅ ∼ S.
≺
Teorema 17.4 Si A y B son eventos tales que A ⊂ B, entonces A ∼ B. En
≺ ≺
particular, si A es un evento cualquiera, entonces ∅ ∼ A ∼ S.
Supuesto 4 Si A1 ⊃ A2 ⊃ · · · es una sucesión decreciente de eventos y B es

≻ T∞ ≻
algún evento fijo tal que Ai ∼ B para i = 1, 2, · · ·, entonces i=1 Ai ∼ B
Teorema 17.5 Si A1 ⊂ A2 ⊂ · · · es una sucesión creciente de eventos y B es

≺ S∞ ≺
algún evento fijo tal que Ai ∼ B para i = 1, 2, · · ·, entonces i=1 Ai ∼ B
Teorema 17.6 Si A1 , A2 , · · · es una sucesión de eventos infinita y B1 , B2 , · · ·

≺
es otra sucesión de eventos infinita tal que Ai ∼ B para i = 1, 2, · · ·, entonces
S∞ ≺ S∞
S∞i=1 Ai ∼ S i=1 Bi . Si en adición, Ai ≺ B para algún i = 1, 2, · · ·, entonces
∞
i=1 Ai ≺ i=1 Bi .
17.2. El Experimento Auxiliar

Asumimos que existe una clase B de eventos que tienen las siguientes dos
propiedades:
a) Cada evento en la clase B tiene una probabilidad conocida, y
b) para cualquier número p (0 ≤ p ≤ 1), existe un evento B ∈ B cuya
probabilidad es p.
Si es estadı́stico está interesado en asignar una probabilidad a un evento A en
el cual está interesado, simplemente busca un evento B ∈ B tal que A ∼ B y le
asigna a A la misma probabilidad que a B.
194 CAPÍTULO 17. PROBABILIDAD SUBJETIVA: FUNDAMENTOS
Capı́tulo 18
Referencias
Albert, J. (1997) MATLAB as an Enviroment for Bayesian Compu-

tation. Dept. of Math. and Statistics. Bowling Green State Univer-
sity
Albert, J. y Chib, S, (1994) Bayesian Residual Analysis for Binary

Response Regression Models. Dept. of Math. and Statistics. Bowling
Green State University
Berger, J. O. (1999) Bayesian Analysis: A Look at Today and Thoughts

of Tomorrow. Technical Report, Duke University.
Berger, J. O., Liseo, B. y Wolpert, R. L. (1998) Integrated Likelihood

Methods for Eliminating Nuisance Parameters. Purdue Univ. Dept.
of Statistics Technical Report No. 96-7C Revised 1998.
Bracken, J. (1966) Percentage Points of the Beta Distribution for the

Use in Bayesian Analysis of Bernoulli Processes. Technometrics, Vol.
8, No. 4, pp. 687-694
Brooks, S. P., Catchpole, E. A. y Morgan, B. J. T. (199*) Bayesian

Animal Survival Estimation. School of Mathematics, University of
Bristol.
Casella, G. (1985) An Introduction to Empirical Bayes Data Anal-

ysis. The American Statistician, Vol. 39, No. 2, pp. 83-87
Casella, G. y George, E. I. (1992) Explaining the Gibbs Sampler.

The American Statistician, Vol. 46, No.3, pp. 167-174
Casella, G., Lavine, M. y Robert, C. P. (2001) Explaining the Perfect

Sampler. The American Statistician, Vol. 55, No.4, pp. 299-305
195
196 CAPÍTULO 18. REFERENCIAS
D’Agostini, G. (2000) Role and Meaning of Subjective Probabili-

ty: Some Comments on Common Misconceptions. XX International
Workshop on Bayesian Inference and Maximum Entropy Methods
in Science and Engineering, Gif sur Yvette, Francia.
Dawid, A. P. (2004) Probability, Causality and the Empirical World:

A Bayes-de Finetti-Popper-Borel Sythesis. Statistical Science, Vol.
19, No. 1, pp. 44-57
DeGroot, M. H. (1970) Optimal Statistical Decisions. McGraw Hill,

In.: New York
De Santis, F. y Spezzaferri, F. (1999) Methods for Default and robust

Bayesian Model Comparison: the Fractional Bayes Factor Approach.
International Statistical Review, Vol. 67, No. 3, pp. 267-286
Dellaportas, P. y Smith, A. F. M. (1993) Bayesian Inference for Gen-

eralized Linear and Proportional Hazards Models via Gibbs Sam-
pling. Applied Statistics, Vol. 42, No. 3, pp. 443-459
Dimakos, X. K. (2001) A Guide to Exact Simulation. International

Statistical Review, Vol. 69, No. 1, pp. 27-48
Draper, D. (2000) Bayesian Hierarchical Modeling. Tutorial 1: ISBA

2000, Crete.
DuMouchel, W. y Waternaux, C. (1995) Hierarchical Bayesian Lin-

ear Models Assessing the Effect of Extreme Cold Weather on Schizophrenic
Births. Bayesian Biostatistics (D. Berry y D. Stangl, Eds.) Marcel
Dekker: New York
Elfessi, A. y Reineke, D. M. (2001) A Bayesian Look at Classical

Estimation: The Exponential Distribution. Journal of Statistics Ed-
ucation, Vol. 9, No. 1
Green, P. (1998) Tutorial Lectures on Markov Chain Monte Carlo.

WRASS Tutorial and Workshop, Warwick.
Greenland, S. (2001) Putting Background Information About Rela-

tive Risks into Conjugate Prior Distributions. Biometrics, Vol. 57,
No. 3, pp. 663-670
Gupta, P. L., Gupta, R. C. y Tripathi, R. C. (1996) Analysis of Zero-

Adjusted Count Data. Computational Statistics & Data Analysis,
Vol. 23, pp. 207-218
Gustafson, P. y Walker, L. J. (200*) An Estension of the Dirichlet

Prior for the Analysis of Longitudinal Multinomial Data. Technical
Report, Dept. of Statistics, University of British Columbia
197
Harrel Jr., F. E. (1998) An Introduction to Bayesian Methods with

Clinical Applications. Dept. of Health Evaluation Sciences. School
of Medicine, University of Virginia, Charlottesville.
Harrel Jr., F. E. (2000) Practical Bayesian Data Analysis from a

Former Frequentist. Henry Stewart Conference Studies
Hoadley, B. (1970) A Bayesian Look at Inverse Linear Regression.

Journal of the American Statistical Association, Vol. 65, No. 329,
pp. 356-369
Horowitz, I. 81968) Introducción al Análisis Cuantitativo de los Ne-

gocios. Ediciones del Castillo: Madrid
Ishwaran, H. (1997) Applications of Hybrid Monte Carlo to Bayesian

Generalized Linear Models: Quasicomplete Separation and Neural
Networks. Dept. of Biostatistics and Epidemiology, The Cleveland
Clinic Foundation
Jackman, S. (199*) Bayesian Modelin in the Social Sciences: an In-

troduction to Markov-Chain Monte Carlo. Technical Report, Dept.
of Political Science, Stanford University.
Jaynes, E. T. (1996) Probability Theory: The Logic of Science. Edi-

ción fragmentaria.
Jefferys, W. H. y Berger, J. O. (1992) Ockham’s Razor and Bayesian

Analysis. American Scientist, Vol. 80, pp. 64-72
Joseph, L., du Berger, R. y Bélisle, P. (1999) Bayesian and Mixed

Bayesian/Likelihood Criteria for Sample Size Determination. Tech.
Report, Dept. of Epidemiology and Biostatistics, McGill University
Kass, R. E. y Wasserman, L. (1994) Formal Rules for Selecting Pri-

or Distributions: A Review and Annotated Bibliography. Reporte
Técnico. Carnegie Mellon University.
King, R. y Brooks, S. P. (2000) Prior Induction in Log-Linear Mod-

els for General Contingency Table Analysis. Statistical Laborato-
ry,CMS, University of Cambridge.
Koop, G. (1999) Review of: Bayesian Analysis, Computation and

Communication Software. Techinical Report, Dept. of Economics,
University of Edinburgh.
Loredo, T. (199*) Bayesian Inference: A Practical Primer.Dept. of

Astronomy,Cornell University
Martz, H. F. y Waller, R. A. (1982) Bayesian Reliability Analysis.

Wiley: New York
Miller, R. B. (1980) Bayesian Analysis of the Two-Parameter Gam-

ma Distribution. Technometrics, Vol. 22, No. 1, pp. 65-69
Miller, R. W. (1989) Parametric Empirical Bayes Tolerance Inter-

vals. Technometrics, Vol. 31, No. 4, pp. 449-459
Oakley, J. y O’Hagan, A. (2002) Uncertainty in Prior Elicitations.

Department of Probability and Statistics, University of Sheffield.
Raftery, A. E. (1994) Bayesian Model Selection in Social Research

(with Discussion by Andrew Gelman & Donald B. Rubin, and Robert
M. Hauser, and a Rejoinder). Technical Report, Dept. of Sociology,
Universityof Washington
Raftery, A. E. y Lewis, S. (1991) How Many Iterations in the Gibbs

Sampler? Technical Report, Dept. of Statistics, University of Wash-
ington
Raiffa, H. (1970). Decision Analysis: Introductory Lectures on Choice

Under Uncertainty. Addison-Wesley: Reading, Masschusetts
Ramoni, M. y Sebastiani, P. (1998) Bayesian Methods for Intelligent

Data Analysis. KMi Technical Report KMi-TR-67
Ritter, C. y Tanner, M. (1991) The Griddy Gibbs Sampler. Reporte

Técnico No. 878, Departament of Statistics, University of Wisconsin
Rossman, A. J., Short, T. H. y Parks, M. T. (1998) Bayes Esti-

mators for Continuous Uniform Distribution. Journal of Statistics
Education, Vol. 6, No. 3
Sahu, S. K. (2000) Bayesian Statistics. Lecture Notes, Faculty of

Mathematical Studies, University of Southhampton.
Smith, R. (1997) Predictive Inference, Rare Events and Hierarchical

Models. Technical Report, Dept. of. Statistics, University of North
Carolina, Chapel Hill
Smith, R. L. (1998) Bayesian and Frequentist Approaches to Para-

metric Predictive Inference. Bayesian Statistics, Vol. 6
Stangl, D. K. (2001) A Primer On Hierarchical Models. Stats, 32

Fall, pp. 3-9
Tebaldi, C. y West, M. (1998) Reconstruction of Contingency Tables

With Missing Data. ISDS, Duke University
Troendle, J. F. y Frank, J. (2001) Unbiased Confidence Intervals for

the Odds Ratio of Two Independent Binomial Samples with Appli-
cation to Case-Control Data. Biometrics, Vol. 57, No. 2, pp. 484-489
199
Varbanov, A. (1996) Bayesian Approach to Outlier Detection in Mul-

tivariate Normal Samples and Linear Models. Technical Report No.
614, School of Statistics, University of Minnesota
Winkler, R. L. (1967a) The Assessment of Prior Distributions in
Bayesian Analysis. Journal of the American Statistical Association,
Vol. 62, No. 319, pp. 776-800
Winkler, R. L. (1967b) The Quantification of Judgement: Some
Methodological Suggestions. Journal of the American Statistical As-
sociation, Vol. 62, No. 320, pp. 1105-1120
Yang, R. y Berger, J. O. (1998) A Catalog of Noninformative Priors.
Technical Report, Duke University.
Bromaghin, J.F. (1993) Sample Size Determination for Interval Es-
timation of Multinomial Probabilities. The American Statistician,
Vol. 47, No. 3, pp. 203-206
Johnson, N.L. y Kotz, S. (1969) Discrete Distributions. John Wiley
& Sons: New York
Jovanovic, B.D. y Levy, P.S. (1997) A Look at the Rule of Three.
The American Statistician. Vol. 51, No. 2, pp. 137-139
May, W.L. y Johnson, W.D. (2000) Constructing Two-Sided Simul-
taneous Confidence Intervals for Multinomial Proportions for Small
Counts in a Large Number of Cells. Journal of Statistical Software,
Vol. 5
Sison, C.P. y Glaz, J. (1995) Simultaneous Confidence Intervals and
sample Size Determination for Multinomial Proportions. Journal of
the American Statistical Association, Vol. 90, No. 429, pp. 366-369
Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol. 2.
Segunda edición. Springer-Verlag: New York
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approximate
Interval Estimators for the Binomial Parameter. The American Statis-
tician. Vol. 50, No. 1, pp. 63-68
Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the Ap-
proximation of the Binomial Distribution by the Normal Distribu-
tion. The American Statistician. Vol. 43, No. 1, pp. 23-24
Wardell, D.G. (1997) Small-Sample Interval Estimation of Bernoulli
and Poisson Parameters. The American Statistician. Vol. 51, No. 4,
pp. 321-325
Canavos, G. (1988).Probabilidad y Estadı́stica: Aplicaciones y Méto-
dos. McGraw Hill: Madrid
Hogg, R.V. y Craig, A.T. (1978). Introduction to Mathematical Statis-

tics. Cuarta Edición. Collier MacMillan International:New York
Kalbfleish, J.G. (1985). Probability and Statistical Inference. Vol. 2.

Segunda edición. Springer-Verlag: New York
Larson, H.J. (1983). Introducción a la Teorı́a de Probabilidades e

Inferencia Estadı́stica. Editorial Limusa: México
Leemis, L.M. y Trivedi, K.S. (1996) A Comparison of Approximate
Interval Estimators for the Binomial Parameter. The American Statis-
tician. Vol. 50, No. 1, pp. 63-68
Meyer, P.L. (1986). Probabilidad y aplicaciones estadı́sticas. Segunda

Edición. Addison Wesley Iberoamericana: México.
Mood , A.M, Graybill, F.A. y Boes, D.C. (1974). Introduction to the

Theory of Statistics. Third Edition. McGraw-Hill Kogasakua, Ltd:
Tokyo.
Roussas, G.G. (1973). A First Course in Mathematical Statistics.

Addison-Wesley Publishing Company: Reading, Massachusetts
Schader, M. y Schmid, F. (1989). Two Rules of Thumb for the Ap-

proximation of the Binomial Distribution by the Normal Distribu-
tion. The American Statistician. Vol. 43, No. 1, pp. 23-24
Snedecor, G.W. y Cochran, W.G. (1980). Statistical Methods. Sépti-

ma Edición. The Iowa State University Press:Ames
Walpole, R.E. y Myers, R.H. (1992). Probabilidad y Estadı́stica.

Cuarta Edición. MaGraw Hill: México
Wardell, D.G. (1997) Small-Sample Interval Estimation of Bernoulli

and Poisson Parameters. The American Statistician. Vol. 51, No. 4,
pp. 321-325
Wonnacott, T.H. y Wonnacott, R.J. (1979). Fundamentos de Es-

tadı́stica para Administración y Economı́a. Editorial Limusa: México

Bayesilibro

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Bayesilibro

Загружено:

Авторское право:

Доступные форматы

ii

Juan Carlos Correa Morales

Estas notas presentan una introducción a la estadı́stica bayesiana. Este es un

2. Probabilidad Subjetiva “Apriori” 9

4.8. Distribución Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 32

10.Modelo Lineal Generalizado 101

11.Estadı́stica Bayesiana Empı́rica 113

12.Análisis Multivariable 115

13.Datos Categóricos 117

14.Métodos Computacionales 125

15.Modelos Jerárquicos 165

17.Probabilidad Subjetiva: Fundamentos 183

La escuela bayesiana en estadı́stica ha tomado fuerza en los últimos años

Nadie niega que ante un problema debemos utilizar toda la información

El paradigma bayesiano es un medio natural de implementar el método

Si la incertidumbre acerca de los modelos es expresada utilizando proba-

Las afirmaciones inferenciales bayesianas son más fáciles de entender que

Por el principio de condicionalidad, los únicos datos relevantes para eje-

Ejemplo 1.2 Estatura de los colombianos. Si pensamos en la estatura

Ejemplo 1.3 La nota esperada. A un estudiante que acaba de presentar

Ejemplo 1.4 Sobre una proporción. Ya que estamos familiarizados con

La aproximación bayesiana es una herramienta fundamental en situaciones

tópicos de alta sensibilidad social o extremadamente costosa o imposible, como

Ejemplo 1.5 Porcentaje de estudiantes que consumen una droga. Si

Ejemplo 1.6 Tasa de estudiantes que ejercen la prostitución. Si quer-

Las ideas iniciales de la probabilidad surgieron relacionadas con los juegos

Estudios previos similares. La utilización de estudios previos sobre unos

Opinión de expertos. La utilización de expertos es casi obligatoria en situa-

1.1. Aproximaciones al análisis bayesiano

1. Análisis bayesiano objetivo: Esta posición se caracteriza por la utilización

2. Análisis bayesiano subjetivo: La utilización de distribuciones apriori sub-

3. Análisis bayesiano robusto: Esta posición asume que es imposible especi-

4. Análisis bayesiano-frecuentista: Hay problemas en los cuales la aproxi-

5. Análisis cuasibayesiano: Esta aproximación utiliza distribuciones apriori

1.2. Problemas con la aproximación clásica

Un experimento proporciona los elementos para una posibilidad de

• Se pueden obtener conclusiones inconsistentes de manera lógi-

Los intervalos de confianza son a menudo malinterpretados

Diferencias entre la teorı́a clásica

Utilizaremos la siguiente notación:

θ ′ = (θ1 , · · · , θk ) Vector de parámetros

El trabajo estadı́stico descansa en el concepto de probabilidad. La definición

2.1. Probabilidad Personal

“La probabilidad no es sino un número ı́ndice entre 0 y 1, que

2.2. Probabilidad Subjetiva y Apuestas

La anterior también obliga a aceptar la segunda condición: una vez él ha

2.3. Clasificación de las Distribuciones Apriori

2.4. Distribuciones Apriori No Informativas

2.5. Distribuciones Apriori Informativas

Qué clase de distribución apriori debemos utilizar?

Qué tipos de datos están disponibles para seleccionar el modelo apriori?

Cómo cuantificificamos la información subjetiva?

Cómo ajustamos la distribución apriori con los datos subjetivos disponibles?

deben ser resueltas sin lugar a dudas.

2.6. Elicitación de Probabilidades Subjetivas

1. La asignación debe obedecer ciertos postulados de coherencia, y

2. las asignaciones deben corresponder a los juicios de la persona.

Es fácil chequear el primer punto, pero en el segundo una probabilidad asig-

2.6.1. Supuestos de Coherencia

1. Ella nunca viola el supuesto de coherencia.

2. Ella entiende perfectamente los métodos utilizados para la asignación de

2.7. Formas de Elicitación

CDF (Función de Distribución Acumulada)