Академический Документы
Профессиональный Документы
Культура Документы
alisis de Decisi
on, Inferencia y
Predicci
on Estadstica Bayesiana
Por
Luis Raul Pericchi Guerra
Complementos:
Ana Judith Mata
An
alisis de Decisi
on, Inferencia y
y Predicci
on Estadstica Bayesiana
Luis Ra
ul Pericchi Guerra
Centro de Estadstica y Software Matematico (CESMa)
y Dpto. de Computo Cientfico y Estadstica
Universidad Simon Bolvar
Caracas, Venezuela
Complementos:
Ana Judith Mata
Universidad Simon Bolvar
AGRADECIMIENTOS
Este libro tiene como antecedente sucesivas monografas, las cuales
fueron textos de cursos que dicte en los siguientes eventos cientficos:
II Escuela Venezolana de Matematicas, en la Universidad de Los
Andes, Merida, Septiembre 1989.
IV Congreso Latinoamericano de Probabilidad y Estadstica Matematica, CLAPEM, en Ciudad de Mexico, Mexico, Septiembre
1990.
Curso-Seminario de las Americas en Estadstica Bayesiana y Econometra, en la Universidad Simon Bolvar, Caracas, Venezuela,
Diciembre 1992.
Agradezco a los respectivos Comites organizadores de dichos congresos sus invitaciones. Mencion especial merece Francisco Aranda-Ordaz,
miembro fundamental del Comite organizador del IV CLAPEM, con
quien compart trabajo y juerga. Francisco murio, demasiado pronto
y por error, tragica y absurdamente, pero en medio de su familia y
su pas, pocos meses depues de finalizar el IV CLAPEM en Ciudad
de Mexico. Ello ha sido una perdida irreparable para el avance de la
Ciencia y la practica de la Estadstica en Latinoamerica, y para sus
amigos.
La presente version es una drastica revision de las monografas anteriores. Le debo al Profesor Victor Perez-Abreu, Presidente de la
Sociedad Bernoulli Latinoamericana, y al Profesor Victor Yohai, Presidente del Comite de Publicaciones de dicha Sociedad, el estmulo para
realizar esta revision.
Durante los a
nos en los que este proyecto en los que este proyecto se
ha ido realizado mi grupo de trabajo, en la Universidad Simon Bolvar,
ha crecido y se ha desarrollado. Comenzo por el Taller de Estadstica,
TAE como grupo de trabajo dentro del Departamento de Matematicas
Puras y Aplicadas. Se ha convertido en el Centro de Estadstica y
4
Software Matematico, CESMa, con miembros de tres departamentos
de la USB, principalmente del Departamento de Computo Cientfico y
Estadstica, creado en 1996. A mis compa
neros del CESMa les debo
su paciencia, apoyo y cordialidad. Especialmente deseo mencionar a
los profesores: Marialena Lentini, Isabel Llatas, Bruno Sanso, Mara
Eglee Perez, Lelys Bravo, Jose Miguel Perez, Raquel Prado, Jose Luis
Palacios y Ra
ul Jimenez.
No puedo dejar de mencionar varios cienctficos de categora internacional como Ignacio Rodriguez-Iturbe, Anthony Atkinson, Carlos Alberto de Braganza Pereira, Adrian Smith, Phil Browm, William
Nazaret, Peter Walley, Elas Moreno y Jim Berger, que a lo largo de
estos a
nos me han ofrecido su colaboracion, sabidura y amistad.
Finalmente, le hago un reconocimiento muy especial a la Licenciada
Ana Judith Mata. Mas que una ayudante ha sido una colaboradora y
este libro le debe mucho de lo bueno que pueda tener (el resto es obra
ma). Si no hubiera sido por su incansable insistencia y persecucion,
ademas de sus destrezas estadsticas y computacionales, este libro no
habra sido terminado.
PREFACIO
Este libro presenta las ideas basicas y algunos desarrollos recientes
de la Teora y Analisis de Decision y de la Inferencia Bayesiana. Ambas
teoras estan profundamente relacionadas, como se vera a lo largo del
desarrollo.
El libro comienza presentando el enfoque clasico a la Teora de Decision, de inspiracion frecuentista, basada en la funcion de riesgo muestral. La funcion de riesgo por s sola no es capaz de seleccionar la
decision optima aunque s de desechar una buena parte de ellas, las
decisiones llamadas inadmisibles.
Se presentan tres enfoques alternativos para ser acoplados a la
funcion de riesgo y de esta manera encontrar un curso de accion. Estos
enfoques son: i)La restriccion del espacio de decisiones, ii)Minimax y
iii)Bayes. Le damos mas enfasis a los u
ltimos, los llamados criterios
globales. Se concluye luego de compararlos, que es el enfoque Bayesiano
el mas satisfactorio y racional, a
un cuando requiere de una buena dosis
de actitud crtica y de analisis de sensitividad respecto a los supuestos.
En el curso de la presentacion, se presenta tambien un argumento
Bayesiano mas directo: el enfoque condicional al dato observado basado
en la minimizacion de la perdida posterior esperada. Este enfoque no
utiliza la funcion de riesgo frecuentista. Al final las decisiones optimas
Bayesianas van a ser las mismas sin importar que va se siga, pero esta
u
ltima resulta en una simplificacion substancial.
La discusion general se lleva los dos primeros captulos, siendo el
segundo el mas complejo matematicamente. El resto del libro se dedica
enteramente al enfoque Bayesiano. En el captulo 3 se presenta otra
manera de llegar al principio Bayesiano: La Teora de la Utilidad, que es
una axiomatizacion de la decision estadstica. Tambien en este captulo
se muestra que Bayes obedece a los principios basicos: Principio de la
verosimilitud y el de la precision final.
Los problemas de inferencia estadstica pueden ser presentados como
problemas de decision. Esto se hace en los u
ltimos captulos, donde
6
se intenta una introduccion a la inferencia Bayesiana actual, tratando
temas como: modelos jerarquicos, modelos lineales dinamicos, metodos
de simulacion para el caculo de densidades posteriores y aproximaciones, metodos Bayesianos robustos y metodos no subjetivos para la
seleccion de modelos y test de hipotesis.
Este libro puede ser u
til a diferentes niveles, tanto como un curso
avanzado de pregrado como de postgrado. La formacion requerida es
la de caculo basico e intermedio, as como al menos un curso basico
de probabilidades y estadstica. Por ello puede ser presentado a estudiantes de matematicas, estadstica, ciencias actuariales, ingeniera,
economa y areas afines. Tambien puede ser estudiado con diferentes
enfasis. Un curso mas centrado en la Teora de la Decision se concentrara en el captulo 2. Mientras un curso interesado en la inferencia
Bayesiana, enfatizara los u
ltimos captulos.
Espero que esta presentacion de la Teora de Decision y en particular de la inferencia Bayesiana, que es, desde mi punto de vista, uno de
los enfoques de desarrollos tanto teoricos como aplicados, mas espectaculares en tiempos recientes, sea de utilidad para las Ediciones de la
Sociedad Bernoulli Latioamericana.
Luis Ra
ul Pericchi Guerra
Centro de Estadstica y Software Matematico (CESMa)
Universidad Simon Bolvar
Caracas, Enero 1998.
Contenido
1 Elementos del Problema de Decisi
on Estadstica
9
1.1 Elementos de un Problema de decision Estadstica . . . . 9
1.2 El Problema de Decision como un Juego entre el TD y
la Naturaleza . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Teora Cl
asica de Decisi
on
2.1 Introduccion. . . . . . . . . . . . . . . . .
2.2 Conceptos Basicos de la Teora de Decision
2.3 Decisiones Optimas . . . . . . . . . . . . .
2.4 Representacion Geometrica de las Reglas
Minimax para finito. . . . . . . . . . . .
2.5 Admisibilidad y Reglas de Bayes . . . . . .
2.6 Admisibilidad y Reglas Minimax . . . . .
2.7 Ejercicios . . . . . . . . . . . . . . . . . .
17
. . . . . . . . 18
Clasica . . . 18
. . . . . . . . 27
de Bayes y
. . . . . . . . 46
. . . . . . . . 51
. . . . . . . . 58
. . . . . . . . 66
71
. 72
. 74
. 82
. 86
4 An
alisis Bayesiano
89
4.1 Test de Hipotesis . . . . . . . . . . . . . . . . . . . . . . 89
4.2 Operaciones con la Distribucion a Posteriori y sus propiedades 98
4.2.1 Intervalos de Credibilidad (Probabilidad) . . . . . 98
4.2.2 Densidades Marginales y Parametros de Molestia 99
7
CONTENIDO
4.3
4.4
4.5
4.6
5 An
alisis Bayesiano del Modelo Lineal
5.1 Previas No-Informativas . . . . . . . . . . . . .
5.2 Analisis No-Informativo del Modelo Lineal . . .
5.3 Modelo Lineal Jerarquico . . . . . . . . . . . . . .
5.3.1 Modelo Lineal Normal Jerarquico (MLNJ)
5.4 El Modelo Lineal Dinamico . . . . . . . . . . . .
5.4.1 El Modelo constante . . . . . . . . . . . .
5.4.2 Caso Varianza desconocida . . . . . . . . .
5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Selecci
on de Modelos y Test de Hip
otesis Bayesianos
6.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . .
6.2 El Factor de Bayes Intrnseco . . . . . . . . . . . . . .
6.3 El IBF Esperado . . . . . . . . . . . . . . . . . . . . .
6.4 Previas Intrnsecas . . . . . . . . . . . . . . . . . . . .
6.5 El IBF para el Modelo Lineal Normal . . . . . . . . .
A Distribuciones de probabilidades
.
.
.
.
.
.
.
.
123
124
126
128
130
138
140
144
145
147
. 147
. 152
. 157
. 159
. 163
169
Captulo 1
Elementos del Problema de
Decisi
on Estadstica
Enfrentaremos el siguiente problema : suponemos que un Tomador de
decisiones (TD) se propone tomar una decision racional bajo condiciones de incertidumbre estadstica. Es decir, el estado de la naturaleza no le es conocido exactamente, pero puede adquirir informacion
sobre el a partir de un experimento. Ademas, el TD tiene valores, o sea
si supiera la condicion exacta de la naturaleza sera capaz de ordenar
sus posibles decisiones en terminos de sus preferencias.
1.1
Los elementos de un problema de Decision Estadstica a ser especificados por el TD para cada problema son los siguientes :
1. Espacio de posibles acciones : A = {a}
2. Espacio de estados posibles de la naturaleza o espacio de
par
ametros: = {}.
3. Familia de experimentos para adquirir informaci
on experimental (o muestral) sobre : E = {e}.
9
10
ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION
ESTADSTICA
1.1. ELEMENTOS DE UN PROBLEMA DE DECISION
11
p,X (, x | e) : X R + .
Antes de discutir maneras alternativas de evaluar la densidad conjunta, recordemos el Teorema de Bayes. Supongamos : R d un
conjuto de Borel, es una medida de probabilidad (llamada a priori
o previa) en R d , con () = 1, el vector de observaciones x R n tiene
una densidad pX| (x | ) con respecto a una medida -finita la cual
no depende de , PX| es conjuntamente medible en (X, ). Entonces
para cada conjunto B, -medible, la siguiente formula (de Bayes) define una medida regular de probabilidad condicional para dado X, y
puede justificarse bajo condiciones bastante generales (ver por ejemplo
Walley 1989) :
R
p(x | )d()
=
P (B | x) = R
p(x | )d()
B
p(x | )d()
,
m(x)
(1.1)
pX| (x | )()
.
m(x)
(1.2)
12
ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION
(1.3)
1.2
El Problema de Decisi
on como un Juego
entre el TD y la Naturaleza
a1
e1
eE
e3
2e3
s
a2
x1
x X
3
x2
x3
R4
a3
a*
4-
2 -
a5
aA
u(e2 , x3 , a4 , 2 )
3
R
1 : Hay petroleo.
2 : No hay petroleo
a1 : Perforar
a2 : Vender el campo a otra operadora
La presencia o ausencia de petroleo afecta la probabilidad de la presencia o ausencia de la formacion geologica de acuerdo con la siguiente
funcion de verosimilitud:
p(x | i ):
\x 0
1
1 0.2 0.8
2 0.7 0.3
(i ): 1
2
()
0.6
0.4
Finalmente el TD eval
ua su utilidad (o perdida) monetaria o no, de
las diferentes acciones frente a los posibles estados de la naturaleza. Si
no se realiza el experimento geologico, la perdida (en miles de $) viene
14
ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION
1
a1
2
a2
x=1
Experimento
x=0
a1
2
a2
a1
a2
2
1
1
2
-5000+C
2000+C
C
-500+C
-5000+C
2000+C
C
-500+C
-5000
2000
1
2
0
-500
16
ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION
Captulo 2
Teora Cl
asica de Decisi
on
La teora de decisiones bajo incertidumbre tiene su desarrollo original durante la II Guerra Mundial. El texto clasico donde se expone
partiendo de un punto de vista frecuentista (es decir basado en la
frecuencia relativa de las observaciones X de experimentos similares
condicionados en ) es Wald (1950). A partir de all ha tenido un vigoroso desarrollo que iremos mencionando. En este captulo nos basaremos primordialmente en Ferguson(1967) as como en Lehmann(1983),
Berger(1985), Brown(1984), Pericchi(1986) y Walley(1987).
Un punto de vista alternativo al frecuentista, pero con muchos puntos de contacto con el, es el Bayesiano o subjetivo, expuesto en
Savage(1954), DeGroot(1970), Lindley(1971) y Berger(1985), donde el
conocimiento a priori del experimento juega un papel mas prominente.
Le dedicaremos al enfoque subjetivo los captulos finales de este libro
a
un cuando conceptos subjetivos apareceran en forma natural a todo
lo largo del mismo.
Supondremos todo el tiempo que el TD es un individuo, o un grupo
que act
ua como individuo. Esto no necesariamente es as en la practica.
Un area apasionante de investigacion es Teora de Decision de Grupos
que no tocaremos aqu.
17
18
2.1
Introducci
on.
2.2
Conceptos B
asicos de la Teora de Decisi
on Cl
asica
CLASICA
19
(2.1)
u(e, x, a, )dP ( | x)
dP ( | x)
El lector debe percatarse de que P|X y PX| son dos entidades completamente distintas y no debe confundirse por el hecho de que en ambas
se utilice la may
uscula P . Note que por ejemplo P|X (A) = E|X [1A ()],
donde
1A () =
1 si A
0 si 6 A
Definici
on 2.1 Cualquier funcion d(x) : X A es llamada una regla
de decision no aleatoria o determinada.
20
L(d(x), )dP (x | )
(2.2)
Comentarios
1. Usualmente nos restringimos a aquellas reglas de decision para
las cuales R(, d) existe y es finito . Denotamos a esta
clase de decisiones no aleatorias de riesgo finito por D.
2. R(, d) representa la perdida promedio (en X) del TD cuando
emplea la regla de decision d(x) y el estado de la naturaleza es .
El TD quisiera encontrar un d0 tal que el riesgo fuese mnimo.
3. El average o promedio (2.2) se toma con respecto a la frecuencia de los posibles valores de X. Por consiguiente R(, d) no es
funcion de X pero s de , la cual no es observable antes de la decision. (Paradojicamente, a pesar de que X es observable se toma
el promedio en esta variable). Por esta razon R(, d) aisladamente no sirve para ordenar completamente las reglas de decision
de mejor a peor, aunque servira para excluir decisiones absurdas
que llamaremos inadmisibles. Para ordenar racionalmente las decisiones optimas necesitaremos un extra-principio que nos diga
como ordenar completamente R(, d), ya que es desconocido.
21
CLASICA
d1
a1
a1
d2
a1
a2
d3
a2
a1
d4
a2
a2
R(2 , d)
d1
2000
d5
d2
1000
d3
-5000
-4000
-3000
-2000
-1000
d6
d4
1000
R(1 , d)
-1000
22
CLASICA
23
vs
H1 : c0
c0
L0
0
0
0
L1
R(, d) =
24
Es ademas muy tratable matematicamente. Es sin embargo algo arbitraria, (por que no | d(x) |?), no acotada y crece quizas demasiado
rapido cuando d(x) se aleja de . El riesgo en este caso se denomina
error cuadratico medio y puede escribirse como:
cEX|
2
c EX| (d(x))
+ cEX|
h
2
tenemos:
EX| (d(x)) = sesgo(d(x), )
n
(2.4)
CLASICA
25
26
Continuaci
on Ejemplo 2.1. En la figura 2.1, S sera el conjunto convexo que tiene a las decisiones determinadas d1 , . . . , d6 como vertices.3
Entonces los vertices de S corresponden a decisiones determinadas.
(Pero es posible que una decision determinada caiga en el interior de
S). Procedemos ahora a ordenar parcialmente las decisiones D de
acuerdo al riesgo frecuentista.
Definici
on 2.5 Sean 1 y 2 D. Diremos que 1 es R-mejor que 2
si:
1. R(, 1 ) R(, 2 ), .
2. R(0 , 1 ) < R(0 , 2 ), para alg
un 0 .
1 D es admisible si no existe D que sea R-mejor que 1 .
Decimos que 1 D es inadmisible si no es admisible, es decir, si existe
D que sea R-mejor que 1 . Si , A y X son finitos como en el
ejemplo 2.1, entonces D es finito y S es un poliedro, que es el casco
convexo de un n
umero finito de puntos en D, cuyos vertices son reglas
de decision determinadas. Entonces, S es convexo, cerrado y acotado.
27
Definici
on 2.6 Para x S, Qx = y R k : yj xj , 1 j k, y 6= x
es el conjunto de puntos de riesgo que son mejores que x. La frontera
inferior de S, (S) , es el conjunto de los x S tal que Qx S = .
Continuaci
on Ejemplo 2.1. (S) esta compuesto por los segmentos
de recta que unen a d5 con d3 y d3 con d6 , o sea las D que son
mezclas de d5 y d3 y d3 y d6 . Estas mezclas son precisamente el conjunto
de decisiones admisibles en D.3
Teorema 2.1 Supongamos que (S) S y existe M tal que si
(y1 , . . . , yk ) S yj > M; j = 1, . . . , k. Una regla de decision D
es admisible si y solo si su punto de riesgo esta en (S).
Prueba: (Ejercicio)
Sugerencia: es admisible si y solo si no existe un punto de riesgo
mejor en S, si y solo si Qx S = .2
Admisibilidad es solo una condicion necesaria mas no suficiente para
que una regla de decision sea razonable. Mas a
un, establece solamente
un orden parcial entre las decisiones que no nos permite encontrar la
regla optima, si esta existe. Como escoger entre la infinidad de reglas
admisibles en el ejemplo 2.1?. Precisamos de un metodo que nos provea
de un orden total de las decisiones y nos permita encontrar una regla
optima. Expondremos seguidamente tres metodos alternativos.
2.3
Decisiones Optimas
28
L(, a) = L( a).
29
Pn2
n
x2j
x, para n 3, propuesto
30
Definici
on 2.8 La regla de decision 0 sera la regla de decision optima
Bayes- promedio con respecto a la distribucion a priori si y s
olo
si:
r(, 0 ) = inf r(, ).
D
Es de hacer notar que la anterior definicion esta basada en un promedio en X (condicional en ), y por tanto sobre un concepto frecuentista.
Esto es innecesario ya que el valor de X = x sera conocido luego de
obtener el resultado del experimento. Por tanto tenemos una forma
alternativa de definir un procedimiento optimo-Bayes.
Definici
on 2.9 La perdida Bayesiana esperada condicional en X de la
accion (x) para la distribucion a priori () se define como:
31
Definici
on 2.10 La accion (x) sera la accion optima Bayes, condicional en X, para la distribucion a posteriori ( | x) si y solo si:
(, (x)) = inf (, (x)).
D
A la definicion 2.10 se le conoce como el principio de la maximizacion (minimizacion) de la utilidad (perdida) esperada. Para cada
x X, escogemos aquella accion (x) que hace mnimo lo que esperamos perder. Surge la pregunta, Puede la regla de decision optima
Bayes promedio 0 obtenerse como (x) para cada x X?. Afortunadamente la respuesta es s, bajo condiciones bastante generales.
Teorema 2.2 Supongamos que L(, d) es no negativa y que:
1. Existe un estimador con riesgo finito.
2. Para casi todo x, existe un n
umero (x) que minimiza a (, (x)).
Entonces (x) es optimo Bayes promedio.
Prueba.
Sea cualquier estimador con riesgo finito. Entonces,
(, (x)) es finito c.s, ya que L es no negativa. Por lo tanto
E [L(, (x)) | x] E [(L(, (x)) | x]
c.s.,
2
X
i=1
R(i , d)(i ).
32
0.12
0.4
= 0.3
P (2 | x = 0) =
0.28
0.4
= 0.7
33
34
-5000+C
1 0.8
a1
-3600+C
a2
0.6
2
1
-100+C
Experimento
-2300+C
a1
x=0
-350+C
-100+C
0.4
a2
1
-350+C
a1
2000+C
1 0.8 C
-3600+C
x=1
0.2
a2
-2200
2
1
-200
-500+C
-5000+C
0.2
0.3
0.7
0.3
0.7
0.6
0.4
0.6
0.4
2000+C
C
-500+C
-5000
2000
0
-500
d D.
35
(c.s.).
(2.5)
Prueba.
La prueba aparece por ejemplo en Lehmann(1959), Teorema 2.8 y Corolario 2.1 y se deja como lectura opcional.2
Lema 2.1 Supongamos que p(t) (la densidad marginal de t) es mayor
que cero, y que se cumple (2.5). Entonces si T (x) = t, densidad a
posteriori de cumple con:
( | x) = ( | t) =
g(t | )()
.
p(t)
(2.6)
36
Prueba.
Ejercicio.
1
n
n
X
i=1
2
Xi es N , n
p(x, ) = ()p(x | ) = 2
n
!1
"
1 ( )2 n(x )2
exp
+
2
2
2
#)
"
#2
(x )2
exp 2 2 ,
2( + n )
(2.7)
y por tanto la densidad marginal (o predictiva) de X sera,
p(x, ) = 2
n
1
1
nx
exp
+ 2
2
2
"
# 1
2
p(x) =
p(x, )d = (2)( + )
n
o sea, p(x) = N , 2 +
es:
( | x) =
2
n
(x )2
exp 2 2 , (2.8)
2( + n )
p(x, )
()p(x | )
=
=
p(x)
p(x)
2
1
2
1
exp [ (x)]2 ,
2
(2.9)
37
donde
1
nx
n
+
=
(x) =
2
2
2
+
y por lo tanto
+
2
n
2
2 x
2 + n
( | x) = N (x), 1 .
(2.10)
(2.11)
Pn
i=1
1 con probabilidad
0 con probabilidad (1-).
Xi el n
umero de exitos en n intentos. Su verosimil-
p(x+ | ) x+ (1 )nx+
0 1; X+ = 0, 1, . . . , n. (2.12)
() =
(n0 )
n0 x0 1 (1)n0 (1x0 )1 ;
(n0 x0 )(n0 (1 x0 ))
Entonces, llamando a X =
emos:
1
X ,
n +
(2.13)
usando la regla de Bayes obten-
()p(x+ | )
()p(x+ | ) = n(x)1 (1 )n(1(x))1
p(x+ )
(2.14)
donde n = n0 + n y
n0
n
(x) = x0 + x.
(2.15)
n
n
( | x+ ) =
38
(2.16)
El lector se habra percatado que el metodo para obtener la densidad posteriori en este ejemplo, es decir conservar solo los terminos que
dependen de , el Kernel de ( | x), y al final normalizar para que
integre uno al reconocer la forma funcional del Kernel de a posteriori,
es mas expedito que el metodo del ejemplo 2.6.
Se puede ver (se deja al lector como ejercicio) que la esperanza de
la densidad (2.13) es x0 , y por tanto la esperanza de(2.16) es (x)
en (2.15), la cual tiene la misma estructura de (2.10) del ejemplo 2.6.
Es decir la esperanza a posteriori es un promedio ponderado entre la
media a priori y X , la media muestral. Como n = n0 + n, entonces n0
puede ser pensado como el tama
no de muestra a priori equivalente
al tama
no muestral. La influencia de la informacion a priori en la
densidad a posteriori es directamente proporcional a n0 . En el ejemplo
2.6 lo mismo se puede decir de 2 , el inverso de la varianza, el cual
juega el mismo papel que n0 del ejemplo 2.7. (En algunos textos se
denomina a 2 la precision).
En el punto de vista Bayesiano, toda la informacion (subjetiva o
experimental) esta resumida en la distribucion a posteriori. El siguiente
teorema nos indicara como vincular esta informacion con importantes
funciones de perdida para problemas de estimacion puntual.
Teorema 2.5 Se quiere estimar una funcion g() y la funcion de perdida
L(, d) es no-negativa. Supongamos que las hipotesis del teorema 2.2
estan satisfechas. Denotemos por (x) el estimador optimo Bayes
condicional para la distribucion a priori .
R
E [w()g() | x]
.
E [w() | x]
39
E ((x) g())2 | x ,
(2.17)
(2.18)
40
EX, [g()(x)] = EX| E [g()(x) | x] = EX| [(x)E [g() | x]] = EX| 2 (x) ;
ahora condicionando en ,
EX, ((x) g())2 = EX| 2 (x) +E|X g 2() 2EX, [g()(x)] = 0.2
Apliquemos el teorema anterior a los casos de verosimilitud normal
y binomial:
2
i2
(1)
.
n
Ahora bien, n1 01 (1 )d() = 0, si y solo si () es la distribucion trivial que asigna uno al conjunto {0,1}. (La moneda
tiene 2 caras o 2 sellos, y x solo puede ser 0 o 1)
41
R(, )
...
...
...
...
...
...
...
..
...
...
...
...
... 2
...
...
..
... 1
...
...
...
...
...
...
..
Figura 2.3.
El ordenamiento minimax prefiere 1 a 2 , ya que 2 tiene un riesgo
maximo mayor que 1 . En Teora de Juegos, donde es escogida por un
enemigo inteligente es recomendable prevenir que este nos va a hacer la
vida tan difcil como le sea posible y en el caso de la figura 2.3 escogera
a en la peque
na region en donde 1 es mejor que 2 . Por fortuna la
naturaleza no es usualmente tan malevola!.
Definici
on 2.11 La regla de decision es minimax si
sup R(, ) = inf sup R(, ),
(2.19)
y D.
(2.20)
42
(2.21)
Entonces:
1. es minimax.
2. Si es la u
nica optimo Bayes respecto de entonces es la u
nica
minimax.
3. es de Murphy.
Prueba.
1. Sea cualquier otra regla de decision. Entonces:
sup R(, ) r(, ) r(, ) = sup R(, ).
43
n0 x0 = , n0 (1 x0 ) = o sea x0 = +
, n0 = + tenemos:
E( | x) = (x) =
+ x+
= .
++n
(2.22)
+ X+
R(, ) = E
++n
!2
| =
n(1 ) + [ ( + )]2
.
( + + n)2
(2.23)
44
n
.
2
Obtenemos entonces:
(x+ ) =
n
2
+ x+
n+ n
(2.24)
,
4( n + 1)2
n
n
,
2
2
[0, 1]
y es
(2.25)
n
, 2n
2
"
x+
2
| =
V ar(X+ | )
(1 )
=
.
2
n
n
45
nR(, )
.25
.2
.15
.1
.05
I0
.5
0
1
(n )
(n = 100)
(n = 16)
(n = 4)
(n = 1)
Figura 2.4.
Para la situacion (1), luce razonable a menos que n sea grande.
En la situacion (2) 0 luce mejor desde un n peque
no. En ninguna
situacion es razonable para n grande. Esto es consecuencia de que
la previa que produce a es, a medida que n crece, cada vez menos
razonable. En cualquier caso la regla de Bayes obtenida a partir de
una densidad a priori razonable, tpicamente sera mejor que y 0 .
Notemos que en este ejemplo es la u
nica regla minimax ya que el
estimador de Bayes (Teorema 2.5) es u
nico. Pero 0 () no es la u
nica
de Murphy. La regla de Bayes para cualquier sera:
R1
(x+ )
46
2.4
Representaci
on Geom
etrica de las Reglas de Bayes y Minimax para finito.
S = y R k : para D, yj = R(j , ), j = 1, . . . , k .
Teorema 2.8 El conjunto de riesgo S es un conjunto convexo de R k .
Prueba.
Sean y y y puntos arbitrarios de S, correspondientes a
j R(j , ) =
j yj
GEOMETRICA
2.4. REPRESENTACION
DE LAS REGLAS DE BAYES Y MINIMAX PARA FINITO.47
48
cuyo punto de riesgo este asociado a un elemento de Qc S, es minimax. Es de prever entonces que incluso cuando reglas minimax existen,
no necesariamente va a existir una minimax que sea no aleatoria, ya
que Qc S no va a contener necesariamente uno de los vertices. De
nuevo, no existiran reglas minimax cuando S no contiene sus puntos de
frontera. Notamos que pueden haber muchas reglas minimax, y que los
puntos minimax no necesariamente caeran en la diagonal y1 = . . . = yk .
(Se sugiere al lector hacer varios dibujos, en particular donde S sea un
rectangulo o que S caiga enteramente por debajo de la diagonal). El
Teorema 2.7 tambien puede ser visualizado geometricamente. Veamos
una estrategia de la naturaleza como a la distribucion a priori , la cual
representa a la familia de planos perpendiculares a = (1 , . . . , k ).
Para encontrar reglas de Bayes el TD encuentra el plano de esta familia
que es tangente por debajo a S. El riesgo de Bayes mnimo es b donde
(b, . . . , b) es la interseccion de la recta y1 = . . . = yk con el plano tangente por debajo de S y perpendicular a (1 , . . . , k ). Entonces una
distribucion de Murphy sera la seleccion de valores j , j = 1, . . . , k,
que haga esta interseccion tan lejos en la recta como sea posible. Como
siempre sucede que b c, si encontramos una 0 para la que b = c
entonces 0 debe ser de Murphy.
Continuaci
on Ejemplo 2.1. En este ejemplo tenemos 1 = 0.6 y
2 = 1 1 = 0.4. Los procedimientos Bayes equivalentes cumplen
con:
1 y1 + (1 1 )y2 = b
donde b vara en R.
O equivalentemente,
y2 =
b
1
y1 .
1 1 1 1
(2.26)
GEOMETRICA
2.4. REPRESENTACION
DE LAS REGLAS DE BAYES Y MINIMAX PARA FINITO.49
50
R(2 , d)
d1
2000
d5
d2
y1 = y2
1000
d3
-5000
-4000
b
-3000
-2000
(1 , 1 1 )
b
-1000
d6
..Puntos
.................
equivalentes ....
...
...
...
...................
...
...
...
....
.
...
d4
1000
R(1 , d)
-1000
51
R(2 , d)
d1
2000
d5
d2
y1 = y2
1000
d3
-5000
-4000
-3000
-2000
c. .
... .... c
-1000 ......... d
1000
4
d6
Murphy
-1000
R(1 , d)
-2000
3
2.5
52
PX| (N)d() = 0,
53
j ,
y existe alg
un i tal que
R(i , ) < R(i , ).
Como j > 0 j
r(, ) =
X
j
j R(j , ) <
j R(j , ) = r(, ),
54
R,
entonces
R(0 , ) < R(0 , )
para alg
un j .
55
un y S . El conPrueba.
Sea B = b : b = kj=1 j yj para alg
junto B es acotado ya que S lo es. Sea b0 = inf B. Para cualquier
P
(n)
sucesion y (n) S tal que j yj converja a b0 , el hecho de que
sea de Cromwell implica que cada sucesion y (n) esta acotada por arriba. Entonces existe un lmite finito y0 de la sucesion y (n) y ademas
P
j yj0 = b0 . Veamos que y0 (S).
Denotemos por cl(S) a la clausura de S y
n
Qy = x R k : xj yj , j ,
o sea el conjunto de puntos que son al menos tan buenos como y. Como
y 0 es un lmite de puntos en S, y0 cl(S) y {y 0 } cl(S) Qy0 . Mas
a
un Qy 0 cl(S) {y0 }. En efecto, sea y Qy 0 {y 0 } = Qy 0
P
(Definicion 2.6) entonces:
j yj < b0 y si yj cl(S) existiran puntos
P
y S tal que j yj < b0 lo que contradice el hecho que b0 sea una
cota inferior de B. Entonces Qy 0 cl(S) = {y0 }, lo que implica que
y 0 (S).
Ahora bien, como S es cerrado por debajo, y0 S, lo que implica
P
que el mnimo valor de r(, ) = j R(j , ) se obtiene en un punto de
S. Finalmente cualquier D, para la que R(j , ) = yj0 , j = 1, . . . , k,
es una regla de Bayes para . 2
En el resto de esta seccion el Teorema del Hiperplano Separante,
que es equivalente al Teorema de Hahn-Banach para espacios lineales
bastante generales, es crucial. Este Teorema establece que cualquier
par de conjuntos convexos pueden ser separados por un plano.
56
x S1 , y S2 .
S
z
Qz
Hiperplano
{w : t w = c}
E[X ] A.
57
y Qz y x S,
58
1
n
2 +
1+
n
2
x.
2 + n1
2.6
59
del jugador 1, en $, el n
umero de dedos sobre la mesa siempre que el
total sea par. Si la perdida es monetaria, para el Jugador 2, esta viene
dada por:
\A 1 2
L(, a) :
1
-2 3
2
3 -4
Este es un juego de suma cero ya que lo que recibe un jugador lo
pierde el otro. Cual de los dos jugadores ud. preferira ser?.
Llamemos p a una estrategia aleatoria seguida por el jugador 2
(una decision determinada sera tonta en este contexto) que escoge 1
con probabilidad p y 2 con probabilidad (1-p). El conjunto de riesgo
de p viene dado por:
S = {(L(1 , p ), L(2 , p )) : 0 p 1} ,
entonces
S = {(2p + 3(1 p), 3p 4(1 p)) : 0 p 1}
= {(3 5p, 4 + 7p) : 0 p 1}.
El conjunto de riesgo S es una recta que une (3,-4) con (-2,3), y
se muestra en la figura 2.8. La estrategia minimax vendra dada por la
b o sea
interseccion de S con la diagonal y1 = y2 : 3 5pb = 4 + 7p,
7
7
1
pb = 12 el cual corresponde a un riesgo minimax: 3 5 12 = 12 . En este
ejemplo la regla minimax es tambien de Bayes respecto a la distribucion
(1 , 1 1 ) que es perpendicular a S, (seccion 2.3). La pendiente de
1
la recta que pasa por el origen y (1 , 1 1 ) es 1
, que multiplicada
1
c = 7.
por la pendiente de S debe ser igual a -1, de donde
1
12
b Esto
De hecho cualquier p (y no solo pb) es de Bayes respecto de .
es consecuencia de que S es una recta, que queda completamente intersectada por la recta que definen los procedimientos Bayes-equivalentes
c para
al tocar la frontera inferior de S. El riesgo Bayesiano de
1
1
c
c
c
cualquier p es: 1 (3 5p) + (1 1 )(4 + 7p) = 12 , entonces
1
es de Murphy, por ser igual al riesgo minimax. El jugador 1 (siendo in7
teligente) escoge 1 con probabilidad 12
. Esta regla mantiene la perdida
60
esperada de en al menos
del juego V .
1
.
12
y1 = y2
(1/12, 1/12)
)
61
Definici
on 2.14 El riesgo o valor minimax o valor superior del juego
V se define por:
V = inf sup R(, ) = inf sup r(, ).
D
y esto implica
inf r( , ) inf sup r(, ) = V ,
62
1
n
i = 1, . . . , k.
(2.27)
1
n
1
sup r(, n ) V + ,
n
i R(i , c V.
y finalmente:
(2.28)
63
V = V = V.
Ahora sea S cerrado por debajo. Tomemos la n de (2.27) denotando
yn = (R(1 , n ), . . . , R(k , n)).
Como la sucesion y n es acotada, tienen un punto lmite y, que
ademas pertenece a cl(S). Entonces Qy cl(S) 6= y (Qy S) 6= , ya
que de la demostracion del Teorema 2.12 concluimos que si un conjunto
convexo no vaco B es acotado por debajo, entonces (B) 6= . Sea
z (Qy cl(S)), y como Qy cl(S) Qz = {z}, tenemos que
z Qy y Qz cl(S) = {z} y por tanto z (S). Como S es
cerrado por debajo, z S y cualquier 0 cuyo punto de riesgo sea z
es admisible (Teorema 2.1). Ademas 0 satisface: r(, 0 ) V ya que
R(i , 0 ) V, i = 1, . . . .k. Finalmente, de (2.28), r(0 , 0 ) = V , o sea
que 0 es de Bayes para 0 .2
Una version mas general aparece por ejemplo en Blackwell y Girshick (1954), donde se requiere que el espacio de acciones A sea un
subconjunto cerrado, acotado y convexo de R n y L(, a) sea, para cada
, una funcion continua en a y convexa. En general no siempre ocurre
que estrategias minimax o maximin existen.
Para espacios de acciones no acotados, el siguiente ejemplo ilustra
que el juego no tiene ni siquiera un valor.
Ejemplo 2.11. Consideremos el juego donde cada jugador escoge un
n
umero positivo. El jugador que escoja el n
umero mayor gana $1 del
otro. Aqu, = A = (1, 2, . . .) con:
1
L(, a) = 0
si
si
si
>a
=a
<a
64
y entonces
V = sup inf
L(.a) = 1.
a
D,
65
para = (0, 1], A=[0,1]. Resulta ser (Berger 1985, p. 374) que el
u
nico estimador minimax 2 (x) respecto de L2 es: 2 (x) = 0, sin importar cual es el resultado del experimento!. L2 es razonable, (errores
de estimacion cerca de = 0 son mas serios, permaneciendo la perdida
acotada) y sin embargo el estimador minimax resuelve ignorar los datos
y estimar como 0. El estimador 2 solo tendra sentido si tuviesemos
66
2.7
Ejercicios
67
2.7. EJERCICIOS
1
2
5100 4900
5000 5000
0.6
0.4
p(x2 | 2 ) = 0.7.
68
a1
a2
700
0
800 1000
2.7. EJERCICIOS
69
70
Captulo 3
Fundamentos de la Teora
Bayesiana de Decisi
on
En este captulo haremos una revision rapida de los fundamentos de la
Teora Subjetiva Bayesiana, diferentes de los fundamentos estudiados
en el Captulo 2, el cual esta basado en el concepto frecuentista de
riesgo R(, d) y admisibilidad. En la primera seccion introducimos la
Teora de Utilidad que ilustra que la Teora Estadstica de Decision, al
igual que el resto de las teoras matematicas, puede ser axiomatizada
(los axiomas de racionalidad) obteniendose, como consecuencia logica,
el metodo Bayesiano de minimizar la perdida esperada. Ning
un otro
enfoque ha podido ser axiomatizado, pero existen conjuntos de axiomas
menos restrictivos que generalizan el enfoque Bayesiano estricto (es
decir el que incluye la hipotesis de la precision). Una tal generalizacion
se debe a Walley(1991), quien demuestra que la coherencia del enfoque
Bayesiano estricto se preserva bajo condiciones mas realistas. En la
u
ltima seccion de este captulo expondremos otros principios generales
fundamentales, el de la verosimilitud y el del riesgo posterior, que nos
indican que la estadstica frecuentista (o incondicional) tiene problemas
basicos y que solo un metodo condicional a los datos obtenidos X , puede
ser correcto.
71
72
3.1
Breve introducci
on a la Teora de Utilidad
El objetivo de la Teora de Utilidad es el de construir la funcion de utilidad (o perdida) y el de justificar el principio Bayesiano de maximizar
(minimizar) la utilidad (perdida) esperada. La Teora de la Utilidad
tiene sus origenes en Ramsey(1926) y De Finetti(1937). Aqu haremos una breve introduccion. Tratamientos mas completos aparecen en
DeGroot(1970), Ferguson(1967) y Berger(1985).
Al momento de evaluar las consecuencias de las posibles acciones nos
encontramos al menos con dos dificultades. La primera es que debemos
comparar los valores de entidades muy dismiles para las cuales no existe
una obvia escala de medida. Considere por ejemplo la posibilidad de
asistir a un curso de Teora de Decision que durara un par de semanas.
Alternativamente podra tomar vacaciones o aceptar un trabajo durante
ese perodo. Todo el tiempo tenemos que tomar decisiones de este tipo,
pero no esta nada claro que exista una escala precisa en la cual podamos
comparar las consecuencias, que van a ser no determinsticas, de las tres
posibles acciones descritas.
El segundo problema es que incluso cuando existe una escala, por
ejemplo monetaria, esta no necesariamente refleja los verdaderos valores
del TD. Supongamos que su Departamento de Matematicas le ofrece $
500 por dictar un curso en el perodo vacacional. Si usted tuviese en
el banco a su disposicion $ 5000, valorara mucho menos el salario que
le ofrecen a costa de arruinar sus vacaciones, que si no tuviese reserva
alguna. En otras palabras el valor que usted le asigna a $ 5500 no es
el mismo que usted le asigna al valor de $ 5000 mas el valor de $ 500.
O sea, su escala de valores no es lineal, pero la escala monetaria s.
Otro ejemplo es el siguiente: Suponga que usted ha sido el ganador
de una competencia y se le ofrece una de dos opciones: un regalo de
$ 100 o lanzar una moneda balanceada y si esta cae cara usted recibe
$ 300, y si cae sello usted no recibe nada. Probablemente usted se
quedara con los $ 100 seguros, o sea que su valor esperado de la segunda opcion es menor que $ 100. Pero si su escala de valores fuese
monetaria, usted esperara recibir $ 150 y debera (siendo racional)
aceptar la segunda opcion. Si acepta la primera opcion significa que
A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION
73
usted valora $ 300 en mucho menos de tres veces lo que usted valora $
100, o usted esta siendo irracional.
Ejemplo 3.1 (La Paradoja de San Petersburgo). Usted debe
pagar $ c para entrar en el siguiente juego de apuestas. Se lanza una
moneda balanceada (probabilidad de caer cara igual 1/2) hasta que la
primera cara aparezca. Si esto toma n lanzamientos a usted se le paga $
2n . Cuanto esta usted dispuesto a pagar para entrar en esta apuesta?.
Supongamos que su escala de valores es monetaria, entonces su utilidad
esperada es:
n=1
2 P (n) c =
n=1
n n
2 2
c = .
Por lo tanto usted debera estar dispuesto a pagar $ c arbitrariamente grande para entrar en la apuesta ya que la utilidad esperada
sera positiva, a pesar de que la probabilidad de ganar $ 16 o mas es de
apenas 18 . Lo irracional de este hecho nos indica que nuestra escala de
valores respecto al dinero no debe ser lineal, sino concava para magnitudes grandes, y posiblemente acotada. A quien le importa $ 1 cuando
ya tiene $ 10100 ?.3
Las consecuencias de nuestros actos seran llamadas recompensas r
y su espacio es . A menudo hay incertidumbre sobre las consecuencias
que realmente van a ocurrir. As los resultados de las acciones son distribuciones de probabilidad P en , llamadas apuestas. Denotaremos
por P al conjunto de esas probabilidades. Para trabajar con valores
y preferencias en P, supongamos por el momento la existencia de una
funcion U(r) con valores en los reales , tal que el valor de la distribucion
P P viene dado por el valor esperado de U bajo P . Denotamos a
este valor esperado por: E P [U(r)] o simplemente por U(P ). Si esta
funcion U existe, la llamamos la funcion de utilidad. Supongamos que
el TD puede avaluar sus preferencias entre las apuestas. Esto es para
P1 y P2 en P puede juzgar si:
1. P1
6
P2 (prefiere P2 a P1 ) o
2. P2
6
P1 (prefiere P1 a P2 ) o
74
3.1.1
M
etodos de construcci
on de la funci
on de
utilidad U
r3
6
r3 P = hr1 i + (1 )hr2i.
O sea, r3 es equivalente a la apuesta que nos da r1 con probabilidad y r2 con probabilidad (1 ). (Encontrar puede ser
difcil). Defina,
U(r3 ) = U(P ) = U(r1 ) + (1 )U(r2 ) = 1 .
A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION
r4
6
75
r4 P = hr3 i + (1 )hr2 i.
Defina,
76
1
1
r4 hr1 i + hr3 i
2
2
1
1
1
U(r4 ) = U(r1 ) + U(r3 ) = .
2
2
4
1
1
3
U(r5 ) = U(r3 ) + U(r2 ) = ,
2
2
4
1
1
r6 hr4 i + hr5 i,
2
2
1
1
1
U(r6 ) = U(r4 ) + U(r5 ) = ,
2
2
2
y por consiguiente r6 debe ser igual a r3 . Si esto no es ni aproximadamente cierto, hay que volver atras hasta obtener consistencia.
Ejemplo 3.2 (Utilidad del dinero). Usaremos aqu el Metodo 2.
Considero, r1 =$ 0, r2 =$ 5000 con U(r1 ) = 0 y U(r2 ) = 1. Me pregunto
(seriamente) para cual r3 se cumple, r3 12 h$0i + 12 h$5000i. Si r3 =$
2500 preferira $ 2500 seguros, pero si r3 =$ 1000 preferira la apuesta.
Decido tentativa y aproximadamente que r3 =$ 1500 con U(r3 ) = 12 .
(Note que esto depende de mi fortuna actual. Si dispusiese de una
jugosa cuenta de banco bien pudiera haber asignado r3 =$ 2450). Busco
ahora r4 , tal que:
1
1
r4 h$0i + h$1500i.
2
2
Asigno r4 =$ 700 de donde U($700) = 14 . Procuro r5 con r5
+ 12 h$5000i. Asigno, r5 =$ 3000 y entonces U($3000) = 34 .
1
h$1500i
2
77
A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION
U(r)
1
3/4
1/2
1/4
0
1000
2000
3000
4000
5000
78
n=1
U(2n c)2n ,
Q y Q 6 R entonces P
6
R.
Q si y solo si:
P + (1 )R 6 Q + (1 )R.
4. Si P
Q6 R entonces existen n
umeros 0 < < < 1 tales que:
6
P + (1 )R 6 Q 6 P + (1 )R.
Si ademas se satisface el siguiente axioma, entonces U es acotada.
5. Si Pi
6
Q para i = 1, 2, . . . , i 0 y
X
i=1
i Pi
6
X
i=1
Q.
i = 1, entonces
A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION
79
U(r3 ) U(r2 )
.
U(r1 ) U(r2 )
Demostraciones de lo afirmado anteriormente, aparecen en Ferguson(1967) o DeGroot(1970), donde se hacen algunos supuestos tecnicos
adicionales. Ver tambien Fishburn(1981) donde aparece una revision
de los diferentes conjuntos de axiomas que han sido propuestos.
Los axiomas de racionalidad, a excepcion del 1, son razonablemente
realistas y aparecen como aceptables. Vimos en el ejemplo 2.11 una
situacion donde el principio minimax viola el axioma 3 y la consecuencia
fue irracional. El axioma 4 puede interpretarse como que no existen
recompensas infinitamente buenas o malas (no existe ni el cielo ni el
infierno). Si P fuese infinitamente mala no existira , 0 < < 1,
tal que Q 6 P + (1 )R. Puede argumentarse que la muerte es
infinitamente mala, pero entonces no aceptaramos el extra-chance de
morir al cruzar la calle. El axioma 1 sin embargo no es realista en
muchas situaciones.
Los defensores del axioma 1 aducen que la vida nos fuerza a escoger
entre opciones alternativas extremadamente difciles de comparar. Pero
esto no necesariamente nos dice que existe una escala precisa U, que
act
ua linealmente sobre las apuestas compuestas, que mide con precision todas nuestras preferencias entre todas las posibles apuestas. El
caso de la utilidad del dinero es mas sencillo ya que estamos comparando cantidades de $. Pero incluso en este caso, si retornamos al ejemplo
80
A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION
81
c(, a)(r)U(r).
( | x)c(, a)(r).
82
U(Pa ) =
Pa (r)U(r) =
( | x)
XX
r
X
r
( | x)c(, a)(r)U(r)
c(, a)(r)U(r) =
( | x)L(, a),
( | x)L(, a1 ) >
( | x)L(, a2 )
3.2
El Principio de la Verosimilitud
83
p1 (x+ | ) =
n
x+
x+ (1 )nx+ = 220 9 (1 )3 ,
donde x+ es el n
umero de caras.
Otra posibilidad es que el experimentador haba decidido detener
el experimento al observar m = 3 sellos, en cuyo caso tenemos la distribucion binomial negativa,
p2 (x+ | ) =
m + x+ 1
x+
x+ (1 )m = 559 (1 )3 .
X
1
1
2 = P (x+ 9 | = ) =
p2 (x+ = i | = ) = 0.0325
2
2
i=9
84
( T (x))2 dP (x | ).
1
(x1
2
+ x2 )
x1 + 1
si
si
x1 6= x2
x1 = x2 .
85
donde el valor esperado es tomado sobre y no sobre X. Generalizando esta nocion, si solo se sabe que , donde es una clase de
distribuciones a priori, entonces concluimos que el desempe
no de (x)
86
es mejor o igual a:
sup (, (x)).
(3.1)
Por otra parte el enfoque Bayesiano obedece al principio de verosimilitud. En efecto el Teorema de Bayes (1.2) establece que:
p(x | )()
,
p(x | )()d
( | x) = R
(3.2)
3.3
Ejercicios
3.3. EJERCICIOS
87
88
Captulo 4
An
alisis Bayesiano
Comenzaremos en este captulo analizando el test de Hipotesis desde el
punto de vista Bayesiano.
4.1
Test de Hip
otesis
Este problema ya lo planteamos en el ejemplo 2.2, cuya notacion seguiremos. El caso mas sencillo es el test de hipotesis simple vs. simple, o
sea:
H0 : = 0
vs.
H1 : = 1 ,
L1 (d) si = 0
L0 (d) si = 1 .
90
CAPTULO 4. ANALISIS
BAYESIANO
(4.1)
si
si
A = {x : d(x) = a0 }
B = {x : d(x) = a1 }.
p(x | 0 )dx + b
p(x | 1 )dx
p(x | 0 )
b
B = x:
< =k .
p(x | 1 )
a
91
p(x | 0 )
p | 0 = p ,
p(x | 1 )
0)
, el valor observado del cociente de verosimilitudes.
donde p = p(x|
p(x|1 )
Note que la definicion de p viola el principio de verosimilitud (ver
ejemplo 3.3). Se interpreta clasicamente que p es el mnimo valor
de para el cual se habra rechazado H0 . Es generalmente aceptado
que en la practica se interprete a p como la probabilidad de que H0
sea correcta. Esta interpretacion es filosoficamente incorrecta desde
el punto de vista frecuentista, ya que no tiene sentido considerar la
probabilidad de que una hipotesis sea correcta. Una hipotesis es una
afirmacion sobre , y no es una variable aleatoria desde el punto
de vista frecuentista. Sin embargo esta interpretacion del que usa el
test de hipotesis frecuentista es tan natural, que decadas de ense
naza
de la teora de Neyman-Pearson no han podido erradicarla. Aceptan
esta teora porque la interpretan desde un punto de vista Bayesiano
que les es racional; y ademas les produce n
umeros, y decisiones en
forma mecanica. El enfoque Bayesiano provee de la interpreptacion
adecuada, pero tambien requiere del usuario el insumo necesario: cuales
son las perdidas de una decision incorrecta y que se conoce a priori sobre
H0 . Esta es una diferencia radical entre ambos enfoques: el Bayesiano
requiere exponer claramente las evaluaciones subjetivas. El frecuentista
esconde el subjetivismo (inevitable) en el manto de la costumbre.
Si es cierto que el procedimiento del Teorema 4.1 tiene interpretaciones en terminos de las probabilidades de las hipotesis, el Teorema de
Bayes nos indica que:
p(x | Hi )i
p(x | Hi )i
=
,
p(x)
k=0 p(x | Hk )k
p(Hi | x) = P1
i = 0, 1.
(4.2)
92
CAPTULO 4. ANALISIS
BAYESIANO
de donde:
p(H0 | x)
p(x | 0 )0
=
,
p(H1 | x)
p(x | 1 )(1 0 )
(4.3)
Si por ejemplo L0 = L1 , entonces se rechaza a H0 , cuando su probabilidad a posteriori es menor que la de H1 . Si la consecuencia de un
rechazo de H0 incorrecto es mas grave, o sea L1 > L0 , solo se rechazara
H0 cuando tenga una probabilidad a posteriori menor que la de H1 , de
acuerdo a (4.3).
Por supuesto que no es necesario obtener la decision optima-Bayes,
como se hizo en el Teorema 4.1 (que sin embargo fue u
til para comparar
con conceptos frecuentistas). Podemos, en lugar de minimizar r(, d),
minimizar la perdida a posteriori esperada, (, d). En el caso simple
vs. simple, usando (4.2) obtenemos:
(, a0 ) = E|X [L(, a0 )] = p(H1 | x)L0 ,
(, a1 ) = E|X [L(, a1 )] = p(H0 | x)L1 .
o sea (4.3). En resumen, una decision optimo Bayes d (x) debe cumplir
con:
d (x) = a1 , si la desigualdad (4.3) ocurre,
d (x) = a0 , si la desigualdad en sentido contrario a (4.3) ocurre.
La ventaja (odds) posterior, O01 (x), de H0 vs. H1 se define
como la parte izquierda de (4.3) o sea:
p(H0 | x)
p(H0 | x)
=
,
(4.4)
p(H1 | x)
1 p(H0 | x)
que es la cantidad basica para aceptar o rechazar H0 , o sea para tomar
la decision.
O01 (x) =
93
(4.5)
p(x | H0 )
,
p(x | H1 )
(4.6)
(4.7)
B01 (x) =
(4.8)
vs.
H1 : c0 = 1 ,
0 g0 () si 0
1 g1 () si 1 ,
(4.9)
94
CAPTULO 4. ANALISIS
BAYESIANO
p(x | )gi ()
i = 0, 1.
(4.10)
Con la adaptacion dada por (4.9) y (4.10) las definiciones dadas por
el caso anterior son validas para el caso general. Note la sencillez conceptual de la aproximacion Bayesiana al Test de Hipotesis: comparar
las probabilidades a posteriori de H0 vs. H1 . En contraste con la Teora
de Neyman-Pearson donde test uniformemente mas poderosos existen
solo en situaciones particulares.
Ejemplo 4.1 (Hip
otesis nula puntual). Suponemos que X
N(, 2 /n) como en el ejemplo 2.6. Se desea hacer el test
H0 : = 0
H1 : 6= 0 .
vs.
0
1 N(, 2 )
si
si
= 0
6= 0
(4.11)
Note que:
!
2
,
p(x | H0 ) = p(x | 0 ) = N 0 ,
n
p(x | H1 ) =
(6=0 )
(4.12)
(4.13)
2
p(x | H1 ) = N , +
.
n
2
(4.14)
N 0 , n
0
O01 (x) =
1 0 N , 2 +
2
n
.
(4.15)
95
0
z 2 n
O01 (x) =
n + 1 exp
,
1 0
2 n + 1
2
(4.16)
O01 (zn ) ,
y como se cumple en general que:
"
1
p(H0 | x) = 1 +
O01 (x)
entonces:
#1
(4.17)
p(H0 | zn ) 1.3
n
96
CAPTULO 4. ANALISIS
BAYESIANO
H1 : 6= 0
vs.
0
1 g1 ()
si
si
= 0
6= 0 ,
(4.18)
1 0 h(x)
p(H0 | x) 1 +
0 p(x | 0 )
#1
(4.19)
Ejercicio.2
Continuaci
on Ejemplo 4.1. Para este ejemplo, usando (4.19), puede
verificarse que si en lugar de la asignacion (4.11) hacemos la asignacion
mucho mas imprecisa (4.18), obtenemos que:
"
1 0
z2
p(H0 | x) 1 +
exp
0
2
)#1
(4.20)
97
1
2
p(H0 | x) 0.128.
(4.21)
La cota inferior (4.21) es casi tres veces 0.05, y esto vale para
cualquier n.3
Otros resultados del tipo de (4.19) donde g1 en (4.18) se restringe
a la clase de densidades simetricas alrededor de 0 y no crecientes en
| 0 | aparecen en Berger y Sellke(1984). Por supuesto que en este
caso la cota es mayor o igual a la obtenida en (4.21). De hecho es igual
a 0.29.
Ante cotas como la dada en (4.21) los frecuentistas aducen, no sin
cierta razon, que el analisis que conduce a (4.21) supone una probabilidad 0 a priori fija, y precisa que H0 sea cierta. Note sin embargo,
que el factor de Bayes no depende de 0 , aunque depende de (). Un
frecuentista puede con todo derecho negarse a suponer tal probabilidad. De hecho Good clasifica a los Bayesianos en una gran cantidad
de categoras (algunas de ellas posiblemente vacas) pero favorecera
como definicion de Bayesiano: Aquel que esta dispuesto a asignar una
probabilidad a una hipotesis. La respuesta Bayesiana robusta (no
dogmatica) debe ser considerar clases de distribuciones a priori en las
cuales 0 vare en un amplio rango. Pericchi y Walley(1989a), para la
situacion del Ejercicio 4.3, definen una clase en la cual 0 0 1,
que llaman clase casi ignorante. Para esta clase uno no asume una
posicion de ignorancia a priori respecto de H0 . Las probabilidades a
posteriori para esta clase se comportan muy razonablemente, y el valor
observado del test p , se encuentra estrictamente entre el supremo y
el nfimo de las probabilidades a posteriori de H0 bajo esta clase. El
problema de obtener, en alg
un sentido, clases casi ignorantes para
hipotesis H0 puntuales, o mas generalmente cuando H0 es compacto,
permanece abierto.
98
CAPTULO 4. ANALISIS
BAYESIANO
4.2
4.2.1
0 si C(x)
1 si 6 C(x)
C(x)
d( | x)
= 1 P|X [ C(x)].
4.2.2
99
Supongamos que el vector de parametros esta compuesto de dos subvectores componentes, = (1 , 2 )t , y nuestro interes es tomar decisiones sobre 1 , el vector de parametros de interes. Denominamos a 2
el vector de parametros de molestia (nuissance). Supongamos que
hemos obtenido la densidad conjunta a posteriori de : ( | x) =
[(1 , 2 ) | x]. De nuevo la inferencia sobre 1 se resuelve de manera
natural y coherente: marginalizando, es decir, integrando respecto de
los parametros de molestia en la densidad conjunta.
La densidad marginal de 1 se define como:
(1 | x) =
[( 1 , 2 ) | x] d2 =
(1 | 2 , x)(2 | x)d2 .
(4.22)
De la expresion a la derecha en (4.22) se observa que la densidad
marginal de 1 , es el promedio de la densidad de 1 , condicional en 2 ,
ponderada por la marginal de 2 .
Ejemplo 4.2 (Verosimilitud Normal con varianza desconocida).
La verosimilitud es: p(x | , h) = N(, h1 ). De acuerdo a la notacion
anterior, 1 = , 2 = h = 2 > 0. Nuestro interes en este ejemplo
es hacer inferencia sobre la media . Ahora una estadstica suficiente
P
P
sera: (n, xi , x2i ). Algebraicamente es conveniente suponer que la
densidad a priori es la llamada Normal-Gamma, definida por:
NG(, h | , , , ) = ( | h)(h) = N( | , (h)1)Ga(h | , ),
(4.23)
donde los hiperparametros a ser asignados por el TD son: , , , ,
siendo los tres u
ltimos positivos y real. O sea, a priori, la densidad
condicional en h es normal, y la densidad marginal de h es Gamma.
Se verifica que luego de observar una muestra de tama
no n la densidad conjunta a posteriori de y h sigue siendo Normal-Gamma:
(, h | x) = NG(, h | , , , ),
(4.24)
100
CAPTULO 4. ANALISIS
BAYESIANO
donde:
=
+ nx
,
+n
n
= + ,
2
= + n,
= +
n
1X
n(x )2
(xi x)2 +
.
2 i=1
2( + n)
1/2
(, h | x) h
h
exp ( )2
2
)#
[h 1 exp { h}].
(4.25)
y p1 exp {ay}dy =
(p)
,
ap
(4.26)
obtenemos que:
( | x) =
"
(, h | x)dh + ( )2
2
# 1/2
o equivalentemente:
"
1 ( )2
( | x) 1 +
2
#(2 +1)/2
(4.27)
4.2.3
Inferencia Predictiva
A menudo el objetivo no es tomar decisiones sobre parametros (t picamente no-observables), sino sobre observaciones futuras (observables
ma
nana). Decimos entonces que se requiere predecir a partir de
la informacion disponible hoy. Las observaciones futuras dependen del
parametro , que es y sera desconocido. Denotemos al vector de observaciones futuras por X f . Luego de observado el experimento hasta
hoy, tenemos a X fijo. Las variables aleatorias son y X f . Para pre-
102
CAPTULO 4. ANALISIS
BAYESIANO
(xf , | x)d =
(4.28)
p(xf | )( | x)d.
(4.29)
(4.30)
+ x+
.
++n
(4.31)
1 + x+
.
(4.32)
2+n
La expresion (4.32) es la famosa Ley de Sucesion de Laplace, quien
fue uno de los primeros Bayesianos. De hecho hay quien ha afirmado
que la estadstica Bayesiana debera llamarse Laplaciana. Si se han
observado n exitos en n ensayos, (4.32) indica que la probabilidad de un
nuevo exito es 1+n
y si no se ha observado ning
un exito, la probabilidad
2+n
1
de observarlo en el proximo ensayo es 2+n .3
p(xf = 1 | x) =
1
m
m
X
i=1
2
.
p(xf | , x) = p(xf | ) = N X f | ,
m
Por otro lado, de (2.11) sabemos que: ( | x) = N( | (x), 1 ).
Resulta entonces,
Z
2
(xf | x) =
N xf | ,
N( | (x), 1 )d,
m
(4.33)
2
(xf | x) = N xf | (x),
+ 1 .
m
Note que:
E[X f | x] = E[ | x],
2
104
CAPTULO 4. ANALISIS
BAYESIANO
1/2
4.2.4
Normalidad Asint
otica de la Densidad Posterior
Este es un importante resultado que es esencialmente una version Bayesiana del Teorema del Lmite Central. La normalidad asintotica de
sup p(x | ) = p x | b .
p(x | )()
,
p(x)
es aproximadamente:
b [I(x)1 ] ,
Nk | ,
(4.34)
"
n
X
2
2
Iij (x) =
log p(x | )
=
log p(xt | )
.
i j
t=1 i j
=b
=b
106
CAPTULO 4. ANALISIS
BAYESIANO
R
=
b 1 ( )
b 2 I(x) ()
b
exp log p(x | )
2
n
b 1 ( )
b 2 I(x) ()d
b
exp log p(x | )
2
n
b 2 I(x)
exp 12 ( )
[2(I(x))1 ]1/2
b [I(x)]1 ,
= N | ,
4.3
4.3.1
Aplicaciones al Dise
no Experimental
y al An
alisis Secuencial
Tama
no de la Muestra Optimo
EXPERIMENTAL Y AL ANALISIS
107
(4.35)
1
n
+
2 2
1
22
.
2 + n 2
Supongamos ahora que C(n) = nc, o sea que cada observacion tiene
un costo c > 0. Entonces,
r(, n) =
2 2
+ nc.
2 + n 2
108
CAPTULO 4. ANALISIS
BAYESIANO
n = 2 ,
c
que es el valor aproximado del tama
no optimo.
Como la derivada segunda de r(, n) es positiva, es una funcion
estrictamente convexa en n, y por tanto el tama
no optimo se obtendra
2
r(, n) = 2 c c 2 .3
4.3.2
An
alisis Secuencial
109
4.4
La Familia Exponencial.
del Principio Bayesiano
Extensi
on
La familia natural de verosimilitudes en donde generalizar las operaciones Bayesianas, es la Familia Exponencial. Esta familia posee una
rica estructura matematica estudiada exhaustivamente por Brown(1986).
Aspectos particulares de esta familia han sido explorados por ejemplo
en Lehmann(1959 y 1983), Diaconis y Ylvisaker(1979), Pericchi(1989),
Pericchi y Smith(1991) y Pericchi, Sanso y Smith(1993).
La familia exponencial de medidas de probabilidad se define como:
p(x | ) = dP (x | ) = exp {x. M()}d(),
(4.37)
(4.38)
dP (x | ) = 1
M
M
(), . . . ,
() .
1
k
(4.39)
110
CAPTULO 4. ANALISIS
BAYESIANO
Diaconis y Ylvisaker(1979).
Note que si observamos una muestra X1 , . . . , Xn de P (x | ), entonces la medida a posteriori de , es de la forma (4.40), con hiperparametros actualizados:
n = n0 + n
x =
n0 x0 + nx
,
n0 + n
(4.42)
o sea,
( | x) = d( | n , x ).
(4.43)
111
Bayes
( | n0 , x0 ) ( | n , x ).
(4.45)
xi 0, > 0,
(4.46)
<0
(4.47)
o sea,
M() = log()
dM
1
1
() = = = E(Xi | ).
d
> 0.
(4.48)
> 0,
(4.49)
exp {}d,
()
112
CAPTULO 4. ANALISIS
BAYESIANO
(n0 x0 )n0 +1 n0
exp {n0 x0 }d,
(n0 + 1)
> 0.
(4.50)
Seg
un el Teorema 4.2, la esperanza a priori de 1 es, E [E(X | )] =
E 1 = x0 , lo que puede verificarse directamente. Si observamos una
muestra de tama
no n de tiempos de vida u
til obtenemos de (4.46):
h i
(4.51)
(4.52)
n0 x0 + nx = .
Para el ejemplo de aceptar o rechazar el lote de transistores, Walley(1987) propone la siguiente funcion de perdida:
1
L(, d1 ) = n x0
y
L(, d2 ) = c > 0,
n0 x0 + nx
E|X [L(, d1 )] = N x0
.
n0 + n
113
Nn
(x0 x) < c,
n0 + n
o sea, aceptamos si:
c
(n0 + n)3.
Nn
Para la familia exponencial conjugada es bastante sencillo trabajar
con clases de densidades conjugadas en lugar de una densidad conjugada u
nica y precisa, (Pericchi, 1989).
Como ilustracion, si consideramos la clase de densidades conjugadas
con hiperparametros en el siguiente conjunto:
x > x0
(4.53)
n0
| x0 x | .
n0 + n
(4.54)
114
CAPTULO 4. ANALISIS
BAYESIANO
decision Bayesiano que, generalmente, el TD no basa su decision exclusivamente en valores esperados, sino que incorpora de alguna manera
la varianza posterior, en un intento ad hoc que confunde incertidumbre
con imprecision, Brown(1984).
Finalmente, consideremos un ejemplo que ilustra como podemos
replantear el problema de la ignorancia a priori, considerando una
clase apropiada de medidas.
Ejemplo 4.9. Una clase casi ignorante para el caso Binomial, Walley(1987). Consideramos el caso Beta-Binomial del ejemplo 2.7. El
interes recae sobre el evento A: Exito en el proximo intento. Ser ignorante sobre este evento nos obliga a especificar una clase en donde,
a priori, 0 P (A) 1. Esto quiere decir que a priori no estamos
dispuestos a apostar en favor o en contra de A. Esto es equivalente,
dentro de la familia conjugada, a 0 x0 1. Consideremos entonces
la clase casi ignorante:
{( | n0 , x0 ) : 0 x0 1, n0 fijo} .
Resulta entonces que:
sup P (A | x) =
n0 + x+
n0 + n
inf P (A | x) =
x+
,
n0 + n
de
donde
se obtiene que la imprecision a posteriori respecto de A es:
1
n
1 + n0
. Note que no hay conflicto entre media muestral y media
a priori, ya que x0 puede variar arbitrariamente entre 0 y 1. A fin de
comparar con la Ley de Sucesion de Laplace (4.32), asignemos para
n0 el valor de 2, ya que la densidad uniforme corresponde a x0 = 12 ,
n0 = 2. Comparemos el comportamiento de Laplace con el sup e inf de
P (A | x) bajo la clase casi ignorante, suponiendo que obtenemos
muestra para n variables, con x = 12 fijo.
n
0
2
20
100 1000
Laplace P (A | x) 0.5 0.5 0.5 0.5
0.5
sup P (A | x)
1 0.75 0.55 0.51 0.501
inf P (A | x)
0 0.25 0.45 0.49 0.499
115
4.5. CALCULOS
Y APROXIMACIONES BAYESIANAS
4.4.1
p(y )()d,
{log m(y)}
y
S(y) =
s(y)
.
y
Entonces,
1. E( | y) = y
2. V ar( | y) =
4.5
2
n
2
s(y),
n
4
S(y).
n2
C
alculos y Aproximaciones Bayesianas
116
m(x) =
CAPTULO 4. ANALISIS
BAYESIANO
f (x | )()d
E[g() | x] =
g()f (x | )()d
.
f (x | )()d
4.5.1
Aproximaciones de Laplace
su maximo. Entonces,
Sea h() = log[f (x | )()], k = dim () y
h
si I (x) es la matriz cuyo elemento ij es:
Iijh (x)
"
2
=
h()
,
i j
=
1 ( )
t I h (x)( )
d =
m(x) =
exp{h()}d
exp (h()}
2
k/2
exp{h()}(2)
[det (I h (x))]1/2
(2)k/2f (x | )(
[det (I h (x))]1/2
"
exp{h ()}d
det(I h (x))
E[g() | x] = R
exp{h()}d
det(I h (x))
#1/2
)f (x |
)(
)
g(
.
)
f (x | )(
4.5. CALCULOS
Y APROXIMACIONES BAYESIANAS
117
La exactitud de esta aproximacion es sorprendente, para mayor referencia ver Tierney y Kadane (1984).
Una estrategia numerica directa son las cuadraturas de Gauss y de
Gauss-Hermite, que han sido implementadas en el paquete Bayes 4. Sin
embargo son apropiadas para un n
umero reducido de dimensiones. Ver
Naylor y Smith (1982).
4.5.2
Integraci
on de Monte Carlo
Supongamos que podemos generar una sucesion i.i.d de variables aleatorias (1 , 2 , . . . , ) de una densidad k() > 0 en . Note que,
Ek
"
Z
g()f (x | )()
= g()f (x | )()d.
k()
Z
m
1 X
g(i )f (x | i )(i )
= g()f (x | )()d.
lim
m m
k(i )
i=1
Si llamamos
w(i ) =
f (x | i )(i )
k(i )
,
entonces tenemos la aproximacion:
E[g() | x]
Pm
118
4.5.3
CAPTULO 4. ANALISIS
BAYESIANO
Simulaci
on de la densidad posterior
A partir de Gelfand y Smith (1990), se comenzo a generar una verdadera explosion de tecnicas de integracion bajo el nombre generico de
metodos de: Cadenas de Markov Montecarlo, ver Gilks, Richardson y
Spiegelhalter (1996). Estas tecnicas aproximan la densidad posterior a
partir de muestras generadas de esta densidad.
Supongamos que y es el vector de parametros de interes, cuya densidad posterior es p(y). (Formalmente sera p(y | D), donde D son los
datos, pero la omitimos por simplicidad de notacion). Sea y1 , y 2 , . . . ,
una muestra con densidad p(y). Entonces usando la ley de grandes
n
umeros, bajo condiciones bastante generales, resulta que:
m
1 X
m
h(y i )
m i=1
h(y)p(y)dy = E[h(y)],
en probabilidad.
Una aproximacion a la densidad marginal del escalar y1 , donde
y = (y1 , y2 ) puede obtenerse de la siguiente manera (Gelfand y Smith
(1990)): supongamos que p(y1 | y2 ) es conocida. Si la muestra es
yi = (y1i , y2i ) para i = 1, . . . , m, entonces
p(y1 )
m
1 X
p(y1 | y2i ).
m i=1
Tambien es u
til que,
E[h(y1 )]
m
1 X
E[h(y1 ) | y2i ],
m i=1
4.5.4
M
etodos Monte Carlo de Cadenas de Markov
(MCMC)
4.5. CALCULOS
Y APROXIMACIONES BAYESIANAS
119
p(y1 , y2 )
n
y1
y1 = 0, . . . , 0 y2 1.
120
CAPTULO 4. ANALISIS
BAYESIANO
para i = 1, . . . , k 1. Para k suficientemente grande y1k tendra aproximadamente la densidad p(y1 ). Repitiendo m veces este algoritmo se
obtendra una muestra de la densidad p(y1 ). Note que es muy sencillo
generar muestras de tanto de la Binomial como de una Beta, las cuales
corresponden a las condicionales. Sin embargo no es obvio como generar
muestras de la marginal p(y1 ). En este caso particular puede probarse
que:
p(y1 ) =
4.6
n
y1
( + ) (y1 + )(n y1 + )
.3
()()
( + + n)
Ejercicios
vs.
H1 : > 0 ,
121
4.6. EJERCICIOS
+ nx
,
+n
= +
= + n,
n
= + ,
2
n
1X
n(x )2
(xi x)2 +
.
2 i=1
2( + n)
122
CAPTULO 4. ANALISIS
BAYESIANO
en el ejemplo 4.8 es x0 .
(b) L(, d) = 1
2
n0 + x+
n0 + n
inf P (A | x) =
x+
.
n0 + n
tn et dt.
m
1 X
P (Y1 = y1 | Y2i = y2i ).
m i=1
Captulo 5
An
alisis Bayesiano del
Modelo Lineal
En este captulo haremos una introduccion sobre varios analisis Bayesianos del modelo de mayor uso en estadstica, el Modelo Lineal Normal.
Supongamos que el vector y (n1) de n observaciones se distribuye
seg
un una distribucion Normal n-variada con media A1 1 , y matriz de
varianza-covarianza C1 . Esto es:
d
(y | 1 ) Nn (A1 1 , C1) ,
(5.1)
(5.2)
Nn (0, C1 ).
(5.3)
(5.4)
124
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
5.1
Previas No-Informativas
125
(5.6)
2
Iij = EY |
log f (y | ) .
i j
(5.7)
La regla de Jeffreys cumple con la siguiente propiedad de invariancia: Supongamos que = g() es cualquier transformacion uno-uno
diferenciable. Entonces:
[det I()]1/2 d = [det I()]1/2 d.
(5.8)
126
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
de datos con el mismo modelo, obtendran los mismos resultados a posteriori. Note que la previa de Jeffreys depende del modelo utilizado y
puede violar el Principio de la Verosimilitud , ya que la esperanza (5.7)
se toma sobre el espacio muestral.
5.2
An
alisis No-Informativo del Modelo Lineal
Supongamos por simplicidad que en (5.1) C1 = 2 I (errores no correlacionados) y que el rango de A1 es k (rango maximo).
El uso de las previas a) o c) del ejercicio 5.5 reproducen los resultados frecuentistas, en el sentido de que los intervalos de credibilidad
(probabilidad) Bayes-generalizados coinciden con los intervalos de confianza frecuentistas. Para verlo, note que la verosimilitud del Modelo
Lineal puede ser escrita como,
p(y | , ) =
2
1
!n
!n
1
exp 2 (y A1 1 )t (y A1 1 ) =
2
i
1 h 2
exp 2 S + Q(1 ) ,
2
Q( 1 )
(1 | y) 1 +
S2
#(v+k)/2
(5.9)
Q(1 ) = (1 c1 )t At1 A1 (1 c1 ),
(5.10)
donde:
con c1 el estimador de Maxima Verosimilitud y Mnimos Cuadrados:
c1 = (At1 A1 )1 At1 y, v = n k y S 2 es la suma de cuadrados residuales:
S 2 = min(y A1 1 )t (y A1 1 ) = (y A1 c1 )t (y A1 c1 ).
1
(5.11)
127
5.2. ANALISIS
NO-INFORMATIVO DEL MODELO LINEAL
un una tStudent
De (5.9) sigue que a posteriori 1 se distribuye seg
k-variada con v grados de libertad, localizacion c1 y matriz de escala
(At1 A1 )1 S 2 /v, esto es:
(1 | y) = Tk
S
v, c1 , (At1 A1 )1
(5.12)
(5.13)
(5.14)
yi 1
log yi
si
si
6= 0
= 0.
(5.15)
(5.16)
128
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
()
= y
()
n
Y
i=1
yi
!1/n
(5.17)
5.3
(y | 1 ) Nn (A1 1 , C1),
con A1 y C1 conocidas, y C1 positiva definida.
Supongamos que dado 2 (k2 1),
d
(1 | 2 ) Nk1 (A2 2 , C2 ),
con A2 y C2 conocidas, y C2 positiva definida.
(5.18)
129
(y) = Nn A1 , C1 + A1 C2 At1 ,
(1 | y) = Nk1 (Bb, B),
(5.19)
(5.20)
1
(1 | y) exp D(1 ) ,
2
donde
D(1 ) = (y A1 1 )t C11 (y A1 1 ) + (1 )t C21 (1 ) (5.21)
= (1 Bb)t B 1 (1 Bb) + G,
130
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
C1 + A1 C2 At1
o1
i1
Prueba.
La demostracion de este hecho algebraico puede hacerse
directamente o probabilsticamente igualando los terminos cuadraticos
de y en (5.19) y en
(y)
1
exp D(1 ) d1 .2
2
C2 0
C1 + A1 C2 At1
o1
i1
i1
= C2 C2 At1 A1 C2 At1 + C1
i1
A1 C2 , (5.25)
5.3.1
Un momento crucial del desarrollo del metodo Bayesiano fue el reconocimiento de que el conocimiento a priori puede ser modelado en
niveles que forman una jerarqua.
Agregamos a (5.1) y (5.18) la siguiente especificacion, dado 3 (k3
1),
d
(2 | 3 ) Nk2 (A3 3 , C3 ),
(5.26)
5.3. MODELO LINEAL JERARQUICO
131
(5.27)
y Nn (A1 A2 2 , C1 + A1 C2 At1 ),
o sea, (5.19).
La previa (5.26) pudo haber sido especificada directamente, pero
esto es mas difcil que especificarla en niveles, es decir modelarla. Por
otra parte, generalmente:
dim(1 ) dim(2 ) dim( 3 ),
(5.28)
132
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
(5.29)
(5.30)
donde:
h
i1
o1
(5.31)
A2 .
(5.32)
(5.33)
donde,
D01 = At1 C11 A1 + C21 C21 A2 (At2 C21 A2 )1 At2 C21 ,
d0 = At1 C11 y.
Prueba.
(5.34)
(5.35)
D1 = At1 C11 A1 + C21 C21 A2 (At2 C21 A2 + C31 )1 + At2 C21 , (5.36)
h
d = At1 C11 y + C21 C21 A2 (At2 C21 A2 + C31 )1 At2 C21 A2 . (5.37)
Sustituyendo C31 = 0 en (5.36) y (5.37), se obtienen los resultados
requeridos. 2.
133
Haciendo C21 0 en (5.23) se obtiene E(1 | y) = c1 , el estimador de mnimos cuadrados. Sin embargo cuando C31 0, E(1 |
y) = D0 d0 , o sea, el conocimiento estructural permanece, a
un cuando
el conocimiento parametrico se haga no-informativo. La ventaja es
que comunmente se usa una previa no-informativa en un espacio de
dimension menor que k1 . Pericchi y Nazaret(1988) discuten las ventajas y desventajas de E(1 | y) = D0 d0 , y muestran tests de diagnostico
sobre si C31 = 0 resulta una buena aproximacion o no.
En el MLNJ para el trabajo numerico, se puede usar la identidad
entre medias y modas para la distribucion Normal. Si la media a posteriori se denota por 1 , diferenciando por ejemplo (5.21) con respecto
a 1 , se obtiene:
At1 C11 (y A1 1 ) + C21 (1 ) = 0,
(5.38)
1i N(, B2 ).
(5.39)
N(, 2 ).
(5.40)
134
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
1i )2
+
w2
i (yi
i (1i
)2
B2
( )2
.
2
(5.41)
(ym 1m
) (1i
)
+
=0
w2
B
( )
= 0.
2
(5.42)
2
Resolviendo (5.42) se obtiene E(1m | y). Note que si , y
1m
i (1i
B2
ym.
2
w
1
2
w
+
+
y..
2
B
1
2
B
(5.43)
V ar(1m
2
| y) = 1 + w2
k1 B
Cov(1m , 1l | y) =
1
1
/
+ 2
2
w B
w2
k1 B2
= 2 ,
(5.44)
(5.45)
1
1
/
+ 2 .3
2
w B
135
(z | 1m )(1m | y)d1m .
d
N(1m
, w2 + 2 ).
(5.46)
X t X + (Ik k 1 Jk ) = X t y.
(5.47)
136
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
b + 1 ,
X t X + Ik = X t X
. k
(1)
1 (1 , | y) = 0,
(2)
( 1 , | y) = 0.
((1 | , y)) ( | y) = 0,
1
o sea,
( | , y) = 0.
1 1
Por lo tanto pueden usarse los estimadores modales 1 (obtenidos
en la discusion previa), sustituyendo los parametros de molestia por
sus estimadores modales.
137
Continuaci
on Ejemplo 5.3. Ahora en el ANOVA1, w2 y B2 son desconocidos y deben ser sustituidos por sus estimadores modales. Distribuciones convenientes (que no son conjugadas) son las chi-cuadrado
inversas es decir:
vw w
2 (vw ),
w2
vB B
2 (vB ).
B2
Los hiperparametros v y describen las medias y varianzas. Haciendo () = 1 e integrando con respecto a en (1 , w2 , B2 , , y) se
obtienen los estimadores modales de 1 , w2 y B2 :
yi.
y..
1
1
/ 2 + 2 ,
2 + 2
1i = w
w
B
B
P
2
=
{
(
)
+
v
} /(k1 + vB + 1),
B
B
i
B
1i
1
nw2
= {S + n
i (yi.
2
1i
)
(5.48)
+ vw w } /(nk1 + vw + 2),
P P
(5.49)
138
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
con = B2 /w2 . Obtienen que (1 | , y) es una t-Student multivariada (facilmente manejable) y consiguen la forma de ( | y). Esto
permite reducir la integracion a una dimension.3
5.4
139
(t | Dt1 ) N(mt1 | Rt ),
donde la u
ltima igualdad se obtiene usando independencia y las propiedades de la esperanza. Entonces la distribucion conjunta es:
(Yt , t | Dt1 ) N
"
mt1
mt1
Qt Rt
Rt Rt
!#
140
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
5.4.1
El Modelo constante
141
A1 = R1 /Q1 = 0.8,
ademas m1 = m0 + A1 (Y1 f1 ) = 130 + 0.8(150 130) = 146 y
C1 = A1 V = 80. Los resultados aparecen resumidos en la siguiente
tabla hasta t = 9.
t
1
2
3
4
5
6
7
8
9
Qt
505
185
151
139
133
130
128
127
126
ft
130.0
146.0
141.4
141.9
145.3
142.6
143.9
140.4
142.2
At
0.8
0.46
0.34
0.28
0.25
0.23
0.22
0.21
0.21
Yt
et
mt
Ct
150 20.0 146.0 80
136 -10.0 141.4 46
143
1.6 141.9 34
154 12.1 145.3 28
135 -10.3 142.6 25
148
5.3 143.9 23
128 -15.9 140.4 22
149
8.6 142.2 21
146
3.8 143.0 20
142
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
Ct
90.19
48.00
34.00
28.00
24.00
22.00
3
En conclusion, cuando la informacion externa sea relevante para
la prediccion que se desea realizar, y dispongamos de ella, es de vital
importancia a la hora de tomar decisiones incorporarla a la informacion
suministrada por el modelo.
A continuacion probaremos un teorema que nos permitira conocer
el comportamiento del coeficiente de adaptacion cuando t .
Teorema 5.4 En el MDL de primer orden constante, cuando t ,
At A y Ct C = AV , donde
A=
q
1 + 4/r 1
2
143
Prueba.
Ct = At V , con 0 < At < 1, entonces 0 < Ct < V, t.
Usando las ecuaciones de recurrencia del Teorema 5.3 se tiene:
1
1
1
1
Ct1 Ct1
= Rt1 Rt1
= Kt (Ct1
Ct2
),
C=
W +
W 2 + 4(V W )
2
V r 1 +
1 + 4/r
9900 380
90
20
6
0,75 0,01
0.01 0.05 0.10 0.20 0.33 0.67 0.99
1+4/r
,
2
r = A2 /(1 A),
2. Ct C = AV ,
3. Rt R = C/(1 A) = AV /(1 A),
4. Qt = Q = V /(1 A),
5. W = A2 Q.
144
5.4.2
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
En cualquier problema practico que requiera el ajuste de Modelos Dinamicos el principal inconveniente es la asignacion de las varianzas Vt
y Wt .
Consideremos el modelo constante, Rt = Ct1 +W y en el lmite R =
C
AC
C + W = 1A
, entonces W = 1A
, como A es constante, observamos
que la varianza W es una proporcion de C. Pareciera logico pensar
que la seleccion de W depende de la incertidumbre inicial C, y este
A
100%. Como = 1 A, entonces R = C/, as
porcentaje sera 1A
la seleccion de dependera del coeficiente de adaptacion del modelo
a los datos, y esto nos conducira a la seleccion de W . Por ejemplo si
A=0.1, entonces = 0.9 y la varianza W = 0.11 C, pero si disminuimos
= 0.8, la varianza aumentara a W = 0.25 C.
En cualquier caso, siempre sera conveniente elegir una tasa de adaptacion constante para cada t. Llamaremos a el factor de descuento
para cualquier MLD. Para una factor de descuento fijo tenemos,
Wt = Ct1
Rt =
Ct1
,
para cada t.
Hemos considerado aqu modelos constantes y no constantes, pero
en general cualquier MLD de primer orden converge rapidamente a un
modelo constante del tipo {1, 1, V, rV }, donde r = (1 )2 /, esta tasa
r se deduce de los casos lmites considerados anteriormente.
Una discusion mas general sobre factores de descuentos aparece en
West y Harrison (1989), sin embargo la idea introducida en esta seccion
es que los factores de descuento son una herramienta para la eleccion
de la varianza. Ademas en el caso de modelos no constantes esto nos
permite actualizar la varianza Wt para cada t, y en caso de tener que
incorporar informacion externa al problema los factores de descuento
jugaran un papel muy importante a la hora de ajustar la varianza para
cambiar el nivel de la serie.
Existe en la actualidad toda una industria de investigacion de aplicaciones y generalizaciones del Modelo Lineal Jerarquico Dinamico y
Filtros de Kalman, bajo el nombre de modelaje Bayesiano dinamico.
Referencias recientes los libros de West y Harrison (1989) sobre mod-
145
5.5. EJERCICIOS
5.5
Ejercicios
5.1 Para parametros de escala, f (y | ) = 1 f y , > 0, el problema debe ser invariante para cambios de escala z = c y, c > 0.
Muestre que entonces la medida invariante debe cumplir:
() =
(log ) = 1.
5.2 Mostrar que Iij () en (5.7) tambien puede ser escrita como:
"
log f (y | )
log f (y | ) .
Iij () = Ey |
i
j
5.3 Demostrar la Invarianza de la regla de Jeffreys, ecuacion (5.8).
5.4 Verificar que para regla de Jeffreys, si la verosimilitud es Normal
con media y desviacion tpica , resulta:
(a) Para varianza conocida () = 1.
(b) Para media conocida () = 1 .
(c) Ambas desconocidas (, ) =
1
.
2
1
,
k+1
si es desconocida.
146
CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL
Captulo 6
Selecci
on de Modelos y Test
de Hip
otesis Bayesianos
En este captulo (basado en Berger y Pericchi(1996) y Pericchi, Fiteni
y Presa(1996)) trataremos de manera especfica la clase de problemas
en la que el enfoque frecuentista y Bayesiano difieren drasticamente,
sobre todo cuando hay gran cantidad de datos. Es ademas una clase de
problemas de enorme importancia practica y de investigacion basica.
Esta clase de problemas engloba tanto a la seleccion de modelos como
al test de hipotesis.
6.1
Introducci
on
Comencemos con dos ejemplos que ilustran la utilidad los tipos de problemas en los que se hace necesario disponer de criterios de seleccion
de modelos y test de hipotesis.
Ejemplo 6.1 (Selecci
on de Modelos). Proschan (1962) considero
datos de los tiempos de falla del sistema de aire acondicionado de un
aeroplano. Se obtuvieron los siguientes 30 tiempos de falla (supuestos
i.i.d):
147
148
CAPTULO 6. SELECCION
BAYESIANOS
1
exp {xi /},
xi > 0, > 0,
o equivalentemente, haciendo = 1 ,
f1 (xi | ) = exp {xi },
xi > 0, > 0.
M2 : Modelo Lognormal:
f2 (xi | , ) =
exp {(log xi )2 /2 2 }
,
2
149
6.1. INTRODUCCION
N () (det I())1/2 =
1
,
o equivalentemente,
N () =
c
,
1
, 2 .
x nx
1
(6.2)
(6.3)
Notar la estrecha relacion que existe entre (6.2) y (6.3). La interpretacion de (6.2) es mas satisfactoria (porque siempre sera desconocido), pero a
un as la estimacion e intervalos obtenidos de (6.1) y (6.3)
seran muy cercanos.3
La cercana numerica encontrada en el ejemplo anterior, entre estimaciones usando Maxima Verosimilitud y Bayes con previas noinformativas, es tpica en problemas de una dimension, que tengan
150
CAPTULO 6. SELECCION
BAYESIANOS
verosimilitudes regulares (esto es verosimilitudes cuyo soporte no dependa del valor del parametro, como en el ejemplo 3.2).
Podra argumentarse, entonces, que en problemas de estimacion, la
diferencia entre los enfoques basados en la verosimilitud o en Bayes, es
mas academica que practica. (Esto no es as, sin embargo para problemas de muchos parametros incluso para el Modelo Lineal Jerarquico
como se vio en el Captulo 5, ni para Verosimilitudes irregulares, Atkinson, Pericchi y Smith (1991), Pericchi y Nadal (1996).)
Pero, incluso para verosimilitudes regulares de una dimension, el enfoque frecuentista y Bayesiano difieren drasticamente, y en forma creciente con el tama
no muestral n, para problemas de Test de Hipotesis,
como se vio en el Ejemplo 4.1, o mas generalmente para Seleccion de
Modelos.
Resulta paradojico constatar que al presente momento el enfoque
Bayesiano para estimacion este mucho mas desarrollado que para Test
de Hipotesis y Seleccion de Modelos. Precisamente para esta u
ltima
clase de problemas es para los que metodos Bayesianos son mas necesarios.
La razon de la paradoja es: tpicamente no pueden calcularse Probabilidades de Modelos, ni Factores de Bayes con previas no-informativas
.
Continuaci
on Ejemplo 6.2. Para una previa () bajo M2 , el factor
de Bayes es:
B21
m2
f (x | )()d
=
.
f (x | 0 )
f (x | 0 )
(6.4)
1
1+
p2
B
p1 21
.
(6.5)
151
6.1. INTRODUCCION
(6.4). Sin embargo, supongamos que se quiere realizar un analisis automatico, de referencia o no-subjetivo. Si, como en estimacion,
suponemos: N () = c/, entonces,
N
B21
=c
f (x | ) 1 d
f (x | 0 )
(6.6)
152
CAPTULO 6. SELECCION
BAYESIANOS
6.2
fj (x(l) | j ) N (j )
,
mN
j (x(l))
(6.7)
153
0 < mj (x(l)) =
fj (x(l) | j ) N (j )d < .
(6.8)
Lema 6.1
Bji (l) = R
N
BijN (x(l)),
Bji ((l)) = Bji
(6.9)
(6.10)
donde
N
Bji
= R
mN
fj (x | j ) N (j )dj
j (x)
=
,
N
fi (x | i ) (i )di
mN
i (x)
Prueba.
BijN (x(l)) =
mN
i (x(l))
.
mN
j (x(l))
Continuaci
on Ejemplo 6.2. En este caso la muestra de entrenamiento
mnima sera X (l) = Xl > 0, es decir un dato, ya que M1 no tiene
parametros ajustables (Hipotesis simple) y para M2 (usando (6.7)):
( | xl ) = R
0
exl c
exl c d
= xl exl ,
(6.11)
154
CAPTULO 6. SELECCION
BAYESIANOS
R
0
f (x(l) | )( | xl )d
=
f (x(l) | 0 )
mN
f (xl | 0 )
2 (x)
N
N
= B21
B12
(xl ).3
f (x | 0 )
mN
(x
)
l
2
L
L
X
1X
N 1
=
Bji(l) = Bji
BijN (x(l)),
L l=1
L l=1
(6.12)
donde L es el n
umero total de MEM que sean propias.
2. IBF Geom
etrico, la media geometrica,
GI
Bji
L
Y
l=1
!1/n
Bji(l)
N
Bji
L
1X
exp
log BijN (x(l)) .
L l=1
(6.13)
MI
N
Bji
= Medl (Bji (l)) = Bji
Medl BijN (x(l)) .
(6.14)
155
GI
B21
N
B21
"
N
B21
"
0
(W 0 T ) ,
n
y finalmente,
n
0 X
xl e0 xl ,
n l=1
donde
W =
(6.15)
n
X
log xl ,
(6.16)
l=1
MI
N
= B21
Medl 0 xl e0 xl .3
B21
(6.17)
Continuaci
on Ejemplo 6.1. En este ejemplo M1 : Exponencial vs.
M2 : Lognormal, las previas no-informativas utilizadas son:
1
1
y
2N (, ) .
mN
1 (x) =
(n)
Tn
1
(xi + xj )2
[(n 1)/2]
mN
,
2 (x) = Qn
(n1)
( i=1 xi ) (n1)/2 2 n Sy
Pn
i=1 (yi
y)2 , yi = log xi .
mN
2 (x(l)) =
1
.
2xi xj | log(xi /xj )|
Para los datos de este ejemplo hay 435 pares de observaciones pero
9 de ellos tienen Xi = Xj . Por ello estos 9 pares no son MEM y por
tanto fueron ignorados. Los resultados numericos fueron,
156
CAPTULO 6. SELECCION
BAYESIANOS
AI
GI
MI
B21
B21
B21
0.37 0.33 0.42
m (x1 , x2 ) =
1
x1
x2
1
f
f
dd =
.
3
2 | x1 x2 |
(6.18)
Prueba.
Sin perdida de generalidad supongamosh que X2 >i X1 y
hagamos el cambio de variables (, ) (v, w) = x1 , x2 . Entonces, aplicando el Teorema del Cambio de Variable, se tiene:
157
Z Z
1
1
f (v)f (w)dwdv =
m (x1 , x2 ) =
P (v < w),
|x1 x2 | v
|x1 x2 |
N
(6.19)
BfI g = BfNg .
(6.20)
y por lo tanto,
Por otra parte, la identidad (6.18) provee una justificacion de muestras de entrenamiento de tama
no mnimo. Si muestras de entrenamiento
N
mas largas, X (l), son empleadas, ya no se cumplira que Bgf
(x(l)) es
independiente de g y f . Muestras de entrenamiento mas largas producen una perdida innecesaria de informacion sobre la discriminacion
de modelos, y perdida innecesaria de simplicidad.
Generalizaciones de (6.18) para modelos mas complejos, como por
ejemplo para la robustificacion de los modelos ANOVA, se muestran en
Berger, Pericchi y Varshavsky(1996).
6.3
El IBF Esperado
158
CAPTULO 6. SELECCION
BAYESIANOS
(6.21)
EGI
N
B21
= B21 exp EM2 [log B12
(x(l)) | ] .
(6.22)
Notese que el IBF esperado es el valor lmite del IBF, ya que por la
Ley de Grandes N
umeros,
L
1X
L
N
B N (x(l)) EM2 [B12
(x(l) | ]
L l=1 12
N
1X
L
N
N
log B12
(x(l)) EM2 [log B12
(x(l)) | ].
L l=1
(6.23)
(6.24)
Continuaci
on Ejemplo 6.2. Usando las definiciones y (6.15) y (6.16)
obtenemos:
N
EM2 [B12
(xl ) | ] =
exp
[0 xl e0 xl ]f (xl | )dxl =
N
EM2 [log B12
(xl )
0
,
( + 0 )2
y
(6.25)
0
0
| =
exp (1)
,
(6.26)
EAI
N
N
b
Bb21
= B21
EM2 [B12
(X (l)) | ],
(6.27)
159
b .
b EGI = B N exp E [log B N (X (l)) | ]
B
M2
21
21
12
(6.28)
Continuaci
on Ejemplo 6.2. El estimador b de maxima verosimilitud
b
de es = 1/x. Sustituyendo en las formulas anteriores obtenemos,
b EAI =
B
21
b EGI =
B
21
Pn
(n) 0 e0 nx
,
nn xn1 (x0 + 1)2
(n)
i=1
xi
Pn
i=1
xi )n
(6.29)
0 x exp {(1) 0 x} .3
(6.30)
6.4
Previas Intrnsecas
Todava no hemos respondido la pregunta fundamental: El IBF obedece al Principio enunciado en la seccion 6.1?. Es decir, existe y puede
calcularse una distribucion a priori (propia) que de resultados cercanos
y asintoticamente equivalentes al IBF?. Afortunadamente la respuesta
es afirmativa para condiciones bastantes generales, y mas a
un puede
construirse una tal distribucion, que llamaremos Previa Intrnseca.
Por simplicidad supongamos la situacion del ejemplo 6.2, en el que
tenemos una hipotesis nula simple, H0 : = 0 . Supongamos as
mismo una (), bajo H2 : 6= 0 , desconocida. Sea N () la previa
impropia y automatica bajo H1 . En lo que sigue obtendremos aquella
() que es equivalente asintoticamente al IBF. Hagamos la siguiente
expansion asintotica:
N
B21
f (x | )()d
=
f (x | )
N
f (x | ) ()
N () ()d
f (x | )
N
b
B21
()
,
b
f (x | 0 ) N ()
(6.31)
160
CAPTULO 6. SELECCION
BAYESIANOS
B12
(x(l)) EM2 [B12
(x(l) | ]
b
L l=1
N ()
N
b
()
1X
L
N
N
log B12
(x(l)) EM2 [log B12
(x(l)) | ].
b
N
L
()
l=1
(6.32)
(6.33)
(6.34)
(6.35)
Continuaci
on Ejemplo 6.2. De la ecuacion (6.34) obtenemos,
AI () =
0
.
(0 + )2
(6.36)
La previa intrnseca Aritmetica es atractiva en varios sentidos. Primero, es propia pues integra 1. En segundo lugar, su mediana es 0 ,
el punto distinguido por la hipotesis nula. Por u
ltimo es una medida
bastante plana, y con una cola pesada. En la Figura 6.1 se muestra esta
previa para 0 = 5. All se ve diferente de la medida original N () =
1/. De hecho, puede argumentarse que (6.36) es la previa apropiada,
dada la informacion de que la hipotesis nula H0 : = 0 esta siendo
seriamente considerada. Una vez obtenida la previa intrnseca puede
ser usada como previa propia y obtener (analtica o numericamente) el
IBF propio. Alternativamente, se pueden realizar aproximaciones ,
que para este ejemplo resultan,
161
AI
B21
f (x | ) AI ()d
0
N
B21
.
b 2
f (x | 0
(0 + )
0
0
() = 2 exp (1)
.
GI
(6.37)
Integrando (6.37), resulta exp{(1)} = 0.561, o sea que es integrable pero no propia y por ello el IBF geometrico debe ser renormalizado dividiendo por exp{(1)} para ser consistente con el principio. En la Figura 6.1, tambien se muestra (6.37) luego de ser normalizada al dividirse por 0.561. Excepto en la vecindad de = 0, las
previas intrnsecas artimetica y geometrica son muy parecidas.3
()
1
0.8
No
informativa
c=1
0.6
previa
intrnseca
0.4 arit. IBF
previa intrnseca
geom. IBF
>
0.2
0
10
162
CAPTULO 6. SELECCION
BAYESIANOS
Prueba.
Z
Z
AI
()d =
()
f (x(l) | 0 )
f (x(l) | )dx(l)d =
mN
2 (x(l))
Z
f (x(l) | 0 ) Z N
()f (x(l) | )d dx(l) = f (x(l) | 0 )dx(l) = 1.2
mN
2 (x(l))
M2 : 6= 0 ,
vs
N
2. Existe, B2 (2 ) = EM2 2 B12
(x(l)) = limI I1
PI
k=1
N
B12
(x(k)).
6.5.
163
2I (2 ) = 2I (2 )B2 (2 ).
(6.38)
De (6.38) se obtiene:
2I (2 )d2
2N (2 )
(Z
mN
1 (x(l))
f (x(l) | 2 )dx(l) d2 ,
mN
2 (x(l))
aplicando Fubini en la u
ltima integral resulta,
Z
mN
1 (x(l))
mN
(
x
(l))
dx(l)
2
mN
2 (x(l))
mN
1 (x(l))dx(l) = 1,
6.5
En esta seccion trataremos de manera muy suscinta el IBF para el Modelo Lineal Normal. Un tratamiento mas completo aparece en Berger y
Pericchi (1.996,a,b).
Suponga que el modelo Mj , para j = 1, . . . , q, para los datos Y
(n 1), es el Modelo Lineal,
Mj : Y = Xj j + j ,
j Nn (0, j2 In ),
(6.39)
1
.
j
164
CAPTULO 6. SELECCION
BAYESIANOS
N
Bji
Ave[BijN (x(l))]
"
mN (x)
mN
i (x(l))
= jN
,
Ave
m2 (x)
mN
j (x(l))
(6.40)
donde Ave denota los averages artimetico y geometrico correspondientes al IBF aritmetico y geometrico. (El IBF mediano es tambien
interesante debido a su robustes.)
Para el Modelo Lineal (6.39), el IBF es relativamente sencillo. Anal
ticamente se obtiene el siguiente resultado:
N
Bji
= (kj ki )/2
(6.41)
AI
Bji
(nk )/2
L
|xtj (l)xj (l)|1/2 (Rj (l))1/2
|xti xi |1/2 Ri i
CX
= t 1/2 . (nkj )/2 .
.
,
|xj xj |
L l=1 |xti (l)xi (l)|1/2 (Ri (l)(p+1)/2
Rj
donde p = kj ki y C =
nk
nki
2
( p+1
2 )
( 12 )
(6.42)
6.5.
165
contra de los otros modelos. Para mas detalle ver Berger y Pericchi
(1.996,a,b,c). En estos trabajos se obtienen las previas intrnsecas y se
demuestra que los correspondientes al AIBF son previas propias razonables.
Ejemplo 6.4. (Comparaci
on de Modelos de Regresi
on) Datos
tomados de Halds, p.82. Se desea estudiar el calor desprendido por un
cierto tipo de cemento al endurecerse, en funcion de su composicion.
Las variables de interes en el estudio son:
Y : Calor desprendido (cal/gr).
X1 : Porcentaje de aluminio de calcio (3CaO.Al2 O3 ).
X2 : Porcentaje de silicato tetracalcico (3CaO.SiO2).
X3 : Porcentaje de ferrita alumnica tetracalcica (4CaO.Al2 O3 .F e2 O3 ).
X4 : porcentaje de silicato dicalcico (2CaO.SiO2).
Al realizar un experimento se obtienen los siguientes datos:
X1 X2 X3 X4
7 26
6 60
1 29 15 52
11 56
8 20
11 31
8 47
7 52
6 33
11 55
9 22
3 71 17
6
1 31 22 44
21 47
4 26
2 54 18 22
1 40 23 34
11 66
9 12
10 68
8 12
Y
78
74
104
87
95
109
102
72
115
93
83
113
109
166
CAPTULO 6. SELECCION
BAYESIANOS
6.5.
167
J
X
j=1
(6.43)
168
CAPTULO 6. SELECCION
BAYESIANOS
Ap
endice A
Distribuciones de
probabilidades
En este apendice se presentan algunas de las densidades de probabilidad
mas comunes en estadstica que son usadas en los ejemplos y ejercicios
de este libro. Aqu se daran unicamente el nombre de la densidad, la
notacion usada, el espacio muestral X, el rango de los parametros de
la densidad y algunas propiedades u
tiles de la misma.
Antes que nada, la notacion utilizada sera:
det(B) = determinante de la matriz B.
(a) = funcion Gamma usual definida por (a) =
xa1 ex dx.
naturales (n) =
n!
1 si x A
0 si x 6 A
DISTRIBUCIONES CONTINUAS.
1. Normal univariada (N(, 2 )): X = R, < < , 2 > 0
con:
(
)
1
1 (x )
2
f (x | , ) =
exp
,
2 2
2
169
170
APENDICE
A. DISTRIBUCIONES DE PROBABILIDADES
1
1
exp (x )t S 1 (x ) ,
p/2
1/2
(2) (det(S))
2
1
1(a,b) (x),
ba
1
(b
12
a)2 .
1
xa1 ex/b 1(0,) (x)
(a) ba
a
,
a+b
(a + b) a1
x (1 x)b1 1[0,1] (x),
(a)(b)
la varianza
ab
.
(a+b)2 (a+b+1)
171
6. Cauchy (Cauchy(a, b)): X = R, < a < , b > 0, con:
f (x | a, b) =
b
,
[b2 + (x a)2 ]
b
b2
[(a + b)/2]aa bb
x(a2)/2
1(0,) (x),
(a/2)(b/2) (b + ax)(a+b)/2
si b > 2, la varianza
2b2 (a+b2)
a(b4)(b2)2
si b > 4.
8. Distribuci
on t con a grados de libertad, parametro de localizacion y parametro de escala 2 , (T (a, , 2)): X = R, a >
0, < < , 2 > 0, con:
"
[(a + b)/2]
(x )2
f (x | a, , ) =
1+
a(a/2)
a 2
2
(X)2
2
Caso especial:
a2
(a2)
# 1 (a+1)
2
si a > 2.
F (1, a).
1 (a+p)
[(a + p)/2]
1
f (x | a, , S ) =
1 + (x )t S 1 (x )
1/2
p/2
(det(S)) (a) (a/2)
a
2
la media y la varianza
aS
,
a2
si a > 2.
172
APENDICE
A. DISTRIBUCIONES DE PROBABILIDADES
1
b(a1)
1
e1/xb 1(0,) (x),
(a)ba xa+1
si a > 1, la varianza
1
b2 (a1)2 (a2)
si a > 2.
DISTRIBUCIONES DISCRETAS.
11. Binomial (B(n, p)): X = {0, 1, 2, . . . , n}, 0 p 1, n =
1, 2, . . ., y
!
n
f (x | n, p) =
px (1 p)nx ,
x
la media np y la varianza np(1 p).
12. Poisson (P ()): X = {0, 1, 2, . . . , }, > 0,
f (x | ) = e
x
,
x!
media=varianza=.
13. Binomial Negativa (BN(a, p)): X = {0, 1, 2, . . . , }; 0 < p 1,
a>0y
(a + x)
pa (1 p)x ,
f (x | a, p) =
(x + 1)(a)
la media
a(1p)
p
y la varianza
a(1p)
.
p2
Caso especial:
(a) Geom
etrica (Ge(p)) que corresponde a la BN(1, p).
14. Multinomial (M(n, p)): x = (x1 , . . . , xk )t , donde
k
X
i=1
xi = n, y
k
X
i=1
n
Y
i=1 xi ! i=1
pxi i
173
la media de Xi es npi , la varianza de Xi es npi (1pi ) y Cov(Xi , Xj ) =
npi pj .
174
APENDICE
A. DISTRIBUCIONES DE PROBABILIDADES
Bibliografa
[1] Berger, J.(1984) The robust Bayesian viewpoint (with discussion).
Robustness in Bayesian Analysis, J. Kadane (ed.). North-Holland,
Amsterdam.
[2] Berger, J.(1985) Statistical Theory and Bayesian Analysis. (2da.
Ed.) Springer Series in Statistics. Springer-Verlag.
[3] Berger, J. y Berliner, L.M. (1984) Bayesian input in Stein esimation and a mew minimax empirical Bayes estimator. J. Econometrics 25, p.87-108.
[4] Berger, J. y Wolpert, R. (1984) The likelihood Principle. Institute
of Mathematical Statistics, Monograph Series, Hayward, California.
[5] Berger, J. y Sellke, T. (1987) Testing a point null hypothesis: The
irreconcilbility of P-values and evidence. J. American Statistical
Association, 82, p.112-122.
[6] Bernardo, J.M. (1980) A Bayesian Analysis of classical hypothesis
testing. Proc. First Int. Meeting Bayesian Statist., J.M. Bernardo,
M.H. DeGroot, D.V. Lindley y A.F.M. Smith (eds) 605-618, Univeristy Press, Valencia, Espa
na.
[7] Blackwell, D. y Girshick, M.A. (1954) Theory of Games and Statistical Decisons. Wiley, New York.
[8] Box, G.E.P. y Cox, D.R. (1964) An analysis of Transformations
(with discussion). J. Royal Statistical Society, Series B 26, p.211252.
175
176
BIBLIOGRAFA
BIBLIOGRAFA
177
178
BIBLIOGRAFA
BIBLIOGRAFA
179
180
BIBLIOGRAFA
[56] Ramsey, F.P. (1926) Truth and Probability. Reimpreso en Studies in Subjective Probability, H.E. Kyburg y H.E. Smokler (eds.).
Wiley, New York, 1964.
[57] Rubin, D.B. (1976) Inference and missing data. Biometrika, 63,p.
581-592.
[58] Savage, L.J. (1954) The foundations of Statistics. Wiley, New York.
[59] Sivaganesan, S. y Berger, J.O. (1989) Ranges of posterior Measures
for priors with unimodal contaminations. Ann. Stat., 17,2,p. 868889.
[60] Smith, A.F.M. y Spiegelhalter, D.J. (1980) Bayes factors and
choice criteria for Linear Models. J.R. Stat. Soc. B,44,p. 213-220.
[61] Stein, C. (1956) Inadmissibility of the usual estimator for the mean
of a multivariate distributuion. Proc. Third Berkley Symp. Math.
Stat. Prob., University of California Press, 1,p. 197-206.
[62] Stone, M. (1971) Strong Inconsistency from Uniform Priors (with
comments). J.Amer.Stat.Assoc. 71,p. 114-125.
[63] Tierney, L. y Kadane, J.B. (1986) Accurate approximations for posterior moments and marginal densities. J.Amer.Stat.Assoc., 81,p.
82-86.
[64] Wald, A. (1950) Statistical Decision Functions. Wiley, New York.
[65] Walker, A.M. (1969) On the asymptotic behavior of posterior distributions. J.R.Stat.Soc. B,31,p. 80-88.
[66] Walley, P. (1987) Notes in Decision Theory. Manuscrito de curso
en la Universidad de Cornell, U.S.A.
[67] Walley, P. (1991) Statistical reasoning with imprecise probabilities.
Chapman and Hall.
[68] West, M. y Harrison, J. (1989) Bayesian Forecasting and dynamic
models. Springer Series in Statistics. Springer-Verlag.
Indice
estructural, 125, 127, 129
parametrico, 125, 127
Cromwell,regla de, 47
Cuadratura Gaussiana, 95
Admisibilidad, 45
Algoritmos computacionales, 95
Analisis
automaticos, 118
Bayesiano, 83
no informativo del modelo lineal, 120
secuencial, 100, 102
Anova, 118, 127
Aproximacion Bayesiana, 88
Apuestas, 67, 75
compuestas, 73
Arbol de decision, 6, 8, 28
Axiomas de racionalidad, 68, 72,
73
Decisi
n
no-aleatorias, 14
Decision
optima, 87, 98
optima Bayes, 86
optimas, 21
optimo Bayes, 101
Bayes condicional, 26
condicional, 78
inadmisible, 14
Minimax, 43
predictiva, 98
Densidad
a posteriori, 6
a priori, 5
clase casi ignorante de, 108
condicional, 93
conjugada, 106
clases de, 107
conjunta, 30
marginal, 93
posterior, 122
posterior, 98, 99
predictiva, 5, 96
Dispersion, 33
Bayes
estimador de, 46
factor de, 87
lmite de, 52
regla de, 39
Teorema de, 5
teorema de, 80, 85
Bayes-Laplace
postulado de, 118
Borel, conjunto de, 5
Borel,conjunto de, 103
Cambios de localizacion, 119
Conocimiento
181
182
a priori, 124
inicial, 78
posterior, 124
Distribucion
a priori, 87
clases de, 91
acumulada, 13
Beta, 31, 96
Binomial, 31, 96
de Cauchy, 23
de Murphy, 36, 42
F de Fisher, 121
Gamma, 105
Normal, 30, 89, 117, 127
t-student, 94, 121
Uniforme, 108
Elementos de un problema de decision, 3
Error
cuadratico medio, 18
de tipo I, 83, 85
de tipo II, 83
Errores
no correlacionados, 120
Espacio
de acciones, 3
de estados, 3
de parametros, 83
no acotado, 119
de parametros canonicos, 103
muestral, 4
Esperanza
a posteriori, 31, 104, 122
a priori, 104, 106
matematica, 12
posterior, 101
INDICE
183
INDICE
Inferencia predictiva, 95
Informacion muestral a priori, 107
Intervalo
de confianza, 120, 121
de credibilidad, 120, 121
Intervalos
de confianza, 78, 92
de credibilidad, 92, 94
de probabilidad, 92
Invarianza
propiedad de, 119
Jeffreys
previas de, 120
regla de, 119, 120
Jensen, desigualdad de, 50
Laplace
aproximacion de, 95, 100
ley de sucesion, 108
ley de sucesion, 97
Metodos aproximados, 95
Matriz
de dise
no, 117
de Fisher, 119
de informacion de fisher, 99
de varianza-covarianza, 100,
117, 127
Maximin, valor, 55
Mediana, 33
Medida
a priori, 105, 122
de Lebesgue, 104
invariante, 119
Medidas
de probabilidad, 103
no informativas, 118
Minimax
decision, 43
estrategia, 53
regla, 35, 41
teorema, 56
valor, 35, 55
Modas, 127
Modelo
de clasificacion, 127
de regresion m
ultiple, 129
lineal, 117, 121, 122
analisis no informativo, 120
jerarquico, 122, 125
Normal, 117
Normal jerarquico, 124, 125
verosimilitud, 120
Muestra
secuencial, 102
tama
no optimo, 100, 102
Neyman, criterio de factorizacion
de, 29
Neyman-Pearson
lema de, 83, 84
teora de, 88
Normalidad asintotica, 98
Ordenamiento
Bayesiano, 24
Minimax, 35
Perdida
cuadratica, 17, 98, 101
esperada, 76
esperada a posteriori, 92
esperada posterior, 79
posterior, 107
posterior esperada, 86
184
Parametro
canonico, 105
de localizacion, 119
Parametros, 95
de localizacion, 22
de molestia, 93, 95
vector de, 96
Paradoja
de Lindley, 89
de San Petersburgo, 67
Peso de la evidencia, 87
Precision, 32
Previa, 5
de Jeffreys, 120
de referencia, 75
no informativa, 124, 127, 129
Normal-Gamma, 93
Previas
no informativas, 118
uniforme, 118
Principio
Bayesiano, 66, 75, 79
de la maximizacion de la utilidad, 25
de la verosimilitud, 76, 77,
120
de minimizacion de la perdida
esperada, 102
del riesgo posterior, 79
Probabilidad
a posteriori, 88
asignacion de, 4
condicional, 5
predictiva, 96
subjetiva, 73
Procedimientos
optimo-Bayes, 24
INDICE
insesgados, 22
invariantes, 22
Promedio poderado, 123
Promedio ponderado, 94
Recompensas, 67, 68, 73, 75
Regla
optima, 21
optima Bayes promedio, 27
optima Bayes-promedio, 24
admisible, 20
aleatoria
degenerada, 19
aleatorias, 19
aleatorizada, 43
Bayes promedio, 45
Bayes promedio optima, 84
de Bayes, 39, 40
de Cromwell, 47, 100
de decision determinada, 13,
19
de Jeffreys, 119, 120
determinada, 27
igualadora, 37
inadmisible, 20
Minimax, 35, 41
regresion simple, 118
Restriccion del conjunto de deciones, 21
Riesgo
Bayesiano, 24, 53, 100, 102
Bayesiano promedio, 84
conjunto de, 20, 40
cuadratico, 78
frecuentista, 14
inicial, 78
posterior, 79
INDICE
promedio, 83
Sesgo, 18
Taylor
formula de, 99
Teora
de imprecision, 74
de Juegos, 35, 52
de utilidad, 65, 72, 75
subjetiva, 65
Teorema
de Bayes, 5, 80, 85
del hiperplano separante, 50
del lmite Central, 98
Minimax, 56
Test
de diagnostico, 127
de hipotesis, 17, 83, 87, 88
clasico, 89
puntual, 88, 91
de significancia de Fisher, 85
Transformacion
a normalidad, 121
de Box y Cox, 121
Utilidad
del dinero, 70, 71
funcion de, 4, 72
Varianza
a priori, 90
Vector
canonico, 103
de errores, 117
de medias, 125
de observaciones, 119
de parametros, 93, 117
185
de pararametros, 103
de regresores, 118, 129
Ventaja
a priori, 87
a priori y post, 87
posterior, 86, 87
Verosimilitud, 5, 80, 88, 96, 123
cociente de, 85, 87
estimador de maxima, 23
exponencial, 105
funcion de, 17
Normal, 93, 97
principio de la, 76, 120