Вы находитесь на странице: 1из 185

An

alisis de Decisi
on, Inferencia y
Predicci
on Estadstica Bayesiana
Por
Luis Raul Pericchi Guerra
Complementos:
Ana Judith Mata

An
alisis de Decisi
on, Inferencia y
y Predicci
on Estadstica Bayesiana

Luis Ra
ul Pericchi Guerra
Centro de Estadstica y Software Matematico (CESMa)
y Dpto. de Computo Cientfico y Estadstica
Universidad Simon Bolvar
Caracas, Venezuela

Complementos:
Ana Judith Mata
Universidad Simon Bolvar

AGRADECIMIENTOS
Este libro tiene como antecedente sucesivas monografas, las cuales
fueron textos de cursos que dicte en los siguientes eventos cientficos:
II Escuela Venezolana de Matematicas, en la Universidad de Los
Andes, Merida, Septiembre 1989.
IV Congreso Latinoamericano de Probabilidad y Estadstica Matematica, CLAPEM, en Ciudad de Mexico, Mexico, Septiembre
1990.
Curso-Seminario de las Americas en Estadstica Bayesiana y Econometra, en la Universidad Simon Bolvar, Caracas, Venezuela,
Diciembre 1992.
Agradezco a los respectivos Comites organizadores de dichos congresos sus invitaciones. Mencion especial merece Francisco Aranda-Ordaz,
miembro fundamental del Comite organizador del IV CLAPEM, con
quien compart trabajo y juerga. Francisco murio, demasiado pronto
y por error, tragica y absurdamente, pero en medio de su familia y
su pas, pocos meses depues de finalizar el IV CLAPEM en Ciudad
de Mexico. Ello ha sido una perdida irreparable para el avance de la
Ciencia y la practica de la Estadstica en Latinoamerica, y para sus
amigos.
La presente version es una drastica revision de las monografas anteriores. Le debo al Profesor Victor Perez-Abreu, Presidente de la
Sociedad Bernoulli Latinoamericana, y al Profesor Victor Yohai, Presidente del Comite de Publicaciones de dicha Sociedad, el estmulo para
realizar esta revision.
Durante los a
nos en los que este proyecto en los que este proyecto se
ha ido realizado mi grupo de trabajo, en la Universidad Simon Bolvar,
ha crecido y se ha desarrollado. Comenzo por el Taller de Estadstica,
TAE como grupo de trabajo dentro del Departamento de Matematicas
Puras y Aplicadas. Se ha convertido en el Centro de Estadstica y

4
Software Matematico, CESMa, con miembros de tres departamentos
de la USB, principalmente del Departamento de Computo Cientfico y
Estadstica, creado en 1996. A mis compa
neros del CESMa les debo
su paciencia, apoyo y cordialidad. Especialmente deseo mencionar a
los profesores: Marialena Lentini, Isabel Llatas, Bruno Sanso, Mara
Eglee Perez, Lelys Bravo, Jose Miguel Perez, Raquel Prado, Jose Luis
Palacios y Ra
ul Jimenez.
No puedo dejar de mencionar varios cienctficos de categora internacional como Ignacio Rodriguez-Iturbe, Anthony Atkinson, Carlos Alberto de Braganza Pereira, Adrian Smith, Phil Browm, William
Nazaret, Peter Walley, Elas Moreno y Jim Berger, que a lo largo de
estos a
nos me han ofrecido su colaboracion, sabidura y amistad.
Finalmente, le hago un reconocimiento muy especial a la Licenciada
Ana Judith Mata. Mas que una ayudante ha sido una colaboradora y
este libro le debe mucho de lo bueno que pueda tener (el resto es obra
ma). Si no hubiera sido por su incansable insistencia y persecucion,
ademas de sus destrezas estadsticas y computacionales, este libro no
habra sido terminado.

PREFACIO
Este libro presenta las ideas basicas y algunos desarrollos recientes
de la Teora y Analisis de Decision y de la Inferencia Bayesiana. Ambas
teoras estan profundamente relacionadas, como se vera a lo largo del
desarrollo.
El libro comienza presentando el enfoque clasico a la Teora de Decision, de inspiracion frecuentista, basada en la funcion de riesgo muestral. La funcion de riesgo por s sola no es capaz de seleccionar la
decision optima aunque s de desechar una buena parte de ellas, las
decisiones llamadas inadmisibles.
Se presentan tres enfoques alternativos para ser acoplados a la
funcion de riesgo y de esta manera encontrar un curso de accion. Estos
enfoques son: i)La restriccion del espacio de decisiones, ii)Minimax y
iii)Bayes. Le damos mas enfasis a los u
ltimos, los llamados criterios
globales. Se concluye luego de compararlos, que es el enfoque Bayesiano
el mas satisfactorio y racional, a
un cuando requiere de una buena dosis
de actitud crtica y de analisis de sensitividad respecto a los supuestos.
En el curso de la presentacion, se presenta tambien un argumento
Bayesiano mas directo: el enfoque condicional al dato observado basado
en la minimizacion de la perdida posterior esperada. Este enfoque no
utiliza la funcion de riesgo frecuentista. Al final las decisiones optimas
Bayesianas van a ser las mismas sin importar que va se siga, pero esta
u
ltima resulta en una simplificacion substancial.
La discusion general se lleva los dos primeros captulos, siendo el
segundo el mas complejo matematicamente. El resto del libro se dedica
enteramente al enfoque Bayesiano. En el captulo 3 se presenta otra
manera de llegar al principio Bayesiano: La Teora de la Utilidad, que es
una axiomatizacion de la decision estadstica. Tambien en este captulo
se muestra que Bayes obedece a los principios basicos: Principio de la
verosimilitud y el de la precision final.
Los problemas de inferencia estadstica pueden ser presentados como
problemas de decision. Esto se hace en los u
ltimos captulos, donde

6
se intenta una introduccion a la inferencia Bayesiana actual, tratando
temas como: modelos jerarquicos, modelos lineales dinamicos, metodos
de simulacion para el caculo de densidades posteriores y aproximaciones, metodos Bayesianos robustos y metodos no subjetivos para la
seleccion de modelos y test de hipotesis.
Este libro puede ser u
til a diferentes niveles, tanto como un curso
avanzado de pregrado como de postgrado. La formacion requerida es
la de caculo basico e intermedio, as como al menos un curso basico
de probabilidades y estadstica. Por ello puede ser presentado a estudiantes de matematicas, estadstica, ciencias actuariales, ingeniera,
economa y areas afines. Tambien puede ser estudiado con diferentes
enfasis. Un curso mas centrado en la Teora de la Decision se concentrara en el captulo 2. Mientras un curso interesado en la inferencia
Bayesiana, enfatizara los u
ltimos captulos.
Espero que esta presentacion de la Teora de Decision y en particular de la inferencia Bayesiana, que es, desde mi punto de vista, uno de
los enfoques de desarrollos tanto teoricos como aplicados, mas espectaculares en tiempos recientes, sea de utilidad para las Ediciones de la
Sociedad Bernoulli Latioamericana.

Luis Ra
ul Pericchi Guerra
Centro de Estadstica y Software Matematico (CESMa)
Universidad Simon Bolvar
Caracas, Enero 1998.

Contenido
1 Elementos del Problema de Decisi
on Estadstica
9
1.1 Elementos de un Problema de decision Estadstica . . . . 9
1.2 El Problema de Decision como un Juego entre el TD y
la Naturaleza . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Teora Cl
asica de Decisi
on
2.1 Introduccion. . . . . . . . . . . . . . . . .
2.2 Conceptos Basicos de la Teora de Decision
2.3 Decisiones Optimas . . . . . . . . . . . . .
2.4 Representacion Geometrica de las Reglas
Minimax para finito. . . . . . . . . . . .
2.5 Admisibilidad y Reglas de Bayes . . . . . .
2.6 Admisibilidad y Reglas Minimax . . . . .
2.7 Ejercicios . . . . . . . . . . . . . . . . . .

17
. . . . . . . . 18
Clasica . . . 18
. . . . . . . . 27
de Bayes y
. . . . . . . . 46
. . . . . . . . 51
. . . . . . . . 58
. . . . . . . . 66

3 Fundamentos de la Teora Bayesiana de Decisi


on
3.1 Breve introduccion a la Teora de Utilidad . . . . . . .
3.1.1 Metodos de construccion de la funcion de utilidad
U . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 El Principio de la Verosimilitud . . . . . . . . . . . . .
3.3 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . .

71
. 72
. 74
. 82
. 86

4 An
alisis Bayesiano
89
4.1 Test de Hipotesis . . . . . . . . . . . . . . . . . . . . . . 89
4.2 Operaciones con la Distribucion a Posteriori y sus propiedades 98
4.2.1 Intervalos de Credibilidad (Probabilidad) . . . . . 98
4.2.2 Densidades Marginales y Parametros de Molestia 99
7

CONTENIDO

4.3

4.4

4.5

4.6

4.2.3 Inferencia Predictiva . . . . . . . . . . . . . . . . 101


4.2.4 Normalidad Asintotica de la Densidad Posterior . 104
Aplicaciones al Dise
no Experimental y al Analisis Secuencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
4.3.1 Tama
no de la Muestra Optimo . . . . . . . . . . 106
4.3.2 Analisis Secuencial . . . . . . . . . . . . . . . . . 108
La Familia Exponencial. Extension del Principio Bayesiano109
4.4.1 Densidad a priori No-Conjugada. Influencia acotada y no acotada . . . . . . . . . . . . . . . . . . 115
Calculos y Aproximaciones Bayesianas . . . . . . . . . . 115
4.5.1 Aproximaciones de Laplace . . . . . . . . . . . . 116
4.5.2 Integracion de Monte Carlo . . . . . . . . . . . . 117
4.5.3 Simulacion de la densidad posterior . . . . . . . . 118
4.5.4 Metodos Monte Carlo de Cadenas de Markov (MCMC)118
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5 An
alisis Bayesiano del Modelo Lineal
5.1 Previas No-Informativas . . . . . . . . . . . . .
5.2 Analisis No-Informativo del Modelo Lineal . . .
5.3 Modelo Lineal Jerarquico . . . . . . . . . . . . . .
5.3.1 Modelo Lineal Normal Jerarquico (MLNJ)
5.4 El Modelo Lineal Dinamico . . . . . . . . . . . .
5.4.1 El Modelo constante . . . . . . . . . . . .
5.4.2 Caso Varianza desconocida . . . . . . . . .
5.5 Ejercicios . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

6 Selecci
on de Modelos y Test de Hip
otesis Bayesianos
6.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . .
6.2 El Factor de Bayes Intrnseco . . . . . . . . . . . . . .
6.3 El IBF Esperado . . . . . . . . . . . . . . . . . . . . .
6.4 Previas Intrnsecas . . . . . . . . . . . . . . . . . . . .
6.5 El IBF para el Modelo Lineal Normal . . . . . . . . .
A Distribuciones de probabilidades

.
.
.
.
.
.
.
.

123
124
126
128
130
138
140
144
145

147
. 147
. 152
. 157
. 159
. 163
169

Captulo 1
Elementos del Problema de
Decisi
on Estadstica
Enfrentaremos el siguiente problema : suponemos que un Tomador de
decisiones (TD) se propone tomar una decision racional bajo condiciones de incertidumbre estadstica. Es decir, el estado de la naturaleza no le es conocido exactamente, pero puede adquirir informacion
sobre el a partir de un experimento. Ademas, el TD tiene valores, o sea
si supiera la condicion exacta de la naturaleza sera capaz de ordenar
sus posibles decisiones en terminos de sus preferencias.

1.1

Elementos de un Problema de decisi


on
Estadstica

Los elementos de un problema de Decision Estadstica a ser especificados por el TD para cada problema son los siguientes :
1. Espacio de posibles acciones : A = {a}
2. Espacio de estados posibles de la naturaleza o espacio de
par
ametros: = {}.
3. Familia de experimentos para adquirir informaci
on experimental (o muestral) sobre : E = {e}.
9

10

ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

4. Espacio muestral, o sea, el espacio de posibles observaciones


experimentales : X = {x}.
Ejemplo 1.1 (Control de Calidad). Le envan del exterior a una
compa
na un lote de 10000 transistores. La compa
na designa a un
TD el cual tiene el espacio de acciones : A = {a1 , a2 }, donde a1
es aceptarlo y pagar el precio fijado, y a2 rechazarlo y pagar el flete
de vuelta, = {0 , 1 , . . . , 10000 } donde el estado de la naturaleza
j = {j transistores defectuosos}. El TD puede inspeccionar un n
umero
n a su antojo de transistores, y al hacerlo el proceso de inspeccion los
destruye. Entonces el espacio de experimentos es : E = {e0 , . . . , e10000 }
donde en = {n transistores son inspeccionados}. El espacio muestral
para el experimento en viene dado por : X = {(j, n) : 0 j n
10000}, donde (j, n) es la observacion: j transistores de los n inspeccionados son defectuosos.3
5. Funci
on de utilidad (p
erdida) : El TD escoge una funcion :
u(e, x, a, ) : E X A R.
El TD le asigna una utilidad u(e, x, a, ) a realizar el experimento e , observar el resultado x, tomar la accion a y finalmente encontrar el valor . Esta avaluacion u, toma en cuenta
el costo de experimentacion as como las consecuencias de la
accion a para cada estado de la naturaleza . Equivalentemente,
el TD puede evaluar sus perdidas en la forma de una funcion:
L(e, x, a, ) = u(e, x, a, ). El TD es racional si procura la
maxima utilidad o equivalentemente la menor perdida.
6. Asignaci
on de probabilidades: Antes de observar el resultado
del experimento X = x, tanto X como son variables aleatorias
(v.a) ( que es inobservable hasta el final del problema de decision,
continuara siendo v.a). Una vez decidido el experimento e, las
v.as X y estan gobernadas por la densidad de probabilidad
conjunta:

ESTADSTICA
1.1. ELEMENTOS DE UN PROBLEMA DE DECISION

11

p,X (, x | e) : X R + .
Antes de discutir maneras alternativas de evaluar la densidad conjunta, recordemos el Teorema de Bayes. Supongamos : R d un
conjuto de Borel, es una medida de probabilidad (llamada a priori
o previa) en R d , con () = 1, el vector de observaciones x R n tiene
una densidad pX| (x | ) con respecto a una medida -finita la cual
no depende de , PX| es conjuntamente medible en (X, ). Entonces
para cada conjunto B, -medible, la siguiente formula (de Bayes) define una medida regular de probabilidad condicional para dado X, y
puede justificarse bajo condiciones bastante generales (ver por ejemplo
Walley 1989) :
R

p(x | )d()
=
P (B | x) = R
p(x | )d()
B

p(x | )d()
,
m(x)

(1.1)

donde hemos omitido por conveninecia la mencion al experimento e.


Si B = , entonces en terminos de la densidad tenemos :
p|X ( | x) =

pX| (x | )()
.
m(x)

(1.2)

Las densidades de probabilidad que aparecen en (1.2) tienen una


importancia capital en Estadstica y Teora de Decision:
pX| : es la verosimilitud de la observacion condicionada al
parametro.
() : es la densidad a priori que nos da la plausibilidad de cada
valor del vector de parametros antes de observar el experimento.
Se interpreta a () como el conocimiento que tiene el TD sobre
antes de la observacion.
m(x) es la densidad predictiva de las observaciones, proveniente
de promediar la verosimilitud a traves de la medida a priori.

12

ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

p|X ( | x) es la densidad a posteriori o posterior , que nos


indica el aprendizaje que se ha obtenido a partir de los datos X ,
pasando de un conocimiento a priori a uno a posteriori. De
la simetra entre X y podemos entonces escribir: (omitiendo los
subndices):
p(x, ) = p( | x)m(x) = p(x | )().

(1.3)

Entonces tenemos tres estrategias para asignar la densidad conjunta:


1. Directamente,
2. p( | x)m(x),
3. p(x | )(), siendo esta u
ltima la mas usual.

1.2

El Problema de Decisi
on como un Juego
entre el TD y la Naturaleza

El juego se realiza en cuatro pasos : TD escoge e, N escoge x, TD


escoge a, N escoge , y finalmente TD recibe u(e, x, a, ).
El juego sigue el siguiente diagrama donde los nodos cuadrados son
de decision (TD) y los nodos circulares (N) son aleatorios.

a1
e1

eE

e3
2e3
s

 a2

x1


x X

3
x2
x3

R4

a3
a*
4-

2 -

a5

aA

u(e2 , x3 , a4 , 2 )

3
R

Figura 1.1. Arbol de Decision


Ejemplo 1.2. Una operadora de Petroleos de Venezuela debe tomar
una decision con respecto a un area donde a
un no se ha perforado pero

COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA13


1.2. EL PROBLEMA DE DECISION

que tiene una alta probabilidad de tener petroleo. Los estados de la


naturaleza son (simplificadamente):
=

1 : Hay petroleo.
2 : No hay petroleo

Las acciones posibles de la operadora son:


A=

a1 : Perforar
a2 : Vender el campo a otra operadora

La operadora tiene la posibilidad de realizar una medicion geologica


para verificar si cierta formacion geologica esta presente o ausente. El
costo de la medicion es C (en miles de $). El espacio muestral consta
de dos puntos:
X=

0 formacion geologica ausente


1 formacion geologica presente

La presencia o ausencia de petroleo afecta la probabilidad de la presencia o ausencia de la formacion geologica de acuerdo con la siguiente
funcion de verosimilitud:
p(x | i ):

\x 0
1
1 0.2 0.8
2 0.7 0.3

Note que necesariamente p(x = 0 | i ) + p(x = 1 | i ) = 1, i = 1, 2.


El experimento da informacion acerca de a traves de la verosimilitud
(y del teorema de Bayes). Por ejemplo p(x = 1 | 1 ) > p(x = 0 | 1 ),
pero se obtiene lo contrario para 2 . Supongamos que el TD esta dispuesto a afirmar antes de observar a x que, en base a su conocimiento
tecnico , en areas de similares caractersticas a la presente, la probabilidad a priori de la presencia de petroleo es:

(i ): 1
2

()
0.6
0.4

Finalmente el TD eval
ua su utilidad (o perdida) monetaria o no, de
las diferentes acciones frente a los posibles estados de la naturaleza. Si
no se realiza el experimento geologico, la perdida (en miles de $) viene

14

ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

dada por la siguiente tabla:


\a
a1
a2
L(a, ): 1 -5000
0
2
2000 -500
Si se realiza el experimento a la funcion de perdida anterior se le
suma C, por ejemplo L(a1 , 1 ) = 5000 + C, etc.
El TD tiene al principio tres posibles decisiones: perforar, vender o
realizar el experimento, y debe decidir la que reporte menor perdida. Si
se realiza el experimento, las probabilidades de cambian, por lo que
se deben calcular las probabilidades a posteriori, lo que se hara en el
siguiente captulo. El arbol de decision esta representado en la figura
1.2.3

1
a1

2
a2

x=1
Experimento

x=0

a1

2
a2

a1
a2

2
1

1
2

-5000+C
2000+C
C
-500+C
-5000+C
2000+C
C
-500+C

-5000

2000

1
2

Figura 1.2. Arbol de decision Ejemplo 1.2

0
-500

COMO UN JUEGO ENTRE EL TD Y LA NATURALEZA15


1.2. EL PROBLEMA DE DECISION

El problema de decision esta ahora completamente especificado y el


TD, si quiere conservar su puesto, debe tomar una decision que haga
su perdida mnima (o su utilidad maxima). Sin embargo, su perdida
depende crucialmente del estado de la naturaleza , el cual no puede
observar antes de tomar su decision!. Precisamente, para romper este
crculo necesitaremos de una teora de decisiones bajo incertidumbre
que desarrollaremos en los proximos captulos. Por u
ltimo, hacemos
notar que a
un cuando es desconocido hay informacion substancial
sobre ella, sobre todo cuando observemos el valor de X .

16

ESTADSTICA
CAPTULO 1. ELEMENTOS DEL PROBLEMA DE DECISION

Captulo 2
Teora Cl
asica de Decisi
on
La teora de decisiones bajo incertidumbre tiene su desarrollo original durante la II Guerra Mundial. El texto clasico donde se expone
partiendo de un punto de vista frecuentista (es decir basado en la
frecuencia relativa de las observaciones X de experimentos similares
condicionados en ) es Wald (1950). A partir de all ha tenido un vigoroso desarrollo que iremos mencionando. En este captulo nos basaremos primordialmente en Ferguson(1967) as como en Lehmann(1983),
Berger(1985), Brown(1984), Pericchi(1986) y Walley(1987).
Un punto de vista alternativo al frecuentista, pero con muchos puntos de contacto con el, es el Bayesiano o subjetivo, expuesto en
Savage(1954), DeGroot(1970), Lindley(1971) y Berger(1985), donde el
conocimiento a priori del experimento juega un papel mas prominente.
Le dedicaremos al enfoque subjetivo los captulos finales de este libro
a
un cuando conceptos subjetivos apareceran en forma natural a todo
lo largo del mismo.
Supondremos todo el tiempo que el TD es un individuo, o un grupo
que act
ua como individuo. Esto no necesariamente es as en la practica.
Un area apasionante de investigacion es Teora de Decision de Grupos
que no tocaremos aqu.
17

18

2.1

CAPTULO 2. TEORA CLASICA


DE DECISION

Introducci
on.

En este captulo se introducen muchas ideas que son fundamentales en


Teora de Decision, y ademas se comparan los puntos de vista frecuentista y Bayesiano, as como las ventajas y desventajas de cada uno.
En la seccion 2.1 se definen conceptos basicos de la Teora Clasica de
Decision basada en el concepto frecuentista de la funcion de riesgo. Sin
embargo, no existe una u
nica solucion admisible de acuerdo al riesgo.
En la seccion 2.2 se introducen tres criterios de ordenamiento de las
decisiones: 1)Restriccion del conjunto de decisiones, 2)Ordenamiento
Bayesiano y 3)Ordenamiento Minimax. Se desecha el ordenamiento
del criterio 1 porque tpicamente excluye buenas decisiones y porque
para un conjunto amplsimo de problemas, selecciona como optimas a
decisiones inadmisibles.
Seguidamente se estudian las propiedades de las reglas de Bayes y
Minimax. Respecto a esta u
ltima, que es fundamental en Teora de Juegos, se concluye que para la Teora de Decision no es adecuada, por su
pesimismo y porque tpicamente selecciona como optimas decisiones no
determinadas, es decir aleatorias. Por u
ltimo exponemos ventajas del
enfoque Bayesiano que lo hacen la alternativa mas atractiva a la Teora
de Decision, a
un cuando es conveniente hacer analisis de sensibilidad
con respecto a la distribucion a priori. Pero, incluso desde el punto de
vista frecuentista, el enfoque Bayesiano presenta ventajas fundamentales, como el hecho de que toda decision admisible es una decision
Bayesiana, o lmite de Bayesiana. Ademas implica una simplificacion
radical del analisis racional de decisiones.

2.2

Conceptos B
asicos de la Teora de Decisi
on Cl
asica

Notacion: Denotaremos a la Esperanza Matematica de la funcion g(y, ),


donde y es la variable de integracion, por :
( P
g(y, )p(y | ) si y es una v.a discreta
EY | [(g(y, )] = R yY
Y

g(y, )p(y | )dy

si y es una v.a continua


CLASICA

2.2. CONCEPTOS BASICOS


DE LA TEORA DE DECISION

19

donde Y son los valores posibles de y, y p(y | ) es la densidad de


probabilidades de y condicionada al valor del parametro .
Generalizaremos la nocion de esperanza dada arriba por la expresion
mas suscinta :
EY | [(g(y, )] =

g(y, )dP (y | ) = E [g(y, ) | ]

(2.1)

Se puede interpretar a (2.1) como la integral de Lebesgue, suponiendo


que para cada , g(y, ) es integrable Lebesgue. Tambien puede interpretarse la ecuacion (2.1) como la integral de Riemann-Stieltjes, donde
P (y | ) es la distribucion acumulada de y condicionada a y g(y, )
es continua en un conjunto de probabilidad uno bajo P (y | ) para
cada . Las propiedades de (2.1) que van a ser mas utilizadas son:
1. E(ax + y) = aE(x) + E(y)
2. Si x > 0 E(x) > 0.
Las propiedades 1 y 2 son validas bajo ambas interpretaciones. Ilustraciones de la notacion expuesta son por ejemplo:
1. E|X [u(e, x, a, )] =
2. P|X (A) =

u(e, x, a, )dP ( | x)

dP ( | x)

3. PX| (B) = B dP (x | ),R y si esta bien definida la densidad p(x |


), entonces PX| (B) = B p(x | )dx.

El lector debe percatarse de que P|X y PX| son dos entidades completamente distintas y no debe confundirse por el hecho de que en ambas
se utilice la may
uscula P . Note que por ejemplo P|X (A) = E|X [1A ()],
donde
1A () =

1 si A
0 si 6 A

Definici
on 2.1 Cualquier funcion d(x) : X A es llamada una regla
de decision no aleatoria o determinada.

20

CAPTULO 2. TEORA CLASICA


DE DECISION

Supongamos que el TD especifica una funcion de perdida L, o


equivalentemente una funcion de utilidad u(e, x, d(x), ), en la que
supondremos (por simplicidad de notacion) que tanto el efecto del experimento, como de x estan considerados dentro de la regla de decision d(x). O sea, tenemos que: L(e, x, d(x), ) = u(e, x, d(x), )=
L(d(x), ) = u(d(x), ). Podemos en general representar el problema
de decision estadstica por : (, A, L), acoplado a un experimento e
que envuelva a la v.a X cuya distribucion depende exclusivamente de
: PX| . El concepto pivote sobre el que se fundamenta la teora clasica
(frecuentista) de decision, es el concepto de Riesgo Frecuentista.
Definici
on 2.2 El valor esperado respecto de X de la funcion de perdida
para la regla de decision d(x) se llama el riesgo frecuentista. O sea
R(, d) = EX| [L(d(x), )] =

L(d(x), )dP (x | )

(2.2)

Comentarios
1. Usualmente nos restringimos a aquellas reglas de decision para
las cuales R(, d) existe y es finito . Denotamos a esta
clase de decisiones no aleatorias de riesgo finito por D.
2. R(, d) representa la perdida promedio (en X) del TD cuando
emplea la regla de decision d(x) y el estado de la naturaleza es .
El TD quisiera encontrar un d0 tal que el riesgo fuese mnimo.
3. El average o promedio (2.2) se toma con respecto a la frecuencia de los posibles valores de X. Por consiguiente R(, d) no es
funcion de X pero s de , la cual no es observable antes de la decision. (Paradojicamente, a pesar de que X es observable se toma
el promedio en esta variable). Por esta razon R(, d) aisladamente no sirve para ordenar completamente las reglas de decision
de mejor a peor, aunque servira para excluir decisiones absurdas
que llamaremos inadmisibles. Para ordenar racionalmente las decisiones optimas necesitaremos un extra-principio que nos diga
como ordenar completamente R(, d), ya que es desconocido.

21

CLASICA

2.2. CONCEPTOS BASICOS


DE LA TEORA DE DECISION

Ejemplo 2.1 (cont. Ejemplo 1.2).


Podemos listar las posibles
reglas de decision que han sido precedidas de la decision de realizar el
experimento e1 de la siguiente manera:
x\d
0
1

d1
a1
a1

d2
a1
a2

d3
a2
a1

d4
a2
a2

Ademas las reglas en las cuales se ha decidido no realizar el experimento e0 :


d5 = a1
y
d6 = a2

R(2 , d)
d1

2000

d5

d2
1000
d3

-5000

-4000

-3000

-2000

-1000
d6

d4

1000

R(1 , d)

-1000

Figura 2.1. Region D de decisiones determinadas (Ejemplo 2.1)


Por ejemplo, la regla de decision d2 significa: decidir hacer el experimento , y si obtenemos x = 0 tomamos la accion a1 , pero si obtenemos

22

CAPTULO 2. TEORA CLASICA


DE DECISION

x = 1 tomamos la accion a2 . Por otro lado, la regla de decision d5


significa decidir no realizar el experimento y tomar la accion a1 .
P
Entonces : R(, d) = EX| [L(d(x), ] = 2j=1 L(aj , )PX| (d(x) =
aj ). Por ejemplo, usando la funcion de perdida y verosimilitud dadas
en el enunciado del ejemplo 1.2 en el Captulo 1, tenemos:
R(2 , d2 ) = L(a1 , 2 )PX| (d2 (x) = a1 ) + L(a2 , 2 )PX| (d2 (x) = a2 )
R(2 , d2 ) = 2000P (x = 0 | 2 ) + (500)P (x = 1 | 2 ) + C =
2000(0.7) + (500)(0.3) + C = 1250 + C
Para d5 y d6 , R(, dj ) = L(, dj ). Entonces el riesgo R(, d) viene
dado por la siguiente tabla (se deja como ejercicio verificarla):
R\d
d1
d2
d3
d4
d5
d6
R(1 , d) -5000+C -1000+C -4000+C
C
-5000
0
R(2 , d) 2000+C 1250+C
250+C -500+C 2000 -500
Supongamos que C = 90. Entonces los riesgos se dan en la siguiente
tabla:
R\d
d1
d2
d3
d4
d5
d6
R(1 , d) -4910 -910 -3910 90 -5000
0
R(2 , d) 2090 1340 340 -410 2000 -500
En la figura 2.1 se grafican d1 a d6 , donde los ejes son R(1 , d) y
R(2 , d).3
Es de hacer notar que en el ejemplo 2.1 hay decisiones que jamas
tomaramos racionalmente: por ejemplo d1 es peor que d5 tanto para
1 como para 2 . Decimos que d1 esta dominada por d5 , y que d1
es inadmisible. El lector puede comprobar que todas las reglas de
decision que estan por encima de la frontera inferior del grafico (2.1)
son inadmisibles, es decir d1 y d4 son inadmisibles. Por otra parte
las decisiones que forman la frontera inferior, es decir d3 , d6 y d5 no
estan dominadas por ninguna otra decision determinada y por tanto
son admisibles. Veremos en este captulo que esto no es casual.


CLASICA

2.2. CONCEPTOS BASICOS


DE LA TEORA DE DECISION

23

Ejemplo 2.2 (Test de hip


otesis). Aqu el problema es decidir si
pertenece a un subconjunto del espacio de parametros 0 , que es
la hipotesis nula, o a su complemento:
H0 : 0

vs

H1 : c0

La funcion de verosimilitud es pX| el espacio de acciones es A = {a0 , a1 }


donde a0 es aceptar H0 y a1 rechazar H0 (o sea aceptar H1 ). La funcion
de perdida viene dada por:
ai \
L(, ai ) : a0
a1

c0
L0
0

0
0
L1

donde Li > 0, para i = 0, 1. Entonces L0 es la perdida por la falsa


aceptacion de H0 y L1 la perdida por falso rechazo de H0 . Se supone
que la perdida incurrida por una decision correcta es cero. Por lo tanto
la funcion de riesgo es:

R(, d) =

L0 P (d(x) = a0 | ) si c0 (Error de falsa aceptacion de H0 )


L1 P (d(x) = a1 | ) si 0 (Error de falso rechazo de H0 ),
(2.3)

(usualmente se llama al error de falsa de aceptacion Error de tipo II, y


al de falso rechazo Error de tipo I), o sea el riesgo es la perdida incurrida por una decision incorrecta multiplicada por la probabilidad de una
decision erronea. Notar que esta probabilidad es calculada condicionalmente para cada , cuando H1 o H0 son correctas respectivamente. Los
valores de L0 y L1 son asignados por el TD.3
Ejemplo 2.3 (Estimaci
on puntual). Sea = R, y se desea estimar o aproximar a por una funcion d : X R. Entonces A = R, y
se dice que el espacio de parametros y decisiones coincide. Supongamos
que el TD asigna una perdida cuadratica: L(, d(x)) = c( d(x))2 con
c > 0. Esta funcion de perdida, que fue originalmente usada por Gauss,
es la mas frecuentemente empleada en problemas de estimacion. Es convexa y simetrica penalizando igualmente la sub o la sobre-estimacion.

24

CAPTULO 2. TEORA CLASICA


DE DECISION

Es ademas muy tratable matematicamente. Es sin embargo algo arbitraria, (por que no | d(x) |?), no acotada y crece quizas demasiado
rapido cuando d(x) se aleja de . El riesgo en este caso se denomina
error cuadratico medio y puede escribirse como:

cEX|




R(, d) = EX| c( d(x))2 =




2 

EX| (d(x)) d(x) EX| (d(x))


2

c EX| (d(x))


+ cEX|



h

2 

d(x) EX| (d(x))

2c EX| (d(x)) EX| d(x) EX| (d(x))


y como
h

EX| d(x) EX| (d(x)) = EX| [d(x)] EX| [d(x)] = 0,


ya que EX| [d(x)] no depende de X, entonces si definimos

tenemos:





EX| (d(x)) = sesgo(d(x), )
n

R(, d) = c sesgo2 (d(x), ) + V arX| (d(x)) .3

(2.4)

Por lo tanto si se emplea perdida cuadratica un buen estimador


d(x) sera aquel cuya suma de sesgo al cuadrado mas su varianza sea
peque
na. El test de hipotesis y la estimacion puntual (y de intervalos
que veremos posteriormente) son los problemas mas importantes de
la inferencia estadstica , y hemos visto en los ejemplos 2.2 y 2.3 que
pueden frasearse como problemas particulares de la teora de decision
estadstica.


CLASICA

2.2. CONCEPTOS BASICOS


DE LA TEORA DE DECISION

25

Para proseguir, conviene (matematicamente) extender el espacio de


decisiones determinadas D, por su casco convexo que llamaremos D.
Los elementos de D, (x); seran llamados reglas de decision aleatorias
y pueden ser pensados como una distribucion de probabilidades en D.
Definici
on 2.3 Una regla de decision aleatoria , es una distribucion
en el conjunto D de las reglas de decision determinadas. Su funci
on
de riesgo se define como : R(, ) = EZ [R(, z)], donde Z es una v.a
que toma sus valores en D y cuya distribucion viene dada por . El
espacio D esta compuesto por las reglas de decision aleatoria tal que
R(, ) exite y es finita .
Una ventaja matematica de considerar D es que linealiza a D. Por
ejemplo si 1 y 2 D, y 0 1, definimos = h1 i + (1 )h2 i,
o sea es 1 con probabilidad y 2 con probabilidad 1 , es decir,
una mezcla de 1 y 2 , entonces: R(, ) = R(, 1 ) + (1 )R(, 2 )
y D, y por lo tanto D es convexo. Esta claro ademas que D D,
ya que d D, corresponde a la regla aleatoria (degenerada) que asigna
probabilidad uno al punto d. Tambien es claro que R(, ) esta en el
segmento de la recta que une a 1 con 2 .
Continuaci
on Ejemplo 2.1. Una posible regla aleatoria es:
(e, x) =

d3 con probabilidad 1/2


d6 con probabilidad 1/2.

Entonces (e, x) puede obtenerse como: con probabilidad 12 , no


hacer el experimento y tomar la accion a2 , como especifica d6 . Con
probabilidad 12 , hacer el experimento; si x=0, tomar la accion a2 y si
x=1 tomar la accion a1 .
O sea, el TD lanza una moneda balanceada. Si sale cara, aconseja
no realizar el experimento y tomar la accion a2 . Si sale sello, aconseja realizar el experimento, si sale x=0 aconseja la accion a2 y si sale
x=1 aconseja la accion a1 . Las decisiones aleatorias son claramente
insensatas en el contexto de teora de decision y posiblemente el TD
perdera su puesto si decide (e, x). (El estadstico esta para reducir la
incertidumbre, no para aumentarla, R.A.Fisher).

26

CAPTULO 2. TEORA CLASICA


DE DECISION

La funcion de riesgo de sera:


1
1
R(, ) = R(, d3 ) + R(, d6 ).
2
2
O sea, R(, ) esta en la recta que une a d3 con d6 en la figura 2.1.
De hecho:
1
1
R(1 , ) = (3910) + (0) = 1955
2
2
1
1
R(2 , ) = (340) + (500) = 80. 3
2
2
Definici
on 2.4 El conjunto de riesgo S es el conjunto de puntos en
R k cuyas coordenadas son (R(1 , ), . . . , R(k , )) para toda D.
Por la linealidad del riesgo, S es un conjunto convexo, o sea si
x S, y S, 0 1, entonces: x + (1 )y S. Esto se

demostrara en la seccion 2.3.

Continuaci
on Ejemplo 2.1. En la figura 2.1, S sera el conjunto convexo que tiene a las decisiones determinadas d1 , . . . , d6 como vertices.3
Entonces los vertices de S corresponden a decisiones determinadas.
(Pero es posible que una decision determinada caiga en el interior de
S). Procedemos ahora a ordenar parcialmente las decisiones D de
acuerdo al riesgo frecuentista.
Definici
on 2.5 Sean 1 y 2 D. Diremos que 1 es R-mejor que 2
si:
1. R(, 1 ) R(, 2 ), .
2. R(0 , 1 ) < R(0 , 2 ), para alg
un 0 .
1 D es admisible si no existe D que sea R-mejor que 1 .
Decimos que 1 D es inadmisible si no es admisible, es decir, si existe
D que sea R-mejor que 1 . Si , A y X son finitos como en el
ejemplo 2.1, entonces D es finito y S es un poliedro, que es el casco
convexo de un n
umero finito de puntos en D, cuyos vertices son reglas
de decision determinadas. Entonces, S es convexo, cerrado y acotado.

27

2.3. DECISIONES OPTIMAS

Definici
on 2.6 Para x S, Qx = y R k : yj xj , 1 j k, y 6= x
es el conjunto de puntos de riesgo que son mejores que x. La frontera
inferior de S, (S) , es el conjunto de los x S tal que Qx S = .
Continuaci
on Ejemplo 2.1. (S) esta compuesto por los segmentos
de recta que unen a d5 con d3 y d3 con d6 , o sea las D que son
mezclas de d5 y d3 y d3 y d6 . Estas mezclas son precisamente el conjunto
de decisiones admisibles en D.3
Teorema 2.1 Supongamos que (S) S y existe M tal que si
(y1 , . . . , yk ) S yj > M; j = 1, . . . , k. Una regla de decision D
es admisible si y solo si su punto de riesgo esta en (S).
Prueba: (Ejercicio)
Sugerencia: es admisible si y solo si no existe un punto de riesgo
mejor en S, si y solo si Qx S = .2
Admisibilidad es solo una condicion necesaria mas no suficiente para
que una regla de decision sea razonable. Mas a
un, establece solamente
un orden parcial entre las decisiones que no nos permite encontrar la
regla optima, si esta existe. Como escoger entre la infinidad de reglas
admisibles en el ejemplo 2.1?. Precisamos de un metodo que nos provea
de un orden total de las decisiones y nos permita encontrar una regla
optima. Expondremos seguidamente tres metodos alternativos.

2.3

Decisiones Optimas

METODO 1: Restriccion del conjunto de decisiones


Este punto de vista sostiene que hay tpicamente demasiadas decisiones y que para ordenarlas primero se precisa restringirlas, dejando
fuera decisiones tontas. Un ejemplo motivara este punto de vista.
Continuaci
on Ejemplo 2.3. El siguiente estimador tonto de es
admisible: d(x) = a, x X. Es decir no importa cual sea la evidencia
dada por el experimento, aproximamos a por el valor a. El problema

28

CAPTULO 2. TEORA CLASICA


DE DECISION

es que para = a : R(a, d) = c{sesgo2(d(x), a) + V arX|a (d(x))} = 0,


ya que la varianza de d(x) es 0 por ser una constante y sus sesgo es
nulo para = a. Entonces un estimador optimo tendra que mejorar a
todos los estimadores (x) = a, variando a en R y debera tener riesgo
nulo para todo ; lo cual es imposible. Se busca entonces restringir a
D de tal manera que d(x) = a quede fuera.3
Sigamos con problemas de estimacion puntual y veamos dos posibles
estrategias.
1. Procedimientos Insesgados: Consideremos solo aquellos estimadores que sean insesgados, o sea
n

d(x) : EX| [d(x)] = , ,

y as el estimador tonto anterior queda fuera. Si la perdida es


cuadratica entonces el problema se reduce a encontrar un estimador de varianza mnima, el cual en muchos casos existe.
2. Procedimientos Invariantes: Se plantea que la estructura del
estimador optimo no debe depender del origen o escala de medidas
de X o de otros factores arbitrarios.
Para fijar ideas supongamos que es un parametro de localizacion
es decir:
PX| (x | ) = PX| (x )

L(, a) = L( a).

En este caso los estimadores invariantes por cambios en el origen


de los datos X son:
{d(x) : d(x + b) = d(x) + b}.
A
un cuando las estrategias del metodo 1 han sido en el pasado
muy usadas, lo son cada vez menos. Las razones principales son
las siguientes:
(a) Si bien dejan fuera a estimadores tontos, tambien excluyen
a buenos estimadores. (Veremos ejemplos a lo largo de este
libro).

29

2.3. DECISIONES OPTIMAS

(b) Los estimadores optimos de (1) o (2) pueden ser inadmisibles.


Ejemplo 2.4. Supongamos que PX| (x | ) = PX| (x) = Cauchy(, 1) =
1
. Para esta densidad no existe la Esperanza de X y por lo
[1+(x)2 ]
tanto ning
un otro momento. Supongamos que la funcion de perdida
es cuadratica L(, d(x)) = L( d(x)) = c( d(x))2 . Siendo este
un problema invariante por cambios de localizacion, los estimadores
invariantes son de la forma: db (x) = x + b, (los cuales no pueden ser
insesgados ya que no existe EX| (x)). Ahora bien:
h

R(, db ) = EX| c( (x + b))2 = ,


para todo y todo b. Sin embargo el estimador tonto y no-invariante
d(x) = 0 tiene riesgo R(, 0) = 2 < R(, db ), y por lo tanto todos los
estimadores invariantes son inadmisibles.3
Ejemplo 2.5. Este es el ejemplo mas famoso de inadmisibilidad (James
y Stein, 1960). Sean X1 , . . . , Xn independientes, Xj N(j , 1), y
se quiere estimar = (1 , . . . , n ) con perdida cuadratica: L(, a) =
Pn
2
j=1 (j aj ) . El estimador 0 (x) = x, o sea estimar cada j por
Xj , es el estimador invariante optimo y es el estimador insesgado de
varianza mnima. (Tambien es el estimador de maxima verosimilitud
y de mnimos cuadrados, metodos populares de obtener estimadores).
El estimador 0 (x) es admisible para n=1 o n=2, pero es inadmisible
para n 3. Este resultado, que conmovio a la inferencia estadstica, fue
obtenido originalmente por Stein (1955).


El estimador sesgado 1 (x) =

Pn2
n

x2j

x, para n 3, propuesto

por James-Stein, domina a 0 (x) para todo .3


Por estas razones desechamos el metodo 1 de restriccion de reglas de
decision y procedemos a exponer y estudiar los proximos dos metodos
que proveen un ordenamiento global de las reglas de decision.
j=1

30

CAPTULO 2. TEORA CLASICA


DE DECISION

METODO 2: Ordenamiento Bayesiano.


El ordenamiento parcial de las decisiones provienen del hecho de que
R(, ) depende de , ademas de . Podemos ordenar las decisiones si
tomamos el valor esperado de R(, ) con respecto a la medida de probabilidad d() = ()d, donde () es la distribucion a priori de
y () su densidad. La interpretacion de () es subjetiva: es el
estado de conocimiento que el TD tiene acerca del estado de la naturaleza. Se supone aqu que el TD tiene informacion suficiente acerca
de como para representarla por una u
nica distribucion (), es decir
para representarla de una manera precisa. Llamaremos a este supuesto,
la hipotesis de la precision. Si esta hipotesis es aceptada, entonces es
razonable ponderar R(, d) por (): Si (x) es una decision que lo
hace muy bien (R(, ) peque
no) en una region 0 de alta probabilidad a priori, y no tan bien en c0 que tiene poca probabilidad a priori,
entonces (x) seguira siendo bastante buena.
Definici
on 2.7 El riesgo Bayesiano de la regla de decision D para
la distribucion a priori () se define como:
n

r(, ) = E [R(, )] = E EX| [L((x), )] ,


el cual se supone que existe y es finito.

Definici
on 2.8 La regla de decision 0 sera la regla de decision optima
Bayes- promedio con respecto a la distribucion a priori si y s
olo
si:
r(, 0 ) = inf r(, ).
D

Es de hacer notar que la anterior definicion esta basada en un promedio en X (condicional en ), y por tanto sobre un concepto frecuentista.
Esto es innecesario ya que el valor de X = x sera conocido luego de
obtener el resultado del experimento. Por tanto tenemos una forma
alternativa de definir un procedimiento optimo-Bayes.
Definici
on 2.9 La perdida Bayesiana esperada condicional en X de la
accion (x) para la distribucion a priori () se define como:

31

2.3. DECISIONES OPTIMAS

(, (x)) = E|X [L(, (x))] =

L(, (x))d( | x).

Definici
on 2.10 La accion (x) sera la accion optima Bayes, condicional en X, para la distribucion a posteriori ( | x) si y solo si:
(, (x)) = inf (, (x)).
D

A la definicion 2.10 se le conoce como el principio de la maximizacion (minimizacion) de la utilidad (perdida) esperada. Para cada
x X, escogemos aquella accion (x) que hace mnimo lo que esperamos perder. Surge la pregunta, Puede la regla de decision optima
Bayes promedio 0 obtenerse como (x) para cada x X?. Afortunadamente la respuesta es s, bajo condiciones bastante generales.
Teorema 2.2 Supongamos que L(, d) es no negativa y que:
1. Existe un estimador con riesgo finito.
2. Para casi todo x, existe un n
umero (x) que minimiza a (, (x)).
Entonces (x) es optimo Bayes promedio.
Prueba.
Sea cualquier estimador con riesgo finito. Entonces,
(, (x)) es finito c.s, ya que L es no negativa. Por lo tanto
E [L(, (x)) | x] E [(L(, (x)) | x]

c.s.,

y el resultado se obtiene tomando esperanzas (en X) a ambos miembros.2


Notamos que si L(, d) = M + L (, ), con M finito y L (, d) no
negativa el teorema 2.2 sigue siendo valido.
Continuaci
on Ejemplo 2.1. A partir de la tabla de riesgos, de
(1 ) = 0.6 y (2 ) = 0.4, y recordando que hemos supuesto C = 90,
podemos calcular los riesgos Bayesiano promedio usando la definicion
2.7 como sigue:
r(, d) =

2
X
i=1

R(i , d)(i ).

32

CAPTULO 2. TEORA CLASICA


DE DECISION

Se deja al lector verificar la siguiente tabla:


r\d
d1
d2
d3
d4
d5
d6
r(, d) -2110 -10 -2210 -110 -2200 -200
Por lo tanto la mejor decision determinada sera d3 , o sea, realizar
el experimento y tomar la accion a2 si x = 0 y a1 si x = 1. Alternativamente, para obtener la mejor accion Bayes-condicional calculemos
primero las probabilidades a posteriori seg
un la regla de Bayes:
P (1 | x = 0) P (x = 0 | 1 )(1 ) = 0.2 0.6 = 0.12
P (2 | x = 0) P (x = 0 | 2 )(2 ) = 0.7 0.4 = 0.28
De lo anterior se tiene que P (x = 0) = P (x = 0 | 1 )(1 ) + P (x =
0 | 2 )(2 ) = 0.40. Normalizando, es decir dividiendo por P (x = 0),
se obtiene:
P (1 | x = 0) =

0.12
0.4

= 0.3

P (2 | x = 0) =

0.28
0.4

= 0.7

Procediendo de manera similar para x = 1 se tiene P (x = 1) = 0.6,


y entonces
P (1 | x = 1) = 0.8
P (2 | x = 1) = 0.2.
Si observamos x = 0, la perdida esperada a posteriori para a1 y a2
sera:
(, a1 ) = (4910)(0.3) + (2090)(0.7) = 10
(, a2 ) = (90)(0.3) + (410)(0.7) = 260
de donde se deduce que la mejor decision Bayes condicional en x = 0
sera a2 . Por otra parte si x = 1,
(, a1 ) = 2510
(, a2 ) = 10
y la mejor decision sera a1 . Por otro lado si no se realiza el experimento:

2.3. DECISIONES OPTIMAS

33

(, a5 ) = L(a1 , 1 )0.6 + L(a1 , 2 )0.4 = 2200


(, a6 ) = L(a2 , 1 )0.6 + L(a2 , 2 )0.4 = 200,
y estas perdidas condicionales esperadas son mayores que las de realizar
el experimento, y si x = 0 tomar la accion a2 y si x = 1, la accion
a1 . Notese que si juntamos las acciones optimas condicionales para
x = 0 y x = 1 obtenemos d3 , que es la mejor decision Bayes promedio
determinada.
Supongamos ahora que C es desconocido, cuanto estaramos dispuestos a pagar por hacer el experimento?. Utilizamos aqu el principio
de la minimizacion de la perdida esperada. Usando las mismas probabilidades a priori y a posteriori se obtiene el arbol de decision de la
figura 2.2, en el que debajo de los nodos aleatorios se coloca la perdida
esperada y debajo de los nodos de decision el resultado de la minimizacion.
En el arbol el smbolo // indica que la decision es absurda, por ejemplo a2 no la tomaremos ya que la perdida esperada es -200 comparada
con -2200 en a1 . Ahora debemos comparar las perdidas esperadas de
la accion a1 con la de hacer el experimento, las cuales tienen perdidas
esperadas de -2200 y -2300+C respectivamente. El arbol de decision
indica que lo maximo que se deberia pagar por hacer el experimento es
C = 100, es decir si C 100 se decide hacer el experimento y se decide
a1 si x = 1 y a2 si x = 0. Esto coincide con la decision Bayes condicional
en el desarrollo anterior, pues en aquel caso tenamos C = 90 < 100.
Por otro lado si C > 100, entonces la decision optima sera d5 .3
En el ejemplo anterior, con C = 90 hemos concluido que d3 es la
regla de decision optima dentro de las reglas determinadas, es decir, d3
es optima es D. Surge la pregunta es d3 optima en D, es decir en el
conjunto de todas las reglas de decision aleatorias?.
Teorema 2.3 Supongamos que existe una regla optima Bayes promedio D, y que se cumplen las condiciones para intercambiar el orden
de integracion. Entonces existe una regla determinada d D, optima.
Prueba.
Sea 0 optima respecto de . Sea z la variable aleatoria
con valores en D cuya distribucion esta dada por 0 . Entonces,

34

CAPTULO 2. TEORA CLASICA


DE DECISION

-5000+C

1 0.8
a1

-3600+C

a2

0.6

2
1

-100+C

Experimento

-2300+C

a1
x=0

-350+C

-100+C

0.4
a2

1
-350+C

a1

2000+C

1 0.8 C

-3600+C

x=1

0.2

a2
-2200

2
1

-200

-500+C
-5000+C

0.2
0.3

0.7

0.3
0.7

0.6
0.4

0.6
0.4

2000+C
C
-500+C
-5000
2000
0
-500

Figura 2.2. Arbol de decision Ejemplo 2.1

r(, 0 ) = E [R(, )] = E [EZ [R(, z)]] ,


cambiando el orden de integracion tenemos:
EZ [E [R(, z)]] = EZ [r(, z)] .
Pero como 0 es optima para , se cumple que
r(, 0 ) r(, d)

d D.

Por lo tanto r(, 0 ) = r(, z) con probabilidad uno y entonces


cada d D que z escoge con dicha probabilidad cumplira con r(, d) =
r(, 0 ), y por lo tanto d sera optima con respecto de . 2

35

2.3. DECISIONES OPTIMAS

Este resultado nos dice, en condiciones bastante generales, que bajo


el ordenamiento Bayesiano, la b
usqueda de decisiones optimas puede
restringirse a reglas determinadas (no aleatorias). Ello establece una
ventaja computacional, ademas de una ventaja intuitiva: cuando existan reglas optimas de Bayes, al menos una de ellas sera determinada.
En problemas de Decision, uno debe escoger decisiones determinadas,
nunca aleatorias.
Antes de pasar al proximo criterio de ordenamiento (Minimax) y
de estudiar en forma mas exhaustiva las reglas de Bayes, sera conveniente dar algunos ejemplos y procedimientos de calculo de reglas
Bayes-optimas, debido a sus ventajas computacionales.
Comenzamos por hacer notar que el concepto frecuentista de estadstica suficiente juega tambien un papel crucial en el campo Bayesiano,
en cuanto a reducir la dimensionalidad del vector de datos. Supongamos que la familia de distribuciones de X esta indexada por el parametro
: {p(x | ), }. Decimos que la funcion de los datos: T = T (x),
usualmente llamada estadstica de X es suficiente (para los datos) si la
distribucion condicional de X dado T = t es independiente de , t.
Tenemos la siguiente definicion alternativa, el Criterio de Factorizacion
de Neyman.
Teorema 2.4 Una condicion necesaria y suficiente para que la estadstica T sea suficiente para la familia {P (x | ), } de distribuciones de X dominada por la medida -finita , es que existan
funciones no negativas g y h tal que la densidad (verosimilitud) p(x | )
de P (x | ) satisfaga:
p(x | ) = g(T (x) | )h(x)

(c.s.).

(2.5)

Prueba.
La prueba aparece por ejemplo en Lehmann(1959), Teorema 2.8 y Corolario 2.1 y se deja como lectura opcional.2
Lema 2.1 Supongamos que p(t) (la densidad marginal de t) es mayor
que cero, y que se cumple (2.5). Entonces si T (x) = t, densidad a
posteriori de cumple con:
( | x) = ( | t) =

g(t | )()
.
p(t)

(2.6)

36

CAPTULO 2. TEORA CLASICA


DE DECISION

Prueba.

Ejercicio.

El Lema 2.1 simplifica usualmente las calculos y provee una manera


Bayesiana de entender la suficiencia: T (x) es suficiente si para toda
densidad a priori tal que la densidad a posteriori exista, esta dependa
de los datos solo a traves de T .
Ejemplo 2.6 (Normal-Normal). Supongamos que X es Normal,
X N(, 2 ) donde la media es desconocida pero la varianza 2 es
conocida. Si tenemos una muestra X1 , . . . , Xn , entonces la densidad de
X =

1
n

n
X

i=1
2

Xi es N , n

y X es suficiente. Supongamos que () es

N (, ) con y 2 conocidas. Entonces la densidad conjunta de X y


es:

p(x, ) = ()p(x | ) = 2
n

!1

"

1 ( )2 n(x )2
exp
+
2
2
2

#)

Definamos: = 12 + n2 , completando cuadrados en el argumento


de la exponencial obtenemos:
!1

"

#2

(x )2
exp 2 2 ,

2( + n )
(2.7)
y por tanto la densidad marginal (o predictiva) de X sera,

p(x, ) = 2
n

1
1
nx
exp
+ 2
2
2

"

# 1

2
p(x) =
p(x, )d = (2)( + )
n

o sea, p(x) = N , 2 +
es:

( | x) =

2
n

(x )2
exp 2 2 , (2.8)
2( + n )

. Finalmente la densidad posteriori de

p(x, )
()p(x | )
=
=
p(x)
p(x)
2

1
2

1
exp [ (x)]2 ,
2
(2.9)

37

2.3. DECISIONES OPTIMAS

donde


1
nx
n
+
=
(x) =
2
2
2
+

y por lo tanto

+
2
n

2
2 x
2 + n

( | x) = N (x), 1 .

(2.10)

(2.11)

Es de hacer notar que la esperanza a posteriori de , E( | X ),


es igual a (x), o sea un promedio ponderado entre y X , dado por
(2.10).3
Ejemplo 2.7 (Beta-Binomial). Consideremos un experimento Bernoulli
con n intentos y sea la probabilidad de exito. Entonces cada una de
las observaciones seran:
Xi =
Sea X+ =
itud es:

Pn

i=1

1 con probabilidad
0 con probabilidad (1-).

Xi el n
umero de exitos en n intentos. Su verosimil-

p(x+ | ) x+ (1 )nx+

0 1; X+ = 0, 1, . . . , n. (2.12)

Supongamos que la densidad a priori es una Beta(n0 x0 , n0 (1x0 )),


o sea la densidad a priori es:

() =

(n0 )
n0 x0 1 (1)n0 (1x0 )1 ;
(n0 x0 )(n0 (1 x0 ))

Entonces, llamando a X =
emos:

1
X ,
n +

n0 > 0, 0 < x0 < 1.

(2.13)
usando la regla de Bayes obten-

()p(x+ | )
()p(x+ | ) = n(x)1 (1 )n(1(x))1
p(x+ )
(2.14)
donde n = n0 + n y
n0
n
(x) = x0 + x.
(2.15)
n
n
( | x+ ) =

38

CAPTULO 2. TEORA CLASICA


DE DECISION

Es inmediato ver que (2.14) y (2.13) tienen la misma forma y por


R
tanto luego de normalizar para que 01 ( | x)d = 1 se tiene que:
( | x+ ) = Beta (n (x), n (1 (x))) .3

(2.16)

El lector se habra percatado que el metodo para obtener la densidad posteriori en este ejemplo, es decir conservar solo los terminos que
dependen de , el Kernel de ( | x), y al final normalizar para que
integre uno al reconocer la forma funcional del Kernel de a posteriori,
es mas expedito que el metodo del ejemplo 2.6.
Se puede ver (se deja al lector como ejercicio) que la esperanza de
la densidad (2.13) es x0 , y por tanto la esperanza de(2.16) es (x)
en (2.15), la cual tiene la misma estructura de (2.10) del ejemplo 2.6.
Es decir la esperanza a posteriori es un promedio ponderado entre la
media a priori y X , la media muestral. Como n = n0 + n, entonces n0
puede ser pensado como el tama
no de muestra a priori equivalente
al tama
no muestral. La influencia de la informacion a priori en la
densidad a posteriori es directamente proporcional a n0 . En el ejemplo
2.6 lo mismo se puede decir de 2 , el inverso de la varianza, el cual
juega el mismo papel que n0 del ejemplo 2.7. (En algunos textos se
denomina a 2 la precision).
En el punto de vista Bayesiano, toda la informacion (subjetiva o
experimental) esta resumida en la distribucion a posteriori. El siguiente
teorema nos indicara como vincular esta informacion con importantes
funciones de perdida para problemas de estimacion puntual.
Teorema 2.5 Se quiere estimar una funcion g() y la funcion de perdida
L(, d) es no-negativa. Supongamos que las hipotesis del teorema 2.2
estan satisfechas. Denotemos por (x) el estimador optimo Bayes
condicional para la distribucion a priori .
R

1. Si L(, d) = c(dg())2 , entonces (x) = E [g() | x] = g()d( |


x), o sea el estimador optimo es la esperanza a posteriori de g().
2. Si L(, d) = w()(d g())2 , entonces:
(x) =

E [w()g() | x]
.
E [w() | x]

39

2.3. DECISIONES OPTIMAS

3. Si L(, d) = c | d g() |, entonces (x) es cualquier mediana


de la distribucion a posteriori (g() | x).
Prueba.
1. (x) se obtiene minimizando en (x) a:
h

E ((x) g())2 | x ,

(2.17)

por hipotesis, existe 0 para el que esta esperanza posteriori es


finita c.s en x, y por tanto lo sera para .
Como la perdida cuadratica es estrictamente convexa, tendra un
u
nico valor mnimo. Si sumamos y restamos E [g() | x], que por
hipotesis es finito, obtenemos como en el ejemplo 2.3 que (2.17)
puede escribirse como:
h

E (g() E(g() | x))2 | x + (E [g() | x] (x))2 .

(2.18)

El primer termino de (2.18) no depende de (x), y el segundo es


no negativo, por lo que (2.17) se minimiza haciendo el segundo
termino de (2.18) nulo, o sea (x) = E [g() | x].
2. Ejercicio.
3. Ejercicio.2
Volviendo a los ejemplos 2.6 y 2.7, si la perdida es cuadratica y se
desea estimar a , o sea g() = , entonces (x) = E( | x) = (x).
Es decir el estimador optimo Bayes de sera su media a posteriori. La
medida de exactitud o dispersion de este estimador optimo viene
dada por su riesgo condicional en X, o sea su riesgo posterior, que
viene dado por el primer termino de (2.18). Para perdida cuadratica y
g() = , la medida de dispersion de (x) es la varianza a posteriori
de . En el ejemplo 2.6 esta es 1 y en el ejemplo 2.7 es:
(x) [1 (x)]
n + 1

40

CAPTULO 2. TEORA CLASICA


DE DECISION

(Se deja al lector como ejercicio verificar la ecuacion anterior).


La estimacion insesgada ya ha sido criticada. Veamos que tpicamente
un estimador insesgado no es optimo Bayes.
Teorema 2.6 Se quiere estimar g() con perdida cuadratica. Entonces
ning
uhn estimador insesgado
(x) puede ser optimo Bayes a menos que
i
2
EX, ((x) g()) = 0.
Prueba.
Supongamos que (x) es optimo Bayes para alguna distribucion y ademas es insesgado para estimar g(). Entonces, E [(x) |
] = g(), para todo . Ademas, condicionando en X,
h

EX, [g()(x)] = EX| E [g()(x) | x] = EX| [(x)E [g() | x]] = EX| 2 (x) ;
ahora condicionando en ,

EX, [g()(x)] = E|X EX [g()(x) | ] = E|X [g()EX [(x) | ]] = E|X g 2() .


Finalmente,
h

EX, ((x) g())2 = EX| 2 (x) +E|X g 2() 2EX, [g()(x)] = 0.2
Apliquemos el teorema anterior a los casos de verosimilitud normal
y binomial:
2

1. Normal: (x) = xh es iinsesgado y EX| [X ] = n . Pero para


2
2
cualquier (), E n = n 6= 0, por lo tanto X no es Bayes. El
estimador indmisible del ejemplo 2.4, no es de Bayes.
h

2. Binomial: (x) = x es insesgado y EX| X


R

i2

(1)
.
n

Ahora bien, n1 01 (1 )d() = 0, si y solo si () es la distribucion trivial que asigna uno al conjunto {0,1}. (La moneda
tiene 2 caras o 2 sellos, y x solo puede ser 0 o 1)

Seguidamente describimos un metodo de ordenamiento de decisiones,


alternativo al Bayesiano, que intenta desembarazarse de la asignacion
de distribuciones a priori.

41

2.3. DECISIONES OPTIMAS

METODO 3: Ordenamiento Minimax


En este metodo en lugar de minimizar el riesgo promedio se minimiza el sup R(, ), o sea, se toma la decision que lo haga mejor,
suponiendo que la naturaleza decide lo peor para nosotros, para cada
. La figura 2.3 exhibe el pesimismo de este punto de vista.

R(, )
...
...
...
...
...
...
...
..

...
...
...
...
... 2
...
...
..

... 1
...
...
...
...
...
...
..

Figura 2.3.
El ordenamiento minimax prefiere 1 a 2 , ya que 2 tiene un riesgo
maximo mayor que 1 . En Teora de Juegos, donde es escogida por un
enemigo inteligente es recomendable prevenir que este nos va a hacer la
vida tan difcil como le sea posible y en el caso de la figura 2.3 escogera
a en la peque
na region en donde 1 es mejor que 2 . Por fortuna la
naturaleza no es usualmente tan malevola!.
Definici
on 2.11 La regla de decision es minimax si
sup R(, ) = inf sup R(, ),

(2.19)

y al valor de la parte derecha de (2.19) se le llama el valor minimax.


De la definicion anterior se deduce (y se deja al lector como ejercicio)
que es minimax si y solo si
R( , ) sup R(, )

y D.

(2.20)

42

CAPTULO 2. TEORA CLASICA


DE DECISION

La regla minimax es mas difcil de obtener, en general, que en los


metodos 1 y 2. De hecho el metodo Bayesiano nos va a ayudar a calcular
la regla minimax. Esto no es sorprendente ya que podemos esperar que
la regla minimax sea de Bayes para la peor distribucion a priori que
llamaremos menos favorable o de Murphy.
Definici
on 2.12 La distribucion a priori 0 es menos favorable o de
Murphy si
r(0 , 0 ) r(, )
para todas las distribuciones a priori , donde es optima Bayes para
y r es el riesgo Bayesiano promedio definido en 2.7.

Puede pensarse la distribucion de Murphy como la que nos causa


la maxima perdida esperada imposible de evitar. Seguidamente se da
una condicion para que un estimador de Bayes sea minimax.
Teorema 2.7 Supongamos que es una distribucion a priori tal que:
r(, )

R(, )d() = sup R(, ).

(2.21)

Entonces:
1. es minimax.
2. Si es la u
nica optimo Bayes respecto de entonces es la u
nica
minimax.
3. es de Murphy.
Prueba.
1. Sea cualquier otra regla de decision. Entonces:
sup R(, ) r(, ) r(, ) = sup R(, ).

2. Reemplazando en la prueba de (1) el segundo por >.

43

2.3. DECISIONES OPTIMAS

alguna otra distribucion a priori. Sigue que:


3. Sea
) sup R(, ) = r(, ).2
) r(,
r(,

La condicion (2.21) establece que el promedio de R(, ) es igual a


su maximo, o sea que asigna probabilidad uno al conjunto donde el
riesgo toma constantemente su valor maximo. Una regla de este tipo
se llama igualadora. Las reglas igualadoras son minimax.
Corolario 2.1 Si la regla optima-Bayes tiene riesgo constante, o
sea R(, ) = a, con a constante, entonces es minimax.
Prueba:

Si tiene riesgo constante, se cumple (2.21).2

Corolario 2.2 Una condicion suficiente para que sea minimax es


que exista un conjunto 0 , tal que (0 ) = 1 y R(, ) toma su
maximo valor en todo punto de 0 .
Prueba.

La condicion (2.21) tambien se cumple en este caso.2

Ejemplo 2.8 (Lehmann(1983) y Walley(1987)). Sea la verosimilitud binomial,


P (x+ | ) = Bin(n, ) y se quiere estimar como en el ejemplo 2.7.
Supongamos que la perdida es cuadratica: L(, d) = ( d)2 . Queremos encontrar un estimador minimax de . Intentemos conseguir una
regla igualadora suponiendo que pertenece a la familia Beta de distribuciones, () = Beta(, ) con > 0 y > 0. De la parte (1)
del Teorema 2.5 sabemos que el estimador optimo Bayes es la media
posterior (x). Por otra parte del ejemplo 2.7, la relacion (2.15), y de

n0 x0 = , n0 (1 x0 ) = o sea x0 = +
, n0 = + tenemos:
E( | x) = (x) =

+ x+
= .
++n

(2.22)

Sabemos que en el caso Binomial E(X+ | ) = n y V ar(X+ | ) =


n(1 ). Entonces,

+ X+
R(, ) = E

++n

!2

| =

n(1 ) + [ ( + )]2
.
( + + n)2
(2.23)

44

CAPTULO 2. TEORA CLASICA


DE DECISION

Para que R(, ) = constante (variando ), los coeficientes de 2 y


deben ser cero, o sea:
1. n + ( + )2 = 0
2. n 2( ) = 0
y por lo tanto = =

n
.
2

Obtenemos entonces:

(x+ ) =

n
2

+ x+

n+ n

(2.24)

que es la regla de Bayes para la densidad a priori Beta


una regla igualadora con:
R(, (x+ )) =

,
4( n + 1)2


n
n
,
2
2

[0, 1]

y por el Corolario 2.1, (x+ ) es minimax y la densidad Beta


es de Murphy.3

y es

(2.25)

n
, 2n
2

Surge la pregunta es (x+ ) razonable?. Notemos que el metodo


minimax provee un metodo para escoger la o las densidades a priori
que sean
Murphy. La densidad de Murphy obtenida es 0 () =
 de

n
n
Beta 2 , 2 . Por que el conocimiento que se tiene sobre debe
estar influenciado por el tama
no del experimento n?. Por que solo por
n y no por otra informacion?.
1
La media de 0 es 12 y su varianza es 4(n+1)
0, cuando n ,
y por lo tanto estara cada vez mas concentrada alrededor de 12 a medida
que n crece. Pensemos en dos situaciones: (1) es la probabilidad de
que una moneda al ser lanzada caiga cara. (2) es la probabilidad de
que una tachuela al ser lanzada caiga de lado. Ciertamente 0 no es
razonable en la situacion (2), y por otro lado es extra
no que estemos
muy seguros a priori de que la moneda sea balanceada en la situacion
(1), si sabemos que va ser lanzada digamos 109 veces. Otra manera de
ver si (x+ ) es razonable es ver su funcion de riesgo R(, ) (2.25).
Comparemosla con el riesgo del estimador insesgado
x+
0 (x+ ) =
: R(, 0 ) = EX
n

"

x+

2

| =

V ar(X+ | )
(1 )
=
.
2
n
n

45

2.3. DECISIONES OPTIMAS

Graficamos en la figura 2.4, nR(, ) y nR(, 0 ) para varios valores


de n.

nR(, )

.25
.2
.15
.1
.05

I0

.5

0 
1

(n )
(n = 100)
(n = 16)
(n = 4)
(n = 1)

Figura 2.4.
Para la situacion (1), luce razonable a menos que n sea grande.
En la situacion (2) 0 luce mejor desde un n peque
no. En ninguna
situacion es razonable para n grande. Esto es consecuencia de que
la previa que produce a es, a medida que n crece, cada vez menos
razonable. En cualquier caso la regla de Bayes obtenida a partir de
una densidad a priori razonable, tpicamente sera mejor que y 0 .
Notemos que en este ejemplo es la u
nica regla minimax ya que el
estimador de Bayes (Teorema 2.5) es u
nico. Pero 0 () no es la u
nica
de Murphy. La regla de Bayes para cualquier sera:
R1

1+x+ (1 )nx+ d()


= 0R 1 x
nx+ d()
+
0 (1 )
Si expandemos (1 )nx+ , obtenemos que (x+ ) depende de
solo a traves de sus n + 1 momentos, por lo que la distribucion de
Murphy no es u
nica.
En el ejemplo 2.8 el estimador minimax resulto ser una regla
determinada no aleatoria. Como veremos mas adelante esto no es as
en general, y fue consecuencia de que la perdida cuadratica es convexa en d. Generalmente puede restringirse la atencion a reglas determinadas cuando la perdida es convexa, ya que dada cualquier regla
E( | x) =

(x+ )

46

CAPTULO 2. TEORA CLASICA


DE DECISION

aleatoria puede conseguirse otra no aleatoria que es por lo menos tan


buena como esta. (Ver Lehmann (1983), Corolario 1.6.2). Este hecho
es consecuencia de la desigualdad de Jensen. Bajo el ordenamiento
Bayesiano generalmente podemos restringirnos a reglas no aleatorias,
sea la funcion de perdida convexa o no (Teorema 2.3).

2.4

Representaci
on Geom
etrica de las Reglas de Bayes y Minimax para finito.

El primer paso para visualizar el problema de decision para finito


es notar que el conjunto de riesgo S es convexo. Consideremos =
{1 , 2 , . . . , k } y
n

S = y R k : para D, yj = R(j , ), j = 1, . . . , k .
Teorema 2.8 El conjunto de riesgo S es un conjunto convexo de R k .
Prueba.
Sean y y y puntos arbitrarios de S, correspondientes a

y respectivamente. Sea tal que 0 < < 1 y consideremos


la regla que escoge a con probabilidad y con probabilidad
(1 ). Entonces D y R(j , ) = R(j , ) + (1 )R(j , ),
j = 1, . . . , k. Sea ahora z = (R(1 , ), . . . , R(k , )) y se sigue que:
z = y + (1 )y S.

REGLAS DE BAYES: Para finito, cualquier distribucion a priori


es un conjunto de k n
umeros no negativos (j ) = j , j = 1, . . . , k,
cuya suma es 1. De acuerdo al ordenamiento Bayesiano todos los puntos
y = (y1 , . . . , yj ) que tengan el mismo riesgo esperado
X

j R(j , ) =

j yj

son equivalentes, bajo la distribucion . Entonces todos los puntos en


el plano:
X
j yj = b,

GEOMETRICA

2.4. REPRESENTACION
DE LAS REGLAS DE BAYES Y MINIMAX PARA FINITO.47

para cualquier b real, son equivalentes.


Variando b, cada uno de estos planos es perpendicular al vector del
origen al punto (1 , . . . , k ), y como cada i es no negativa, la pendiente de la lnea de interseccion de cada plano con los ejes no puede
P
ser positiva. La interseccion del plano
i yi = b con la diagonal
y1 = . . . = yk debe ocurrir en el punto (b, b, b, . . . , b). Para encontrar la regla de Bayes minimizamos el riesgo esperado consiguiendo el
nfimo de los diferentes valores de b, lo llamamos b, para el cual el plano
P
i yi = b intersecta a S. Si S no contiene sus puntos de frontera, entonces no existiran reglas de Bayes. Cuando S es un poliedro, cuyos
vertices corresponden a decisiones no aleatorias, entonces el plano intersectara el poliedro al menos en uno de sus vertices. Si lo intersecta
en solo uno de los vertices la regla de Bayes sera u
nica y no aleatoria.
Si la interseccion contiene a mas de un vertice habra una infinidad de
reglas de Bayes, muchas de las cuales corresponderan a reglas aleatorias
pero siempre habra al menos una regla de Bayes que correspondera a
una regla no aleatoria, es decir, un vertice. Si i > 0, i = 1, . . . , k, la
interseccion ocurrira en la frontera inferior y por tanto la o las reglas de
Bayes, de existir, seran admisibles. Por otra parte, es razonable anticipar que podemos obtener todas las decisiones admisibles como reglas
de Bayes para alguna distribucion a priori = (1 , . . . , k ), ya que
alternando los valores de j cambiaremos el angulo de interseccion del
P
plano i yi = b con los ejes coordenados. De esta manera, al obtener
las reglas de Bayes para todas las posibles, intersectaremos con todos
los puntos de la frontera inferior de S. Haremos esta afirmacion mas
precisa en la proxima seccion.
REGLAS MINIMAX: El riesgo maximo para una regla de decision
fija es supj R(j , ) = max yj Todos los puntos y S que produzcan
el mismo valor de max yj , seran equivalentes minimax. Entonces todos
los puntos y en la frontera del conjunto:
Qc = {y = (y1 , . . . , yk ) : yj c, j = 1, . . . , k},
para cualquier n
umero real c, son minimax equivalentes. Para encontrar reglas minimax encontramos el nfimo de los c. Lo denotamos c,
llamado riesgo minimax, para el que Qc intersecta a S. Cualquier ,

48

CAPTULO 2. TEORA CLASICA


DE DECISION

cuyo punto de riesgo este asociado a un elemento de Qc S, es minimax. Es de prever entonces que incluso cuando reglas minimax existen,
no necesariamente va a existir una minimax que sea no aleatoria, ya
que Qc S no va a contener necesariamente uno de los vertices. De
nuevo, no existiran reglas minimax cuando S no contiene sus puntos de
frontera. Notamos que pueden haber muchas reglas minimax, y que los
puntos minimax no necesariamente caeran en la diagonal y1 = . . . = yk .
(Se sugiere al lector hacer varios dibujos, en particular donde S sea un
rectangulo o que S caiga enteramente por debajo de la diagonal). El
Teorema 2.7 tambien puede ser visualizado geometricamente. Veamos
una estrategia de la naturaleza como a la distribucion a priori , la cual
representa a la familia de planos perpendiculares a = (1 , . . . , k ).
Para encontrar reglas de Bayes el TD encuentra el plano de esta familia
que es tangente por debajo a S. El riesgo de Bayes mnimo es b donde
(b, . . . , b) es la interseccion de la recta y1 = . . . = yk con el plano tangente por debajo de S y perpendicular a (1 , . . . , k ). Entonces una
distribucion de Murphy sera la seleccion de valores j , j = 1, . . . , k,
que haga esta interseccion tan lejos en la recta como sea posible. Como
siempre sucede que b c, si encontramos una 0 para la que b = c
entonces 0 debe ser de Murphy.
Continuaci
on Ejemplo 2.1. En este ejemplo tenemos 1 = 0.6 y
2 = 1 1 = 0.4. Los procedimientos Bayes equivalentes cumplen
con:
1 y1 + (1 1 )y2 = b
donde b vara en R.
O equivalentemente,
y2 =

b
1

y1 .
1 1 1 1

(2.26)

Como habamos anticipado el coeficiente de y1 es negativo, y la recta


1
que pase por el origen y por (1 , 1 1 ) = (0.6, 0.4) sera y2 = 1
y1 y
1
se
 cumple
  que su
 pendiente multiplicada por la pendiente de (2.26) es
11
1
11 = 1, por lo que estas rectas son perpendiculares. La
1
recta interseccion de la diagonal con (2.26) debe ocurrir en (b, b, . . . , b).
Si procedemos a disminuir b, movemos la recta (2.26) en forma paralela

GEOMETRICA

2.4. REPRESENTACION
DE LAS REGLAS DE BAYES Y MINIMAX PARA FINITO.49

no la interhasta intersectar a S en d3 , donde si hacemos b mas peque


seccion de (2.26) con S se hace vaca. Para d3 , R(1 , d3 ) = 3910 y
R(2 , d3 ) = 340 por lo que:
b = (0.6)(3910) + (0.4)(340) = 2210.
La interpretacion geometrica del ordenamiento Bayesiano para 1 =
0.6 se muestra en la figura 2.5, y en la figura 2.6 se muestra el ordenamiento minimax.
Vemos all que la diagonal corta en un solo punto la frontera inferior
de S en la recta que une a d3 y d6 , y en consecuencia la regla minimax
sera u
nica y aleatoria. Para hallarla buscamos una regla aleatorizada
que escoja a d3 con probabilidad y d6 con probabilidad (1 ).
Denotemos a esta regla . Su punto asociado de riesgo estara en
la diagonal y1 = y2 y por tanto R(, ) = R(2 , ). Por ello es tal
que:
R(1 , d3 ) + (1 )R(1 , d6) = R(2 , d3 ) + (1 )R(2 , d6 )
500
Sustituyendo los valores de los riesgos encontramos que: = 4750
=
0.105 y (1 ) = 0.895. Esto significa que para tomar una decision
el TD debe extraer un n
umero uniformemente distribuido en [0,1]. Si
ese n
umero es menor o igual a 0.105, entonces el TD decide hacer el
experimento, y si x = 0 tomo la accion a2 y si x = 1 tomo la accion a1 .
Pero, si el n
umero extrado es mayor a 0.105 entonces decido no hacer
el experimento y tomar la accion a2 , es decir vender el campo.
El riesgo de esta decision minimax sera:

(0.105)(3910)+(0.895)(0) = (0.105)(340)+(0.895)(500) = 411.8 = c.


Como se haba anticipado c es mayor o igual al riesgo esperado de
Bayes b para 1 = 0.6.
Es una regla de Bayes para alguna ?. Geometricamente se
ve que la respuesta es afirmativa. Basta hallar aquella para la cual
la recta de puntos Bayes equivalentes sea paralela a la recta que une
a d3 y d6 . Para , todos los puntos de riesgo que unen a los que
corresponden a d3 y d6 , ellos incluidos, corresponden a decisiones que
son de Bayes. Encontremos de tal manera que b = c, o sea que
sera de Murphy.

50

CAPTULO 2. TEORA CLASICA


DE DECISION

R(2 , d)
d1

2000

d5

d2

y1 = y2
1000

d3
-5000

-4000

b
-3000

-2000

(1 , 1 1 )

b
-1000
d6

..Puntos
.................
equivalentes ....
...

...
...
...................
...
...
...
....
.
...

d4

1000

R(1 , d)

-1000

Figura 2.5. Interpretacion geometrica de Bayes

1 R(1 , d3 )+(11 )R(2 , d3 ) = 1 R(1 , d6 )+(11 )R(2 , d6 ) = b = c


Sustituyendo los valores de R(i , d) y c, obtenemos la distribucion
de Murphy 1 = 0.1768 y 2 = 11 = 0.8232. Si el TD hubiese adoptado un punto de vista Bayesiano, y por casualidad hubiese evaluado
a priori que la probabilidad de que hubiese petroleo era de 0.1768, su
recomendacion final hubiese sido simplemente escoger entre d3 y d6 es
equivalente con la informacion disponible y la utilidad asignada. Pero
claramente la decision minimax en este ejemplo no es razonable.

51

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

R(2 , d)
d1

2000

d5

d2

y1 = y2
1000

d3
-5000

-4000

-3000

-2000

c. .
... .... c
-1000 ......... d
1000
4
d6
Murphy
-1000

R(1 , d)

-2000

3
2.5

Figura 2.6. Representacion geometrica de Minimax

Admisibilidad y Reglas de Bayes

La conclusion general que vamos a obtener en esta seccion es doble: Por


una parte las reglas de Bayes son admisibles bajo condiciones bastante
generales, por la otra, las reglas admisibles seran de Bayes para alguna
distribucion a priori o seran lmites de reglas de Bayes.
Teorema 2.9 Si para la distribucion a priori la regla de Bayes
promedio es u
nica, o si existe mas de una, y todas ellas tienen la
misma funcion de riesgo R(, ), entonces es admisible.
Prueba.
Supongamos que existe otra tal que R(, ) R(, ),
. Entonces tomando valores esperados respecto de :
r(, ) = E [R(, )] E [R(, )] = r(, ).

52

CAPTULO 2. TEORA CLASICA


DE DECISION

Ahora como es Bayes promedio, tambien debe serlo y para que


esto no contradiga las hipotesis debe cumplirse que R(, ) = R(, ),
, en cuyo caso ambas y son admisibles.2
Del Teorema 2.3 sabemos que podemos restringirnos a las reglas no
aleatorias. Por tanto el Teorema 2.9 se aplica esencialmente a reglas
no aleatorias. Entonces si para la regla de Bayes no aleatoria d es
u
nica, o todas las reglas de Bayes no aleatorias tienen la misma funcion
de riesgo, d es admisible.
Seguidamente se dan condiciones para que la regla de Bayes sea
u
nica en problemas de estimacion puntual.
Teorema 2.10 Si la funcion de perdida L(, d) es cuadratica, o mas
generalmente, es estrictamente convexa en d, la regla de Bayes es
u
nica, excepto en conjuntos N tal que PX| (N) = 0, , siempre
que:
1. r(, ) <
2. Conjuntos de medida cero de acuerdo a la distribucion predictiva,
es decir, que si
PX (N) =

PX| (N)d() = 0,

cumplan con PX| (N) = 0,


Prueba.
Para error cuadratico medio, se sigue de la parte 1 del
Teorema 2.5 que cualquier estimador de Bayes de g() debe ser
igual a E[g() | x] excepto en un conjunto N con PX (N) = 0. Para
perdidas estrictamente convexas la demostracion es consecuencia de que
si existe un valor que minimiza a una funcion estrictamente convexa,
este es u
nico, y lo que sigue se deja como ejercicio. 2
La siguiente regla fue originalmente enunciada por D. Lindley, y es
un precepto muy conveniente al momento de asignar distribuciones a
priori.

53

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

REGLA DE CROMWELL: Al asignar una densidad a priori sobre


, es conveniente que () > 0, . Una tal densidad a priori se
la denomina de Cromwell.
Si (0 ) = 0, entonces por el Teorema de Bayes (1.2), (0 | x) = 0,
incluso si la verosimilitud p(x | 0 ) es muy grande. Es muy peligroso y
dogmatico asignar previas que no sean de Cromwell, ya que no importa
cuan informativo sea el experimento, nunca podra alertar sobre nuestra posible informacion erronea a priori. Un enunciado menos estricto
de las reglas de Cronwell establecera que si es el espacio donde se
mueven los parametros, el soporte de la distribucion a priori debe
ser igual a .
La condicion (2) del Teorema 2.10 se satisface cuando el espacio de
parametros es un conjunto abierto, que es el soporte de (Cromwell),
y si la probabilidad PX| (A) es continua en para todo A. En efecto,
PX (N) = 0 implica que PX| (N) = 0 c.s.. Ahora si existe 0 tal
que PX|0 (N) > 0 entonces existe una vecindad V de 0 en la cual
si V, PX| (N) > 0. Como es de Cromwell, P (V ) > 0 lo que
contradice la suposicion de que PX| (N) = 0 c.s.. Otra consecuencia
agradable de previas de Cromwell es el siguiente Teorema.
Teorema 2.11 Supongamos que el espacio de parametros es discreto,
= {1 , 2 , . . .} y que existe una regla de Bayes para = {1 , 2 , . . .},
tal que r(, ) sea finito. Si es de Cromwell, o sea j > 0, j =
1, 2, . . . , entonces es admisible.
Prueba.

Si no es admisible entonces existe tal que


R(j , ) R(j , )

j ,

y existe alg
un i tal que
R(i , ) < R(i , ).
Como j > 0 j
r(, ) =

X
j

j R(j , ) <

j R(j , ) = r(, ),

lo que contradice que sea de Bayes.

Veamos ahora el caso en que no sea discreto.

54

CAPTULO 2. TEORA CLASICA


DE DECISION

Teorema 2.12 Supongamos que = R y que R(, ) es una funcion


continua de , D. Si existe una regla de Bayes para la cual
r(, ) es finito, y si el soporte de es R(Cromwell) entonces es
admisible.
Prueba.

Si no es admisible, existe D tal que


R(, ) R(, )

R,

entonces
R(0 , ) < R(0 , )

para alg
un j .

Sea f () = R(, )R(, ) y = f (0 ) = R(0 , )R(0 , ) > 0.


Como R(, ) es continua en , D, tambien lo sera f (). Para 2 ,
existe > 0 tal que si | 0 |< , | f () f (0 ) |< 2 y entonces
f () > f (0 ) 2 = 2 .
Sea I = (0 , 0 + ). Tomando valor esperado en , sigue que:

r(, ) r(, ) = E [R(, ) R(, )] > P (I),


2
pero como 0 esta en el soporte de (Cromwell) se tiene que P (I) > 0,
lo que contradice el hecho de que es de Bayes.2
Cuando R(, ) sera continua?. Si L(, a) es acotada, entonces
supa | L(, a) L(0 , a) | 0 cuando 0 para cada 0 ,
y si p(x | ) es suficientemente regular, entonces R(, ) es continua
(Ferguson, 1967, Teorema 3.7.1). Una familia amplia de verosimilitudes, para las que R(, ) es continua, incluso si L(, a) no es acotada
(como en error cuadratico), es la Familia Exponencial de verosimilitudes (Ferguson, 1967, Teorema 3.7.2). Ejemplos de verosimilitudes
que pertenecen a esta familia son: Binomial, Multinomial, Poisson,
Beta, Normal, Gamma y otras. Por su importancia se estudiara esta
familia con mas detalle en los proximos captulos.
El proximo problema que enfocaremos es la existencia de reglas de
Bayes para un problema de decision. Comenzaremos por suponer que
el conjunto de riesgo satisface las condiciones del Teorema 2.1. O sea:

55

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

1. (S) S, esto dice que S es cerrado por debajo.


2. Existe M tal que si (y1 , . . . , yk ) S entonces yj > M, j =
1, . . . , k, es decir S es acotado por debajo.
Teorema 2.13 Supongamos que = {1 , . . . , k } y que el conjunto
de riesgo S es cerrado y acotado por debajo. Si es de Cromwell,
j > 0, j = 1, . . . , k, entonces existe una regla de Bayes respecto de
.
n

un y S . El conPrueba.
Sea B = b : b = kj=1 j yj para alg
junto B es acotado ya que S lo es. Sea b0 = inf B. Para cualquier
P
(n)
sucesion y (n) S tal que j yj converja a b0 , el hecho de que
sea de Cromwell implica que cada sucesion y (n) esta acotada por arriba. Entonces existe un lmite finito y0 de la sucesion y (n) y ademas
P
j yj0 = b0 . Veamos que y0 (S).
Denotemos por cl(S) a la clausura de S y
n

Qy = x R k : xj yj , j ,
o sea el conjunto de puntos que son al menos tan buenos como y. Como
y 0 es un lmite de puntos en S, y0 cl(S) y {y 0 } cl(S) Qy0 . Mas
a
un Qy 0 cl(S) {y0 }. En efecto, sea y Qy 0 {y 0 } = Qy 0
P
(Definicion 2.6) entonces:
j yj < b0 y si yj cl(S) existiran puntos
P
y S tal que j yj < b0 lo que contradice el hecho que b0 sea una
cota inferior de B. Entonces Qy 0 cl(S) = {y0 }, lo que implica que
y 0 (S).
Ahora bien, como S es cerrado por debajo, y0 S, lo que implica
P
que el mnimo valor de r(, ) = j R(j , ) se obtiene en un punto de
S. Finalmente cualquier D, para la que R(j , ) = yj0 , j = 1, . . . , k,
es una regla de Bayes para . 2
En el resto de esta seccion el Teorema del Hiperplano Separante,
que es equivalente al Teorema de Hahn-Banach para espacios lineales
bastante generales, es crucial. Este Teorema establece que cualquier
par de conjuntos convexos pueden ser separados por un plano.

56

CAPTULO 2. TEORA CLASICA


DE DECISION

Teorema 2.14 (Hiperplano Separante.) Sean S1 y S2 conjuntos


convexos y disjuntos de R k . Entonces existe un vector p 6= 0 tal que:
pt y pt x
Prueba.

x S1 , y S2 .

Ver Ferguson 1967, p.70-74.

S
z
Qz
Hiperplano

{w : t w = c}

Figura 2.7. Hiperplano separante


Teorema 2.15 (Desigualdad de Jensen.) Sea f una funcion convexa en R definida en un conjunto convexo no vaco S de R k . Sea X un
vector aleatorio k dimensional con esperanza E[X ] finita para el que
P (X S) = 1. Entonces E(X ) S y f (E[X ]) E[f (x)].
Prueba.

Ver Ferguson 1967, p.76-77.

Ya se haba anticipado, como una consecuencia de la desigualdad


de Jensen, que para una funcion de perdida convexa tal que toda decision aleatorizada tiene perdida esperada finita podemos restringirnos
a decisiones no aleatorias. La idea basica es la siguiente. Si X es una
v.a que toma valores en el conjunto de acciones posibles A de acuerdo
a la distribucion P , entonces:
L(, P ) = E[L(, x)] L(, E[X ])

E[X ] A.

57

2.5. ADMISIBILIDAD Y REGLAS DE BAYES

La pregunta que nos interesa ahora es si toda regla admisible es de


Bayes para alguna . La respuesta es afirmativa para finito.
Teorema 2.16 Supongamos que es finito. Si la regla D es
admisible, entonces es una regla de Bayes para alguna distribucion
.
Prueba.
Sea admisible cuyo punto de riesgo asociado es z. Entonces Qz S = , o sea no hay puntos mejores a z. Tenemos por tanto
dos conjuntos convexos y disjuntos, Qz y S. La situacion se describe
en la figura 2.7.
Por el teorema del hiperplano separante, existe un vector 6= 0
tal que t y t x, y Qz y x S. Sea c = t z. Entonces el
hiperplano {w : t w = c} separa a Qz de S. Esto es porque si x S
y y Qz , tenemos t y c = t z ya que z S.
Ademas, t x sup{t y : y Qz } = t z. Entonces
t y c = t z t x

y Qz y x S,

y decimos que el hiperplano es tangente a S, en el punto z. Veamos


que j 0 para cada j. Consideremos cualquier y con yj < zj , j.
Como y Qz entonces t y t z, por lo tanto j (zj yj ) 0,
o sea j 0. Como 6= 0 y cada una de sus componentes es no
P
negativa, j > 0. Podemos entonces normalizar a para hacerla
j
una distribucion haciendo j = P
. (Notar que todas las propiedades
j
de descritas arriba son heredadas por ).
Luego (j ) = j define una distribucion de probabilidad para la
cual el punto x tiene riesgo Bayesiano ( )t x. Pero, ( )t z ( )t x
para todo x S, o sea z es un punto en S con riesgo de Bayes mnimo.
Como z es el punto de riesgo de , esta regla es de Bayes para la
distribucion . 2
Corolario 2.3 En las condiciones del Teorema 2.16, todas las reglas
de decision cuyos puntos de riesgo estan en (S) son reglas de Bayes.
Sera cierto que en general toda regla admisible es de Bayes?. La
mala noticia es que no es cierto, la buena es que es casi cierto.

58

CAPTULO 2. TEORA CLASICA


DE DECISION

Ejemplo 2.9. Supongamos que la variable aleatoria X N(, 1),


o sea = R. Se desea
atico. Entonces
P estimar con error cuadr
xi
el estimador (x) = n = x, para una muestra de tama
no n, es
admisible (Lehmann 1983, p. 265-267, Berger 1985, p. 545-548). Pero
x no es de Bayes, como vimos en la aplicacion (1) del Teorema 2.6.
Esta es la razon por la cual probar admisibilidad de x no es facil. Sin
embargo vimos en el ejemplo 2.6, (2.10), que el estimador de Bayes
para una densidad previa normal puede escribirse como:
n(x | 2 , ) =

1
n

2 +

1+
n

2
x.
2 + n1

Entonces x puede aproximarse por n (x | 2 , ) de dos maneras:


1. Si n , n (x | 2 , ) x. Decimos que x es lmite de
Bayes.
2. Si 2 para cualquier n fijo, n (x | 2 , ) x. Decimos
que x es la esperanza a posteriori,
partiendo de una densidad a
R
priori impropia () = 1,
()d = , y por tanto no es
propiamente de Bayes.3
Es cierto, con gran generalidad, que toda decision admisible es de
Bayes o lmite de Bayes (en varios sentidos), Wald(1950), Brown(1986)
p. 254-268. Es en cierta manera paradojico (y afortunado) que a
un
desde el punto de vista clasico-frecuentista que propone la admisibilidad
como desideratum, concluyamos que se debe actuar como Bayesiano
(o lmite de Bayesiano).

2.6

Admisibilidad y Reglas Minimax

Comenzamos por presentar una ilustracion de Teora de Juegos donde


el criterio minimax tiene su ambito natural.
Ejemplo 2.10 (Pares o Nones, Ferguson 1967). Dos jugadores
muestran 1 o 2 dedos simultaneamente. El jugador 1 (Naturaleza)
recibe en $, del jugador 2, el n
umero de dedos sobre la mesa, siempre
que el total de dedos mostrado sea impar. El jugador 2 (TD) recibe,

2.6. ADMISIBILIDAD Y REGLAS MINIMAX

59

del jugador 1, en $, el n
umero de dedos sobre la mesa siempre que el
total sea par. Si la perdida es monetaria, para el Jugador 2, esta viene
dada por:
\A 1 2
L(, a) :
1
-2 3
2
3 -4
Este es un juego de suma cero ya que lo que recibe un jugador lo
pierde el otro. Cual de los dos jugadores ud. preferira ser?.
Llamemos p a una estrategia aleatoria seguida por el jugador 2
(una decision determinada sera tonta en este contexto) que escoge 1
con probabilidad p y 2 con probabilidad (1-p). El conjunto de riesgo
de p viene dado por:
S = {(L(1 , p ), L(2 , p )) : 0 p 1} ,
entonces
S = {(2p + 3(1 p), 3p 4(1 p)) : 0 p 1}
= {(3 5p, 4 + 7p) : 0 p 1}.
El conjunto de riesgo S es una recta que une (3,-4) con (-2,3), y
se muestra en la figura 2.8. La estrategia minimax vendra dada por la
b o sea
interseccion de S con la diagonal y1 = y2 : 3 5pb = 4 + 7p,
7
7
1
pb = 12 el cual corresponde a un riesgo minimax: 3 5 12 = 12 . En este
ejemplo la regla minimax es tambien de Bayes respecto a la distribucion
(1 , 1 1 ) que es perpendicular a S, (seccion 2.3). La pendiente de
1
la recta que pasa por el origen y (1 , 1 1 ) es 1
, que multiplicada
1
c = 7.
por la pendiente de S debe ser igual a -1, de donde
1
12
b Esto
De hecho cualquier p (y no solo pb) es de Bayes respecto de .
es consecuencia de que S es una recta, que queda completamente intersectada por la recta que definen los procedimientos Bayes-equivalentes
c para
al tocar la frontera inferior de S. El riesgo Bayesiano de
1
1
c
c
c
cualquier p es: 1 (3 5p) + (1 1 )(4 + 7p) = 12 , entonces
1
es de Murphy, por ser igual al riesgo minimax. El jugador 1 (siendo in7
teligente) escoge 1 con probabilidad 12
. Esta regla mantiene la perdida

60

CAPTULO 2. TEORA CLASICA


DE DECISION

esperada de en al menos
del juego V .

1
.
12

Llamaremos a este valor, el valor inferior

y1 = y2

(1/12, 1/12)
)

Figura 2.8 Juego de pares o nones


Por su parte el jugador 2 (siendo inteligente y estoico) tiene una
7
, que restringe su perdida esperada en a lo
estrategia pb con pb = 12
1
sumo 12 . Llamaremos a este valor, el valor superior del juego V . En
este ejemplo, V = V = V , llegando as a un punto de equilibrio y se
dice que el juego tiene un valor V . Un arbitro imparcial dictaminara
1
como justo que 2 le pagase a 1, 12
. Ud. escogera ser el jugador 1?3
A continuacion se introduciran formalmente algunas definiciones anticipadas en el ejemplo 2.9.
Definici
on 2.13 Denotemos por al conjunto de todas las distribuciones de probabilidad sobre .
Usando el ejercicio 2.14, podemos refrasear la definicion de una regla
minimax S como
inf sup r(, ) = sup r(, ).
D

61

2.6. ADMISIBILIDAD Y REGLAS MINIMAX

Definici
on 2.14 El riesgo o valor minimax o valor superior del juego
V se define por:
V = inf sup R(, ) = inf sup r(, ).
D

El valor V es obtenido por una regla minimax.


Definici
on 2.15 El riesgo o valor maximin o valor inferior de juego
V se define por:
V = sup inf r(, ).
D

Note que si es de Bayes respecto de entonces:


V = sup r(, ),

y concluimos que V es obtenido por una distribucion de Murphy (Definicion


2.12).
Teorema 2.17 V V .
Prueba.

Para cualquier y D se cumple que


r( , ) sup r(, ),

y esto implica
inf r( , ) inf sup r(, ) = V ,

y como esto se cumple para cualquier , tambien tomando el


supremo en en la parte izquierda, y por tanto: V V .2
En Teora de Juegos es fundamental saber cuando V = V = V , o
sea cuando V V , ya que en ese caso un punto de equilibrio en el
juego existe. En Teora de Decision sin embargo, como la naturaleza
no esta conspirando continuamente en arruinarnos, no es tan crucial.
Sin embargo es u
til saber cuando las reglas minimax son tambien de
Bayes.

62

CAPTULO 2. TEORA CLASICA


DE DECISION

Teorema 2.18 (Teorema Minimax). Suponemos que es finito,


= {1 , . . . , k }, y que S es acotado por debajo. Entonces V = V = V
y existe una distribucion de Murphy 0 . Mas a
un, si S es cerrado por
debajo, entonces existe una regla minimax admisible la cual es de
Bayes respecto de 0 .
Prueba.
Queremos verificar que V V . Denotemos por 1 al
vector (, . . . , )t . Sea V = sup{ : Q1 S = }. La situacion es
similar a la figura 2.8, donde 1 = z. Veamos que V V . Se cumple
que para cada n, existe una regla n tal que:
R(i , n ) V +

1
n

i = 1, . . . , k.

(2.27)

Por lo tanto, para todo ,


r(, n) V +

1
n

1
sup r(, n ) V + ,
n

para todo n. Esto implica que V V .


Veamos ahora que V V . Denotemos al interior de Q1 por Qo1 .
Notemos que Qo1 y S son conjuntos convexos y disjuntos. Por el Teorema 2.13, existe un hiperplano t x = c que separa a Qo1 y S, t x c
si x S y t x c si x Qo1 . Todas las coordenadas de deben ser
no negativas. En efecto, supongamos que i < 0. Hagamos xi ,
manteniendo las otras coordenadas fijas. Pero x Qo1 y t x
P
lo cual contradice que para x Qo1 , t x c. Entonces i > 0 y
procediendo analogamente al Teorema 2.15, renormalizamos a de tal
P
manera que i = 1. Llamemos a esa distribucion 0 , que puede ser
tomada como distribucion a priori. Como para x Qo1 , t0 x c, si
hacemos x tender a 1 vemos que V c. Entonces para todo ,
r(0 , ) =

i R(i , c V.

Por lo tanto 0 es de Murphy y:


V = sup inf r(, ) inf r(0 , ) V,
D

y finalmente:

(2.28)

63

2.6. ADMISIBILIDAD Y REGLAS MINIMAX

V = V = V.
Ahora sea S cerrado por debajo. Tomemos la n de (2.27) denotando
yn = (R(1 , n ), . . . , R(k , n)).
Como la sucesion y n es acotada, tienen un punto lmite y, que
ademas pertenece a cl(S). Entonces Qy cl(S) 6= y (Qy S) 6= , ya
que de la demostracion del Teorema 2.12 concluimos que si un conjunto
convexo no vaco B es acotado por debajo, entonces (B) 6= . Sea
z (Qy cl(S)), y como Qy cl(S) Qz = {z}, tenemos que
z Qy y Qz cl(S) = {z} y por tanto z (S). Como S es
cerrado por debajo, z S y cualquier 0 cuyo punto de riesgo sea z
es admisible (Teorema 2.1). Ademas 0 satisface: r(, 0 ) V ya que
R(i , 0 ) V, i = 1, . . . .k. Finalmente, de (2.28), r(0 , 0 ) = V , o sea
que 0 es de Bayes para 0 .2
Una version mas general aparece por ejemplo en Blackwell y Girshick (1954), donde se requiere que el espacio de acciones A sea un
subconjunto cerrado, acotado y convexo de R n y L(, a) sea, para cada
, una funcion continua en a y convexa. En general no siempre ocurre
que estrategias minimax o maximin existen.
Para espacios de acciones no acotados, el siguiente ejemplo ilustra
que el juego no tiene ni siquiera un valor.
Ejemplo 2.11. Consideremos el juego donde cada jugador escoge un
n
umero positivo. El jugador que escoja el n
umero mayor gana $1 del
otro. Aqu, = A = (1, 2, . . .) con:

1
L(, a) = 0

si
si
si

>a
=a
<a

Una estrategia aleatoria para el jugador 1 es un vector = (1 , 2 , . . .),


donde i es la probabilidad de seleccionar el n
umero i. Se sigue que:
P
P
L(, a) = i>a i i<a i . Para cualquier fija sucede que:
inf
L(, a) = a
inf L(, a) = 1,
a

64

CAPTULO 2. TEORA CLASICA


DE DECISION

y entonces
V = sup inf
L(.a) = 1.
a

Se deja como ejercicio verificar que V = 1. Como V 6= V el juego


no tiene un valor. No existen estrategias optimas en este juego.3
Ya vimos (Teorema 2.7 y corolarios siguientes) la importancia de
reglas igualadoras, es decir 0 D es igualadora si R(, 0 ) = c, para
todo . Veamos otro resultado para reglas igualadoras.
Teorema 2.19 Si 0 D es una regla igualadora y admisible entonces
es minimax.
Prueba.
R(, 0 ) = c, . Como 0 es admisible, cualquier
otra D debe cumplir con R(, ) c para alg
un 0 . De otra
manera dominara a 0 , contradiciendo su admisibilidad. Entonces,
sup R(, ) c = sup R(, 0 ),

D,

por lo que 0 es minimax.2


Las reglas minimax, de existir, no son necesariamente u
nicas ni
admisibles. Pero si son u
nicas, son admisibles.
Teorema 2.20 Si 0 es la u
nica regla minimax, entonces es admisible.
Prueba.
Si 0 no es admisible, existe alguna 1 D que es mejor
que 0 y por tanto: R(, 1 ) R(, 0 ), . Entonces,
sup R(, 1 ) sup R(, 0 )

y 1 tambien debe ser minimax, lo que contradice la unicidad de 0 .2


Continuaci
on Ejemplo 2.5. El estimador 0 (x) = x es minimax y es
una regla igualadora para cualquier dimension n (Ver Teorema 2.6 (1)).
Para n = 1 o n = 2, 0 es admisible y es el u
nico estimador minimax.
(Esto u
ltimo es consecuencia de que L(, a) = ( a)2 es estrictamente
convexa en a). Si n 3, 0 es inadmisible, por lo que otros estimadores

2.6. ADMISIBILIDAD Y REGLAS MINIMAX

65

minimax existen, de acuerdo al Teorema 2.20. De hecho para este


problema existe una clase grande de estimadores minimax (Berger 1985,
p. 363-364) y aparece el problema de como decidir cual usar. No
hay solucion satisfactoria a este problema a menos que se enfoque,
parcialmente, desde el punto de vista Bayesiano (Berger y Berliner,
1984).3
Otro problema del punto de vista minimax es su fuerte dependencia
de la funcion de perdida utilizada.
Continuaci
on Ejemplo 2.8 (Lehmann, 1983). El error cuadratico
puede ser no apropiado ya que errores de estimacion de tama
no fijo
parecen ser mas serios cuando esta cerca de 0 o 1, que cuando esta
2
cerca de 12 . Tomemos la funcion de perdida: L1 (, d) = (d)
.
(1)
Bajo L1 el estimador insesgado 0 (x+ ) = x, es una regla igualadora,
la cual es Bayes respecto de la distribucion uniforme en (0,1) y por lo
tanto es minimax respecto de L1 . Una indicacion de cuan fuertemente
la regla minimax depende de la funcion de perdida utilizada, es el hecho
de que el estimador minimax para L cuadratica, (x+ ) (2.24), tiene
funcion de riesgo no acotada bajo L1 . Las afirmaciones hechas en este
ejemplo se dejan como ejercicio.3
Incluso en problemas de inferencia estadstica, donde la funcion de
perdida es acotada, y existe una u
nica regla minimax, esta bien puede
ser tonta como se muestra en el siguiente ejemplo.
Continuaci
on Ejemplo 2.8 (Berger,1985). Supongamos ahora la
perdida:
)
(
d 2
L2 (, d) = min 2, (1 ) ,

para = (0, 1], A=[0,1]. Resulta ser (Berger 1985, p. 374) que el
u
nico estimador minimax 2 (x) respecto de L2 es: 2 (x) = 0, sin importar cual es el resultado del experimento!. L2 es razonable, (errores
de estimacion cerca de = 0 son mas serios, permaneciendo la perdida
acotada) y sin embargo el estimador minimax resuelve ignorar los datos
y estimar como 0. El estimador 2 solo tendra sentido si tuviesemos

66

CAPTULO 2. TEORA CLASICA


DE DECISION

una creencia a priori enorme de que es cero. (No me confundas con


los hechos). En este caso el estimador minimax no es particularmente
objetivo.3
En conclusion, el criterio minimax no parece atractivo como enfoque
general a la Teora de Decision. Afortunadamente el enfoque Bayesiano
es adecuado para decidir racionalmente, tanto desde el punto de vista
condicional (a los datos), como desde el punto de vista frecuentista. El
u
nico punto debil de Bayes es el de su dependencia de la distribucion
a priori. Sin embargo, esto puede ser subsanado realizando analisis de
sensibilidad con respecto a la distribucion a priori, verificando cuando
la decision optima de Bayes es o no robusta respecto a la distribucion
a priori.

2.7

Ejercicios

2.1 Verificar la tabla de riesgos R(i , d) del ejemplo 2.1.


2.2 Demostrar el Lema 2.1.
2.3 Verificar que la Esperanza de la densidad (2.13) es x0 y la Esperanza de (2.16) es (x).
2.4 Demostrar 2 y 3 del Teorema 2.5.
x)]
2.5 Verificar que la varianza a posteriori del ejemplo 2.7 es (x)[1(
.
n +1

2.6 Demostrar que para el ejemplo 2.6 (x) = x es insesgado y que


2
EX| [X ]2 = n .
2.7 Demostrar que para el ejemplo 2.7 (x) = x es insesgado y que
EX| [X ]2 = (1)
.
n
2.8 Demostrar que la regla de decision es minimax si y solo si
R( , ) sup R(, ) para toda y para toda D.
2.9 Demostrar que 0 es de Murphy si y solo si r(0 , ) inf r(, )
para toda D y para toda distribucion .

67

2.7. EJERCICIOS

2.10 Verificar la ecuacion (2.23).


2.11 Completar la demostracion del Teorema 2.9.
2.12 Verificar que el supuesto de que sea de Cromwell es necesario
en el Teorema 2.12, considerando el siguiente conjunto de riesgo
convexo, cerrado por debajo y acotado por debajo:
S = {(y1 , y2 ) : y1 y2 1, y1 > 0}
Sugerencia: tome 1 = 1. (Ver Ferguson 1967).
2.13 Obtener X como regla de Bayes generalizada en la situacion del
ejemplo 2.9, para la densidad a priori impropia () = 1 (Uniforme en toda la recta).
2.14 Demostrar que sup r(, ) = sup R(, ).
2.15 Verificar que en la situacion del ejemplo 2.11, V =1.
2.16 Verificar que el estimador (x) = x del ejemplo 2.5 es minimax y
es una regla igualadora para cualquier dimension n.
2.17 Verificar las afirmaciones del ejemplo 2.8.
2.18 Un inversionista puede invertir $5000 en el banco o en acciones.
Las acciones pueden subir 1 o bajar 2 de modo que la informacion disponible esta contenida en siguiente tabla:
U(, a)
invertir
banco
prob.

1
2
5100 4900
5000 5000
0.6
0.4

Una posibilidad es que el inversionista decida pagar f dolares para


que un experto lo asesore. Se sabe que la opinion del experto, X1
invertir, X2 no invertir, tiene una confiabilidad que se expresa en:
p(x1 | 1 ) = 0.8

p(x2 | 2 ) = 0.7.

68

CAPTULO 2. TEORA CLASICA


DE DECISION

Hacer un arbol de decision y decidir la accion que produzca una


mayor utilidad esperada.
2.19 Un comprador exige una garanta de un a
no sobre un cierto
equipo. El proveedor tiene la opcion de revisar el equipo a1 o
no, a2 . La utilidad de estas acciones es:
U(, a)
Defectuoso
No defectuoso

a1
a2
700
0
800 1000

Para detectar posibles fallas en el equipo el proveedor puede usar


un aparato de chequeo que consta de dos sensores. Los sensores
activan una se
nal auditiva con probabilidad 0.9, si el aparato es
defectuoso y con probabilidad 0.4 si no lo es. El costo del aparato
es de 100 y se toma la decision de revisar el equipo si por lo
menos uno de los dos sensores se activa. El proveedor sabe por
experiencia que el 20% de los equipos es defectuoso. Dibuje un
arbol de decisioon que permita obtener la decision optima para
el proveedor.
2.20 Un paciente de emergencia puede tener dos tipos de enfermedad:
Tipo I con probabilidad 0.4 y Tipo II con probabilidad 0.6. De
no recibir el tratamiento adecuado podra morir con probabilidad
0.8. El medico puede tomar tres acciones:
1. no tratar al paciente
2. darle una droga al paciente
3. operar al paciente
pero estas tres acciones son excluyentes.
Tanto una operacion como la droga le pueden producir la muerte
al paciente, la primera con probabilidad 0.5 y la segunda con
probabilidad 0.2.
Si el paciente sobrevive a la droga, esta no hara efecto con probabilidad 0.5 si tiene la enfermedad Tipo I, mientras que la probabilidad sera 1 si tiene la enfermedad Tipo II. Para el caso de que

2.7. EJERCICIOS

69

sobreviva a la operacion, esta sera beneficiosa con probabilidad


0.8 si tiene la enfermadad Tipo I y con probabilidad 0.4 si tiene
la Tipo II.
Grafique un arbol de decision que permita seguir la estrategia
optima. Que debe hacer el medico?.
2.21 Considere una muestra X1 , . . . , Xn N(, 2 ) donde 2 es conocida y suponga () = N(, 2 ). Calcule para estimar .
2.22 Considere un experimento binomial X Bin(n, ), n fijo, y
suponga que
() = Beta(n0 x0 , n0 (1 x0 )). Calcule para estimar .
2.23 A una pieza de un motor de avion se le puede hacer una prueba
antes de su instalacion. Esa prueba tiene una chance de 75% de
revelar que la pieza es defectuosa, y el mismo chance de aprobar
una pieza buena. Tanto si se ha hecho la prueba o no, se puede a
un alto costo rehacer la pieza pero as estaremos seguros de que
la pieza esta libre de defectos. Si se instala una pieza defectuosa
se pierde L. Rehacer la pieza tiene un costo de L/5, y sabemos
que a priori una de cada ocho piezas es defectuosa. Calcule hasta
cuanto se puede pagar por hacer la prueba, determinar el arbol
de decision y las decisiones optimas.

70

CAPTULO 2. TEORA CLASICA


DE DECISION

Captulo 3
Fundamentos de la Teora
Bayesiana de Decisi
on
En este captulo haremos una revision rapida de los fundamentos de la
Teora Subjetiva Bayesiana, diferentes de los fundamentos estudiados
en el Captulo 2, el cual esta basado en el concepto frecuentista de
riesgo R(, d) y admisibilidad. En la primera seccion introducimos la
Teora de Utilidad que ilustra que la Teora Estadstica de Decision, al
igual que el resto de las teoras matematicas, puede ser axiomatizada
(los axiomas de racionalidad) obteniendose, como consecuencia logica,
el metodo Bayesiano de minimizar la perdida esperada. Ning
un otro
enfoque ha podido ser axiomatizado, pero existen conjuntos de axiomas
menos restrictivos que generalizan el enfoque Bayesiano estricto (es
decir el que incluye la hipotesis de la precision). Una tal generalizacion
se debe a Walley(1991), quien demuestra que la coherencia del enfoque
Bayesiano estricto se preserva bajo condiciones mas realistas. En la
u
ltima seccion de este captulo expondremos otros principios generales
fundamentales, el de la verosimilitud y el del riesgo posterior, que nos
indican que la estadstica frecuentista (o incondicional) tiene problemas
basicos y que solo un metodo condicional a los datos obtenidos X , puede
ser correcto.
71

72

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

3.1

Breve introducci
on a la Teora de Utilidad

El objetivo de la Teora de Utilidad es el de construir la funcion de utilidad (o perdida) y el de justificar el principio Bayesiano de maximizar
(minimizar) la utilidad (perdida) esperada. La Teora de la Utilidad
tiene sus origenes en Ramsey(1926) y De Finetti(1937). Aqu haremos una breve introduccion. Tratamientos mas completos aparecen en
DeGroot(1970), Ferguson(1967) y Berger(1985).
Al momento de evaluar las consecuencias de las posibles acciones nos
encontramos al menos con dos dificultades. La primera es que debemos
comparar los valores de entidades muy dismiles para las cuales no existe
una obvia escala de medida. Considere por ejemplo la posibilidad de
asistir a un curso de Teora de Decision que durara un par de semanas.
Alternativamente podra tomar vacaciones o aceptar un trabajo durante
ese perodo. Todo el tiempo tenemos que tomar decisiones de este tipo,
pero no esta nada claro que exista una escala precisa en la cual podamos
comparar las consecuencias, que van a ser no determinsticas, de las tres
posibles acciones descritas.
El segundo problema es que incluso cuando existe una escala, por
ejemplo monetaria, esta no necesariamente refleja los verdaderos valores
del TD. Supongamos que su Departamento de Matematicas le ofrece $
500 por dictar un curso en el perodo vacacional. Si usted tuviese en
el banco a su disposicion $ 5000, valorara mucho menos el salario que
le ofrecen a costa de arruinar sus vacaciones, que si no tuviese reserva
alguna. En otras palabras el valor que usted le asigna a $ 5500 no es
el mismo que usted le asigna al valor de $ 5000 mas el valor de $ 500.
O sea, su escala de valores no es lineal, pero la escala monetaria s.
Otro ejemplo es el siguiente: Suponga que usted ha sido el ganador
de una competencia y se le ofrece una de dos opciones: un regalo de
$ 100 o lanzar una moneda balanceada y si esta cae cara usted recibe
$ 300, y si cae sello usted no recibe nada. Probablemente usted se
quedara con los $ 100 seguros, o sea que su valor esperado de la segunda opcion es menor que $ 100. Pero si su escala de valores fuese
monetaria, usted esperara recibir $ 150 y debera (siendo racional)
aceptar la segunda opcion. Si acepta la primera opcion significa que

A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION

73

usted valora $ 300 en mucho menos de tres veces lo que usted valora $
100, o usted esta siendo irracional.
Ejemplo 3.1 (La Paradoja de San Petersburgo). Usted debe
pagar $ c para entrar en el siguiente juego de apuestas. Se lanza una
moneda balanceada (probabilidad de caer cara igual 1/2) hasta que la
primera cara aparezca. Si esto toma n lanzamientos a usted se le paga $
2n . Cuanto esta usted dispuesto a pagar para entrar en esta apuesta?.
Supongamos que su escala de valores es monetaria, entonces su utilidad
esperada es:

n=1

2 P (n) c =

n=1

n n

2 2

c = .

Por lo tanto usted debera estar dispuesto a pagar $ c arbitrariamente grande para entrar en la apuesta ya que la utilidad esperada
sera positiva, a pesar de que la probabilidad de ganar $ 16 o mas es de
apenas 18 . Lo irracional de este hecho nos indica que nuestra escala de
valores respecto al dinero no debe ser lineal, sino concava para magnitudes grandes, y posiblemente acotada. A quien le importa $ 1 cuando
ya tiene $ 10100 ?.3
Las consecuencias de nuestros actos seran llamadas recompensas r
y su espacio es . A menudo hay incertidumbre sobre las consecuencias
que realmente van a ocurrir. As los resultados de las acciones son distribuciones de probabilidad P en , llamadas apuestas. Denotaremos
por P al conjunto de esas probabilidades. Para trabajar con valores
y preferencias en P, supongamos por el momento la existencia de una
funcion U(r) con valores en los reales , tal que el valor de la distribucion
P P viene dado por el valor esperado de U bajo P . Denotamos a
este valor esperado por: E P [U(r)] o simplemente por U(P ). Si esta
funcion U existe, la llamamos la funcion de utilidad. Supongamos que
el TD puede avaluar sus preferencias entre las apuestas. Esto es para
P1 y P2 en P puede juzgar si:
1. P1
6

P2 (prefiere P2 a P1 ) o

2. P2
6

P1 (prefiere P1 a P2 ) o

74

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

3. P1 P2 (P1 y P2 son equivalentes).

Esta avaluacion puede ser muy difcil en la practica, y puede diferir


entre individuos. Escribimos P1 6 P2 para decir que P1 no se prefiere a P2 , o sea P1 6 P2 o P1 P2 . Una recompensa r la
identificaremos con la distribucion en P, denotada por hri, que le
asigna probabilidad uno al punto r. El objetivo es buscar una funcion
U que represente a traves de su valor esperado, el patron de preferencias del TD en P. Esto es, procurarnos una funcion U tal que
P1 6 P2 si y solo si U(P1 ) U(P2 ), que sera la funcion de utilidad.
Su existencia no esta nada clara y sera consecuencia de los axiomas
de racionalidad que postularemos luego. Presentamos seguidamente
dos metodos u
tiles para la construccion de U (supuesta su existencia).
En estos metodos nos concerniran mezclas de apuestas de la forma
P = P1 + (1 )P2, donde 0 < < 1. Esta P es la distribucion en
P tal que para A , P (A) = P1 (A) + (1 )P2 (A). En particular,
P = hr1i + (1 )hr2 i es la distribucion que asigna probabilidad a
la recompensa r1 y (1 ) a la recompensa r2 . Note que por ejemplo:
U(P ) = U(hr1 i) + (1 )U(hr2i) = U(r1 ) + (1 )U(r2 ), es el valor
esperado de la recompensa para la apuesta P .

3.1.1

M
etodos de construcci
on de la funci
on de
utilidad U

METODO 1: En este metodo, es un n


umero tal que 0 < < 1.
Los pasos a seguir son:
1. Se escogen dos recompensas r1 y r2 tal que: r1 6 r2 . Si existen una
recompensa mejor y una peor asgnelos a r1 y r2 respectivamente.
Haga U(r1 ) = 0 y U(r2 ) = 1.
2. Para una recompesa r3 , tal que r1
6

r3
6

r2 encuentre tal que:

r3 P = hr1 i + (1 )hr2i.
O sea, r3 es equivalente a la apuesta que nos da r1 con probabilidad y r2 con probabilidad (1 ). (Encontrar puede ser
difcil). Defina,
U(r3 ) = U(P ) = U(r1 ) + (1 )U(r2 ) = 1 .

A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION

3. Para r4 tal que r3


6

r4
6

75

r2 encuentre tal que:

r4 P = hr3 i + (1 )hr2 i.
Defina,

U(r4 ) = U(P ) = U(r3 )+(1 )U(r2 ) = (1)+(1 ) = 1 ,


y contin
ue as sucesivamente para todas las recompensas (si es
finito) o hasta obtener una curva suficientemente suave de U (si
no es finito).
4. Haga verificaciones periodicas de consistencia. Por ejemplo, como
r1 6 r3 6 r4 entonces encuentre en tal que:
r3 P = hr1 i + (1 )hr4 i.
Note que debe cumplir, al menos aproximadamente con:
U(r3 ) = 1 = U(r1 ) + (1 )U(r4 ) = (1 )(1 )
Si esto no es as, es necesario volver atras y reconsiderar las asignaciones hasta hacerlas consistentes.
METODO 2:
1. Como en el Metodo 1.
2. Encuentre r3 tal que:
1
1
r3 P = hr1 i + hr2 i,
2
2
o sea, obtener r3 con seguridad es equivalente a la apuesta que
nos ofrece con probabilidad 12 tanto a r1 como a r2 . Entonces,
1
1
1
U(r3 ) = U(P ) = U(r1 ) + U(r2 ) = .
2
2
2

76

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

3. Encuentre r4 tal que:

1
1
r4 hr1 i + hr3 i
2
2

1
1
1
U(r4 ) = U(r1 ) + U(r3 ) = .
2
2
4

1
1
3
U(r5 ) = U(r3 ) + U(r2 ) = ,
2
2
4

Encuentre r5 tal que:


1
1
r5 hr3 i + hr2 i,
2
2
y as sucesivamente.
4. Verifique periodicamente su consistencia. Por ejemplo, encuentre
r6 tal que:

1
1
r6 hr4 i + hr5 i,
2
2

1
1
1
U(r6 ) = U(r4 ) + U(r5 ) = ,
2
2
2

y por consiguiente r6 debe ser igual a r3 . Si esto no es ni aproximadamente cierto, hay que volver atras hasta obtener consistencia.
Ejemplo 3.2 (Utilidad del dinero). Usaremos aqu el Metodo 2.
Considero, r1 =$ 0, r2 =$ 5000 con U(r1 ) = 0 y U(r2 ) = 1. Me pregunto
(seriamente) para cual r3 se cumple, r3 12 h$0i + 12 h$5000i. Si r3 =$
2500 preferira $ 2500 seguros, pero si r3 =$ 1000 preferira la apuesta.
Decido tentativa y aproximadamente que r3 =$ 1500 con U(r3 ) = 12 .
(Note que esto depende de mi fortuna actual. Si dispusiese de una
jugosa cuenta de banco bien pudiera haber asignado r3 =$ 2450). Busco
ahora r4 , tal que:
1
1
r4 h$0i + h$1500i.
2
2
Asigno r4 =$ 700 de donde U($700) = 14 . Procuro r5 con r5
+ 12 h$5000i. Asigno, r5 =$ 3000 y entonces U($3000) = 34 .

1
h$1500i
2

77

A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION

Antes de continuar me hago una pregunta redundante para verificar mi


consistencia. Busco un r6 con,
1
1
r6 h$700i + h$3000i.
2
2
Decido que r6 =$ 1700, pero como U(r6 ) = 12 = U(r3 ), con r3 =$
1500, encontre una inconsistencia. Vuelvo atras, pero sigo satisfecho
con r3 y r4 . Reviso sin embargo r5 y me pregunto para que valor de r5
hara r6 =$ 1500 y hago r5 =$ 2500. Los valores asignados se grafican
en la Figura 3.1. De hecho graficar ayuda en la asignacion aproximada
de los rs.

U(r)
1
3/4
1/2
1/4
0

1000

2000

3000

4000

5000

Figura 3.1. Utilidad personal del dinero.

Algunas caractersticas de la utilidad del dinero son las siguientes:


1. U(r) es aproximadamente lineal para r peque
no, (estamos dispuestos a aceptar apuestas 1 vs. 1 si r es peque
no).
2. U(r) es usualmente concava, al menos para r > 0, (adversa al
riesgo).
3. U(r) es tpicamente muy distinta para r 0 que para r < 0, por
lo que es recomendable construir U(r) por separado en ambos
casos.

78

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

4. U(r) es tpicamente acotada.


Continuaci
on Ejemplo 3.1. La Teora de Utilidad resuelve la paradoja,
mostrando que la utilidad de aceptar la apuesta es:

n=1

U(2n c)2n ,

la que para funciones tpicas de utilidad del dinero es negativa para c


suficientemente grande. D. Bernoulli sugirio U(r) = log(r + c) para ren
solver la paradoja. Sin embargo para recompensas de $ 22 la paradoja
subsiste para el logaritmo. Esta paradoja se resuelve cuando U es acotada. 3
Los axiomas que garantizan la existencia de la funcion de utilidad
y su unicidad, salvo por transformacion lineal, son:
1. Si P y Q P entonces exactamente una de las relaciones: P
o Q 6 P o P Q es verdadera.
2. Si P

Q y Q 6 R entonces P
6

R.

3. Sean P, Q y R P, 0 < < 1. Entonces P


6

Q si y solo si:

P + (1 )R 6 Q + (1 )R.
4. Si P

Q6 R entonces existen n
umeros 0 < < < 1 tales que:
6

P + (1 )R 6 Q 6 P + (1 )R.
Si ademas se satisface el siguiente axioma, entonces U es acotada.
5. Si Pi
6

Q para i = 1, 2, . . . , i 0 y

X
i=1

i Pi
6

X
i=1

Q.

i = 1, entonces

A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION

79

Es tambien posible definir la probabilidad subjetiva de cualquier


evento E, a partir de las utilidades que las recompensas asociadas a
E y E c implican. Una ilustracion sencilla mostrara el procedimiento.
Supongamos que si E ocurre obtenemos la recompensa r1 , y si E c ocurre
obtenemos la recompensa r2 , las cuales no son equivalentes. Asignamos
una recompensa r3 tal que:
r3 P = P (E)hr1i + P (E c )hr2 i.
Entonces,
U(r3 ) = P (E)U(r1 ) + (1 P (E))U(r2 ),
y finalmente:
P (E) =

U(r3 ) U(r2 )
.
U(r1 ) U(r2 )

Demostraciones de lo afirmado anteriormente, aparecen en Ferguson(1967) o DeGroot(1970), donde se hacen algunos supuestos tecnicos
adicionales. Ver tambien Fishburn(1981) donde aparece una revision
de los diferentes conjuntos de axiomas que han sido propuestos.
Los axiomas de racionalidad, a excepcion del 1, son razonablemente
realistas y aparecen como aceptables. Vimos en el ejemplo 2.11 una
situacion donde el principio minimax viola el axioma 3 y la consecuencia
fue irracional. El axioma 4 puede interpretarse como que no existen
recompensas infinitamente buenas o malas (no existe ni el cielo ni el
infierno). Si P fuese infinitamente mala no existira , 0 < < 1,
tal que Q 6 P + (1 )R. Puede argumentarse que la muerte es
infinitamente mala, pero entonces no aceptaramos el extra-chance de
morir al cruzar la calle. El axioma 1 sin embargo no es realista en
muchas situaciones.
Los defensores del axioma 1 aducen que la vida nos fuerza a escoger
entre opciones alternativas extremadamente difciles de comparar. Pero
esto no necesariamente nos dice que existe una escala precisa U, que
act
ua linealmente sobre las apuestas compuestas, que mide con precision todas nuestras preferencias entre todas las posibles apuestas. El
caso de la utilidad del dinero es mas sencillo ya que estamos comparando cantidades de $. Pero incluso en este caso, si retornamos al ejemplo

80

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

3.2, para m asignar a r3 cualquier cantidad entre $ 1400 y $ 1600, sera


perfectamente aceptable como cantidad segura equivalente a la apuesta
que con 50-50 de chance me da $ 0 o $ 5000. En otras palabras, existe
una imprecision inevitable al momento de transferir mis preferencias a
una escala.
Para otras comparaciones mas complejas este comentario aplica a
un
con mas fuerza. Sucede, sin embargo, que a menudo podemos decidir
racionalmente entre opciones alternativas a
un cuando la escala de medidas sea imprecisa. Como ejemplo, considere la probabilidad que ud.
asigna al evento E de que Italia gane el proximo mundial de f
utbol.
Si luego de un exhaustivo analisis ud. concluye que su probabilidad
de que E ocurra es de 0.785467414..., esta afirmacion solo puede ser
considerada como un chiste. Una manera operacional sumamente u
til
de calcular probabilidades subjetivas (De Finetti 1974, Vo. 1) es la de
medir sus dispocisiones a apostar respecto de eventos. Tomemos de
nuevo el caso del mundial de f
utbol. Si un TD esta dispuesto a apostar
a favor de Italia 0.6 vs. 0.4, decimos que su probabilidad de que Italia
gane el mundial es de por lo menos 0.6. Note sin embargo que no necesariamente el mismo TD esta dispuesto a apostar en contra de Italia 0.4
vs. 0.6. (Esto no tiene que ver con favoritismos personales sino con su
evaluacion de riesgo). Bien puede afirmar, dada la alta incertidumbre
de tal evento, que en contra de Italia apostara 0.2 vs. 0.8. En este
caso tendremos 0.6 P (E) 0.8, o sea su probabilidad es imprecisa.
El fenomeno anterior lo encontramos todo el tiempo en la vida real.
Por ejemplo, la diferencia entre el precio de venta y el precio de compra
que las casas de cambio le asignan a una moneda, digamos la lira o la
libra esterlina, es directamente proporcional a la variabilidad que este
mostrando dicha moneda.
Conjuntos de axiomas mas generales (y mas realistas) que los enunciados anteriormente aparecen, por ejemplo, en Smith(1961), Good(1962)
y Walley(1991). Un resultado central de dichas teoras de la imprecision, es que para ser racional se debe actualizar cada una de las
distribuciones a priori , de acuerdo a la regla de Bayes, obteniendo as, luego de observar el dato X , una clase actualizada de distribuciones a posteriori (x). Esta generalizacion sigue obedeciendo
principios basicos de racionalidad y puede ser axiomatizada. Desarrollar esta Teora de la Imprecision (Bayesiana) y llevarla alg
un da a un

A LA TEORA DE UTILIDAD
3.1. BREVE INTRODUCCION

81

nivel comparable de la madurez al que tiene la Inferencia y Teora de


la Decision (bajo la hipotesis de la precision) es un area apasionante de
investigacion actual (ver Berger(1984), Pericchi y Walley(1989a, 1989b,
1991)). La crtica frecuentemente hecha de que es difcil o imposible
evaluar las creencias a priori con precision, en lugar de dirigirnos al
enfoque frecuentista debe, en nuestra opinion, motivarnos a generalizar
el enfoque Bayesiano, preservando su solidez. Alternativamente, se ha
desarrollado un enfoque de previas de referencia, automaticas o noinformativas que posibilitan un enfoque condicional a los datos, pero
objetivo, de referencia o automatico, que no requiere evaluar la informacion sobre en forma subjetiva-personal. En captulos siguientes,
expondremos este enfoque automatico Bayesiano, que preservando algunas (no todas) ventajas del enfoque Bayesiano propio, presenta una
mayor simplicidad.
Seguidamente conectamos la Teora de Utilidad con las funciones de
perdida y el principio Bayesiano de minimizacion de la perdida esperada, vistos en el captulo anterior. Por simplicidad hacemos la discusion
para y discretos. Definamos la funcion c(, a)(r) como la probabilidad de que el TD reciba la recompensa r si toma la accion a
A, y es el estado de la naturaleza. Supongamos que la funcion
de utilidad U existe. Definimos la funcion de perdida
L: A R
por:
L(, a) = U(c(, a)) =

c(, a)(r)U(r).

Luego de observar el resultado del experimento X , la densidad de


probabilidades del TD sobre es ( | x). Si el TD toma la accion a,
la probabilidad de que obtenga la recompensa r es:
Pa (r) =

( | x)c(, a)(r).

Entonces la accion a es equivalente a la apuesta Pa . Por tanto


pueden compararse las diferentes acciones comparando la utilidades de
las apuestas Pa , para a fijo,

82

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

U(Pa ) =

Pa (r)U(r) =

( | x)

XX
r

X
r

( | x)c(, a)(r)U(r)

c(, a)(r)U(r) =

( | x)L(, a),

siempre que pueda intercambiarse el orden de las sumatorias. Entonces:


a2 se prefiere a a1 si y solo si Pa1 6 Pa2 si y solo si U(Pa1 ) < U(Pa1 ) si
y solo si
X

( | x)L(, a1 ) >

( | x)L(, a2 )

si y solo si a2 tiene perdida esperada a posteriori menor que a1 , y la


mejor accion sera aquella que minimice la perdida esperada a posteriori. En conclusion, los axiomas 1 a 5 nos conducen ab fortiori a la
minimizacion de la perdida esperada.

3.2

El Principio de la Verosimilitud

Un principio fundacional mas sencillo que la Teora de Utilidad es el


Principio de la Verosimilitud, el cual tiene consecuencias de largo alcance respecto a cual enfoque escoger como paradigma en la Teora de
Decision e Inferencia Estadstica. Para el dato observado, X , de un
experimento, hemos llamado a p(x | ), considerada como funcion de
, la funcion de verosimilitud indexVerosimilitud!funcion de. La razon
de darle este nombre es que si para 0 y 1 , p(x | 0 ) > p(x | 1 ),
entonces es mas verosimil (o plausible) que 0 sea el verdadero que
ha generado al dato X (observado y fijo) que 1 .
PRINCIPIO DE LA VEROSIMILITUD: Al tomar decisiones
sobre , despues que X ha sido observado, toda la informacion experimental esta contenida en p(x | ). Mas a
un, dos funciones de verosimilitud, que como funciones de , sean proporcionales, contienen la misma
informacion sobre .
Una discusion exhaustiva en defensa de este principio aparece en
Berger y Wolpert(1984). El siguiente ejemplo famoso ilustrara la racionalidad de este principio.

83

3.2. EL PRINCIPIO DE LA VEROSIMILITUD

Ejemplo 3.3 (Lindley y Phillips, 1976). Estamos interesados en la


probabilidad de que una moneda al ser lanzada caiga cara. Se desea
conducir el test de hipotesis:
1
1
vs.
H1 : > .
2
2
Se realiza un experimento lanzando la moneda en una serie de
ensayos independientes, obteniendose 9 caras y 3 sellos. Es decir,
x+ = 9, n = 12. No nos dicen, sin embargo, como el experimentador
decidio detener el experimento en n = 12, es decir no nos especifican
el espacio muestral X. Una posibilidad es que el experimentador haba
decidido de antemano efectuar 12 ensayos, en cuyo caso tenemos la
distribucion binomial,
H0 : =

p1 (x+ | ) =

n
x+

x+ (1 )nx+ = 220 9 (1 )3 ,

donde x+ es el n
umero de caras.
Otra posibilidad es que el experimentador haba decidido detener
el experimento al observar m = 3 sellos, en cuyo caso tenemos la distribucion binomial negativa,
p2 (x+ | ) =

m + x+ 1
x+

x+ (1 )m = 559 (1 )3 .

El principio de la verosimilitud nos prescribe que en cualquier caso


todo lo que necesitamos saber sobre el experimento es pi (x+ | ), y
como ellas son proporcionales deben contener la misma informacion
acerca de . Por otra parte los analisis frecuentistas (Clasicos) violan
este principio. Por ejemplo, si se realiza un test de Neyman-Pearson
para este problema, obtenemos como nivel observado de significacion
en cada posibilidad descrita anteriormente:
12
X
1
1
1 = P (x+ 9 | = ) =
p1 (x+ = i | = ) = 0.075
2
2
i=9

X
1
1
2 = P (x+ 9 | = ) =
p2 (x+ = i | = ) = 0.0325
2
2
i=9

84

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

Si el nivel de significancia del test fue escogido como = 0.05,


se rechazara H0 en el segundo caso pero no en el primero. Esto es
claramente sospechoso. Que tiene que ver el plan que dise
no el experimentador con la probabilidad de una moneda de caer cara?.3
El ejemplo anterior nos ilustra que un mismo resultado, x+ =9,
puede ser insertado en dos espacios muestrales, X1 y X2 , pero una
vez obtenido el dato, el hecho de que x+ provenga de X1 o de X2 se
hace irrelevante al momento de decidir acerca de . En otras palabras,
se deben tomar decisiones condicionales en el X observado y son irrelevantes otras observaciones que hubiesen podido ocurrir pero que no lo
hicieron. Para el punto de vista frecuentista el espacio muestral sigue
siendo relevante luego de observar el dato, y por tanto viola el Principio
de la Verosimilitud.
Considere por ejemplo el riesgo cuadratico de un estimador T (x):
R(, T (x)) =

( T (x))2 dP (x | ).

R(, T (x)) es una medida de la dispersion inicial de T (x), pero no


puede ser considerada como una medida de la dispersion final, ya que
X es observado y est
a fijo. Un ejemplo nos ilustrara dramaticamente el
peligro de interpretar un riesgo inicial (frecuentista) como riesgo posterior o final, que es el que realmente interesa.
Ejemplo 3.4 (Berger 1985). Sean X1 y X2 independientes condicionalmente en con identica distribucion dada por:
1
P (xi = 1 | ) = P (xi = + 1 | ) = ,
2
donde < < es desconocido. El estimador de , T (x) lo
definimos como:
T (x) =

1
(x1
2

+ x2 )
x1 + 1

si
si

x1 6= x2
x1 = x2 .

Se puede verificar que P (T (x) = | ) = 0.75 para todo , por


lo que frecuentistamente resulta que T (x) es un intervalo de 75% de
confianza de , que es una medida de riesgo inicial. Supongamos que

3.2. EL PRINCIPIO DE LA VEROSIMILITUD

85

observamos x1 6= x2 , T (x) = 12 (x1 + x2 ). Condicionalmente en x1 6=


x2 , podemos asegurar que 12 (x1 + x2 ), y la medida de 75% de
confianza ya no es relevante. Similarmente, si x1 = x2 entonces habra
una probabilidad de 0.5 de que T (x) = . En ambos casos , reportar
75% de confianza es enga
noso.
El principio del riesgo posterior nos indica que el desempe
no de una
regla de decision (x) debe juzgarse condicionalmente en X , en lugar
de para todas las posibles observaciones X. Es decir, luego de obtener
el dato, es el riesgo posterior y no el inicial lo relevante para juzgar a
(x).3
Ejemplo 3.5. Suponga que ud. va al medico quien va a hacerle un
test clnico para intentar descubrir si ud. tiene un tumor, en cuyo
caso debera ser intervenido quir
urgicamente de emergencia. El medico
le informa que el test clnico tiene una probabilidad de 95% de decidir
correctamente si ud. tiene el tumor o no. En base a esa informacion ud.
acepta dejarse hacer el test, el cual resulto negativo. Pero ahora ud. con
todo derecho le exigira al medico que le dijera cual es la probabilidad
de que ud. tenga el tumor o no, dado que el test resulto negativo. Es
posible que dicho test sea muy poderoso en detectar su verdadero estado
para resultados positivos pero no para resultados negativos. El 95%
que el medico menciono previamente ya no es relevente para ud. Los
medicos deberan aprender el Teorema de Bayes!. Ahora lo relevante es:
La probabilidad de tener el tumor condicionado a un resultado negativo
del test.3
El principio Bayesiano (y extensiones de el para clases de densidades
a priori) cumple naturalmente con los dos principios expuestos en esta
seccion. En efecto, el desempe
no de una regla de decision se juzga en
base a la perdida Bayesiana esperada condicional en X , o sea el riesgo
Bayesiano posterior (Definicion 2.9):
(, (x)) =

L(, (x))d( | x),

donde el valor esperado es tomado sobre y no sobre X. Generalizando esta nocion, si solo se sabe que , donde es una clase de
distribuciones a priori, entonces concluimos que el desempe
no de (x)

86

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

es mejor o igual a:
sup (, (x)).

(3.1)

Por otra parte el enfoque Bayesiano obedece al principio de verosimilitud. En efecto el Teorema de Bayes (1.2) establece que:
p(x | )()
,
p(x | )()d

( | x) = R

(3.2)

donde ( | x) denota la densidad a posteriori, y hemos supuesto por


simplicidad que la distribucion a priori posee una densidad (). En el
enfoque Bayesiano toda la informacion, experimental y subjetiva, esta
resumida en ( | x). Ahora (3.2) nos indica que:
1. Toda la informacion experimental entra en ( | x) solo a traves
de la verosimilitud p(x | ).
2. Si dos verosimilitudes son proporcionales (como funciones de ),
ambas generaran la misma ( | x), ya que la constante sale de
la integral (no depende de ) y se cancela con la del numerador.
Resumen: lo concluido en esta seccion (y en la anterior), es que
desde varios puntos de vista, el enfoque Bayesiano (o extensiones del
mismo) es el enfoque coherente de la Teora de Decision Estadstica y
por ello nos ocuparemos exclusivamete de el en los proximos captulos.

3.3

Ejercicios

3.1 Verificar que para la construccion de U en el Metodo 1 es posible


asignar U(r) para r 6 r1 o r2 6 r.
3.2 Construya para el ejemplo 3.2 una funcion de utilidad del dinero
(en $) en el rango (-10000,10000)
3.3 Demostrar que la paradoja descrita en el ejemplo 3.1 se resuelve
cuando U es acotada.

3.3. EJERCICIOS

87

3.4 Verificar que en el Ejemplo 3.4 P (T (x) = | ) = 0.75 para todo


, y que
P (T (x) = | , x1 6= x2 ) = 1 y , P (T (x) = | x1 = x2 ) = 0.5, .

88

CAPTULO 3. FUNDAMENTOS DE LA TEORA BAYESIANA DE DECISION

Captulo 4
An
alisis Bayesiano
Comenzaremos en este captulo analizando el test de Hipotesis desde el
punto de vista Bayesiano.

4.1

Test de Hip
otesis

Este problema ya lo planteamos en el ejemplo 2.2, cuya notacion seguiremos. El caso mas sencillo es el test de hipotesis simple vs. simple, o
sea:
H0 : = 0

vs.

H1 : = 1 ,

donde el espacio de parametros es = {0 , 1 }. En la terminologa


frecuentista de Neyman-Pearson para cada decision d D se denomina:
P (d(x) = a1 | 0 ) = (d)
P (d(x) = a0 | 1 ) = (d)

error de tipo I (falso rechazo)


error de tipo II (falso no-rechazo).

La funcion de riesgo R(, d) es entonces:


R(, d) =

L1 (d) si = 0
L0 (d) si = 1 .

Supongamos que la distribucion a priori es: P (H0 ) = 0 , P (H1) =


1 = 1 0 . Entonces el riesgo promedio es:
89

90

CAPTULO 4. ANALISIS
BAYESIANO

r(, d) = 0 L1 (d) + (1 0 )L0 (d) = a(d) + b(d).

(4.1)

Encontrar a d que sea Bayes-promedio optima es equivalente al


famoso Lema de Neyman-Pearson.
Teorema 4.1 (Lema de Neyman-Pearson). Sea d D tal que:
d (x) = a0
d (x) = a1

si
si

a p(x | 0 ) > b p(x | 1 )


a p(x | 0 ) < b p(x | 1 )

y cualquier decision en caso de igualdad. Entonces d es optima Bayes.


Prueba.

Sea d D cualquier otra decision con:

A = {x : d(x) = a0 }

B = {x : d(x) = a1 }.

Como B c = A, sigue que:


r(, d) = a
=a+
a+
donde

p(x | 0 )dx + b

p(x | 1 )dx

[bp(x | 1 ) ap(x | 0 )]dx

[bp(x | 1 ) ap(x | 0 )]dx = r(, d),

A = {x : d (x) = a0 } = {x : b p(x | 0 ) a p(x | 0 ) < 0}.


Por lo tanto d (x) minimiza el riesgo Bayesiano promedio, y se obtiene
el resultado.2
La region de rechazo de H0 de d sera, salvo un conjunto de medida
cero,
(

p(x | 0 )
b
B = x:
< =k .
p(x | 1 )
a

91

4.1. TEST DE HIPOTESIS

En el enfoque de Neyman-Pearson se escoge k tal que: P (B |


0 ) = , o sea que el error tipo I sea ; no se da guia racional de
como escoger , siendo dictadas por la convencion = 0.1; 0.05 o 0.01,
que es una practica subjetiva inconveniente. En contraste, el enfoque
0 )L0
,
Bayesiano no fuerza la escogencia de , sino que define a k = (1
0 L1
una combinacion de creencias a priori sobre las hipotesis y las perdidas
envueltas. En la version de Fisher de Test de significancia, se define el
valor observado del test, p , como:
P

p(x | 0 )
p | 0 = p ,
p(x | 1 )

0)
, el valor observado del cociente de verosimilitudes.
donde p = p(x|
p(x|1 )
Note que la definicion de p viola el principio de verosimilitud (ver
ejemplo 3.3). Se interpreta clasicamente que p es el mnimo valor
de para el cual se habra rechazado H0 . Es generalmente aceptado
que en la practica se interprete a p como la probabilidad de que H0
sea correcta. Esta interpretacion es filosoficamente incorrecta desde
el punto de vista frecuentista, ya que no tiene sentido considerar la
probabilidad de que una hipotesis sea correcta. Una hipotesis es una
afirmacion sobre , y no es una variable aleatoria desde el punto
de vista frecuentista. Sin embargo esta interpretacion del que usa el
test de hipotesis frecuentista es tan natural, que decadas de ense
naza
de la teora de Neyman-Pearson no han podido erradicarla. Aceptan
esta teora porque la interpretan desde un punto de vista Bayesiano
que les es racional; y ademas les produce n
umeros, y decisiones en
forma mecanica. El enfoque Bayesiano provee de la interpreptacion
adecuada, pero tambien requiere del usuario el insumo necesario: cuales
son las perdidas de una decision incorrecta y que se conoce a priori sobre
H0 . Esta es una diferencia radical entre ambos enfoques: el Bayesiano
requiere exponer claramente las evaluaciones subjetivas. El frecuentista
esconde el subjetivismo (inevitable) en el manto de la costumbre.
Si es cierto que el procedimiento del Teorema 4.1 tiene interpretaciones en terminos de las probabilidades de las hipotesis, el Teorema de
Bayes nos indica que:

p(x | Hi )i
p(x | Hi )i
=
,
p(x)
k=0 p(x | Hk )k

p(Hi | x) = P1

i = 0, 1.

(4.2)

92

CAPTULO 4. ANALISIS
BAYESIANO

de donde:
p(H0 | x)
p(x | 0 )0
=
,
p(H1 | x)
p(x | 1 )(1 0 )

y entonces la decision optima-Bayes rechaza H0 si:


p(H0 | x)
L0
.
<
p(H1 | x)
L1

(4.3)

Si por ejemplo L0 = L1 , entonces se rechaza a H0 , cuando su probabilidad a posteriori es menor que la de H1 . Si la consecuencia de un
rechazo de H0 incorrecto es mas grave, o sea L1 > L0 , solo se rechazara
H0 cuando tenga una probabilidad a posteriori menor que la de H1 , de
acuerdo a (4.3).
Por supuesto que no es necesario obtener la decision optima-Bayes,
como se hizo en el Teorema 4.1 (que sin embargo fue u
til para comparar
con conceptos frecuentistas). Podemos, en lugar de minimizar r(, d),
minimizar la perdida a posteriori esperada, (, d). En el caso simple
vs. simple, usando (4.2) obtenemos:
(, a0 ) = E|X [L(, a0 )] = p(H1 | x)L0 ,
(, a1 ) = E|X [L(, a1 )] = p(H0 | x)L1 .

Entonces para minimizar , debemos rechazar H0 (o sea, d(x) = a1 )


si:
p(H0 | x)L1 < p(H1 | x)L0 ,

o sea (4.3). En resumen, una decision optimo Bayes d (x) debe cumplir
con:
d (x) = a1 , si la desigualdad (4.3) ocurre,
d (x) = a0 , si la desigualdad en sentido contrario a (4.3) ocurre.
La ventaja (odds) posterior, O01 (x), de H0 vs. H1 se define
como la parte izquierda de (4.3) o sea:
p(H0 | x)
p(H0 | x)
=
,
(4.4)
p(H1 | x)
1 p(H0 | x)
que es la cantidad basica para aceptar o rechazar H0 , o sea para tomar
la decision.
O01 (x) =

93

4.1. TEST DE HIPOTESIS

Por ejemplo, la decision optima es aceptar H0 si la ventaja posterior


de H0 sobre H1 es mayor que LL01 . Denotamos por O01 la ventaja a priori
de H0 vs. H1 , o sea
0
p(H0 )
= .
p(H1 )
1
Definimos al factor de Bayes, B01 (x), de H0 vs. H1 por:
O01 =

(4.5)

p(x | H0 )
,
p(x | H1 )

(4.6)

O01 (x) = O01 B01 (x),

(4.7)

B01 (x) =

que en el caso de simple vs. simple, no depende de la informacion a


0)
priori y es igual al cociente de verosimilitudes p(x|
. De (4.2) y las
p(x|1 )
definiciones anteriores obtenemos:

o sea, que B01 es el factor que multiplicado por la ventaja a priori da la


ventaja posterior. La relacion (4.7) es multiplicativa pero podemos hacerla aditiva tomando logaritmo (que suponemos natural), obteniendo
en notacion obvia:
LO01 (x) = LO01 + W01 (x).

(4.8)

El logaritmo del factor de Bayes, W01 (x), se conoce como el peso


de la evidencia provista por el experimento en favor de H0 y en contra
de H1 , Good(1950,1968). El peso de la evidencia tiene importancia
crucial en areas diversas como diagnostico medico, ciencia forense o
cripto-analisis. Una aplicacion espectacular en esta u
ltima area del
uso de W01 (x) fue el desciframiento del codigo aleman, conducido por
Turing y Good, durante la II Guerra Mundial. Aplicaciones del peso de
la evidencia a problemas de diagnostico medico aparecen por ejemplo
en Good y Card (1971) y Pereira y Pericchi (1989). Para el caso general
de test de hipotesis:
H0 : 0

vs.

H1 : c0 = 1 ,

escribimos la distribucion a priori como:


() =

0 g0 () si 0
1 g1 () si 1 ,

(4.9)

94

CAPTULO 4. ANALISIS
BAYESIANO

donde G0 y G1 son distribuciones (sobre 0 y 1 ), que indican como


se reparte la probabilidad entre los s de cada hipotesis. Entonces las
verosimilitudes (ponderadas) bajo H0 y H1 se escriben como:
p(x | Hi ) =

p(x | )gi ()

i = 0, 1.

(4.10)

Con la adaptacion dada por (4.9) y (4.10) las definiciones dadas por
el caso anterior son validas para el caso general. Note la sencillez conceptual de la aproximacion Bayesiana al Test de Hipotesis: comparar
las probabilidades a posteriori de H0 vs. H1 . En contraste con la Teora
de Neyman-Pearson donde test uniformemente mas poderosos existen
solo en situaciones particulares.
Ejemplo 4.1 (Hip
otesis nula puntual). Suponemos que X
N(, 2 /n) como en el ejemplo 2.6. Se desea hacer el test
H0 : = 0

H1 : 6= 0 .

vs.

Se asigna la siguiente densidad a priori


() =

0
1 N(, 2 )

si
si

= 0
6= 0

(4.11)

Note que:
!

2
,
p(x | H0 ) = p(x | 0 ) = N 0 ,
n
p(x | H1 ) =

(6=0 )

p(x | )N(, 2 )d.

(4.12)
(4.13)

Como p(x | ) = N(, n ) y el extraer 0 no altera la integral, la


expresion (2.8) es igual a (4.13) por lo que:
!

2
p(x | H1 ) = N , +
.
n
2

(4.14)

Entonces de (4.6),(4.7), (4.12) y (4.14) se tiene que:




N 0 , n
0

O01 (x) =
1 0 N , 2 +

2
n

.

(4.15)

95

4.1. TEST DE HIPOTESIS

Varias conclusiones interesantes pueden extraerse de (4.15). Para


simplificar los calculos hagamos la suposicion natural, = 0 . De (4.15)
obtenemos,
(

0
z 2 n
O01 (x) =
n + 1 exp
,
1 0
2 n + 1
2

(4.16)

donde = 2 y z = n | x 0 |, que es la estadstica en la que


esta basada el test de hipotesis Clasico. En ese enfoque se rechaza
H0 cuando | z | z , donde (z ) = 1 2 y es la distribucion
Normal. Por ejemplo si = 0.05, entonces z = 1.96. Supongamos que
observamos una sucesion zn , tal que zn = z , o sea que rechazamos H0
para cada n seg
un la teora clasica. Observemos sin embargo que para
todo 0 fijo, 0 < 0 < 1, resulta que:
n

O01 (zn ) ,
y como se cumple en general que:
"

1
p(H0 | x) = 1 +
O01 (x)
entonces:

#1

(4.17)

p(H0 | zn ) 1.3
n

En resumen, en el ejemplo 4.1 encontramos una sucesion zn , para


la que clasicamente se rechaza H0 para cada n, pero para la que la
probabilidad a posteriori de H0 tiende a 1. Esta discrepancia se conoce
como la Paradoja de Lindley, Lindley(1957). Por ejemplo, si 0 = 12 ,
= 0 , = 1 y observamos z = 1.96 (o sea, se rechaza H0 para un test
clasico con = 0.05), resulta que p(H0 | z = 1.96) es igual a 0.35 para
n = 1; 0.6 para n = 100 y 0.8 para n = 1000. Si se aceptan entonces las
especificaciones a priori, no es solo filosoficamente erroneo interpretar
el observado como la probabilidad de que H0 sea cierta, sino que
numericamente acontece lo contrario para n grande. Sin embargo es
necesaria una nota de cautela. Contrariamente a lo que sucede en
problemas de estimacion, en test de hipotesis, particularmente cuando
H0 es un punto (de medida cero) y H1 no, la influencia de la asignacion a

96

CAPTULO 4. ANALISIS
BAYESIANO

priori no desaparece a medida que n crece. Note ademas que no se puede


hacer crecer la varianza a priori 2 , a voluntad. En efecto si 2 ,
o sea si para n y el resto de las asignaciones fijos, entonces
de (4.16) obtenemos que O01 (x) , o sea se deduce de (4.17) que
P (H0 | x) 1, para cualquier x. Otros analisis de este problema
aparecen por ejemplo en: Bernardo(1980), Smith y Spiegelhalter(1980),
Pericchi(1984) y Berger y Pericchi (1996). El desarrollo de metodologas
Bayesianas de referencia o sistematicas a la clase de problemas de test
de hipotesis y seleccion de modelos, es en s misma de tal importancia
y actualidad que le dedicaremos el Captulo 6 de este libro. Estas
metodologas nos proveen de maneras de asignar distribuciones a priori.
En el ejemplo 4.1 advertimos sobre la influencia demasiado grande
que puede tener una asignacion precisa a priori. La siguiente proposicion
permite relajar al menos parte de esta asignacion.
Proposici
on 4.1 Se desea hacer el test
H0 : = 0

H1 : 6= 0

vs.

y los datos X son una muestra generada por la verosimilitud p(x | ).


La densidad a priori es:
() =

0
1 g1 ()

si
si

= 0
6= 0 ,

(4.18)

donde g1 es cualquier densidad. Entonces,


"

1 0 h(x)
p(H0 | x) 1 +
0 p(x | 0 )

#1

(4.19)

donde h(x) = sup6=0 p(x | ).


Prueba.

Ejercicio.2

Continuaci
on Ejemplo 4.1. Para este ejemplo, usando (4.19), puede
verificarse que si en lugar de la asignacion (4.11) hacemos la asignacion
mucho mas imprecisa (4.18), obtenemos que:
"

1 0
z2
p(H0 | x) 1 +
exp
0
2

)#1

(4.20)

97

4.1. TEST DE HIPOTESIS

Para z = 1.96 (o sea, = 0.05) y 0 =

1
2

p(H0 | x) 0.128.

resulta de (4.20) que:

(4.21)

La cota inferior (4.21) es casi tres veces 0.05, y esto vale para
cualquier n.3
Otros resultados del tipo de (4.19) donde g1 en (4.18) se restringe
a la clase de densidades simetricas alrededor de 0 y no crecientes en
| 0 | aparecen en Berger y Sellke(1984). Por supuesto que en este
caso la cota es mayor o igual a la obtenida en (4.21). De hecho es igual
a 0.29.
Ante cotas como la dada en (4.21) los frecuentistas aducen, no sin
cierta razon, que el analisis que conduce a (4.21) supone una probabilidad 0 a priori fija, y precisa que H0 sea cierta. Note sin embargo,
que el factor de Bayes no depende de 0 , aunque depende de (). Un
frecuentista puede con todo derecho negarse a suponer tal probabilidad. De hecho Good clasifica a los Bayesianos en una gran cantidad
de categoras (algunas de ellas posiblemente vacas) pero favorecera
como definicion de Bayesiano: Aquel que esta dispuesto a asignar una
probabilidad a una hipotesis. La respuesta Bayesiana robusta (no
dogmatica) debe ser considerar clases de distribuciones a priori en las
cuales 0 vare en un amplio rango. Pericchi y Walley(1989a), para la
situacion del Ejercicio 4.3, definen una clase en la cual 0 0 1,
que llaman clase casi ignorante. Para esta clase uno no asume una
posicion de ignorancia a priori respecto de H0 . Las probabilidades a
posteriori para esta clase se comportan muy razonablemente, y el valor
observado del test p , se encuentra estrictamente entre el supremo y
el nfimo de las probabilidades a posteriori de H0 bajo esta clase. El
problema de obtener, en alg
un sentido, clases casi ignorantes para
hipotesis H0 puntuales, o mas generalmente cuando H0 es compacto,
permanece abierto.

98

CAPTULO 4. ANALISIS
BAYESIANO

4.2

Operaciones con la Distribuci


on a Posteriori y sus propiedades

Una vez obtenido los datos X , toda la informacion disponible esta


contenida en ( | x).

4.2.1

Intervalos de Credibilidad (Probabilidad)

A menudo se resume lo que se conoce sobre el parametro , por un


conjunto C(x) , en el que es altamente plausible que se encuentre
el verdadero 0 . Consideremos la funcion de perdida:
L (, C(x)) =

0 si C(x)
1 si 6 C(x)

La perdida esperada a posteriori es:


h

(, C(x)) = E|X 1 1C(x) () = 1

C(x)

d( | x)

= 1 P|X [ C(x)].

Es decir, (, C(x)) es la probabilidad a posteriori de que no


este en C(x). Llamemos C (x) los conjuntos de para los cuales
esta probabilidad es . Tpicamente habra muchos de estos conjuntos.
Usualmente se escoge aquel C (x) con volumen a posteriori mnimo,
denotado por HP D(x), que cumple con la siguiente propiedad:
HP D(x) y 6 HP D (x) = ( | x) ( | x).
O sea, es el conjunto de parametros con mas alta densidad posterior,
que ademas tiene probabilidad posterior 1 de contener al verdadero
0 .
Los intervalos de credibilidad C (x), as llamados porque dependen
de las creencias a priori, son intervalos de probabilidad (condicional en
X ) sobre . Los intervalos Cl
asicos de confianza no admiten esta interpretacion, y por ello es tan difcil explicarlos en un curso de estadstica
basica. La interpretacion que naturalmente viene a la mente (educada
o no tanto) es la de intervalos de probabilidad. En el ejercicio 4.4 se
muestra un ejemplo de un intervalo de HDP .

A POSTERIORI Y SUS PROPIEDADES


4.2. OPERACIONES CON LA DISTRIBUCION

4.2.2

99

Densidades Marginales y Par


ametros de Molestia

Supongamos que el vector de parametros esta compuesto de dos subvectores componentes, = (1 , 2 )t , y nuestro interes es tomar decisiones sobre 1 , el vector de parametros de interes. Denominamos a 2
el vector de parametros de molestia (nuissance). Supongamos que
hemos obtenido la densidad conjunta a posteriori de : ( | x) =
[(1 , 2 ) | x]. De nuevo la inferencia sobre 1 se resuelve de manera
natural y coherente: marginalizando, es decir, integrando respecto de
los parametros de molestia en la densidad conjunta.
La densidad marginal de 1 se define como:
(1 | x) =

[( 1 , 2 ) | x] d2 =

(1 | 2 , x)(2 | x)d2 .
(4.22)
De la expresion a la derecha en (4.22) se observa que la densidad
marginal de 1 , es el promedio de la densidad de 1 , condicional en 2 ,
ponderada por la marginal de 2 .
Ejemplo 4.2 (Verosimilitud Normal con varianza desconocida).
La verosimilitud es: p(x | , h) = N(, h1 ). De acuerdo a la notacion
anterior, 1 = , 2 = h = 2 > 0. Nuestro interes en este ejemplo
es hacer inferencia sobre la media . Ahora una estadstica suficiente
P
P
sera: (n, xi , x2i ). Algebraicamente es conveniente suponer que la
densidad a priori es la llamada Normal-Gamma, definida por:
NG(, h | , , , ) = ( | h)(h) = N( | , (h)1)Ga(h | , ),
(4.23)
donde los hiperparametros a ser asignados por el TD son: , , , ,
siendo los tres u
ltimos positivos y real. O sea, a priori, la densidad
condicional en h es normal, y la densidad marginal de h es Gamma.
Se verifica que luego de observar una muestra de tama
no n la densidad conjunta a posteriori de y h sigue siendo Normal-Gamma:
(, h | x) = NG(, h | , , , ),

(4.24)

100

CAPTULO 4. ANALISIS
BAYESIANO

donde:
=

+ nx
,
+n

n
= + ,
2

= + n,

= +

n
1X
n(x )2
(xi x)2 +
.
2 i=1
2( + n)

Note que de acuerdo a (4.24),


"

1/2

(, h | x) h

h
exp ( )2
2

)#

[h 1 exp { h}].

(4.25)

Si hacemos uso de la siguiente identidad:


Z

y p1 exp {ay}dy =

(p)
,
ap

(4.26)

obtenemos que:

( | x) =

"

(, h | x)dh + ( )2
2

# 1/2

o equivalentemente:
"

1 ( )2
( | x) 1 +
2

#(2 +1)/2

(4.27)

o sea, la densidad marginal a posteriori de es una t Student, con


2 grados de libertad, parametro de localizacion y parametro de

escala . Si 2 > 1 (que es cierto si tenemos una observacion), la


media de esta densidad es , que es un promedio ponderado entre
y x. Note que se obtiene el mismo resultado que en (2.10), donde la
varianza era conocida. El efecto de tener varianza desconocida es el de
reemplazar una Normal por una t-Student de colas mas gruesas, y por
lo tanto el intervalo HDP de credibilidad de va a ser mas ancho. Por
supuesto, los intervalos de credibilidad de se obtienen de su densidad
marginal.3

A POSTERIORI Y SUS PROPIEDADES101


4.2. OPERACIONES CON LA DISTRIBUCION

Desembarazarse de parametros de molestia en el enfoque Bayesiano,


es conceptualmente directo. Incluso, si en el ejemplo anterior no se
hubiese supuesto una densidad a priori tratable, como la NormalGamma, obtener la marginal a posteriori se reduce a una integracion
numerica. Claro esta que en problemas mas complejos el n
umero de
parametros de molestia es mucho mayor, y por consiguiente mayor sera
la dimension de la integral numerica a calcular. Existen disponibles algunos algoritmos computacionales como Bayes 4, Naylor y Smith(1982),
que usando cuadratura Gaussiana adaptada a densidades a posteriori, integra rutinariamente unas pocas dimensiones. Alternativamente
existen aproximaciones analticas a la marginal, muy exactas, basadas
en aproximaciones de Laplace, como en Tierney y Kadane (1986), y
recientemente por metodos de simulacion se han integrado problemas
de mayores dimensiones (ver seccion 4.2.5).
Desde el punto de vista frecuentista desembarazarse de parametros
molestos , conceptualmente, no es nada simple ya que no se puede integrar. Se requiere de una estadstica cuya distribucion no sea afectada
por el valor de los parametros molestos, por ejemplo como descubrio
Gosset para la t-Student. En problemas complejos se debe recurrir
a metodos aproximados y asintoticos. A
un as el tema sigue siendo
enormemente complicado. Ver por ejemplo Cox y Reid(1987). Sin embargo, para problemas de alta dimension es a
un mas difcil especificar
una distribucion a priori. Aqu, metodos imprecisos de analisis con
clases de distribuciones a priori, y m
ultiples analisis de sensitividad
respecto de las asignaciones a priori son a
un mas relevantes. Varios
metodos que ayudan en la determinacion de las distribuciones a priori,
son expuestos por ejemplo en Berger(1985, cap. 3) y en el Captulo 5.

4.2.3

Inferencia Predictiva

A menudo el objetivo no es tomar decisiones sobre parametros (t picamente no-observables), sino sobre observaciones futuras (observables
ma
nana). Decimos entonces que se requiere predecir a partir de
la informacion disponible hoy. Las observaciones futuras dependen del
parametro , que es y sera desconocido. Denotemos al vector de observaciones futuras por X f . Luego de observado el experimento hasta
hoy, tenemos a X fijo. Las variables aleatorias son y X f . Para pre-

102

CAPTULO 4. ANALISIS
BAYESIANO

decir, todo el vector de parametros es de molestia. Basamos nuestra


prediccion en la densidad marginal posterior de X f , o sea, la densidad
predictiva definida por:
(xf | x) =

(xf , | x)d =

p(xf | , x)( | x)d,

(4.28)

donde p(xf | , x) es la verosimilitud (suponiendo que es una densidad)


de X f . En el caso que X f sea condicionalmente (en ) independiente
de X , lo que sucede si por ejemplo las observaciones futuras y pasadas
son una muestra aleatoria, entonces (4.28) se simplifica:
(xf | x) =

p(xf | )( | x)d.

(4.29)

Ejemplo 4.3 (Continuaci


on Ejemplo 2.7). Supongamos que hemos
observado n ensayos Bernoulli, obteniendo X+ . Queremos obtener la
probabilidad predictiva del evento A: exito en el proximo intento. Esto
es equivalente a obtener la distribucion de Xf ya que por definicion
Xf = 1 si y solo si A ocurre y Xf = 0 si y solo si A no ocurre. Note
que Xf no es independiente de X (ya que X da informacion sobre ),
pero es cierto que Xf es independiente de X , condicionalmente en .
Por consiguiente: p(Xf | , x) = p(xf | ) y la simplificacion (4.29) es
valida. Ademas p(xf = 1 | ) = , de donde:
p(A | x) = p(xf = 1 | x) =

( | x)d = E|X (),

(4.30)

o sea, que en el caso Binomial la probabilidad predictiva de exito en


el proximo ensayo es igual a la esperanza posterior de . Supongamos
ahora que la densidad a priori es Beta, () = Beta(, ), con , > 0.
De (4.31) y (2.22) resulta que:
p(xf = 1 | x) =

+ x+
.
++n

(4.31)

Si se asigna = = 1, la densidad Beta se convierte en la uniforme


U(0, 1) y (4.31) se convierte en:

A POSTERIORI Y SUS PROPIEDADES103


4.2. OPERACIONES CON LA DISTRIBUCION

1 + x+
.
(4.32)
2+n
La expresion (4.32) es la famosa Ley de Sucesion de Laplace, quien
fue uno de los primeros Bayesianos. De hecho hay quien ha afirmado
que la estadstica Bayesiana debera llamarse Laplaciana. Si se han
observado n exitos en n ensayos, (4.32) indica que la probabilidad de un
nuevo exito es 1+n
y si no se ha observado ning
un exito, la probabilidad
2+n
1
de observarlo en el proximo ensayo es 2+n .3
p(xf = 1 | x) =

Ejemplo 4.4 (Continuaci


on Ejemplo 2.6). Aqu la verosimilitud
es Normal con varianza conocida 2 y la densidad a priori tambien es
Normal con media y varianza 2 . Supongamos que esperamos m
nuevas observaciones, y que se quiere obtener la densidad predictiva de
su media muestral X f =

1
m

m
X

Xif . De nuevo en este ejemplo X f es

i=1

(condicionalmente en ) independiente de X y por ello la simplificacion


(4.29) es valida:
!

2
.
p(xf | , x) = p(xf | ) = N X f | ,
m
Por otro lado, de (2.11) sabemos que: ( | x) = N( | (x), 1 ).
Resulta entonces,
Z

2
(xf | x) =
N xf | ,
N( | (x), 1 )d,
m

(4.33)

entonces por un procedimiento analogo al que condujo a (2.8) resulta,


!

2
(xf | x) = N xf | (x),
+ 1 .
m
Note que:
E[X f | x] = E[ | x],
2

pero V ar(X f | x) = V ar( | x) + m . Esto u


ltimo nos dice que a
la varianza de hay que sumarle la varianza de X f alrededor de .

104

CAPTULO 4. ANALISIS
BAYESIANO

Como consecuencia tenemos que el HDP para X f en lugar de , se




1/2

obtiene de (4.22) sustituyendo por X f y 1 por m + 1


, y por
consiguiente el HDP de X f esta centrado en el mismo punto que el
HDP de , pero tiene una mayor longitud.3
Hemos visto que la inferencia predictiva tiene su expresion natural y coherente en la estadstica Bayesiana. Sin embargo ella lleva un
conjunto de interrogantes fundamentales para el punto de vista frecuentista, Hinkley(1979).
La insercion de la toma de decisiones sobre observaciones futuras en
el marco que hemos expuesto anteriormente sobre toma de decisiones
para , es conceptualmente directo. Denotemos la perdida de estimar
X f por d como L (xf , d). Supongamos por simplicidad que estamos en
la situacion que conduce a (4.29). Definamos:

L(, d) = EXf [L (xf , d) | ] =

L (xf , d)p(xf | )dxf ,

y esto reduce el problema de decision predictiva al problema standard


que envuelve a desconocido, y a los datos obtenidos X .
Ejemplo 4.5. Supongamos que Xf N(, 2 ), y se desea estimar Xf
bajo perdida cuadratica: L (xf , d) = (xf d)2 . Entonces,
h

L(, a) = EXf [(Xf d)2 | ] = EXf (Xf + d)2 | =


h

EXf (Xf )2 | + EXf ( d)2 | = 2 + ( d)2 .

Por lo tanto, para escoger una decision optima solo necesitamos


considerar el problema de estimar a bajo perdida cuadratica, condicionalmente en las observaciones X obtenidas. Estimaramos entoces
a Xf por (x) en (2.10).3

4.2.4

Normalidad Asint
otica de la Densidad Posterior

Este es un importante resultado que es esencialmente una version Bayesiana del Teorema del Lmite Central. La normalidad asintotica de

A POSTERIORI Y SUS PROPIEDADES105


4.2. OPERACIONES CON LA DISTRIBUCION

la densidad posterior fue probada originalmente por Laplace(1812), y


seg
un Berger, esta es la primera version del Teorema del Lmite Central.
En la motivacion heurstica que presentaremos de este resultado no incluiremos las condiciones de regularidad requeridas con detalle. Varios
conjuntos de supuestos de regularidad han aparecido en la literatura
y referimos al lector a: Le Cam(1956), Jeffreys(1961), Walker(1969) y
particularmente a Heyde y Johnstone(1979). Comencemos por recordar
que el estimador de maxima verosimilitud b de se define como:


sup p(x | ) = p x | b .

Supongamos que X1 , . . . , Xn es una muestra aleatoria (i.i.d) de la


densidad p(xi | ), = (1 , . . . , k ). Supongamos que () es una
densidad a priori y que () y p(x | ) son positivas y dos veces diferenciables en un entorno del estimador de maxima verosimilitud b de ,
el cual se supone que existe. Entonces para n grande, bajo condiciones
de regularidad (casi siempre satisfechas), la densidad posterior:
( | x) =

p(x | )()
,
p(x)

es aproximadamente:


b [I(x)1 ] ,
Nk | ,

(4.34)

donde I(x) es la matriz de informacion de Fisher observada, cuyo elemento i, j es:


"

"

n
X
2
2
Iij (x) =
log p(x | )
=
log p(xt | )
.
i j
t=1 i j
=b
=b

La motivacion heurstica para k = 1 del resultado es la siguiente:


b y
Expandimos por la formula de Taylor log p(x | ) alrededor de ,
entonces la primera derivada evaluada en b se anula. Para cerca de
b (de tal manera que () sea aproximadamente constante) tenemos:
( | x) = R

exp {log p(x | )}()


exp {log p(x | )}()d

106

CAPTULO 4. ANALISIS
BAYESIANO

R
=

b 1 ( )
b 2 I(x) ()
b
exp log p(x | )
2
n

b 1 ( )
b 2 I(x) ()d
b
exp log p(x | )
2
n

b 2 I(x)
exp 12 ( )

[2(I(x))1 ]1/2

b [I(x)]1 ,
= N | ,

y puede demostrarse que para n suficientemente grande, solo los s


cerca de b dan una contribucion significativa a la densidad posterior.
Esto se debe a que la verosimilitud se concentrara cada vez mas alredeb pero () no depende de n y puede considerarse como aproxdor de ,
b La aproximaci
imadamente constante en una vecindad de .
on (4.34)
no envuelve a la densidad a priori utilizada. Puede afirmarse entonces
que bajo condiciones de regularidad bastante generales, para n suficientemente grande, ( | x) es aproximadamente insensible a la densidad
a priori particular empleada. (Note que si () es de Cromwell, aub
tomaticamente satisface que es positiva cerca de ).
Sin embargo si
se dispone del vector de medias y la matriz de varianza-covarianza a
b e I(x) respecposteriori exactas, y se sustituyen en (4.34) en lugar de
tivamente, la aproximacion a la densidad posterior mejora. Aproximaciones mas generales, basadas en aproximaciones de Laplace aparecen
en la proxima seccion.

4.3
4.3.1

Aplicaciones al Dise
no Experimental
y al An
alisis Secuencial
Tama
no de la Muestra Optimo

La situacion mas secilla del dise


no de un experimento estadstico , es
decidir el tama
no optimo de la muestra. El enfoque Bayesiano es el
mas razonable, ya que al balancear la perdida debida a la decision
y el costo de muestrear, la medida razonable pre-experimental de la
perdida esperada es el riesgo Bayesiano. Denotemos por L(, d, n) la
funcion de perdida, de observar X n = (X1 , . . . , Xn ) y tomar la accion
d. Supongamos que tiene la densidad a priori () y que para cada
n existe una decision optima-Bayes n . Denotamos al riesgo Bayesiano
para este problema por:

EXPERIMENTAL Y AL ANALISIS

4.3. APLICACIONES AL DISENO


SECUENCIAL

107

r(, n) = E EX n [L(, n (xn ), n) | ] .


El tama
no de muestra optimo n , es aquel que minimiza r(, n).
Supongamos que:
L(, d, n) = L(, d) + C(n),

(4.35)

o sea, la funcion de perdida se descompone en la perdida por estimar


por d, mas el costo de tomar una muestra de tama
no n. Para funciones
de perdida que obedezcan (4.35), es claro que para cada n fijo, n
sera la decision de Bayes usual para la perdida L(, d) basada en n
observaciones, o sea aquella decision que minimiza r(, ), definicion
2.7. Entonces, el procedimiento para calcular el n optimo es:
1. Para un n fijo cualquiera obtener la decision optimo-Bayes n y
calcular r(, n ). Luego calcular r(, n): r(, n) = r(, n ) +
C(n).
2. Encontrar n tal que: minn r(, n) = r(, n ) donde n se mueve
en los enteros no negativos.
Ejemplo 4.6. En la situacion del ejemplo 2.6 (Normal-Normal), supongamos que
L(, d, n) = ( d)2 + C(n).
(4.36)
Para un n fijo, sabemos que la decision optima-Bayes para perdida
cuadratica es n (x) = (x), la esperanza posterior dada por (2.10).
Para n = E( | x) y perdida cuadratica, r(, n ) es igual a la varianza
a posteriori 1
n , de donde
r(, n ) = 1
n =

1
n
+
2 2

1

22
.
2 + n 2

Supongamos ahora que C(n) = nc, o sea que cada observacion tiene
un costo c > 0. Entonces,
r(, n) =

2 2
+ nc.
2 + n 2

108

CAPTULO 4. ANALISIS
BAYESIANO

Pretendamos ahora que n es un n


umero natural. Diferenciando
respecto a n obtenemos:
d
4 2
r(, n) = 2
+ c,
dn
( + n 2 )2
e igualando a cero conseguimos
2

n = 2 ,
c
que es el valor aproximado del tama
no optimo.
Como la derivada segunda de r(, n) es positiva, es una funcion
estrictamente convexa en n, y por tanto el tama
no optimo se obtendra

en uno de los enteros proximos a n , a menos que n sea negativo, en


cuyo caso el tama
no optimo sera cero, y se debe tomar una decision
sin muestrear. Note que si el costo de cada observacion es grande,
n sera mas peque
no. Tambien si la varianza a priori es grande (alta
incertidumbre inicial) n sera mayor. El riesgo Bayesiano alcanzable es
entonces aproximadamente:

2
r(, n) = 2 c c 2 .3

4.3.2

An
alisis Secuencial

Este es un tema de gran importancia practica y teorica, con matematica


interesante, que por s mismo ameritara un curso. Vamos a limitarnos
aqu a presentar una ilustracion sencilla que servira para motivar el
tema y aplicar el principio de la minimizacion de la perdida esperada a
posteriori. Nos concierne la situacion en la que el TD puede tomar sus
observaciones X1 , X2 , . . . una por una. En el paso n, puede juzgar la informacion que ha acumulado de las n observaciones X n = (X1 , . . . , Xn )
y decidir si terminar el muestreo y tomar una decision sobre o decidir tomar una nueva observacion Xn+1 . Una muestra obtenida de este
modo se llama muestra secuencial. La ventaja practica de un procedimiento secuencial sobre uno no secuencial, como en el caso de decision
del tama
no optimo de la muestra sin obtener ning
un dato, es clara.
Si por ejemplo el costo por observacion es fijo, en un procedimiento

DEL PRINCIPIO BAYESIANO


4.4. LA FAMILIA EXPONENCIAL. EXTENSION

109

secuencial el TD podra, con ventaja, terminar el experimento antes de


llegar a n , ahorrandose el costo extra del muestreo.
Un desarrollo completo del analisis secuencial aparece en Berger
(1985).

4.4

La Familia Exponencial.
del Principio Bayesiano

Extensi
on

La familia natural de verosimilitudes en donde generalizar las operaciones Bayesianas, es la Familia Exponencial. Esta familia posee una
rica estructura matematica estudiada exhaustivamente por Brown(1986).
Aspectos particulares de esta familia han sido explorados por ejemplo
en Lehmann(1959 y 1983), Diaconis y Ylvisaker(1979), Pericchi(1989),
Pericchi y Smith(1991) y Pericchi, Sanso y Smith(1993).
La familia exponencial de medidas de probabilidad se define como:
p(x | ) = dP (x | ) = exp {x. M()}d(),

(4.37)

donde es una medida -finita en los conjuntos de Borel en R k . El


vector de parametros R k , se denomina el vector canonico, y es
el espacio de los parametros canonicos,
= { tales que : M() < } .

(4.38)

En general, correspondera a una transformacion del parametro

usual de interes. Por ejemplo en el caso Binomial, = log 1


. El vector
de parametros de interes es E(x | ), el cual se obtiene diferenciando
la identidad:
Z

dP (x | ) = 1

respecto de en (4.37), y haciendo cambios permisibles de integracion


y diferenciacion obtenemos:
E(x | ) = M() =

M
M
(), . . . ,
() .
1
k

(4.39)

110

CAPTULO 4. ANALISIS
BAYESIANO

Denotemos por d la medida de Lebesgue en los conjuntos de Borel


de . Definimos la familia de medidas a priori por:
( | n0 , x0 ) = d( | n0 , x0 ) = exp {n0 x0 . n0 M()}dM(),
(4.40)
k
con n0 > 0, x0 R .
Llamamos al par (p(x | ), ( | n0 , x0 )) la Familia Exponencial
Conjugada, que es la que posee mas facil manejo analtica y algebraicamente para las operaciones Bayesianas.
Teorema 4.2 Supongamos que es un abierto en R k . Si tiene la
medida a priori (4.40), con n0 > 0 y x0 X, entonces la esperanza a
priori es:
E [M()] = E [E(x | )] = x0 .
(4.41)
Prueba.

Diaconis y Ylvisaker(1979).

Note que si observamos una muestra X1 , . . . , Xn de P (x | ), entonces la medida a posteriori de , es de la forma (4.40), con hiperparametros actualizados:
n = n0 + n

x =

n0 x0 + nx
,
n0 + n

(4.42)

o sea,
( | x) = d( | n , x ).

(4.43)

Corolario 4.1 La media a posteriori del vector de parametros de interes es:


E|X [M()] = E|X [E(x | )] = x .
(4.44)
Las ecuaciones (4.42 a 4.44) generalizan los resultados obtenidos en
el ejemplo 2.6 (Normal-Normal) y ejemplo 2.7 (Beta-Binomial), donde
a x se le llamo (x), ecuaciones (2.10) y (2.15). La interpretacion es:
n0 es el tama
no muestral a priori, x0 el vector de medias a priori, x
el vector de medias actualizadas o a posteriori y n el tama
no global.
Esquematicamente tenemos:

111

DEL PRINCIPIO BAYESIANO


4.4. LA FAMILIA EXPONENCIAL. EXTENSION

Bayes

( | n0 , x0 ) ( | n , x ).

(4.45)

Ejemplo 4.8. Consideremos nuevamente el ejemplo 1.1, donde tenemos un n


umero grande N de transistores. La decision d1 es aceptar el
lote de transistores y d2 rechazarlo por no cumplir las normas de calidad. Supongamos que previamente se ha decidido tomar una muestra
de tama
no n: X0 , . . . , Xn , donde Xi es el tiempo de vida u
til del transistor i. Una verosimilitud ampliamente usada para modelar tiempos
de vida de componentes electronicos es la Exponencial:
p(xi | ) = exp { xi },

xi 0, > 0,

(4.46)

la cual suponemos que ha generado los datos de la muestra tomada. La


media y la varianza de una variable X bajo la verosimilitud Exponencial
son: 1 y 12 respectivamente. El parametro de interes, generalmente, es
1
, la media del tiempo de vida de los componentes. Escribamos (4.46)

en el formato de la familia exponencial (4.37): Denotamos por = ,


el parametro canonico. Entonces:
p(xi | ) = exp {xi + log()},

<0

(4.47)

o sea,

M() = log()

dM
1
1
() = = = E(Xi | ).
d

La forma de la medida a priori es seg


un (4.40)
( | n0 , X0 ) = exp {n0 x0 + n0 log()}dM(),
transformando en sentido inverso y notando que | d |=| d |,
( | n0 , x0 ) = n0 exp {n0 x0 }dM(),

> 0.

(4.48)

> 0,

(4.49)

La densidad Gamma tiene la forma:


Ga( | , ) =

exp {}d,
()

112

CAPTULO 4. ANALISIS
BAYESIANO

y entonces (4.48) es el kernel de una Gamma con hiperparametros n0 =


1 y = n0 x0 . Entonces sigue que la densidad conjugada es:
( | n0 , x0 ) =

(n0 x0 )n0 +1 n0
exp {n0 x0 }d,
(n0 + 1)

> 0.

(4.50)

Seg
un el Teorema 4.2, la esperanza a priori de 1 es, E [E(X | )] =
E 1 = x0 , lo que puede verificarse directamente. Si observamos una
muestra de tama
no n de tiempos de vida u
til obtenemos de (4.46):
h i

p(x | ) = n exp {nx},

(4.51)

que multiplicado por (4.50) da la densidad a posteriori:


( | x) n0 +n exp {(n0 x0 + nx)}.3

(4.52)

Comparando con (4.50) concluimos que si la densidad a priori es


Gamma, entonces la densidad a posteriori tambien es Gamma, con
hiperparametros actualizados:
n0 + n = 1

n0 x0 + nx = .

Para el ejemplo de aceptar o rechazar el lote de transistores, Walley(1987) propone la siguiente funcion de perdida:


1
L(, d1 ) = n x0
y
L(, d2 ) = c > 0,

donde, la constante c es el costo de incoveniencia al tener que reemplazar el lote, n es el n


umero de transistores del lote y x0 1 es la
diferencia entre la media a priori del tiempo de vida (X0 ) bajo todos
los lotes en circunstancias
similares, y el tiempo de vida medio para el
 
lote en cuestion, 1 . Sigue del Corolario 4.1 que:
E|X [L(, d2 )] = c > 0,

n0 x0 + nx
E|X [L(, d1 )] = N x0
.
n0 + n

Entonces, aceptamos el lote si:

DEL PRINCIPIO BAYESIANO


4.4. LA FAMILIA EXPONENCIAL. EXTENSION

113

Nn
(x0 x) < c,
n0 + n
o sea, aceptamos si:
c
(n0 + n)3.
Nn
Para la familia exponencial conjugada es bastante sencillo trabajar
con clases de densidades conjugadas en lugar de una densidad conjugada u
nica y precisa, (Pericchi, 1989).
Como ilustracion, si consideramos la clase de densidades conjugadas
con hiperparametros en el siguiente conjunto:
x > x0

= {( | n0 , x0 ) : 0 < n0 < n0 , x0 fijo} ,

(4.53)

podemos calcular los extremos (en n) de la media a posteriori de .


Usando (4.42) resulta que:
sup x inf x =

n0
| x0 x | .
n0 + n

(4.54)

La expresion (4.54) es una medida muy razonable de la imprecision


a posteriori respecto de la media. Es inversamente proporcional al
tama
no muestral n, pero directamente proporcional al conflicto entre la
media a priori x0 y la media muestral x. Esta es una generalizacion u
til
del enfoque Bayesiano: la imprecision a posteriori nos indica el tama
no
de la evidencia sobre la que esta basada la decision (n) y nos alerta
sobre posibles conflictos entre la asignacion a priori y el resultado muestral. Este doble efecto no puede ser percibido en forma directa cuando
basamos nuestra decision en una u
nica medida a priori, minimizando
la perdida posterior. Esta generalizacion del metodo Bayesiano puede
resultar en ausencia de una decision racional cuando no hay suficiente
informacion muestral y a priori. Si por ejemplo la decision Bayesiana es
d1 cuando X > T y d2 cuando X < T , entonces al considerar una clase
de densidades es razonable modificar esta regla por d1 si inf X > T
y d2 si sup X < T . Si en ninguna de estas condiciones se obtiene que
el proceso de decision falla, una decision racional no puede ser tomada.
De hecho se ha observado en la implementacion practica del analisis de

114

CAPTULO 4. ANALISIS
BAYESIANO

decision Bayesiano que, generalmente, el TD no basa su decision exclusivamente en valores esperados, sino que incorpora de alguna manera
la varianza posterior, en un intento ad hoc que confunde incertidumbre
con imprecision, Brown(1984).
Finalmente, consideremos un ejemplo que ilustra como podemos
replantear el problema de la ignorancia a priori, considerando una
clase apropiada de medidas.
Ejemplo 4.9. Una clase casi ignorante para el caso Binomial, Walley(1987). Consideramos el caso Beta-Binomial del ejemplo 2.7. El
interes recae sobre el evento A: Exito en el proximo intento. Ser ignorante sobre este evento nos obliga a especificar una clase en donde,
a priori, 0 P (A) 1. Esto quiere decir que a priori no estamos
dispuestos a apostar en favor o en contra de A. Esto es equivalente,
dentro de la familia conjugada, a 0 x0 1. Consideremos entonces
la clase casi ignorante:
{( | n0 , x0 ) : 0 x0 1, n0 fijo} .
Resulta entonces que:

sup P (A | x) =

n0 + x+
n0 + n

inf P (A | x) =

x+
,
n0 + n

de
donde
se obtiene que la imprecision a posteriori respecto de A es:

1
n
1 + n0
. Note que no hay conflicto entre media muestral y media
a priori, ya que x0 puede variar arbitrariamente entre 0 y 1. A fin de
comparar con la Ley de Sucesion de Laplace (4.32), asignemos para
n0 el valor de 2, ya que la densidad uniforme corresponde a x0 = 12 ,
n0 = 2. Comparemos el comportamiento de Laplace con el sup e inf de
P (A | x) bajo la clase casi ignorante, suponiendo que obtenemos
muestra para n variables, con x = 12 fijo.
n
0
2
20
100 1000
Laplace P (A | x) 0.5 0.5 0.5 0.5
0.5
sup P (A | x)
1 0.75 0.55 0.51 0.501
inf P (A | x)
0 0.25 0.45 0.49 0.499

115

4.5. CALCULOS
Y APROXIMACIONES BAYESIANAS

La Ley de Sucesion de Laplace, basada en la densidad Uniforme


es constantemente igual a 0.5 sin reflejar la cantidad de informacion
sobre la cual se basa. Por el contrario, las probabilidades superiores e
inferiores basadas en , a
un convergiendo a 0.5, reflejan en su diferencia
la cantidad de informacion en la que estan basadas. La clase ignorante
representa, mas satisfactoriamente que la densidad Uniforme, la falta
de conocimiento a priori.

4.4.1

Densidad a priori No-Conjugada. Influencia


acotada y no acotada

En esta seccion enunciaremos un resultado basico sobre la influencia


acotada y no acotada de la densidad a priori no conjugada, la demostracion y otros resultados pueden verse en Pericchi y Smith (1992).
Sea X1 , . . . , Xn una muestra iid, con Xi N(, 2 ), donde 2 es
conocida y la media, desconocida. Sea Y = X , sabemos que Y
N(, 2 /n), y denotamos su densidad por p(y ), y la previa para
es ().
Teorema 4.3 Si definimos
m(y) =

p(y )()d,

para cualquier () 0, acotada para R, y ademas definimos:


s(y) =

{log m(y)}
y

S(y) =

s(y)
.
y

Entonces,
1. E( | y) = y
2. V ar( | y) =

4.5

2
n

2
s(y),
n

4
S(y).
n2

C
alculos y Aproximaciones Bayesianas

El paradigma Bayesiano es conceptualmente claro. Para comparar


modelos, eliminar parametros de molestia, predecir, etc., hay que calcular integrales de la forma:

116

m(x) =

CAPTULO 4. ANALISIS
BAYESIANO

f (x | )()d

E[g() | x] =

g()f (x | )()d
.
f (x | )()d

Sin embargo, con frecuencia estas integrales no pueden ser resueltas


en forma cerrada, y la dificultad numerica envuelta puede ser importante, particularmente cuando la dimension de es grande. Pero esta
dificultad es mucho menor hoy en da gracias a la disponibilidad, relativamente barata, de computadoras de gran poder de calculo.
En lo que sigue introduciremos algunas estrategias para calcular o
aproximar estas integrales.

4.5.1

Aproximaciones de Laplace

su maximo. Entonces,
Sea h() = log[f (x | )()], k = dim () y
h
si I (x) es la matriz cuyo elemento ij es:
Iijh (x)

"

2
=
h()
,
i j
=

entonces, bajo condiciones de regularidad, expandiendo alrededor de ,


y usando la integral de la distribucion Normal multivariada,
Z

1 ( )
t I h (x)( )
d =
m(x) =
exp{h()}d
exp (h()}
2

k/2

exp{h()}(2)

[det (I h (x))]1/2

(2)k/2f (x | )(
[det (I h (x))]1/2

Esta aproximacion es extremadamente u


til y potente. Si ahora llamamos
su maximo, siguiendo el mismo
h () = log [g()f (x | )()], y
camino anterior obtenemos:
R

"

exp{h ()}d
det(I h (x))
E[g() | x] = R

exp{h()}d
det(I h (x))

#1/2

)f (x |
)(
)
g(
.
)

f (x | )(


4.5. CALCULOS
Y APROXIMACIONES BAYESIANAS

117

La exactitud de esta aproximacion es sorprendente, para mayor referencia ver Tierney y Kadane (1984).
Una estrategia numerica directa son las cuadraturas de Gauss y de
Gauss-Hermite, que han sido implementadas en el paquete Bayes 4. Sin
embargo son apropiadas para un n
umero reducido de dimensiones. Ver
Naylor y Smith (1982).

4.5.2

Integraci
on de Monte Carlo

Supongamos que podemos generar una sucesion i.i.d de variables aleatorias (1 , 2 , . . . , ) de una densidad k() > 0 en . Note que,
Ek

"

Z
g()f (x | )()
= g()f (x | )()d.
k()

De la Ley Fuerte de Grandes N


umeros sigue que:
"

Z
m
1 X
g(i )f (x | i )(i )
= g()f (x | )()d.
lim
m m
k(i )

i=1

Si llamamos
w(i ) =

f (x | i )(i )
k(i )

,
entonces tenemos la aproximacion:
E[g() | x]

Pm

i=1 g(i )w( i )


.
Pm
i=1 w(i )

La funcion k() es llamada la funcion de importancia. Para que la


aproximacion sea eficiente, esta funcion debe cumplir con las siguientes
propiedades:
1. Debe ser facil simular variables aleatorias de ella,
2. k() debe ser cercana a ( | x), y
3. las colas de k() no deben ser mas finas que las de f (x | )().
Ver Berger (1985).

118

4.5.3

CAPTULO 4. ANALISIS
BAYESIANO

Simulaci
on de la densidad posterior

A partir de Gelfand y Smith (1990), se comenzo a generar una verdadera explosion de tecnicas de integracion bajo el nombre generico de
metodos de: Cadenas de Markov Montecarlo, ver Gilks, Richardson y
Spiegelhalter (1996). Estas tecnicas aproximan la densidad posterior a
partir de muestras generadas de esta densidad.
Supongamos que y es el vector de parametros de interes, cuya densidad posterior es p(y). (Formalmente sera p(y | D), donde D son los
datos, pero la omitimos por simplicidad de notacion). Sea y1 , y 2 , . . . ,
una muestra con densidad p(y). Entonces usando la ley de grandes
n
umeros, bajo condiciones bastante generales, resulta que:
m
1 X
m
h(y i )
m i=1

h(y)p(y)dy = E[h(y)],

en probabilidad.
Una aproximacion a la densidad marginal del escalar y1 , donde
y = (y1 , y2 ) puede obtenerse de la siguiente manera (Gelfand y Smith
(1990)): supongamos que p(y1 | y2 ) es conocida. Si la muestra es
yi = (y1i , y2i ) para i = 1, . . . , m, entonces
p(y1 )

m
1 X
p(y1 | y2i ).
m i=1

Tambien es u
til que,
E[h(y1 )]

m
1 X
E[h(y1 ) | y2i ],
m i=1

cuando la esperanza condicional E[h(y1 ) | y2 ] se conozca analticamente.

4.5.4

M
etodos Monte Carlo de Cadenas de Markov
(MCMC)

Simular variables aleatorias directamente de p(y) es frecuentemente


imposible. Los metodos MCMC tienen la estrategia de simular sucesiones que eventualmente tendran la distribucion p(y). El algoritmo es
el siguiente:


4.5. CALCULOS
Y APROXIMACIONES BAYESIANAS

119

1. Especificar el valor inicial y0 .


2. Muestrear valores sucesivos de una distribucion de transicion con
densidad f (y i | y i1 ), para i = 1, 2, . . . ,; donde y i es generado
condicionalmente independiente de y i2 , y i3 , . . . ,.
Se han propuesto m
ultiples maneras de implementar este algoritmo,
una de las cuales es el muestreador de Gibbs.
MUESTREADOR DE GIBBS
Si y = (y1 , . . . , yk ), denotaremos por y(i) = (y1 , . . . , yi1 , yi+1, . . . , yk ).
La densidad posterior, bajo condiciones de regularidad, esta caracterizada por las p-densidades condicionales: p(yi | y(i) ), para i =
1, . . . , k. El muestreador de Gibbs esta basado en sucesiones de simulaciones de estas condicionales, y el uso de la caracterizacion de la
conjunta por el conjunto completo de las condicionales p(y i | y i ).
Simular muestras directamente de p(y) es usualmente difcil, pero frecuentemente sencillo generarlas de p(yi | y(i) ).
El muestreador opera as: supongamos que hemos obtenido la muestra y m1 , esta es reformada actualizando las entradas del vector, uno
por uno, para i = 1, . . . , k, un nuevo valor yi es simulado de la condicional p(yi | y(i) ), donde los k 1 elementos de y(i) son los valores
mas recientemente obtenidos. De esta manera, el vector k-dimensional
es actualizado, entrada por entrada, y para m suficientemente grande,
el valor obtenido de y tiene la densidad p(y).
Ejemplo 4.10. (Casella, G. y George, L.I (1992)). Sean y1 y y2 tales
que la densidad conjunta es:

p(y1 , y2 )

n
y1

y2y1 +1 (1y2 )ny1 +1 ,

y1 = 0, . . . , 0 y2 1.

Estamos interesados en conocer las caractersticas de la marginal


p(y1 ). Puede verificarse que las condicionales son:
p(y1 | y2 ) Binomial(n, y2 )

p(y2 | y1 ) Beta(y1 +, ny1 +).

120

CAPTULO 4. ANALISIS
BAYESIANO

El muestreador de Gibbs opera, generando variables aleatorias de


estas condicionales a partir de los valores iniciales y10 , y20:
y1i+1 p(y1 | y2i )

y2i+1 p(y2 | y1i+1 ),

para i = 1, . . . , k 1. Para k suficientemente grande y1k tendra aproximadamente la densidad p(y1 ). Repitiendo m veces este algoritmo se
obtendra una muestra de la densidad p(y1 ). Note que es muy sencillo
generar muestras de tanto de la Binomial como de una Beta, las cuales
corresponden a las condicionales. Sin embargo no es obvio como generar
muestras de la marginal p(y1 ). En este caso particular puede probarse
que:
p(y1 ) =

4.6

n
y1

( + ) (y1 + )(n y1 + )
.3
()()
( + + n)

Ejercicios

4.1 Verificar la ecuacion 4.17.


4.2 Demostrar la proposicion 4.1.
4.3 Considere el test de hipotesis unilateral:
H0 : 0

vs.

H1 : > 0 ,

donde X es muestra con entradas iid con distribucion Normal con


media y varianza 2 conocida. Suponga que la distribucion a
priori de viene dada como en el ejemplo 2.6, por una distribucion
Normal con media y varianza 2 , ambas conocidas. Hallar
p(H0 | x).
4.4 En la situacion del ejemplo 2.6 (Normal-Normal), verificar que el
HDP(x) para la media es:
n

HDP(x) = : (x) z 1/2 < < (x) + z 1/2 ,


donde (z ) = 1 2 .

121

4.6. EJERCICIOS

4.5 Demostrar que luego de observar una muestra de tama


no n (ejemplo 4.2), la densidad a posteriori conjunta de y h sigue siendo
Normal-Gamma:
(, h | x) = NG(, h | , , , ),
donde:
=

+ nx
,
+n
= +

= + n,

n
= + ,
2

n
1X
n(x )2
(xi x)2 +
.
2 i=1
2( + n)

4.6 Hallar el intervalo HDP a posteriori de una credibilidad de 95%


para el ejemplo 4.2.
4.7 Hallar la densidad predictiva de una futura observacion Xf en la
situacion del ejemplo 4.2, es decir, la verosimilitud es Normal con
varianza desconocida y la densidad a priori es Normal-Gamma.
4.8 Considere la situacion Beta-Binomial del ejemplo 2.7. Obtener la
aproximacion 4.34 para la densidad posterior Beta (2.14). Obtener
tambien la aproximacion que en (4.34) inserta la esperanza y varianza a posteriori exactas.
4.9 En la situacion del ejemplo 4.5, con C(n) = log(1 + n), o sea, es
mas costoso por observacion el tomar muestras grandes, encuentre
el tama
no optimo de muestra aproximado (n ).
4.10 Demostrar que cada una de las siguientes familias de verosimilitudes pertenecen a la familia exponencial, encuentre sus parametros canonicos y su distribucion a priori conjugada:
(a) Binomial.
(b) Poisson.
(c) Multinomial.
(d) Exponencial.

122

CAPTULO 4. ANALISIS
BAYESIANO

(e) Normal Univariada con varianza conocida.


(f) Normal k-variada con matriz de varianza-covarianza conocida.
4.11 Verificar que la esperanza a priori de

en el ejemplo 4.8 es x0 .

4.12 Hallar el estimador de Bayes para en el ejemplo 4.8 si la perdida


es:
(a) L(, d) = ( d)2 .


(b) L(, d) = 1

2

4.13 Verificar la ecuacion (4.54).


4.14 Verificar que para el ejemplo 4.9 se tiene:
sup P (A | x) =

n0 + x+
n0 + n

inf P (A | x) =

x+
.
n0 + n

4.15 Utilizar la aproximacion de Laplace para obtener la aproximacion


de Stirling del factorial:
n! = (n + 1) =

tn et dt.

4.16 Basados en la densidad conjunta del ejemplo 4.10, para n = 20,


= 2 y = 3, generar m = 100 variables aleatorias de p(y1 )
por el muestreador de Gibbs, para k = 150, partiendo de y10 =
10, y20 = 0.5.
(a) Hacer un histograma y comparar con la densidad exacta
dada en el ejemplo.
(b) Estimar alternativamente la densidad marginal usando
P (Y1 = y1 ) =

m
1 X
P (Y1 = y1 | Y2i = y2i ).
m i=1

Captulo 5
An
alisis Bayesiano del
Modelo Lineal
En este captulo haremos una introduccion sobre varios analisis Bayesianos del modelo de mayor uso en estadstica, el Modelo Lineal Normal.
Supongamos que el vector y (n1) de n observaciones se distribuye
seg
un una distribucion Normal n-variada con media A1 1 , y matriz de
varianza-covarianza C1 . Esto es:
d

(y | 1 ) Nn (A1 1 , C1) ,

(5.1)

donde A1 (n k) es la matriz de dise


no, 1 (k 1) es el vector de
parametros y C1 (n n) la matriz de varianza-covarianza muestral. Es
tambien usual escribir (5.1) como:
y = A1 1 + ,

(5.2)

donde (n1) es el vector de errores aleatorios con media cero y matriz


de covarianza C1 :
d

Nn (0, C1 ).

(5.3)

Entonces el valor esperado del vector de observaciones es:


E[y] = A1 1 .
123

(5.4)

124

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

Ejemplos del modelo (5.1) son entre otros: Modelos de regresion


simple o m
ultiple, donde las columnas de A1 son los vectores de regresores o variables independientes; Modelos de clasificacion de una o
mas vas, donde las columnas de A1 son ceros o unos de acuerdo a la
clasificacion; y otros.
Comenzaremos por dar la version Bayes generalizada del analisis
frecuentista del modelo lineal, y para ello introduciremos las medidas
a priori no-informativas.

5.1

Previas No-Informativas

Siendo el analisis condicional en los datos tan claramente obligatorio y


la maquinaria Bayesiana la manera coherente de realizarlo, se han hecho
esfuerzos importantes para hacer analisis Bayesianos automaticos. Es
decir, que no requieran informacion del TD sobre los parametros. Se
supone que no existe informacion a priori, o que de existir no se desea
usar. Se necesita entonces una medida a priori no-informativa, o sea
que no contenga informacion sobre los parametros.
En que sentido esta medida es no-informativa esta muy lejos de
ser claro, pero originalmente se postulo como aquella medida que fuese
imparcial sobre los valores de los parametros. El postulado original de
Bayes y Laplace fue tomar como medida a priori no-informativa la
uniforme, () = 1.
Sin embargo este postulado tiene (entre otros) dos incovenientes:
1. Un TD supone que () = 1 y otro TD parametriza su problema
en terminos del parametro = exp [] y supone que () = 1.
Los resultados a que llegan ambos TD con los mismos datos y
verosimilitud son inconsistentes a pesar de que la transformacion
es uno-uno. La razon es que por la formula del cambio de variables, si () = 1,
() = (log )/ = 1/.
Entonces seg
un el postulado de Bayes-Laplace el primer TD es
no-informativo respecto de pero no de = exp [].

125

5.1. PREVIAS NO-INFORMATIVAS

2. Si el espacio de parametros es no acotado, por ejemplo R, entonces


() = 1 no integra uno, es decir es impropia.
Para resolver el primer incoveniente, formulado por Fisher, comenzo
Jeffreys(1961) una lnea de trabajo para obtener medidas invariantes.
Ejemplo 5.1. Supongamos que es un vector de parametros de localizacion e y el vector de observaciones, pertenecientes ambos a R p .
f (y | ) = f (y ). Sean z = y + c, c constante, y = + c. Los
problemas en (y, ) o en (z, ) son identicos en su estructura, y sean
y sus correspondientes medidas no-informativas. Entonces debe
ocurrir que para cualquier conjunto A de R p se tiene:
P( A) = P ( A) = P ( + c A) = P ( A c), (5.5)
donde A c = {w c, w A}. Esto es debe ser invariante por
cambios de localizacion, () = (c). Haciendo c = , (c) = (0),
lo que debe ocurrir para toda c R p . En conclusion () = constante,
convenientemente () = 1.3
Notar que tanto () = 1 como la previa del ejercicio 5.1, () = 1 ,
son impropias. Mas generalmente, para cualquier vector de parametros
, Jeffreys sugirio su famosa regla:
() = [det I()]1/2

(5.6)

donde I() es la matriz de informacion de Fisher cuyo elemento i, j es:


"

2
Iij = EY |
log f (y | ) .
i j

(5.7)

La regla de Jeffreys cumple con la siguiente propiedad de invariancia: Supongamos que = g() es cualquier transformacion uno-uno
diferenciable. Entonces:
[det I()]1/2 d = [det I()]1/2 d.

(5.8)

La implicacion de (5.8) es que si un TD usa la regla de Jeffreys en


y otro TD usa la regla de Jeffreys en y analizan al mismo conjunto

126

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

de datos con el mismo modelo, obtendran los mismos resultados a posteriori. Note que la previa de Jeffreys depende del modelo utilizado y
puede violar el Principio de la Verosimilitud , ya que la esperanza (5.7)
se toma sobre el espacio muestral.

5.2

An
alisis No-Informativo del Modelo Lineal

Supongamos por simplicidad que en (5.1) C1 = 2 I (errores no correlacionados) y que el rango de A1 es k (rango maximo).
El uso de las previas a) o c) del ejercicio 5.5 reproducen los resultados frecuentistas, en el sentido de que los intervalos de credibilidad
(probabilidad) Bayes-generalizados coinciden con los intervalos de confianza frecuentistas. Para verlo, note que la verosimilitud del Modelo
Lineal puede ser escrita como,

p(y | , ) =

2
1

!n

!n

1
exp 2 (y A1 1 )t (y A1 1 ) =
2


i
1 h 2
exp 2 S + Q(1 ) ,
2

y en la situacion c) se tiene (1 , ) 1/, integrando respecto de


se obtiene la marginal de 1 :
"

Q( 1 )
(1 | y) 1 +
S2

#(v+k)/2

(5.9)

Q(1 ) = (1 c1 )t At1 A1 (1 c1 ),

(5.10)

donde:
con c1 el estimador de Maxima Verosimilitud y Mnimos Cuadrados:
c1 = (At1 A1 )1 At1 y, v = n k y S 2 es la suma de cuadrados residuales:
S 2 = min(y A1 1 )t (y A1 1 ) = (y A1 c1 )t (y A1 c1 ).
1

(5.11)

127

5.2. ANALISIS
NO-INFORMATIVO DEL MODELO LINEAL

un una tStudent
De (5.9) sigue que a posteriori 1 se distribuye seg
k-variada con v grados de libertad, localizacion c1 y matriz de escala
(At1 A1 )1 S 2 /v, esto es:
(1 | y) = Tk

S
v, c1 , (At1 A1 )1

(5.12)

De las propiedades de la t Student multivariada se obtiene que:


Q(1 )/k
Fk,v ,
S 2 /v

(5.13)

o sea, el cociente de la izquierda de (5.13) se distribuye seg


un una
distribucion F con k y v grados de libertad. Aqu 1 es la variable
aleatoria (v.a) pero sigue siendo cierta si c1 fuese la v.a., de all la
correspondencia entre intervalos de confianza y de credibilidad cuando
se emplea como previa c) del ejercicio 5.4. Un analisis exhaustivo del
Modelo Lineal bajo independencia aparece en Box y Tiao(1973).
Ejemplo 5.2 (Transformaci
on de Datos a Normalidad). Una
generalizacion considerable del Modelo Lineal (5.1) debida a Box y
Cox(1964) es:
y () Nn (A1 1 , C1 ),

(5.14)

donde < < es el parametro de la transformacion y y () es el


()
vector de componentes yi donde
()
yi

yi 1

log yi

si
si

6= 0
= 0.

(5.15)

La transformacion (5.15), que tiene sentido si yi > 0, i = 1, . . . , n,


y A1 tiene la primera columna de 1s para que un parametro com
un este
incluido en el modelo, engloba las transformaciones usuales: recproco,
raz cuadrada, logaritmo, etc., siendo continua en = 0. Suponemos a
priori que:
(1 , , ) = ()/ k+1.

(5.16)

128

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

Aqu no puede suponerse que 1 y son independientes para todo


como antes, ya que la densidad a posteriori de dependera de la
escala de medicion de los datos, Pericchi(1981). Definiendo la variable
z

()

= y

()

n
Y

i=1

yi

!1/n

, e integrando respecto a y 1 se obtiene la

marginal a posteriori de , (Pericchi,1981):


( | z) = (S(, z))n/2 (),

(5.17)

donde S(, z) es la suma residual de cuadrados asociada a y z. De


(5.17) pueden obtenerse intervalos aproximados de credibilidad de .3
La ventaja del enfoque Bayes generalizado del Modelo Lineal es que
es automatico, es decir, no requiere de una asignacion cuidadosa de
una medida a priori. Sin embargo tiene desventajas (compartidas por
los enfoques frecuentistas) y entonces solo puede ser considerado como
una aproximacion. Hay una extensa literatura sobre las paradojas que
genera, por ejemplo Stone(1971).
Adicionalmente, si k > 2, c1 la media a posteriori en (5.12) es
inadmisible, Stein(1956). En vista de todo ello exploraremos enfoques
propios de Bayes para el Modelo Lineal.

5.3

Modelo Lineal Jer


arquico

En esta seccion seguiremos principalmente el elegante desarrollo de


Lindley y Smith(1972) y Lindley(1983).
Volvamos al modelo (5.1): dado 1 (k1 1)
d

(y | 1 ) Nn (A1 1 , C1),
con A1 y C1 conocidas, y C1 positiva definida.
Supongamos que dado 2 (k2 1),
d

(1 | 2 ) Nk1 (A2 2 , C2 ),
con A2 y C2 conocidas, y C2 positiva definida.

(5.18)

129

5.3. MODELO LINEAL JERARQUICO

Lema 5.1 Sea = A2 2 . Bajo (5.1) y (5.18) tenemos:




(y) = Nn A1 , C1 + A1 C2 At1 ,
(1 | y) = Nk1 (Bb, B),

(5.19)
(5.20)

donde, B 1 = At1 C11 A1 + C21 , b = At1 C11 y + C21 .


Prueba.

(5.19) se deduce de escribir:


y = A1 + A1 v + u,
d

donde, u N(0, C1 ) y v N(0, C2 ) con u y v independientes.


Multiplicando la verosimilitud (5.1) por la previa (5.18) se obtiene:


1
(1 | y) exp D(1 ) ,
2
donde
D(1 ) = (y A1 1 )t C11 (y A1 1 ) + (1 )t C21 (1 ) (5.21)
= (1 Bb)t B 1 (1 Bb) + G,

donde G = y t C11 y + t C21 , no envuelve a 1 .2

Note que E[1 | y] = Bb es un promedio ponderado de la media a


priori y el estimador de mnimos cuadrados:
c1 = (At1 C11 A1 )1 At1 C11 y,

con ponderaciones iguales a C21 y At1 C11 A1 .


E[ 1 | y] puede ser escrita como:
n

B At1 C11 (y A1 ) + (At1 C11 A1 + C21 ) = + BAt1 C11 (y A1 ).


(5.22)

130

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

Entonces E[1 | y] es (su media a priori) mas una correccion que


es la desviacion de y cerca de su valor esperado A1 , pre-multiplicada
por el filtro BAt1 C11 .
Lema 5.2
n

C1 + A1 C2 At1

o1

= C11 C11 A1 At1 C11 A1 + C21

i1

At1 C11 . (5.23)

Prueba.
La demostracion de este hecho algebraico puede hacerse
directamente o probabilsticamente igualando los terminos cuadraticos
de y en (5.19) y en
(y)

1
exp D(1 ) d1 .2
2

Corolario 5.1 Puede pensarse una previa no informativa como el


lmite cuando C21 0. Del lema 5.2 se obtiene:
lim
1

C2 0

C1 + A1 C2 At1

o1

= C11 C11 A1 At1 C11 A1

i1

At1 C11 . (5.24)

Note que tambien del lema 5.2 se obtiene:


h

B = C21 + At1 C11 A1

i1

= C2 C2 At1 A1 C2 At1 + C1

i1

A1 C2 , (5.25)

lo que permite ver la dispersion posterior como la dispersion a priori


C2 , menos la reduccion debida al experimento.

5.3.1

Modelo Lineal Normal Jer


arquico (MLNJ)

Un momento crucial del desarrollo del metodo Bayesiano fue el reconocimiento de que el conocimiento a priori puede ser modelado en
niveles que forman una jerarqua.
Agregamos a (5.1) y (5.18) la siguiente especificacion, dado 3 (k3
1),
d
(2 | 3 ) Nk2 (A3 3 , C3 ),
(5.26)


5.3. MODELO LINEAL JERARQUICO

131

donde A3 y C3 son conocidas y C3 es positiva definida.


El segundo nivel (5.18) es usado para introducir alguna estructura
en el vector de parametros 1 , a traves de los hiperparametro 2 . Por
ejemplo, all se especifica cuales componentes del vector de parametros
estan cerca o son similares de acuerdo a nuestro conocimiento a
priori. El tercer nivel (5.26) especifica el centro y la dispersion de
esta similaridad. El conocimiento expresado en el segundo nivel ha
sido llamado conocimiento estructural, y el del tercero conocimiento
parametrico, siendo este u
ltimo mas controversial, Pericchi y Nazaret (1988). El conocimiento estructural es fundamental, y establece
que bajo el Modelo Lineal se modelan efectos similares, por ejemplo
produccion de diferentes tipos de semillas de la misma planta, y jamas
efectos completamente dismiles. Note que los dos u
ltimos niveles, de
hecho, especifican una previa. Colapsando (5.18) y (5.26), y usando
(5.19), obtenemos:
d

1 Nk1 (A2 A3 3 , C2 + A2 C3 At2 ).

(5.27)

Si colapsamos los primeros dos niveles obtenemos,


d

y Nn (A1 A2 2 , C1 + A1 C2 At1 ),
o sea, (5.19).
La previa (5.26) pudo haber sido especificada directamente, pero
esto es mas difcil que especificarla en niveles, es decir modelarla. Por
otra parte, generalmente:
dim(1 ) dim(2 ) dim( 3 ),

(5.28)

y por ello el conocimiento estructural confina la asignacion basada


en el conocimiento parametrico a una dimension usualmente mucho
menor, lo que es una gran ventaja. El resultado basico para el modelo
jerarquico de tres niveles es el siguiente teorema.
Teorema 5.1 Supongamos el Modelo Lineal Normal Jerarquico de tres
niveles (MNLJ3). Denotemos el vector de medias de 2 por = A3 3 .
Entonces dado 3 para C1 , C2 y C3 conocidas:

132

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

(y) = Nn A1 A2 , C1 + A1 (C2 + A2 C3 At2 )At1 ,

(5.29)

(1 | y) = Nk1 (Dd, D),

(5.30)

donde:
h

D1 = At1 C11 A1 + C2 + A2 C3 At2


n

d = At1 C11 y + C2 + A2 C3 At2


Prueba.
5.1.2.

i1

o1

(5.31)

A2 .

(5.32)

La demostracion sigue directamente de (5.27) y del lema

Teorema 5.2 Cuando C31 0,


(1 | y) = Nk1 (D0 d0 , D0 ),

(5.33)

donde,
D01 = At1 C11 A1 + C21 C21 A2 (At2 C21 A2 )1 At2 C21 ,

d0 = At1 C11 y.
Prueba.

(5.34)

(5.35)

Por el lema 5.2,

D1 = At1 C11 A1 + C21 C21 A2 (At2 C21 A2 + C31 )1 + At2 C21 , (5.36)
h

d = At1 C11 y + C21 C21 A2 (At2 C21 A2 + C31 )1 At2 C21 A2 . (5.37)
Sustituyendo C31 = 0 en (5.36) y (5.37), se obtienen los resultados
requeridos. 2.

133

5.3. MODELO LINEAL JERARQUICO

Haciendo C21 0 en (5.23) se obtiene E(1 | y) = c1 , el estimador de mnimos cuadrados. Sin embargo cuando C31 0, E(1 |
y) = D0 d0 , o sea, el conocimiento estructural permanece, a
un cuando
el conocimiento parametrico se haga no-informativo. La ventaja es
que comunmente se usa una previa no-informativa en un espacio de
dimension menor que k1 . Pericchi y Nazaret(1988) discuten las ventajas y desventajas de E(1 | y) = D0 d0 , y muestran tests de diagnostico
sobre si C31 = 0 resulta una buena aproximacion o no.
En el MLNJ para el trabajo numerico, se puede usar la identidad
entre medias y modas para la distribucion Normal. Si la media a posteriori se denota por 1 , diferenciando por ejemplo (5.21) con respecto
a 1 , se obtiene:
At1 C11 (y A1 1 ) + C21 (1 ) = 0,

(5.38)

y la segunda derivada evaluada en la moda resulta el inverso de la


matriz de covarianza.
Ejemplo 5.3 (Modelo de Clasificaci
on de una va, ANOVA1).
Supongamos que Yij representa para una misma planta la produccion
de la variedad de semilla i, i = 1, . . . , k, j = 1, . . . , ni . Aqu 1i es la
d
produccion media de la variedad i. Supongamos que Yij N(1i , i2 ).
2
Por simplicidad supongamos ni = n, ni = w2 , i = 1, . . . , k1 . Usamos
la convencion del subndice punto para denotar el promedio aritmetico
d
respecto del subndice. Entonces: Yi. N(1i , w2 ). Respecto del segundo nivel el conocimiento estructural mas sencillo es que todas las
1i s provengan de la misma poblacion Normal, es decir:
d

1i N(, B2 ).

(5.39)

Interesantes posibilidades se abren en situaciones mas complejas.


Si supieramos que un subconjunto de las k1 variedades de semillas
provienen de Australia y el resto de Mexico, especificaramos dos medias diferentes en (5.39) y quizas dos varianzas diferentes.
Proseguimos al tercer nivel suponiendo:
d

N(, 2 ).

(5.40)

134

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

El termino cuadratico, analogo a (5.21) en este ejemplo es:


P

1i )2
+
w2

i (yi

i (1i

)2

B2

( )2
.
2

(5.41)

Diferenciando (5.41) respecto de la media 1m y , obtenemos:

(ym 1m
) (1i
)
+
=0
w2
B

( )
= 0.
2
(5.42)
2
Resolviendo (5.42) se obtiene E(1m | y). Note que si , y

= 1 = y.. , entonces sustituyendo en (5.42),


E(1i | y) =

1m

i (1i
B2

ym.
2
w
1
2
w

+
+

y..
2
B
1
2
B

(5.43)

Recordemos que el estimador de mnimos cuadrados es d


1m = ym. ;

es por ello que 1m es un ejemplo de lo que se llama estimadores


de encogimiento ya que encogen a d
1m hacia la media general y..; a
este tipo de estimadores tambien se les llama de Stein, originalmente
propuestos para dominar a d
1m , cuando k1 > 2.
Para obtener varianzas y covarianzas usamos 1 = D0 d0 ; notemos
que el termino que no depende de las modas en (5.42) es ym. /w2 ;
pasando estos terminos a la derecha obtenemos d0 , ver (5.35). Por

tanto multiplicando la m-esima fila de D0 por d0 obtenemos 1m


. La
varianza estara en la diagonal, las covarianzas fuera de ella. Puede
verificarse que este procedimiento da:

V ar(1m

2
| y) = 1 + w2
k1 B

Cov(1m , 1l | y) =

1
1
/
+ 2
2
w B

w2
k1 B2

= 2 ,

(5.44)

(5.45)

1
1
/
+ 2 .3
2
w B

Note que las esperanzas a posteriori dependen de la tasa w /B , y


no de cada una por separado. Finalmente, concluimos que el uso de la

135

5.3. MODELO LINEAL JERARQUICO

informacion estructural (5.39) produce estimadores mas satisfactorios


que los estimadores de mnimos cuadrados.
Observaci
on 1. Para el ejemplo anterior E(1m 1l | y) = (ym. yl. )
con = B2 /(w2 + B2 ) < 1. Ademas V ar(1m 1l | y) = 2w2 < 2w2 ,
siendo este u
ltimo el valor obtenido por mnimos cuadrados. Para hacer
comparaciones m
ultiples, 1m vs. 1l tomamos la media de sudiferencia sobre su desviacion estandard obteniendo 1/2 (ym. yl. )/ 2w , o
sea 1/2 por el valor frecuentista. El efecto de hacer comparaciones
m
ultiples es automaticamente tomado en cuenta. Esto contrasta con
los metodos fracuentistas, que deben hacer correcciones ad-hoc. Respecto a la prediccion, si z es una observacion del grupo m,
(z | y) =

(z | 1m )(1m | y)d1m .
d

Pero z = 1m + , donde N(0, w2 ) y 1m = 1m


+ con
d
2
2
N(0, ) con definido como en (5.44). Entonces (z | y) =

N(1m
, w2 + 2 ).

Ejemplo 5.4 (Regresi


on M
ultiple). Sea (k 1) el vector de
regresores y X la matriz de variables independientes. E(y) = X con
C1 = 2 I. Se suman constantes a los regresores para que tengan un
d
origen com
un . Mas a
un supongamos que j N(, 2 ), j = 1, . . . , k,
e independientes entre s. En el tercer nivel se supone una previa noinformativa. Entonces:
D01 = X t X 2 + (Ik k 1 Jk ) 2 ,

(5.46)

donde Ik y Jk (ambas k k) son la matriz identidad y la matriz de unos


en todas las entradas, respectivamente, d0 = 2 X t y. Si = 2 / 2 ,
entonces E( | y) = satisface:
n

X t X + (Ik k 1 Jk ) = X t y.

(5.47)

Estimadores de este tipo han sido obtenidos bajo el nombre de


ridge regression, que solo seran razonables si los supuestos que lo
producen lo son. Se puede escribir (5.47) como:

136

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

b + 1 ,
X t X + Ik = X t X
. k

(donde 1k es un vector k 1 de unos), o sea, como una combinacion


b y la media aritm
convexa de
etica de los j s. De nuevo tenemos
encogimiento hacia la media general el cual es de especial importancia
cuando X t X esta mal condicionada.3
La teora descrita en este captulo puede ser usada para analizar
Series Cronologicas de una forma estructurada, como veremos en la
seccion 5.4.
Cuando las varianzas (tpicamente parametros de molestia, aunque
no siempre) son desconocidas, aparecen dos problemas. El primero es
la necesidad de asignar distribuciones a priori a estos parametros. El
segundo, una vez asignadas las distribuciones, hay que integrar sobre
los parametros de molestia para obtener la marginal a posteriori de los
parametros de interes, que ya no sera Normal.
Sea el vector de parametros de molestia y 1 el vector de parametros de interes. Para muestras grandes se ha sugerido (Lindley y Smith,
1972) el uso de estimadores modales como una aproximacion a las
medias, mucho mas sencillas de obtener. El argumento es el siguiente:
los valores modales satisfacen;

(1)
1 (1 , | y) = 0,

(2)
( 1 , | y) = 0.

De (1) sigue que si ( | y) 6= 0 entonces,

((1 | , y)) ( | y) = 0,
1
o sea,

( | , y) = 0.
1 1
Por lo tanto pueden usarse los estimadores modales 1 (obtenidos
en la discusion previa), sustituyendo los parametros de molestia por
sus estimadores modales.

137

5.3. MODELO LINEAL JERARQUICO

Continuaci
on Ejemplo 5.3. Ahora en el ANOVA1, w2 y B2 son desconocidos y deben ser sustituidos por sus estimadores modales. Distribuciones convenientes (que no son conjugadas) son las chi-cuadrado
inversas es decir:
vw w
2 (vw ),
w2

vB B
2 (vB ).
B2

Los hiperparametros v y describen las medias y varianzas. Haciendo () = 1 e integrando con respecto a en (1 , w2 , B2 , , y) se
obtienen los estimadores modales de 1 , w2 y B2 :

 


yi.
y..
1
1

/ 2 + 2 ,
2 + 2
1i = w
w
B
B
P
2

=
{
(

)
+
v

} /(k1 + vB + 1),

B
B
i
B
1i
1

nw2

= {S + n

i (yi.

2
1i
)

(5.48)

+ vw w } /(nk1 + vw + 2),

P P

donde S 2 = i j (yij yi. )2 .


En la practica se usa un procedimiento iterativo. Se comienza con
0
, se calcula 11 con el cual se calcula 1 , y as sucesivamente hasta
converger, lo que generalmente sucede.3
La estimacion modal adolece de varios inconvenientes entre los cuales
citamos que solo son buenas aproximaciones para muestras grandes y
no proveen informacion sobre el error de los estimadores y otras caractersticas de las marginales. El procedimiento correcto para obtener la
mariginal es integrando los parametros de molestia,
(1i | y) =

(1i | , y)( | y)d.

(5.49)

Ya hemos mencionado la aproximacion de Laplace y los metodos de


cuadratura de Naylor y Smith(1982) para integrales. En la actualidad
hay una gran produccion en investigacion para el calculo de marginales
y momentos a posteriori por metodos iterativos de Montecarlo, que usan
intensivamente el computador, permitiendo la integracion en muchas
dimensiones por usuarios no expertos en metodos numericos.

138

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

Tambien un analisis cuidadoso de la parametrizacion del problema


permite, en ocasiones, disminuir la dimension de integracion ganando
comprension en el problema.
Continuaci
on Ejemplo 5.3. Para el ANOVA1 con las distribuciones
a priori especificadas se puede demostrar que integrando respecto a
, B2 y w2 , 1 tiene una marginal a posteriori que es el producto de
dos t Student multivariadas. Esta distribucion es difcil de manejar.
Perez y Pericchi(1987) reparametrizan el ANOVA1,
(1 , , B2 , w2 ) (1 , , B2 , ),

con = B2 /w2 . Obtienen que (1 | , y) es una t-Student multivariada (facilmente manejable) y consiguen la forma de ( | y). Esto
permite reducir la integracion a una dimension.3

5.4

El Modelo Lineal Din


amico

Un caso particular de los modelos lineales que aparecen frecuentemente


en la practica es el Modelo Lineal Dinamico (MLD). Este modelo es
utilizado para analizar datos que evolucionan con el tiempo y dependen
el, por ejemplo, la tasa de cambio de una moneda con respecto a otra,
el precio de acciones que se cotizan en la bolsa, las exportaciones e
importaciones de un pas, etc.
En esta seccion estudiaremos de manera muy general el MLD polinomial de primer orden, sin embargo, para un analisis mas exhaustivo
el lector puede referirse a West y Harrison (1989), que sera ha tomado
como referencia principal de nuestro desarrollo.
Definici
on 5.1 Para cada instante de tiempo t = 1, 2, . . . consideremos las siguientes ecuaciones:
t N(0, Vt ),
Ec. de observaciones:
Yt = t + t ,
Ec. del sistema:
t = t1 + t
t N(0, Wt ),
Informacion Incial:
(0 | D0 ) N(m0 , C0 ), m0 , C0 conocidos.
En la definicion anterior los terminos de las sucesiones {t } y {t }
son independientes, mutuamente independientes e independientes de

139

5.4. EL MODELO LINEAL DINAMICO

(0 | D0 ). D0 es la informacion inicial, m0 es un estimado para el nivel


de la serie y C0 es la incertidumbre sobre la media m0 . Para cada t
supondremos que Dt1 recoge toda la informacion sobre D0 , Vt , Wt , Y1 ,
. . . , Yt1 , entonces la u
nica informacion nueva para cada t sera Dt =
{Yt , Dt1 }.
Teorema 5.3 Para cada t tenemos las siguientes distribuciones:
a) Posteriori para t1 : (t1 | Dt1 ) N(mt1 , Ct1 ).
b) Previa para t : (t | Dt1 ) N(mt1 , Rt ), con Rt = Ct1 + Wt .
c) Prediccion para la siguiente observacion: (Yt | Dt1 ) N(ft , Qt ),
donde ft = mt1 y Qt = Rt + Vt .
d) Posteriori para t : (t | Dt ) N(mt , Ct ), donde mt = mt1 +
At et , Ct = At Vt , At = Rt /Qt y et = Yt ft .
Prueba.
Haremos la prueba por induccion en t. Supongamos
cierto a), entonces t es la suma de dos Normales independientes y por
tanto es una Normal, con media mt1 + 0 y varianza Rt = Ct1 + Wt ,
es decir,
(t | Dt1 ) N(mt1 , Rt ),

que es el resultado en b). Analogamente el procedimiento para probar


c). La prueba de d) se puede realizar de dos maneras diferentes, usando
el Teorema de Bayes (ver West y Harrison (1989)) o basados en la teora
de variables aleatorias Normales. De b) y c) sabemos:
(Yt | Dt1 ) N(ft , Qt )

(t | Dt1 ) N(mt1 | Rt ),

con estas distribuciones podemos calcular la distribucion conjunta


(Yt , t | Dt1 ). Caculemos la covarianza entre Yt y t .
Cov(Yt , t | Dt1 ) = E [(Yt ft )(t mt1 )] = Rt ,

donde la u
ltima igualdad se obtiene usando independencia y las propiedades de la esperanza. Entonces la distribucion conjunta es:
(Yt , t | Dt1 ) N

"

mt1
mt1

Qt Rt
Rt Rt

!#

140

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

La correlacion entre Yt y t es t = Rt /(Rt Qt )1/2 , entonces 2t =


Rt /Qt = At . Usando estos resultados se obtiene que
(t | Yt , Dt1 ) N(mt , Ct ),
donde mt = mt1 + 2t (Yt mt1 ), Ct = (1 2t )Rt = Rt Vt /Qt = At Vt ,
que es el resultado buscado en d). Para finalizar la prueba basta probar
a), pero esto es cierto para t=1 por la definicion del modelo. 2

5.4.1

El Modelo constante

El conjunto de observaciones para cada t es Dt = {Yt , Dt1 } y este no


contiene informacion externa a la serie, por lo que se le suele llamar
cerrado. Un caso especial de MDL de primer orden es el modelo constante, en este modelo se considera que la varianza observacional (Vt ) y
de evolucion (Wt ) son constantes en el tiempo. Es decir, un MDL constante tiene V y W ambas positivas, finitas y constantes. Una medida
de interes es r = W/V , que suele llamarse se
nal de ruido.
Ejemplo 5.4 (Tomado de West y Harrison (1989)). Una compan
a farmace
utica produce una droga llamada KURIT que actualmente
vende un promedio de 100 unidades por mes. Por consejo medico la
compa
na produjo un cambio en su formulacion que se espera incrementara la demanda a partir de Enero (t=1), sin embargo el precio y
el nombre permaneceran igual. Se requiere predecir la produccion y el
abastecimiento de acuerdo a la nueva demanda.
Los pacientes que consumen esta droga lo hacen regularmente, por
lo que se piensa que la demanda en el tiempo es localmente constante.
Entonces un MDL de primer orden constante parece ser una buena
opcion para predecir la demanda. Con la informacion disponible hasta
el momento con la vieja formula se sabe que V =100 y W =5. Un estudio
de mercado en t=0 mostro que el nuevo producto aumentara sus ventas
en un 30%, es decir, 130 unidades por mes, pero con una incertidumbre
C0 = 400. Entonces las ecuaciones del modelo son:
Yt = t + t , t N(0, 100)
t = t1 + t , t N(0, 5),

141

5.4. EL MODELO LINEAL DINAMICO

con informacion inicial (0 | D0 ) N(130, 400) y r = 0, 05. Usando las


ecuaciones de recurrencia dadas en el Teorema 5.3 se pueden calcular
las predicciones de la siguiente manera, sabemos m0 = 130, C0 =
400, V = 100, W = 5, ademas la observacion Y1 = 150, as que:
R1 = C0 + W = 405, f1 = m0 = 130, Q1 = R1 + V = 505,

A1 = R1 /Q1 = 0.8,
ademas m1 = m0 + A1 (Y1 f1 ) = 130 + 0.8(150 130) = 146 y
C1 = A1 V = 80. Los resultados aparecen resumidos en la siguiente
tabla hasta t = 9.

t
1
2
3
4
5
6
7
8
9

Qt
505
185
151
139
133
130
128
127
126

ft
130.0
146.0
141.4
141.9
145.3
142.6
143.9
140.4
142.2

At
0.8
0.46
0.34
0.28
0.25
0.23
0.22
0.21
0.21

Yt
et
mt
Ct
150 20.0 146.0 80
136 -10.0 141.4 46
143
1.6 141.9 34
154 12.1 145.3 28
135 -10.3 142.6 25
148
5.3 143.9 23
128 -15.9 140.4 22
149
8.6 142.2 21
146
3.8 143.0 20

En la tabla se observa que a medida que t aumenta At decrece.


Ademas el coeficiente de m0 en el caculo de mt es (1 At ) . . . (1 A1 ),
as que por ejemplo para el calculo de m10 la contribucion del valor de
m0 es poco significativa.
Hasta ahora hemos asumido que los modelos son cerrados, es decir, no toman en cuenta informacion externa en la prediccion. El enfoque Bayesiano, por ser subjetivo, facilitara la incorporacion de informacion externa cuando se disponga de ella, para cada t resumiremos esta informacion en St y se uniran con la informacion del modelo
Dt = {Yt , Dt1 , St1 }.
Continuaci
on Ejemplo 5.4. Consideremos nuevamente la situacion
de la compa
na farmace
utica. Supongamos que para t = 9 se recibe la

142

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

informacion de que la droga equivalente de la competencia, BURNIT,


sera sacada del mercado por descubrirse que produce efectos secundarios. As para t = 10 los pacientes que consumen BURNIT se cambiaran
para otra droga equivalente. Se sabe que esta medicina cuenta actualmente con el 50% del mercado, lo que hace suponer que se duplicaran
las ventas de KURIT, es decir, E[10 | D9 , S9 ] = 286. Despues de
realizar un estudio del mercado se llega a las siguientes conclusiones:
(10 | D9 , S9 ) N(143, 400)
(10 | D9 , S9 ) N(286, 920)
(Y1 0 | D9 , S9 ) N(286, 1020)
En la siguiente tabla se muestran los resultados hasta t = 15 despues
de incorporar la informacion externa.
t
Qt
ft
At
Yt
et
mt
10 1020.00 286.00 0.90 326 40.00 322.07
11 195.11 322.07 0.48 350 27.93 355.47
12 153.00 355.47 0.34 320 -35.47 343.41
13 139.00 343.41 0.28 328 -15.41 339.09
14 133.00 339.09 0.24 318 -21.09 334.02
15 129.00 334.02 0.22 348 13.98 337.09

Ct
90.19
48.00
34.00
28.00
24.00
22.00

3
En conclusion, cuando la informacion externa sea relevante para
la prediccion que se desea realizar, y dispongamos de ella, es de vital
importancia a la hora de tomar decisiones incorporarla a la informacion
suministrada por el modelo.
A continuacion probaremos un teorema que nos permitira conocer
el comportamiento del coeficiente de adaptacion cuando t .
Teorema 5.4 En el MDL de primer orden constante, cuando t ,
At A y Ct C = AV , donde
A=

q

1 + 4/r 1
2

143

5.4. EL MODELO LINEAL DINAMICO

Prueba.
Ct = At V , con 0 < At < 1, entonces 0 < Ct < V, t.
Usando las ecuaciones de recurrencia del Teorema 5.3 se tiene:
1
1
1
1
Ct1 Ct1
= Rt1 Rt1
= Kt (Ct1
Ct2
),

donde Kt = Ct1 Ct2 /(Rt Rt1 ) > 0, entonces Ct es una sucesion


monotona y acotada, por lo que existe el lmite C. Como Rt = Ct1 +
W , entonces Rt R = C + W . Ademas, Ct = Rt V /(Rt + V ), por lo
que C satisface la siguiente ecuacion cuadratica C 2 + CW V W . Esta
ecuacion tiene una solucion positiva dada por:

C=

W +

W 2 + 4(V W )
2

V r 1 +

1 + 4/r

as que At A = C/V , que es lo que se quera probar. Despejando se


llega a la relacion r = A2 /(1 A).2
La siguiente tabla muestra algunos resultados numericos de la relacion que existe entre r y A.
1/r
A

9900 380
90
20
6
0,75 0,01
0.01 0.05 0.10 0.20 0.33 0.67 0.99

Resumiendo, para el modelo constante, cuando t se tienen los


siguientes resultados lmites:
1. At A =

1+4/r
,
2

r = A2 /(1 A),

2. Ct C = AV ,
3. Rt R = C/(1 A) = AV /(1 A),
4. Qt = Q = V /(1 A),
5. W = A2 Q.

144

5.4.2

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

Caso Varianza desconocida

En cualquier problema practico que requiera el ajuste de Modelos Dinamicos el principal inconveniente es la asignacion de las varianzas Vt
y Wt .
Consideremos el modelo constante, Rt = Ct1 +W y en el lmite R =
C
AC
C + W = 1A
, entonces W = 1A
, como A es constante, observamos
que la varianza W es una proporcion de C. Pareciera logico pensar
que la seleccion de W depende de la incertidumbre inicial C, y este
A
100%. Como = 1 A, entonces R = C/, as
porcentaje sera 1A
la seleccion de dependera del coeficiente de adaptacion del modelo
a los datos, y esto nos conducira a la seleccion de W . Por ejemplo si
A=0.1, entonces = 0.9 y la varianza W = 0.11 C, pero si disminuimos
= 0.8, la varianza aumentara a W = 0.25 C.
En cualquier caso, siempre sera conveniente elegir una tasa de adaptacion constante para cada t. Llamaremos a el factor de descuento
para cualquier MLD. Para una factor de descuento fijo tenemos,
Wt = Ct1

Rt =

Ct1
,

para cada t.
Hemos considerado aqu modelos constantes y no constantes, pero
en general cualquier MLD de primer orden converge rapidamente a un
modelo constante del tipo {1, 1, V, rV }, donde r = (1 )2 /, esta tasa
r se deduce de los casos lmites considerados anteriormente.
Una discusion mas general sobre factores de descuentos aparece en
West y Harrison (1989), sin embargo la idea introducida en esta seccion
es que los factores de descuento son una herramienta para la eleccion
de la varianza. Ademas en el caso de modelos no constantes esto nos
permite actualizar la varianza Wt para cada t, y en caso de tener que
incorporar informacion externa al problema los factores de descuento
jugaran un papel muy importante a la hora de ajustar la varianza para
cambiar el nivel de la serie.
Existe en la actualidad toda una industria de investigacion de aplicaciones y generalizaciones del Modelo Lineal Jerarquico Dinamico y
Filtros de Kalman, bajo el nombre de modelaje Bayesiano dinamico.
Referencias recientes los libros de West y Harrison (1989) sobre mod-

145

5.5. EJERCICIOS

elaje Bayesiano dinamico, y Pole, West and Harrison (1994) sobre el


paquete estadstico BATS: Bayesian Analysis of Time Series.

5.5

Ejercicios
 

5.1 Para parametros de escala, f (y | ) = 1 f y , > 0, el problema debe ser invariante para cambios de escala z = c y, c > 0.
Muestre que entonces la medida invariante debe cumplir:
() =

(log ) = 1.

5.2 Mostrar que Iij () en (5.7) tambien puede ser escrita como:
"

log f (y | )
log f (y | ) .
Iij () = Ey |
i
j
5.3 Demostrar la Invarianza de la regla de Jeffreys, ecuacion (5.8).
5.4 Verificar que para regla de Jeffreys, si la verosimilitud es Normal
con media y desviacion tpica , resulta:
(a) Para varianza conocida () = 1.
(b) Para media conocida () = 1 .
(c) Ambas desconocidas (, ) =

1
.
2

(d) Si ambos son independientes pero desconocidos (, ) =


()() = 1 .
5.5 Verificar que para el Modelo Lineal (5.1) bajo los supuestos hechos, la previa de Jeffreys es:
(a) (1 ) = 1, si 2 es conocida.
(b) (, ) =

1
,
k+1

si es desconocida.

(c) Finalmente si 1 y son a priori independientes, (1 , ) =


(1 )() = 1 .

146

CAPTULO 5. ANALISIS
BAYESIANO DEL MODELO LINEAL

5.6 Expresar E(1 | y) = Dd en el Teorema 5.1 como combinacion


convexa de c1 = (At1 C11 A1 )1 A1 C11 y y la media a priori A2 .
Tambien mostrar que:
E(1 | y) = A2 + DAt1 C11 (y A1 A1 ),
o sea que el filtro es igual a DAt1 C11 .
5.7 Verificar las ecuaciones de la Observacion 1.
5.8 Demostrar la ecuacion (5.46).

Captulo 6
Selecci
on de Modelos y Test
de Hip
otesis Bayesianos
En este captulo (basado en Berger y Pericchi(1996) y Pericchi, Fiteni
y Presa(1996)) trataremos de manera especfica la clase de problemas
en la que el enfoque frecuentista y Bayesiano difieren drasticamente,
sobre todo cuando hay gran cantidad de datos. Es ademas una clase de
problemas de enorme importancia practica y de investigacion basica.
Esta clase de problemas engloba tanto a la seleccion de modelos como
al test de hipotesis.

6.1

Introducci
on

Comencemos con dos ejemplos que ilustran la utilidad los tipos de problemas en los que se hace necesario disponer de criterios de seleccion
de modelos y test de hipotesis.
Ejemplo 6.1 (Selecci
on de Modelos). Proschan (1962) considero
datos de los tiempos de falla del sistema de aire acondicionado de un
aeroplano. Se obtuvieron los siguientes 30 tiempos de falla (supuestos
i.i.d):
147

148

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

23 261 87 7 120 14 62 47 225 71


246 21 42 20
5 12 120 11
3 14
71 11 14 11 16 90
1 16 52 95
Se plantean los siguientes modelos separados para modelizar los
datos:
M1 : Modelo Exponencial:
f1 (xi | ) =

1
exp {xi /},

xi > 0, > 0,

o equivalentemente, haciendo = 1 ,
f1 (xi | ) = exp {xi },

xi > 0, > 0.

M2 : Modelo Lognormal:
f2 (xi | , ) =

exp {(log xi )2 /2 2 }

,
2

xi > 0, > 0, < < .

Este ejemplo pertenece a lo que llamamos Seleccion de Modelos, ya


que M1 no es un caso particular de M2 .3
Ejemplo 6.2 (Test de Hip
otesis). Supongamos que aceptamos que
ciertos datos provienen de la distribucion Exponencial. Una teora establece que: M1 : = 0 , mientras que el modelo alternativo establece
que la teora no es correcta, es decir, M2 : 6= 0 . Este es un problema de Test de Hipotesis ya que M1 puede ser aproximado tanto como
se quiera por M2 , y de hecho puede considerarse a M1 como un caso
particular de M2 .3
Analicemos la diferencia fundamental que existe entre los problemas
de estimacion y los de Test de Hipotesis o Seleccion de Modelos.
Continuaci
on Ejemplo 6.2. Supongamos que se quiere estimar el
parametro de la distribucion Exponencial cuando no existe (o no se
quiere utilizar) informacion a priori. Como en el Captulo 5 asignamos
la previa no-informativa dada por la Regla de Jeffreys:

149

6.1. INTRODUCCION

N () (det I())1/2 =

1
,

o equivalentemente,
N () =

c
,

donde c es una constante positiva no especificada. Notar que N ()


es impropia, ya que integra infinito en 0 < < . Sin embargo esto
u
ltimo no nos impide calcular ( | x), la cual es una densidad propia
para n 1. En efecto,
P
f (x | ) c
f (x | ) N ()
n1 exp { xi }
( | x) = R
=R
=
.
P
f (x | ) N ()d
f (x | ) c
(n)/( xi )n
(6.1)
Entonces ( | x) es una distribucion Gamma, con parametros n
P
y ni=1 xi , la cual es propia y no envuelve a la constante arbitraria c,
pues se ha cancelado por aparecer tanto en el numerador como en el
denominador de (6.1). Para muestras moderadas o grandes, en vista
de la Normalidad asintotica de la densidad posterior (4.35),
b I 1 (x)) = N
N(,

1
, 2 .
x nx
1

(6.2)

Por otra parte, para estimadores de Maxima Verosimilitud se cumple


asintoticamente que:
b N(, I 1 (x)).

(6.3)

Notar la estrecha relacion que existe entre (6.2) y (6.3). La interpretacion de (6.2) es mas satisfactoria (porque siempre sera desconocido), pero a
un as la estimacion e intervalos obtenidos de (6.1) y (6.3)
seran muy cercanos.3
La cercana numerica encontrada en el ejemplo anterior, entre estimaciones usando Maxima Verosimilitud y Bayes con previas noinformativas, es tpica en problemas de una dimension, que tengan

150

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

verosimilitudes regulares (esto es verosimilitudes cuyo soporte no dependa del valor del parametro, como en el ejemplo 3.2).
Podra argumentarse, entonces, que en problemas de estimacion, la
diferencia entre los enfoques basados en la verosimilitud o en Bayes, es
mas academica que practica. (Esto no es as, sin embargo para problemas de muchos parametros incluso para el Modelo Lineal Jerarquico
como se vio en el Captulo 5, ni para Verosimilitudes irregulares, Atkinson, Pericchi y Smith (1991), Pericchi y Nadal (1996).)
Pero, incluso para verosimilitudes regulares de una dimension, el enfoque frecuentista y Bayesiano difieren drasticamente, y en forma creciente con el tama
no muestral n, para problemas de Test de Hipotesis,
como se vio en el Ejemplo 4.1, o mas generalmente para Seleccion de
Modelos.
Resulta paradojico constatar que al presente momento el enfoque
Bayesiano para estimacion este mucho mas desarrollado que para Test
de Hipotesis y Seleccion de Modelos. Precisamente para esta u
ltima
clase de problemas es para los que metodos Bayesianos son mas necesarios.
La razon de la paradoja es: tpicamente no pueden calcularse Probabilidades de Modelos, ni Factores de Bayes con previas no-informativas
.
Continuaci
on Ejemplo 6.2. Para una previa () bajo M2 , el factor
de Bayes es:

B21

m2
f (x | )()d
=
.
f (x | 0 )
f (x | 0 )

(6.4)

Si ahora asignamos como probabilidades a priori de los modelos:


p1 = P (M1 ) y p2 = P (M2 ), p1 + p2 = 1, (por ejemplo p1 = p2 = 1/2
para un analisis de referencia) entonces (ver Captulo 4),
P (M1 | x) = 

1
1+

p2
B
p1 21

.

(6.5)

La relacion (6.5) parece resolver el problema del Test de Hipotesis


de la manera mas satisfactoria; provee la probabilidad posterior de los
modelos alternativos, basadas en lo adecuado en que cada mo/-de/lo predice los datos obtenidos, esto es basado en el factor de Bayes

151

6.1. INTRODUCCION

(6.4). Sin embargo, supongamos que se quiere realizar un analisis automatico, de referencia o no-subjetivo. Si, como en estimacion,
suponemos: N () = c/, entonces,
N
B21

=c

f (x | ) 1 d
f (x | 0 )

(6.6)

Ahora, la constante arbitraria c no se cancela y entonces el Factor


de Bayes (6.6) queda indeterminado.3
Entonces, necesariamente hay que asignar previas propias para calcular el Factor de Bayes. Sin embargo, en Test de Hipotesis y, peor
a
un, en Seleccion de Modelos la asignacion cuidadosa de previas informativas subjetivas es tpicamente infactible. Ademas, la sensibilidad
del Factor de Bayes va a ser grande respecto de estas previas. Una
posible solucion es la de considerar clases de densidades a priori, como
en los Captulos 4 y 5. Siendo este un programa de accion atractivo,
tiene al menos dos inconvenientes. El primero es como asignar clases de
densidades a priori que, como en el ejemplo 6.1, vivan en espacios muy
diferentes. El segundo, es que para problemas de Test de Hipotesis,
el enfoque Bayes robusto, da desigualdades en una sola direccion, ver
la expresion (4.19). Parece entonces conveniente enfocar el problema
desde otra optica. Es acaso la situacion de informacion (o falta de
ella) igual para un problema de estimacion que para otro de Test de
Hipotesis o Seleccion de Modelos?. Veamos el ejemplo 6.2. El hecho
de que se este seriamente considerando la hipotesis = 0 da una
pieza de informacion fundamental que no esta siendo considerada en
la previa impropia N () = c/. Esto es, 0 es un punto distinguido
que estamos seriamente considerando como verdadero parametro. Si no
fuese as, para que hacer el test de hipotesis?. La previa () debera
considerar que H0 : = 0 ha sido sugerido.
Resumiendo: Lo que se requiere para implementar el enfoque Bayesiano para Test de Hipotesis, es de un metodo automatico o de
referencia para asignar una previa propia (), que tome en cuenta
que el modelo nulo = 0 , ha sido definitivamente sugerido. Dicho
de una manera menos ambiciosa, el objetivo es procurar metodos que
den respuestas iguales o cercanas a procedimientos Bayesianos. En

152

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

Berger y Pericchi(1996) se enuncia el siguiente principio que va a ser


seguido en este Captulo.
PRINCIPIO: Metodos para Seleccion de Modelos y Test de Hipotesis
que sean similares o iguales al uso de previas razonables, son preferibles
a metodos que no corresponden a ning
un analisis Bayesiano.
A lo largo de este libro hemos expuesto ventajas del enfoque Bayesiano. Es importante recalcar que para esta clase de problemas, el
enfoque Bayesiano le hace un servicio a la ciencia en general, en el siguiente sentido. Un principio cientfico aceptado es el de la Parsimonia.
Esto es, que si dos modelos alternativos se ajustan bien a los datos
y aproximadamente de la misma manera, el modelo mas simple debe
ser aceptado. Esto lo cumple el enfoque Bayesiano mas no el frecuentista, Jeffreys y Berger (1992). Por otro lado, es necesario desarrollar
metodos automaticos (es decir que no requieren de la asignacion directa de previas informativas para todos los parametros en cada modelo) ya que los procedimientos automaticos dominaran en la practica
en la mayora de los campos. Entonces nuestro objetivo es desarrollar
metodos automaticos, que sean consistentes con el Principio enunciado.

6.2

El Factor de Bayes Intrnseco

Comenzamos haciendo uso de una estrategia para cancelar la constante


arbitraria c. Utilicemos parte de la muestra, que llamaremos muestra
de entrenamiento, para convertir las previas impropias en propias,
Lemper(1971). Emplearemos el resto de los datos para comparar los
modelos.
Supongamos que estamos comparando los modelos: M1 , M2 , . . . , MJ .
Denotamos por X (l) la muestra de entrenamiento y X (l) el resto
de los datos. Entonces, la previa bajo el modelo Mj , que denotamos
jN (j ) se convierte en
j (j | x(l)) =
la cual es propia si:

fj (x(l) | j ) N (j )
,
mN
j (x(l))

(6.7)

153

6.2. EL FACTOR DE BAYES INTRNSECO

0 < mj (x(l)) =

fj (x(l) | j ) N (j )d < .

(6.8)

La condicion (6.8) debe cumplirse simultaneamente para todos los


modelos M1 , M2 , . . . , MJ , para que estos se puedan comparar. Pero por
otra parte es conveniente que el tama
no de la muestra de entrenamiento
sea mnima para reservar la mayor parte de la informacion para la
comparacion de modelos. De all la siguiente definicion.
Definici
on 6.1 Una muestra de entrenamiento X (l) se llama propia
si 0 < mN
un
j (x(l)) < para todo Mj , y minimal si es propia y ning
subconjunto de X (l) es propio. Las muestras propias y minimales las
llamamos MEM.
Para muestras de entrenamiento propias (minimales o no), podemos entonces calcular los Factores de Bayes, que ahora estaran bien
calculados. Para X (l) el Factor de Bayes de Mj sobre Mi es,
R

Lema 6.1

Bji (l) = R

fj (x(l) | j , x(l))jN (j | x(l))dj


.
fi (x(l) | i , x(l))iN (i | x(l))di

N
BijN (x(l)),
Bji ((l)) = Bji

(6.9)

(6.10)

donde

N
Bji

= R

mN
fj (x | j ) N (j )dj
j (x)
=
,
N
fi (x | i ) (i )di
mN
i (x)

Prueba.

BijN (x(l)) =

mN
i (x(l))
.
mN
j (x(l))

Se deja al lector como ejercicio.2

Continuaci
on Ejemplo 6.2. En este caso la muestra de entrenamiento
mnima sera X (l) = Xl > 0, es decir un dato, ya que M1 no tiene
parametros ajustables (Hipotesis simple) y para M2 (usando (6.7)):
( | xl ) = R
0

exl c
exl c d

= xl exl ,

(6.11)

154

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

o sea, ( | xl ) es Exponencial con parametro xl > 0, y por tanto es


propia.
Si ahora usamos (6.11) y (6.9),
B21 (l) =

R
0

f (x(l) | )( | xl )d
=
f (x(l) | 0 )

mN
f (xl | 0 )
2 (x)
N
N

= B21
B12
(xl ).3
f (x | 0 )
mN
(x
)
l
2

Note que hemos puesto al Modelo mas complejo en el numerador,


mas adelante explicaremos la razon.
Si bien Bij esta bien escalado (no depende de constantes arbitrarias),
depende de la seleccion arbitraria de la MEM X (l). Para eliminar esta
dependencia y para incrementar la estabilidad de los Factores de Bayes,
se consideran las siguientes simetrizaciones a las que denominamos Factores de Bayes Intrnsecos (IBF).
1. IBF Aritm
etico, que es la media aritmetica,
AI
Bji

L
L
X
1X
N 1
=
Bji(l) = Bji
BijN (x(l)),
L l=1
L l=1

(6.12)

donde L es el n
umero total de MEM que sean propias.
2. IBF Geom
etrico, la media geometrica,
GI
Bji

L
Y

l=1

!1/n

Bji(l)

N
Bji

L


1X
exp
log BijN (x(l)) .
L l=1
(6.13)

3. IBF Mediano, la mediana,




MI
N
Bji
= Medl (Bji (l)) = Bji
Medl BijN (x(l)) .

(6.14)

Cada uno de estos tres IBFs tiene su justificacion, Berger y Pericchi


(1996). Desde el punto de vista computacional, L no tiene por que ser
la totalidad de las MEM. Varshavsky (1995) ha encontrado que un
subconjunto asombrosamente peque
no del conjunto de todas las MEM

155

6.2. EL FACTOR DE BAYES INTRNSECO

da resultados muy cercanos al IBF. Del orden de m n, MEM daran


resultados muy cercanos al IBF, donde n es el tama
no muestral y m el
de las MEM.
Continuaci
on Ejemplo 6.2. Aplicando las definiciones encontramos
que, como L = n,
AI
B21

GI
B21

N
B21

"

N
B21

"

0
(W 0 T ) ,
n

y finalmente,

n
0 X
xl e0 xl ,
n l=1

donde

W =

(6.15)

n
X

log xl ,

(6.16)

l=1

MI
N
= B21
Medl 0 xl e0 xl .3
B21

(6.17)

Continuaci
on Ejemplo 6.1. En este ejemplo M1 : Exponencial vs.
M2 : Lognormal, las previas no-informativas utilizadas son:
1
1
y
2N (, ) .

Se verifica que las MEM son de la forma X (l) = (Xi , Xj ), Xi 6= Xj .


Resulta que,
1N ()

mN
1 (x) =

(n)
Tn

donde T = ni=1 xi , Sy2 =


Para las MEM,
mN
1 (x(l)) =

1
(xi + xj )2

[(n 1)/2]
mN
,

2 (x) = Qn
(n1)
( i=1 xi ) (n1)/2 2 n Sy

Pn

i=1 (yi

y)2 , yi = log xi .
mN
2 (x(l)) =

1
.
2xi xj | log(xi /xj )|

Para los datos de este ejemplo hay 435 pares de observaciones pero
9 de ellos tienen Xi = Xj . Por ello estos 9 pares no son MEM y por
tanto fueron ignorados. Los resultados numericos fueron,

156

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

AI
GI
MI
B21
B21
B21
0.37 0.33 0.42

Como se ve los resultados son bastante cercanos, y apuntan a que


el modelo Exponencial es alrededor de 3 a 1 mas probable que el Lognormal, si suponemos que p1 = p2 = 1/2. De hecho si utilizamos (6.5)
para el IBF aritmetico obtenemos P (M1 | x) = 0.73.3
Veamos ahora otro ejemplo de Seleccion de Modelos, el cual es fundamental para la estadstica Robusta.
Ejemplo 6.3 (Robustificaci
on del Modelo Normal). Supongamos
que el modelo base para unos datos es el modelo Normal con media y
varianza desconocida. Sin embargo, existe la posibilidad de que los
datos muestren colas mas pesadas como en el modelo t-Student por
ejemplo, o colas mas finas como en la Uniforme de 2 parametros, o que
los datos tengan cierta asimetra, como en el Modelo Gumbel (Modelo
de valores extremos). Todos estos modelos pertenecen
a la familia de


xj
1
localizacion-escala y pueden escribirse como: j fj j .
Para esta clase de modelos, el IBF tiene una simplificacion sorprendente. Tenemos j modelos, donde todos son de localizacion-escala.
Como en (5.7) puede verificarse que la media no-informativa invariante es j (, ) 1/. Puede verificarse ademas que las MEM son de
la forma X (l) = (Xi , Xk ), Xi 6= Xk .3
Lema 6.2 Si X1 y X2 son observaciones independientes de la densidad
de localizacion-escala, 1 f ((xi )/) y N (, ) = 1/, entonces
para X1 6= X2 ,
N

m (x1 , x2 ) =

1
x1
x2
1
f
f
dd =
.
3

2 | x1 x2 |
(6.18)

Prueba.
Sin perdida de generalidad supongamosh que X2 >i X1 y
hagamos el cambio de variables (, ) (v, w) = x1 , x2 . Entonces, aplicando el Teorema del Cambio de Variable, se tiene:

157

6.3. EL IBF ESPERADO

Z Z
1
1
f (v)f (w)dwdv =
m (x1 , x2 ) =
P (v < w),
|x1 x2 | v
|x1 x2 |
N

donde v y w son independientes con densidad f . Claramente


P (v < w) = P (w < v) = 1/2 lo que completa la prueba.2
La identidad (6.18) es sorprendente, porque el resultado no depende
de la verosimilitud f . Ademas esta identidad simplifica la comparacion
de modelos. En efecto, el IBF puede escribirse como:
N
BfI g = BfNg (x).Ave{Bgf
(x(l))},

donde (Ave) representa un average aritmetico, geometrico o la mediana.


Ahora bien, si f y g son de localizacion-escala y (, ) 1/, entonces
para las MEM, (X1 (l), X2 (l)), con X1 (l) 6= X2 (l), resulta que:
N
Ave{Bgf
(x(l))} = 1,

(6.19)

BfI g = BfNg .

(6.20)

y por lo tanto,
Por otra parte, la identidad (6.18) provee una justificacion de muestras de entrenamiento de tama
no mnimo. Si muestras de entrenamiento
N
mas largas, X (l), son empleadas, ya no se cumplira que Bgf
(x(l)) es
independiente de g y f . Muestras de entrenamiento mas largas producen una perdida innecesaria de informacion sobre la discriminacion
de modelos, y perdida innecesaria de simplicidad.
Generalizaciones de (6.18) para modelos mas complejos, como por
ejemplo para la robustificacion de los modelos ANOVA, se muestran en
Berger, Pericchi y Varshavsky(1996).

6.3

El IBF Esperado

El IBF tiene en una variedad de casos gran simplicidad analtica. Sin


embargo, para muestras peque
nas el IBF puede tener una variabilidad grande y por otra parte, para muestras muy grandes puede ser
costoso computacionalmente. Una alternativa atractiva es sustituir el

158

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

(Ave), average de las correcciones, por su esperanza bajo el modelo mas


complejo, cuando es claro cual es el mas complejo como en el Test de
Hipotesis.
El IBF esperado Aritmetico y Geometrico son respectivamente,
EAI
N
N
B21
= B21
EM2 [B12
(x(l)) | ],

(6.21)

EGI
N
B21
= B21 exp EM2 [log B12
(x(l)) | ] .

(6.22)

Notese que el IBF esperado es el valor lmite del IBF, ya que por la
Ley de Grandes N
umeros,
L
1X
L
N
B N (x(l)) EM2 [B12
(x(l) | ]
L l=1 12

N
1X
L
N
N
log B12
(x(l)) EM2 [log B12
(x(l)) | ].
L l=1

(6.23)

(6.24)

Continuaci
on Ejemplo 6.2. Usando las definiciones y (6.15) y (6.16)
obtenemos:
N
EM2 [B12
(xl ) | ] =

exp

[0 xl e0 xl ]f (xl | )dxl =

N
EM2 [log B12
(xl )

0
,
( + 0 )2

y
(6.25)

0
0
| =
exp (1)
,

(6.26)

donde (.) es la funcion digamma (ver apendice).3


Como el valor del vector de parametros es desconocido, entonces
B depende de . Una manera natural de aproximar el IBF esperado es
sustituir a por su estimador de maxima verosimilitud. Formalmente,
para el IBF aritmetico y geometrico respectivamente, se tiene:
E

EAI
N
N
b
Bb21
= B21
EM2 [B12
(X (l)) | ],

(6.27)

159

6.4. PREVIAS INTRNSECAS

b .
b EGI = B N exp E [log B N (X (l)) | ]
B
M2
21
21
12

(6.28)

Continuaci
on Ejemplo 6.2. El estimador b de maxima verosimilitud
b
de es = 1/x. Sustituyendo en las formulas anteriores obtenemos,
b EAI =
B
21

b EGI =
B
21

Pn

(n) 0 e0 nx
,
nn xn1 (x0 + 1)2

(n)

i=1

xi

Pn

i=1

xi )n

(6.29)

0 x exp {(1) 0 x} .3

(6.30)

Las correspondientes formulas para el ejemplo 6.1, considerando


al modelo Lognormal mas complejo que el modelo Exponencial, son
factibles de hacer, pero mas complicadas, ver Berger y Pericchi (1.996).

6.4

Previas Intrnsecas

Todava no hemos respondido la pregunta fundamental: El IBF obedece al Principio enunciado en la seccion 6.1?. Es decir, existe y puede
calcularse una distribucion a priori (propia) que de resultados cercanos
y asintoticamente equivalentes al IBF?. Afortunadamente la respuesta
es afirmativa para condiciones bastantes generales, y mas a
un puede
construirse una tal distribucion, que llamaremos Previa Intrnseca.
Por simplicidad supongamos la situacion del ejemplo 6.2, en el que
tenemos una hipotesis nula simple, H0 : = 0 . Supongamos as
mismo una (), bajo H2 : 6= 0 , desconocida. Sea N () la previa
impropia y automatica bajo H1 . En lo que sigue obtendremos aquella
() que es equivalente asintoticamente al IBF. Hagamos la siguiente
expansion asintotica:

N
B21

f (x | )()d
=
f (x | )

N
f (x | ) ()
N () ()d

f (x | )

N
b
B21
()
,
b
f (x | 0 ) N ()
(6.31)

160

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

donde b es el estimador de maxima verosimilitud, que se supone que


existe y es u
nico.
Entonces para que () produzca valores similares al IBF, se tiene
de (6.12) y (6.13) respectivamente para el IBF aritmetico y geometrico,
L
b
()
1X
L
N
N

B12
(x(l)) EM2 [B12
(x(l) | ]
b
L l=1
N ()

N
b
()
1X
L
N
N

log B12
(x(l)) EM2 [log B12
(x(l)) | ].
b
N
L
()
l=1

(6.32)

(6.33)

Por otra parte como suponemos que b , de (6.32) y (6.33) se


tienen las siguientes ecuaciones que deben obedecer las previas intrnsecas
aritmetica y geometrica respectivamente:
AI () = N ()EM2 [B12 (x(l)) | ],

GI () = N () exp {EM2 [log B12 (x(l)) | ]} .

(6.34)
(6.35)

Continuaci
on Ejemplo 6.2. De la ecuacion (6.34) obtenemos,
AI () =

0
.
(0 + )2

(6.36)

La previa intrnseca Aritmetica es atractiva en varios sentidos. Primero, es propia pues integra 1. En segundo lugar, su mediana es 0 ,
el punto distinguido por la hipotesis nula. Por u
ltimo es una medida
bastante plana, y con una cola pesada. En la Figura 6.1 se muestra esta
previa para 0 = 5. All se ve diferente de la medida original N () =
1/. De hecho, puede argumentarse que (6.36) es la previa apropiada,
dada la informacion de que la hipotesis nula H0 : = 0 esta siendo
seriamente considerada. Una vez obtenida la previa intrnseca puede
ser usada como previa propia y obtener (analtica o numericamente) el
IBF propio. Alternativamente, se pueden realizar aproximaciones ,
que para este ejemplo resultan,

161

6.4. PREVIAS INTRNSECAS

AI
B21

f (x | ) AI ()d
0
N
B21
.
b 2
f (x | 0
(0 + )

El camino anterior puede seguirse para obtener la previa intrnseca


geometrica, que resulta ser:
(

0
0
() = 2 exp (1)
.

GI

(6.37)

Integrando (6.37), resulta exp{(1)} = 0.561, o sea que es integrable pero no propia y por ello el IBF geometrico debe ser renormalizado dividiendo por exp{(1)} para ser consistente con el principio. En la Figura 6.1, tambien se muestra (6.37) luego de ser normalizada al dividirse por 0.561. Excepto en la vecindad de = 0, las
previas intrnsecas artimetica y geometrica son muy parecidas.3

()

1
0.8

No
informativa

c=1

0.6

previa
intrnseca
0.4 arit. IBF

previa intrnseca
geom. IBF
>

0.2
0

10

Figura 6.1. Previas no informativa, Intrnseca


geometrica y aritmetica (Ejemplo 6.2).

162

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

En el ejemplo anterior encontramos que N () era una previa propia.


El siguiente teorema muestra que esto no es casual.
Teorema 6.1 Sea H1 : = 0 vs. H2 : 6= 0 , y supongamos que
estan dadas las condiciones del Teorema de Fubini. Entonces, AI ()
es propia.
Integrando AI () obtenemos:

Prueba.
Z
Z

AI

()d =

()

f (x(l) | 0 )
f (x(l) | )dx(l)d =
mN
2 (x(l))



Z
f (x(l) | 0 ) Z N
()f (x(l) | )d dx(l) = f (x(l) | 0 )dx(l) = 1.2
mN
2 (x(l))

El Teorema 6.1 establece que el IBF aritmetico es un metodo que


a
un siendo automatico, es inmediatamente consistente con el Principio Bayesiano al comparar una hipotesis Nula simple con su complemento. De esta manera se resuelve satisfactoriamente el problema para
test de hipotesis simple planteado en este captulo.
Cuando la hipotesis nula es compuesta, la situacion es algo mas
complicada, pero el resultado es esencialmente el mismo.
Sea 2 = (1 , ) y hacemos el test de hipotesis
M1 : = 0

M2 : 6= 0 ,

vs

es decir la hipotesis nula M1 es compuesta ya que H0 deja a 1 libre.


Hacemos los siguientes supuestos, que se cumplen con gran generalidad.
Por simplicidad supongamos datos intercambiables y ademas:
M1
1. b2 =
2 = (1 , 0 ).

N
2. Existe, B2 (2 ) = EM2 2 B12
(x(l)) = limI I1

PI

k=1

N
B12
(x(k)).

6.5.

163

EL IBF PARA EL MODELO LINEAL NORMAL

Bajo estos supuestos se obtiene que una previa intrnseca es (ver


Berger y Pericchi (1.996)),
I (1 ) = 1N (1 )

2I (2 ) = 2I (2 )B2 (2 ).

(6.38)

Teorema 6.2 Supongamos, en (6.38), que 1N (1 ) es propia. Entonces


2I (2 ) tambien es propia.
Prueba.
Z

De (6.38) se obtiene:

2I (2 )d2

2N (2 )

(Z

mN
1 (x(l))
f (x(l) | 2 )dx(l) d2 ,
mN
2 (x(l))

aplicando Fubini en la u
ltima integral resulta,
Z

mN
1 (x(l))
mN
(
x
(l))
dx(l)
2
mN
2 (x(l))

mN
1 (x(l))dx(l) = 1,

ya que si 1N es propia tambien lo es mN


1 .2

6.5

El IBF para el Modelo Lineal Normal

En esta seccion trataremos de manera muy suscinta el IBF para el Modelo Lineal Normal. Un tratamiento mas completo aparece en Berger y
Pericchi (1.996,a,b).
Suponga que el modelo Mj , para j = 1, . . . , q, para los datos Y
(n 1), es el Modelo Lineal,
Mj : Y = Xj j + j ,

j Nn (0, j2 In ),

(6.39)

donde j2 y j = (j1 , . . . , jkj )t son desconocidos, y Xj es una matriz


de dise
no n kj dada de rango kj < n.
Las previas usuales no subjetivas son:
jN ( j , j )

1
.
j

164

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

Es facil probar que una muestra de entrenamiento minimal X (l),


con matriz de dise
no correspondiente Xj (l) (bajo Mj ), es una muestra
de tama
no m = max{kj } + 1, tal que Xjt (l)Xj (l) es no singular para
todo j.
Una definicion general del IBF para comparar los modelos Mj vs
Mi es:
I
Bji

N
Bji

Ave[BijN (x(l))]

"

mN (x)
mN
i (x(l))
= jN
,
Ave
m2 (x)
mN
j (x(l))

(6.40)

donde Ave denota los averages artimetico y geometrico correspondientes al IBF aritmetico y geometrico. (El IBF mediano es tambien
interesante debido a su robustes.)
Para el Modelo Lineal (6.39), el IBF es relativamente sencillo. Anal
ticamente se obtiene el siguiente resultado:
N
Bji
= (kj ki )/2

((n kj )/2) |xti xi |1/2 Ri(nki )/2


((n ki )/2) |xtj xj |1/2 Rj(nkj )/2

(6.41)

y BijN (x(l)) esta dado por el inverso de la expresion (6.41), reemplazando


n, Xi , Xj , Ri y Rj por m, Xi (l), Xj (l), Ri (l) y Rj (l) respectivamente.
En (6.41) Rj y Rj (l) son la suma de cuadrados residuales bajo Mj ,
para la muestra completa y la muestra de entrenamiento respectivamente. Para calcular el IBF, se sustituye la ecuacion (6.41) en (6.40),
que automaticamente clasifica los modelos tomando en cuenta la bondad de ajuste de cada modelo y envuelve una penalizacion en contra
del modelo con mayor n
umero de parametros. Por ejemplo, el AIBF
es:

AI
Bji

(nk )/2
L
|xtj (l)xj (l)|1/2 (Rj (l))1/2
|xti xi |1/2 Ri i
CX
= t 1/2 . (nkj )/2 .
.
,
|xj xj |
L l=1 |xti (l)xi (l)|1/2 (Ri (l)(p+1)/2
Rj

donde p = kj ki y C =

 nk 

nki
2

( p+1
2 )

( 12 )

(6.42)

El procedimiento propuesto es elegir Mj como el modelo con mayor


n
umero de parametros (el modelo abarcante) y calcular su IBF en

6.5.

165

EL IBF PARA EL MODELO LINEAL NORMAL

contra de los otros modelos. Para mas detalle ver Berger y Pericchi
(1.996,a,b,c). En estos trabajos se obtienen las previas intrnsecas y se
demuestra que los correspondientes al AIBF son previas propias razonables.
Ejemplo 6.4. (Comparaci
on de Modelos de Regresi
on) Datos
tomados de Halds, p.82. Se desea estudiar el calor desprendido por un
cierto tipo de cemento al endurecerse, en funcion de su composicion.
Las variables de interes en el estudio son:
Y : Calor desprendido (cal/gr).
X1 : Porcentaje de aluminio de calcio (3CaO.Al2 O3 ).
X2 : Porcentaje de silicato tetracalcico (3CaO.SiO2).
X3 : Porcentaje de ferrita alumnica tetracalcica (4CaO.Al2 O3 .F e2 O3 ).
X4 : porcentaje de silicato dicalcico (2CaO.SiO2).
Al realizar un experimento se obtienen los siguientes datos:
X1 X2 X3 X4
7 26
6 60
1 29 15 52
11 56
8 20
11 31
8 47
7 52
6 33
11 55
9 22
3 71 17
6
1 31 22 44
21 47
4 26
2 54 18 22
1 40 23 34
11 66
9 12
10 68
8 12

Y
78
74
104
87
95
109
102
72
115
93
83
113
109

Denotamos a los cuatro potenciales regresores por 1,2,3,4, y el


termino constante (incluido en todos los modelos) por c. Este conjunto de datos es muy difcil de analizar debido al reducido n
umero de
datos (n=13) y a que la matriz de dise
no es casi singular. El modelo
abarcante es el definido por 1,2,3,4,c, y comparemos por medio del
AIBF, a los submodelos con el abarcante, colocando a este u
ltimo en el

166

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

numerador del AIBF. Los resultados se muestran en la siguiente tabla:


Modelo
AIBF p-valor
1,2,3,c
0.29 0.8400
1,2,4,c
0.26 0.8960
1,3,4,c
0.31 0.5010
2,3,4,c
1.20 0.0710
1,2,c
0.18 0.4700
1,3,c 8242.30 0.0000
1,4,c
0.46 0.1680
2,3,c
216.40 0.0002
2,4,c 2774.40 0.0000
3,4,c
13.10 0.0055
1,c 4158.80 0.0000
2,c 1909.80 0.0000
3,c 22842.10 0.0000
4,c
851.30 0.0000
c 19721.50 0.0000
Basados en el AIBF, el mejor modelo es el {1, 2c}, seguido por el
{1, 2, 4, c}; {1, 2, 3, c}
{1, 3, 4, c} y {1, 4, c}. Note que el ordenamiento dado por el p-valor no
es el mismo. De acuerdo al p-valor el mejor modelo es el {1, 2, 4, c}, el
cual no es parsimonico, respecto del {1, 2c}. Es interesante notar que
el metodo de inclusion progresiva de regresores, tambien selecciona
al {1, 2, c} como el mejor modelo.3
En el ejemplo anterior se ilustran las enormes ventajas del enfoque
Bayesiano para la comparacion de modelos y la prediccion:
1. Es un enfoque parsimonico, que penaliza a los modelos con muchos parametros.
2. Es un enfoque que permite calcular las probabilidades a posteriori
de los modelos, aplicando la ecuacion (6.5), la cual puede ser
generalizada para considerar mas de dos modelos.
3. El planteamiento frecuentista de test de hipotesis obliga a seleccionar un modelo de entre todos los sub-modelos. Sin embargo,

6.5.

EL IBF PARA EL MODELO LINEAL NORMAL

167

en este ejemplo, si bien el modelo {1, 2, c} es el mejor, hay otros


4 modelos que tienen un Factor de Bayes no despreciable. El
enfoque Bayesiano permite mantener a varios modelos como razonables. Por ejemplo, al predecir una futura observacion Yf ,
tenemos:
E(Yf | y) =

J
X

j=1

E(Yf | y, Mj )p(Mj | y),

donde J en este ejemplo debera ser por lo menos 5.

(6.43)

168

DE MODELOS Y TEST DE HIPOTESIS

CAPTULO 6. SELECCION
BAYESIANOS

Ap
endice A
Distribuciones de
probabilidades
En este apendice se presentan algunas de las densidades de probabilidad
mas comunes en estadstica que son usadas en los ejemplos y ejercicios
de este libro. Aqu se daran unicamente el nombre de la densidad, la
notacion usada, el espacio muestral X, el rango de los parametros de
la densidad y algunas propiedades u
tiles de la misma.
Antes que nada, la notacion utilizada sera:
det(B) = determinante de la matriz B.
(a) = funcion Gamma usual definida por (a) =

xa1 ex dx.

Note que (x+1) = x(x), en el caso de nmeros

naturales (n) =
n!

1A (x) = funcion indicatriz del conjunto A, definida como


1A (x) =

1 si x A
0 si x 6 A

DISTRIBUCIONES CONTINUAS.
1. Normal univariada (N(, 2 )): X = R, < < , 2 > 0
con:
(
)
1
1 (x )
2
f (x | , ) =
exp
,
2 2
2
169

170

APENDICE
A. DISTRIBUCIONES DE PROBABILIDADES

donde es la media y 2 es la varianza.


2. Normal p-variada (Np (, S)): X = R p , = (1 , . . . , p )t R p ,
siendo S una matriz (p p) positiva definida y con:
f (x | , S) =

1
1
exp (x )t S 1 (x ) ,
p/2
1/2
(2) (det(S))
2

donde es el vector de medias y S es la matriz de varianzacovarianzas.


3. Uniforme (U(a, b): X = (a, b), < a < , a < b < , con:
f (x | a, b) =
la media es 12 (a + b) y varianza

1
1(a,b) (x),
ba
1
(b
12

a)2 .

4. Gamma (G(a, b)): X = (0, ), a > 0, b > 0 y


f (x | a, b) =

1
xa1 ex/b 1(0,) (x)
(a) ba

la media es ab y la varianza ab2 .


Casos especiales:
(a) Exponencial (Exp(b)): corresponde a la densidad G(1, b).
(b) Chi-cuadrado con n grados de libertad (2 (n)): corresponde a la densidad G(n/2, 2).
5. Beta (Beta(a, b)): X = [0, 1], a > 0, b > 0 con:
f (x | a, b) =
la media

a
,
a+b

(a + b) a1
x (1 x)b1 1[0,1] (x),
(a)(b)

la varianza

ab
.
(a+b)2 (a+b+1)

171
6. Cauchy (Cauchy(a, b)): X = R, < a < , b > 0, con:
f (x | a, b) =

b
,
[b2 + (x a)2 ]

Esta distribucion no tiene ni media ni varianza finita, mas a


un
no tiene ning
un momento finito.
7. Distribuci
on F con a y b grados de libertad (Fa,b ): X = (0, ),
a > 0, b > 0 y
f (x | a, b) =
la media

b
b2

[(a + b)/2]aa bb
x(a2)/2
1(0,) (x),
(a/2)(b/2) (b + ax)(a+b)/2

si b > 2, la varianza

2b2 (a+b2)
a(b4)(b2)2

si b > 4.

8. Distribuci
on t con a grados de libertad, parametro de localizacion y parametro de escala 2 , (T (a, , 2)): X = R, a >
0, < < , 2 > 0, con:
"

[(a + b)/2]
(x )2
f (x | a, , ) =
1+
a(a/2)
a 2
2

la media es , si a > 0, la varianza es


Nota :

(X)2
2

Caso especial:

a2
(a2)

# 1 (a+1)
2

si a > 2.

F (1, a).

(a) Cauchy(, 2) = t(1, , 2 ).


9. Distribuci
on t p-variada con a grados de libertad, con vector
de localizacion y matriz de escala S (T (a, , S)): X = R p ,
a > 0, R p , S es una matriz (p p) positiva definida y


 1 (a+p)

[(a + p)/2]
1
f (x | a, , S ) =
1 + (x )t S 1 (x )
1/2
p/2
(det(S)) (a) (a/2)
a
2

la media y la varianza

aS
,
a2

si a > 2.

172

APENDICE
A. DISTRIBUCIONES DE PROBABILIDADES

10. Gamma Inversa (IG(a, b)): X = (0, ), a > 0, b > 0, con


f (x | a, b) =
la media

1
b(a1)

1
e1/xb 1(0,) (x),
(a)ba xa+1

si a > 1, la varianza

1
b2 (a1)2 (a2)

si a > 2.

DISTRIBUCIONES DISCRETAS.
11. Binomial (B(n, p)): X = {0, 1, 2, . . . , n}, 0 p 1, n =
1, 2, . . ., y
!
n
f (x | n, p) =
px (1 p)nx ,
x
la media np y la varianza np(1 p).
12. Poisson (P ()): X = {0, 1, 2, . . . , }, > 0,
f (x | ) = e

x
,
x!

media=varianza=.
13. Binomial Negativa (BN(a, p)): X = {0, 1, 2, . . . , }; 0 < p 1,
a>0y
(a + x)
pa (1 p)x ,
f (x | a, p) =
(x + 1)(a)
la media

a(1p)
p

y la varianza

a(1p)
.
p2

Caso especial:
(a) Geom
etrica (Ge(p)) que corresponde a la BN(1, p).
14. Multinomial (M(n, p)): x = (x1 , . . . , xk )t , donde

k
X
i=1

xi = n, y

cada xi es un entero entre 0 y n, y el vector p = (p1 , . . . , pk )t es


tal que

k
X
i=1

pi = 1, con 0 pi 1, para todo i, con:


n!
f (x | p) = Qn

n
Y

i=1 xi ! i=1

pxi i

173
la media de Xi es npi , la varianza de Xi es npi (1pi ) y Cov(Xi , Xj ) =
npi pj .

174

APENDICE
A. DISTRIBUCIONES DE PROBABILIDADES

Bibliografa
[1] Berger, J.(1984) The robust Bayesian viewpoint (with discussion).
Robustness in Bayesian Analysis, J. Kadane (ed.). North-Holland,
Amsterdam.
[2] Berger, J.(1985) Statistical Theory and Bayesian Analysis. (2da.
Ed.) Springer Series in Statistics. Springer-Verlag.
[3] Berger, J. y Berliner, L.M. (1984) Bayesian input in Stein esimation and a mew minimax empirical Bayes estimator. J. Econometrics 25, p.87-108.
[4] Berger, J. y Wolpert, R. (1984) The likelihood Principle. Institute
of Mathematical Statistics, Monograph Series, Hayward, California.
[5] Berger, J. y Sellke, T. (1987) Testing a point null hypothesis: The
irreconcilbility of P-values and evidence. J. American Statistical
Association, 82, p.112-122.
[6] Bernardo, J.M. (1980) A Bayesian Analysis of classical hypothesis
testing. Proc. First Int. Meeting Bayesian Statist., J.M. Bernardo,
M.H. DeGroot, D.V. Lindley y A.F.M. Smith (eds) 605-618, Univeristy Press, Valencia, Espa
na.
[7] Blackwell, D. y Girshick, M.A. (1954) Theory of Games and Statistical Decisons. Wiley, New York.
[8] Box, G.E.P. y Cox, D.R. (1964) An analysis of Transformations
(with discussion). J. Royal Statistical Society, Series B 26, p.211252.
175

176

BIBLIOGRAFA

[9] Box, G.E.P. y Tiao, G.C. (1973) Bayesian Inference in Statistical


Analysis. Addison-Wesley, Reading, Massachusetts.
[10] Brown, P. (1984) Notes in Decision Theory. Manuscrito d curso
en el Imperial College, London.
[11] Bronw, P. (1984) Fundamentals of Statistical Exponential Families, with Applications in Statistical Decision Theory. Institute of
Mathematical Statistics. Lectures Notes-Monograph Series.
[12] Cox, D.R. y Reid, N. (1987) Parameter orthogonaity and approximate conditional inference (with discussion). J.R. Statist. Soc. B.
49, p.1-49.
[13] De Finetti, B. (1937). Foresight: Its logical laws, its subjetive
sources. Traducido y reimpreso en Studies in Subjective Probabilities, H.E. Kyburg y H.E. Smokler (eds.). Wiley, New York,
1964.
[14] De Finetti, B. (1961) The Bayesian Approach to the Rejection of
Outliers. Proc. 4th Berkley Symp. of Math. Stat. and Prob. 1, p.
199-210.
[15] De Finetti, B. (1974) Theory of Probability. Wiley, New York.
[16] De Groot, M.H. (1970) Optimal Statistical Decisions. Mc GrawHill, New York.
[17] De Robertis, L. y Hartigan, J.A. (1981) Bayesian Inference using
Intervals of Measures. Ann. Statist. 9, p.235-244.
[18] Diaconis, P. y Ylvisaker, D. (1979) Conjugate priors for Exponential Families. Annals of Statistics 7, p.269-281.
[19] Ferguson, T.S. (1967) Mathematical Statistics: A Decision Theoretic Approach. Academic Press, New York.
[20] Good, I.J. (1950) Probability and the Weighting of Evidence.
Charles Griffin, london.

BIBLIOGRAFA

177

[21] Good, I.J. (1962) Subjective probability as the measure of a non


measurable set. Logic, Methodology and Philosophy of Science:
Proc. of the 1960s International Congress, Stanford Univeristy
Press.
[22] Good, I.J. (1968) Corroboration, explanation, evolving probability,
simplicity and sharpened razor. BJPS, 19, p.123-143.
[23] Good, I.J. y Card, W.I. (1971) The diagnostic process with special
reference to errors. Meth. Inf. Med., 10, p.176-188.
[24] Harrison, P.J. y Stevens, C.F. (1976) Bayesian Forecasting (with
discussion). J.R.Stat.Soc. B, p.205-245.
[25] Heyde, C.C. y Johnstone, I.M. (1979) On asymptotic posterior
normality for stochastic processes. J.R. Sta. Soc. B,41, p. 184-189.
[26] Hinkley, D.V. (1979) Predictive likelihood. Ann. Statist., 7,p.718728.
[27] Huber, P.J. (1973) The use of Choquet Caacities in Statistics. Bull.
Internat. Stat. Inst. 45, Book 4, p. 181-188.
[28] James, W. y Stein, C. (1961) Estimation with quadratic loss. Proc.
Fourth Berkley Symp. Math. Statist. Prob. 1, p.311-319.
[29] Jeffreys, H. (1961) Theory of Probability, (3rd. ed) Oxford University Press, London.
[30] Laplace, P.S. (1812) Theory Analytique des Probabilities. Courcier,
Pars.
[31] Lauritzen, S.L. y Spiegelhalter, D.J. (1988) Local computations
with probabilities on graphical structures and their applications to
expert systems (with discussion). J.R.Stat. Soc. B.
[32] LeCam, L. (1956) On the asymptotic theory of estimation and testing hypotheses. Proc. Third Berkley Symp. Math. Stat. Prob. 1,
University of California Press, Berkley.

178

BIBLIOGRAFA

[33] Lehmann, E.L. (1959) Testing Statistical Hypotheses. Wiley, New


York.
[34] Lehmann, E.L. (1983) Theory of Point Estimation. Wiley, New
York.
[35] Lindley, D.V. y Phillips, L.D. (1976) Inference for a Bernoulli
process (a Bayesian view). Amer. Statist.,30,p. 112-129.
[36] Lindley, D.V. (1957) A statistical paradox. Boimetrika, 44,p. 187192.
[37] Lindley, D.V. (1971) Making Decisions. Wiley-Interscience.
[38] Lindley, D.V. y Smith A.F.M. (1972) Bayes Estimates for the Linear Model (with discussion). J.Royal Stat. Society. Series B, 34, p.
1-41.
[39] Lindley, D.V. (1983) Lectures on Bayesian Statistics. Pub. IME,
Universidade de Sao Paulo, Brasil.
[40] Moreno, E. y Cano, J.A. (1991) Robust Bayesian Analysis with contaminations partially known. J.Royal. Stat. Soc., Series B, 53,1,
p. 143-145.
[41] Moreno, E. y Pericchi, L.R. (1990) Robust Bayesian Analysis
for -contaminations with Shape and Quantile Constraints. Actas III Congreso Latinoamericano en Probabilidades y Estadstica
Matematica, p. 143-158.
[42] Moreno, E. y Pericchi, L.R. (1992) A Hierarchical -contamination
Model. J. Stat. Planning and Inference. (En prensa)
[43] Naylor, J.C. y Smith, A.F.M. (1982) Applications of a method for
the efficient computation of posterior distributions. Appl. Stat.,
31,p. 214-225.
[44] Pearl, J. (1988) Probabilistic Reasoning in Intelligent System: Networks of Plausible Inference. Morgan Kaufmann Publishers.

BIBLIOGRAFA

179

[45] Pereira, C.A.B. y Pericchi, L.R. (1990) Analysis of Diagnosability.


Applied Stat., 39(2),p. 189-204.
[46] Perez, M.E. y Pericchi, L.R. (1987) Analisis de Muestreo en dos
etapas como un Modelo Bayesiano Jerarquico. Rep. Tecnico, Universidad Simon Bolvar, Caracas.
[47] Pericchi, L.R. (1981) A Bayesian Approah to Transformations to
Normality. Biometrika, 68,1,p. 35-43.
[48] Pericchi, L.R. (1984) An alternative to the standard Bayesian
procedure for discrimination between Normal Lineal Models.
Biometrika,71,p. 575-586.
[49] Pericchi, L.R. (1986) Notes in Decision Theory. Manuscrito de
curso en el Imperial College, London.
[50] Pericchi, L.R. (1989) Sobre la inferencia y teora de decision
subjetivista-Bayesiana bajo probabilidades a priori imprecisas.
Acta Cientfica Venezolana, 40,p. 5-18.
[51] Pericchi, L.R. y Nazareth, W.A. (1988) On being imprecise at
the higher levels of a Hierarchical Linear Model (with discussion).
Bayesian Statistics 3,p. 361-375. Bernardo, J.M, DeGroot M.,
Lindley, D. y Smith A.F.M., editores. Oxford University Press.
[52] Pericchi, L.R. y Smith, A.F.M. (1990) Exact and Approximate posterior moments for a Normal Location Likelihood. J. Royal Stat.
Soc. B,54(3),p. 793-804.
[53] Pericchi, L.R. y Walley, P. (1990) One-sided hypotheses testing
with near ignorance priors. Rev. Brasileira de Prob. e Estadstica,
REBRAPE, 4,p. 69-82.
[54] Pericchi, L.R. y Walley, P. (1991) Robust Bayesian credible intervals and prior ignorance. I.S. Review, 59(1),p. 1-23.
[55] Pericchi, L.R. y Smith, A.F.M. (1989) Posterior Moments and
cumulant relationships in the Exponential Family. Tech. Report,
University of Nottingham, England.

180

BIBLIOGRAFA

[56] Ramsey, F.P. (1926) Truth and Probability. Reimpreso en Studies in Subjective Probability, H.E. Kyburg y H.E. Smokler (eds.).
Wiley, New York, 1964.
[57] Rubin, D.B. (1976) Inference and missing data. Biometrika, 63,p.
581-592.
[58] Savage, L.J. (1954) The foundations of Statistics. Wiley, New York.
[59] Sivaganesan, S. y Berger, J.O. (1989) Ranges of posterior Measures
for priors with unimodal contaminations. Ann. Stat., 17,2,p. 868889.
[60] Smith, A.F.M. y Spiegelhalter, D.J. (1980) Bayes factors and
choice criteria for Linear Models. J.R. Stat. Soc. B,44,p. 213-220.
[61] Stein, C. (1956) Inadmissibility of the usual estimator for the mean
of a multivariate distributuion. Proc. Third Berkley Symp. Math.
Stat. Prob., University of California Press, 1,p. 197-206.
[62] Stone, M. (1971) Strong Inconsistency from Uniform Priors (with
comments). J.Amer.Stat.Assoc. 71,p. 114-125.
[63] Tierney, L. y Kadane, J.B. (1986) Accurate approximations for posterior moments and marginal densities. J.Amer.Stat.Assoc., 81,p.
82-86.
[64] Wald, A. (1950) Statistical Decision Functions. Wiley, New York.
[65] Walker, A.M. (1969) On the asymptotic behavior of posterior distributions. J.R.Stat.Soc. B,31,p. 80-88.
[66] Walley, P. (1987) Notes in Decision Theory. Manuscrito de curso
en la Universidad de Cornell, U.S.A.
[67] Walley, P. (1991) Statistical reasoning with imprecise probabilities.
Chapman and Hall.
[68] West, M. y Harrison, J. (1989) Bayesian Forecasting and dynamic
models. Springer Series in Statistics. Springer-Verlag.

Indice
estructural, 125, 127, 129
parametrico, 125, 127
Cromwell,regla de, 47
Cuadratura Gaussiana, 95

Admisibilidad, 45
Algoritmos computacionales, 95
Analisis
automaticos, 118
Bayesiano, 83
no informativo del modelo lineal, 120
secuencial, 100, 102
Anova, 118, 127
Aproximacion Bayesiana, 88
Apuestas, 67, 75
compuestas, 73
Arbol de decision, 6, 8, 28
Axiomas de racionalidad, 68, 72,
73

Decisi
n
no-aleatorias, 14
Decision
optima, 87, 98
optima Bayes, 86
optimas, 21
optimo Bayes, 101
Bayes condicional, 26
condicional, 78
inadmisible, 14
Minimax, 43
predictiva, 98
Densidad
a posteriori, 6
a priori, 5
clase casi ignorante de, 108
condicional, 93
conjugada, 106
clases de, 107
conjunta, 30
marginal, 93
posterior, 122
posterior, 98, 99
predictiva, 5, 96
Dispersion, 33

Bayes
estimador de, 46
factor de, 87
lmite de, 52
regla de, 39
Teorema de, 5
teorema de, 80, 85
Bayes-Laplace
postulado de, 118
Borel, conjunto de, 5
Borel,conjunto de, 103
Cambios de localizacion, 119
Conocimiento
181

182
a priori, 124
inicial, 78
posterior, 124
Distribucion
a priori, 87
clases de, 91
acumulada, 13
Beta, 31, 96
Binomial, 31, 96
de Cauchy, 23
de Murphy, 36, 42
F de Fisher, 121
Gamma, 105
Normal, 30, 89, 117, 127
t-student, 94, 121
Uniforme, 108
Elementos de un problema de decision, 3
Error
cuadratico medio, 18
de tipo I, 83, 85
de tipo II, 83
Errores
no correlacionados, 120
Espacio
de acciones, 3
de estados, 3
de parametros, 83
no acotado, 119
de parametros canonicos, 103
muestral, 4
Esperanza
a posteriori, 31, 104, 122
a priori, 104, 106
matematica, 12
posterior, 101

INDICE

Estadstico suficiente, 29, 93


Estimacion puntual, 17
Estimador
Bayes condicional, 32
de Bayes, 46
de encogimiento, 128
de mnimos cuadrados, 23,
120, 123, 127, 128
de maxima verosimilitud, 23,
99, 120
insesgado, 23
tonto, 21
Estimadores
ridge regression, 129
Formula de cambio de variable,
118
Factor
de Bayes, 87, 91
Familia
conjugada, 108
de experimentos, 3
de medidas a priori, 104
Exponencial, 48
exponencial, 103
exponencial conjugada, 107
Filtro, 124
Funcion
de perdida, 4
de perdida, 66, 75
de riesgo, 83
de utilidad, 4, 66, 72
de verosimilitud, 17, 76
utilidad
metodos de construccion de,
68
Hiperparametros, 93, 106, 125

183

INDICE

Inferencia predictiva, 95
Informacion muestral a priori, 107
Intervalo
de confianza, 120, 121
de credibilidad, 120, 121
Intervalos
de confianza, 78, 92
de credibilidad, 92, 94
de probabilidad, 92
Invarianza
propiedad de, 119
Jeffreys
previas de, 120
regla de, 119, 120
Jensen, desigualdad de, 50
Laplace
aproximacion de, 95, 100
ley de sucesion, 108
ley de sucesion, 97
Metodos aproximados, 95
Matriz
de dise
no, 117
de Fisher, 119
de informacion de fisher, 99
de varianza-covarianza, 100,
117, 127
Maximin, valor, 55
Mediana, 33
Medida
a priori, 105, 122
de Lebesgue, 104
invariante, 119
Medidas
de probabilidad, 103
no informativas, 118

Minimax
decision, 43
estrategia, 53
regla, 35, 41
teorema, 56
valor, 35, 55
Modas, 127
Modelo
de clasificacion, 127
de regresion m
ultiple, 129
lineal, 117, 121, 122
analisis no informativo, 120
jerarquico, 122, 125
Normal, 117
Normal jerarquico, 124, 125
verosimilitud, 120
Muestra
secuencial, 102
tama
no optimo, 100, 102
Neyman, criterio de factorizacion
de, 29
Neyman-Pearson
lema de, 83, 84
teora de, 88
Normalidad asintotica, 98
Ordenamiento
Bayesiano, 24
Minimax, 35
Perdida
cuadratica, 17, 98, 101
esperada, 76
esperada a posteriori, 92
esperada posterior, 79
posterior, 107
posterior esperada, 86

184
Parametro
canonico, 105
de localizacion, 119
Parametros, 95
de localizacion, 22
de molestia, 93, 95
vector de, 96
Paradoja
de Lindley, 89
de San Petersburgo, 67
Peso de la evidencia, 87
Precision, 32
Previa, 5
de Jeffreys, 120
de referencia, 75
no informativa, 124, 127, 129
Normal-Gamma, 93
Previas
no informativas, 118
uniforme, 118
Principio
Bayesiano, 66, 75, 79
de la maximizacion de la utilidad, 25
de la verosimilitud, 76, 77,
120
de minimizacion de la perdida
esperada, 102
del riesgo posterior, 79
Probabilidad
a posteriori, 88
asignacion de, 4
condicional, 5
predictiva, 96
subjetiva, 73
Procedimientos
optimo-Bayes, 24

INDICE

insesgados, 22
invariantes, 22
Promedio poderado, 123
Promedio ponderado, 94
Recompensas, 67, 68, 73, 75
Regla
optima, 21
optima Bayes promedio, 27
optima Bayes-promedio, 24
admisible, 20
aleatoria
degenerada, 19
aleatorias, 19
aleatorizada, 43
Bayes promedio, 45
Bayes promedio optima, 84
de Bayes, 39, 40
de Cromwell, 47, 100
de decision determinada, 13,
19
de Jeffreys, 119, 120
determinada, 27
igualadora, 37
inadmisible, 20
Minimax, 35, 41
regresion simple, 118
Restriccion del conjunto de deciones, 21
Riesgo
Bayesiano, 24, 53, 100, 102
Bayesiano promedio, 84
conjunto de, 20, 40
cuadratico, 78
frecuentista, 14
inicial, 78
posterior, 79

INDICE

promedio, 83
Sesgo, 18
Taylor
formula de, 99
Teora
de imprecision, 74
de Juegos, 35, 52
de utilidad, 65, 72, 75
subjetiva, 65
Teorema
de Bayes, 5, 80, 85
del hiperplano separante, 50
del lmite Central, 98
Minimax, 56
Test
de diagnostico, 127
de hipotesis, 17, 83, 87, 88
clasico, 89
puntual, 88, 91
de significancia de Fisher, 85
Transformacion
a normalidad, 121
de Box y Cox, 121
Utilidad
del dinero, 70, 71
funcion de, 4, 72
Varianza
a priori, 90
Vector
canonico, 103
de errores, 117
de medias, 125
de observaciones, 119
de parametros, 93, 117

185
de pararametros, 103
de regresores, 118, 129
Ventaja
a priori, 87
a priori y post, 87
posterior, 86, 87
Verosimilitud, 5, 80, 88, 96, 123
cociente de, 85, 87
estimador de maxima, 23
exponencial, 105
funcion de, 17
Normal, 93, 97
principio de la, 76, 120

Вам также может понравиться