You are on page 1of 25

CAP

ITULO 7. ESTIMACION
Y CONTRASTES
Para leer
Lee, Captulo 4
Estimaci
on puntual
Para los bayesianos, el problema de estimaci
on
es un problema de decisi
on. Asociada con cada
estimador T hay una p
erdida L(T, ) que reeja
la diferencia entre y T . Por ejemplo:
L(T, ) = (T )2, la p
erdida cuadr
atica
L(T, ) = |T |, la p
erdida lineal absoluta


L(T, ) =

0 si T =
, la p
erdida todo
1 si T =

o nada.
128

Denici
on 9 El estimador Bayes T B es una
soluci
on de
T B = mn E[L(T, )]
T

Ejemplo 48 Dada la p
erdida cuadr
atica, cu
al
es el estimador Bayes?

E[L(T, )] =
=
=




(T )2f () d
(T E[] + E[] )2 f () d
{(T E[])2 + (E[] )2}f () d

= V [] + (T E[])2
y entonces T B = E[] es el estimador Bayes.

129

Ejemplo 49 Con la p
erdida lineal absoluta, tenemos


|T |f () d

E[L(T, )] =

 T

(T )f () d +

( T )f () d


T
d
E[L(T |)] = (T T )f (T ) +
f () d
dT

(T T )f (T )

f () d

= F (T ) (1 F (T ))
= 2F (T ) 1
Entonces, recordando que en el mnimo la derivada es igual a cero, tenemos F (T B ) = 1/2 y el
estimador Bayes es la mediana de la distribuci
on de .

130

Ejemplo 50 Suponiendo que es discreta, con


la p
erdida todo o nada se tiene
E[L(T, )] =

P ()

=T

= P ( = T )
y se minimiza la p
erdida esperada eligiendo el
estimador Bayes T B como la moda de la distribuci
on de .
Observaci
on 21 Esta p
erdida no se puede utilizar con variables continuas porque P ( = T ) =
0 si es continua y entonces, la p
erdida esperada ser
a 1 para cualquier elecci
on de T .

131

Intervalos
Se han visto intervalos de credibilidad anteriormente. Sigue la denici
on formal.
Denici
on 10 Si f (|x) es una densidad a posteriori, se dice que (a, b) es un intervalo de
credibilidad de 100 (1 ) % si
P (a b|x) = 1
Ejemplo 51 X| N (, 1). Supongamos que
x, 1/n) y algunos
f () 1, entonces, |x N (
intervalos de credibilidad de 95 % son

(, x
+ 1,64/ n) o (
x 1,64/ n, ) o

(
x 1,96/ n)
Hay muchos intervalos de credibilidad. El m
as
corto se llama un intervalo de m
axima densidad a posteriori (MDP)
132

Denici
on 11 El intervalo MDP de 100 (1
) % es el intervalo de forma
C = { : f () c()}
donde c() es la constante m
as grande cumpliendo
P (C) 1
Ejemplo 52 Volviendo al ejemplo 51, el intervalo MDP de 95 % es

x
1,96/ n
Se puede aplicar la denici
on de un intervalo de credibilidad a densidades multivariantes
f ( |x). En estas situaciones, se puede denir
una regi
on de credibilidad C:
P ( C|x) = 1 .
133

Contrastes
H0 : 0
, donde
H1 : 1
0 1 = y 0 1 = .

Consideramos las hip


otesis

Te
oricamente es f
acil distinguir entre las dos
hip
otesis; dados los datos, s
olo se deben usar
las probabilidades a posteriori. Dada una funci
on de p
erdida, se elige aceptar o rechazar H0.
Ejemplo 53 Dada la p
erdida todo o nada,


L(H0, ) =

0 si H0 es verdadero
1 si H1 es verdadero

elegimos H0 si P (H0 |x) > P (H1 |x).

134

Ejemplo 54 Supongamos que X| N (, 1).


Queremos hacer el contraste: H0 : 0 frente
H1 : > 0. Si usamos una distribuci
on inicial
no informativa para ,

tenemos |x N

f () 1,


1
x
, n . Entonces,

P (H0 |x) = P (
0|x)



= P
n( x
) n
x| x
 
= n
x
donde () es la funci
on de distribuci
on normal.
Observaci
on 22 Esta probabilidad es igual al
p valor cl
asico para el contraste H0c : = 0
frente H1 : > 0.



x
n
P (X
|H0) = P
nX
x|H0
 
= 1
n
x
 
= n
x
135

La paradoja de Lindley/Jereys
Consideramos el contraste H0 : = 0 frente
la alternativa H1 : = 0. En situaciones as,
los resultados bayesianos pueden ser muy diferentes de los resultados cl
asicos.
Ejemplo 55 X| N (, 1). Hacemos el contraste H0 : = 0 frente H1 : = 0.
Se denen las probabilidades a priori
f0 = P (H0 ) = 0,5 = P (H1) = f1
y se supone que |H1 N (0, 1).
Suponiendo que se observa la media de una
muestra de tama
no n, se quiere calcular las
probabilidades a posteriori.

136

En primer lugar
x)
0 = P (H0 |
f0f (
x| = 0)


1 n

2 2
=

K
2

1
2

n
2

n
x2

exp

1
2

exp

n
x2

para una constante K = f (


x). Tambi
en
x|, H1)f (|H1)
f (, H1|x) f1f (


1 n
2 2


K
=
2

1
2

1
2

exp


1
2

exp

1 

n
2

n(
x )2

1
2

1
2

2
2
x ) +
exp n(
2
donde K es la misma constante.

137

Entonces, se tiene

1 = P (H1 |x)


=


=
K
=
2


K
2

f (, H1|x) d
K
2


n
2

1 

1 

n
2

exp


n
2

1
2

1
2

1
2

1
2

1
2

2
2
exp n(
x ) +
2


n
x 2

1
(n + 1)
2
n+1


n
x2

exp
n+1
2(n + 1)

n
x2
n+1

Recordando que 0 + 1 = 1, se tiene

  1



1
1
n
x2
1  n 2
n
x2
1 n 2
1

K=
exp
+
.
exp
2 2
2
2 2
2(n + 1)
n+1

138

Entonces


0 =

1
2

 n 1
2

1

1 n 2
n
x2
exp

2 2
2
 nx2  1  n  1 1
exp 2 + 2 2 2 n+1

 x2 
exp n
2


exp

n
x2
2(n+1)



 nx2 
2
1
n
x
exp 2 + n+1 exp 2(n+1)


n(n+1)
x2
exp 2(n+1)




=
2
n(n+1)
x2
1
n
x
exp 2(n+1) + n+1 exp 2(n+1)


1
1
n2 x
2
=
1+
exp
2(n + 1)
n+1
=

Consideramos el caso x
= 2/ n > 1,96/ n.
Sabemos que si hubi
eramos hecho un contraste
cl
asico con un nivel de signicaci
on de 95 %, el
resultado habra sido signicativo, y habramos
rechazado la hip
otesis H0.


n
1
Pero 0 =
exp
1+
n+1
n+1
1 cuando n .

1

139

Una muestra que nos llega a rechazar H0 con


un contraste cl
asico nos proporciona una probabilidad a posteriori de H0 que se acerca a 1
cuando el tama
no de la muestra es grande.
Esta paradoja se llama la paradoja de Lindley
y Jereys.
Observaci
on 23 La elecci
on de la varianza de
en la distribuci
on inicial es bastante importante pero el ejemplo demuestra que no tiene
sentido usar niveles jos de signicaci
on seg
un
crece n.
Hip
otesis nulos puntuales son poco razonables.

140

Factores Bayes
Tambi
en es u
til introducir otro concepto.
Supongamos que f0 = P (H0 ) y f1 = P (H1 ) y
que 0 = P (H0|x) y 1 = P (H1 |x).
Denici
on 12 Se dene
0/1
f
= 0 1
f0/f1
1f0
el factor Bayes a favor de H0.
B=

Observaci
on 24 El factor Bayes representa las
posibilidades (odds) a posteriori divididos por
las posibilidades a priori. Nos informe de los
cambios en nuestras creencias causados por los
datos.
Observaci
on 25 Es casi objetiva y parcialmente
elimina la inuencia de la distribuci
on a priori.
141

Ejemplo 56 Supongamos el contraste simple


H0 : = 0 frente H1 : = 1. Tenemos
0
1

f0l(0|x)
= P (H0 |x) =
f0l(0|x) + f1l(1|x)
f1l(1|x)
= P (H1 |x) =
f0l(0|x) + f1l(1|x)

Entonces el factor Bayes es


0 f1
B =
1 f0
f0l(x|0) f1
=
f1l(x|1) f0
l(0|x)
=
l(1|x)
que coincide con la raz
on de verosimilutudes.
Entonces, la distribuci
on a priori no inuye en
el factor Bayes.

142

Ejemplo 57 Se observa un dato de una distribuci


on exponencial con densidad
f (x|) = ex.
Se quiere contrastar H0 : = 6 frente H1 : =
3. Cu
al es el factor Bayes?

l( = 6|x)
l( = 3|x)
6e6x
=
3e3x
= 2e3x

B =

Suponiendo que la probabilidad a priori de H0


es 0,25, se puede demostrar que P (H0|x) < 0,5
para cualquier valor de x.
En primer lugar, hallamos el factor Bayes.
143

P (H0|x) P (H1 )
B =
P (H1|x) P (H0 )
P (H0 |x)
= 3
P (H1 |x)
2 3x
P (H0|x)
=
e
P (H1|x)
3
3x > 1 y entonces
y P (H0|x) 1/2 2
3e

1
3
x < log < 0
3
2
que es imposible.
Observaci
on 26 El factor Bayes es consistente.
Si H0 es verdadero, entonces B cuando
n y si H1 es verdadero, B 0 cuando
n .

144

El factor Bayes no elimina totalmente la inuencia de la distribuci


on a priori. Supongamos
que H0 y H1 son compuestos y entonces
P (H0|x) P (H1 )
B =
P (H1|x) P (H0 )
f (x|H0)
=
f (x|H1)

f (x|H0 , 0)f (0|H0) d0
= 
f (x|H1 , 1)f (1|H1) d1
donde f (0|H0) es la distribuci
on a priori bajo
la hip
otesis H0 y f (1 |H1) es la distribuci
on a
priori bajo H1.

145

Ejemplo 58 Supongamos que X| E() como en el Ejemplo 57. Ahora se quiere contrastar H0 : = 6 frente a H1 : = 6. Sea la
distribuci
on a priori |H1 E(1/6).
Suponiendo que se observa un dato x como
anteriormente, se tiene
f (x|H0) = 6e6x
y

f (x|H1) =
=

f (x|H1, )f (|H1 ) d

1 1
x
e 6 d
e
6



1
1
x+ 6

e
d
6



1
1
21 x+ 6
=

e
d
6
1 (2)
=


6 x+1 2
=

6
(6x + 1)2
146

Entonces el factor Bayes es


B = (6x + 1)2e6x.

Supongamos ahora que las probabilidades a


ales
priori son P (H0 ) = P (H1 ) = 0,5. Para cu
valores de x es m
as probable H0 a posteriori?
La probabilidad a posteriori de H0 es mayor
que 0,5 si B > 1. Construimos un gr
aco del
valor de B frente a x.

147

1.4
1.0
0.2

0.6

0.0

0.2

0.4

0.6

0.8

1.0

El modelo H0 es m
as probable a posteriori si
x < 0,4188 a 4 plazas decimales.
Cu
al es el m
aximo valor posible de P (H0 |x)?
148

La probabilidad de H0 es m
axima cuando el
factor Bayes es lo m
as grande posible. Calculamos el m
aximo del factor Bayes como funci
on de x.

B = (6x + 1)2e6x
log B = 2 log(6x + 1) 6x
d
2
log B =
6
dx
6x + 1
2
0 =
6
6
x+1
36
x = 8
2
x
=
9
y en este caso, el valor de B es


2
2
6 2

9 = 1,43514
B = 6 +1 e
9

149

Recordamos que

x) P (H1 )
P (H0|
P (H1|
x) P (H0 )
x)
P (H0|
1,43514 =
1 P (H0|
x)
1,43514
P (H0|x) =
1 + 1,43514
0,5893
=
B

es el m
aximo valor posible de la probabilidad a
posteriori.

150

Problemas y Generalizaciones
Si usamos distribuciones a priori impropias para
los par
ametros, puede que el factor Bayes no
exista.
Volviendo a la situaci
on de la transparencia ,
supongamos que f (0|H0) y f (1|H1) son impropias, por ejemplo
f (i |Hi) = cigi(i)
para algunas constantes ci indenidas.
Luego


f (x|H0 , 0)f (0|H0) d0


B = 
f (x|H1 , 1)f (1|H1) d1

c f (x|H0, 0)g0(0) d0
= 1
c2 f (x|H1, 1)g1(1) d1
que depende de la raz
on de las constantes indenidas.
151

Hay algunas alternativas

factores Bayes fraccionales (OHagan, A.


Bayesian Inference, Edward Arnold, 1995)

factores Bayes intrnsicos (Berger J. y Perrichi L. The Intrinsic Bayes Factor for linear models. En Bayesian Statistics V, eds
Bernardo et al, O.U.P., 23 42.)

Los dos m
etodos utilizan partes de los datos
para crear una distribuci
on inicial propia.

152