Inferência Bayesiana - UFRJ PDF

Introdução a Inferência Bayesiana
Helio S. Migon
IM and COPPE - UFRJ
migon@im.ufrj.br
2006
Conteúdo
1. Conceitos Básicos da Inferência

2. Distribuição a Priori
3. Sumariazação
4. Inferência Preditiva
1
1 - CONCEITOS BÁSICOS DA INFERÊNCIA
1.1. Introdução
Informação
Objetivo é sempre máximar a informação para reduzir incerteza
Toda a informação de que dispomos é útil e deve ser aproveitada
Duas visões da Estatı́stica: Bayesiano e clássico
2
Exemplo: Considere os seguintes experimentos
i) Um músico especialista em música clássica: escolhidos ao acaso 10

trechos de partituras desses autores, o músico acerta o autor dos
10;
ii) Um bêbado: Feitos 10 lançamentos da moeda o bêbado acerta os

10 resultados;
iii) Uma velhinha inglesa apreciadora de chá: De 10 xı́caras enchidas

com leite e chá sem nenhuma ordem especı́fica, ela acerta os 10
resultados.
A informação obtida nos 3 experimentos é a mesma
Acreditamos mais na afirmação do músico que a da velhinha

e, certamente, mais que a do bêbado
3
O conceito de probabilidade Subjetiva
• A probabilidade de um evento A mede do grau de confiança em

A
Seja o evento A = ‘está chovendo em Moscou ’
i) Uma pessoa do Rio que não conhece nada sobre o clima de Moscou
poderia ter
P (A | H1 ) = 0, 5
ii) Uma pessoa em Leningrado poderı́amos ter:


0, 8, se chove em Leningrado

P (A | H2 ) =

0, 2, caso contrário
iii) Já para uma pessoa em Moscou:


1, se chove

P (A | H3 ) =

0, caso contrário
4
Construção subjetiva de probabilidade
Perdas quadráticas (de Finetti, 1975)
• A probabilidade p que atribuo
a A é obtida através da minimização da perda quadrática


(p − 1)2 , se E = 1

2
(p − E) =
p2 ,

se E = 0
É possı́vel obter as propriedades básicas de probabilidade.
i) p ∈ [ 0, 1 ]
ii) P (Ē) = 1 − P (E) As perdas possı́veis associadas às especificações

de P (E) = p e P (Ē) = q são:
E=1: (p − 1)2 + q 2
E=0: p2 + (q − 1)2
5
2 2
Figure 1: As perdas são dadas por AC quando E = 1 e BC quando E = 0
iii) P (E ∩ F ) = P (E | F )P (F ) Defina-se P (E | F ) como a probabil-

idade de E se F=1. Chamando essa probabilidade de p, P (F ) de
q e P (E ∩ F ) de r, temos como perda total dessas especificações
(p − E)2 F + (q − F )2 + (r − EF )2 com valores:
E=F=1 : (p − 1)2 + (q − 1)2 + (r − 1)2
E=0, F=1 : p2 + (q − 1)2 + r2
F=0 : q 2 + r2
6
1.2 - Elementos de Inferência
Teorema de Bayes
Quantidade de interesse desconhecida θ com valores em Θ

Informação inicial sumarizada por p(θ | H), onde H história
Dados: observação de uma quantidade aleatória X relacionada com θ
A distribuição amostral de X dada por p(X | θ, H)
7
A questão é como passar de p(θ | H) para p(θ | x, H)
p(θ, x | H) p(x | θ, H) p(θ | H)

p(θ | x, H) = =
p(x | H) p(x | H)
onde
Z
p(x | H) = p(x, θ | H) dθ.
Θ
p(θ | x) ∝ p(x | θ) p(θ)
A constante da fórmula será
Z
−1
k = p(x | θ)p(θ) dθ = Eθ [p(x | θ)]
Θ
8
Função de verossimilhança
A função de verossimilhança de θ é
l( · ; x) : Θ → R+
θ → l(θ ; x) = p(x | θ)
R R
i) R p(x | θ) dx = 1 mas Θ l(θ ; x) dθ = k 6= 1, em geral.
ii) A função de verossimilhança conecta a priori à posteriori usando

para isso os dados do experimento.
Exemplo: X ∼ Binomial(2,θ)

2 x
p(x | θ) = l(θ; x) = θ (1 − θ)2−x , x = 0, 1, 2 ; θ ∈ Θ = (0, 1)
x
• Note que:
a) se x=1 então l(θ ; x = 1) = 2θ(1 − θ) e o valor mais provável (ou

verossı́mil) de θ é 1/2.
b) se x=2 então l(θ ; x = 2) = θ2 , valor mais provável é 1.
c) se x=0 então l(θ ; x = 0) = (1 − θ)2 , valor mais provável é 0.
9
• Essas verossimilhanças estão plotadas na figura 2.1.
Figure 2: Função de verossimilhança para diferentes valores de x.
10
Exemplo
• João vai ao médico e este desconfia da doença A. Toma várias

providências: examina João, observa os sintomas e faz exames de
rotina.
Seja θ o indicador da doença A em João

O médico assume que P (θ = 1|H) = 0, 7
Exame de laboratório X do tipo +/- relacionado com θ

P (X = 1 | θ = 0) = 0, 40,

P (X = 1 | θ = 1) = 0, 95,

João faz o teste e o resultado é X=1
P (θ = 1 | X = 1) ∝ l(θ = 1 ; X = 1)P (θ = 1)
∝ (0, 95)(0, 7) = 0, 665
P (θ = 0 | X = 1) ∝ (0, 40)(0, 30) = 0, 120
11
P (θ = 1 | X = 1) = 0, 665/0, 785 = 0, 847 e
P (θ = 0 | X = 1) = 0, 120/0, 785 = 0, 153
Médico pede a João teste Y, também, do tipo +/-

P (Y = 1 | θ = 1) = 0, 99

P (Y = 1 | θ = 0) = 0, 04

Usando a priori p(θ|x)
X
p(y | x) = p(y | θ) p(θ | x)
θ∈Θ
e portanto,
P (Y = 1 | X = 1) = P (Y = 1 | θ = 1)P (θ = 1 | X = 1) +
+P (Y = 1 | θ = 0)P (θ = 0 | X = 1)
= (0, 99)(0, 847) + (0, 04)(0, 153) = 0, 845 e
P (Y = 0 | X = 1) = 1 − P (Y = 1 | X = 1) = 0, 155
João faz o teste Y e observa-se Y=0

Agora
12
P (θ = 1 | X = 1, Y = 0) ∝ l(θ = 1 ; Y = 0)P (θ = 1 | X = 1)
.
∝ (0, 01)(0, 847) = 0, 0085
P (θ = 0 | X = 1, Y = 0) ∝ (0, 96)(0, 155) = 0, 1466
ou
P (θ = 1 | Y = 0, X = 1) = 0, 0085/0, 1551 = 0, 055
P (θ = 0 | Y = 0, X = 1) = 0, 1466/0, 1551 = 0, 945.
Resumindo

0, 7, antes de X e Y






P (θ = 1) = 0, 847, após X e antes de Y




0, 055, após X e Y

13
Distribuição Preditiva
• Queremos prever Y cuja descrição probabilı́stica é P (Y | θ), que

pode independer de X
R R
p(y | x) = Θ p(y, θ | x)dθ = Θ p(y | θ, x)p(θ | x)dθ
R
= Θ p(y | θ)p(θ | x)dθ = Eθ|x [p(y | θ)]
Exemplo (cont.)
• Antes de observar Y , a nossa previsão atribuia muita chance em

Y = 1, mas o observado foi Y = 0. Isto deve levar o médico a
repensar o modelo.
Deve questionar se:
i) 0,7 refletia adequadamente P (θ = 1) ?
ii) O teste X é tão inexpressivo? A distribuição amostral de X é

correta?
iii) O teste Y é tão poderoso?
14
Natureza sequencial do teorema de Bayes
Observa-se X1 com probabilidade P1 (X1 | θ) levando a
p(θ | x1 ) ∝ l1 (θ ; x1 )p(θ)
Observa-se X2 com probabilidade P2 (X2 | θ), X2 ⊥ X1 |θ
p(θ | x2 , x1 ) ∝ l2 (θ ; x2 )p(θ | x1 )
∝ l2 (θ ; x2 )l1 (θ ; x1 )p(θ)
Repetindo-se este processo n vezes
" n
#
Y
p(θ | xn , xn−1 , . . . , x1 ) ∝ li (θ ; xi ) p(θ)
i=1
O teorema de Bayes satisfaz a
p(θ | xn , . . . , x1 ) ∝ ln (θ ; xn )p(θ | x1 , . . . , xn−1 )
15
Tma 1.1: Observação e priori normais
Sejam θ ∼ N (µ, τ 2 ), (X | θ) ∼ N (θ, σ 2 ), com σ 2 conhecido. Então,
a distribuição a posteriori de θ é (θ | X = x) ∼ N (µ1 , τ12 ) onde
τ −2 µ + σ −2 x
µ1 = e τ1−2 = τ −2 + σ −2
τ −2 + σ −2
Note que:
1) A precisão a posteriori é a soma das precisões da priori e da

verossimilhança
2) Seja w = τ −2 /(τ −2 + σ −2 ), w ∈ (0, 1), logo
µ1 = wµ + (1 − w)x
3) Não é fácil usar o teorema de Bayes com prioris não normais.
Mistura de Normais
X X
p(θ) = αi pi (θ), αi > 0, αi = 1
onde pi (θ) são normais.
16
Permutabilidade
Permutabilidade é um conceito mais fraco que o conceito de independência
Definição
Quantidades aleatórias X1 , . . . , Xn do tipo 0-1 são permutáveis se as n!
permutações (Xk1 , . . . , Xkn ) tem a mesma distribuição de probabilidade n-dimensional
Exemplo
• Uma urna com m bolas, r das quais com o número 1 e m-r com o
número 0. Selecionamos uma por vez, sem reposição e denotamos
por Xk o dı́gito da k-ésima bola selecionada. Assim X1 , . . . , Xn
é uma sequência permutável, mas as quantidades aleatórias não
são independentes.
• Tma. 1.2: Para toda sequência infinita de quantidades aleatórias

{Xn , n = 1, 2, . . . } permutáveis com valores em {0, 1} corresponde
uma distribuição F em (0,1) tal que:
Z 1
P (X1 = 1, . . . , Xk = 1, Xk+1 = 0, . . . , Xn = 0) = θk (1−θ)n−k dF (θ) , ∀ n e k ≤ n
0
17
2 - DISTRIBUIÇÕES A PRIORI
• A partir do conhecimento sobre θ pode-se descrever sua densidade

por uma particular forma funcional.
O caso mais importante é o das distribuições conjugadas.

Def.: Seja F = { p(x|θ), θ ∈ Θ} uma famı́lia de distribuições amostrais
A classe Ψ é conjugada a F se
∀ p ∈ F e p(θ) ∈ Ψ então p(θ | x) ∈ Ψ
(i) A classe Ψ pode ser muito ampla.
(ii) A classe Ψ pode ser muito restrita.
Por exemplo: Ψ = {P : P (θ = θ0 ) = 1}
Exemplificando o processo de construção de famı́lias conjugadas
• Considere (Xi |θ) ∼ Ber(θ), θ ∈ (0, 1), i = 1, · · · , n. Logo
n
X
t n−t
p(x | θ) = θ (1 − θ) onde t = xi xi = 0, 1, i = 1, · · · , n
i=1
Do teorema de Bayes
18
p(θ | x) ∝ p(x | θ) p(θ)
∝ θt (1 − θ)n−t p(θ).
Note que p(θ) e p(θ | x) estão relacionadas através da verosssimilhança
• Assim se constroi a conjugada baseado no núcleo da verossimil-

hança que é da forma θa (1 − θ)b .
Considere agora a famı́lia Beta
(i) Se θ ∼ Beta(α, β), então

1
p(θ) = θα−1 (1 − θ)β−1 , 0 < θ < 1 e α, β > 0 e
B(α, β)
1 Γ(α + β)
=
B(α, β) Γ(α)Γ(β)
(ii) A média, moda e variância de θ são dadas, respectivamente, por
α α−1 αβ
, e
α+β α+β−2 (α + β)2 (α + β + 1)
19
Usando priori Beta obtém-se a posteriori
p(θ | x) ∝ θα+t−1 (1 − θ)β+n−t−1
e portanto
(θ | x) ∼ Beta(α + t, β + n − t)
A famı́lia de distribuições Beta é conjugada à Bernoulli (binomial)

A constante de proporcionalidade será 1/B(α + t, β + n − t)
O método de determinação da classe conjugada consiste em :
(i) identificar a classe Ψ de distribuições para θ tal que l(θ; x) é pro-

porcional a um membro de Ψ ;
(ii) verificar se Ψ é fechada por amostragem.
Se existe k tal que k −1 =

R
l(θ; x)dθ < ∞ e todo p ∈ Ψ é definido
através de p(θ) = kl(θ; x), para algum l(θ; x) então Ψ é dita ser famı́lia
conjugada natural ao modelo amostral gerador de l.
20
Principais Famı́lias Conjugadas
(i) Binomial
A famı́lia de distribições Beta é conjugada à Binomial (ou Bernoulli)
(ii) Normal com variância conhecida

A famı́lia de normais é conjugada à Normal - Tma 1.1
(iii) Poisson
Se X = (X1 , . . . , Xn ) Poisson(θ) então:
n n
Y Y e−θ θxi
p(x | θ) = p(xi | θ) =
i=1 i=1
xi !
l(θ | x) ∝ e−nθ θΣxi .
Núcleo tem a forma θa e−bθ caracterizando uma Gama
p(θ) ∝ θα−1 e−βθ , α, β > 0 e θ > 0
A média e variância a priori são

α α
E(θ) = e V (θ) =
β β2
p
V (θ)
CV (θ) =
E(θ)
A densidade a posteriori será
p(θ | x) ∝ θα+Σxi −1 exp{−(β + n) θ}
21
3. SUMARIZAÇÃO
Sabemos que a Inferência Classica é:
Estimação não viciada (mı́nima variância)

Intervalo de Confiança
Testes de Significância
E a Inferência Bayesiana. O que é?
Teoria da decisão
Sumarização
Resumir a informação disponı́vel através de uns poucos números para comunicação
22
Estimação Pontual - Teoria da decisão
Sumarização - Intervalo de Credibilidade
Figure 3: Densidade a posteriori de θ com três regiões distintas: a primeira contendo cerca
de 30 % da probabilidade total, a segunda com 10 % e a terceira com cerca de 60 %. A
moda dessa densidade é 3,5, a média é 5,075 e a mediana 5,27.
23
3.1 Problema de Decisão
i) Espaço do parâmetro ou estados da natureza - Θ
ii) Espaço dos resultados possı́veis de um experimento - Ω
iii) Espaco das ações possı́veis - A
Regra de decisão: δ : Ω → A
Perda: L(δ, θ): Θ × A → R+
Def.: O risco a posteriori é definido por R(δ) = Eθ|x [L(δ, θ)]
Def.: Uma regra de decisão δ ∗ é ótima R(δ ∗ ) < R(δ), ∀δ
24
3.2 Estimação
Estimador é a regra de decisão ótima
O seu valor observado é denominado estimativa
Perda Absoluta

0 , se |θ − δ| < ε

• Lema 1 Seja L1 (δ, θ) = ∀ε > 0. O es-
1 , se |θ − δ| ≥ ε

timador de θ é δ1 = moda(θ), a moda da distribuição atualizada

de θ ou EMVG.
Perda Quadrática
• Lema 2 Seja L2 (δ, θ) = (δ − θ)2 a perda associada à estimação de

θ por δ. O estimador de θ é δ2 = E(θ), a média da distribuição
atualizada de θ.
25
Perda Zero-Um
• Lema 3 Seja agora L3 (δ, θ) = |δ − θ|. O estimador de θ é δ3 =

med(θ), a mediana da distribuição atualizada de θ.
Figure 4: Perdas: quadrática, − − − −; absoluta, · · · · · · ; 0-1 , − − −−.
26
Estimação por intervalos
• Definição C é um intervalo de confiança Bayesiano ou intervalo

de credibilidade de 100(1 − α)% para θ se P (θ ∈ C) ≥ 1 − α.
• Exemplo: Seja X = (X1 , . . . , Xn ) uma amostra da N (θ, σ 2 ) com

σ 2 conhecido.
p(θ) ∝ cte
n n o
2
l(θ; x) ∝ exp − 2 (θ − x)
2σ
Logo
p(θ | x) ∝ l(θ; x)p(θ) ∝ l(θ; x)
2
Assim θ | x ∼ N (x, σn )
ou
√
n(θ − x)/σ | x ∼ N (0, 1)
(i) √
n(θ − x̄)
P ≤ zα | x = 1 − α
σ
σ
⇒ θ ≤ zα √ + x com probabilidade 1 − α
n
27
√
• Intervalo C=(−∞, x + zα σ/ n ] cujo comprimento é in-
finito.
(ii) Sejam zβ e zγ tais que:

√
n(θ − x)
P −zβ ≤ ≤ zγ | x = 1 − α.
σ
Usando a simetria da normal tem-se:
Φ(−zβ ) = P (X ≤ −zβ ) = P (X ≥ zβ ) = 1 − P (X < zβ ) = β
e a probabilidade do intervalo acima é dada por
Φ(zγ ) − Φ(−zβ ) = 1 − (γ + β)
e portanto γ + β = α.
O IC 100(1 − α)% será
√ (θ − x)
−zβ ≤ n ≤ zγ
σ
σ σ
− √ zβ + x ≤ θ ≤ zγ √ + x
n n
Então
σ σ
C = x − √ zβ , x + zγ √
n n
é IC 100(1 − α)% para θ.
28
Figure 5: Densidade da distribuição normal padronizada.
√
O comprimento de C é (zγ + zβ )σ/ n
Permanece ainda a questão de como minimizar este comprimento.
Considere que zγ < zα/2 < zβ e defina a = zα/2 − zγ > 0, b =

zβ − zα/2 > 0 e A e B como as áreas compreendidas entre zβ e
zα/2 e entre zα/2 e zγ
O comprimento do intervalo acima é 2zα/2 + b − a mas A = B

Temos que b > a
Logo, o IC de extremos simétricos −zα/2 e zα2 é o de menor comprimento
A região de credibilidade de menor comprimento é aquela que contém

os valores mais prováveis de θ dado x
29
• Def.: Um IC 100(1 − α)% de MDP para θ é o IC 100(1 − α)%
da forma C = {θ ∈ Θ : p(θ | x) ≥ k(α)} onde k(α) é a maior
constante tal que P (θ ∈ C | x) ≥ 1 − α.
Figure 6: O intervalo de confiança de MDP é dado por C1 ∪ C2 .
30
4. INFERÊNCIA PREDITIVA
Queremos prever Y cuja descrição probabilı́stica é P (Y | θ), que pode

independer de X
R R
p(y | x) = Θ p(y, θ | x)dθ = Θ p(y | θ, x)p(θ | x)dθ
R
= Θ p(y | θ)p(θ | x)dθ = Eθ|x [p(y | θ)]
Exemplo
Questão
: qual a probabilidade do 13o filho ser do sexo M ?
Dados
: MMFMMMMFMMMF, M-masculino/F-feminino
P r[X13 = 1|(9, 3)]
onde (9, 3) denota o número de filhos do sexo M/F .
R1
P r[X13 = 1|(9, 3)] = 0 P [X13 = 1, θ|(9, 3)] dθ
R1
= 0 P [X13 = 1|θ, (9, 3)] p(θ|(9, 3)) dθ
R1
= 0 θ p(θ|(9, 3)) dθ = E[θ | (9, 3)]
Distribuição a Priori
31
p(θ) = k θa−1 (1 − θ)b−1 0 ≤ θ ≤ 1, (a, b > 0)
p((9,3) |θ) p(θ)

p(θ | (9, 3)) = p((9,3))
∝ θ3 (1 − θ)9 θa−1 (1 − θ)b−1 ,
∝ θ3+a−1 (1 − θ)9+b−1
a+3
P r[X13 = 1 | (9, 3)] = E[θ|(r, s)] =
a + b + 12
Qual o valor de a and b?
• Opinião inicial de que as chances de M e F são simétricas e con-

centradas em 0.5.
Escolhemos a famı́lia das betas com a = b = 2

Ie.: E(θ) = 0.5, P (0.4 < θ < 0.6) = 0.3
e
probabilidade 13o filho ser M será 11/16=0.69
32

Inferência Bayesiana - UFRJ PDF

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Inferência Bayesiana - UFRJ PDF

Загружено:

Авторское право:

Доступные форматы

Introdução a Inferência Bayesiana

1. Conceitos Básicos da Inferência

Objetivo é sempre máximar a informação para reduzir incerteza

Toda a informação de que dispomos é útil e deve ser aproveitada

Duas visões da Estatı́stica: Bayesiano e clássico

i) Um músico especialista em música clássica: escolhidos ao acaso 10

ii) Um bêbado: Feitos 10 lançamentos da moeda o bêbado acerta os

iii) Uma velhinha inglesa apreciadora de chá: De 10 xı́caras enchidas

A informação obtida nos 3 experimentos é a mesma

Acreditamos mais na afirmação do músico que a da velhinha

• A probabilidade de um evento A mede do grau de confiança em

Seja o evento A = ‘está chovendo em Moscou ’

ii) Uma pessoa em Leningrado poderı́amos ter:

iii) Já para uma pessoa em Moscou:

Perdas quadráticas (de Finetti, 1975)

• A probabilidade p que atribuo

a A é obtida através da minimização da perda quadrática

É possı́vel obter as propriedades básicas de probabilidade.

ii) P (Ē) = 1 − P (E) As perdas possı́veis associadas às especificações

iii) P (E ∩ F ) = P (E | F )P (F ) Defina-se P (E | F ) como a probabil-

E=F=1 : (p − 1)2 + (q − 1)2 + (r − 1)2

E=0, F=1 : p2 + (q − 1)2 + r2

Quantidade de interesse desconhecida θ com valores em Θ

p(θ, x | H) p(x | θ, H) p(θ | H)

p(θ | x) ∝ p(x | θ) p(θ)

A constante da fórmula será

ii) A função de verossimilhança conecta a priori à posteriori usando

a) se x=1 então l(θ ; x = 1) = 2θ(1 − θ) e o valor mais provável (ou

b) se x=2 então l(θ ; x = 2) = θ2 , valor mais provável é 1.

c) se x=0 então l(θ ; x = 0) = (1 − θ)2 , valor mais provável é 0.

Figure 2: Função de verossimilhança para diferentes valores de x.

• João vai ao médico e este desconfia da doença A. Toma várias

Seja θ o indicador da doença A em João

João faz o teste e o resultado é X=1

∝ (0, 95)(0, 7) = 0, 665

P (θ = 0 | X = 1) ∝ (0, 40)(0, 30) = 0, 120

P (θ = 0 | X = 1) = 0, 120/0, 785 = 0, 153

Médico pede a João teste Y, também, do tipo +/-

Usando a priori p(θ|x)

= (0, 99)(0, 847) + (0, 04)(0, 153) = 0, 845 e

João faz o teste Y e observa-se Y=0

P (θ = 0 | X = 1, Y = 0) ∝ (0, 96)(0, 155) = 0, 1466

P (θ = 1 | Y = 0, X = 1) = 0, 0085/0, 1551 = 0, 055

P (θ = 0 | Y = 0, X = 1) = 0, 1466/0, 1551 = 0, 945.

• Queremos prever Y cuja descrição probabilı́stica é P (Y | θ), que

• Antes de observar Y , a nossa previsão atribuia muita chance em

Deve questionar se:

i) 0,7 refletia adequadamente P (θ = 1) ?

ii) O teste X é tão inexpressivo? A distribuição amostral de X é

iii) O teste Y é tão poderoso?

Observa-se X1 com probabilidade P1 (X1 | θ) levando a

Observa-se X2 com probabilidade P2 (X2 | θ), X2 ⊥ X1 |θ

Repetindo-se este processo n vezes

p(θ | xn , . . . , x1 ) ∝ ln (θ ; xn )p(θ | x1 , . . . , xn−1 )

1) A precisão a posteriori é a soma das precisões da priori e da

2) Seja w = τ −2 /(τ −2 + σ −2 ), w ∈ (0, 1), logo

3) Não é fácil usar o teorema de Bayes com prioris não normais.

onde pi (θ) são normais.

Permutabilidade é um conceito mais fraco que o conceito de independência

• Tma. 1.2: Para toda sequência infinita de quantidades aleatórias

• A partir do conhecimento sobre θ pode-se descrever sua densidade

O caso mais importante é o das distribuições conjugadas.

∀ p ∈ F e p(θ) ∈ Ψ então p(θ | x) ∈ Ψ