Вы находитесь на странице: 1из 32

Introdução a Inferência Bayesiana

Helio S. Migon
IM and COPPE - UFRJ
migon@im.ufrj.br
2006

Conteúdo

1. Conceitos Básicos da Inferência


2. Distribuição a Priori
3. Sumariazação
4. Inferência Preditiva

1
1 - CONCEITOS BÁSICOS DA INFERÊNCIA

1.1. Introdução

Informação

Objetivo é sempre máximar a informação para reduzir incerteza

Toda a informação de que dispomos é útil e deve ser aproveitada

Duas visões da Estatı́stica: Bayesiano e clássico

2
Exemplo: Considere os seguintes experimentos

i) Um músico especialista em música clássica: escolhidos ao acaso 10


trechos de partituras desses autores, o músico acerta o autor dos
10;

ii) Um bêbado: Feitos 10 lançamentos da moeda o bêbado acerta os


10 resultados;

iii) Uma velhinha inglesa apreciadora de chá: De 10 xı́caras enchidas


com leite e chá sem nenhuma ordem especı́fica, ela acerta os 10
resultados.

A informação obtida nos 3 experimentos é a mesma

Acreditamos mais na afirmação do músico que a da velhinha


e, certamente, mais que a do bêbado

3
O conceito de probabilidade Subjetiva

• A probabilidade de um evento A mede do grau de confiança em


A

Seja o evento A = ‘está chovendo em Moscou ’

i) Uma pessoa do Rio que não conhece nada sobre o clima de Moscou
poderia ter
P (A | H1 ) = 0, 5

ii) Uma pessoa em Leningrado poderı́amos ter:



0, 8, se chove em Leningrado

P (A | H2 ) =

0, 2, caso contrário

iii) Já para uma pessoa em Moscou:



1, se chove

P (A | H3 ) =

0, caso contrário

4
Construção subjetiva de probabilidade

Perdas quadráticas (de Finetti, 1975)

• A probabilidade p que atribuo

a A é obtida através da minimização da perda quadrática



(p − 1)2 , se E = 1

2
(p − E) =
p2 ,

se E = 0

É possı́vel obter as propriedades básicas de probabilidade.

i) p ∈ [ 0, 1 ]

ii) P (Ē) = 1 − P (E) As perdas possı́veis associadas às especificações


de P (E) = p e P (Ē) = q são:

E=1: (p − 1)2 + q 2

E=0: p2 + (q − 1)2

5
2 2
Figure 1: As perdas são dadas por AC quando E = 1 e BC quando E = 0

iii) P (E ∩ F ) = P (E | F )P (F ) Defina-se P (E | F ) como a probabil-


idade de E se F=1. Chamando essa probabilidade de p, P (F ) de
q e P (E ∩ F ) de r, temos como perda total dessas especificações
(p − E)2 F + (q − F )2 + (r − EF )2 com valores:

E=F=1 : (p − 1)2 + (q − 1)2 + (r − 1)2

E=0, F=1 : p2 + (q − 1)2 + r2

F=0 : q 2 + r2

6
1.2 - Elementos de Inferência

Teorema de Bayes

Quantidade de interesse desconhecida θ com valores em Θ


Informação inicial sumarizada por p(θ | H), onde H história
Dados: observação de uma quantidade aleatória X relacionada com θ
A distribuição amostral de X dada por p(X | θ, H)

7
A questão é como passar de p(θ | H) para p(θ | x, H)

p(θ, x | H) p(x | θ, H) p(θ | H)


p(θ | x, H) = =
p(x | H) p(x | H)
onde
Z
p(x | H) = p(x, θ | H) dθ.
Θ

p(θ | x) ∝ p(x | θ) p(θ)

A constante da fórmula será

Z
−1
k = p(x | θ)p(θ) dθ = Eθ [p(x | θ)]
Θ

8
Função de verossimilhança

A função de verossimilhança de θ é

l( · ; x) : Θ → R+

θ → l(θ ; x) = p(x | θ)
R R
i) R p(x | θ) dx = 1 mas Θ l(θ ; x) dθ = k 6= 1, em geral.

ii) A função de verossimilhança conecta a priori à posteriori usando


para isso os dados do experimento.

Exemplo: X ∼ Binomial(2,θ)

 
2 x
p(x | θ) = l(θ; x) = θ (1 − θ)2−x , x = 0, 1, 2 ; θ ∈ Θ = (0, 1)
x

• Note que:

a) se x=1 então l(θ ; x = 1) = 2θ(1 − θ) e o valor mais provável (ou


verossı́mil) de θ é 1/2.

b) se x=2 então l(θ ; x = 2) = θ2 , valor mais provável é 1.

c) se x=0 então l(θ ; x = 0) = (1 − θ)2 , valor mais provável é 0.

9
• Essas verossimilhanças estão plotadas na figura 2.1.

Figure 2: Função de verossimilhança para diferentes valores de x.

10
Exemplo

• João vai ao médico e este desconfia da doença A. Toma várias


providências: examina João, observa os sintomas e faz exames de
rotina.

Seja θ o indicador da doença A em João


O médico assume que P (θ = 1|H) = 0, 7
Exame de laboratório X do tipo +/- relacionado com θ


P (X = 1 | θ = 0) = 0, 40,

P (X = 1 | θ = 1) = 0, 95,

João faz o teste e o resultado é X=1

P (θ = 1 | X = 1) ∝ l(θ = 1 ; X = 1)P (θ = 1)

∝ (0, 95)(0, 7) = 0, 665

P (θ = 0 | X = 1) ∝ (0, 40)(0, 30) = 0, 120

11
P (θ = 1 | X = 1) = 0, 665/0, 785 = 0, 847 e

P (θ = 0 | X = 1) = 0, 120/0, 785 = 0, 153

Médico pede a João teste Y, também, do tipo +/-


P (Y = 1 | θ = 1) = 0, 99

P (Y = 1 | θ = 0) = 0, 04

Usando a priori p(θ|x)

X
p(y | x) = p(y | θ) p(θ | x)
θ∈Θ
e portanto,

P (Y = 1 | X = 1) = P (Y = 1 | θ = 1)P (θ = 1 | X = 1) +

+P (Y = 1 | θ = 0)P (θ = 0 | X = 1)

= (0, 99)(0, 847) + (0, 04)(0, 153) = 0, 845 e

P (Y = 0 | X = 1) = 1 − P (Y = 1 | X = 1) = 0, 155

João faz o teste Y e observa-se Y=0


Agora

12
P (θ = 1 | X = 1, Y = 0) ∝ l(θ = 1 ; Y = 0)P (θ = 1 | X = 1)
.
∝ (0, 01)(0, 847) = 0, 0085

P (θ = 0 | X = 1, Y = 0) ∝ (0, 96)(0, 155) = 0, 1466

ou

P (θ = 1 | Y = 0, X = 1) = 0, 0085/0, 1551 = 0, 055

P (θ = 0 | Y = 0, X = 1) = 0, 1466/0, 1551 = 0, 945.

Resumindo


0, 7, antes de X e Y






P (θ = 1) = 0, 847, após X e antes de Y




0, 055, após X e Y

13
Distribuição Preditiva

• Queremos prever Y cuja descrição probabilı́stica é P (Y | θ), que


pode independer de X

R R
p(y | x) = Θ p(y, θ | x)dθ = Θ p(y | θ, x)p(θ | x)dθ
R
= Θ p(y | θ)p(θ | x)dθ = Eθ|x [p(y | θ)]

Exemplo (cont.)

• Antes de observar Y , a nossa previsão atribuia muita chance em


Y = 1, mas o observado foi Y = 0. Isto deve levar o médico a
repensar o modelo.

Deve questionar se:

i) 0,7 refletia adequadamente P (θ = 1) ?

ii) O teste X é tão inexpressivo? A distribuição amostral de X é


correta?

iii) O teste Y é tão poderoso?

14
Natureza sequencial do teorema de Bayes

Observa-se X1 com probabilidade P1 (X1 | θ) levando a

p(θ | x1 ) ∝ l1 (θ ; x1 )p(θ)

Observa-se X2 com probabilidade P2 (X2 | θ), X2 ⊥ X1 |θ

p(θ | x2 , x1 ) ∝ l2 (θ ; x2 )p(θ | x1 )

∝ l2 (θ ; x2 )l1 (θ ; x1 )p(θ)

Repetindo-se este processo n vezes

" n
#
Y
p(θ | xn , xn−1 , . . . , x1 ) ∝ li (θ ; xi ) p(θ)
i=1
O teorema de Bayes satisfaz a

p(θ | xn , . . . , x1 ) ∝ ln (θ ; xn )p(θ | x1 , . . . , xn−1 )

15
Tma 1.1: Observação e priori normais
Sejam θ ∼ N (µ, τ 2 ), (X | θ) ∼ N (θ, σ 2 ), com σ 2 conhecido. Então,
a distribuição a posteriori de θ é (θ | X = x) ∼ N (µ1 , τ12 ) onde
τ −2 µ + σ −2 x
µ1 = e τ1−2 = τ −2 + σ −2
τ −2 + σ −2
Note que:

1) A precisão a posteriori é a soma das precisões da priori e da


verossimilhança

2) Seja w = τ −2 /(τ −2 + σ −2 ), w ∈ (0, 1), logo

µ1 = wµ + (1 − w)x

3) Não é fácil usar o teorema de Bayes com prioris não normais.

Mistura de Normais

X X
p(θ) = αi pi (θ), αi > 0, αi = 1

onde pi (θ) são normais.

16
Permutabilidade

Permutabilidade é um conceito mais fraco que o conceito de independência

Definição
Quantidades aleatórias X1 , . . . , Xn do tipo 0-1 são permutáveis se as n!
permutações (Xk1 , . . . , Xkn ) tem a mesma distribuição de probabilidade n-dimensional

Exemplo

• Uma urna com m bolas, r das quais com o número 1 e m-r com o
número 0. Selecionamos uma por vez, sem reposição e denotamos
por Xk o dı́gito da k-ésima bola selecionada. Assim X1 , . . . , Xn
é uma sequência permutável, mas as quantidades aleatórias não
são independentes.

• Tma. 1.2: Para toda sequência infinita de quantidades aleatórias


{Xn , n = 1, 2, . . . } permutáveis com valores em {0, 1} corresponde
uma distribuição F em (0,1) tal que:

Z 1
P (X1 = 1, . . . , Xk = 1, Xk+1 = 0, . . . , Xn = 0) = θk (1−θ)n−k dF (θ) , ∀ n e k ≤ n
0

17
2 - DISTRIBUIÇÕES A PRIORI

• A partir do conhecimento sobre θ pode-se descrever sua densidade


por uma particular forma funcional.

O caso mais importante é o das distribuições conjugadas.


Def.: Seja F = { p(x|θ), θ ∈ Θ} uma famı́lia de distribuições amostrais
A classe Ψ é conjugada a F se

∀ p ∈ F e p(θ) ∈ Ψ então p(θ | x) ∈ Ψ

(i) A classe Ψ pode ser muito ampla.

(ii) A classe Ψ pode ser muito restrita.

Por exemplo: Ψ = {P : P (θ = θ0 ) = 1}

Exemplificando o processo de construção de famı́lias conjugadas

• Considere (Xi |θ) ∼ Ber(θ), θ ∈ (0, 1), i = 1, · · · , n. Logo

n
X
t n−t
p(x | θ) = θ (1 − θ) onde t = xi xi = 0, 1, i = 1, · · · , n
i=1

Do teorema de Bayes

18
p(θ | x) ∝ p(x | θ) p(θ)

∝ θt (1 − θ)n−t p(θ).

Note que p(θ) e p(θ | x) estão relacionadas através da verosssimilhança

• Assim se constroi a conjugada baseado no núcleo da verossimil-


hança que é da forma θa (1 − θ)b .

Considere agora a famı́lia Beta

(i) Se θ ∼ Beta(α, β), então


1
p(θ) = θα−1 (1 − θ)β−1 , 0 < θ < 1 e α, β > 0 e
B(α, β)
1 Γ(α + β)
=
B(α, β) Γ(α)Γ(β)
(ii) A média, moda e variância de θ são dadas, respectivamente, por
α α−1 αβ
, e
α+β α+β−2 (α + β)2 (α + β + 1)

19
Usando priori Beta obtém-se a posteriori

p(θ | x) ∝ θα+t−1 (1 − θ)β+n−t−1

e portanto

(θ | x) ∼ Beta(α + t, β + n − t)

A famı́lia de distribuições Beta é conjugada à Bernoulli (binomial)


A constante de proporcionalidade será 1/B(α + t, β + n − t)

O método de determinação da classe conjugada consiste em :

(i) identificar a classe Ψ de distribuições para θ tal que l(θ; x) é pro-


porcional a um membro de Ψ ;

(ii) verificar se Ψ é fechada por amostragem.

Se existe k tal que k −1 =


R
l(θ; x)dθ < ∞ e todo p ∈ Ψ é definido
através de p(θ) = kl(θ; x), para algum l(θ; x) então Ψ é dita ser famı́lia
conjugada natural ao modelo amostral gerador de l.

20
Principais Famı́lias Conjugadas

(i) Binomial
A famı́lia de distribições Beta é conjugada à Binomial (ou Bernoulli)

(ii) Normal com variância conhecida


A famı́lia de normais é conjugada à Normal - Tma 1.1

(iii) Poisson

Se X = (X1 , . . . , Xn ) Poisson(θ) então:

n n
Y Y e−θ θxi
p(x | θ) = p(xi | θ) =
i=1 i=1
xi !
l(θ | x) ∝ e−nθ θΣxi .

Núcleo tem a forma θa e−bθ caracterizando uma Gama

p(θ) ∝ θα−1 e−βθ , α, β > 0 e θ > 0

A média e variância a priori são


α α
E(θ) = e V (θ) =
β β2
p
V (θ)
CV (θ) =
E(θ)

A densidade a posteriori será

p(θ | x) ∝ θα+Σxi −1 exp{−(β + n) θ}

21
3. SUMARIZAÇÃO

Sabemos que a Inferência Classica é:

Estimação não viciada (mı́nima variância)


Intervalo de Confiança
Testes de Significância

E a Inferência Bayesiana. O que é?

Teoria da decisão
Sumarização

Resumir a informação disponı́vel através de uns poucos números para comunicação

22
Estimação Pontual - Teoria da decisão

Sumarização - Intervalo de Credibilidade

Figure 3: Densidade a posteriori de θ com três regiões distintas: a primeira contendo cerca
de 30 % da probabilidade total, a segunda com 10 % e a terceira com cerca de 60 %. A
moda dessa densidade é 3,5, a média é 5,075 e a mediana 5,27.

23
3.1 Problema de Decisão

i) Espaço do parâmetro ou estados da natureza - Θ

ii) Espaço dos resultados possı́veis de um experimento - Ω

iii) Espaco das ações possı́veis - A

Regra de decisão: δ : Ω → A

Perda: L(δ, θ): Θ × A → R+

Def.: O risco a posteriori é definido por R(δ) = Eθ|x [L(δ, θ)]

Def.: Uma regra de decisão δ ∗ é ótima R(δ ∗ ) < R(δ), ∀δ

24
3.2 Estimação

Estimador é a regra de decisão ótima

O seu valor observado é denominado estimativa

Perda Absoluta

0 , se |θ − δ| < ε

• Lema 1 Seja L1 (δ, θ) = ∀ε > 0. O es-
1 , se |θ − δ| ≥ ε

timador de θ é δ1 = moda(θ), a moda da distribuição atualizada


de θ ou EMVG.

Perda Quadrática

• Lema 2 Seja L2 (δ, θ) = (δ − θ)2 a perda associada à estimação de


θ por δ. O estimador de θ é δ2 = E(θ), a média da distribuição
atualizada de θ.

25
Perda Zero-Um

• Lema 3 Seja agora L3 (δ, θ) = |δ − θ|. O estimador de θ é δ3 =


med(θ), a mediana da distribuição atualizada de θ.

Figure 4: Perdas: quadrática, − − − −; absoluta, · · · · · · ; 0-1 , − − −−.

26
Estimação por intervalos

• Definição C é um intervalo de confiança Bayesiano ou intervalo


de credibilidade de 100(1 − α)% para θ se P (θ ∈ C) ≥ 1 − α.

• Exemplo: Seja X = (X1 , . . . , Xn ) uma amostra da N (θ, σ 2 ) com


σ 2 conhecido.

p(θ) ∝ cte
n n o
2
l(θ; x) ∝ exp − 2 (θ − x)

Logo

p(θ | x) ∝ l(θ; x)p(θ) ∝ l(θ; x)

2
Assim θ | x ∼ N (x, σn )

ou


n(θ − x)/σ | x ∼ N (0, 1)

(i) √ 
n(θ − x̄)
P ≤ zα | x = 1 − α
σ
σ
⇒ θ ≤ zα √ + x com probabilidade 1 − α
n

27

• Intervalo C=(−∞, x + zα σ/ n ] cujo comprimento é in-
finito.

(ii) Sejam zβ e zγ tais que:


 √ 
n(θ − x)
P −zβ ≤ ≤ zγ | x = 1 − α.
σ
Usando a simetria da normal tem-se:

Φ(−zβ ) = P (X ≤ −zβ ) = P (X ≥ zβ ) = 1 − P (X < zβ ) = β

e a probabilidade do intervalo acima é dada por

Φ(zγ ) − Φ(−zβ ) = 1 − (γ + β)

e portanto γ + β = α.

O IC 100(1 − α)% será

√ (θ − x)
−zβ ≤ n ≤ zγ
σ

σ σ
− √ zβ + x ≤ θ ≤ zγ √ + x
n n
Então  
σ σ
C = x − √ zβ , x + zγ √
n n
é IC 100(1 − α)% para θ.

28
Figure 5: Densidade da distribuição normal padronizada.


O comprimento de C é (zγ + zβ )σ/ n

Permanece ainda a questão de como minimizar este comprimento.

Considere que zγ < zα/2 < zβ e defina a = zα/2 − zγ > 0, b =


zβ − zα/2 > 0 e A e B como as áreas compreendidas entre zβ e
zα/2 e entre zα/2 e zγ

O comprimento do intervalo acima é 2zα/2 + b − a mas A = B


Temos que b > a
Logo, o IC de extremos simétricos −zα/2 e zα2 é o de menor comprimento

A região de credibilidade de menor comprimento é aquela que contém


os valores mais prováveis de θ dado x

29
• Def.: Um IC 100(1 − α)% de MDP para θ é o IC 100(1 − α)%
da forma C = {θ ∈ Θ : p(θ | x) ≥ k(α)} onde k(α) é a maior
constante tal que P (θ ∈ C | x) ≥ 1 − α.

Figure 6: O intervalo de confiança de MDP é dado por C1 ∪ C2 .

30
4. INFERÊNCIA PREDITIVA

Queremos prever Y cuja descrição probabilı́stica é P (Y | θ), que pode


independer de X

R R
p(y | x) = Θ p(y, θ | x)dθ = Θ p(y | θ, x)p(θ | x)dθ
R
= Θ p(y | θ)p(θ | x)dθ = Eθ|x [p(y | θ)]

Exemplo

Questão
: qual a probabilidade do 13o filho ser do sexo M ?
Dados
: MMFMMMMFMMMF, M-masculino/F-feminino

P r[X13 = 1|(9, 3)]

onde (9, 3) denota o número de filhos do sexo M/F .

R1
P r[X13 = 1|(9, 3)] = 0 P [X13 = 1, θ|(9, 3)] dθ
R1
= 0 P [X13 = 1|θ, (9, 3)] p(θ|(9, 3)) dθ
R1
= 0 θ p(θ|(9, 3)) dθ = E[θ | (9, 3)]

Distribuição a Priori

31
p(θ) = k θa−1 (1 − θ)b−1 0 ≤ θ ≤ 1, (a, b > 0)

p((9,3) |θ) p(θ)


p(θ | (9, 3)) = p((9,3))

∝ θ3 (1 − θ)9 θa−1 (1 − θ)b−1 ,

∝ θ3+a−1 (1 − θ)9+b−1

a+3
P r[X13 = 1 | (9, 3)] = E[θ|(r, s)] =
a + b + 12

Qual o valor de a and b?

• Opinião inicial de que as chances de M e F são simétricas e con-


centradas em 0.5.

Escolhemos a famı́lia das betas com a = b = 2


Ie.: E(θ) = 0.5, P (0.4 < θ < 0.6) = 0.3
e
probabilidade 13o filho ser M será 11/16=0.69

32