Академический Документы
Профессиональный Документы
Культура Документы
Helio S. Migon
IM and COPPE - UFRJ
migon@im.ufrj.br
2006
Conteúdo
1
1 - CONCEITOS BÁSICOS DA INFERÊNCIA
1.1. Introdução
Informação
2
Exemplo: Considere os seguintes experimentos
3
O conceito de probabilidade Subjetiva
i) Uma pessoa do Rio que não conhece nada sobre o clima de Moscou
poderia ter
P (A | H1 ) = 0, 5
4
Construção subjetiva de probabilidade
i) p ∈ [ 0, 1 ]
E=1: (p − 1)2 + q 2
E=0: p2 + (q − 1)2
5
2 2
Figure 1: As perdas são dadas por AC quando E = 1 e BC quando E = 0
F=0 : q 2 + r2
6
1.2 - Elementos de Inferência
Teorema de Bayes
7
A questão é como passar de p(θ | H) para p(θ | x, H)
Z
−1
k = p(x | θ)p(θ) dθ = Eθ [p(x | θ)]
Θ
8
Função de verossimilhança
A função de verossimilhança de θ é
l( · ; x) : Θ → R+
θ → l(θ ; x) = p(x | θ)
R R
i) R p(x | θ) dx = 1 mas Θ l(θ ; x) dθ = k 6= 1, em geral.
Exemplo: X ∼ Binomial(2,θ)
2 x
p(x | θ) = l(θ; x) = θ (1 − θ)2−x , x = 0, 1, 2 ; θ ∈ Θ = (0, 1)
x
• Note que:
9
• Essas verossimilhanças estão plotadas na figura 2.1.
10
Exemplo
P (X = 1 | θ = 0) = 0, 40,
P (X = 1 | θ = 1) = 0, 95,
P (θ = 1 | X = 1) ∝ l(θ = 1 ; X = 1)P (θ = 1)
11
P (θ = 1 | X = 1) = 0, 665/0, 785 = 0, 847 e
P (Y = 1 | θ = 1) = 0, 99
P (Y = 1 | θ = 0) = 0, 04
X
p(y | x) = p(y | θ) p(θ | x)
θ∈Θ
e portanto,
P (Y = 1 | X = 1) = P (Y = 1 | θ = 1)P (θ = 1 | X = 1) +
+P (Y = 1 | θ = 0)P (θ = 0 | X = 1)
P (Y = 0 | X = 1) = 1 − P (Y = 1 | X = 1) = 0, 155
12
P (θ = 1 | X = 1, Y = 0) ∝ l(θ = 1 ; Y = 0)P (θ = 1 | X = 1)
.
∝ (0, 01)(0, 847) = 0, 0085
ou
Resumindo
0, 7, antes de X e Y
P (θ = 1) = 0, 847, após X e antes de Y
0, 055, após X e Y
13
Distribuição Preditiva
R R
p(y | x) = Θ p(y, θ | x)dθ = Θ p(y | θ, x)p(θ | x)dθ
R
= Θ p(y | θ)p(θ | x)dθ = Eθ|x [p(y | θ)]
Exemplo (cont.)
14
Natureza sequencial do teorema de Bayes
p(θ | x1 ) ∝ l1 (θ ; x1 )p(θ)
p(θ | x2 , x1 ) ∝ l2 (θ ; x2 )p(θ | x1 )
∝ l2 (θ ; x2 )l1 (θ ; x1 )p(θ)
" n
#
Y
p(θ | xn , xn−1 , . . . , x1 ) ∝ li (θ ; xi ) p(θ)
i=1
O teorema de Bayes satisfaz a
15
Tma 1.1: Observação e priori normais
Sejam θ ∼ N (µ, τ 2 ), (X | θ) ∼ N (θ, σ 2 ), com σ 2 conhecido. Então,
a distribuição a posteriori de θ é (θ | X = x) ∼ N (µ1 , τ12 ) onde
τ −2 µ + σ −2 x
µ1 = e τ1−2 = τ −2 + σ −2
τ −2 + σ −2
Note que:
µ1 = wµ + (1 − w)x
Mistura de Normais
X X
p(θ) = αi pi (θ), αi > 0, αi = 1
16
Permutabilidade
Definição
Quantidades aleatórias X1 , . . . , Xn do tipo 0-1 são permutáveis se as n!
permutações (Xk1 , . . . , Xkn ) tem a mesma distribuição de probabilidade n-dimensional
Exemplo
• Uma urna com m bolas, r das quais com o número 1 e m-r com o
número 0. Selecionamos uma por vez, sem reposição e denotamos
por Xk o dı́gito da k-ésima bola selecionada. Assim X1 , . . . , Xn
é uma sequência permutável, mas as quantidades aleatórias não
são independentes.
Z 1
P (X1 = 1, . . . , Xk = 1, Xk+1 = 0, . . . , Xn = 0) = θk (1−θ)n−k dF (θ) , ∀ n e k ≤ n
0
17
2 - DISTRIBUIÇÕES A PRIORI
Por exemplo: Ψ = {P : P (θ = θ0 ) = 1}
n
X
t n−t
p(x | θ) = θ (1 − θ) onde t = xi xi = 0, 1, i = 1, · · · , n
i=1
Do teorema de Bayes
18
p(θ | x) ∝ p(x | θ) p(θ)
∝ θt (1 − θ)n−t p(θ).
19
Usando priori Beta obtém-se a posteriori
e portanto
(θ | x) ∼ Beta(α + t, β + n − t)
20
Principais Famı́lias Conjugadas
(i) Binomial
A famı́lia de distribições Beta é conjugada à Binomial (ou Bernoulli)
(iii) Poisson
n n
Y Y e−θ θxi
p(x | θ) = p(xi | θ) =
i=1 i=1
xi !
l(θ | x) ∝ e−nθ θΣxi .
21
3. SUMARIZAÇÃO
Teoria da decisão
Sumarização
22
Estimação Pontual - Teoria da decisão
Figure 3: Densidade a posteriori de θ com três regiões distintas: a primeira contendo cerca
de 30 % da probabilidade total, a segunda com 10 % e a terceira com cerca de 60 %. A
moda dessa densidade é 3,5, a média é 5,075 e a mediana 5,27.
23
3.1 Problema de Decisão
Regra de decisão: δ : Ω → A
24
3.2 Estimação
Perda Absoluta
0 , se |θ − δ| < ε
• Lema 1 Seja L1 (δ, θ) = ∀ε > 0. O es-
1 , se |θ − δ| ≥ ε
Perda Quadrática
25
Perda Zero-Um
26
Estimação por intervalos
p(θ) ∝ cte
n n o
2
l(θ; x) ∝ exp − 2 (θ − x)
2σ
Logo
2
Assim θ | x ∼ N (x, σn )
ou
√
n(θ − x)/σ | x ∼ N (0, 1)
(i) √
n(θ − x̄)
P ≤ zα | x = 1 − α
σ
σ
⇒ θ ≤ zα √ + x com probabilidade 1 − α
n
27
√
• Intervalo C=(−∞, x + zα σ/ n ] cujo comprimento é in-
finito.
Φ(zγ ) − Φ(−zβ ) = 1 − (γ + β)
e portanto γ + β = α.
√ (θ − x)
−zβ ≤ n ≤ zγ
σ
σ σ
− √ zβ + x ≤ θ ≤ zγ √ + x
n n
Então
σ σ
C = x − √ zβ , x + zγ √
n n
é IC 100(1 − α)% para θ.
28
Figure 5: Densidade da distribuição normal padronizada.
√
O comprimento de C é (zγ + zβ )σ/ n
29
• Def.: Um IC 100(1 − α)% de MDP para θ é o IC 100(1 − α)%
da forma C = {θ ∈ Θ : p(θ | x) ≥ k(α)} onde k(α) é a maior
constante tal que P (θ ∈ C | x) ≥ 1 − α.
30
4. INFERÊNCIA PREDITIVA
R R
p(y | x) = Θ p(y, θ | x)dθ = Θ p(y | θ, x)p(θ | x)dθ
R
= Θ p(y | θ)p(θ | x)dθ = Eθ|x [p(y | θ)]
Exemplo
Questão
: qual a probabilidade do 13o filho ser do sexo M ?
Dados
: MMFMMMMFMMMF, M-masculino/F-feminino
R1
P r[X13 = 1|(9, 3)] = 0 P [X13 = 1, θ|(9, 3)] dθ
R1
= 0 P [X13 = 1|θ, (9, 3)] p(θ|(9, 3)) dθ
R1
= 0 θ p(θ|(9, 3)) dθ = E[θ | (9, 3)]
Distribuição a Priori
31
p(θ) = k θa−1 (1 − θ)b−1 0 ≤ θ ≤ 1, (a, b > 0)
∝ θ3+a−1 (1 − θ)9+b−1
a+3
P r[X13 = 1 | (9, 3)] = E[θ|(r, s)] =
a + b + 12
32