Вы находитесь на странице: 1из 63

CT 720 Tópicos em Aprendizagem de Máquina e

Classificação de Padrões

3-Estimação de Parâmetros:
Máxima Verosimilhança e
Bayes

ProfFernandoGomide DCA-FEEC-Unicamp
Conteúdo
1. Introdução
2. Estimador de máxima verosimilhança
3. Estimador de Bayes
4. Teoria geral estimadores Bayesianos
5. Problemas de dimensionalidade
6. Modelos de Markov
7. Resumo

ProfFernandoGomide DCA-FEEC-Unicamp
1-Introdução

 Teoria Bayesiana de decisão


– assume P(ωi) e p(x/ωi) completamente conhecidos
– na prática estes valores não são conhecidos
– projeto necessita de dados de treinamento
– problema de estimar função → estimar parâmetros

 Este capítulo
– apresenta métodos principais de estimação
– problema da dimensão e complexidade
– classificação estática e dinâmica

ProfFernandoGomide DCA-FEEC-Unicamp
 Estimador de máxima verosimilhança
– parâmetros de p(x/ωi) são valores fixos, mas desconhecidos
– melhor estimativa: maximiza a probabilidade de obter as observações

 Estimador de Bayes
– parâmetros são variáveis aleatórias com distribuições a priori dadas
– observações convertem estas distribuições em a posteriori

 Aprendizagem
– amostras x obtidas selecionando estado ωi com probabilidade P(ωi)
– amostras independentemente selecionadas de acordo com p(x/ωi)
– supervisionada: classe (estado) ωi de cada amostra é conhecida
– não supervisionada
2-Estimador de máxima verosimilhança
 Características
– boa convergência quando número de amostras de treinamento aumenta
– mais simples que métodos alternativos (Bayes, EM, etc.)

 Princípio geral
D1,...., Dc : c conjuntos de dados
Dj : conjunto de amostras independentemente de p(x/ωj) (i.i.d.)
p(x/ωj) : forma paramétrica é, por hipótese, conhecida
θj: vetor de parâmetros que caracteriza p(x/ωj) de forma única
p(x/ωj) = p(x/ωj,θ θj)
problema: θj ?

ProfFernandoGomide DCA-FEEC-Unicamp
 Hipótese
Di : não tem informação sobre θj se i ≠ j
parâmetros são funcionalmente independentes
permite tratar cada classe separadamente

 Problema de estimação

Estimar o vetor de parâmetros θj a partir das amostras em D


θ)
amostras estas geradas independentemente a partir de p(x/θ

D = {x1, ....,xn}
n
p(D | θ) = ∏ p(x k | θ) likelihood de θ com relação a D (1)
k =1

ProfFernandoGomide DCA-FEEC-Unicamp
 Estimador de máxima verosimilhança (MV) θ̂
θ)
– maximiza p(D/θ
– valor de θ mais aderente aos dados de treinamento
– em geral usa-se log-likelihood

l (θ) = ln p (D | θ)

θˆ = arg max l (θ)


θ
n
l (θ) = ∑ ln p (x k | θ)
k =1
n
∇ θl = ∑ ∇θ ln p (x k | θ) = 0 condição necessária (7)
k =1
ProfFernandoGomide DCA-FEEC-Unicamp
 Caso Gaussiano: µ desconhecido

1 1
ln p (x k | µ) = − ln[(2π) | Σ | − (x k − µ)t Σ −1 (x k − µ)
d
2 2

∇ µ ln p ( x k | µ) = Σ −1 (x k − µ)

n
∑ Σ −1(x k − µ) = 0 (multiplicando por ∑–1 e rearranjando)
k =1

1 n
µ = ∑ xk
n k =1

ProfFernandoGomide DCA-FEEC-Unicamp
 Caso Gaussiano: µ e ∑ desconhecidos

θ1 = µ e θ2 = σ 2

1 1
ln p ( xk | θ) = − ln[2πθ2 − ( xk − θ1 ) 2
2 2θ2

 1 
 θ ( xk − θ1 ) 
∇ θl = ∇θ ln p (x k | θ) =  
2
2
 1 ( xk − θ1 ) 
− 2θ + 2 
 2 2θ 2 

ProfFernandoGomide DCA-FEEC-Unicamp
n 1
∑ ˆ ( xk − θˆ 1 ) = 0
k =1 θ 2

n 1 ( xk − θˆ 1 ) 2
∑− ˆ + =0
k =1 2θ 2 ˆ 2
2θ2

1 n 1 n
µˆ = ∑ xk µˆ = ∑ x k
n k =1 n k =1

1 n 1 n
σ 22 = ∑ ( xk − µˆ ) 2 ˆ = ∑ (x − µˆ )(x − µˆ )t
Σ k k
n k =1 n k =1

ProfFernandoGomide DCA-FEEC-Unicamp
 Tendenciosidade (bias)

θ̂ é um estimador não tendencioso de θ se se somente se E[θˆ ] = θ

1 n 2  n −1 2
E  ∑ ( xk − x )  = σ ≠ σ2 tendencioso
 n k =1  n

1 n
C= ∑ (x k − µˆ )(x k − µˆ )t não tendencioso
n − 1 k =1

ProfFernandoGomide DCA-FEEC-Unicamp
3-Estimador de Bayes

 Densidades condicionais de classe

– P(ωi| x) é essencial em classificação Bayesiana


– como obter P(ωi| x) se P(x|ωi) e P(ωi) dão desconhecidos ?
– usar conhecimento e.g. forma funcional e faixas dos parâmetros
– amostras para treinamento: conjunto D
– P(ωi| x, D) ?
p (x | ωi , D ) P(ωi | D )
P(ωi | x, D ) =
c
∑ p ( x | ω j , D ) P (ω j | D )
j =1

ProfFernandoGomide DCA-FEEC-Unicamp
 Hipóteses
– probabilidades a priori conhecidas/calculadas: P(ωi|D) = P(ωi)
– D1,...., Dc conjuntos de dados de treinamento
Di : não influencia p(x|ωj, D) se i ≠ j
– classes são tratadas separadamente: c problemas independentes
Di para estimar p(x|ωj, D)

p ( x | ωi , D ) P(ωi )
P(ωi | x, D ) =
c
∑ p ( x | ω j , D ) P (ω j )
j =1

ProfFernandoGomide DCA-FEEC-Unicamp
 Aprendizagem Bayesiana

Usa um conjunto D de amostras observadas independentemente


de acordo com uma distribuição de probabilidade fixa, mas
desconhecida p(x) para estimar p(x| D)

ProfFernandoGomide DCA-FEEC-Unicamp
 Distribuição de parâmetros

– densidade de probabilidade p(x) desconhecida


θ)
– assume-se forma paramétrica de p(x) conhecida: p(x|θ
– problema: determinar vetor de parâmetros θ
– conhecimento a priori sobre θ: p(θ
θ)
– observações de D converte p(θθ) em p(θ
θ|D )

p ( x | D ) = ∫ p ( x, θ | D ) dθ

p ( x, θ | D ) = p ( x | θ, D ) p (θ | D )

p ( x | θ, D ) = p ( x, θ) seleção de x são independentes

p ( x | D ) = ∫ p ( x | θ) p (θ | D ) dθ (integrar numericamente) (25)

ProfFernandoGomide DCA-FEEC-Unicamp
 Exemplo: caso Gaussiano

θ|D ) = ?,
p(θ p(x|D ) = ?
µ) ~ N(µ
p(x|µ µ, Σ)

1) Caso univariado: p(µ|D ), µ é o único parâmetro desconhecido

p ( x | µ) = N (µ, σ 2 ) (26)

p (µ) = N (µ o , σ o2 )

D = {x1, ....,xn}

p (D | µ) p (µ) n
p (µ | D ) = = α ∏ p ( xk | µ) p (µ)
∫ p(D | µ) p(µ)dµ k =1

ProfFernandoGomide DCA-FEEC-Unicamp
p(xk|µ) p(µ)

n 1  1  x − µ 2  1  1  µ − µ 2 
p (µ | D ) = α ∏ exp −  k   exp −  o 
 
k =1 2 π σ  2  σ   2 σ  2  σ o 
  o  

  n µ−x 2 2 
   µ − µ o 
= α′ exp −  ∑  
1 k
 +  
 2  k =1  σ   σo 
  

 1  n 1  2  1 n µ o   
= α′′ exp −  + µ − 2 ∑ xk + 2 µ   (29)
 2  σ 2 2
σ   2
σo   
  σ k =1

1  2
1  µ − µn  
p (µ | D ) = 
exp −   ~ N (µ n , σ n ) (30)
2 πσ n  2  σn  
 

ProfFernandoGomide DCA-FEEC-Unicamp
igualando (29) e (30)

1 n 1
= +
σ n2 σ 2
σo2

µn n µo 1 n
= µˆ n + µˆ n = ∑ xk
σ n2 σ2 σ o2 n k =1

 nσo2  σ 2
µn =  µˆ n + µ
 nσ 2 + σ 2  2
nσo + σ 2 o
 o 

σo2σ 2
σ 2n =
nσo2 + σ 2

ProfFernandoGomide DCA-FEEC-Unicamp
 Aprendizagem Bayesiana

ProfFernandoGomide DCA-FEEC-Unicamp
2) Caso univariado: p(x|D )

p ( x | D ) = ∫ p ( x | θ) p (θ | D ) dθ (25)

p ( x | µ) = N (µ, σ 2 ) (26)

1  2
1  µ − µn  
p (µ | D ) = 
exp −   ~ N (µ n , σ n ) (30)
2 πσ n  2  σn  
 

ProfFernandoGomide DCA-FEEC-Unicamp
p ( x | D ) = ∫ p ( x | µ) p (µ | D ) dµ

1  1  x − µ 2  1  1  x − µ 2 
=∫ exp −    exp −  n   dµ
2 πσ  2  σ   2πσ n  2  σ n  
 

1  1 ( x − µn )2 
= exp −  f (σ, σ n )
2πσσn 2 2
 2 σ + σ n 

 2 2

2
1 σ + σn  σ n x + σ µ n  
2 2
f (σ, σ n ) = ∫ exp − µ− dµ
 2 σ 2σ 2  2
σ + σn 2  
 n  

p ( x | D ) ~ N (µ n , σ 2 + σ 2n ) = p ( x | ω j , D j )

ProfFernandoGomide DCA-FEEC-Unicamp
3) Caso Gaussiano multivariado

θ|D ) = ?
p(θ p(x|D ) = ?
µ) ~ N(µ
p(x|µ µ, Σ), p(µ
µ) ~ N(µ
µo, Σo)
D = {x1, ....,xn}, x1, ....,xn amostras independentes

Após observar as n amostras de D e usando a fórmula de Bayes:

n
p (µ | D ) = α ∏ p ( x k | µ ) p (µ ) (39)
k =1

 1 t − −  −1 n −  
= α′ exp −  µ (nΣ + Σ o )µ − 2µ  Σ ∑ x k + Σ o µ o  
1 1 t 1
 2   k =1

 

ProfFernandoGomide DCA-FEEC-Unicamp
µ|D ) tem a forma
p(µ

 1 
p(µ | D ) = α′′ exp− (µ − µ n )t Σ n−1 (µ − µ n ) ~ N (µ n , Σ n ) (40)
 2 

igualando (39) e (40)

1 n
Σ −n 1 = nΣ −1 + Σ o−1 µˆ n = ∑ x k
n k =1

Σ −n 1µ n = nΣ −1µˆ n + Σ o−1µ o

ProfFernandoGomide DCA-FEEC-Unicamp
−1 −1
 1  1  1 
µ n = Σ o  Σ o + Σ  µˆ n + Σ Σ o + Σ  µ o
 n  n  n 

−1
 1  1
Σ n = Σo  Σo + Σ  Σ
 n  n

p ( x | D ) = ∫ p (x | µ) p (µ | D )dµ = N (µ n , Σ + Σ n )

ProfFernandoGomide DCA-FEEC-Unicamp
4-Teoria geral estimadores Bayesianos

 Hipóteses

θ) é conhecida
– forma da densidade p(x|θ
– valor de θ não é conhecido exatamente
– conhecimento inicial sobre θ contido densidade a priori p(θ
θ)
– restante do conhecimento sobre θ contido em conjunto D
– D = {x1,..., xn}, cada xi obtido independente de acordo com p(x)
– p(x) desconhecida

ProfFernandoGomide DCA-FEEC-Unicamp
 Problema básico

θ|D) pois com ela calculamos


determinar distribuição a posteriori p(θ

p( x | D ) = ∫ p( x | θ) p(θ | D )dθ (49)

solução:

1) fórmula de Bayes
p (D | θ) p (θ)
p (θ | D ) = (50)
∫ p (D | θ) p(θ)dθ
3) hipótese de independência
n
p (D | θ) = ∏ p (x k | θ) (51)
k =1

ProfFernandoGomide DCA-FEEC-Unicamp
 Análise

1) p(D|θθ) tem um pico em θ = θˆ


θ) ≠ 0 para θ = θˆ e não varia significativamente na vizinhança
p(θ
(50) → p(θθ|D) tem um pico neste ponto
(49) → p ( x | D ) ≈ p( x | θˆ )
mesmo resultado que o de MV se θ̂ fosse o verdadeiro

θ) é muito acentuado, a influência da informação


2) se pico de p(D|θ
a priori sobre incerteza de θ pode ser desprezada

3) solução Bayesiana usa toda informação disponível


 Aprendizagem Bayesiana incremental

1) Dn = {x1,..., xn}

2) de (51), se n > 1

p (D n | θ) = p ( x n | θ) p (D n-1 | θ) (52)

3) densidade a posteriori

n p (x n | θ) p (θ | D n −1 )
p (θ | D ) = (53)
n n −1
∫ p (D | θ ) p (θ | D )dθ

p (θ | D 0 ) = p (θ)

ProfFernandoGomide DCA-FEEC-Unicamp
 Exemplo: caso unidimensional, distribuição uniforme

1 / θ 0 ≤ x ≤ θ
p ( x | θ) ~ U (0, θ) = 
0 caso contrário

D = {4, 7, 2, 8}

p (θ | D 0 ) = p (θ ) = U (0,10)

1) x1 = 4 e usando (53)

1 0 1 / θ 4 ≤ θ ≤ 10
p (θ | D ) α p ( x | θ) p (θ | D ) = 
0 c .c .

ProfFernandoGomide DCA-FEEC-Unicamp
2) x2 = 7 e usando (53)

2 1 1 /θ 2 7 ≤ θ ≤ 10
p (θ | D ) α p ( x | θ) p (θ | D ) = 
0 c.c.

n) xn = 8 (n = 4) e usando (53)

1 /θ n max[D n ] ≤ θ ≤ 10
p (θ | D n ) α p ( x | θ) p (θ | D n −1 ) =  x
0 c.c.

ProfFernandoGomide DCA-FEEC-Unicamp
p(θ|Dn)

1 /θ n max[D n ] ≤ θ ≤ 10
p (θ | D n ) α p ( x | θ) p (θ | D n −1 ) =  x
0 c.c.

ProfFernandoGomide DCA-FEEC-Unicamp
p(x|D )

MV

Bayes

p( x | D ) = ∫ p( x | θ) p(θ | D )dθ
5-Problemas de dimensionalidade

 Questões

– como a precisão de classificação depende da:


• dimensão do espaço de atributos
• quantidade de amostras de treinamento
– complexidade computacional do classificador
– overfitting

ProfFernandoGomide DCA-FEEC-Unicamp
 Precisão, dimensão e quantidade dados treinamento

– resultados teóricos para atributos independentes


– exemplo com dois atributos: p(x|ωj) ~ N(µ
µj , Σ), j = 1, 2
P(ω1) = P(ω2)
erro classificação Bayes

1 ∞ −u 2 / 2
P ( e) = ∫e du
2 πσ r / 2

r 2 = (µ1 − µ 2 )t Σ −1 (µ1 − µ 2 )

ProfFernandoGomide DCA-FEEC-Unicamp
– P(e) diminui quando r aumenta; P(e) → 0 quando r → ∞
– caso condicionalmente independente Σ = diag(σ1 2,...., σd 2)

d µ −µ 2
2 
r = ∑  i1 i 2 
i =1 σi 

– atributos mais relevantes: aqueles em que a diferença das


médias é grande comparada com o desvio padrão
– atributo é útil se suas médias para os classificadores diferem
– como reduzir erro? adicionar novos atributos independentes

ProfFernandoGomide DCA-FEEC-Unicamp
– observa-se na prática que acrescentar atributos além de
um certo limite deteriora o desempenho do classificador.

– razões principais são as seguintes:

1. hipóteses erradas sobre o modelo


(e.g. Gaussiano, condicionamento)

2. número amostras treinamento pequeno


 Complexidade computacional

– parâmetros distribuição normal para o MV

O(dn) O(nd2) O(1) O(d2n) O(n)

1 ˆ −1 (x − µˆ ) − d ln 2π − 1 ln | Σ
g (x) = − (x − µˆ )t Σ ˆ | + ln P(ω)
2 2 2

– classificação: O(d2)
– aprendizagem Bayesiana: mais complexo devido à integração
 Overftting

– erro dados de treinamento × generalização


– em geral, interpolação ou extrapolação só pode ser feita
de forma confiável se a solução é sobredeterminada, isto é,
o número de pontos é maior do que o número de parâmetros
a serem determinados.
– heurísticas: e.g. shrinkage

(1 − α)ni Σi + αnΣ
Σ i (α ) =
(1 − α)ni + αn

Σ(β) = (1 − β) Σ + βI 0 < α, β < 1


polinômio 10° grau

polinômio 2° grau

f ( x) = ax 2 + bx + c + ε p(ε) ~ N (0, σ 2 )
6-Modelos de Markov

 Modelos de Markov de 1a ordem

– ω(t): estado em t
ωT = {ω(1), ω(2), ...., ω(T)} sequência de tamanho T
exemplo: ω6 = {ω1, ω4, ω2, ω2, ω1, ω2}

– P(ωj(t + 1)|ωi(t)) = aij probabilidade de transição de estado

– modelo θ: conjunto de todos os valores aij


probabilidade modelo gerar ωT : produto das probabilidades
exemplo: P(ωω6|θ
θ) = a14a42a22a21a14
 Modelo Markov de 1a ordem

Modelo de Markov de 1a ordem discreto: estado em t + 1


depende somente do estado em t e das probabilidades de
transição.
 Hidden Markov Models de 1a ordem

– ω(t): estado sistema em t


– estado emite símbolos visíveis v(t)
VT = {v(1), v(2), ...., v(T)} sequência de símbolos visíveis
exemplo: V6 = {v5, v1, v1, v5, v2, v3}

– P(vk(t)|ωi(t)) = bjk probabilidade de emitir símbolo vk

– ω não é observável; acesso somente a símbolos visíveis


modelos escondidos de Markov de 1a ordem
 Modelo escondido de Markov de 1a ordem
 Características

– grafos são máquinas de estado finito


– grafos + probabilidades transição = modelos Markov
– MM são estritamente causais
– ergódigos: aij ≠ 0 ∀i, j
– absorção: estado ωo com aoo = 1

aij = P(ω j (t + 1) | ωi (t )) ∑ aij = 1 ∀i


j

b jk = P(vk (t ) | ω j (t )) ∑ a jk = 1 ∀j
k
 Problemas importantes em HMM

1) Avaliação: temos HMM com aij e bjk ; qual probabilidade


que uma sequência particular VT foi gerada pelo modelo?

2) Decodificação: temos HMM e VT; determinar a sequência


mais provável de estados escondidos ωT que produziu VT.

3) Aprendizagem: dado a estrutura do modelo e um conjunto


de observações de treinamento, determinar aij e bjk .
1) Avaliação

dado um modelo HMM, determinar a probabilidade que este


modelo gerou uma sequência particular VT de estados visíveis
rmax
P(V ) = ∑ P(VT |ωTr ) P(ωTr )
T
r =1

ωTr = {ω(1), ω(2),K, ω(T )}

c estados escondidos → rmax = cT termos possíveis

T
P(ωTr ) = ∏ P(ω(t ) | ω(t − 1)
i =1
T
P(V | ω r ) = ∏ P(v(t ) | ω(t )
T T
i =1
rmax T
P(V ) = ∑ ∏ P(v(t ) | ω(t )) P(ω(t ) | ω(t − 1))
T (135)
r =1 t =1

cálculo de (135): O(TcT) c = 10 e T = 20 → 1021 operações

P(VT) calculado recursivamente: envolve v(t), ω(t) e ω(t – 1)

0 t =0 j ≠ estado inicial

α j (t ) = 1 t =0 j = estado inicial
[∑ α (t − 1)a ]b v(t ) c.c.
 i i ij jk

bjkv(t): probabilidade bjk associada estado visível v(t)


Algoritmo HMM Forward

1 inicialize t ← 0, aij, bjk, sequência visível VT, αj(0)


2 for t ← t + 1
3 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]
4 until t = T
5 return P(VT) ← α0(T)

O(c2T) ~ 2000 operações para c = 10 e T = 20

P(VT | θ) P(θ)
classificação: Bayes P(θ | VT ) =
P(VT )
c
α 2 (3) = [ ∑ α i (2)ai 2 ]b2k
i =1
 Exemplo: avaliação

V4 = {v1, v3, v2, v0}


v0: absorbing state

1 0 0 0
0.2 0.3 0.1 0.4
[aij ] =  
0.2 0.5 0.2 0.1
 
0.8 0.1 0.0 0.1

1 0 0 0 0
0 0.3 0.4 0.1 0.2
[b jk ] =  
0 0.1 0.1 0.7 0.1
 
 0 0.5 0.2 0.1 0.2 
P(VT|θ) = 0.0011
2) Decodificação

dada uma sequência VT de estados visíveis, determinar


a sequência mais provável de estados escondidos

Algoritmo HMM Decoding

1 inicialize t ← 0, Path ← {}
2 for t ← t + 1
3 j←j+1
4 for j ← j + 1
5 αj(t) ← bjk v(t)[ ∑i = 1,..,c(αi(t – 1) aij ]
6 until t = T
7 j' = arg maxj αj(t)
8 Append ωj' to Path
9 until t = T
10 return Path
obs: máximos locais → não garante consistência da solução global
 Exemplo: decodificação (exemplo de avaliação)

solução: {ω1, ω3, ω2, ω1, ω0} (inconsistente !! a32 = 0)


3) Aprendizagem

determinar os parâmetros do modelo, aij, bjk

algoritmo forward-backward

αi(t): probabilidade modelo estar no estado ωi(t) e gerou sequência


de referência até t
βi(t): probabilidade modelo está no estado ωi(t) e vai gerar sequência
de referência de t + 1 até T

0 ωi (t ) ≠ ω0 t = T

βi (t ) = 1 ωi (t ) = ω0 t = T (138)
∑ β (t + 1)a b v(t + 1) c.c.
 j j ij jk
 Justificativa de (138)

– supor αi(t) conhecido até T – 1


– probabilidade que o modelo gerar o último símbolo visível ?
– esta probabilidade é βi(T)
– βi(T) = probabilidade transição para ωi(T)
×
probabilidade estado emitir símbolo visível correto
– definição: βi(T) = 0, se ωi(T) ≠ ω0
βi(T) = 1, se ωi(T) = ω0
– logo βi(T – 1) = ∑jaijbjk(T) βi(T)
– γij(t) probabilidade transição entre ωi(t – 1) e ωj(t) dado que o
modelo gerou toda a sequência de treinamento VT em
qualquer caminho
– definimos γij(t)

α i (t − 1)aij b jk β j (t )
γ ij (t ) =
P ( V T | θ)

– γij(t) probabilidade transição de ωi(t – 1) para ωj(t) dado que o


modelo gerou a sequência visível VT completamente
 Estimativa das probabilidades de transição

∑Tt=1 γ ij (t ) número esperado de transições de ωi(t – 1) para ωj(t)


na sequência de treinamento

∑Tt=1 ∑ k γ ik número total esperado de transições de ωj(t) para


qualquer outro estado
T
∑ ∑l γ jl (t )
t =1
∑Tt=1 γ ij (t ) v (t ) = v k
aˆij (t ) = (140) bˆ jk (t ) = (141)
∑tt =1 ∑ k γ ik (t ) ∑tt =1 ∑l γ jl (t )
Algoritmo Forward-Backward

1 inicialize z ← 0, aij, bjk, sequência treinamento VT, ε convergência


2 do t ← t + 1
3 calcular â(z) usando a(z – 1) e (140)
4 calcular bˆ( z ) usando b(z – 1) e (141)
5 aij (z) ← âij (z – 1)
6 b jk ( z ) ← bˆ jk
7 until max[aij (z) – aij (z – 1), aij (z) – aij (z – 1)] < ε
8 return aij ← aij (z), bij ← bij (z),
9-Resumo
 Forma densidades condicionais classe conhecida
 Aprendizagem
– estimação de parâmetros MV
– estimação densidades Bayes
 Impacto da dimensão espaço atributos e dados de treinamento
 Decisão sequencial com modelos de Markov
Observação

Este material refere-se às notas de aula do curso CT 720 Tópicos Especiais


em Aprendizagem de Máquina e Classificação de Padrões da Faculdade de
Engenharia Elétrica e de Computação da Unicamp e do Centro Federal de
Educação Tecnológica do Estado de Minas Gerais. Não substitui o livro
texto, as referências recomendadas e nem as aulas expositivas. Este material
não pode ser reproduzido sem autorização prévia dos autores. Quando
autorizado, seu uso é exclusivo para atividades de ensino e pesquisa em
instituições sem fins lucrativos.

ProfFernandoGomide DCA-FEEC-Unicamp