Вы находитесь на странице: 1из 3

PEE/COPPE/UFRJ  Aprendizado de

Máquina (CPE 775)


Prof: J.B.O. Souza Filho (jblho@poli.ufrj.br)
15 de setembro de 2017

Base: Abu-mostafa, capítulos 1 e 2.

I Conceitos Básicos de Aprendizado de Máquina

I.I Teóricos

1. Considere uma amostra de 10 bolas sorteadas, de forma independente,


de um cesto com bolas vermelhas e verdes. A probabilidade de uma bola
vermelha é µ. Para µ = 0.05, µ = 0.5 e µ = 0.8, calcule a probabilidade
de nenhuma bola vermelha ser sorteada (ν ) nos seguintes casos:
(a) Quando há o sorteio de uma única amostra.
(b) Quando há o sorteio de 1000 amostras independentes. Compute a
probabilidade de que (pelo menos) uma das amostras tenha ν = 0.
(c) Repita (b) para 1000000 amostras independentes.
2. Considere uma hipótese h que comete um erro com probabilidade µ ao
aproximar uma função alvo determinística f , onde h e f são funções
binárias. Se utilizarmos a mesma função h para aproximar uma versão
ruidosa de f dada por:
(
λ, y = f (x),
P (y|x) =
1 − λ, y =
6 f (x).

(a) Qual é a probabilidade de erro cometida por h ao aproximar y ?

1
(b) Para qual valor de λ o desempenho de h será independente de µ?.

3. Assuma que X = {x1 , x2 , . . . , xN , xN +1 , . . . , xN +M } e Y = {−1, +1}


através de uma função desconhecida f : X → Y . O conjunto de treina-
mento D é (x1 , y1 ), · · · , (xN , yN ). Assuma que o erro fora do conjunto
de treinamento de uma hipótese h com respeito a f é dado por:
1
PM
Eof f (h, f ) = M m=1 [[h(xN +m ) 6= f (xN +m )]]

(a) Assumind f (x) = +1, para todo x, e


(
+1, para x = xk e k impar e 1 ≤ k ≤ M + N
h(x) = .
−1 caso contrário.
Qual é o valor de Eof f (h, f )?
(b) Pode-se dizer que uma função alvo f pode "gerar"D sem ruído se
yn = f (xn ) para todo (xn , yn ) ∈ D. Para um conjunto D xo de
tamanho N , quantos possíveis f : X → Y podem gerar D sem
ruído?
(c) Para uma dada hipótese h e inteiro k entre 0 e M , quantos dos f
em (b) satisfazem Eof f (h, f ) = mk ?
(d) Para uma dada hipótese h, se todos aqueles f que geram D sem
ruído são igualmente prováveis em probabilidade, qual é o erro
esperado fora do conjunto de treinamento Ef [Eof f (h, f )]?

4. Suponha um simples modelo de aprendizado cuja função de crescimento


é mH (N ) = N + 1, portanto dvc = 1. Use o limite VC para estimar a
probabilidade que Eout esteja dentro de 0.1 do Ein para 100 amostras
de treino.
5. Um conjunto de dados possui 600 exemplos. Para testar apropriada-
mente o desempenho da hipótese nal, um subconjunto de 200 exemplos
que nunca é utilizado na fase de aprendizado forma o conjunto de teste.
É utilizado um modelo de aprendizado com 1000 hipóteses, sendo se-
lecionada a hipótese nal g com base em 400 exemplares de treino. É
desejado estimar Eout (g). Há acesso a duas estimativas: Ein (g), o erro
de 400 amostras de treino; e, Etest (g), o erro em 200 amostras de teste.

2
(a) Utilizando uma tolerância de erro de 5% (δ = 0.05), qual estima-
tiva resulta numa maior barra de erro?
(b) Há alguma razão porque um maior número de amostras de teste
não são alocadas?
6. Para funções alvo binárias, mostre que P[h(x) 6= f (x)] pode ser es-
crita como o valor esperado de uma medida baseada na média de erro
quadrático nos seguintes casos.
(a) A convenção usada para funções binárias é 0 ou 1.
(b) A convenção usada para funções binárias é ±1.
7. Quando há ruído nos dados, Eout (g (D) ) = Ex,y [(g (D) (x) − y(x))2 ], onde
y(x) = f (x)+. Se  é uma variável aleatória com variância σ 2 , mostre
que a decomposição viés-variança pode ser escrita na forma:
ED [Eout (g (D) )] = σ 2 + bias + var

II Teórico-computacional

8. Considere um cenário de aprendizado onde a dimensão de entrada é


um. A variável de entrada x é distribuída de forma uniforme no inter-
valo [−1, 1]. O conjunto de dados é constituído por 2 pontos {x1 , x2 }.
Assuma uma função alvo f (x) = x2 . Portanto, o conjunto de dados
completo é D = {(x1 , x21 ), (x2 , x22 )}. O algoritmo de aprendizado re-
torna uma linha que ajusta esses dois pontos como g (H consiste de
funções na forma h(x) = ax + b).É de interesse a performance de teste
(Eout ) do nosso algoritmo de aprendizado com respeito à medida de erro
quadrática, bem como o bias (viés) e var (variância) da estimativa.
(a) Dê uma expressão analítica para a função média ḡ(x).
(b) Descreva um experimento que possa ser executado para determi-
nar (numericamente) ḡ(x), Eout , bias e var.
(c) Execute seu experimento e reporte os resultados. Compare Eout
com bias + var. Forneça um gráco de seu ḡ(x) e f (x) (no mesmo
gráco).
(d) Calcule, analiticamente, o valor de Eout , viés e var.

Вам также может понравиться