Академический Документы
Профессиональный Документы
Культура Документы
tal que a medida total de átomes ai , i > k, é menor ou igual a ✏. Por conseguinte, o con-
junto finito de 2k conceitos que são subconjuntos de {a1 , a2 , . . . , ak } forma uma ✏-rede
em 2⌦ , relativo à distância d(C, D) = µ(C D) medidora do erro de generalização: qual
quer seja D 2 2⌦ , existe C ✓ {a1 , a2 , . . . , ak }, tal que µ(C D) < ✏. (Basta definir
D = C \ {a1 , a2 , . . . , ak }). Esta propriedade significa que o conjunto 2⌦ munido da
distância d é totalmente limitado, é essa propriedade é responsável pela aprendizabilidade
da classe 2⌦ .
Para medidas mais gerais, nós já sabemos que as classes finitas são PAC aprendizáveis.
Esta observação é no coração do algoritmo de Benedek e Itai que dá as condições ne-
cessárias e suficiêntes da aprendizabilidade sob uma medida fixa. Vamos mostrar o resul-
tado nessa seção.
3.3.1. Números de cobertura e de empacotamento. Relembramos que uma pseu-
dométrica sobre um conjunto é uma função de duas variáveis, d(x, y), que satisfaz todos
os axiomas de uma métrica exceito a primeira: pode ser que d(x, y) = 0 para x 6= y.
Um conjunto munido de uma pseudométrica é chamado um espaço pseudométrico. Por
exemplo, estritamente dito, a distância L1 (µ) é só uma pseudométrica, se a medida µ não
for puramente atómica (exercı́cio).
E XERC ÍCIO 3.3.1. Dado um espaço pseudométrico, (X, d), mostrar que a relação
d
x ⇠ y () d(x, y) = 0
d
é uma relação de equivalência, e que o conjunto quociente X̃ = X/ ⇠ de classes de
equivalência [x], x 2 X, admite uma métrica, definida corretamente pela regra
˜
d([x], [y]) = d(x, y).
Além disso, mostrar que a métrica d˜ sobre X̃ é a maior métrica tal que a aplicação quoci-
ente,
X 3 x 7! [x] 2 X̃,
é Lipschitz contı́nua com a constante L = 1.
˜ é chamado o espaço métrico associado ao espaço pseu-
O espaço métrico X̃, d)
dométrico (X, d), ou simplesmente o quociente métrico de (X, d).
Então, dado um espaço probabilı́stico padrão, (⌦, µ), o sı́mbolo L1 (⌦, µ) tipicamente
significa o quociente métrico do espaço de todas as funções borelianas sobre ⌦ munidas da
pseudométrica L1 (µ). Vamos ser ambı́guos e a ma maioria de casos vamos trabalhar di-
reitamente com o espaço pseudométrico original, sem passar ao espaço métrico quociente,
embora usando o mesmo sı́mbolo.
D EFINIÇ ÃO 3.3.2. Sejam (X, d) um espaço pseudométrico e Y ✓ X um subconjunto.
Então Y é dito totalmente limitado em X, ou: precompacto em X, se para todo " > 0
existe uma cobertura finita de Y com as bolas abertas:
k
[
9x1 , x2 , . . . , xk 2 X, Y ✓ B✏ (xi ).
i=1
Esta noção não deve ser confundida com a noção de um subconjunto relativamente
compacto: Y é relativamente compacto em X se e apenas se a aderência de Y em X é
compacta. Cada subconjunto relativamente compacto é precompacto, mas não o contrário.
As noções de um conjunto totalmente limitado e de um conjunto precompacto são rigoro-
samente sinônimas.
3.3. TEOREMA DE BENEDEK E ITAI 77
É claro que o número BX (✏, Y ) é finito para todo " > 0 se e somente se Y é pre-
compacto. No mesmo tempo, os números de cobertura são as caraterı́sticas relativas e
dependem do espaço ambiente, X.
E XERC ÍCIO 3.3.5. Construir um espaço (pseudo)métrico X e um subespaço Y tais
que existe ✏ > 0 com
NX (✏, Y ) NY (✏, Y ).
A precompacidade de um espaço pseudométrico Y pode ser também exprimida em
termos de números de empacotamento, qui são absolutas (não dependem do espaço ambi-
ente).
D EFINIÇ ÃO 3.3.6. Sejam X um espaço pseudométrico, " > 0. O número de empa-
cotamento (packing number), D(✏, X), é o maior número de pontos à distância ✏ dois a
dois:
D(✏, X) = sup{n 2 N : 9x1 , x2 , . . . , xk 2 X, (i 6= j)d(xi , xj ) ✏}.
L EMA 3.3.7. Sejam X um espaço pseudométrico, Y ✓ X, e ✏ > 0. Então,
NX (✏, Y ) NY (✏, Y ) D(✏, Y ) NX (✏/2, Y ) NY (✏/2, Y ).
D EMONSTRAÇ ÃO . Se temos um ✏-empacotamento máximo de Y , x1 , x2 , . . . , xk ,
então não podemos adicionar mais um ponto y de modo que as distâncias d(y, xi ) se-
jam ✏. Isso significa que as bolas abertas de raio ✏ em torno de pontos xi formam uma
cobertura de X.
Agora, seja B✏/2 (xi ), i = 1, 2, . . . , k uma cobertura de Y pelas bolas abertas em X.
Seja y1 , . . . , ym um subconjunto finito de Y de pontos dois a dois à distância ✏. Cada
bola B✏/2 (xi ) pode conter no máximo um ponto yj , o que significa duas coisas: m k, e
por isso existe um ✏-empacotamento máximo em Y , que tem k elementos. ⇤
Eis um exemplo importante.
P ROPOSIÇ ÃO 3.3.8. O número de empacotamento do cubo de Hamming satisfaz
2
e 2( 2 ✏) n
1
D(✏, ⌃n ) ,
quando ✏ < 1/2.
D EMONSTRAÇ ÃO . Escolhemos um ✏-empacotamento máximo, ou seja, um subcon-
junto X de ⌃n que é máximo com a propriedade seguinte: se x, y 2 X e x 6= y, então
¯ y)
d(x, ✏. A maximalidade implica que as bolas B✏ (x), x 2 X cobrem ⌃n , e por
conseguinte
X 2
µ] (B✏ (x)) = ](X)µ] (B✏ (0)) ](X)e 2( 2 ✏) n ,
1
1 = µ] (⌃n )
x2X
usando a estimativa do volume da bola da subseção 1.4.4, Eq. (1.16). ⇤
78 3. APRENDIZAGEM PAC
2
O argumento seguinte aplica-se com a confiança 1 2ke 2("/3) n , isto é: a proba-
bilidade que o argumento inteiro seja correto, é pelo menos o valor acima.
Sabemos que existe i tal que erroC (Hi , µ) < "/3. Isso implica que
" " 2"
erroC (Hi , µ ) < + = .
3 3 3
A hipótese H = Hj escolhida pela nossa regra de minimização do erro empı́rico pode ser
diferente de Hi , mas ela satisfaz tudo mesmo
2"
erroC (Hj , µ ) erroC (Hi , µ ) = ,
3
e por conseguinte
2" "
erroC (Hj , µ) < + = ".
3 3
2
Então, com a confiança 1 2ke 2("/3) n
, a nossa regra aprende o conceito C com a
precisão ✏.
Resta estimar a complexidade amostral: a desigualdade desejada
2("/3)2 n
2ke
transforma-se em
2"2
ln ln(2k) n,
9
ou seja,
9 2k
n ln .
2"2
3.3.2.2. Necessidade de precompacidade da classe. Agora suponhamos que a classe
C seja aprendizável. Denotaremos L uma regra de aprendizagem que PAC aprende C .
Lema 3.2.6 significa que todo 2"-empacotamento de C é finito, em particular C é precom-
pacto, com
D(2✏, C ) 2n+1 ,
é a complexidade amostral de aprendizagem de C satisfaz
s(✏, ) log2 D(2✏, C ) 1,
quando 1/2.
O BSERVAÇ ÃO 3.3.10. Nota como pouco sensı́vel é a dependência da complexidade
amostral sobre . Diz-se que “confiança é barata” (“confidence is cheap”).
3.3.3. Regras consistentes.
D EFINIÇ ÃO 3.3.11. Uma regra de aprendizagem L é dita consistente com uma classe
de conceitos, C , se
• todas as hipóteses produzidas por L pertencem a C ,
8n, 8 2 ⌦n ⇥ {0, 1}n , L( ) 2 C ,
• a hipótese induz sobre a amostra a rotulagem original sempre que possı́vel:
8C 2 C , 8n, 8 2 ⌦n , L(C ) =C .
D EFINIÇ ÃO 3.3.12. Uma classe de conceitos C é consistentemente aprendizável se
cada regra L consistente com C PAC aprende C .
80 3. APRENDIZAGEM PAC
seja boreliana. Vamos adiar a discussão até mais tarde, para não perdermos numas tecni-
calidades prematuramente.
O BSERVAÇ ÃO 3.3.14. Como vimos na seção 3.1, cada classe de conceitos é consis-
tentemente aprendizável sob uma medida discreta.
E XEMPLO 3.3.15. Seja ⌦ = [0, 1], o intervalo fechado, munido da medida de Le-
besgue, , ou seja, a distribuição uniforme. A classe de conceitos, C , consiste de todos
os subconjuntos finitos e cofinitos do intervalo. O espaço métrico associado ao espaço
pseudométrico C , munido da distância (C D), consiste de dois pointos: a classe de
equivalência do conceito vazio e a do intervalo, a distância 1 um de outro. Em outras pala-
vras, é o espaço métrico {0, 1} com a distância usual. Segundo o teorema de Benedek-Itai,
este classe é PAC aprendizável.
No mesmo tempo, existe uma regra de aprendizagem consistente cujas hipóteses são
os conceitos finitos. Por exemplo, dado uma amostra rotulada
= (x1 , x2 , . . . , xn , ✏1 , ✏2 , . . . , ✏n ),
H = Ln ( ) = {xi : ✏i = 1, i = 1, 2, . . . , n}.
sC ("k , 0 , µ) fk .
Se j, j 0 = 1, 2, . . . , fk , j 6= j 0 , então
N
X
µ(Cj Cj 0 ) = µ((Cj \ Ai ) (Cj 0 \ Aj 0 ))
i=k
N
X
= ¯ i
i d( j ,
i
j0 )
i=k
N
X 1
i
3
i=k
1
> · 6"k
3
= 2"k .
⇤
3.4.2. Consequências para medidas diffusas. Aqui vamos modificar o resultado
acima a fim de construir um exemplo de uma classe de conceitos, C , que são subconjuntos
de ⌦ = R, com as propriedades seguintes:
• Qual quer seja a medida de probabilidade boreliana sobre ⌦, a classe não é trivial
em relação com a distância L1 (µ);
• C é PAC aprendizável sob toda medida de probabilidade boreliana sobre ⌦, e
• a taxa de aprendizágem pode ser tanto lenta que desejado, incluindo sob umas
medidas difusas.
A classe C consiste de todos os uniões dos intervalos semi-abertos da forma [n, n+1),
n 2 Z. Dado I ✓ Z, denotaremos
[
CI = [n, n + 1).
n2I
Desse modo, existe uma bijeção natural entre os elementos de C e os de 2Z , dada por
(C) = C \ Z.
3.4. TAXA DE APRENDIZAGEM 83
Se µ é uma medida de probabilidade sobre ⌦, então ⇤ é a sua imagem direita, uma medida
de probabilidade sobre Z dada por
⇤ (µ){k} = µ([k, k + 1)).
Dado uma regra de aprendizagem, L , no domı́nio Z, pode se definir a regra para ⌦, que
nos denotaremos L . Ela é dada por
1
Ln ( ) = (Ln ( ( ))).
E XERC ÍCIO 3.4.3. Se a regra L PAC aprende a classe 2Z sob a medida ⇤, então L
aprende C sob a medida µ, com a mesma complexidade amostral.
Dado uma regra de aprendizagem L sobre o domı́nio ⌦, pode se definir uma regra
para Z, usando a imerção canónica, i, de Z dentro R:
L i ( ) = L ( ) \ Z.
E XERC ÍCIO 3.4.4. Se a regra L PAC aprende a classe C sob a medida µ,, então L i
aprende 2Z sob a medida ⇤ , com a complexidade amostral menor ou igual à complexidade
de L .
Juntos, dois exercı́cios estabelecem a validade da afirmação desejada.
3.4.3. Consequências para o classificador 1-NN. O classificador de vizinho mais
próximo (1-NN) pode ser definido no todo domı́nio munido da uma “medida de semelhança”
qualquer (não necessariamente uma métrica). Mais geralmente, ⌦ tem que apoiar uma
famı́lia de preordens, x , uma para cada ponto x 2 ⌦, tais que x é o ponto mı́nimo desta
preordem e a condição y x z é interpretado como significando que y é mais perto de x
que z. As preordens x devem satisfazer umas condições de mesurabilidade. Como supo-
nhamos que as amostras são ordenadas, no caso de mais de um vizinho mais próximo de
x vamos desempatar escolhendo o vizinho xi com o ı́ndice i menor. Mas pelo momento,
uma teoria geral desse tipo falta, e existe só para espaços métricos.
Vamos tratar o caso que parece até ser trivial, o da métrica zero-um, que so toma dois
valores: (
0, se x = y,
d(x, y) =
1, se x 6= y.
A estrutura boreliana induzida pela tal métrica contem todos os subconjuntos do domı́nio,
que por conseguinte deve ser enumerv́el. Concluimos que toda medida de probabilidade
sobre ⌦ é discreta. Dado um conjunto finito dos átomos, a1 , a2 , . . . , ak , se n for bastante
grande, com alta confiança todos aj vai aparecer entre os elementos da amostra aleatória,
x1 , x2 , . . . , xn . Se xi = aj , o seu vizinho mais próximo é aj mesmo, e o rótulo de aj vai
ser escolhido para xi pela regra 1-NN. Esse argumento estabelece que a regra 1-NN neste
contexto é consistente com a classe 2⌦ , logo PAC aprende a classe. No mesmo tempo,
o teorema 3.4.1 implica que a taxa de aprendizagem pode ser tanto lenta que desejado,
segundo µ. Esta conclusão vale para caso geral de classificadores k-NN nos domı́nios
quaisquer.
Mesmo se nessa situação o classificador 1-NN pode aparecer como uma regra de
aprendizagem dentro uma classe, na verdade, ele é de uma natureza completamente di-
ferente e merece um modelo de aprendizagem particular. Vamos fazer isso num capı́tulo
especial.