Вы находитесь на странице: 1из 9

3.3.

TEOREMA DE BENEDEK E ITAI 75

o que é satisfeito sobre a hipótese (3.6). ⇤


Deste modo, podemos implementar o conjunto de n dados provavelmente aproxima-
damente coretamente num espaço de dimensão O(log n).
E XERC ÍCIO 3.2.21. Obter uma modificação do teorema 3.2.20 válida para todas as
distâncias Lp (µ), 1  p < +1:
✓Z ◆1/p
p
k f kLp (µ) = |f | dµ .

Segue-se um caso particular importante.


E XERC ÍCIO 3.2.22. Se ⌦ = [d] = {1, 2, 3, . . . , d} um conjunto finito munido da
medida de contagem normalizada, µ] . Verificar que o espaço L1 (µ] ) é o cubo de Hamming
⌃d , e a distância L1 (µ] ) é a distância de Hamming normalizada.
C OROL ÁRIO 3.2.23. Seja X ✓ ⌃n um conjunto de dados realizado no cubo de Ham-
ming, munido da distância de Hamming normalizada. Denotaremos n = |X|. Sejam
", > 0. Tiramos aleatoriamente de [n] um subconjunto I com
1 n
|I| 2
ln = O(log n)
"
elementos. Então, com a confiança 1 , a projeção,
x 7! x I,
de X sobre um sub-cubo aleatório ⌃I conserva as distâncias entre os elementos de X a
menos ":
d " I
8i, j, d¯⌃ (x, y) ⇡ d¯⌃ (x I, y I).
Este gênero de resultados foi usado pelos atores do artigo influente [33] para construir
uma esquema de indexação eficaz para busca de vizinhos próximos aproximadamente co-
reta no cubo de Hamming. No mesmo tempo, o problema da existência das esquemas da
busca exata não está resolvida. A validade da seguinte conjetura ainda é um problema em
aberto.

Conjetura de maldição de dimensionalidade [26] Seja X um conjunto de dados com n


pontos no cubo de Hamming {0, 1}d . Suponha que d = no(1) e d = !(log n). Então cada
estrutura de dados para a pesquisa exata de semelhança em X, com o tempo da pesquisa
dO(1) , deve usar o espaço n!(1) .

As estruturas de dados e os algoritmos são entendidos no sentido do modelo de sonda


de célula da computação (cell probe model) [43]. Os melhores limites conhecidos [2, 46]
são muito longe de resolver o problema. A conjetura foi somente mostrada para algumas
estruturas concretos [49]. Pode-se ligar a conjetura de maldição de dimensionalidade com
algumas conjeturas da complexidade computational, nomeadamente P contra BP P ? [27].

3.3. Teorema de Benedek e Itai


Como nós nostramos na seção 3.2.2, uma classe aprendizável sob uma medida fixa não
contém famı́lias infinitas uniformemente discretas. De fato, esta propriedade caraterisa as
classes aprendizáveis.
Por exemplo, esta propriedade é exatamente o que torna a classe 2⌦ de todos os sub-
conjuntos do domı́nio aprendizável sob uma medida discreta. Dado ✏ > 0, existe k = k(✏)
76 3. APRENDIZAGEM PAC

tal que a medida total de átomes ai , i > k, é menor ou igual a ✏. Por conseguinte, o con-
junto finito de 2k conceitos que são subconjuntos de {a1 , a2 , . . . , ak } forma uma ✏-rede
em 2⌦ , relativo à distância d(C, D) = µ(C D) medidora do erro de generalização: qual
quer seja D 2 2⌦ , existe C ✓ {a1 , a2 , . . . , ak }, tal que µ(C D) < ✏. (Basta definir
D = C \ {a1 , a2 , . . . , ak }). Esta propriedade significa que o conjunto 2⌦ munido da
distância d é totalmente limitado, é essa propriedade é responsável pela aprendizabilidade
da classe 2⌦ .
Para medidas mais gerais, nós já sabemos que as classes finitas são PAC aprendizáveis.
Esta observação é no coração do algoritmo de Benedek e Itai que dá as condições ne-
cessárias e suficiêntes da aprendizabilidade sob uma medida fixa. Vamos mostrar o resul-
tado nessa seção.
3.3.1. Números de cobertura e de empacotamento. Relembramos que uma pseu-
dométrica sobre um conjunto é uma função de duas variáveis, d(x, y), que satisfaz todos
os axiomas de uma métrica exceito a primeira: pode ser que d(x, y) = 0 para x 6= y.
Um conjunto munido de uma pseudométrica é chamado um espaço pseudométrico. Por
exemplo, estritamente dito, a distância L1 (µ) é só uma pseudométrica, se a medida µ não
for puramente atómica (exercı́cio).
E XERC ÍCIO 3.3.1. Dado um espaço pseudométrico, (X, d), mostrar que a relação
d
x ⇠ y () d(x, y) = 0
d
é uma relação de equivalência, e que o conjunto quociente X̃ = X/ ⇠ de classes de
equivalência [x], x 2 X, admite uma métrica, definida corretamente pela regra
˜
d([x], [y]) = d(x, y).
Além disso, mostrar que a métrica d˜ sobre X̃ é a maior métrica tal que a aplicação quoci-
ente,
X 3 x 7! [x] 2 X̃,
é Lipschitz contı́nua com a constante L = 1.
˜ é chamado o espaço métrico associado ao espaço pseu-
O espaço métrico X̃, d)
dométrico (X, d), ou simplesmente o quociente métrico de (X, d).
Então, dado um espaço probabilı́stico padrão, (⌦, µ), o sı́mbolo L1 (⌦, µ) tipicamente
significa o quociente métrico do espaço de todas as funções borelianas sobre ⌦ munidas da
pseudométrica L1 (µ). Vamos ser ambı́guos e a ma maioria de casos vamos trabalhar di-
reitamente com o espaço pseudométrico original, sem passar ao espaço métrico quociente,
embora usando o mesmo sı́mbolo.
D EFINIÇ ÃO 3.3.2. Sejam (X, d) um espaço pseudométrico e Y ✓ X um subconjunto.
Então Y é dito totalmente limitado em X, ou: precompacto em X, se para todo " > 0
existe uma cobertura finita de Y com as bolas abertas:
k
[
9x1 , x2 , . . . , xk 2 X, Y ✓ B✏ (xi ).
i=1

Esta noção não deve ser confundida com a noção de um subconjunto relativamente
compacto: Y é relativamente compacto em X se e apenas se a aderência de Y em X é
compacta. Cada subconjunto relativamente compacto é precompacto, mas não o contrário.
As noções de um conjunto totalmente limitado e de um conjunto precompacto são rigoro-
samente sinônimas.
3.3. TEOREMA DE BENEDEK E ITAI 77

E XERC ÍCIO 3.3.3. Mostrar que Y é totalmente limitado em X se e somente se Y é


totalmente limitado em si mesmo.
D EFINIÇ ÃO 3.3.4. Seja " > 0. Um número de cobertura (covering number), NX (✏, Y ),
de um subconjunto Y em um espaço pseudométrico X é o menor tamanho de uma cober-
tura de Y pelas bolas abertas em X:
( k
)
[
NX (", Y ) = min k 2 N : 9x1 , x2 , . . . , xk 2 X, Y ✓ B" (xi ) .
i=1

É claro que o número BX (✏, Y ) é finito para todo " > 0 se e somente se Y é pre-
compacto. No mesmo tempo, os números de cobertura são as caraterı́sticas relativas e
dependem do espaço ambiente, X.
E XERC ÍCIO 3.3.5. Construir um espaço (pseudo)métrico X e um subespaço Y tais
que existe ✏ > 0 com
NX (✏, Y ) NY (✏, Y ).
A precompacidade de um espaço pseudométrico Y pode ser também exprimida em
termos de números de empacotamento, qui são absolutas (não dependem do espaço ambi-
ente).
D EFINIÇ ÃO 3.3.6. Sejam X um espaço pseudométrico, " > 0. O número de empa-
cotamento (packing number), D(✏, X), é o maior número de pontos à distância ✏ dois a
dois:
D(✏, X) = sup{n 2 N : 9x1 , x2 , . . . , xk 2 X, (i 6= j)d(xi , xj ) ✏}.
L EMA 3.3.7. Sejam X um espaço pseudométrico, Y ✓ X, e ✏ > 0. Então,
NX (✏, Y )  NY (✏, Y )  D(✏, Y )  NX (✏/2, Y )  NY (✏/2, Y ).
D EMONSTRAÇ ÃO . Se temos um ✏-empacotamento máximo de Y , x1 , x2 , . . . , xk ,
então não podemos adicionar mais um ponto y de modo que as distâncias d(y, xi ) se-
jam ✏. Isso significa que as bolas abertas de raio ✏ em torno de pontos xi formam uma
cobertura de X.
Agora, seja B✏/2 (xi ), i = 1, 2, . . . , k uma cobertura de Y pelas bolas abertas em X.
Seja y1 , . . . , ym um subconjunto finito de Y de pontos dois a dois à distância ✏. Cada
bola B✏/2 (xi ) pode conter no máximo um ponto yj , o que significa duas coisas: m  k, e
por isso existe um ✏-empacotamento máximo em Y , que tem  k elementos. ⇤
Eis um exemplo importante.
P ROPOSIÇ ÃO 3.3.8. O número de empacotamento do cubo de Hamming satisfaz
2
e 2( 2 ✏) n
1
D(✏, ⌃n ) ,
quando ✏ < 1/2.
D EMONSTRAÇ ÃO . Escolhemos um ✏-empacotamento máximo, ou seja, um subcon-
junto X de ⌃n que é máximo com a propriedade seguinte: se x, y 2 X e x 6= y, então
¯ y)
d(x, ✏. A maximalidade implica que as bolas B✏ (x), x 2 X cobrem ⌃n , e por
conseguinte
X 2
µ] (B✏ (x)) = ](X)µ] (B✏ (0))  ](X)e 2( 2 ✏) n ,
1
1 = µ] (⌃n ) 
x2X
usando a estimativa do volume da bola da subseção 1.4.4, Eq. (1.16). ⇤
78 3. APRENDIZAGEM PAC

3.3.2. Teorema de Benedek e Itai: aprendizagem sob uma distribuição fixa.


T EOREMA 3.3.9. Seja (⌦, µ) um espaço probabilı́stico padrão. Para uma classe de
conceitos C ✓ B⌦ , as condições seguintes são equivalentes.
• C é PAC aprendizável.
• C é precompacto relativo à pseudométrica L1 (µ).
A complexidade amostral de uma classe C que satisfaz uma destas condições equivalentes
verifica
9 2N ("/3, C , L1 (µ))
log2 D(2✏, C ) 1  s(✏, )  2 ln ,
2"
quando  1/2.
3.3.2.1. A regra de aprendizagem. Suponha primeiramente que C seja L1 (µ)-pre-
compacto. Dado ✏ > 0, escolha uma ✏/3-rede finita, ou seja, os conjuntos borelianos
H1 , H2 , . . . , Hk
tais que, qual quer seja C 2 C , existe i = 1, 2, . . . , k com µ(C Hi ) < ✏/3. Os conjuntos
Hi (hipóteses) não tem que necessariamente pertencer à classe C . Elas formam uma classe
de hipóteses, H.
Seja C 2 C um conceito deconhecido qualquer. Dado uma amostra rotulada,
= (x1 , x2 , . . . , xn , ✏1 , ✏2 , . . . , ✏n ),
temos em particular a medida empı́rica, µ ,
1
µ (A) = ]{i : xi 2 A}.
n
O que se sabe, é o traço de C sobre :
C \ supp = {xi : ✏i = 1}.
Dado uma hipótese H qualquer conhecida a nós, podemos calcular o erro empı́rico de H:
n
1X
erroC (H, µ ) = µ (H C \ supp ) = µ (C H) = | C (xi ) H (xi )|,
n i=1
pois nós sabemos calcular os valores C (xi ) e H (xi ) para todos elementos xi 2 da
amostra. (Os valores C (xi ) são determinados pela dada rotulagem da , e a hipotese H
é conhecida).
A regra de aprendizágem é a de minimização de erro empı́rico na classe de hipóteses
H. Em outras palavras, buscamos a hipótese Hi que minimiza o erro empı́rico relativo ao
conceito C:
j = arg min µ (C Hi ).
i
Aplicamos o corolário 3.2.14 à classe de conjuntos da forma C Hi , i = 1, 2, . . . , k,
2
com a precisão "/3. Concluimos que, com a confiança 1 2ke 2("/3) n , a medida
empı́rica de cada um de k conceitos C Hi difere da sua medida verdadeira por menos de
✏/3 > 0:
n ✏o 2
µ⌦n 9i = 1, 2, . . . , k |µ (C Hi ) µ(C Hi )|  2ke 2("/3) n ,
3
ou seja,
n ✏o 2
µ⌦n 8i = 1, 2, . . . , k |erroC (Hi , µ ) erroC (Hi , µ)|  > 1 2ke 2("/3) n .
3
3.3. TEOREMA DE BENEDEK E ITAI 79

2
O argumento seguinte aplica-se com a confiança 1 2ke 2("/3) n , isto é: a proba-
bilidade que o argumento inteiro seja correto, é pelo menos o valor acima.
Sabemos que existe i tal que erroC (Hi , µ) < "/3. Isso implica que
" " 2"
erroC (Hi , µ ) < + = .
3 3 3
A hipótese H = Hj escolhida pela nossa regra de minimização do erro empı́rico pode ser
diferente de Hi , mas ela satisfaz tudo mesmo
2"
erroC (Hj , µ )  erroC (Hi , µ ) = ,
3
e por conseguinte
2" "
erroC (Hj , µ) < + = ".
3 3
2
Então, com a confiança 1 2ke 2("/3) n
, a nossa regra aprende o conceito C com a
precisão ✏.
Resta estimar a complexidade amostral: a desigualdade desejada
2("/3)2 n
 2ke
transforma-se em
2"2
ln  ln(2k) n,
9
ou seja,
9 2k
n ln .
2"2
3.3.2.2. Necessidade de precompacidade da classe. Agora suponhamos que a classe
C seja aprendizável. Denotaremos L uma regra de aprendizagem que PAC aprende C .
Lema 3.2.6 significa que todo 2"-empacotamento de C é finito, em particular C é precom-
pacto, com
D(2✏, C )  2n+1 ,
é a complexidade amostral de aprendizagem de C satisfaz
s(✏, ) log2 D(2✏, C ) 1,
quando  1/2.
O BSERVAÇ ÃO 3.3.10. Nota como pouco sensı́vel é a dependência da complexidade
amostral sobre . Diz-se que “confiança é barata” (“confidence is cheap”).
3.3.3. Regras consistentes.
D EFINIÇ ÃO 3.3.11. Uma regra de aprendizagem L é dita consistente com uma classe
de conceitos, C , se
• todas as hipóteses produzidas por L pertencem a C ,
8n, 8 2 ⌦n ⇥ {0, 1}n , L( ) 2 C ,
• a hipótese induz sobre a amostra a rotulagem original sempre que possı́vel:
8C 2 C , 8n, 8 2 ⌦n , L(C ) =C .
D EFINIÇ ÃO 3.3.12. Uma classe de conceitos C é consistentemente aprendizável se
cada regra L consistente com C PAC aprende C .
80 3. APRENDIZAGEM PAC

O BSERVAÇ ÃO 3.3.13. Se uma classe C é consistentemente aprendizável, então ela é


aprendizável. Basta notar que cada classe de conceitos, C , admite pelo menos uma regra
de aprendizagem consistente com ela. Intuitivamente, isso é claro: dado uma amostra rotu-
lada cuja rotulagem é produzida por um elemento de C , escolha a hipótese entre todos os
conceitos que produz a mesma rotulagem. O que não é totalmente óbvio, é a possibilidade
de fazer a escolha de hipóteses de maneira que a aplicação resultante,

Ln : ⌦n ⇥ {0, 1}n ⇥ ⌦ ! {0, 1},

seja boreliana. Vamos adiar a discussão até mais tarde, para não perdermos numas tecni-
calidades prematuramente.

O BSERVAÇ ÃO 3.3.14. Como vimos na seção 3.1, cada classe de conceitos é consis-
tentemente aprendizável sob uma medida discreta.

No mesmo tempo, não cada classe PAC aprendizável é consistentemente aprendizável.


Aqui um exemplo clássico.

E XEMPLO 3.3.15. Seja ⌦ = [0, 1], o intervalo fechado, munido da medida de Le-
besgue, , ou seja, a distribuição uniforme. A classe de conceitos, C , consiste de todos
os subconjuntos finitos e cofinitos do intervalo. O espaço métrico associado ao espaço
pseudométrico C , munido da distância (C D), consiste de dois pointos: a classe de
equivalência do conceito vazio e a do intervalo, a distância 1 um de outro. Em outras pala-
vras, é o espaço métrico {0, 1} com a distância usual. Segundo o teorema de Benedek-Itai,
este classe é PAC aprendizável.
No mesmo tempo, existe uma regra de aprendizagem consistente cujas hipóteses são
os conceitos finitos. Por exemplo, dado uma amostra rotulada

= (x1 , x2 , . . . , xn , ✏1 , ✏2 , . . . , ✏n ),

pode-se definir a hipótese

H = Ln ( ) = {xi : ✏i = 1, i = 1, 2, . . . , n}.

Esta hipótese, H, induz a rotulagem original sobre {x1 , x2 , . . . , xn }. No mesmo tempo, a


regra L nunca vai aprender o conceito [0, 1]: qual quer seja a hipótese H gerada pela regra,
o erro de aprendizagem é sempre igual a

erro[0,1] (H) = (H [0, 1]) = ([0, 1] \ H) = 1.

Concluimos: C não é consistentemente aprendizável.

O exemplo precedente é bastante artificial. Existem exemplos mais “naturais,” vermos


pelo menos dois deles, cada vez mais interessantes, um pouco mais tarde.
Quando uma classe é consistentemente aprendizável? Mesmo que não haja cretério
conhecido para esta condição, tem a condição suficiente. Uma classe de Glivenko–Cantelli,
C , é careterizado pela condição seguinte: com alta confiança, a medida empı́rica de todo
elemento de C aproxima bem a medida de verdade. Se verifique que as classes de Glivenko–
Cantelli são consistentemente aprendizáveis, e a condição de ser Glivenko-Cantelli exprima-
se na linguagem de fragmentação. As classes de Glivenko–Cantelli formam o assunto de
próximo capı́tulo.
3.4. TAXA DE APRENDIZAGEM 81

3.4. Taxa de aprendizagem


A taxa de aprendizágem de uma classe C sobre uma medida µ é o mı́nimo tamanho
de dados, n, necessário para aprender C a uma precisão e com uma confiança desejadas.
Em outras palavras, é a taxa de crescimento da função s(✏, ) da complexidade amostral.
Como a dependência de não é muito sensı́vel, usualmente a dependência de ✏ é o que é
de interesse. Chamamos a taxa de aprendizágem a função ✏ 7! s(✏, 0 ) com o valor do
risco 0 > 0 fixo, imaginando alguma coisa como 0 = 0, 05 ou 0 = 0, 01.
Mesmo se cada classe de conceitos é PAC aprendizável sobre cada medida discreta,
a taxa de aprendizágem depende da medida e pode ser qualquer, de fato tão lenta que
desejado.
3.4.1. O resultado.
T EOREMA 3.4.1. Seja C uma classe de conceitos borelianos num domı́nio boreliano
padrão ⌦, com a propriedade seguinte: existe um conjunto infinito A tal que todos sub-
conjuntos finitos de A são fragmentados por C . Sejam ("k ) e (fk ) duas sequências de
reais positivos tais que fi " +1 e "i # 0, de tal modo que
1
> "1 > "2 > . . . > "i > . . . .
7
Seja 0 < 0 < 1 qualquer fixo. Então existe uma medida de probabilidade discreta,
µ, sobre ⌦, tal que cada regra de aprendizágem consistente com a classe C exige uma
amostra aleatória de tamanho n fk para aprender C com precisão "k e confiança
constante 1 0 , qual quer seja i:

sC ("k , 0 , µ) fk .

Isso significa que a complexidade amostral de aprendizagem pode crescer exponenti-


almente, ou como .
..
2 22
2, 22 , 22 , . . . , 22 ,...,
ou mesmo mais rápido do que isso, por exemplo, como uma função não recursivamente
computável. O fato de ser aprendizável com uma taxa de crescimento igual não é par-
ticularmente informativo. Usualmente na informática teórica só as taxas de crescimento
polinomiais são consideradas desejadas.
O BSERVAÇ ÃO 3.4.2. Seja µ uma medida uniforme sobre um conjunto finito, X, com
n elementos, que tem a massa total > 0. Isso significa µ{x} = /n para todo x 2 X.
Então a ditstância L1 (µ) sobre o espaço 2X de todos os subconjuntos binários de X, é
igual à distância de Hamming normalizada a menos um fator de :
Z
d(C, D) = k C D kL1 (µ) = | C ¯
D |dµ = µ(C D) = d( C , D ).
X
P ROVA DO TEOREMA 3.4.1. Graças ao teorema 3.3.9 de Benedek-Itai, basta cons-
truir a medida discreta µ de modo que para cada k existe uma famı́lia de 2fk conceitos
dois a dois à distância 2"k um de outro. Substituindo fk por max{f1 , f2 , . . . , fk } se
for necessário, podemos supor que (fk ) cresce monotonicamente. Denotaremos 0 =
1 7"1 > 0 e para todo k 1,
k = 7("k "k+1 ).
P1
Então, k > 0, k 2 N, e k=0 k = 1.
82 3. APRENDIZAGEM PAC

Tendo em vista a proposiçâo 3.3.8, escolhemos para cada k 1 um número natural


mk de modo que
1 2
e2( 2 3 ) mk 2fk ,
1

ou seja, mk (18 ln 2)fk . Posemos m0 = 1. Agora, qual quer seja k 2 N, escolhemos


¯ i , j ) 1/3 se i 6= j.
uma famı́lia de elementos ik 2 ⌃mk , i = 1, 2, . . . , fk , com d(
Escolhemos um subconjunto infinito enumerável, A, de ⌦, cujos subconjuntos finitos
são todos fragmentados pela classe C . Dividimos A em subconjuntos Ak , k 2 N, dois a
dois disjuntos, tendo as cardinalidades finitas ]Ak = mk . Finalmente, definiremos µ pela
condição: se a 2 Ak , então
k
µ{a} = .
mk
É claro que µ(Ak ) = k , k 2 N, e µ é uma medida de probabilidade discreta sobre ⌦.
P1 PN
Seja k 1 qualquer. Como i=k i = 7"k , existe N > k tal que i=k i 6"k .
Segundo a escolha de A, existem os conceitos C1 , C2 , . . . , Cfk 2 C tais que, quais quer
sejam i = k, k + 1, . . . , N e j = 1, 2, . . . , fk , temos
i
Cj Ai = j.

Se j, j 0 = 1, 2, . . . , fk , j 6= j 0 , então
N
X
µ(Cj Cj 0 ) = µ((Cj \ Ai ) (Cj 0 \ Aj 0 ))
i=k
N
X
= ¯ i
i d( j ,
i
j0 )
i=k
N
X 1
i
3
i=k
1
> · 6"k
3
= 2"k .

3.4.2. Consequências para medidas diffusas. Aqui vamos modificar o resultado
acima a fim de construir um exemplo de uma classe de conceitos, C , que são subconjuntos
de ⌦ = R, com as propriedades seguintes:
• Qual quer seja a medida de probabilidade boreliana sobre ⌦, a classe não é trivial
em relação com a distância L1 (µ);
• C é PAC aprendizável sob toda medida de probabilidade boreliana sobre ⌦, e
• a taxa de aprendizágem pode ser tanto lenta que desejado, incluindo sob umas
medidas difusas.
A classe C consiste de todos os uniões dos intervalos semi-abertos da forma [n, n+1),
n 2 Z. Dado I ✓ Z, denotaremos
[
CI = [n, n + 1).
n2I

Desse modo, existe uma bijeção natural entre os elementos de C e os de 2Z , dada por
(C) = C \ Z.
3.4. TAXA DE APRENDIZAGEM 83

Se µ é uma medida de probabilidade sobre ⌦, então ⇤ é a sua imagem direita, uma medida
de probabilidade sobre Z dada por
⇤ (µ){k} = µ([k, k + 1)).
Dado uma regra de aprendizagem, L , no domı́nio Z, pode se definir a regra para ⌦, que
nos denotaremos L . Ela é dada por
1
Ln ( ) = (Ln ( ( ))).
E XERC ÍCIO 3.4.3. Se a regra L PAC aprende a classe 2Z sob a medida ⇤, então L
aprende C sob a medida µ, com a mesma complexidade amostral.
Dado uma regra de aprendizagem L sobre o domı́nio ⌦, pode se definir uma regra
para Z, usando a imerção canónica, i, de Z dentro R:
L i ( ) = L ( ) \ Z.
E XERC ÍCIO 3.4.4. Se a regra L PAC aprende a classe C sob a medida µ,, então L i
aprende 2Z sob a medida ⇤ , com a complexidade amostral menor ou igual à complexidade
de L .
Juntos, dois exercı́cios estabelecem a validade da afirmação desejada.
3.4.3. Consequências para o classificador 1-NN. O classificador de vizinho mais
próximo (1-NN) pode ser definido no todo domı́nio munido da uma “medida de semelhança”
qualquer (não necessariamente uma métrica). Mais geralmente, ⌦ tem que apoiar uma
famı́lia de preordens, x , uma para cada ponto x 2 ⌦, tais que x é o ponto mı́nimo desta
preordem e a condição y x z é interpretado como significando que y é mais perto de x
que z. As preordens x devem satisfazer umas condições de mesurabilidade. Como supo-
nhamos que as amostras são ordenadas, no caso de mais de um vizinho mais próximo de
x vamos desempatar escolhendo o vizinho xi com o ı́ndice i menor. Mas pelo momento,
uma teoria geral desse tipo falta, e existe só para espaços métricos.
Vamos tratar o caso que parece até ser trivial, o da métrica zero-um, que so toma dois
valores: (
0, se x = y,
d(x, y) =
1, se x 6= y.
A estrutura boreliana induzida pela tal métrica contem todos os subconjuntos do domı́nio,
que por conseguinte deve ser enumerv́el. Concluimos que toda medida de probabilidade
sobre ⌦ é discreta. Dado um conjunto finito dos átomos, a1 , a2 , . . . , ak , se n for bastante
grande, com alta confiança todos aj vai aparecer entre os elementos da amostra aleatória,
x1 , x2 , . . . , xn . Se xi = aj , o seu vizinho mais próximo é aj mesmo, e o rótulo de aj vai
ser escolhido para xi pela regra 1-NN. Esse argumento estabelece que a regra 1-NN neste
contexto é consistente com a classe 2⌦ , logo PAC aprende a classe. No mesmo tempo,
o teorema 3.4.1 implica que a taxa de aprendizagem pode ser tanto lenta que desejado,
segundo µ. Esta conclusão vale para caso geral de classificadores k-NN nos domı́nios
quaisquer.
Mesmo se nessa situação o classificador 1-NN pode aparecer como uma regra de
aprendizagem dentro uma classe, na verdade, ele é de uma natureza completamente di-
ferente e merece um modelo de aprendizagem particular. Vamos fazer isso num capı́tulo
especial.

Вам также может понравиться