Aula

3.3.
TEOREMA DE BENEDEK E ITAI 75
o que é satisfeito sobre a hipótese (3.6). ⇤

Deste modo, podemos implementar o conjunto de n dados provavelmente aproxima-
damente coretamente num espaço de dimensão O(log n).
E XERC ÍCIO 3.2.21. Obter uma modificação do teorema 3.2.20 válida para todas as
distâncias Lp (µ), 1  p < +1:
✓Z ◆1/p
p
k f kLp (µ) = |f | dµ .
⌦
Segue-se um caso particular importante.

E XERC ÍCIO 3.2.22. Se ⌦ = [d] = {1, 2, 3, . . . , d} um conjunto finito munido da
medida de contagem normalizada, µ] . Verificar que o espaço L1 (µ] ) é o cubo de Hamming
⌃d , e a distância L1 (µ] ) é a distância de Hamming normalizada.
C OROL ÁRIO 3.2.23. Seja X ✓ ⌃n um conjunto de dados realizado no cubo de Ham-
ming, munido da distância de Hamming normalizada. Denotaremos n = |X|. Sejam
", > 0. Tiramos aleatoriamente de [n] um subconjunto I com
1 n
|I| 2
ln = O(log n)
"
elementos. Então, com a confiança 1 , a projeção,
x 7! x I,
de X sobre um sub-cubo aleatório ⌃I conserva as distâncias entre os elementos de X a
menos ":
d " I
8i, j, d¯⌃ (x, y) ⇡ d¯⌃ (x I, y I).
Este gênero de resultados foi usado pelos atores do artigo influente [33] para construir
uma esquema de indexação eficaz para busca de vizinhos próximos aproximadamente co-
reta no cubo de Hamming. No mesmo tempo, o problema da existência das esquemas da
busca exata não está resolvida. A validade da seguinte conjetura ainda é um problema em
aberto.
Conjetura de maldição de dimensionalidade [26] Seja X um conjunto de dados com n

pontos no cubo de Hamming {0, 1}d . Suponha que d = no(1) e d = !(log n). Então cada
estrutura de dados para a pesquisa exata de semelhança em X, com o tempo da pesquisa
dO(1) , deve usar o espaço n!(1) .
As estruturas de dados e os algoritmos são entendidos no sentido do modelo de sonda

de célula da computação (cell probe model) [43]. Os melhores limites conhecidos [2, 46]
são muito longe de resolver o problema. A conjetura foi somente mostrada para algumas
estruturas concretos [49]. Pode-se ligar a conjetura de maldição de dimensionalidade com
algumas conjeturas da complexidade computational, nomeadamente P contra BP P ? [27].
3.3. Teorema de Benedek e Itai

Como nós nostramos na seção 3.2.2, uma classe aprendizável sob uma medida fixa não
contém famı́lias infinitas uniformemente discretas. De fato, esta propriedade caraterisa as
classes aprendizáveis.
Por exemplo, esta propriedade é exatamente o que torna a classe 2⌦ de todos os sub-
conjuntos do domı́nio aprendizável sob uma medida discreta. Dado ✏ > 0, existe k = k(✏)
76 3. APRENDIZAGEM PAC
tal que a medida total de átomes ai , i > k, é menor ou igual a ✏. Por conseguinte, o con-
junto finito de 2k conceitos que são subconjuntos de {a1 , a2 , . . . , ak } forma uma ✏-rede
em 2⌦ , relativo à distância d(C, D) = µ(C D) medidora do erro de generalização: qual
quer seja D 2 2⌦ , existe C ✓ {a1 , a2 , . . . , ak }, tal que µ(C D) < ✏. (Basta definir
D = C \ {a1 , a2 , . . . , ak }). Esta propriedade significa que o conjunto 2⌦ munido da
distância d é totalmente limitado, é essa propriedade é responsável pela aprendizabilidade
da classe 2⌦ .
Para medidas mais gerais, nós já sabemos que as classes finitas são PAC aprendizáveis.
Esta observação é no coração do algoritmo de Benedek e Itai que dá as condições ne-
cessárias e suficiêntes da aprendizabilidade sob uma medida fixa. Vamos mostrar o resul-
tado nessa seção.
3.3.1. Números de cobertura e de empacotamento. Relembramos que uma pseu-
dométrica sobre um conjunto é uma função de duas variáveis, d(x, y), que satisfaz todos
os axiomas de uma métrica exceito a primeira: pode ser que d(x, y) = 0 para x 6= y.
Um conjunto munido de uma pseudométrica é chamado um espaço pseudométrico. Por
exemplo, estritamente dito, a distância L1 (µ) é só uma pseudométrica, se a medida µ não
for puramente atómica (exercı́cio).
E XERC ÍCIO 3.3.1. Dado um espaço pseudométrico, (X, d), mostrar que a relação
d
x ⇠ y () d(x, y) = 0
d
é uma relação de equivalência, e que o conjunto quociente X̃ = X/ ⇠ de classes de
equivalência [x], x 2 X, admite uma métrica, definida corretamente pela regra
˜
d([x], [y]) = d(x, y).
Além disso, mostrar que a métrica d˜ sobre X̃ é a maior métrica tal que a aplicação quoci-
ente,
X 3 x 7! [x] 2 X̃,
é Lipschitz contı́nua com a constante L = 1.
˜ é chamado o espaço métrico associado ao espaço pseu-
O espaço métrico X̃, d)
dométrico (X, d), ou simplesmente o quociente métrico de (X, d).
Então, dado um espaço probabilı́stico padrão, (⌦, µ), o sı́mbolo L1 (⌦, µ) tipicamente
significa o quociente métrico do espaço de todas as funções borelianas sobre ⌦ munidas da
pseudométrica L1 (µ). Vamos ser ambı́guos e a ma maioria de casos vamos trabalhar di-
reitamente com o espaço pseudométrico original, sem passar ao espaço métrico quociente,
embora usando o mesmo sı́mbolo.
D EFINIÇ ÃO 3.3.2. Sejam (X, d) um espaço pseudométrico e Y ✓ X um subconjunto.
Então Y é dito totalmente limitado em X, ou: precompacto em X, se para todo " > 0
existe uma cobertura finita de Y com as bolas abertas:
k
[
9x1 , x2 , . . . , xk 2 X, Y ✓ B✏ (xi ).
i=1
Esta noção não deve ser confundida com a noção de um subconjunto relativamente
compacto: Y é relativamente compacto em X se e apenas se a aderência de Y em X é
compacta. Cada subconjunto relativamente compacto é precompacto, mas não o contrário.
As noções de um conjunto totalmente limitado e de um conjunto precompacto são rigoro-
samente sinônimas.
3.3. TEOREMA DE BENEDEK E ITAI 77
E XERC ÍCIO 3.3.3. Mostrar que Y é totalmente limitado em X se e somente se Y é

totalmente limitado em si mesmo.
D EFINIÇ ÃO 3.3.4. Seja " > 0. Um número de cobertura (covering number), NX (✏, Y ),
de um subconjunto Y em um espaço pseudométrico X é o menor tamanho de uma cober-
tura de Y pelas bolas abertas em X:
( k
)
[
NX (", Y ) = min k 2 N : 9x1 , x2 , . . . , xk 2 X, Y ✓ B" (xi ) .
i=1
É claro que o número BX (✏, Y ) é finito para todo " > 0 se e somente se Y é pre-
compacto. No mesmo tempo, os números de cobertura são as caraterı́sticas relativas e
dependem do espaço ambiente, X.
E XERC ÍCIO 3.3.5. Construir um espaço (pseudo)métrico X e um subespaço Y tais
que existe ✏ > 0 com
NX (✏, Y ) NY (✏, Y ).
A precompacidade de um espaço pseudométrico Y pode ser também exprimida em
termos de números de empacotamento, qui são absolutas (não dependem do espaço ambi-
ente).
D EFINIÇ ÃO 3.3.6. Sejam X um espaço pseudométrico, " > 0. O número de empa-
cotamento (packing number), D(✏, X), é o maior número de pontos à distância ✏ dois a
dois:
D(✏, X) = sup{n 2 N : 9x1 , x2 , . . . , xk 2 X, (i 6= j)d(xi , xj ) ✏}.
L EMA 3.3.7. Sejam X um espaço pseudométrico, Y ✓ X, e ✏ > 0. Então,
NX (✏, Y )  NY (✏, Y )  D(✏, Y )  NX (✏/2, Y )  NY (✏/2, Y ).
D EMONSTRAÇ ÃO . Se temos um ✏-empacotamento máximo de Y , x1 , x2 , . . . , xk ,
então não podemos adicionar mais um ponto y de modo que as distâncias d(y, xi ) se-
jam ✏. Isso significa que as bolas abertas de raio ✏ em torno de pontos xi formam uma
cobertura de X.
Agora, seja B✏/2 (xi ), i = 1, 2, . . . , k uma cobertura de Y pelas bolas abertas em X.
Seja y1 , . . . , ym um subconjunto finito de Y de pontos dois a dois à distância ✏. Cada
bola B✏/2 (xi ) pode conter no máximo um ponto yj , o que significa duas coisas: m  k, e
por isso existe um ✏-empacotamento máximo em Y , que tem  k elementos. ⇤
Eis um exemplo importante.
P ROPOSIÇ ÃO 3.3.8. O número de empacotamento do cubo de Hamming satisfaz
2
e 2( 2 ✏) n
1
D(✏, ⌃n ) ,
quando ✏ < 1/2.
D EMONSTRAÇ ÃO . Escolhemos um ✏-empacotamento máximo, ou seja, um subcon-
junto X de ⌃n que é máximo com a propriedade seguinte: se x, y 2 X e x 6= y, então
¯ y)
d(x, ✏. A maximalidade implica que as bolas B✏ (x), x 2 X cobrem ⌃n , e por
conseguinte
X 2
µ] (B✏ (x)) = ](X)µ] (B✏ (0))  ](X)e 2( 2 ✏) n ,
1
1 = µ] (⌃n ) 
x2X
usando a estimativa do volume da bola da subseção 1.4.4, Eq. (1.16). ⇤
3.3.2. Teorema de Benedek e Itai: aprendizagem sob uma distribuição fixa.

T EOREMA 3.3.9. Seja (⌦, µ) um espaço probabilı́stico padrão. Para uma classe de
conceitos C ✓ B⌦ , as condições seguintes são equivalentes.
• C é PAC aprendizável.
• C é precompacto relativo à pseudométrica L1 (µ).
A complexidade amostral de uma classe C que satisfaz uma destas condições equivalentes
verifica
9 2N ("/3, C , L1 (µ))
log2 D(2✏, C ) 1  s(✏, )  2 ln ,
2"
quando  1/2.
3.3.2.1. A regra de aprendizagem. Suponha primeiramente que C seja L1 (µ)-pre-
compacto. Dado ✏ > 0, escolha uma ✏/3-rede finita, ou seja, os conjuntos borelianos
H1 , H2 , . . . , Hk
tais que, qual quer seja C 2 C , existe i = 1, 2, . . . , k com µ(C Hi ) < ✏/3. Os conjuntos
Hi (hipóteses) não tem que necessariamente pertencer à classe C . Elas formam uma classe
de hipóteses, H.
Seja C 2 C um conceito deconhecido qualquer. Dado uma amostra rotulada,
= (x1 , x2 , . . . , xn , ✏1 , ✏2 , . . . , ✏n ),
temos em particular a medida empı́rica, µ ,
1
µ (A) = ]{i : xi 2 A}.
n
O que se sabe, é o traço de C sobre :
C \ supp = {xi : ✏i = 1}.
Dado uma hipótese H qualquer conhecida a nós, podemos calcular o erro empı́rico de H:
n
1X
erroC (H, µ ) = µ (H C \ supp ) = µ (C H) = | C (xi ) H (xi )|,
n i=1
pois nós sabemos calcular os valores C (xi ) e H (xi ) para todos elementos xi 2 da
amostra. (Os valores C (xi ) são determinados pela dada rotulagem da , e a hipotese H
é conhecida).
A regra de aprendizágem é a de minimização de erro empı́rico na classe de hipóteses
H. Em outras palavras, buscamos a hipótese Hi que minimiza o erro empı́rico relativo ao
conceito C:
j = arg min µ (C Hi ).
i
Aplicamos o corolário 3.2.14 à classe de conjuntos da forma C Hi , i = 1, 2, . . . , k,
2
com a precisão "/3. Concluimos que, com a confiança 1 2ke 2("/3) n , a medida
empı́rica de cada um de k conceitos C Hi difere da sua medida verdadeira por menos de
✏/3 > 0:
n ✏o 2
µ⌦n 9i = 1, 2, . . . , k |µ (C Hi ) µ(C Hi )|  2ke 2("/3) n ,
3
ou seja,
n ✏o 2
µ⌦n 8i = 1, 2, . . . , k |erroC (Hi , µ ) erroC (Hi , µ)|  > 1 2ke 2("/3) n .
3
3.3. TEOREMA DE BENEDEK E ITAI 79
2
O argumento seguinte aplica-se com a confiança 1 2ke 2("/3) n , isto é: a proba-
bilidade que o argumento inteiro seja correto, é pelo menos o valor acima.
Sabemos que existe i tal que erroC (Hi , µ) < "/3. Isso implica que
" " 2"
erroC (Hi , µ ) < + = .
3 3 3
A hipótese H = Hj escolhida pela nossa regra de minimização do erro empı́rico pode ser
diferente de Hi , mas ela satisfaz tudo mesmo
2"
erroC (Hj , µ )  erroC (Hi , µ ) = ,
3
e por conseguinte
2" "
erroC (Hj , µ) < + = ".
3 3
2
Então, com a confiança 1 2ke 2("/3) n
, a nossa regra aprende o conceito C com a
precisão ✏.
Resta estimar a complexidade amostral: a desigualdade desejada
2("/3)2 n
 2ke
transforma-se em
2"2
ln  ln(2k) n,
9
ou seja,
9 2k
n ln .
2"2
3.3.2.2. Necessidade de precompacidade da classe. Agora suponhamos que a classe
C seja aprendizável. Denotaremos L uma regra de aprendizagem que PAC aprende C .
Lema 3.2.6 significa que todo 2"-empacotamento de C é finito, em particular C é precom-
pacto, com
D(2✏, C )  2n+1 ,
é a complexidade amostral de aprendizagem de C satisfaz
s(✏, ) log2 D(2✏, C ) 1,
quando  1/2.
O BSERVAÇ ÃO 3.3.10. Nota como pouco sensı́vel é a dependência da complexidade
amostral sobre . Diz-se que “confiança é barata” (“confidence is cheap”).
3.3.3. Regras consistentes.
D EFINIÇ ÃO 3.3.11. Uma regra de aprendizagem L é dita consistente com uma classe
de conceitos, C , se
• todas as hipóteses produzidas por L pertencem a C ,
8n, 8 2 ⌦n ⇥ {0, 1}n , L( ) 2 C ,
• a hipótese induz sobre a amostra a rotulagem original sempre que possı́vel:
8C 2 C , 8n, 8 2 ⌦n , L(C ) =C .
D EFINIÇ ÃO 3.3.12. Uma classe de conceitos C é consistentemente aprendizável se
cada regra L consistente com C PAC aprende C .
O BSERVAÇ ÃO 3.3.13. Se uma classe C é consistentemente aprendizável, então ela é

aprendizável. Basta notar que cada classe de conceitos, C , admite pelo menos uma regra
de aprendizagem consistente com ela. Intuitivamente, isso é claro: dado uma amostra rotu-
lada cuja rotulagem é produzida por um elemento de C , escolha a hipótese entre todos os
conceitos que produz a mesma rotulagem. O que não é totalmente óbvio, é a possibilidade
de fazer a escolha de hipóteses de maneira que a aplicação resultante,
Ln : ⌦n ⇥ {0, 1}n ⇥ ⌦ ! {0, 1},
seja boreliana. Vamos adiar a discussão até mais tarde, para não perdermos numas tecni-
calidades prematuramente.
O BSERVAÇ ÃO 3.3.14. Como vimos na seção 3.1, cada classe de conceitos é consis-
tentemente aprendizável sob uma medida discreta.
No mesmo tempo, não cada classe PAC aprendizável é consistentemente aprendizável.

Aqui um exemplo clássico.
E XEMPLO 3.3.15. Seja ⌦ = [0, 1], o intervalo fechado, munido da medida de Le-
besgue, , ou seja, a distribuição uniforme. A classe de conceitos, C , consiste de todos
os subconjuntos finitos e cofinitos do intervalo. O espaço métrico associado ao espaço
pseudométrico C , munido da distância (C D), consiste de dois pointos: a classe de
equivalência do conceito vazio e a do intervalo, a distância 1 um de outro. Em outras pala-
vras, é o espaço métrico {0, 1} com a distância usual. Segundo o teorema de Benedek-Itai,
este classe é PAC aprendizável.
No mesmo tempo, existe uma regra de aprendizagem consistente cujas hipóteses são
os conceitos finitos. Por exemplo, dado uma amostra rotulada
= (x1 , x2 , . . . , xn , ✏1 , ✏2 , . . . , ✏n ),
pode-se definir a hipótese
H = Ln ( ) = {xi : ✏i = 1, i = 1, 2, . . . , n}.
Esta hipótese, H, induz a rotulagem original sobre {x1 , x2 , . . . , xn }. No mesmo tempo, a

regra L nunca vai aprender o conceito [0, 1]: qual quer seja a hipótese H gerada pela regra,
o erro de aprendizagem é sempre igual a
erro[0,1] (H) = (H [0, 1]) = ([0, 1] \ H) = 1.
Concluimos: C não é consistentemente aprendizável.
O exemplo precedente é bastante artificial. Existem exemplos mais “naturais,” vermos

pelo menos dois deles, cada vez mais interessantes, um pouco mais tarde.
Quando uma classe é consistentemente aprendizável? Mesmo que não haja cretério
conhecido para esta condição, tem a condição suficiente. Uma classe de Glivenko–Cantelli,
C , é careterizado pela condição seguinte: com alta confiança, a medida empı́rica de todo
elemento de C aproxima bem a medida de verdade. Se verifique que as classes de Glivenko–
Cantelli são consistentemente aprendizáveis, e a condição de ser Glivenko-Cantelli exprima-
se na linguagem de fragmentação. As classes de Glivenko–Cantelli formam o assunto de
próximo capı́tulo.
3.4. TAXA DE APRENDIZAGEM 81
3.4. Taxa de aprendizagem

A taxa de aprendizágem de uma classe C sobre uma medida µ é o mı́nimo tamanho
de dados, n, necessário para aprender C a uma precisão e com uma confiança desejadas.
Em outras palavras, é a taxa de crescimento da função s(✏, ) da complexidade amostral.
Como a dependência de não é muito sensı́vel, usualmente a dependência de ✏ é o que é
de interesse. Chamamos a taxa de aprendizágem a função ✏ 7! s(✏, 0 ) com o valor do
risco 0 > 0 fixo, imaginando alguma coisa como 0 = 0, 05 ou 0 = 0, 01.
Mesmo se cada classe de conceitos é PAC aprendizável sobre cada medida discreta,
a taxa de aprendizágem depende da medida e pode ser qualquer, de fato tão lenta que
desejado.
3.4.1. O resultado.
T EOREMA 3.4.1. Seja C uma classe de conceitos borelianos num domı́nio boreliano
padrão ⌦, com a propriedade seguinte: existe um conjunto infinito A tal que todos sub-
conjuntos finitos de A são fragmentados por C . Sejam ("k ) e (fk ) duas sequências de
reais positivos tais que fi " +1 e "i # 0, de tal modo que
1
> "1 > "2 > . . . > "i > . . . .
7
Seja 0 < 0 < 1 qualquer fixo. Então existe uma medida de probabilidade discreta,
µ, sobre ⌦, tal que cada regra de aprendizágem consistente com a classe C exige uma
amostra aleatória de tamanho n fk para aprender C com precisão "k e confiança
constante 1 0 , qual quer seja i:
sC ("k , 0 , µ) fk .
Isso significa que a complexidade amostral de aprendizagem pode crescer exponenti-

almente, ou como .
..
2 22
2, 22 , 22 , . . . , 22 ,...,
ou mesmo mais rápido do que isso, por exemplo, como uma função não recursivamente
computável. O fato de ser aprendizável com uma taxa de crescimento igual não é par-
ticularmente informativo. Usualmente na informática teórica só as taxas de crescimento
polinomiais são consideradas desejadas.
O BSERVAÇ ÃO 3.4.2. Seja µ uma medida uniforme sobre um conjunto finito, X, com
n elementos, que tem a massa total > 0. Isso significa µ{x} = /n para todo x 2 X.
Então a ditstância L1 (µ) sobre o espaço 2X de todos os subconjuntos binários de X, é
igual à distância de Hamming normalizada a menos um fator de :
Z
d(C, D) = k C D kL1 (µ) = | C ¯
D |dµ = µ(C D) = d( C , D ).
X
P ROVA DO TEOREMA 3.4.1. Graças ao teorema 3.3.9 de Benedek-Itai, basta cons-
truir a medida discreta µ de modo que para cada k existe uma famı́lia de 2fk conceitos
dois a dois à distância 2"k um de outro. Substituindo fk por max{f1 , f2 , . . . , fk } se
for necessário, podemos supor que (fk ) cresce monotonicamente. Denotaremos 0 =
1 7"1 > 0 e para todo k 1,
k = 7("k "k+1 ).
P1
Então, k > 0, k 2 N, e k=0 k = 1.
Tendo em vista a proposiçâo 3.3.8, escolhemos para cada k 1 um número natural

mk de modo que
1 2
e2( 2 3 ) mk 2fk ,
1
ou seja, mk (18 ln 2)fk . Posemos m0 = 1. Agora, qual quer seja k 2 N, escolhemos

¯ i , j ) 1/3 se i 6= j.
uma famı́lia de elementos ik 2 ⌃mk , i = 1, 2, . . . , fk , com d(
Escolhemos um subconjunto infinito enumerável, A, de ⌦, cujos subconjuntos finitos
são todos fragmentados pela classe C . Dividimos A em subconjuntos Ak , k 2 N, dois a
dois disjuntos, tendo as cardinalidades finitas ]Ak = mk . Finalmente, definiremos µ pela
condição: se a 2 Ak , então
k
µ{a} = .
mk
É claro que µ(Ak ) = k , k 2 N, e µ é uma medida de probabilidade discreta sobre ⌦.
P1 PN
Seja k 1 qualquer. Como i=k i = 7"k , existe N > k tal que i=k i 6"k .
Segundo a escolha de A, existem os conceitos C1 , C2 , . . . , Cfk 2 C tais que, quais quer
sejam i = k, k + 1, . . . , N e j = 1, 2, . . . , fk , temos
i
Cj Ai = j.
Se j, j 0 = 1, 2, . . . , fk , j 6= j 0 , então
N
X
µ(Cj Cj 0 ) = µ((Cj \ Ai ) (Cj 0 \ Aj 0 ))
i=k
N
X
= ¯ i
i d( j ,
i
j0 )
i=k
N
X 1
i
3
i=k
1
> · 6"k
3
= 2"k .
⇤
3.4.2. Consequências para medidas diffusas. Aqui vamos modificar o resultado
acima a fim de construir um exemplo de uma classe de conceitos, C , que são subconjuntos
de ⌦ = R, com as propriedades seguintes:
• Qual quer seja a medida de probabilidade boreliana sobre ⌦, a classe não é trivial
em relação com a distância L1 (µ);
• C é PAC aprendizável sob toda medida de probabilidade boreliana sobre ⌦, e
• a taxa de aprendizágem pode ser tanto lenta que desejado, incluindo sob umas
medidas difusas.
A classe C consiste de todos os uniões dos intervalos semi-abertos da forma [n, n+1),
n 2 Z. Dado I ✓ Z, denotaremos
[
CI = [n, n + 1).
n2I
Desse modo, existe uma bijeção natural entre os elementos de C e os de 2Z , dada por
(C) = C \ Z.
3.4. TAXA DE APRENDIZAGEM 83
Se µ é uma medida de probabilidade sobre ⌦, então ⇤ é a sua imagem direita, uma medida
de probabilidade sobre Z dada por
⇤ (µ){k} = µ([k, k + 1)).
Dado uma regra de aprendizagem, L , no domı́nio Z, pode se definir a regra para ⌦, que
nos denotaremos L . Ela é dada por
1
Ln ( ) = (Ln ( ( ))).
E XERC ÍCIO 3.4.3. Se a regra L PAC aprende a classe 2Z sob a medida ⇤, então L
aprende C sob a medida µ, com a mesma complexidade amostral.
Dado uma regra de aprendizagem L sobre o domı́nio ⌦, pode se definir uma regra
para Z, usando a imerção canónica, i, de Z dentro R:
L i ( ) = L ( ) \ Z.
E XERC ÍCIO 3.4.4. Se a regra L PAC aprende a classe C sob a medida µ,, então L i
aprende 2Z sob a medida ⇤ , com a complexidade amostral menor ou igual à complexidade
de L .
Juntos, dois exercı́cios estabelecem a validade da afirmação desejada.
3.4.3. Consequências para o classificador 1-NN. O classificador de vizinho mais
próximo (1-NN) pode ser definido no todo domı́nio munido da uma “medida de semelhança”
qualquer (não necessariamente uma métrica). Mais geralmente, ⌦ tem que apoiar uma
famı́lia de preordens, x , uma para cada ponto x 2 ⌦, tais que x é o ponto mı́nimo desta
preordem e a condição y x z é interpretado como significando que y é mais perto de x
que z. As preordens x devem satisfazer umas condições de mesurabilidade. Como supo-
nhamos que as amostras são ordenadas, no caso de mais de um vizinho mais próximo de
x vamos desempatar escolhendo o vizinho xi com o ı́ndice i menor. Mas pelo momento,
uma teoria geral desse tipo falta, e existe só para espaços métricos.
Vamos tratar o caso que parece até ser trivial, o da métrica zero-um, que so toma dois
valores: (
0, se x = y,
d(x, y) =
1, se x 6= y.
A estrutura boreliana induzida pela tal métrica contem todos os subconjuntos do domı́nio,
que por conseguinte deve ser enumerv́el. Concluimos que toda medida de probabilidade
sobre ⌦ é discreta. Dado um conjunto finito dos átomos, a1 , a2 , . . . , ak , se n for bastante
grande, com alta confiança todos aj vai aparecer entre os elementos da amostra aleatória,
x1 , x2 , . . . , xn . Se xi = aj , o seu vizinho mais próximo é aj mesmo, e o rótulo de aj vai
ser escolhido para xi pela regra 1-NN. Esse argumento estabelece que a regra 1-NN neste
contexto é consistente com a classe 2⌦ , logo PAC aprende a classe. No mesmo tempo,
o teorema 3.4.1 implica que a taxa de aprendizagem pode ser tanto lenta que desejado,
segundo µ. Esta conclusão vale para caso geral de classificadores k-NN nos domı́nios
quaisquer.
Mesmo se nessa situação o classificador 1-NN pode aparecer como uma regra de
aprendizagem dentro uma classe, na verdade, ele é de uma natureza completamente di-
ferente e merece um modelo de aprendizagem particular. Vamos fazer isso num capı́tulo
especial.

Aula

Загружено:

Сведения о документе

Исходное описание:

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Aula

Загружено:

Авторское право:

Доступные форматы

3.3.

TEOREMA DE BENEDEK E ITAI 75

o que é satisfeito sobre a hipótese (3.6). ⇤

Segue-se um caso particular importante.

Conjetura de maldição de dimensionalidade [26] Seja X um conjunto de dados com n

As estruturas de dados e os algoritmos são entendidos no sentido do modelo de sonda

3.3. Teorema de Benedek e Itai

E XERC ÍCIO 3.3.3. Mostrar que Y é totalmente limitado em X se e somente se Y é

3.3.2. Teorema de Benedek e Itai: aprendizagem sob uma distribuição fixa.

O BSERVAÇ ÃO 3.3.13. Se uma classe C é consistentemente aprendizável, então ela é

Ln : ⌦n ⇥ {0, 1}n ⇥ ⌦ ! {0, 1},

No mesmo tempo, não cada classe PAC aprendizável é consistentemente aprendizável.

pode-se definir a hipótese

Esta hipótese, H, induz a rotulagem original sobre {x1 , x2 , . . . , xn }. No mesmo tempo, a

erro[0,1] (H) = (H [0, 1]) = ([0, 1] \ H) = 1.

Concluimos: C não é consistentemente aprendizável.

O exemplo precedente é bastante artificial. Existem exemplos mais “naturais,” vermos

3.4. Taxa de aprendizagem

Isso significa que a complexidade amostral de aprendizagem pode crescer exponenti-

Tendo em vista a proposiçâo 3.3.8, escolhemos para cada k 1 um número natural

ou seja, mk (18 ln 2)fk . Posemos m0 = 1. Agora, qual quer seja k 2 N, escolhemos

Вам также может понравиться