Академический Документы
Профессиональный Документы
Культура Документы
Pestov
Florianpolis, SC
2014
Vladimir G. Pestov
Florianpolis, SC
2014
Resumo
A cincia de dados, as vezes chamada de a prxima grande coisa
(the next big thing), um campo natural de pesquisa aplicada
para os matemticos. Em particular, a aprendizagem autom-
tica estatstica uma rea de pesquisa fascinante, pelo menos
a trs nveis diferentes: como uma teoria matemtica da grande
profundidade e beleza, como uma direo do desenvolvimento de
algoritmos, e como uma plataforma muito poderosa para aplica-
es prticas.
4 Reduo de dimensionalidade . . . . . . . . 53
Referncias . . . . . . . . . . . . . . . . . . . 65
5
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
X = {x1 , x2 , . . . , x1000 },
0.8
0.6
0.4
0.2
0
0 0.2 0.4 0.6 0.8 1
uma linha reta! No entanto, voc pode usar uma rgua para
convencer-se de que no h nenhum erro e os centros de todos
os asterscos esto realmente acima da diagonal, enquanto os
centros de todos os quadrados esto abaixo.
............
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-0.67 2:-0.03 3:0.04 4:1.95 5:-0.05 6:-0.10 7:1.11
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-0.63 2:-0.03 3:0.03 4:1.89 5:-0.05 6:-0.10 7:1.11
+1 1:-0.59 2:-0.03 3:0.03 4:1.83 5:-0.05 6:-0.09 7:1.11
-1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
-1 1:-1.00 2:-0.03 3:-0.09 4:-0.49 5:-0.05 6:-0.15 7:-1.08
+1 1:1.09 2:-0.03 3:-0.02 4:-0.49 5:-0.05 6:-0.15 7:1.11
............
Figura 4 Fragmente do conjunto de dados para deteo de in-
trusos na rede.
preo a escolher.
S: R.
+ +
+
+
+
+
+
+
X = Xt Xa , Xt Xa = .
2 Consistncia universal
5x2 x + 3 = 0.
P [X A],
P [a < X < b]
P [X = 0] = 1 p = q.
0.5
0 1 x
Por exemplo,
Z 1
P [0 X 1] = [0,1] (t) dt = 1,
0
e
Z 1
1 1 2 1
P X = [0,1] (t) dt = .
2 2 12 2
19
x
1
0 1 x
=
Densit de distribution normale: = 0, 1
0.4
0.3
densit
0.2
0.1
0.0
3 2 1 0 1 2 3
0.636...
1 1 x
(P1) P [X ] = () = 1.
(A) = P [X A]
24 Captulo 2. Consistncia universal
A1 , A2 , . . . B,
A = .
(B) = (f 1 (B)).
Demonstrao:
P [f (X) B) = P [X f 1 (B)].
= f ().
26 Captulo 2. Consistncia universal
X1 , X2 , . . . , Xn , . . . ,
X = (X1 , X2 , . . . , Xn , . . .) 1 2 . . . n .
=
i=1 i .
P r[X1 A1 , X2 A2 , . . . , Xn An , . . .] =
P r[X1 A1 ] P r[X2 A2 ] . . . P r[Xn An ] . . . .
27
P [X A1 , Y A2 ] = 0,
() = 1,
onde
= {(x, x): x [0, 1]}.
1 2 2 2
n/2
e(t1 +t2 +...+tn )/2 .
(2)
T : {0, 1}.
err (T ) = P [T (X) 6= Y ]
= {(x, y) {0, 1}: T (x) 6= y}.
` = ` () = inf err (T ).
T
3 Maldio de dimensionalidade
X {A, T, G, C}d ,
f: X R
x 7 dist(x0 , x)
x1 , x2 , . . . , xN ,
imediato que,
DN D,
DN DN +1 D,
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 0.2
0.4 0.4
0.6 0.6
0.8 0.8
1 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
Figura 11 S2 e S10
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 0.2
0.4 0.4
0.6 0.6
0.8 0.8
1 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
Id = {x Rd | i = 1, . . . , d, 0 |xi | 1},
38 Captulo 3. Maldio de dimensionalidade
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0.2 0.2
0.4 0.4
0.6 0.6
0.8 0.8
1 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
R
f
X
} obsdiam X
satisfaz
obs-diam (Id ) = O (1) .
0.6 1
0.8
0.4
0.6
0.4
0.2
0.2
0 0
0.2
0.2
0.4
0.6
0.4
0.8
0.6 1
1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1
1.5 1.5
1 1
0.5 0.5
0 0
0.5 0.5
1 1
1.5 1.5
1.5 1 0.5 0 0.5 1 1.5 1.5 1 0.5 0 0.5 1 1.5
2 4
1.5 3
1 2
0.5 1
0 0
0.5 1
1 2
1.5 3
2 4
2 1.5 1 0.5 0 0.5 1 1.5 2 5 4 3 2 1 0 1 2 3 4 5
8 15
6
10
5
2
0 0
2
5
10
6
8 15
8 6 4 2 0 2 4 6 8 15 10 5 0 5 10 15
35 50
45
30
40
25 35
30
20
25
15
20
10 15
10
5
5
0 0
0 0.5 1 1.5 0 0.5 1 1.5 2 2.5
100 250
90
80 200
70
60 150
50
40 100
30
20 50
10
0 0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 0 2 4 6 8 10 12 14
tpico d da forma
= 1 2 d ,
deucl (x, y) = k x y k2 ,
O grupo ortogonal
Sd 3 x 7 ux Sd , u O(d).
d+1 (A)
d (A) = ,
d+1 (Bd+1 )
Denotaremos
A = {x : a A (x, a) < }
a -vizinhana do sub-conjunto A de .
d ((Ad ) ) 1.
(, ) 0 quando .
46 Captulo 3. Maldio de dimensionalidade
contains
at least half of
all points
A
( ,)
bounds(X\A )
from above
A
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5
0.8
0.6
0.4
0.2
0
0 0.05 0.1 0.15 0.2
ento
{|f (x) M | > } 2X ().
6000
2000
0
Figura 25.
average distance to the nearest neighbour (normalized)
0.8
0.6
0.4
n=1,000
n=100,000
0.2
0.0
0 20 40 60 80 100
euclidean dimension d
r
r(1+) q
NN distribution function, UCI repository Segment dataset NN distribution, 100000 pts in gaussian d=14
1.0
0.8
k=20
0.8
k=20
c=0.5; k=1742
cumulative probability
cumulative probability
c=0.5; k=60
0.6
0.6
0.4
0.4
0.2
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8
NN distance NN distance
4 Reduo de dimensionalidade
+ + + +
+
dominio de dimensao baixa
tal que
para todos x, y X.
1. Se A1 , A2 , . . . , An , . . . pertenam a A , ento
i=1 Ai A .
2. Se A A , ento \ A A .
..........
....
(A) = ( 1 (A)).
x {0,1}
x {1}
1
x {0}
0
Figura 30 : {0, 1}
grafo do
classificador 1
Tbayes
1/2
f (x, ) = (f (x), ),
(f )(B) = (f 1 (B)).
X1 , X2 , . . . , Xn , . . .
= f.
W
x , Tbayes (x) = Tbayes (f (x)).
Leitura sugerida
Agradecimentos
Referncias
[26] Luis Torgo, Data Mining with R: Learning with Case Stu-
dies, Chapman & Hall/SRC, 2010.