Академический Документы
Профессиональный Документы
Культура Документы
Combinaci
on lineal de vectores. Sean v1 , . . . , vn vectores. Entonces
cualquier suma
n
X
cj vj = c1 v1 + + cn vn
j=1
Definicion 3 (Ortogonalidad)
Se dice que dos vectores x, y Rn son ortogonales si x y = 0.
yx
x
xx
Demostracion.
on ortogonal del
Sean x, y dos vectores en Rn . Tomemos la proyecci
vector y sobre el vector x, y denotemos a u a este vector proyeccion
(usaremos tambien la notaci
on P Ryx ).
Es claro que el vector u es un m
ultiplo escalar del vector x. Es decir,
existe R tal que u = x. Observese ademas que el vector v = y u
es un vector ortogonal a x. Entonces (y u) x = 0, o bien
(y x) x = 0, de donde obtenemos que
=
yx
xx
Definicion 4
Definimos la norma de un vector x Rn , denotada por kxk, como
kxk = x x
En concreto para x = (x1 , . . . , xn ), se tiene
q
kxk = x21 + + x2n
Diremos que el vector x es unitario si kxk = 1.
Definicion 5 (Angulo
entre dos vectores en Rn )
En el caso de dos vectores en R2 , es facil obtener una expresion para el
angulo que forman. En efecto, sean x, y R2 dos vectores no nulos, es
inmediato que el angulo que forman x y y es tal que
cos =
kP Ryx k
xy
=
kyk
kxkkyk
La f
ormula anterior tiene sentido si nuestros vectores x, y son vectores
cualesquiera no nulos del espacio Rn .
Se define entonces el angulo entre los vectores (no nulos) x, y Rn
como el angulo , 0 , dado por
= cos1
xy
kxkkyk
Nota
Definicion 6 (Hiperplano)
Sean w y p vectores en Rn con w 6= 0. El conjunto de todos los vectores
x en Rn que satisfacen la ecuaci
on
w (x p) = 0
es llamado un hiperplano a traves del punto p. Llamamos a w un vector
normal al hiperplano y a la ecuaci
on anterior, ecuaci
on normal al
hiperplano.
Notemos que si definimos,
w = (w1 , w2 , . . . , wn ), p = (p1 , p2 , . . . , pn ) y x = (x1 , x2 , . . . , xn ),
entonces podemos escribir lo siguiente
w1 (x1 p1 ) + w2 (x2 p2 ) + + wn (xn pn ) = 0
o
w1 x1 + w2 x2 + + wn xn + d = 0
donde d = w p
y = f (u)
Esto puede ser expresado en notaci
on vectorial
y(x) = f (wT x)
Proposicion 2
La orientacion del hiperplano esta determinada por la direccion de w.
Esta depende de cada peso wi , y no de la magnitud total de w.
Demostracion.
Sea ei el vector unitario alineado con el i-esimo eje de coordenadas, i.e.
ei = (1, 0, . . . , 0)
El angulo 1 entre el hiperplano normal y el i-esimo eje de coordenadas
es entonces
wT ei = kwkkei k cos i
wi = kwk cos i
cos i = wi /kwk
Proposicion 3
La inclusion de un lmite o bias,
u = wT x
mueve al hiperplano a lo largo de w a una distancia d = /kwk del
origen.
Demostracion.
Para ver esto, sea v el vector del origen al punto mas cercano sobre el
plano. Este debe ser normal al plano y por lo tanto paralelo a w, as que
v = dw/kwk.Como el hiperplano es el conjunto de todos lo punto que
cumplen wx = 0, enctonces tenemos que tenemos
wT v = 0
dwT w/kwk = 0
d = /kwk
Separabilidad Lineal
Un perceptr
on de capa simple puede clasificar solo conjuntos de datos los
cuales sean linealmente separables.
Definicion 7
Las clases A y B son linealmente separables si pueden ser separados por
un hiperplano, i.e., si existe un hiperplano tales que las clases A y B caen
en lados opuestos.
Proposicion 4
d
Proposicion 5
Dados N puntos en un espacio de entrada d-dimensional, hay 2n
maneras posibles de etiquetar los puntos 0 o 1.
Definicion 8
Cada una de las maneras posibles anteriores, forman un dicotoma, una
divisi
on de N puntos en dos clases. Una dicotoma es linealmente
separable si todos los 0s puedn ser separados de los 1s con un
hiperplano. Es homogeneamente linealmente separable si los puntos
pueden ser separados por un hiperplano que pasa por el origen.
Definicion 9
La capacidad del hiperplano esta definida como el n
umero de dicotomas
que el hiperplano pueden separar.
Definicion 10
Un conjunto de al menos d + 1 puntos de un espacio ddimensional se
dice que estan en posici
on general si ning
un hiperplano contiene mas de
dpuntos.
Teorema 1
Para N puntos en posicion general, en un espacio euclidiano de
dimension d, el n
umero C(N, d) de dicotomas homogeneas linealmente
separables es
(
2N
N d
C(N, d) =
Pd1
2 k=0 Nk1 N > d
Este resultado es para N puntos en posicion general.
Demostracion.
Comenzamos con N puntos en posici
on general. Asumimos que hay
C(N, d) dicotomas posibles, por lo que veremos cuantas dicotomas son
posibles si a
nadimos otro punto p (en posici
on general), es decir cual es
el valor de C(N + 1, d)
Definimos los siguientes valores
M1 = N
umero de dicotomas que no pueden ser obtenidas a traves de p
M2 = N
umero de dicotomas pasan a traves de p
C(N + 1, d) = M1 + M2
Demostracion (Cont.)
Pero M1 + M2 = C(N, d) M1 = C(N, d) M2 Por lo tanto tenemos
C(N + 1, d) = C(N, d) + M2
Sin embargo
M2 = C(N, d 1)
Ya que obligar a un hiperplano a pasar a traves de p (al igual que el
origen) es equivalente a reducir la dimensi
on de d a d 1.
Sustituyendo, tenemos la relaci
on de recurrencia
C(N + 1, d) = C(N, d) + C(N, d 1)
Demostracion (Cont.)
Ahora probamos el teorema por inducci
on. Asumimos que
d1
X
N 1
C(N, d) = 2
k
k=0
k=0
d1
d1
d1
X
X
X
N 1
N 1
N
+2
=2
k
k1
k
k=0
k=0
k=0
n1
Usamos nk = n1
k1 +
k
2
Nota
n
n1
n1
=
+
k
k1
k
Contamos el n
umero de
Lema 1
La probabilidad de que una dicotoma elegida aleatoriamente sea
linealmente separable es igual a
(
1
N d
f (N, d) =
Pd1 N 1
2
N >d
k=0
k
2N
N
X
wj xj = wT x
j=0
(
y=
1
+1
u0
u>0
2tx
0
si t 6= y
para otro caso
1
0
u0
u<0