Вы находитесь на странице: 1из 22

Definicion 1 (Combinacion lineal)

Dados dos conjuntos A, B, se define como combinaci


on lineal a toda
expresi
on de la forma
X
ab
aA
bB

Combinaci
on lineal de vectores. Sean v1 , . . . , vn vectores. Entonces
cualquier suma
n
X
cj vj = c1 v1 + + cn vn
j=1

con cj R, es llamada una combinaci


on lineal de vectores.

Definicion 2 (Producto punto)


El producto punto en Rn es una funci
on: Rn Rn R que a cada par
n
umero real x y dado por
de vectores x, y R le asocia un n
x y = x1 y1 + + xn yn
en el que x = (x1 , . . . , xn ) y y = (y1 , . . . , yn ).

Definicion 3 (Ortogonalidad)
Se dice que dos vectores x, y Rn son ortogonales si x y = 0.

Proposicion 1 (Proyeccion de un vector sobre otro)


La proyeccion ortogonal de y sobre x es el vector.
P Ryx =

yx
x
xx

Demostracion.
on ortogonal del
Sean x, y dos vectores en Rn . Tomemos la proyecci
vector y sobre el vector x, y denotemos a u a este vector proyeccion
(usaremos tambien la notaci
on P Ryx ).
Es claro que el vector u es un m
ultiplo escalar del vector x. Es decir,
existe R tal que u = x. Observese ademas que el vector v = y u
es un vector ortogonal a x. Entonces (y u) x = 0, o bien
(y x) x = 0, de donde obtenemos que
=

yx
xx

Definicion 4
Definimos la norma de un vector x Rn , denotada por kxk, como

kxk = x x
En concreto para x = (x1 , . . . , xn ), se tiene
q
kxk = x21 + + x2n
Diremos que el vector x es unitario si kxk = 1.


Definicion 5 (Angulo
entre dos vectores en Rn )
En el caso de dos vectores en R2 , es facil obtener una expresion para el
angulo que forman. En efecto, sean x, y R2 dos vectores no nulos, es
inmediato que el angulo que forman x y y es tal que
cos =

kP Ryx k
xy
=
kyk
kxkkyk

La f
ormula anterior tiene sentido si nuestros vectores x, y son vectores
cualesquiera no nulos del espacio Rn .
Se define entonces el angulo entre los vectores (no nulos) x, y Rn
como el angulo , 0 , dado por
= cos1

xy
kxkkyk

Nota

En terminos del angulo , se puede escribir el producto punto de los


vectores x, y Rn como
x y = kxkkyk cos

Definicion 6 (Hiperplano)
Sean w y p vectores en Rn con w 6= 0. El conjunto de todos los vectores
x en Rn que satisfacen la ecuaci
on
w (x p) = 0
es llamado un hiperplano a traves del punto p. Llamamos a w un vector
normal al hiperplano y a la ecuaci
on anterior, ecuaci
on normal al
hiperplano.
Notemos que si definimos,
w = (w1 , w2 , . . . , wn ), p = (p1 , p2 , . . . , pn ) y x = (x1 , x2 , . . . , xn ),
entonces podemos escribir lo siguiente
w1 (x1 p1 ) + w2 (x2 p2 ) + + wn (xn pn ) = 0
o
w1 x1 + w2 x2 + + wn xn + d = 0
donde d = w p

Redes de capa simple


I

Las entradas se conectan directamente a las salidas atraves de una


capa simple de pesos.

Las N salidas pueden ser tratadas como N redes separadas.


Cada unidad produce su salida mediante la formacion de una
combinaci
on lineal de sus entradas que pasan posteriormente a
traves de una funci
on no lineal.
X
u=
w j xi

y = f (u)
Esto puede ser expresado en notaci
on vectorial
y(x) = f (wT x)

Proposicion 2
La orientacion del hiperplano esta determinada por la direccion de w.
Esta depende de cada peso wi , y no de la magnitud total de w.

Demostracion.
Sea ei el vector unitario alineado con el i-esimo eje de coordenadas, i.e.
ei = (1, 0, . . . , 0)
El angulo 1 entre el hiperplano normal y el i-esimo eje de coordenadas
es entonces
wT ei = kwkkei k cos i
wi = kwk cos i
cos i = wi /kwk

Proposicion 3
La inclusion de un lmite o bias,
u = wT x
mueve al hiperplano a lo largo de w a una distancia d = /kwk del
origen.

Demostracion.
Para ver esto, sea v el vector del origen al punto mas cercano sobre el
plano. Este debe ser normal al plano y por lo tanto paralelo a w, as que
v = dw/kwk.Como el hiperplano es el conjunto de todos lo punto que
cumplen wx = 0, enctonces tenemos que tenemos
wT v = 0
dwT w/kwk = 0
d = /kwk

Separabilidad Lineal
Un perceptr
on de capa simple puede clasificar solo conjuntos de datos los
cuales sean linealmente separables.

Definicion 7
Las clases A y B son linealmente separables si pueden ser separados por
un hiperplano, i.e., si existe un hiperplano tales que las clases A y B caen
en lados opuestos.

Proposicion 4
d

Hay 22 funciones booleanas de d variables de entrada booleanas, de las


2
cuales solo O(2d ) que son linealmente separables. Cuando d es grande,
la fraccion de funciones booleanas que son linealmente separables y por
tanto operadas por una red de capa simple se vuelve muy peque
no.

Proposicion 5
Dados N puntos en un espacio de entrada d-dimensional, hay 2n
maneras posibles de etiquetar los puntos 0 o 1.

Definicion 8
Cada una de las maneras posibles anteriores, forman un dicotoma, una
divisi
on de N puntos en dos clases. Una dicotoma es linealmente
separable si todos los 0s puedn ser separados de los 1s con un
hiperplano. Es homogeneamente linealmente separable si los puntos
pueden ser separados por un hiperplano que pasa por el origen.

Definicion 9
La capacidad del hiperplano esta definida como el n
umero de dicotomas
que el hiperplano pueden separar.

Definicion 10
Un conjunto de al menos d + 1 puntos de un espacio ddimensional se
dice que estan en posici
on general si ning
un hiperplano contiene mas de
dpuntos.

Teorema 1
Para N puntos en posicion general, en un espacio euclidiano de
dimension d, el n
umero C(N, d) de dicotomas homogeneas linealmente
separables es
(
2N
N d

C(N, d) =
Pd1
2 k=0 Nk1 N > d
Este resultado es para N puntos en posicion general.

Demostracion.
Comenzamos con N puntos en posici
on general. Asumimos que hay
C(N, d) dicotomas posibles, por lo que veremos cuantas dicotomas son
posibles si a
nadimos otro punto p (en posici
on general), es decir cual es
el valor de C(N + 1, d)
Definimos los siguientes valores
M1 = N
umero de dicotomas que no pueden ser obtenidas a traves de p
M2 = N
umero de dicotomas pasan a traves de p
C(N + 1, d) = M1 + M2

Demostracion (Cont.)
Pero M1 + M2 = C(N, d) M1 = C(N, d) M2 Por lo tanto tenemos
C(N + 1, d) = C(N, d) + M2
Sin embargo
M2 = C(N, d 1)
Ya que obligar a un hiperplano a pasar a traves de p (al igual que el
origen) es equivalente a reducir la dimensi
on de d a d 1.
Sustituyendo, tenemos la relaci
on de recurrencia
C(N + 1, d) = C(N, d) + C(N, d 1)

Demostracion (Cont.)
Ahora probamos el teorema por inducci
on. Asumimos que

d1 
X
N 1
C(N, d) = 2
k
k=0

es verdad para N y d [Notemos que es trivial para N = 1 y para


cualquier d, ya que C(1, d) = 2]. Entonces


d1 
d2 
X
X
N 1
N 1
C(N + 1, d) = 2
+2
=
k
k
k=0

k=0



d1 
d1 
d1  
X
X
X
N 1
N 1
N
+2
=2
k
k1
k
k=0
k=0
k=0



n1
Usamos nk = n1
k1 +
k
2

Nota

  
 

n
n1
n1
=
+
k
k1
k
Contamos el n
umero de

Por lo anterior C(N, d) puede ser calculado recursivamente utilizando las


siguientes relaciones.
C(1, d) = 2
C(N, 1) = 2N
C(N + 1, d) = C(N, d) + C(N, d 1)

Lema 1
La probabilidad de que una dicotoma elegida aleatoriamente sea
linealmente separable es igual a
(
1
N d
f (N, d) =
Pd1 N 1
2
N >d
k=0
k
2N

Algoritmo de Aprendizaje del perceptron

Cada unidad produce su salida mediante la formaci


on de una
combinaci
on lineal de sus entradas que pasan posteriormente a traves de
una funci
on no lineal.
u=

N
X

wj xj = wT x

j=0

(
y=

1
+1

u0
u>0

Durante el entrenamiento, los patrones de entrada x son dados y las


salidas y(x) son comparadas a los objetivos t(x). Los pesos son
adaptados por
(
w =

2tx
0

si t 6= y
para otro caso

donde 0 < < 1 controla la tasa de aprendizaj.Ya que y, t {1, 1}, lo


siquiente es equivalente
= (1 ty)tx
y ademas
= (t ty)x
= (t y)x

Para mejorar la confiabilidad, puede ser deseable que una unidad se


active solo cuando la suma u = wT x es mayor que un lmite Nk . donde
0 k < 1. Lo regla siguiete puede ser usada:
w = (Nk tu)tx
donde (u) es la funcion escal
on
(
(u) =

1
0

u0
u<0

Вам также может понравиться