Single Layer

Definicion 1 (Combinacion lineal)
Dados dos conjuntos A, B, se define como combinaci

on lineal a toda
expresi
on de la forma
X
ab
aA
bB
Combinaci
on lineal de vectores. Sean v1 , . . . , vn vectores. Entonces
cualquier suma
n
X
cj vj = c1 v1 + + cn vn
j=1
con cj R, es llamada una combinaci

on lineal de vectores.
Definicion 2 (Producto punto)

El producto punto en Rn es una funci
on: Rn Rn R que a cada par
n
umero real x y dado por
de vectores x, y R le asocia un n
x y = x1 y1 + + xn yn
en el que x = (x1 , . . . , xn ) y y = (y1 , . . . , yn ).
Definicion 3 (Ortogonalidad)
Se dice que dos vectores x, y Rn son ortogonales si x y = 0.
Proposicion 1 (Proyeccion de un vector sobre otro)

La proyeccion ortogonal de y sobre x es el vector.
P Ryx =
yx
x
xx
Demostracion.
on ortogonal del
Sean x, y dos vectores en Rn . Tomemos la proyecci
vector y sobre el vector x, y denotemos a u a este vector proyeccion
(usaremos tambien la notaci
on P Ryx ).
Es claro que el vector u es un m
ultiplo escalar del vector x. Es decir,
existe R tal que u = x. Observese ademas que el vector v = y u
es un vector ortogonal a x. Entonces (y u) x = 0, o bien
(y x) x = 0, de donde obtenemos que
=
yx
xx
Definicion 4
Definimos la norma de un vector x Rn , denotada por kxk, como
kxk = x x
En concreto para x = (x1 , . . . , xn ), se tiene
q
kxk = x21 + + x2n
Diremos que el vector x es unitario si kxk = 1.

Definicion 5 (Angulo
entre dos vectores en Rn )
En el caso de dos vectores en R2 , es facil obtener una expresion para el
angulo que forman. En efecto, sean x, y R2 dos vectores no nulos, es
inmediato que el angulo que forman x y y es tal que
cos =
kP Ryx k
xy
=
kyk
kxkkyk
La f
ormula anterior tiene sentido si nuestros vectores x, y son vectores
cualesquiera no nulos del espacio Rn .
Se define entonces el angulo entre los vectores (no nulos) x, y Rn
como el angulo , 0 , dado por
= cos1
xy
kxkkyk
Nota
En terminos del angulo , se puede escribir el producto punto de los

vectores x, y Rn como
x y = kxkkyk cos
Definicion 6 (Hiperplano)
Sean w y p vectores en Rn con w 6= 0. El conjunto de todos los vectores
x en Rn que satisfacen la ecuaci
on
w (x p) = 0
es llamado un hiperplano a traves del punto p. Llamamos a w un vector
normal al hiperplano y a la ecuaci
on anterior, ecuaci
on normal al
hiperplano.
Notemos que si definimos,
w = (w1 , w2 , . . . , wn ), p = (p1 , p2 , . . . , pn ) y x = (x1 , x2 , . . . , xn ),
entonces podemos escribir lo siguiente
w1 (x1 p1 ) + w2 (x2 p2 ) + + wn (xn pn ) = 0
o
w1 x1 + w2 x2 + + wn xn + d = 0
donde d = w p
Redes de capa simple

I
Las entradas se conectan directamente a las salidas atraves de una

capa simple de pesos.
Las N salidas pueden ser tratadas como N redes separadas.

Cada unidad produce su salida mediante la formacion de una
combinaci
on lineal de sus entradas que pasan posteriormente a
traves de una funci
on no lineal.
X
u=
w j xi
y = f (u)
Esto puede ser expresado en notaci
on vectorial
y(x) = f (wT x)
Proposicion 2
La orientacion del hiperplano esta determinada por la direccion de w.
Esta depende de cada peso wi , y no de la magnitud total de w.
Demostracion.
Sea ei el vector unitario alineado con el i-esimo eje de coordenadas, i.e.
ei = (1, 0, . . . , 0)
El angulo 1 entre el hiperplano normal y el i-esimo eje de coordenadas
es entonces
wT ei = kwkkei k cos i
wi = kwk cos i
cos i = wi /kwk
Proposicion 3
La inclusion de un lmite o bias,
u = wT x
mueve al hiperplano a lo largo de w a una distancia d = /kwk del
origen.
Demostracion.
Para ver esto, sea v el vector del origen al punto mas cercano sobre el
plano. Este debe ser normal al plano y por lo tanto paralelo a w, as que
v = dw/kwk.Como el hiperplano es el conjunto de todos lo punto que
cumplen wx = 0, enctonces tenemos que tenemos
wT v = 0
dwT w/kwk = 0
d = /kwk
Separabilidad Lineal
Un perceptr
on de capa simple puede clasificar solo conjuntos de datos los
cuales sean linealmente separables.
Definicion 7
Las clases A y B son linealmente separables si pueden ser separados por
un hiperplano, i.e., si existe un hiperplano tales que las clases A y B caen
en lados opuestos.
Proposicion 4
d
Hay 22 funciones booleanas de d variables de entrada booleanas, de las

2
cuales solo O(2d ) que son linealmente separables. Cuando d es grande,
la fraccion de funciones booleanas que son linealmente separables y por
tanto operadas por una red de capa simple se vuelve muy peque
no.
Proposicion 5
Dados N puntos en un espacio de entrada d-dimensional, hay 2n
maneras posibles de etiquetar los puntos 0 o 1.
Definicion 8
Cada una de las maneras posibles anteriores, forman un dicotoma, una
divisi
on de N puntos en dos clases. Una dicotoma es linealmente
separable si todos los 0s puedn ser separados de los 1s con un
hiperplano. Es homogeneamente linealmente separable si los puntos
pueden ser separados por un hiperplano que pasa por el origen.
Definicion 9
La capacidad del hiperplano esta definida como el n
umero de dicotomas
que el hiperplano pueden separar.
Definicion 10
Un conjunto de al menos d + 1 puntos de un espacio ddimensional se
dice que estan en posici
on general si ning
un hiperplano contiene mas de
dpuntos.
Teorema 1
Para N puntos en posicion general, en un espacio euclidiano de
dimension d, el n
umero C(N, d) de dicotomas homogeneas linealmente
separables es
(
2N
N d

C(N, d) =
Pd1
2 k=0 Nk1 N > d
Este resultado es para N puntos en posicion general.
Demostracion.
Comenzamos con N puntos en posici
on general. Asumimos que hay
C(N, d) dicotomas posibles, por lo que veremos cuantas dicotomas son
posibles si a
nadimos otro punto p (en posici
on general), es decir cual es
el valor de C(N + 1, d)
Definimos los siguientes valores
M1 = N
umero de dicotomas que no pueden ser obtenidas a traves de p
M2 = N
umero de dicotomas pasan a traves de p
C(N + 1, d) = M1 + M2
Demostracion (Cont.)
Pero M1 + M2 = C(N, d) M1 = C(N, d) M2 Por lo tanto tenemos
C(N + 1, d) = C(N, d) + M2
Sin embargo
M2 = C(N, d 1)
Ya que obligar a un hiperplano a pasar a traves de p (al igual que el
origen) es equivalente a reducir la dimensi
on de d a d 1.
Sustituyendo, tenemos la relaci
on de recurrencia
C(N + 1, d) = C(N, d) + C(N, d 1)
Demostracion (Cont.)
Ahora probamos el teorema por inducci
on. Asumimos que

d1
X
N 1
C(N, d) = 2
k
k=0
es verdad para N y d [Notemos que es trivial para N = 1 y para

cualquier d, ya que C(1, d) = 2]. Entonces

d1
d2
X
X
N 1
N 1
C(N + 1, d) = 2
+2
=
k
k
k=0
k=0

d1
d1
d1
X
X
X
N 1
N 1
N
+2
=2
k
k1
k
k=0
k=0
k=0

n1
Usamos nk = n1
k1 +
k
2
Nota

n
n1
n1
=
+
k
k1
k
Contamos el n
umero de
Por lo anterior C(N, d) puede ser calculado recursivamente utilizando las

siguientes relaciones.
C(1, d) = 2
C(N, 1) = 2N
C(N + 1, d) = C(N, d) + C(N, d 1)
Lema 1
La probabilidad de que una dicotoma elegida aleatoriamente sea
linealmente separable es igual a
(
1
N d
f (N, d) =
Pd1 N 1
2
N >d
k=0
k
2N
Algoritmo de Aprendizaje del perceptron
Cada unidad produce su salida mediante la formaci

on de una
combinaci
on lineal de sus entradas que pasan posteriormente a traves de
una funci
on no lineal.
u=
N
X
wj xj = wT x
j=0
(
y=
1
+1
u0
u>0
Durante el entrenamiento, los patrones de entrada x son dados y las

salidas y(x) son comparadas a los objetivos t(x). Los pesos son
adaptados por
(
w =
2tx
0
si t 6= y
para otro caso
donde 0 < < 1 controla la tasa de aprendizaj.Ya que y, t {1, 1}, lo

siquiente es equivalente
= (1 ty)tx
y ademas
= (t ty)x
= (t y)x
Para mejorar la confiabilidad, puede ser deseable que una unidad se

active solo cuando la suma u = wT x es mayor que un lmite Nk . donde
0 k < 1. Lo regla siguiete puede ser usada:
w = (Nk tu)tx
donde (u) es la funcion escal
on
(
(u) =
1
0
u0
u<0

Single Layer

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Single Layer

Загружено:

Авторское право:

Доступные форматы

Definicion 1 (Combinacion lineal)

Dados dos conjuntos A, B, se define como combinaci

con cj R, es llamada una combinaci

Definicion 2 (Producto punto)

Proposicion 1 (Proyeccion de un vector sobre otro)

En terminos del angulo , se puede escribir el producto punto de los

Redes de capa simple

Las entradas se conectan directamente a las salidas atraves de una

Las N salidas pueden ser tratadas como N redes separadas.

Hay 22 funciones booleanas de d variables de entrada booleanas, de las

es verdad para N y d [Notemos que es trivial para N = 1 y para

Por lo anterior C(N, d) puede ser calculado recursivamente utilizando las

Algoritmo de Aprendizaje del perceptron

Cada unidad produce su salida mediante la formaci

Durante el entrenamiento, los patrones de entrada x son dados y las

donde 0 < < 1 controla la tasa de aprendizaj.Ya que y, t {1, 1}, lo

Para mejorar la confiabilidad, puede ser deseable que una unidad se

Вам также может понравиться