Вы находитесь на странице: 1из 35

Tratamiento Digital de Seales

Redes Neuronales Progresivas


Parte I
Jos Luis Sancho Gmez

Dpto. Tecnologas de la Informacin y las Comunicaciones. Escuela Tcnica Superior de Ingenieros de Telecomunicacin Universidad Politcnica de Cartagena

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

Redes Neuronales
Arquitectura tpica (progresiva):
unidades de proceso no lineales conexin unidireccional mediante pesos capacidad de aprendizaje modificando sus parmetros
TIC/ETSIT/UPCT unidad peso

Salida 1 2 w(L) 23 2 3
Capa 1, N1 Capa L , NL

1 w(1) 11

Capa 0, N0

Entrada

Tratamiento Digital de Seales

Caractersticas Funcionales
Arquitectura seleccionable versatilidad sistema de tipo distribuido robusted paralelismo rapidez en funcionamiento (no en aprendizaje) aprendizaje cierta adaptabilidad, cierta capacidad de abstraccin No exenta de dificultades: de anlisis, de diseo, de aprendizaje (ni fcil ni rpido) y generalizacin
TIC/ETSIT/UPCT Tratamiento Digital de Seales 3

Funciones de la NNs
Correspondencia filtrado, modelado Asociacin restauracin, extraccin de caractersticas, ... Decisin (clasificacin) diagnstico, reconocimiento, data mining, ... Optimizacin planificacin, diseo, ...

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

Aplicaciones de las NNs


En todos los campos de la ciencia y de la tcnica Algunas frecuentes:
procesado de seales y datos: voz, imagen, radar, sonar, bioingeniera, comunicaciones, control, robtica, ... toma de decisiones: medicina, negocios, gestin, ... optimizacin: problemas tcnicos y metodolgicos
TIC/ETSIT/UPCT Tratamiento Digital de Seales 5

Bases Biolgicas
Membrana permeable para ciertas sustancias inicas
Membrana neuronal

Cl
Cl

Na +
Na + + 70 mV

K+

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

La Neurona
dendrita axn

soma conexin sinptica

Se propagan diferencias de potencial entre el soma y el entorno tras la activacin sinptica


TIC/ETSIT/UPCT Tratamiento Digital de Seales 7

La Teora Hebbiana
Hebb (1949) Libro: Organization of Behavior
"Cuando un axn de una clula A est suficientemente prximo para excitar a una clula B o toma parte en su disparo de una forma persistente, tiene lugar algn proceso de crecimiento o algn cambio metablico en una de las clulas, o en las dos, de tal modo que la eficiencia de A, como una de las clulas que desencadena el disparo de B, se ve incrementada."

Si una cierta conexin excita una neurona, la produccin de tal excitacin incrementa la capacidad de excitacin de dicha conexin.
Esto origina: - primeros modelos neuronales del sistema nervioso - primeras NNs - la metodologa del Aprendizaje Hebbiano
TIC/ETSIT/UPCT Tratamiento Digital de Seales 8

El Perceptron Monocapa
(Widrow): filtro transversal (adaptativo) + umbral duro
1 x1 x2 xN x2 w0 w1 w2 wN

Divisin segn el hiperplano

+
x1

z = wT x = 0

discriminante lineal

Cmo se entrena?
TIC/ETSIT/UPCT Tratamiento Digital de Seales 9

La Regla del Perceptron


K (Rosenblatt): dados K pares entrada-salida: {x k , d k }1

paso a paso:

w(k + 1) = w(k) + (dk ok )xk , ( > 0) 2

y repetir en bloque: K w (m + 1) = w (m) + (d k o k (m))x k 2 k =1


- supervisado: pares de entrenamiento dados ~ - no lineal: = d o - Hebbiano: refuerza las intervenciones correctas ( x k en w segn el signo del error)
Tratamiento Digital de Seales 10

Es aprendizaje:

TIC/ETSIT/UPCT

Si, separabilidad lineal, convergencia Grficamente Caso N=2 Con w0=0


w(k+1)
x1 x2

w(k)

xk

-x

No converge si no hay separabilidad lineal


TIC/ETSIT/UPCT Tratamiento Digital de Seales 11

El Algoritmo LMS
1 K (Widrow y Hoff): min C( w ) = min (d k z k ) 2 por gradiente: w w 2 = K 1 bloque: K w ( m + 1) = w (m) + (d k z k (m))x k 2 k =1 w ( k + 1) = w (k ) + (d k z k )x k 2

muestra a muestra:

(ms rpido, pero ms ruidoso) Para entradas independientes de valores i.d. de media cero y autocorrelacin Rxx, converge a la solucin MMSE (solucin de Wiener-Hopf)

w opt = R E{dx}
TIC/ETSIT/UPCT

1 xx

si

<

2 max
12

Tratamiento Digital de Seales

Pero el LMS es muy robusto: converge en muchos casos Aprendizaje: - supervisado - lineal: = d-z - por prestaciones: segn coste cuadrtico Produce resultados razonables (los mejores mediante una frontera lineal) aunque el problema no sea separable linealmente 2 NLMS o Delta-LMS: x independiza de la energa de las muestras
TIC/ETSIT/UPCT Tratamiento Digital de Seales 13

Limitaciones del Perceptron Monocapa


Minsky y Papert: es un slo un discriminante lineal, capaz de resolver problemas de juguete (p. ej. OREX) Si se dispone en capas: gradiente imposible, por el umbral duro En todo caso: dificultad de escalado (slo para casos simples)

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

14

La Activacin Blanda
Umbral duro aproximacin derivable Resulta adecuada la forma sigmoidal o sigmoide: -clsica:

o z o

1 o = f ( z) = 1 + e gz
o = f ( z) = 1 e gz th = gz 1+ e 2
gz

1 z -1

-actual:

g: saturacin (marca la proximidad al umbral) En principio, asumible por los pesos de llegada
TIC/ETSIT/UPCT Tratamiento Digital de Seales 15

LMS con Activacin Blanda


Ahora: z
o

1 K min C( w ) = min (d k ok ) 2 w w 2 = K 1

muestra a muestra:

w (k + 1) = w (k ) + (d k ok )f(zk)x k 2

Aparece un factor f(zk): -Para la sigmoide clsica:

f ' ( z ) =g o (1 o)
1 f ' ( z ) = g (1 o 2 ) 2
16

-Para la sigmoide actual:


TIC/ETSIT/UPCT

Tratamiento Digital de Seales

El Perceptron Multicapa
MLP (Perceptrn multicapa) Son: - potentes - verstiles - distribuidas: robustas - paralelas: rpidas (entrenadas) - de entrenamiento difcil y lento - de difcil anlisis
TIC/ETSIT/UPCT Tratamiento Digital de Seales

th + th + th +

pero:
z

17

El Perceptron Multicapa
Discusin de Lippman:

monocapa (define semiespacios)

bicapa (regiones convexas (conexas o no))

tricapa (regiones cncavas (conexas o no))

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

18

Capacidades del MLP


Se han probado los siguientes teoremas: Cybenko: basta con una capa oculta de unidades sigmoidales (en nmero indefinido) para

R N 0 ( 1, 1) N L

( clasificacin )

Kolmogorov (adaptado por Hetch-Nielsen): basta con una capa oculta de 2N0+1 unidades de activaciones adecuadas para (1, 1) N 0 R N L (continua ) No son constructivos para el dimensionamiento de MLPs.
TIC/ETSIT/UPCT Tratamiento Digital de Seales 19

Capacidades del MLP con activacin blanda

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

20

Notacin Utilizada

o (j l ) fj w lji oi (l-1)
( l 1) ( l)

(l)

w jj
( l 1) oj (l 1)

fi

( l 1)

fj

i
TIC/ETSIT/UPCT Tratamiento Digital de Seales

j
21

EL ALGORITMO DE RETROPROPAGACIN
(Werbos; Parker, Rumelhart)

Se usan cadenas para el clculo del gradiente:


(l ) C C oj = (l) (l ) (l ) wji oj wji

w (jil ) ( k + 1) = w (jil ) ( k )

C (k ) (l ) w ji

C (l) (l1) (l) (l1) = (l) f ' j oi = j oi o j

Nl 1 (l ) (l ) (l 1) ya que o j = f w jk ok k = 1

( l +1) N l +1 N l +1 (l ) o C C n (l ) (l ) ( l +1) ( l +1) l +1 j = (l +1) f ' j = (l +1) f 'nl +1 wnl +1 j f ' j = (l ) nl +1 onl +1 o j nl +1 onl +1

N l +1 (l +1) (l +1) (l ) = nl +1 wnl +1 j f ' j nl +1


TIC/ETSIT/UPCT Tratamiento Digital de Seales 22

l) l) w(ji ( k + 1) = w(ji ( k ) (lj ) ( k ) oi(l 1) (k )

Regla Delta Generalizada (GDR)

Recurdese que, para sigmoides fj(l)=1-oj(l) Se procede

l = L L-1, L-2, ... , 1 (retropropagacin!) insertando el gradiente

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

23

Sobre las Muestras


Conjunto de muestras de entrenamiento representativo Conviene preprocesar las muestras para eliminar informacin que de seguro se sabe irrelevante Conviene normalizar Pueden ser tiles cdigos sencillos (en general las NNs muestran sensibilidad al formato de presentacin). Ejemplos: 1:N, termmetro, etc. Aleatorizar el orden de presentacin de las muestras y ciclar las series de entrenamiento. Se evita la inestabilidad temporal

Si no se aplican bien estos principios pueden aparecer problemas de convergencia.


TIC/ETSIT/UPCT Tratamiento Digital de Seales 24

- Nmero de muestras: 10 muestras por peso - Nmero de ciclos: de 10 a 1000 Sobreentrenamiento: demasiados ciclos adaptan en exceso la red a las muestras de entrenamiento, no generalizando bien. Para evitarlo: con un conjunto de prueba adicional

C
conjunto de prueba conjunto de entrenamiento

detencin Conviene tambin:

- conjunto de verificacin de diseo - conjunto de aceptacin del resultado


25

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

Ante la escasez de pares conocidos para construir estos conjuntos:


- mtodo Leave-one-out (1 de prueba, K-1 de entrenamiento; y repetir). En general, Leave-k- out. - generacin de pares artificiales

La seleccin de muestras acelera el entrenamiento (p. ej., con las que marquen mejor las fronteras de clasificacin) Hay procedimientos de peticin de muestras durante el entrenamiento.
TIC/ETSIT/UPCT Tratamiento Digital de Seales 26

Sobre el Dimensionado
No hay reglas fijas, sino empricas - Nmero aconsejable de capas ocultas: 1 o 2 para clasificacin 2 para correspondencia (No contradice el teorema de Cybenko: 2 pueden dar lugar a una arquitectura ms eficiente) (De otro lado: para muchas correspondencias puede ser preferible usar salidas lineales)
TIC/ETSIT/UPCT Tratamiento Digital de Seales 27

- Dimensionado para clasificacin: Un nodo por clase con una capa: entre N12N0+1 y N13N0 (Kudrycki) con dos capas: N1 < ~ 2N3 (Lippmann) ~ 3N0, N2 < para diagnstico (clasificacin por sntomas):
N1 N 0 / N 2 N 0 N 2

Se tantea de menos a ms entre ambos lmites Existen mtodos de reduccin/crecimiento - ventajas en el entrenamiento - ventajas en las prestaciones
TIC/ETSIT/UPCT Tratamiento Digital de Seales 28

Sobre los mnimos locales


La funcin de coste suele presentar numerosos mnimos locales Para evitar ser atrapados por ellos: - mtodo sencillo: varias inicializaciones de los pesos, quedndonos con el mejor resultado - Mtodos Naturales; p. ej. Neo-Darwinianos: Genticos, Evolutivos, etc. Temple Simulado Perforacin de tneles - Aprendizaje Incremental: SS garantizan o facilitan llegar al mnimo absoluto (con ms carga computacional)
TIC/ETSIT/UPCT Tratamiento Digital de Seales

29

Sobre el Algoritmo de Entrenamiento


- Parmetros: Para entradas normalizadas a valor de pico 1 entre 0.001 y 1 coeficientes iniciales, v.a. U[-0.5, 0.5] o algo menores El propio algoritmo puede originar problemas convergencia (an eligiendo bien los parmetros)
Ej.: Parlisis por salidas deseadas 1. Se puede combatir reduciendo el nivel de las entradas eligiendo salidas deseadas que no saturen (p. ej.: 0.8) cambiando la funcin de coste
TIC/ETSIT/UPCT Tratamiento Digital de Seales 30

de

Otro ej.: error; remedios

detencin en una llanura de la superficie de

modificar el algoritmo: mtodo del momento


w(k + 1) = w(k ) + (1 ) wbp ( k ) + [w(k ) w(k 1)]

modificando la funcin de coste gestionando el valor del escaln, Manifestacin algoritmo


TIC/ETSIT/UPCT

en

la

prctica:

lentitud

del
31

Tratamiento Digital de Seales

Soluciones generales ante la lentitud


- modificacin o cambio de la funcin de coste - gestin del escaln - adaptacin de la no linealidad - utilizacin de otros algoritmos de bsqueda - cambio de inicializacin de los pesos - mtodos de seleccin de muestras

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

32

EJEMPLO: concesin de crdito

Base de Datos de Clientes de una Entidad Financiera 268 Clientes morosos 340 Clientes no morosos
608 Registros de Clientes

Atributos para la clasificacin Saldo actual Importe ltimas nminas Total prstamos y crditos (cuotas mesuales) Importe del prstamo Plazo del prstamo Estado Civil Edad
TIC/ETSIT/UPCT Tratamiento Digital de Seales 33

MLP: 7+30+1 Coste cuadrtico ( Estimacin de probabilidad de mora) Proceso: Normalizacin de variables de entrada Entrenamos con 152 registros Validamos con 152 registros Efectuamos el test con 304 registros
TIC/ETSIT/UPCT Tratamiento Digital de Seales 34

Resultados
MOROSOS MDA MLP 80,3% 88,5% NO MOROSOS 89,2% 96.9%

TIC/ETSIT/UPCT

Tratamiento Digital de Seales

35