Академический Документы
Профессиональный Документы
Культура Документы
Aplicadas
C URSO DE E XPERTOS DE U.C.M. (2012)
jmmarin@est-econ.uc3m.es
• El Perceptrón Multicapa.
inante.
• SOM.
• Aplicaciones.
2
Redes Neuronales en Economı́a y Marketing
• Negocios y Finanzas
casi todo el trabajo hecho en este área es para la empresa privada y grandes
compañı́as.
• Marketing
ronales que incluyen diversos sistemas expertos. Se utiliza una red neu-
3
• Evaluación de Créditos
aproximadamente.
4
Introducción
Las Redes Neuronales (ANN : Artificial Neural Networks) surgieron origi-
otras.
El primer modelo de red neuronal fue propuesto en 1943 por McCulloch y Pitts
5
Una primera clasificación de los modelos de ANN es:
tura) está bastante ligada a las necesidades de las aplicaciones para las que
son diseñados.
6
Ideas sobre Redes Neuronales de tipo biológico
Se estima que el cerebro humano contiene más de cien mil millones (1011 )
realizados sobre la anatomı́a del cerebro humano concluyen que hay, en general,
más de 1000 sinapsis por término medio a la entrada y a la salida de cada neurona.
de las computadoras, las neuronas naturales tienen una conectividad miles de ve-
temas biológicos.
7
Figure 1: Esquema de una neurona biológica
Las neuronas y las conexiones entre ellas (sinapsis) constituyen la clave para
el procesado de la información.
La mayor parte de las neuronas poseen una estructura de árbol, llamada den-
dritas, que reciben las señales de entrada procedentes de otras neuronas a través
de las sinapsis.
8
Una neurona consta de tres partes:
1. El cuerpo de la neurona,
tamente, y depende además del tipo particular de cada neurona. En general, una
neurona envı́a su salida a otras por su axón, y éste lleva la información por medio
9
Figure 2: Funcionamiento de una neurona
10
Este proceso es a menudo modelizado como una regla de propagación rep-
resentada por una función u(·). La neurona recoge las señales por su sinapsis
doras positivas dominan, entonces la neurona produce una señal positiva y manda
este mensaje a otras neuronas por sus sinapsis de salida. En este sentido, la neu-
11
Redes Neuronales Artificiales (ANN)
Las ANN aplicadas están, en general, inspiradas en las redes neuronales biológicas,
tas desde la perspectiva biológica. Las caracterı́sticas principales de las ANN son
las siguientes:
12
El elemento básico de computación (modelo de neurona) es un nodo o unidad.
Recibe un input desde otras unidades o de una fuente externa de datos. Cada
aprendizaje. Cada unidad aplica una función dada f de la suma de los inputs
X
yi = wij yj
j
13
Las caracterı́sticas de las ANN juegan un importante papel, por ejemplo, en el
iones jerárquicas.
14
• Fase de Prueba: en la fase anterior, el modelo puede que se ajuste de-
breajuste).
15
16
Redes Neuronales Supervisadas y No Supervisadas
Las redes neuronales se clasifican comúnmente en términos de sus correspon-
Los datos para el entrenamiento están constituidos por varios pares de patrones
siguiente forma:
m+1 m m
wij = wij + ∆wij
17
Se puede ver un diagrama esquemático de un sistema de entrenamiento super-
18
Reglas de Entrenamiento No Supervisado
entrenamiento consiste sólo en los patrones de entrada. Por lo tanto, la red es en-
19
Por ejemplo, se aplican la Regla de Aprendizaje de Hebb y la Regla de Apren-
dizaje Competitivo. Ası́, en el primer caso se refuerza el peso que conecta dos
presente, entonces la inclusión de este nuevo patrón a esta clase matiza la repre-
20
Funciones de Base y de Activación
Una red neuronal tı́pica se puede caracterizar por la función base y la función
de activación.
de la red. Asociada a cada conexión hay un peso {wij }, que determina el efecto
Las entradas al nodo i-ésimo que provienen de otros nodos se suman junto con
21
Tipos de Función Base
n
X
ui (w, x) = wij xj
j=1
22
Función de Activación
El valor de red, expresado por la función de base, u(w, x), se transforma me-
diante una función de activación no lineal. Las funciones de activación más co-
• Función logı́stica
1
f (x) =
1 + e−x
ex − e−x
f (x) =
ex + e−x
23
Figure 4: Función lineal
24
Figure 5: Función sigmoidal logı́stica
25
Figure 6: Función sigmoidal tangente hiperbólica
26
Estructuras de conexión de atrás hacia delante
• la capa de entrada,
• la capa oculta y
• la capa de salida.
Entre dos capas de neuronas existe una red de pesos de conexión, que puede
27
28
1. Conexiones hacia delante: los valores de las neuronas de una capa inferior
son propagados hacia las neuronas de la capa superior por medio de las
2. Conexiones hacia atrás: estas conexiones llevan los valores de las neuronas
valor total (por ejemplo, 1), mientras que a todas las demás se le da un valor
de 0
29
Las conexiones pueden ser total o parcialmente interconectadas, como se mues-
También es posible que las redes sean de una capa con el modelo de pesos
hacia atrás o bien el modelo multicapa hacia adelante. Es posible ası́ mismo, el
conectar varias redes de una sola capa para dar lugar a redes más grandes.
30
Tamaño de las Redes Neuronales
En una red multicapa de propagación hacia delante, puede haber una o más
capas ocultas entre las capas de entrada y salida. El tamaño de las redes depende
dades de la red. Para que el comportamiento de la red sea correcto, se tiene que
31
Métodos de Regresión y Redes Neuronales
Los modelos de regresión estudian la relación entre una serie de variables,
de xi .
N
X
η= β i xi
i=0
donde
E(y) = µ
µ = h(η)
32
En estas expresiones h(·) es la función que liga los componentes, βi son los
Un modelo lineal se puede implementar como una red neuronal simple: tiene
una unidad de sesgo, una unidad de input y una unidad de salida. El input se
refiere a una variable x, mientras que el sesgo siempre es una constante igual a 1.
El output serı́a
y2 = y1 w21 + 1.0w20
33
34
El modelo tiene tres componentes:
σ2.
3. Una función que relaciona la media con el predictor lineal η = h−1 (µ).
N
X
yp = β0 + βi xpi + εp
i=1
35
donde εp ∼ N (0, σ 2 ).
Este problema es equivalente al recogido por una red neuronal con una sola
activación es la identidad.
36
El Perceptrón Multicapa
El Perceptrón Multicapa es capaz de actuar como un aproximador universal
Rumelhart et al. (1986) formalizaron un método para que una red del tipo
Una red con backpropagation, conteniendo al menos una capa oculta con sufi-
37
Arquitectura
Un perceptrón multicapa está compuesto por una capa de entrada, una capa de
salida y una o más capas ocultas; aunque se ha demostrado que para la mayorı́a
de problemas bastará con una sola capa oculta. En la figura siguiente se puede
observar un perceptrón tı́pico formado por una capa de entrada, una capa oculta y
una de salida.
38
Figure 7: Perceptrón multicapa
39
Las conexiones entre neuronas son siempre hacia delante: las conexiones van
desde las neuronas de una determinada capa hacia las neuronas de la siguiente
capa; no hay conexiones laterales ni conexiones hacia atrás. Por tanto, la infor-
la neurona de salida k.
40
Algoritmo backpropagation
trada y éste se transmite a través de las sucesivas capas de neuronas hasta obtener
una salida. Después, hay una etapa de entrenamiento o aprendizaje donde se mod-
ifican los pesos de la red de manera que coincida la salida objetivo con la salida
41
Etapa de funcionamiento
transmite a través de los pesos wji desde la capa de entrada hacia la capa oculta.
Las neuronas de esta capa intermedia transforman las señales recibidas mediante
de salida. Este se transmite a través de los pesos vkj hacia la capa de salida, donde
aplicando la misma operación que en el caso anterior, las neuronas de esta última
42
Este proceso se resume en lo siguiente:
N
X
θjp = wji xpi + λj
i=1
donde λj es un peso asociado a una neurona ficticia con valor de salida igual a 1
yjp = f θjp
43
De igual forma, la entrada neta que recibe una neurona de salida k, θkp , es:
H
X
θkp = vkj yjp + λk
j=1
ykp = f (θkp )
44
Etapa de aprendizaje
La función de error que se pretende minimizar para cada patrón p viene dada
por:
M
1X p
p
E = (dk − ykp )2
2 k=1
donde dpk es la salida deseada para la neurona de salida k ante la presentación del
patrón p.
45
A partir de esta expresión se puede obtener una medida general del error total
mediante:
P
X
E= Ep
p=1
46
Como E p es función de todos los pesos de la red, el gradiente de E p es un
Por tanto, el error puede reducirse ajustando cada peso en esa dirección:
P
X ∂E p
−
p=1
∂wji
47
Un peligro que puede surgir al utilizar el método del gradiente decreciente
en aplicar la regla de la cadena a la expresión del gradiente y añadir una tasa dada
P
∂E p X
∆vkj (n + 1) = −η =η δkp yjp
∂vkj p=1
donde
y n indica la iteración.
48
En una neurona oculta:
P
X
∆wji (n + 1) = η δjp xpi
p=1
donde
M
X
δjp = f θjp δkp vkj
k=1
viene determinado por la suma de los errores que se cometen en las k neuronas de
salida que reciben como entrada la salida de esa neurona oculta j. De ahı́ que el
49
Para la modificación de los pesos, la actualización se realiza después de haber
P
!
X
∆vkj (n + 1) = η δkp yjp + α∆vkj (n)
p=1
50
Fases en la aplicación de un perceptrón multicapa
Una red del tipo perceptrón multicapa intenta resolver dos tipos de problemas:
51
Selección de las variables relevantes y preprocesamiento de los datos
tengan relaciones entre sı́, ya que esto puede provocar un sobreajuste innecesario
en el modelo.
entre 0 y 1 ó entre −1 y 1.
52
Si la variable es discreta, se utiliza la codificación dummy.
La variable nivel social podrı́a codificarse como: 100 = bajo, 010 = medio,
ante una sola neurona, como, por ejemplo, la renta de una persona.
53
Entrenamiento de la red neuronal
Arquitectura de la red
54
El número de neuronas de la capa de entrada está determinado por el número
de variables predictoras.
Ası́, en los ejemplos anteriores, la variable sexo estarı́a representada por una
neurona que recibirı́a los valores 0 ó 1. La variable estatus social estarı́a represen-
tada por tres neuronas. La variable renta de una persona estarı́a representada por
una neurona que recibirı́a un valor previamente acotado, por ejemplo, a valores
entre 0 y 1.
55
Cuando intentamos discriminar entre dos categorı́as, bastará con utilizar una
única neurona.
dremos una única neurona que dará como salida el valor de la variable a estimar.
red neuronal. Para evitar el sobreajuste, se debe usar el mı́nimo número de neu-
ronas ocultas con las cuales la red funcione de forma adecuada. Esto se consigue
56
Tasa de aprendizaje y factor momento
57
Función de activación de las neuronas ocultas y de salida
58
Evaluación del rendimiento del modelo
Una vez seleccionado el modelo de red que ha obtenido el mejor resultado con
59
Interpretación de los pesos obtenidos
el análisis de sensibilidad.
en una salida yk debido al cambio que se produce en una entrada xi . Cuanto mayor
efecto se observe sobre la salida, mayor sensibilidad se puede deducir que presenta
respecto a la entrada.
60
Redes Neuronales como generalización de las técnicas
de Análisis Discriminante
En este apartado se trata la visión de las redes neuronales en términos de una
forma
m
X
gj (x) = wji φi (x; µi ) + wj0 ,
i=1
j = 1, . . . , C;
61
donde hay m funciones base, φi , cada una de las cuales tiene una serie de parámetros,
esto es, x se asigna a la clase cuya función discriminante alcanza mayor valor.
ciones no lineales φi .
62
Si,
es la dimensión de x.
63
Se puede interpretar como una transformación de los datos x ∈ Rp a RC
m
X
gj (x) = wji φi (|x − µi |) + wj0
i=1
donde j = 1, . . . n. Los parámetros wji son los pesos; wj0 se denomina el sesgo y
64
Los mapas auto-organizados de Kohonen (SOM)
En 1982 T. Kohonen presentó un modelo de red denominado mapas auto-
competitivo.
No existe ningún maestro externo que indique si la red neuronal está operando
65
En el aprendizaje competitivo las neuronas compiten unas con otras con el fin
de llevar a cabo una tarea dada. Se pretende que cuando se presente a la red un
active.
Por tanto, las neuronas compiten por activarse, quedando finalmente una como
neurona vencedora y anuladas el resto, que son forzadas a sus valores de respuesta
mı́nimos.
Las clases o categorı́as deben ser creadas por la propia red, puesto que se trata
entrada.
66
Fundamentos biológicos
nadas; de forma que las informaciones captadas del entorno a través de los órganos
por tanto, que el cerebro podrı́a poseer la capacidad inherente de formar mapas
67
También se ha observado que la influencia que una neurona ejerce sobre las
demás es función de la distancia entre ellas, siendo muy pequeña cuando están
muy alejadas.
en una corona circular de 150 a 400 micras de anchura alrededor del cı́rculo ante-
rior, y de tipo excitatorio muy débil desde ese punto hasta una distancia de varios
centı́metros.
68
El modelo de red auto-organizado presentado por Kohonen pretende mimeti-
69
Ideas intuitivas sobre el algoritmo del SOM
serie de medidas de similitud. Estas últimas no tiene por qué ser simétricas
los puntos mantienen las mismas distancias relativas que en el espacio orig-
70
• En el algoritmo de las k-medias cada observación se asigna al cluster cuyo
• El SOM es muy parecido, salvo que en este caso se asocia una cierta estruc-
más próximos en la rejilla sean más parecidos entre sı́ que los que estén muy
separados.
71
• Si se discretiza el espacio bidimensional dividiéndolo, por ejemplo, en una
rejilla. Los representantes que están en clases próximas se parecen entre sı́.
• El espı́ritu del SOM es, ası́, proporcionar una versión discreta de MDS.
• Kohonen afirma: I just wanted an algorithm that would effectively map sim-
ilar patterns (pattern vectors close to each other in the input signal space)
72
Metodologı́a del algoritmo del SOM
mapa se conectan con las neuronas adyacentes mediante una relación de vecindad,
que produce la topologı́a o estructura del mapa. Las topologı́as más frecuentes son
la rectangular y la hexagonal.
73
Las neuronas adyacentes pertenecen a una vecindad Ni de la neurona i. La
Durante la fase de entrenamiento, el SOM forma una red elástica que se pl-
que tiende a aproximar la densidad de los datos. Los vectores de referencia del
74
El proceso de aprendizaje del SOM es el siguiente:
distancia (similitud) a los vectores del codebook, usando, por ejemplo, la distancia
euclı́dea:
kx − mc k = min {kx − mi k}
i
Paso 2. Una vez que se ha encontrado el vector más próximo o BMU (best match-
ing unit) el resto de vectores del codebook es actualizado. El BMU y sus vecinos
75
La regla de actualización para el vector de referencia dado i es la siguiente:
mi (t) + α(t) (x(t) − mi (t))
i ∈ Nc (t)
mi (t + 1) =
mi (t)
i∈ / Nc (t)
número de pasos de entrenamiento se debe fijar antes a priori, para calcular la tasa
76
Medidas de calidad del mapa y precisión del mapa
den las neuronas a los datos. Habitualmente, el numero de datos es mayor que el
77
Para calcular la precisión de la proyección se usa el error medio de cuantifi-
N
1 X
εq = kxi − mc k
N i=1
SOM preserva la topologı́a del conjunto de datos. Esta medida considera la es-
tructura del mapa. En un mapa que esté retorcido de manera extraña, el error
78
Una manera simple de calcular el error topográfico es:
N
1 X
εt = u (xk )
N k=1
79
Visualización del SOM
muestra en la figura 9.
para los datos en alta dimensión, de manera que los vectores que se proyectan en
80
La matriz unificada de distancias, o matriz U , es el método más popular para
tamaño y topologı́a del mapa se puede observar en el gráfico donde cada elemento
Después se selecciona algún tipo de representación gráfica, por ejemplo una escala
de grises. Los colores en la figura se seleccionan de modo que cuanto más claro
81
Figure 9: Visualización mediante la matriz U. Es un mapa de de tamaño 12 × 8
82
Visualización de histogramas de datos
Se trata de mostrar cómo los vectores de datos son clasificados por el SOM. El
junto de datos.
83
Figure 10: Visualización de un histograma 3D
84
Aplicaciones
Con el fin de llegar al entendimiento global de las redes neuronales, se suele
85
Las principales aplicaciones son el procesado de señales y el reconocimiento
alelo, adaptativo y no lineal. Las redes neuronales se han aplicado con éxito en
Las aplicaciones más importantes de las redes neuronales son las de aso-
86
Asociación y Clasificación
trenado para que cuando se le presente una versión ligeramente distorsionada del
red deberı́a presentar cierta inmunidad contra el ruido, esto es, deberı́a ser capaz
87
• Asociación. De especial interés son las dos clases de asociación autoaso-
ciación y heteroasociación.
termina los pesos en las redes autoasociativas. Por otro lado, la correlación
la red de heteroasociación.
88
• Clasificación. En muchas aplicaciones de clasificación, por ejemplo en re-
apropiadas para las aplicaciones que tienen una gran cantidad de clases con
89
Generalización
de aprendizaje supervisado.
Una red se considera que esta entrenada con éxito si puede aproximar los
90
91
Optimización
función de energı́a.
92
Una vez que se define la función de energı́a, se determinan los pesos sinápticos.
estocásticos.
93
Páginas sobre Redes Neuronales
http://www.bibliopsiquis.com/psicologiacom/vol6num1/3301/
http://www.bibliopsiquis.com/psicologiacom/vol5num2/2833/
http://www.cs.stir.ac.uk/~lss/NNIntro/InvSlides.html
http://www.willamette.edu/%7Egorr/classes/cs449/intro.html
94
Neural Computing Publications Worldwide
http://www.ewh.ieee.org/tc/nnc/research/nnpubs.html
http://www.doc.ic.ac.uk/~nd/
surprise 96/journal/vol4/cs11/report.html
http://www.mathworks.com/access/helpdesk/help/toolbox/nnet/
http://www-ra.informatik.uni-tuebingen.de/SNNS/
95