Академический Документы
Профессиональный Документы
Культура Документы
DGIT
PROYECTO:
FECHA DE ENTREGA:
Fig. 1 Esquema de una neurona. El proceso de aprendizaje consiste en hallar los pesos que codifican los conocimientos. Una regla de aprendizaje hace variar el valor de los pesos de una
Fig. 2 Esquema de una RNA de dos capas de neuronas intermedias. Otro algoritmo de RNA es el que aparece en la Figura 3, en este ejemplo las neuronas se organizan en una tipologa de capas diferentes. Solo incluye una capa neuronal oculta, este algoritmo es muy elemental y es muy utilizado a nivel acadmico para la construccin y prueba de diferentes tipos de modelos de red.
Fig. 3. Esquema de una RNA del tipo alimentacin directa (feed forward). Topologa con una capa de neuronas intermedias Existen cuatro aspectos que caracterizan una red neuronal: su topologa, el mecanismo de aprendizaje, tipo de asociacin realizada entre la informacin de entrada y salida, y la forma de representacin de estas informaciones. Redes Mono capa: Se establecen conexiones laterales, cruzadas o auto recurrentes entre las neuronas que pertenecen a la nica capa que constituye la red. Se utilizan en tareas relacionadas con lo que se conoce como auto asociacin; por ejemplo, para generar informaciones de entrada que se presentan a las redes incompletas o distorsionadas. Redes Multicapa: Son aquellas que disponen de conjuntos de neuronas agrupadas en varios niveles o capas. Una forma de distinguir la capa a la que pertenece la neurona, consiste en fijarse en el origen de las seales que recibe a la entrada y el destino de la seal de salida. Segn el tipo de conexin, como se vio previamente, se distinguen las redes feed forward, y las redes feed forward/feed back. Topologa de las Redes Neuronales. La arquitectura de las redes neuronales consiste en la organizacin y disposicin de las neuronas formando capas ms o
10
11
12
13
Fig.4 Partes de una neurona Desde 1985 comenzaron a consolidarse los congresos ms importantes como Neuronal Networks for Computing, la Neural Information Processing Systems , entre algunas otras. Actualmente, son numerosos los trabajos que se realizan y publican. Revistas como Neural Networks, Transactions on Neural Networks, entre otros, son las encargadas de la publicacin de los ltimos avances. El Departamento de Defensa de los Estados Unidos, la Sociedad Europea de Redes Neuronales son algunos de los ejemplos del resurgir de la investigacin sobre redes neuronales.
14
Quantization) y TPM (Topology-Preserving Map). Ambas forman mapas topolgicos para establecer caractersticas comunes entre las informaciones de entrada. Este modelo surge ante la curiosidad de Teuvo Kohonen, quien interesado en comprender la clasificacin natural que hace el cerebro en cuanto a su funcionalidad, ide el algoritmo SOM. Una definicin simplificada sobre los mapas topolgicos podra ser que, en una correspondencia que respecte la topologa, las unidades que se encuentran fsicamente prximas entre s van a responder a clase de vectores de entrada que, anlogamente, se encuentren cerca unos de otros. Los vectores de entrada de muchas dimensiones son representados sobre el mapa bidimensional, de tal manera que se mantenga el orden natural de los vectores de entrada (Deboech, 1996) (J.A, 1993) (T., 1997). Estos mapas presentan la caracterstica de organizar la informacin de entrada, de entre un gran volumen de datos, clasificndola automticamente, esto permitir visualizar relaciones importantes entre datos. Este modelo es muy til para establecer relaciones desconocidas previamente Este modelo de RNA es del tipo aprendizaje autoorganizado que como se explic con anterioridad es un proceso donde las neuronas aprenden mediante la autoorganizacin. Durante el proceso de aprendizaje, al ingresar un dato solo una neurona que tenga una actividad positiva dentro de la vecindad ser activada en la capa de salida.
15
16
Fig. 5 Neurona artificial Este modelo se conoce como perceptrn de McCulloch-Pitts, y es la base de la mayor parte de las arquitecturas de las RNA que se interconectan entre s. Las neuronas emplean funciones de activacin diferentes segn la aplicacin, algunas veces son funciones lineales, otras funciones sigmoidales (p.ej. la tanh), y otras funciones de umbral de disparo. La eficiencia sinptica se representa por factores de peso de interconexin wij, desde la neurona i, hasta la neurona j. Los pesos pueden ser positivos (excitacin) o negativos (inhibicin). Los pesos junto con las funciones f (z) dictan la operacin de la red neuronal. Normalmente las funciones no se modifican de tal forma que el estado de la red neuronal depende del valor de los factores de peso (sinpsis) que se aplica a los estmulos de la neurona. En un perceptrn, cada entrada es multiplicada por el peso W correspondiente, y los resultados son sumados, siendo evaluados contra el valor de umbral, si el resultado es mayor al mismo, el perceptrn se activa. El perceptrn es capaz tan slo de resolver funciones definidas por un hiperplano (objeto de dimensin N-1 contenida en un espacio de dimensin N). Que corte un
17
18
siguiente:
El objetivo del mtodo es minimizar dicho error mediante la modificacin del vector de pesos (w0,..., wn) sumndole un mnimo en la direccin del gradiente negativo, es decir, lo ms rpidamente posible. El procedimiento de derivacin se presenta a continuacin:
19
Por lo que el error local ser reducido ms rpidamente si se ajustan los pesos de acuerdo a la regla delta:
1. Inicializar pesos (w1,..., wn) y threshold (w0) 2. Presentar vector de entrada (x1,...,xn) y la salida deseada d(t) 3. Calcular la salida
n y (t ) Fh wi (t ) * xi (t ) i 0
donde Fh(a) = 1 s a>0 y = -1 s a<=0 4. Adaptar los pesos
n wi (t 1) wi (t ) * d (t ) wk (t ) * xk (t ) * xi (t ) k 0
Donde 0 < i < n y 5. Repetir los pasos 2 a 4 hasta que las salidas reales y las deseadas sean iguales para todos los vectores del conjunto de entrenamiento Siguiendo este mtodo se garantiza que, para un conjunto de entrenamiento adecuado, despus de un nmero finito de iteraciones el error se reduce a niveles
20
n yk (t ) Fh wki (t ) * xi (t ) i 0
4. Determinar la salida del Madaline M (t)=Fmayora (yk (t)) 5. Determinar el error y actualizar los pesos Si M (t) = salida deseada no se actualizan de otro modo, los elementos Adaline compiten y se actualiza el ganador, es decir al ADALINE con salida errnea mas
n wci (t 1) wci (t ) * d (t ) wcl (t ) * xl (t ) * xi (t ) l 0 cercana a cero en su salida original (y).
21
22
25
4. VISCOVERY SOMINE.
4.1. ORIGEN
El sistema de software Viscovery SOMine, desarrollado por la compaa austriaca de software Eudaptics, es una herramienta para el anlisis avanzado y el monitoreo de conjuntos de datos numricos; su motor principal es una variante del algoritmo Batch Map presentado en la seccin. Este sistema provee de medios poderosos para analizar conjuntos de datos con una estructura compleja, sin necesidad de contar con algn tipo de informacin estadstica a priori. El usuario es guiado durante el proceso de entrenamiento por un ambiente de ventanas bien denidas. Una vez computados los mapas, la representacin de informacin puede ser sistemticamente transformada de tal forma que se pueden utilizar distintas tcnicas de visualizacin y de clustering. Adems el sistema permite que alguna informacin numrica pueda ser solicitada por el usuario en cualquier momento. A continuacin se desglosan las capacidades del sistema durante las etapas del proceso KDD; comenzando por el pre procesamiento hasta llegar a la exploracin de los mapas y el descubrimiento de conocimiento.
4.2. FUNCIOMANIENTO
En el capitulo anterior se mencion al Viscovery SOMine como un software que ha automatizado el modelo SOM. Este sistema es utilizado por un equipo de trabajo del Instituto Finlay para elaborar mapas cientfico-tecnolgicos.
26
<<A<
Fig. 6. Funcionamiento del Viscovery SOMine. El punto de partida, para el uso de esta herramienta, es la entrada de un conjunto de datos numricos (datos multivariables, variables, nodos). Estos datos necesitan ser pre-procesados con el objetivo de organizarlos en forma de matrices. Los datos son convertidos hasta obtener una informacin visual en forma de mapa, para ello se aplica un nmero de tcnicas de evaluacin como coeficientes de correlacin entre variables o factores discriminantes (Eudatic Software Gmbh) (G, Suarez, & Guzman) (Sotolongo, Suarez, & Guzman). Los mapas sern amigables a la vista del usuario final, en ellos se identificarn dependencias entre parmetros, cluster y grficos que facilitarn diferentes predicciones o el proceso de monitoreo. El primer paso en la aplicacin del Viscovery es la seleccin de la fuente de datos. Esta fuente puede estar en formato texto (*.txt) o Microsoft Excel Workbook (*.xls), en cualquiera de los dos casos, el archivo debe ser una tabla de datos numricos en la que se especifique el nombre de cada componente.
27
4.3. APLICACIONES
Se estima que a pesar de las limitaciones tcnicas, las redes neuronales aplicadas a la Bibliometra constituyen un campo de investigacin muy prometedor. Un ejemplo es presentado a continuacin. La disciplina multidisciplinar de las redes neuronales es aplicada en esta seccin, donde se asume a la produccin de los documentos de patentes como indicador de la capacidad de desarrollo industrial. El objetivo es identificar posibles competidores, alianzas estratgicas, dependencia tecnolgica, etc. Se escogi para el primer ejemplo la representacin de la situacin tecnolgica de la Neisseria meningitidis (Entre las bacterias causantes de la meningitis 28
El mapa tecnolgico presentado en la figura anterior representa a tres cluster: cluster 1 formado solamente por la Merck & Co., un cluster 2 formado nicamente por el National Res. Council of Canada y el cluster 3 que incluye al resto de las instituciones. Este ltimo grupo est formado por una gran cantidad de
29
30
Fig. 8. Mapa de Amrica Latina y el Caribe (pases seleccionados) de acuerdo con la actividad en ciencia agrcola. En la figura 8 se presenta un mapa auto-organizado sobre la actividad en ciencia agrcola en Amrica Latina y el Caribe (se seleccionaron algunos pases segn los datos disponibles). Con ello se pretende lograr una representacin de la regin, teniendo en cuenta los indicadores de insumo y de resultados ms significativos. En la figura aparecen, en dos dimensiones, 22 pases. La semejanza de los pases, considerando de forma simultnea los 20 indicadores, se expresa mediante la cercana de estos en el mapa. Los 22 pases se agrupan (auto organizan) en 3 clusters o grupos: El cluster C1, que aparece en la esquina inferior izquierda, es seguido por una banda de 4 pases correspondientes al cluster C2 (Cuba, Colombia, Chile y Venezuela) y otro cluster (C3) con el resto de los pases. En el mbito regional e internacional hay un grupo de pases formado por Brasil, Mxico y Argentina que tiene una investigacin en la temtica con mayor solidez y con parecidos niveles de desarrollo. Esto coincide con los pases que presentan mayor nivel regional en el desarrollo agrcola.
31
32
33
34