Академический Документы
Профессиональный Документы
Культура Документы
Levenberg-Marquardt
El Back-Propagation ha demostrado converger muy lentamente en varias aplicaciones
en especial cuando se tiene una gran cantidad de patterns (incrementos) donde suele
converger pero a un MSE demasiado grande, lo que se llama mínimo local del MSE y
que muchas veces no es útil ya que busca una convergencia hacia el mínimo absoluto.
A la fecha existen diferentes algoritmos de entrenamiento supervisado que han surgido
del Back-Propagation que muestran velocidades mucho más rápidas de convergencia
del MSE hacia el mínimo absoluto. Uno de ellos es el algoritmo de Levenberg-
Marquardt.
El algoritmo de Levenberg-Marquardt se aplica principalmente a redes neuronales
multicapa con un número grande de patters ya que tiene la velocidad de convergencia
del MSE más rápida hasta ahora, principalmente en problemas de aproximación de
funciones a pesar de que su complelidad en cálculos es mayor. Usa la metodología del
Back-Propagation empleando el concepto de la generalized delta rule, usando el
concepto de learning rate, aplicando el batch mode, sólo que el gradiente se calcula
mediante la matriz Jacobiana de los errores de las neuronas de salida. La ecuación con
la que se actualizan los pesos es la siguiente:
Cada uno de los algoritmos de gradiente conjugado que hemos discutido hasta ahora
requiere una búsqueda de línea en cada iteración. Esta búsqueda de línea es
computacionalmente costosa, ya que requiere que la respuesta de la red a todos los
insumos de entrenamiento sea computada varias veces para cada búsqueda. El escalado
algoritmo de gradiente conjugado (SCG), desarrollado por Moller [Moll93], fue
diseñado para evitar la línea de búsqueda de tiempo. Este algoritmo es demasiado
complejo para explicar en pocas líneas, pero la idea básica es combinar el enfoque de la
región modelo-confianza (usado en el algoritmo de Levenberg-Marquardt descrito más
adelante), con el enfoque de gradiente conjugado.
La trainscg rutina puede requerir más iteraciones para converger que los otros
algoritmos de gradiente conjugado, pero el número de cálculos en cada iteración se
reduce significativamente porque no se realiza búsqueda de línea. Los requisitos de
almacenamiento para el algoritmo escalado de gradiente conjugado son
aproximadamente los mismos que los de Fletcher-Reeves. (The MathWorks, Inc., 2005)
Bibliografía
Pubmet. (2008). Regularización bayesiana de redes neuronales. Obtenido de
https://www.ncbi.nlm.nih.gov/pubmed/19065804