Академический Документы
Профессиональный Документы
Культура Документы
htm
Resumen
Recientemente se ha utilizado un mecanismo de atención para mejorar la traducción automática neuronal
(NMT) al enfocarse selectivamente en partes de la oración fuente durante la traducción. Sin embargo, ha
habido poco trabajo explorando arquitecturas útiles para NMT basado en la atención. Este documento examina
dos clases simples y efectivas de mecanismo de atención: un enfoque global que siempre atiende a todas las
palabras de origen y un localuno que solo mira un subconjunto de palabras de origen a la vez. Demostramos la
efectividad de ambos enfoques en las tareas de traducción WMT entre inglés y alemán en ambas direcciones.
Con atención local, logramos una ganancia significativa de 5.0 puntos BLEU sobre los sistemas no
atencionales que ya incorporan técnicas conocidas como la deserción. Nuestro modelo de conjunto que utiliza
diferentes arquitecturas de atención produce un nuevo resultado de vanguardia en la tarea de traducción de
inglés a alemán WMT'15 con 25.9 puntos BLEU, una mejora de 1.0 puntos BLEU sobre el mejor sistema
[1]
existente respaldado por NMT y un n -regramador de gramas.
1 Introducción
Neural Machine Translation (NMT) logró actuaciones de vanguardia en tareas de traducción a gran escala, como del
inglés al francés (Luong et al., 2015) y del inglés al alemán (Jean et al., 2015). NMT es atractivo ya que requiere un
conocimiento mínimo del dominio y es conceptualmente simple. El modelo de Luong et al. (2015) lee todas las
palabras de origen hasta que se alcanza el símbolo de fin de frase < eos > . Entonces comienza
X Y Z <eos>
Figura 1: Traducción automática ne uronal : una arquitectura recurrente de apilamiento para traducir una secuencia
fuente ABCD en una secuencia objetivo XYZ . Aquí, < eos > marca el final de una oración.
emitiendo una palabra objetivo a la vez, como se ilustra en la Figura 1. NMT es a menudo una gran red neuronal que
se entrena de extremo a extremo y tiene la capacidad de generalizar bien a secuencias de palabras muy largas. Esto
significa que el modelo no tiene que almacenar explícitamente tablas de frases gigantes y modelos de lenguaje como
en el caso de MT estándar; por lo tanto, NMT tiene una pequeña huella de memoria. Por último, la implementación de
decodificadores NMT es fácil a diferencia de los decodificadores altamente complejos en MT estándar (Koehn et al.,
2003).
Paralelamente, el concepto de "atención" ha ganado popularidad recientemente en el entrenamiento de redes
neuronales, permitiendo a los modelos aprender alineaciones entre diferentes modalidades, por ejemplo, entre objetos
de imagen y acciones de agentes en el problema de control dinámico (Mnih et al., 2014), entre marcos de texto y texto
en la tarea de reconocimiento de voz ( ? ), o entre las características visuales de una imagen y su descripción de texto
en la tarea de generación de subtítulos de imagen (Xu et al., 2015). En el contexto de NMT, Bahdanau et al. (2015) ha
aplicado con éxito dicho mecanismo de atención para traducir y alinear palabras conjuntamente. Hasta donde
sabemos, no ha habido ningún otro trabajo que explore el uso de arquitecturas basadas en la atención para NMT.
En este trabajo, diseñamos, con simplicidad y efectividad en mente, dos tipos novedosos de modelos basados en la
atención: un enfoque global en el que se atienden todas las palabras fuente y uno local en el que solo se considera
un subconjunto de palabras fuente a la vez. El primer enfoque se asemeja al modelo de (Bahdanau et al., 2015) pero
es arquitectónicamente más simple. Este último puede verse como una combinación interesante entre los modelos de
atención dura y suave propuestos en (Xu et al., 2015): es computacionalmente menos costoso que el modelo global o
la atención suave; Al mismo tiempo, a diferencia de la atención dura, la atención local es diferenciable en casi todas
p ( y | y , s ) = softmax ( g ( h j )) (2)
j <j
[5]
siendo g la función de transformación que genera un vector del tamaño del vocabulario. Aquí, h j es la unidad
oculta RNN, calculada de forma abstracta como:
h j = f ( h j −1 , s ) , (3)
donde f calcula el estado oculto actual dado el estado oculto anterior y puede ser una unidad RNN de vainilla, una
GRU o una unidad LSTM. En (Kalchbrenner y Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Luong et al.,
2015), la representación de la fuente s solo se usa una vez para inicializar el estado oculto del decodificador. Por otro
lado, en (Bahdanau et al, 2015;.. Jean et al, 2015) y este trabajo, s , de hecho, implica un conjunto de estados ocultos
h ˜ t = tanh ( W [ c t ; h t ]) (5)
c
El vector atencional h ˜ t se alimenta a través de la capa softmax para producir la distribución predictiva formulada
como:
p ( y | y , x ) = softmax ( W h ˜ t ) (6)
t <t s
Ahora detallamos cómo cada tipo de modelo calcula el vector de contexto del lado de la fuente c t .
oculto fuente h ¯ s :
a t ( s ) = alinear ( h t , h ¯ s ) (7)
puntaje de exp ( h
=Ps
′ Puntaje exp ( hh
Figura 2: Mode lo ate ncional global : en cada paso de tiempo t , el modelo infiere un vector de peso de alineación de
longitud variable a t basado en el estado objetivo actual h t y todos los estados fuente h ¯ s . Luego se calcula un
vector de contexto global c t como el promedio ponderado, de acuerdo con a t , sobre todos los estados fuente.
Aquí, la puntuació n se conoce como una función basada en el contenido para la cual consideramos tres alternativas
diferentes:
h ⊤ t h ¯ s punto
puntaje ( h t , h ¯ s ) = h ⊤ t W a h ¯ s general
W concat
a
Además, en nuestros primeros intentos de construir modelos basados en la atención, utilizamos una función basada
en la ubicación en la que los puntajes de alineación se calculan únicamente a partir del estado oculto objetivo h t de la
siguiente manera:
Dado el vector de alineación como pesos, el vector de contexto c se calcula como el promedio ponderado sobre todos
t
[6]
los estados ocultos de origen.
Comparación con (Bahdanau et al., 2015) - Si bien nuestro enfoque de atención global es similar en espíritu al
modelo propuesto por Bahdanau et al. (2015), existen varias diferencias clave que reflejan cómo hemos simplificado y
generalizado el modelo original. Primero, simplemente usamos estados ocultos en las capas LSTM superiores tanto en
el codificador como en el decodificador como se ilustra en la Figura 2. Bahdanau et al. (2015), por otro lado, utilizan la
concatenación de los estados ocultos de fuente hacia adelante y hacia atrás en el codificador bidireccional
simple; pasamos de h t → a t → c t → h ˜ t luego hacemos una predicción como se detalla en la ecuación. (5), ec. (6),
y Figura 2. Por otro lado, en cualquier momento t , Bahdanau et al. (2015) construyen desde el estado oculto anterior
h t −1 → a t → c t → h t , que, a su vez, pasa por una capa de salida profunda y máxima antes de hacer predicciones.
[7]
Por último, Bahdanau et al. (2015) solo experimentaron con una función de alineación, el producto concat ;
mientras que mostramos más tarde que las otras alternativas son mejores.
W y v p son los parámetros del modelo que se aprenderán a predecir las posiciones. S es la longitud de la oración
p
fuente. Como resultado de sigmoide , p ∈ [0 , S ] . Para favorecer los puntos de alineación cerca de p , colocamos
t t
una distribución gaussiana centrada alrededor de p . Específicamente, nuestros pesos de alineación ahora se definen
t
como: a t ( s ) = align (
Usamos la misma función de alineació n que en la ecuación. (7) y la desviación estándar se establece empíricamente
como . Tenga en cuenta que p t es un número real ; mientras que s es un número entero dentro de la ventana
10
centrada en p t .
8
Si la ventana cruza los límites de la oración, simplemente ignoramos la parte exterior y consideramos las palabras en la ventana. 9 9
local-m es el mismo que el modelo global, excepto que el
El vector a t es de longitud fija y más corto.
file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 5/13
15/8/2019 Atencion basada en machine learning en html.htm
10
local-p es similar al modelo local-m, excepto que calculamos dinámicamente p y usamos una distribución gaussiana truncada para modificar
t
Figura 4: Enfoque de alime ntación de e ntrada : los vectores de atención h ˜ t se alimentan como entradas a los
siguientes pasos de tiempo para informar al modelo sobre decisiones de alineación pasadas.
Comparación con (Gregor et al., 2015) : ha propuesto un mecanismo de atención selectiva , muy similar a
nuestra atención local, para la tarea de generación de imágenes. Su enfoque permite que el modelo seleccione un
parche de imagen de diferente ubicación y zoom. En cambio, utilizamos el mismo "zoom" para todas las posiciones de
destino, lo que simplifica enormemente la formulación y aún así logra un buen rendimiento.
atencionales h ˜ t se concatenan con entradas en los siguientes pasos de tiempo, como se ilustra en la Figura 4.
[8]
Los efectos de tener tales conexiones son dobles: (a) esperamos hacer que el modelo sea plenamente consciente de
las elecciones de alineación anteriores y (b) creamos una red muy profunda que se extiende tanto horizontal como
verticalmente.
Comparación con otro trabajo -
Bahdanau y col. (2015) utilizan vectores de contexto, similares a nuestro c t , en la construcción de estados ocultos
posteriores, que también pueden lograr el efecto de "cobertura". Sin embargo, no ha habido ningún análisis de si tales
conexiones son útiles como se hizo en este trabajo. Además, nuestro enfoque es más general; como se ilustra en la
Figura 4, se puede aplicar a arquitecturas recurrentes de apilamiento general, incluidos los modelos no atencionales.
Xu y col. (2015) proponen un enfoque doblemente atencional con una restricción adicional agregada al objetivo de
capacitación para asegurarse de que el modelo preste la misma atención a todas las partes de la imagen durante el
proceso de generación de subtítulos. Tal restricción también puede ser útil para capturar el efecto de conjunto de
cobertura en NMT que mencionamos anteriormente. Sin embargo, elegimos utilizar el enfoque de alimentación de
entrada ya que proporciona flexibilidad para que el modelo decida sobre las restricciones de atención que considere
adecuadas.
4 experimentos
Evaluamos la efectividad de nuestros modelos en las tareas de traducción WMT entre inglés y alemán en ambas
direcciones. newstest2013 (3000 oraciones) se utiliza como un conjunto de desarrollo para seleccionar nuestros
hiperparámetros. Los resultados de traducción se informan en BLEU con distinción entre mayúsculas y minúsculas
(Papineni et al., 2002) en newstest2014 (2737 oraciones) y newstest2015 (2169 oraciones). A continuación (Luong et
[9]
al., 2015), informamos la calidad de la traducción utilizando dos tipos de BLEU: (a) tok enized BLEU para ser
[10]
comparable con el trabajo de NMT existente y (b) NIST BLEU para ser comparable con los resultados de WMT
.
La técnica de reemplazo desconocida propuesta en (Luong et al., 2015; Jean et al., 2015) produce otra ganancia
agradable de + 1 . 9 BLEU, demostrando que nuestros modelos atencionales aprenden alineaciones útiles para trabajos
desconocidos. Finalmente, al agrupar 8 modelos diferentes de varios entornos, por ejemplo, utilizando diferentes
enfoques de atención, con y sin abandono, etc., pudimos lograr un nuevo resultado SOTA de 23 . 0 BLEU, superando
el mejor sistema existente (Jean et al., 2015) en + 1 . 4 BLEU.
Sistema BLEU
Arriba - NMT + 5 gramos de recarga 24,9
(Montreal)
Nuestro conjunto de 8 modelos + 25,9
unk reemplaza
Tabla 2: Re sultados WMT'15 Inglé s-Ale mán - NIST puntuaciones BLEU de la obra ganadora en WMT'15 y
nuestro mejor uno en newstest2015.
Últimos resultados en WMT'15 : a pesar del hecho de que nuestros modelos fueron entrenados en WMT'14 con
un poco menos de datos, los probamos en newstest2015 para demostrar que pueden generalizarse bien en diferentes
conjuntos de pruebas. Como se muestra en la Tabla 2, nuestro mejor sistema establece un nuevo rendimiento SOTA
de 25 . 9 BLEU, superando el mejor sistema existente respaldado por NMT y un reorganizador LM de 5 gramos por +
1 . 0 BLEU.
5 Análisis
Realizamos un análisis exhaustivo para comprender mejor nuestros modelos en términos de aprendizaje, la capacidad
de manejar oraciones largas, opciones de arquitecturas atencionales y calidad de alineación. Todos los resultados
informados aquí están en el test de noticias inglés-alemán 2014.
Figura 5: Curvas de apre ndizaje : costo de la prueba ( en perplejidad) en newstest2014 para NMT inglés-alemán a
medida que avanza la capacitación.
+ curva) aprende más lentamente que otros modelos sin abandono, pero a medida que pasa el tiempo, se vuelve más
robusto en términos de minimizar los errores de prueba.
Figura 6: Análisis de longitud : cualidades de traducción de diferentes sistemas a medida que las oraciones se hacen
más largas.
BLEU
Siste ma Ppl antes Después
de de unk
global 6.4 18,1 19,3 (+1,2)
(ubicación)
global (punto) 6.1 18,6 20,5 (+1,9)
global 6.1 17.3 19,1 (+1,8)
(general)
local-m > 7.0 X X
(punto)
local-m 6.2 18,6 20,4 (+1,8)
(general)
local-p 6.6 18,0 19,6 (+1,9)
(punto)
local-p 5.9 19 20,9
(general) (+1,9)
Tabla 4: Arquite cturas ate ncionale s - desempeño de diferentes modelos atencionales. Entrenamos dos modelos de
m local (punto); ambos tienen ppl > 7 . 0 .
no aprenda buenas alineaciones: el modelo global (ubicación) solo puede obtener una pequeña ganancia cuando se
[11]
realiza el reemplazo de palabras desconocidas en comparación con el uso de otras funciones de alineación. Para
file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 9/13
15/8/2019 Atencion basada en machine learning en html.htm
las funciones basadas en contenido , nuestra implementación concat no produce buenos rendimientos y se debe
[12]
hacer más análisis para comprender la razón. Es interesante observar que dot funciona bien para la atención
global y en general es mejor para la atención local. Entre los diferentes modelos, el modelo de atención local con
alineamientos predictivos ( localp ) es el mejor, tanto en términos de perplejidades como de BLEU.
Tabla 6: Puntuacione s AER : resultados de varios modelos en los datos de alineación RWTH inglés-alemán.
alineaciones para algunas oraciones de muestra y ganancias observadas en la calidad de la traducción como una
indicación de un modelo de atención de trabajo, ningún trabajo ha evaluado las alineaciones aprendidas en su conjunto.
En contraste, nos propusimos evaluar la calidad de la alineación utilizando la métrica de la tasa de error de alineación
(AER).
Dados los datos de alineación dorada proporcionados por RWTH para 508 oraciones Europarl inglés-alemán,
"forzamos" a decodificar nuestros modelos atencionales para producir traducciones que coincidan con las referencias.
Extraemos solo alineaciones uno a uno seleccionando la palabra fuente con el mayor peso de alineación por palabra
objetivo. Sin embargo, como se muestra en la Tabla 6, pudimos lograr puntajes de AER comparables a las alineaciones
[13]
de uno a muchos obtenidas por el alineador de Berkeley (Liang et al., 2006).
También descubrimos que las alineaciones producidas por los modelos de atención local alcanzan AER más bajos
que los de la global. La AER obtenida por el conjunto, aunque es buena, no es mejor que la AER local, lo que sugiere
la observación bien conocida de que las puntuaciones de AER y de traducción no están bien correlacionadas (Fraser y
Marcu, 2007). Mostramos algunas visualizaciones de alineación en el Apéndice A.
Reconocimiento
Agradecemos el apoyo de un obsequio de Bloomberg LP y el apoyo de NVIDIA Corporation con la donación de las
GPU Tesla K40. Agradecemos a Andrew Ng y su grupo, así como a Stanford Research Computing, por permitirnos
usar sus recursos informáticos. Agradecemos a Russell Stewart por las útiles discusiones sobre los modelos. Por
último, agradecemos a Quoc Le, Ilya Sutskever, Oriol
Vinyals, Richard Socher, Michael Kayser, Jiwei Li, Panupong Pasupat, Kelvin Guu, miembros del Grupo Stanford
NLP y los revisores anónimos por sus valiosos comentarios y comentarios.
Referencias
[Bahdanau et al.2015] D. Bahdanau, K. Cho e Y. Bengio. 2015. Traducción automática neuronal aprendiendo conjuntamente a alinear
y traducir. En ICLR .
[Buck et al.2014] Christian Buck, Kenneth Heafield y Bas van Ooyen. 2014. Recuentos de N-gram y modelos de lenguaje del rastreo
común. En LREC .
[Cho et al.2014] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk y Yoshua Bengio. 2014.
Aprendizaje de representaciones de frases usando codificador-decodificador RNN para traducción automática estadística. En
EMNLP .
[Fraser y Marcu2007] Alexander Fraser y Daniel Marcu. 2007. Medición de la calidad de la alineación de palabras para la traducción
automática estadística. Lingüística computacional , 33 (3): 293–303.
[Gregor et al.2015] Karol Gregor, Ivo Danihelka, Alex Graves, Danilo Jiménez Rezende y Daan Wierstra. 2015. DIBUJO: una red
neuronal recurrente para la generación de imágenes. En ICML .
[Jean et al.2015] Se´bastien Jean, Kyunghyun Cho, Roland Memisevic y Yoshua Bengio. 2015. Sobre el uso de vocabulario objetivo
muy amplio para la traducción automática neuronal. En ACL .
[Kalchbrenner y Blunsom2013] N. Kalchbrennerand P. Blunsom. 2013. Modelos de traducción continua recurrente. En EMNLP .
[Koehn et al.2003] Philipp Koehn, Franz Josef Och y Daniel Marcu. 2003. Traducción estadística basada en frases. En NAACL .
[Liang et al.2006] P. Liang, B. Taskar y D. Klein. 2006. Alineación por acuerdo. En NAACL .
[Luong et al.2015] M.-T. Luong, I. Sutskever, QV Le, O. Vinyals y W. Zaremba. 2015. Abordar el problema de las palabras raras en la
traducción automática neuronal. En ACL .
[Mnih et al.2014] Volodymyr Mnih, Nicolas Heess, Alex Graves y Koray Kavukcuoglu. 2014. Modelos recurrentes de atención
visual. En NIPS .
[Papineni et al.2002] Kishore Papineni, Salim Roukos, Todd Ward y Wei jing Zhu. 2002. Bleu: un método para la evaluación
automática de la traducción automática. En ACL .
Figura 7: Visualizacione s de aline ación : se muestran imágenes de los pesos de atención aprendidos por varios
modelos: (arriba a la izquierda) global, (arriba a la derecha) local-m y (abajo a la izquierda) local-p. Las alineaciones de
oro se muestran en la esquina inferior derecha.
[1]
Todos nuestros códigos y modelos están disponibles públicamente enhttp://nlp.stanford.edu/projects/nmt.
[2]
Hay un trabajo reciente de Gregor et al. (2015), que es muy similar a nuestra atención local y se aplica a la tarea de generación de
imágenes. Sin embargo, como detallamos más adelante, nuestro modelo es mucho más simple y puede lograr un buen rendimiento para NM T.
[3]
Se supone que todas las oraciones terminan con un token especial de "fin de oración"<eos>.
[4]
Todos utilizaron una sola capa RNN, excepto los dos últimos trabajos que utilizaron un RNN bidireccional para el codificador.
[5]
Se puede proporcionargcon otras entradas, como la palabra predicha actualmentey como en (Bahdanau et al., 2015).
j
[6]
Ec. (8) implica que todos los vectores de alineacióna tson de la misma longitud. Para oraciones cortas, solo usamos la parte superior
deuna ty para oraciones largas, ignoramos las palabras cerca del final.
[7]
Nos referiremos a esta diferencia nuevamente en la Sección 3.3.
[8]
Sines el número de celdas LSTM , el tamaño de entrada de la primera capa LSTM es2n; los de las capas posteriores son n.