Вы находитесь на странице: 1из 13

15/8/2019 Atencion basada en machine learning en html.

htm

Enfoques efectivos para la traducción automática neuronal basada en la atención

Minh-Thang Luong Hieu Pham Christopher D. Manning Departamento de Informática,


Universidad de Stanford, Stanford, CA 94305
{ lmthang, hyhieu, manning } @ stanford.edu

Resumen
Recientemente se ha utilizado un mecanismo de atención para mejorar la traducción automática neuronal
(NMT) al enfocarse selectivamente en partes de la oración fuente durante la traducción. Sin embargo, ha
habido poco trabajo explorando arquitecturas útiles para NMT basado en la atención. Este documento examina
dos clases simples y efectivas de mecanismo de atención: un enfoque global que siempre atiende a todas las
palabras de origen y un localuno que solo mira un subconjunto de palabras de origen a la vez. Demostramos la
efectividad de ambos enfoques en las tareas de traducción WMT entre inglés y alemán en ambas direcciones.
Con atención local, logramos una ganancia significativa de 5.0 puntos BLEU sobre los sistemas no
atencionales que ya incorporan técnicas conocidas como la deserción. Nuestro modelo de conjunto que utiliza
diferentes arquitecturas de atención produce un nuevo resultado de vanguardia en la tarea de traducción de
inglés a alemán WMT'15 con 25.9 puntos BLEU, una mejora de 1.0 puntos BLEU sobre el mejor sistema
[1]
existente respaldado por NMT y un n -regramador de gramas.

1 Introducción
Neural Machine Translation (NMT) logró actuaciones de vanguardia en tareas de traducción a gran escala, como del
inglés al francés (Luong et al., 2015) y del inglés al alemán (Jean et al., 2015). NMT es atractivo ya que requiere un
conocimiento mínimo del dominio y es conceptualmente simple. El modelo de Luong et al. (2015) lee todas las
palabras de origen hasta que se alcanza el símbolo de fin de frase < eos > . Entonces comienza
X Y Z <eos>

Figura 1: Traducción automática ne uronal : una arquitectura recurrente de apilamiento para traducir una secuencia
fuente ABCD en una secuencia objetivo XYZ . Aquí, < eos > marca el final de una oración.

emitiendo una palabra objetivo a la vez, como se ilustra en la Figura 1. NMT es a menudo una gran red neuronal que
se entrena de extremo a extremo y tiene la capacidad de generalizar bien a secuencias de palabras muy largas. Esto
significa que el modelo no tiene que almacenar explícitamente tablas de frases gigantes y modelos de lenguaje como
en el caso de MT estándar; por lo tanto, NMT tiene una pequeña huella de memoria. Por último, la implementación de
decodificadores NMT es fácil a diferencia de los decodificadores altamente complejos en MT estándar (Koehn et al.,
2003).
Paralelamente, el concepto de "atención" ha ganado popularidad recientemente en el entrenamiento de redes
neuronales, permitiendo a los modelos aprender alineaciones entre diferentes modalidades, por ejemplo, entre objetos
de imagen y acciones de agentes en el problema de control dinámico (Mnih et al., 2014), entre marcos de texto y texto
en la tarea de reconocimiento de voz ( ? ), o entre las características visuales de una imagen y su descripción de texto
en la tarea de generación de subtítulos de imagen (Xu et al., 2015). En el contexto de NMT, Bahdanau et al. (2015) ha
aplicado con éxito dicho mecanismo de atención para traducir y alinear palabras conjuntamente. Hasta donde
sabemos, no ha habido ningún otro trabajo que explore el uso de arquitecturas basadas en la atención para NMT.
En este trabajo, diseñamos, con simplicidad y efectividad en mente, dos tipos novedosos de modelos basados en la
atención: un enfoque global en el que se atienden todas las palabras fuente y uno local en el que solo se considera
un subconjunto de palabras fuente a la vez. El primer enfoque se asemeja al modelo de (Bahdanau et al., 2015) pero
es arquitectónicamente más simple. Este último puede verse como una combinación interesante entre los modelos de
atención dura y suave propuestos en (Xu et al., 2015): es computacionalmente menos costoso que el modelo global o
la atención suave; Al mismo tiempo, a diferencia de la atención dura, la atención local es diferenciable en casi todas

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 1/13


15/8/2019 Atencion basada en machine learning en html.htm
[2]
partes, lo que facilita su implementación y capacitación. Además,
también examinamos varias funciones de alineación para nuestros
modelos basados en la atención.
Experimentalmente, demostramos que nuestros dos enfoques son
efectivos en las tareas de traducción WMT entre inglés y alemán en
ambas direcciones. Nuestros modelos atencionales producen un impulso
de hasta 5.0 BLEU sobre los sistemas no atencionales que ya
incorporan técnicas conocidas como la deserción. Para la traducción del
inglés al alemán, logramos nuevos resultados de vanguardia (SOTA)
para WMT'14 y WMT'15, superando a los sistemas SOTA anteriores,
respaldados por modelos NMT y n -gram LM rerankers, en más de 1.0
BLEU Llevamos a cabo un análisis exhaustivo para evaluar nuestros
modelos en términos de aprendizaje, la capacidad de manejar oraciones
largas, opciones de arquitecturas atencionales, calidad de alineación y
resultados de traducción.

2 Traducción Automática Neural


Un sistema de traducción automática neuronal es una red neuronal que
modela directamente la probabilidad condicional p ( y | x ) de traducir
[3]
una oración fuente, x 1 , ..., x , a una oración objetivo, y 1 , ..., y .
n m
Una forma básica de NMT consta de dos componentes: (a) un
codificador que calcula una representación s para cada oración fuente
y (b) un decodificador que genera una palabra objetivo a la vez y, por
lo tanto, descompone la probabilidad condicional como:

Una opción natural para modelar tal descomposición en el


decodificador es usar una arquitectura de red neuronal recurrente
(RNN), que la mayoría del trabajo reciente de NMT como
(Kalchbrenner y Blunsom, 2013; Sutskever et al., 2014; Cho et al. 2014;
Bahdanau et al., 2015; Luong et al., 2015; Jean et al., 2015) tienen en
común. Sin embargo, difieren en términos de qué arquitecturas RNN
se usan para el decodificador y cómo el codificador calcula la
representación de la oración fuente s .
Kalchbrenner y Blunsom (2013) usaron un RNN con la unidad
oculta estándar para el decodificador y una red neuronal convolucional
para codificar la representación de la oración fuente. Por otro lado,
tanto Sutskever et al. (2014) y Luong et al. (2015) apilaron varias
capas de un RNN con una unidad oculta de memoria a corto plazo
(LSTM) para el codificador y el decodificador. Cho y col. (2014),
Bahdanau et al. (2015), y Jean et al. (2015) adoptaron una versión
diferente del RNN con una unidad oculta inspirada en LSTM, la unidad
[4]
recurrente cerrada (GRU), para ambos componentes. Con más
detalle, se puede parametrizar la probabilidad de decodificar cada
palabra y j como:

p ( y | y , s ) = softmax ( g ( h j )) (2)
j <j

[5]
siendo g la función de transformación que genera un vector del tamaño del vocabulario. Aquí, h j es la unidad
oculta RNN, calculada de forma abstracta como:

h j = f ( h j −1 , s ) , (3)

donde f calcula el estado oculto actual dado el estado oculto anterior y puede ser una unidad RNN de vainilla, una
GRU o una unidad LSTM. En (Kalchbrenner y Blunsom, 2013; Sutskever et al., 2014; Cho et al., 2014; Luong et al.,
2015), la representación de la fuente s solo se usa una vez para inicializar el estado oculto del decodificador. Por otro
lado, en (Bahdanau et al, 2015;.. Jean et al, 2015) y este trabajo, s , de hecho, implica un conjunto de estados ocultos

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 2/13


15/8/2019 Atencion basada en machine learning en html.htm
de fuentes que se consultan a través de todo el curso del proceso de traducción. Tal enfoque se conoce como un
mecanismo de atención, que discutiremos a continuación.
En este trabajo, siguiendo (Sutskever et al., 2014; Luong et al., 2015), usamos la arquitectura de apilamiento LSTM
para nuestros sistemas NMT, como se ilustra en la Figura 1. Usamos la unidad LSTM definida en (Zaremba et al. ,
2015). Nuestro objetivo de capacitación se formula de la siguiente manera:

J = X D −log p (y|x) (4)


t

( x, y ) ∈ con D siendo nuestro cuerpo de entrenamiento paralelo.


3 modelos basados en la atención
Nuestros diversos modelos basados en la atención se clasifican en dos grandes categorías, global y local . Estas
clases difieren en términos de si la "atención" se coloca en todas las posiciones de origen o en solo unas pocas
posiciones de origen. Ilustramos estos dos tipos de modelos en la Figura 2 y 3 respectivamente.
Es común a estos dos tipos de modelos el hecho de que en cada paso de tiempo t en la fase de decodificación,
ambos enfoques toman primero como entrada el estado oculto h t en la capa superior de un LSTM de apilamiento. El
objetivo es derivar un vector de contexto c t que capture información relevante del lado de la fuente para ayudar a
predecir la palabra objetivo actual y . Si bien estos modelos difieren en la forma en que se deriva el vector de
t
contexto c t , comparten los mismos pasos posteriores.
Específicamente, dado el estado oculto objetivo h t y el vector de contexto del lado de la fuente c t , empleamos una
capa de concatenación simple para combinar la información de ambos vectores para producir un estado oculto
atencional de la siguiente manera:

h ˜ t = tanh ( W [ c t ; h t ]) (5)
c

El vector atencional h ˜ t se alimenta a través de la capa softmax para producir la distribución predictiva formulada
como:

p ( y | y , x ) = softmax ( W h ˜ t ) (6)
t <t s
Ahora detallamos cómo cada tipo de modelo calcula el vector de contexto del lado de la fuente c t .

3.1 Ate nción global


La idea de un modelo atencional global es considerar todos los estados ocultos del codificador al derivar el vector de
contexto c . En este tipo de modelo, un vector de alineación de longitud variable a t , cuyo tamaño es igual al número
t
de pasos de tiempo en el lado fuente, se obtiene comparando el estado oculto objetivo actual h t con cada estado

oculto fuente h ¯ s :
a t ( s ) = alinear ( h t , h ¯ s ) (7)
puntaje de exp ( h
=Ps
′ Puntaje exp ( hh

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 3/13


15/8/2019 Atencion basada en machine learning en html.htm

Figura 2: Mode lo ate ncional global : en cada paso de tiempo t , el modelo infiere un vector de peso de alineación de

longitud variable a t basado en el estado objetivo actual h t y todos los estados fuente h ¯ s . Luego se calcula un
vector de contexto global c t como el promedio ponderado, de acuerdo con a t , sobre todos los estados fuente.

Aquí, la puntuació n se conoce como una función basada en el contenido para la cual consideramos tres alternativas
diferentes:

h ⊤ t h ¯ s punto

puntaje ( h t , h ¯ s ) = h ⊤ t W a h ¯ s general
W concat
a
Además, en nuestros primeros intentos de construir modelos basados en la atención, utilizamos una función basada
en la ubicación en la que los puntajes de alineación se calculan únicamente a partir del estado oculto objetivo h t de la
siguiente manera:

a t = softmax ( W h t ) ubicación (8)


a

Dado el vector de alineación como pesos, el vector de contexto c se calcula como el promedio ponderado sobre todos
t
[6]
los estados ocultos de origen.
Comparación con (Bahdanau et al., 2015) - Si bien nuestro enfoque de atención global es similar en espíritu al
modelo propuesto por Bahdanau et al. (2015), existen varias diferencias clave que reflejan cómo hemos simplificado y
generalizado el modelo original. Primero, simplemente usamos estados ocultos en las capas LSTM superiores tanto en
el codificador como en el decodificador como se ilustra en la Figura 2. Bahdanau et al. (2015), por otro lado, utilizan la
concatenación de los estados ocultos de fuente hacia adelante y hacia atrás en el codificador bidireccional

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 4/13


15/8/2019 Atencion basada en machine learning en html.htm
Figura 3: Mode lo de ate nción local : el modelo predice primero una sola posición alineada p para la palabra
t
objetivo actual. Luego se usa una ventana centrada alrededor de la posición de origen p para calcular un vector de
t
contexto c t , un promedio ponderado de los estados ocultos de origen en la ventana. Los pesos a se infieren del
t

estado objetivo actual h t y esos estados fuente h ¯ s en la ventana.


y apuntar estados ocultos en su decodificador unidireccional sin apilamiento. Segundo, nuestra ruta de cálculo es más

simple; pasamos de h t → a t → c t → h ˜ t luego hacemos una predicción como se detalla en la ecuación. (5), ec. (6),
y Figura 2. Por otro lado, en cualquier momento t , Bahdanau et al. (2015) construyen desde el estado oculto anterior
h t −1 → a t → c t → h t , que, a su vez, pasa por una capa de salida profunda y máxima antes de hacer predicciones.
[7]
Por último, Bahdanau et al. (2015) solo experimentaron con una función de alineación, el producto concat ;
mientras que mostramos más tarde que las otras alternativas son mejores.

3.2 Ate nción local


La atención global tiene el inconveniente de que tiene que prestar atención a todas las palabras en el lado de origen
para cada palabra objetivo, lo cual es costoso y puede hacer que sea poco práctico traducir secuencias más largas, por
ejemplo, párrafos o documentos. Para abordar esta deficiencia, proponemos un mecanismo de atención local que
elige enfocarse solo en un pequeño subconjunto de las posiciones de origen por palabra objetivo.
Este modelo se inspira en la compensación entre los modelos atencionales blandos y duros propuestos por Xu et
al. (2015) para abordar la tarea de generación de subtítulos de imágenes. En su trabajo, la atención suave se refiere al
enfoque de atención global en el que los pesos se colocan "suavemente" sobre todos los parches en la imagen de
origen. La atención dura, por otro lado, selecciona un parche de la imagen para atender a la vez. Si bien es menos
costoso en el momento de la inferencia, el modelo de atención dura no es diferenciable y requiere técnicas más
complicadas como la reducción de la varianza o el aprendizaje de refuerzo para entrenar.
Nuestro mecanismo de atención local se enfoca selectivamente en una pequeña ventana de contexto y es
diferenciable. Este enfoque tiene la ventaja de evitar el costoso cómputo incurrido en la atención suave y, al mismo
tiempo, es más fácil de entrenar que el enfoque de atención dura. En detalles concretos, el modelo genera primero una
posición alineada p para cada palabra objetivo en el tiempo t . El vector de contexto c t se deriva entonces como un
t
promedio ponderado sobre el conjunto de estados ocultos de origen dentro de la ventana [ p - D, p + D ] ; D se
t t
8
selecciona empíricamente. A diferencia del enfoque global, el vector de alineación local a t ahora es de dimensión fija,
es decir, ∈ R 2 D +1 . Consideramos dos variantes del modelo como a continuación.
Alineación monotónica ( local-m ): simplemente establecemos p = t asumiendo que las secuencias fuente y
t
objetivo están más o menos monotónicamente alineadas. El vector de alineación a t se define de acuerdo con la
99
ecuación. (7)
Alineamiento predictivo ( local-p ): en lugar de asumir alineamientos monótonos, nuestro modelo predice una
posición alineada de la siguiente manera:
p = S · sigmoide ( v W p h t )) , (9)
t

W y v p son los parámetros del modelo que se aprenderán a predecir las posiciones. S es la longitud de la oración
p
fuente. Como resultado de sigmoide , p ∈ [0 , S ] . Para favorecer los puntos de alineación cerca de p , colocamos
t t
una distribución gaussiana centrada alrededor de p . Específicamente, nuestros pesos de alineación ahora se definen
t

como: a t ( s ) = align (
Usamos la misma función de alineació n que en la ecuación. (7) y la desviación estándar se establece empíricamente
como . Tenga en cuenta que p t es un número real ; mientras que s es un número entero dentro de la ventana
10
centrada en p t .
8
Si la ventana cruza los límites de la oración, simplemente ignoramos la parte exterior y consideramos las palabras en la ventana. 9 9
local-m es el mismo que el modelo global, excepto que el
El vector a t es de longitud fija y más corto.
file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 5/13
15/8/2019 Atencion basada en machine learning en html.htm
10
local-p es similar al modelo local-m, excepto que calculamos dinámicamente p y usamos una distribución gaussiana truncada para modificar
t

la alineación original de los pesos de alineació n ( h t , h ¯


s ) como se muestra en la ecuación. (10) Al utilizar p t para derivar a t , podemos
calcular los gradientes de backprop para W y v p . Este modelo es diferenciable en casi todas partes.
p

Figura 4: Enfoque de alime ntación de e ntrada : los vectores de atención h ˜ t se alimentan como entradas a los
siguientes pasos de tiempo para informar al modelo sobre decisiones de alineación pasadas.

Comparación con (Gregor et al., 2015) : ha propuesto un mecanismo de atención selectiva , muy similar a
nuestra atención local, para la tarea de generación de imágenes. Su enfoque permite que el modelo seleccione un
parche de imagen de diferente ubicación y zoom. En cambio, utilizamos el mismo "zoom" para todas las posiciones de
destino, lo que simplifica enormemente la formulación y aún así logra un buen rendimiento.

3.3 Enfoque de alime ntación de e ntrada


En nuestros enfoques globales y locales propuestos, las decisiones de atención se toman de manera independiente, lo
cual es subóptimo. Mientras que, en MT estándar, a menudo se mantiene un conjunto de cobertura durante el
proceso de traducción para realizar un seguimiento de las palabras fuente que se han traducido. Del mismo modo, en
los NMT atencionales, las decisiones de alineación deben tomarse conjuntamente teniendo en cuenta la información
de alineación pasada. Para abordar eso, proponemos un enfoque de alimentación de entrada en el que los vectores

atencionales h ˜ t se concatenan con entradas en los siguientes pasos de tiempo, como se ilustra en la Figura 4.
[8]

Los efectos de tener tales conexiones son dobles: (a) esperamos hacer que el modelo sea plenamente consciente de
las elecciones de alineación anteriores y (b) creamos una red muy profunda que se extiende tanto horizontal como
verticalmente.
Comparación con otro trabajo -
Bahdanau y col. (2015) utilizan vectores de contexto, similares a nuestro c t , en la construcción de estados ocultos
posteriores, que también pueden lograr el efecto de "cobertura". Sin embargo, no ha habido ningún análisis de si tales
conexiones son útiles como se hizo en este trabajo. Además, nuestro enfoque es más general; como se ilustra en la
Figura 4, se puede aplicar a arquitecturas recurrentes de apilamiento general, incluidos los modelos no atencionales.
Xu y col. (2015) proponen un enfoque doblemente atencional con una restricción adicional agregada al objetivo de
capacitación para asegurarse de que el modelo preste la misma atención a todas las partes de la imagen durante el
proceso de generación de subtítulos. Tal restricción también puede ser útil para capturar el efecto de conjunto de
cobertura en NMT que mencionamos anteriormente. Sin embargo, elegimos utilizar el enfoque de alimentación de
entrada ya que proporciona flexibilidad para que el modelo decida sobre las restricciones de atención que considere
adecuadas.

4 experimentos
Evaluamos la efectividad de nuestros modelos en las tareas de traducción WMT entre inglés y alemán en ambas
direcciones. newstest2013 (3000 oraciones) se utiliza como un conjunto de desarrollo para seleccionar nuestros
hiperparámetros. Los resultados de traducción se informan en BLEU con distinción entre mayúsculas y minúsculas
(Papineni et al., 2002) en newstest2014 (2737 oraciones) y newstest2015 (2169 oraciones). A continuación (Luong et
[9]
al., 2015), informamos la calidad de la traducción utilizando dos tipos de BLEU: (a) tok enized BLEU para ser
[10]
comparable con el trabajo de NMT existente y (b) NIST BLEU para ser comparable con los resultados de WMT
.

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 6/13


15/8/2019 Atencion basada en machine learning en html.htm
4.1 De talle s de e ntre namie nto
Todos nuestros modelos están entrenados en los datos de entrenamiento WMT'14 que consisten en 4.5M pares de
oraciones (116M palabras en inglés, 110M palabras en alemán). Similar a (Jean et al., 2015), limitamos nuestros
vocabularios para que sean las 50K palabras más frecuentes para ambos idiomas. Las palabras no en estos
vocabularios preseleccionados se convierten en un símbolo universal de < desc > .
System Ppl BLEU Al entrenar
Sistema WMT'14 ganador: basado en frases + LM grande (Buck et al., 20,7 nuestros
2014) sistemas NMT,
Sistemas NMT existentes siguiendo
(Bahdanau et
RNNsearch (Jean et al., 2015) 16,5 al., 2015; Jean
et al., 2015),
RNNsearch + unk replace (Jean et al., 2015) 19,0 filtramos los
RNNsearch + unk replace + large vocab + ensemble 8 models (Jean et al., 21,6 pares de
2015) oraciones cuyas
Nuestros sistemas NMT longitudes
Base 10,6 11,3 exceden las 50
Base + reversa 9,9 12,6 ( +1,3 palabras y
) barajamos mini
Base + reversa + deserción 8.1 14,0 ( +1,4 lotes a medida
Base + reversa + abandono + atención global ( ubicación ) 7.3 ) que avanzamos.
16,8 ( +2,8 Nuestros
) modelos LSTM
Base + inversión + deserción + atención global ( ubicación ) + entrada de 6.4 18,1 ( +1,3 de apilamiento
alimentación ) tienen 4 capas,
Base + inversión + deserción + atención local-p ( general ) + entrada de 5.9 19,0 ( +0,9 cada una con
alimentación ) 1000 celdas e
Base + inversión + deserción + atención local-p ( general ) + entrada de 20,9 ( +1,9 incrustaciones
alimentación + reemplazo de unk ) de 1000
Conjunto de 8 modelos + reemplazo de unk 23,0 ( +2,1 dimensiones.
) Seguimos
Tabla 1: WMT'14 re sultados Inglé s-ale manas - se muestra son las perplejidades (PPL) y los(Sutskever et
tok enizados puntuaciones de BLEU de diversos sistemas en newstest2014. Destacamos el me joral., 2014; Luong
sistema en negrita y brindamos mejoras progresivas en cursiva entre sistemas consecutivos. local-pet al., 2015) en
se refiere a la atención local con alineamientos predictivos. Indicamos para cada modelo de atención la
función de puntuación de alineación utilizada en paréntesis. el
entrenamiento
de NMT con configuraciones similares: (a) nuestros parámetros se inicializan uniformemente en [−0 . 1 , 0 . 1], (b)
entrenamos durante 10 épocas utilizando SGD simple, (c) se emplea un programa de tasa de aprendizaje simple:
comenzamos con una tasa de aprendizaje de 1; después de 5 épocas, comenzamos a reducir a la mitad la tasa de
aprendizaje en cada época, (d) nuestro tamaño de mini lote es 128, y (e) el gradiente normalizado se reescala cada vez
que su norma excede 5. Además, también usamos el abandono con probabilidad 0 . 2 para nuestros LSTM según lo
sugerido por (Zaremba et al., 2015). Para los modelos que abandonan, entrenamos durante 12 épocas y comenzamos
a reducir a la mitad la tasa de aprendizaje después de 8 épocas. Para los modelos de atención local, establecemos
empíricamente el tamaño de la ventana
D = 10 .
Nuestro código está implementado en MATLAB. Cuando se ejecuta en un solo dispositivo GPU Tesla K40,
alcanzamos una velocidad de 1K palabras objetivo por segundo. Se necesitan entre 7 y 10 días para entrenar
completamente un modelo.

4.2 Re sultados inglé s-ale mán


Comparamos nuestros sistemas NMT en la tarea de EnglishGerman con varios otros sistemas. Estos incluyen el
sistema ganador en WMT'14 (Buck et al., 2014), un sistema basado en frases cuyos modelos de lenguaje fueron
entrenados en un gran texto monolingüe, el corpus Common Crawl. Para los sistemas NMT de extremo a extremo,
según nuestro conocimiento, (Jean et al., 2015) es el único trabajo que experimenta con este par de idiomas y
actualmente con el sistema SOTA. Solo presentamos resultados para algunos de nuestros modelos de atención y luego
analizaremos el resto en la Sección 5.
Como se muestra en la Tabla 1, que lograr mejoras progresivas cuando (a) la inversión de la
frase de origen, + 1 . 3 BLEU, como se propone en (Sutskever et al., 2014) y (b) usando la deserción, + 1 . 4 BLEU.
Además de eso, (c) el enfoque de atención global da un impulso significativo de + 2 . 8 BLEU, haciendo que nuestro
modelo sea un poco mejor que el sistema atencional base de Bahdanau et al. (2015) (fila RNNSearch ). Cuando (d)
utiliza el enfoque de alimentación de entrada , aprovechamos otra ganancia notable de + 1 . 3BLEU y superan a su
sistema. El modelo de atención local con alineamientos predictivos (fila local-p ) demuestra ser aún mejor, dándonos
una mejora adicional de + 0 . 9 BLEU en la cima del modelo de atención global. Es interesante observar la tendencia
reportada previamente en (Luong et al., 2015) que la perplejidad se correlaciona fuertemente con la calidad de la
file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 7/13
15/8/2019 Atencion basada en machine learning en html.htm
traducción. En total, logramos una ganancia significativa de 5.0 puntos BLEU sobre la línea de base no atencional, que
ya incluye técnicas conocidas como inversión de fuente y deserción.

La técnica de reemplazo desconocida propuesta en (Luong et al., 2015; Jean et al., 2015) produce otra ganancia
agradable de + 1 . 9 BLEU, demostrando que nuestros modelos atencionales aprenden alineaciones útiles para trabajos
desconocidos. Finalmente, al agrupar 8 modelos diferentes de varios entornos, por ejemplo, utilizando diferentes
enfoques de atención, con y sin abandono, etc., pudimos lograr un nuevo resultado SOTA de 23 . 0 BLEU, superando
el mejor sistema existente (Jean et al., 2015) en + 1 . 4 BLEU.
Sistema BLEU
Arriba - NMT + 5 gramos de recarga 24,9
(Montreal)
Nuestro conjunto de 8 modelos + 25,9
unk reemplaza
Tabla 2: Re sultados WMT'15 Inglé s-Ale mán - NIST puntuaciones BLEU de la obra ganadora en WMT'15 y
nuestro mejor uno en newstest2015.

Últimos resultados en WMT'15 : a pesar del hecho de que nuestros modelos fueron entrenados en WMT'14 con
un poco menos de datos, los probamos en newstest2015 para demostrar que pueden generalizarse bien en diferentes
conjuntos de pruebas. Como se muestra en la Tabla 2, nuestro mejor sistema establece un nuevo rendimiento SOTA
de 25 . 9 BLEU, superando el mejor sistema existente respaldado por NMT y un reorganizador LM de 5 gramos por +
1 . 0 BLEU.

4.3 Re sultados ale mán-inglé s


Llevamos a cabo un conjunto similar de experimentos para la tarea de traducción WMT'15 del alemán al inglés. Si
bien nuestros sistemas aún no han igualado el rendimiento del sistema SOTA, mostramos la efectividad de nuestros
enfoques con grandes y progresivas ganancias en términos de BLEU, como se ilustra en la Tabla 3. El mecanismo de
atención nos da + 2 . 2 BLEU de ganancia y además de eso, obtenemos otro impulso de hasta + 1 . 0 BLEU desde el
enfoque de alimentación de entrada . Usando una mejor función de alineación, el producto de punto basado en
contenido , junto con el abandono produce otra ganancia de + 2 . 7 7 BLEU Por último, cuando aplicamos la técnica
de reemplazo de palabras desconocidas, aprovechamos un + 2 adicional . 1 BLEU, que demuestra la utilidad de la
atención para alinear palabras raras.

5 Análisis
Realizamos un análisis exhaustivo para comprender mejor nuestros modelos en términos de aprendizaje, la capacidad
de manejar oraciones largas, opciones de arquitecturas atencionales y calidad de alineación. Todos los resultados
informados aquí están en el test de noticias inglés-alemán 2014.

5.1 Curvas de apre ndizaje


Comparamos modelos construidos uno encima del otro como se enumera en la Tabla 1. Es agradable observar en la
Figura 5 una clara separación entre los modelos no atencionales y los atencionales. El enfoque de alimentación de
insumos y el modelo de atención local también demuestran sus habilidades para reducir los costos de la prueba. El
modelo no atencional con abandono (el azul
Sistema Ppl. BLEU
Sistemas WMT'15

SOTA - basado en frases 29,2


(Edimburgo)
NMT + 5 gramos de recarga 27,6
(MILA)
Nuestros sistemas NMT
Base (reversa) 14,3 16.9
+ global ( ubicación ) 12,7 19,1 ( +2,2
)
+ global ( ubicación ) + feed 10,9 20,1 ( +1,0
+ global ( punto ) + soltar + feed )
9,7 22,8 ( +2,7
+ global ( punto ) + soltar +
alimentar + unk )
24,9 ( +2,1
)
Tabla 3: Re sultados WMT'15 ale mán-inglé s : rendimiento de varios sistemas (similar a la Tabla 1). El sistema
base ya incluye la inversión de fuente en la que agregamos atención global , abandono , alimentación de entrada y
reemplazo de Unk .

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 8/13


15/8/2019 Atencion basada en machine learning en html.htm

0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8


Mini lotes 5 x 10

Figura 5: Curvas de apre ndizaje : costo de la prueba ( en perplejidad) en newstest2014 para NMT inglés-alemán a
medida que avanza la capacitación.

+ curva) aprende más lentamente que otros modelos sin abandono, pero a medida que pasa el tiempo, se vuelve más
robusto en términos de minimizar los errores de prueba.

5.2 Efe ctos de traducir oracione s largas


Seguimos (Bahdanau et al., 2015) para agrupar oraciones de longitudes similares y calcular una puntuación BLEU por
grupo. La Figura 6 muestra que nuestros modelos atencionales son más efectivos que los no atencionales en el manejo
de oraciones largas: la calidad no se degrada a medida que las oraciones se alargan. Nuestro mejor modelo (la curva
azul +) supera a todos los demás sistemas en todos los tramos de longitud.

5.3 Ele ccione s de arquite cturas ate ncionale s


Examinamos diferentes modelos de atención ( global, local-m, local-p ) y diferentes funciones de alineación (
ubicación, punto, general, concat ) como se describe en la Sección 3. Debido a los recursos limitados, no podemos
ejecutar todas las combinaciones posibles. Sin embargo, los resultados en la Tabla 4 nos dan una idea sobre las
diferentes opciones. La función basada en la ubicación hace

Figura 6: Análisis de longitud : cualidades de traducción de diferentes sistemas a medida que las oraciones se hacen
más largas.
BLEU
Siste ma Ppl antes Después
de de unk
global 6.4 18,1 19,3 (+1,2)
(ubicación)
global (punto) 6.1 18,6 20,5 (+1,9)
global 6.1 17.3 19,1 (+1,8)
(general)
local-m > 7.0 X X
(punto)
local-m 6.2 18,6 20,4 (+1,8)
(general)
local-p 6.6 18,0 19,6 (+1,9)
(punto)
local-p 5.9 19 20,9
(general) (+1,9)
Tabla 4: Arquite cturas ate ncionale s - desempeño de diferentes modelos atencionales. Entrenamos dos modelos de
m local (punto); ambos tienen ppl > 7 . 0 .

no aprenda buenas alineaciones: el modelo global (ubicación) solo puede obtener una pequeña ganancia cuando se
[11]
realiza el reemplazo de palabras desconocidas en comparación con el uso de otras funciones de alineación. Para
file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 9/13
15/8/2019 Atencion basada en machine learning en html.htm
las funciones basadas en contenido , nuestra implementación concat no produce buenos rendimientos y se debe
[12]
hacer más análisis para comprender la razón. Es interesante observar que dot funciona bien para la atención
global y en general es mejor para la atención local. Entre los diferentes modelos, el modelo de atención local con
alineamientos predictivos ( localp ) es el mejor, tanto en términos de perplejidades como de BLEU.

5.4 Calidad de aline ación


Un subproducto de los modelos atencionales son las alineaciones de palabras. Mientras (Bahdanau et al., 2015)
visualizó el Mé todo AER
global (ubicación) 0 . 39 local-m (general) 0 . 34 local-p (general) 0 . 36
conjunto 0 . 34
Berkeley Aligner 0 . 32

Tabla 6: Puntuacione s AER : resultados de varios modelos en los datos de alineación RWTH inglés-alemán.

alineaciones para algunas oraciones de muestra y ganancias observadas en la calidad de la traducción como una
indicación de un modelo de atención de trabajo, ningún trabajo ha evaluado las alineaciones aprendidas en su conjunto.
En contraste, nos propusimos evaluar la calidad de la alineación utilizando la métrica de la tasa de error de alineación
(AER).
Dados los datos de alineación dorada proporcionados por RWTH para 508 oraciones Europarl inglés-alemán,
"forzamos" a decodificar nuestros modelos atencionales para producir traducciones que coincidan con las referencias.
Extraemos solo alineaciones uno a uno seleccionando la palabra fuente con el mayor peso de alineación por palabra
objetivo. Sin embargo, como se muestra en la Tabla 6, pudimos lograr puntajes de AER comparables a las alineaciones
[13]
de uno a muchos obtenidas por el alineador de Berkeley (Liang et al., 2006).
También descubrimos que las alineaciones producidas por los modelos de atención local alcanzan AER más bajos
que los de la global. La AER obtenida por el conjunto, aunque es buena, no es mejor que la AER local, lo que sugiere
la observación bien conocida de que las puntuaciones de AER y de traducción no están bien correlacionadas (Fraser y
Marcu, 2007). Mostramos algunas visualizaciones de alineación en el Apéndice A.

5.5 Traduccione s de mue stra


Mostramos en la Tabla 5 ejemplos de traducciones en ambas direcciones. Es interesante observar el efecto de los
modelos atencionales al traducir correctamente nombres como "Miranda Kerr" y "Roger Dow". Los modelos no
atencionales, aunque producen nombres sensibles desde la perspectiva de un modelo de lenguaje, carecen de las
conexiones directas desde el lado de la fuente para realizar traducciones correctas. También observamos un caso
interesante en el segundo ejemplo, que requiere traducir la frase doblemente negada , "no incompatible". El modelo
atencional produce correctamente "nicht ... unvereinbar"; mientras que el modelo no atencional genera "nicht verein-
Traducciones inglés-alemán barra ", que
src Orlando Bloom y Miranda Kerr todavía se aman significa" no
árbitro Orlando Bloom y Miranda Kerr lieben sich noch immer compatible ".
mejor Orlando Bloom y Miranda Kerr están einander noch immer. [14]
El modelo
base Orlando Bloom y Lucas Miranda están einander noch immer.
src ′′ ′ atencional
Nos complace que la FAA reconozca que una experiencia agradable para los pasajeros no también
'',
es incompatible con la seguridad dijo Roger Dow, CEO de la Asociación de Viajes de EE. demuestra su
UU. superioridad en
árbitro "Wir freuen uns, dass die FAA erkennt, dass ein angenehmes Passagiererlebnis nicht im la traducción de
Widerspruch zur Sicherheit steht", dijo Roger Dow , CEO de la Asociación de Viajes de EE. oraciones largas
UU. como en el
mejor ′ ′ último ejemplo.
Wir freuen uns, dass die FAA anerkennt, dass ein angenehmes ist nicht mit Sicherheit und
Sicherheit unvereinbar ist ′ ′ , Sagte Roger Dow , CEO der US - die.
base ′′ 6 Conclusión
Wir freuen uns Über die < desc > , dass ein < desc > < desc > mit nicht Sicherheit vereinbar
En este artículo,
ist mit Sicherheit und Sicherheit '' , sagte Roger Cameron , director general de EE.UU. der - <
desc > .
proponemos dos
mecanismos de
Traducciones alemán-inglés atención simples
src En una entrevista sagte Bloom jedoch, dass er und Kerr sich noch immer lieben. y efectivos para
árbitro Sin embargo, en una entrevista, Bloom ha dicho que él y Kerr todavía se aman. la traducción
mejor En una entrevista, sin embargo, Bloom dijo que él y Kerr todavía aman. automática
base Sin embargo, en una entrevista, Bloom dijo que él y Tina todavía estaban < desconocidos > . neuronal: el
src Wegen der von Berlin und der Europa¨ischen Zentralbank verha¨ngten strengen Sparpolitik enfoque global
in Verbindung mit der Zwangsjacke, in die jeweilige nationale Wirtschaft durch das que siempre

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 10/13


15/8/2019 Atencion basada en machine learning en html.htm
analiza todas las
Festhalten an der gemeinsamen Wa¨hrung geno¨tigt wird, sind viele Menschen der Ansicht,
das Projekt posiciones de
Europa sei zu weit gegangen origen y el local
árbitro La austeridad impuesta por Berlín y el Banco Central Europeo, junto con la camisa de que solo atiende
fuerza impuesta a las economías nacionales mediante la adhesión a la moneda común, haa un subconjunto
llevado a muchas personas a pensar que el Proyecto Europa ha ido demasiado lejos.
de posiciones de
mejor Debido a las estrictas medidas de austeridad impuestas por Berlín y el Banco Central origen a la vez.
Europeo en relación con la camisa de fuerza en la que la economía nacional respectiva se Probamos la
ve obligada a adherirse a la moneda común, muchas personas creen que el proyecto europeo
ha ido demasiado lejos.
efectividad de
nuestros modelos
base Debido a la presión impuesta por el Banco Central Europeo y el Banco Central Federal con
la estricta austeridad impuesta a la economía nacional frente a la moneda única, muchas en las tareas de
personas creen que el proyecto europeo ha ido demasiado lejos. traducción WMT
entre inglés y
Tabla 5: Traduccione s de mue stra : para cada ejemplo, mostramos la fuente ( src ), la traducción
humana ( ref ), la traducción de nuestro mejor modelo ( mejor ) y la traducción de un modelo noalemán en ambas
atencional ( base ). Ponemos en cursiva algunos segmentos de traducción correctos y destacamosdirecciones.
algunos incorre ctos en negrita. Nuestra atención
local produce
grandes ganancias de hasta 5 . 0 BLEU sobre modelos no atencionales que ya incorporan técnicas conocidas como la
deserción. Para la dirección de traducción del inglés al alemán, nuestro modelo de conjunto ha establecido nuevos
resultados de vanguardia para WMT'14 y WMT'15, superando a los mejores sistemas existentes, respaldados por
modelos NMT y n-gramo LM rerankers, por más de 1.0 BLEU.
Hemos comparado varias funciones de alineación y arrojamos luz sobre qué funciones son mejores para qué
modelos atencionales. Nuestro análisis muestra que los modelos NMT basados en la atención son superiores a los no
atencionales en muchos casos, por ejemplo, en la traducción de nombres y el manejo de oraciones largas.

Reconocimiento
Agradecemos el apoyo de un obsequio de Bloomberg LP y el apoyo de NVIDIA Corporation con la donación de las
GPU Tesla K40. Agradecemos a Andrew Ng y su grupo, así como a Stanford Research Computing, por permitirnos
usar sus recursos informáticos. Agradecemos a Russell Stewart por las útiles discusiones sobre los modelos. Por
último, agradecemos a Quoc Le, Ilya Sutskever, Oriol
Vinyals, Richard Socher, Michael Kayser, Jiwei Li, Panupong Pasupat, Kelvin Guu, miembros del Grupo Stanford
NLP y los revisores anónimos por sus valiosos comentarios y comentarios.

Referencias
[Bahdanau et al.2015] D. Bahdanau, K. Cho e Y. Bengio. 2015. Traducción automática neuronal aprendiendo conjuntamente a alinear
y traducir. En ICLR .
[Buck et al.2014] Christian Buck, Kenneth Heafield y Bas van Ooyen. 2014. Recuentos de N-gram y modelos de lenguaje del rastreo
común. En LREC .
[Cho et al.2014] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk y Yoshua Bengio. 2014.
Aprendizaje de representaciones de frases usando codificador-decodificador RNN para traducción automática estadística. En
EMNLP .
[Fraser y Marcu2007] Alexander Fraser y Daniel Marcu. 2007. Medición de la calidad de la alineación de palabras para la traducción
automática estadística. Lingüística computacional , 33 (3): 293–303.
[Gregor et al.2015] Karol Gregor, Ivo Danihelka, Alex Graves, Danilo Jiménez Rezende y Daan Wierstra. 2015. DIBUJO: una red
neuronal recurrente para la generación de imágenes. En ICML .

[Jean et al.2015] Se´bastien Jean, Kyunghyun Cho, Roland Memisevic y Yoshua Bengio. 2015. Sobre el uso de vocabulario objetivo
muy amplio para la traducción automática neuronal. En ACL .
[Kalchbrenner y Blunsom2013] N. Kalchbrennerand P. Blunsom. 2013. Modelos de traducción continua recurrente. En EMNLP .
[Koehn et al.2003] Philipp Koehn, Franz Josef Och y Daniel Marcu. 2003. Traducción estadística basada en frases. En NAACL .
[Liang et al.2006] P. Liang, B. Taskar y D. Klein. 2006. Alineación por acuerdo. En NAACL .
[Luong et al.2015] M.-T. Luong, I. Sutskever, QV Le, O. Vinyals y W. Zaremba. 2015. Abordar el problema de las palabras raras en la
traducción automática neuronal. En ACL .

[Mnih et al.2014] Volodymyr Mnih, Nicolas Heess, Alex Graves y Koray Kavukcuoglu. 2014. Modelos recurrentes de atención
visual. En NIPS .
[Papineni et al.2002] Kishore Papineni, Salim Roukos, Todd Ward y Wei jing Zhu. 2002. Bleu: un método para la evaluación
automática de la traducción automática. En ACL .

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 11/13


15/8/2019 Atencion basada en machine learning en html.htm
[Sutskever et al.2014] I. Sutskever, O. Vinyals y QV Le. 2014. Secuencia para secuenciar el aprendizaje con redes neuronales. En
NIPS .
[Xu et al.2015] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron C. Courville, Ruslan Salakhutdinov, Richard S. Zemel y
Yoshua Bengio. 2015. Mostrar, asistir y contar: generación de subtítulos de imágenes neuronales con atención visual. En
ICML .
[Zaremba et al.2015] Wojciech Zaremba, Ilya Sutskever y Oriol Vinyals. 2015. Regularización de redes neuronales recurrentes. En
ICLR .

Una visualización de alineación


Visualizamos los pesos de alineación producidos por nuestros diferentes modelos de atención en la Figura 7. La
visualización del modelo de atención local es mucho más nítida que la del modelo global. Este contraste coincide con
nuestra expectativa de que la atención local está diseñada para enfocarse solo en un subconjunto de palabras cada
vez. Además, dado que traducimos del inglés al alemán y revertimos la oración original en inglés, los pasos blancos
en las palabras "realidad" y "." En el modelo de atención global revelan un patrón de acceso interesante: tiende a
referirse al principio del principio. secuencia fuente
En comparación con las visualizaciones de alineación en (Bahdanau et al., 2015), nuestros patrones de alineación
no son tan nítidos como los de ellos. Tal diferencia podría deberse al hecho de que traducir del inglés al alemán es
más difícil que traducir al francés como se hizo en (Bahdanau et al., 2015), lo cual es un punto interesante para
examinar en futuros trabajos.

Figura 7: Visualizacione s de aline ación : se muestran imágenes de los pesos de atención aprendidos por varios
modelos: (arriba a la izquierda) global, (arriba a la derecha) local-m y (abajo a la izquierda) local-p. Las alineaciones de
oro se muestran en la esquina inferior derecha.

[1]
Todos nuestros códigos y modelos están disponibles públicamente enhttp://nlp.stanford.edu/projects/nmt.
[2]
Hay un trabajo reciente de Gregor et al. (2015), que es muy similar a nuestra atención local y se aplica a la tarea de generación de
imágenes. Sin embargo, como detallamos más adelante, nuestro modelo es mucho más simple y puede lograr un buen rendimiento para NM T.
[3]
Se supone que todas las oraciones terminan con un token especial de "fin de oración"<eos>.
[4]
Todos utilizaron una sola capa RNN, excepto los dos últimos trabajos que utilizaron un RNN bidireccional para el codificador.
[5]
Se puede proporcionargcon otras entradas, como la palabra predicha actualmentey como en (Bahdanau et al., 2015).
j
[6]
Ec. (8) implica que todos los vectores de alineacióna tson de la misma longitud. Para oraciones cortas, solo usamos la parte superior
deuna ty para oraciones largas, ignoramos las palabras cerca del final.
[7]
Nos referiremos a esta diferencia nuevamente en la Sección 3.3.
[8]
Sines el número de celdas LSTM , el tamaño de entrada de la primera capa LSTM es2n; los de las capas posteriores son n.

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 12/13


15/8/2019 Atencion basada en machine learning en html.htm
[9]
Todos los textos se tokenizan contokenizer.perl y las puntuaciones BLEU se calculan conmulti-bleu.perl.
[10]
Con elscript mteval-v13a según la directriz WM T.
[11]
Hay una sutil diferencia en cómo recuperamos las alineaciones para las diferentes funciones de alineación. En el paso de tiempoten el que
recibimosy -1 como entrada y luego calculamosh t,a t,cty h˜tantes de predeciry , el vector de alineacióna tse usa como ponderaciones de
t t
alineación para (a) palabra pronosticaday en lasfunciones de alineaciónbasadasen laubicacióny (b) la palabra de entraday -1 en las funciones
t t
basadas en contenido .
[12]
Conconcat, las perplejidades logradas por diferentes modelos son 6.7 (global), 7.1 (local-m) y 7.1 (local-p). Tales perplejidades altas
podrían deberse al hecho de que simplificamos la matrizW para establecer la parte que corresponde ah¯sa la identidad.
a
[13]
Concatenamos los 508 pares de oraciones con 1M pares de oraciones de WM T y ejecutamos el alineador Berkeley.
[14]
La referencia utiliza una traducción más elegante de "incompatible", que es "im Widerspruch zu etwas stehen". Sin embargo, ambos
modelos no lograron traducir "experiencia del pasajero".

file:///C:/Users/usuario/Desktop/IA/Libros/Atencion basada en machine learning en html.htm 13/13

Вам также может понравиться