Вы находитесь на странице: 1из 9

Secuencia a secuencia de aprendizaje

con Redes Neuronales

Ilya Sutskever Oriol Vinyals Le Quoc V.


google google google
ilyasu@google.com vinyals@google.com qvl@google.com

Resumen

Redes Neuronales profundas (DNNS) son poderosos modelos que han logrado un excelente rendimiento en las tareas de aprendizaje

de culto fi cultades. Aunque DNNS funcionan bien cuando grandes conjuntos de entrenamiento etiquetados están disponibles, no

pueden ser utilizados para mapear secuencias a las secuencias. En este trabajo, se presenta un enfoque general de extremo a extremo

para el aprendizaje secuencia que hace suposiciones mínimo en la estructura de la secuencia. Nuestro método utiliza una de varias

capas Largo Corto-TermMemory (LSTM) para mapear la secuencia de entrada a un vector de un dimensionalidad fi jo, y luego otro

profundo LSTM para decodificar la secuencia diana a partir del vector. Nuestro principal resultado es que en un Inglés de tarea de

traducción francesa del conjunto de datos WMT-14, las traducciones realizadas por el LSTM lograr una puntuación de BLEU de 34,8 a

todo el equipo de prueba, donde puntuación de BLEU del LSTM fue penalizado en fuera de vocabulario palabras. Adicionalmente, la

LSTM no tenía di fi cultad en frases largas. A modo de comparación, un sistema basado en frases SMT logra una puntuación de BLEU

de 33,3 en el mismo conjunto de datos. Cuando se utilizó el LSTM a rerank las 1000 hipótesis producidas por el sistema SMT

mencionado anteriormente, sus puntuación de BLEU aumenta a 36.5, que está cerca del estado anterior de la técnica. El LSTM

también aprendió frases y oraciones representaciones sensibles que son sensibles al orden de las palabras y que son relativamente

invariante a la activa y la voz pasiva. Por último, se encontró que invirtiendo el orden de las palabras en todas las frases de origen (pero

no apuntar frases) mejoró el rendimiento de la LSTM notablemente, ya que al hacerlo introdujo muchas dependencias de corto plazo

entre la fuente y la oración destino que hizo que el problema de optimización más fácil. un sistema SMT basado en frases logra una

puntuación de BLEU de 33,3 en el mismo conjunto de datos. Cuando se utilizó el LSTM a rerank las 1000 hipótesis producidas por el

sistema SMT mencionado anteriormente, sus puntuación de BLEU aumenta a 36.5, que está cerca del estado anterior de la técnica. El

LSTM también aprendió frases y oraciones representaciones sensibles que son sensibles al orden de las palabras y que son

relativamente invariante a la activa y la voz pasiva. Por último, se encontró que invirtiendo el orden de las palabras en todas las frases

de origen (pero no apuntar frases) mejoró el rendimiento de la LSTM notablemente, ya que al hacerlo introdujo muchas dependencias

de corto plazo entre la fuente y la oración destino que hizo que el problema de optimización más fácil. un sistema SMT basado en frases logra una puntuación de BLEU de 33,3 en el mismo conjun

1. Introducción

Redes Neuronales profundas (DNNS) son extremadamente potentes modelos de aprendizaje automático que logran un excelente rendimiento
en problemas fi culto dif tales como el reconocimiento de voz [13, 7] y visual de reconocimiento de objetos [19, 6, 21, 20]. DNNS son de gran
alcance, ya que pueden realizar computación paralela arbitrario para un modesto número de pasos. Un sorprendente ejemplo del poder de
DNNS es su capacidad para ordenar
N N- números de bits usando sólo 2 capas ocultas de tamaño cuadrática [27]. Así, mientras que las redes neuronales están relacionadas con modelos
estadísticos convencionales, aprenden un cálculo complejo. Por otra parte, las grandes DNNS pueden ser entrenados con propagación hacia atrás
supervisado cada vez que el conjunto de entrenamiento marcado tiene suficiente información para especificar los parámetros de la red. Por lo tanto, si
existe un ajuste de parámetros de un gran DNN que logra buenos resultados (por ejemplo, porque los seres humanos pueden resolver la tarea muy
rápidamente), supervisado backpropagation será encontramos estos parámetros y resolver el problema.

A pesar de su flexibilidad y poder, DNNS sólo se pueden aplicar a los problemas de cuyas entradas y objetivos pueden ser codificados con
sensatez con vectores de dimensionalidad fijo. Es una limitación significativa, ya que muchos problemas importantes se expresan mejor con
secuencias cuyas longitudes no son conocidos a priori. Por ejemplo, el reconocimiento de voz y la traducción automática son problemas
secuenciales. Del mismo modo, la pregunta de respuesta también puede ser visto como el mapeo de una secuencia de palabras que representan
la pregunta a una

1
secuencia de palabras que representan la respuesta. Por tanto, es claro que un método independiente del dominio que aprende para
mapear secuencias a secuencias sería útil.

Secuencias suponen un reto para DNNS porque requieren que la dimensionalidad de las entradas y salidas es conocida y
fija. En este trabajo, mostramos que una aplicación directa de la memoria a largo Corto Plazo (LSTM) de la arquitectura [16]
puede resolver secuencia general para secuenciar problemas. La idea es utilizar uno LSTM para leer la secuencia de
entrada, un paso de tiempo a la vez, para obtener representación vectorial xeddimensional fi grande, y luego utilizar otro
LSTM para extraer la secuencia de salida de ese vector (fi g. 1). El segundo LSTM es esencialmente un modelo neural
recurrente lenguaje red [28, 23, 30], excepto que está condicionado a la secuencia de entrada.

Ha habido un número de intentos relacionados para hacer frente a la secuencia general para la secuencia problema de aprendizaje con
redes neuronales. Nuestro enfoque está estrechamente relacionado con Kalchbrenner y Blunsom [18] que fueron los primeros en
mapear toda la frase de entrada al vector, y es muy similar a Cho et al. [5]. Graves [10] introdujo un nuevo mecanismo que permite a la
atención diferenciable redes neuronales para centrarse en diferentes partes de su entrada, y un elegante variante de esta idea se ha
aplicado con éxito a la traducción automática por Bahdanau et al. [2]. La fi cación conexionista Secuencia Classi es otra técnica popular
para el mapeo de secuencias para las secuencias con redes neuronales, aunque se supone una alineación monotónica entre las
entradas y las salidas [11].

Figura 1: Nuestro modelo lee una frase de entrada “ABC” y produce “WXYZ” como la frase de salida. El modelo deja de hacer predicciones después
de la salida de la señal de final de la frase. Tenga en cuenta que la LSTM lee la frase de entrada a la inversa, ya que al hacerlo introduce muchas
dependencias a corto plazo en los datos que hacen que el problema de optimización mucho más fácil.

El resultado principal de este trabajo es la siguiente. Por WMT'14 Inglés a Francés tarea de traducción, se obtuvo una puntuación de BLEU 34.81
extrayendo directamente traducciones partir de un conjunto de 5 LSTMs profundas (con 380M parámetros cada uno) usando un simple
decodificador haz de búsqueda de izquierda a derecha. Esto es, con mucho, el mejor resultado obtenido por la traducción directa con grandes
redes neuronales. A modo de comparación, la puntuación de BLEU de una línea de base SMT en este conjunto de datos es 33.30 [29]. La
puntuación 34,81 BLEU se consigue mediante un LSTM con un vocabulario de palabras 80k, por lo que la puntuación fue penalizada, siempre
que la traducción de referencia contenía una palabra no cubren estas 80k. Este resultado muestra que una arquitectura de red neural
relativamente no optimizado que tiene mucho margen de mejora supera un sistema SMT basado en la frase maduro.

Por último, se utilizó la LSTM a los rescore a disposición del público 1000-mejores listas de la línea de base SMT en la misma tarea
[29]. Al hacerlo, se obtuvo una puntuación de BLEU de 36,5, lo que mejora la línea de base en 3,2 puntos BLEU y está cerca del estado
de la técnica anterior (que es 37,0 [9]).

Sorprendentemente, el LSTM no sufrió en frases muy largas, a pesar de la reciente experiencia de otros investigadores con arquitecturas
relacionadas [26]. Hemos sido capaces de hacer bien en frases largas, ya que invirtió el orden de las palabras en la frase de origen, pero
no las frases de destino en la formación y la prueba de conjunto. Al hacerlo, hemos introducido muchas dependencias de corto plazo que
hicieron que el problema de optimización mucho más simple (ver sec. 2 y 3.3). Como resultado, SGD podría aprender LSTMs que no
tenían problemas con frases largas. El sencillo truco de revertir las palabras en la frase de origen es una de las contribuciones técnicas
clave de este trabajo.

Una propiedad útil de la LSTM es que aprende a mapear una frase de entrada de longitud variable en una representación vector
fijo dimensiones fi. Dado que las traducciones tienden a ser paráfrasis de las frases de origen, el objetivo traducción anima al
LSTM a fi nd representaciones de frases que captan su significado, como frases con significados similares están cerca uno del
otro, mientras que diferentes

2
frases significados serán mucho. Una evaluación cualitativa apoya esta afirmación, lo que demuestra que nuestro modelo es consciente del orden de
las palabras y es bastante invariante a la voz activa y pasiva.

2 El modelo

La red neuronal recurrente (RNN) [31, 28] es una generalización natural de redes neuronales feedforward a secuencias.
Dada una secuencia de entradas ( X 1, . . . , X T), un RNN estándar calcula una secuencia de salidas ( y 1, . . . , y T) iterando la siguiente
ecuación:
)
h t = IgMs ( W HX X t + W S.S h t - 1

y t = W YH h t

El RNN puede asignar fácilmente secuencias a las secuencias de cada vez que la alineación entre las entradas las salidas se
conoce de antemano. Sin embargo, no está claro cómo aplicar una RNN a problemas cuya entrada y salida de las secuencias tener
diferentes longitudes con relaciones complicadas y no monótonas.

Una estrategia simple para el aprendizaje secuencia general es mapear la secuencia de entrada a una fi ja de tamaño vector usando uno
RNN, y después para mapear el vector con la secuencia diana con otra RNN (este enfoque también ha sido tomado por Cho et al. [5 ]). Si
bien se podría trabajar en principio desde el RNN está provisto de toda la información relevante, sería difícil de formar a los RNNs debido
a las dependencias resultantes a largo plazo [14, 4] (cifra 1) [16, 15]. Sin embargo, el largo corto TermMemory (LSTM) [16] Se sabe que
aprender problemas con dependencias temporales de largo alcance, por lo que un LSTM puede tener éxito en este entorno.

El objetivo de la LSTM es estimar la probabilidad condicional p (y 1, . . . , y T '| X 1, . . . , X T) dónde


( X 1, . . . , X T) es una secuencia de entrada y y 1, . . . , y T ' es su secuencia de salida correspondiente cuya longitud
T ' pueden diferir de las T. El LSTM calcula esta probabilidad condicional por primera obtención de la representación fi
xeddimensional v de la secuencia de entrada ( X 1, . . . , X T) propuesta por el último estado oculto de la LSTM, y luego calcular la
probabilidad de y 1, . . . , y T ' con una formulación LSTM-LM estándar cuyo estado oculto inicial se fija a la representación v de X 1, . . . , X T:

ΠT '
p (y 1, . . . , y T '| X 1, . . . , X T) = p (y t | V, Y 1, . . . , y t - 1) (1)
t=1

En esta ecuación, cada p (y t | V, Y 1, . . . , y t - 1) la distribución se representa con un softmax sobre todas las palabras en el vocabulario.
Utilizamos la formulación LSTM de Graves [10]. Tenga en cuenta que es necesario que cada frase termina con un símbolo especial de
fin de frase “<> EOS”, que permite el modelo para definir una distribución más secuencias de todas las longitudes posibles. El esquema
general se esboza en la fi gura
1, donde el LSTM mostrado calcula la representación de “A”, “B”, “C”, “<EOS>” y luego utiliza esta representación para
calcular la probabilidad de “W”, “X”, “Y”, “ Z”,‘<EOS>’.

Nuestros modelos reales difieren de la descripción anterior en tres aspectos importantes. En primer lugar, hemos utilizado dos LSTMs diferentes:
uno para la secuencia de entrada y otra para la secuencia de salida, ya que al hacerlo aumenta los parámetros Número de modelo a coste
computacional insignificante y hace que sea natural para entrenar al LSTM en múltiples pares de idiomas simultáneamente [18]. En segundo
lugar, se encontró que LSTMs profundas significativamente superó LSTMs poco profundas, así que elegimos una LSTMwith cuatro capas. En
tercer lugar, encontramos que es muy valiosa para invertir el orden de las palabras de la frase de entrada. Así, por ejemplo, en lugar de la
cartografía de la sentencia a B C a la sentencia α, β, γ, se le pide al LSTM para mapear c, b, a a α, β, γ,

dónde α, β, γ es la traducción de a B C. De esta manera, una se encuentra en las proximidades de α, b Está bastante cerca de

β, y así sucesivamente, un hecho que hace que sea fácil para los SGD a “establecer una comunicación” entre la entrada y la salida. Encontramos este
simple transformación de datos para aumentar en gran medida el rendimiento de la LSTM.

3 experimentos

Hemos aplicado nuestro método a la WMT'14 Inglés a Francés tarea MT de dos maneras. La usamos para convertir directamente la frase de
entrada sin necesidad de utilizar un sistema SMT referencia y que a Rescore los n-mejores listas de una línea de base SMT. Presentamos la
exactitud de estos métodos de traducción, presentes traducciones de muestra, y visualizar la representación oración resultante.

3
3.1 detalles del conjunto de datos

Se utilizó el conjunto de datos WMT'14 Inglés a Francés. Capacitamos a nuestros modelos en un subconjunto de frases 12M que consta de 348m
palabras en francés y en inglés las palabras 304M, que es un lugar limpio “seleccionado” subconjunto de [29]. Elegimos esta tarea traducción y este
específico conjunto de entrenamiento subconjunto debido a la disponibilidad pública de un entrenamiento con token y la configuración de prueba junto
con 1000-mejores listas de la SMT línea de base [29].

Como los modelos típicos de lenguaje neuronales se basan en una representación vectorial para cada palabra, se utilizó un vocabulario fijo
para ambos idiomas. Utilizamos 160.000 de las palabras más frecuentes de la lengua de partida y 80.000 de las palabras más frecuentes
de la lengua meta. Cada palabra fuera de vocabulario fue sustituida por una ficha especial “UNK”.

3.2 Decodificación y rescoring

El núcleo de nuestros experimentos implicados formación de un gran LSTM profunda de muchos pares de frases. Hemos entrenado que al maximizar la
probabilidad de registro de una traducción correcta T teniendo en cuenta la frase de origen S,
por lo que el objetivo de la capacitación es

1/|S|Σ Iniciar sesión P (t | S)

( T, S) ∈S

dónde S es el conjunto de entrenamiento. Una vez finalizado el entrenamiento, producimos traducciones de hallazgo la traducción más probable de
acuerdo con el LSTM:

T̂ = argmax
T P (t | S) (2)
T

Buscamos la traducción más probable es que el uso de un simple decodificador de búsqueda en haz de izquierda a derecha que mantiene una
cantidad pequeña segundo de hipótesis parciales, en los que una hipótesis parcial es un pre fi jo de alguna traducción. En cada paso de tiempo
extendemos cada hipótesis parcial en la viga con cada palabra posible en el vocabulario. Esto aumenta considerablemente el número de las
hipótesis por lo que descarta todos, pero el segundo la mayoría de las hipótesis probables en función de probabilidad log del modelo. Tan pronto
como el “<EOS>” símbolo se añade a una hipótesis, se elimina de la viga y se añade al conjunto de hipótesis completas. Mientras que este
decodificador es aproximada, es simple de implementar. Curiosamente, nuestro sistema funciona bien incluso con un tamaño del haz de 1, y un
haz de tamaño 2 proporciona la mayor parte de los beneficios de la búsqueda en haz (Tabla 1).

También utilizamos el LSTM a rescore los 1000 mejores listas producidas por el sistema de referencia [29]. Para rescore un n-mejor lista, se
calculó la probabilidad de registro de todas las hipótesis con nuestro LSTM y tomamos un promedio incluso con su puntuación y la puntuación
del LSTM.

3.3 Inversión de las Sentencias Fuente

Mientras que el LSTM es capaz de resolver problemas con las dependencias a largo plazo, descubrimos que el LSTM aprende
mucho mejor cuando las frases de origen se invierten (las frases de destino no se revierten). Al hacerlo, la perplejidad de prueba
del LSTM se redujo de 5.8 a 4.7, y las puntuaciones BLEU prueba de sus traducciones decodificados aumentó 25,9 a 30,6.

Si bien no tenemos una explicación completa de este fenómeno, creemos que es causada por la introducción de muchas
dependencias a corto plazo para el conjunto de datos. Normalmente, cuando se concatena una frase de origen con una frase de
destino, cada palabra de la frase de origen está lejos de su correspondiente palabra en la oración objetivo. Como resultado, el
problema tiene una gran “retraso mínimo de tiempo” [17]. Mediante la inversión de las palabras en la frase fuente, la distancia media
entre las palabras correspondientes en el lenguaje de origen y de destino no se modifica. Sin embargo, las primeras pocas palabras
en el idioma de origen ya están muy cerca de la primera algunas palabras en el idioma de destino, por lo que lapso de tiempo mínimo
del problema se reduce considerablemente. Por lo tanto, propagación hacia atrás tiene un tiempo más fácil “el establecimiento de la
comunicación” entre la frase de origen y la sentencia de destino,

Al principio, creíamos que la inversión de las frases de entrada sólo conduciría a más predicciones con fi mella en las primeras partes de
la oración destino y menos predicciones con fi mella en las partes posteriores. Sin embargo, LSTMs entrenados en la frase de partida
invertidas hicieron mucho mejor en frases largas que LSTMs

4
entrenado en las frases fuente cruda (ver sec. 3.7), lo que sugiere que la inversión de las frases de entrada los resultados en LSTMs con una
mejor utilización de la memoria.

3.4 Detalles del entrenamiento

Hemos encontrado que los modelos LSTM son bastante fáciles de entrenar. Utilizamos LSTMs profundas con 4 capas, con 1000 células en
cada capa y 1000 incrustaciones de palabras dimensionales, con un vocabulario de entrada de 160.000 y un vocabulario de salida de 80.000.
Encontramos profundas LSTMs a significativamente LSTMs poco profundas superan, donde cada capa adicional reduce la perplejidad en casi
un 10%, posiblemente debido a su estado oculto mucho más grande. Se utilizó un softmax ingenua más de 80.000 palabras en cada salida. El
LSTM resultante tiene 380m parámetros de los cuales 64M son conexiones recurrentes puros (32M para el LSTM “encoder” y 32M para el
LSTM “decodificador”). Los detalles completos de formación se dan a continuación:

• Hemos inicializado todos los parámetros de la LSTM con la distribución uniforme entre -0,08 y 0,08

• Utilizamos descenso de gradiente estocástico sin impulso, con una tasa fi ja de 0,7 aprendizaje. Después de 5 épocas, hemos empezado reducir
a la mitad la tasa de aprendizaje de cada media época. Capacitamos a nuestros modelos para un total de 7,5 épocas.

• Utilizamos lotes de 128 secuencias para el gradiente y dividimos el tamaño del lote (es decir, 128).

• Aunque LSTMs tienden a no tener el problema del gradiente de fuga, que puede tener la explosión de gradientes. Así
forzadas una restricción duro en la norma del gradiente de [10, 25] mediante el escalado cuando su norma excede un
umbral. Para cada lote de entrenamiento, calculamos
s = ‖ sol ‖ 2, dónde sol es el gradiente dividido por 128. Si s> 5, nosotros fijamos g = 5 sol
s.

• Diferentes frases tienen diferentes longitudes. La mayoría de las frases son cortas (por ejemplo, longitud 20-30), pero algunas frases son
largas (por ejemplo, longitud> 100), por lo que un minibatch de 128 frases elegidas al azar de formación tendrá muchas frases cortas y
algunas frases largas, y como resultado, gran parte de la computación en el minibatch se desperdicia. Para hacer frente a este
problema, nos aseguramos de que todas las oraciones dentro de un minibatch eran más o menos de la misma longitud, que un aumento
de velocidad de 2x.

3.5 La paralelización

aplicación A C ++ de profunda LSTM con la con fi guración de la sección anterior en una sola GPU procesa una velocidad de
aproximadamente 1.700 palabras por segundo. Esto era demasiado lento para nuestros propósitos, así que parallelized nuestro
modelo usando una máquina de 8-GPU. Cada capa del LSTM fue ejecutado en una GPU diferente y comunicó sus activaciones para
la próxima GPU (o capa) tan pronto como se calcularon. Nuestros modelos tienen 4 capas de LSTMs, cada uno de los cuales reside
en un GPU independiente. Las 4 GPU restantes se utilizaron para paralelizar el softmax, por lo que cada GPU fue responsable de la
multiplicación por una 1000 × 20000 matriz. La aplicación resultante alcanzó una velocidad de 6.300 palabras (Inglés y Francés) por
segundo con un tamaño de minibatch 128. La capacitación tuvo unos diez días y esta implementación.

3.6 Resultados experimentales

Se utilizó la puntuación de BLEU entubado [24] para evaluar la calidad de nuestras traducciones. Hemos calculado utilizando
nuestros resultados BLEU multi-bleu.pl 1 sobre el tokens predicciones y realidad del terreno. Esta forma de evaluar el resultado es
consistente con BELU [5] y [2], y reproduce la puntuación de 33.3 [29]. Sin embargo, si se valora el estado del sistema del arte de
[9] (cuyas predicciones se puede descargar desde statmt.org \ matriz) de esta manera, obtenemos 37,0, que es mayor que el
reportado por 35,8 statmt.org \ matriz.

Los resultados se presentan en las tablas 1 y 2. Los mejores resultados se obtienen con un conjunto de LSTMs que difieren en sus
inicializaciones aleatorias y en el orden aleatorio de minibatches. Mientras que las traducciones del conjunto LSTM decodificados no
laten el estado de la técnica, es la primera vez que un sistema de traducción neuronal puro supera una línea de base SMT basado en
frases en una tarea grande por MT

1 Hay varias variantes de la puntuación de BLEU, y cada variante se define con un script en Perl.

5
Método puntuación de BLEU prueba (ntst14)

Bahdanau et al. [2] 28.45


Sistema de línea de base [29] 33.30
LSTM adelante individual, tamaño del haz 12 26.17
LSTM invertido individual, tamaño del haz 12 30.59
Ensemble de 5 LSTMs invertidas, tamaño del haz 1 33.00
Ensemble de 2 LSTMs invertidas, tamaño del haz 12 33.27
Ensemble de 5 LSTMs invertidas, tamaño del haz 2 34.50
Ensemble de 5 LSTMs invertidas, tamaño del haz 12 34.81

Tabla 1: El rendimiento de la LSTM en WMT'14 Inglés al equipo de prueba francesa (ntst14). Tenga en cuenta que un conjunto de 5
LSTMs con un haz de tamaño 2 es más barato que de un solo LSTM con un haz de tamaño 12.

Método puntuación de BLEU prueba (ntst14)

Sistema de línea de base [29] 33.30


Cho et al. [5] 34.54
Estado de la técnica [9] 37.0
Rescoring la línea de base 1000-mejor con una sola LSTM hacia adelante 35,61
Rescoring la línea de base 1000-mejor con una sola LSTM invertido 35.85
Rescoring la línea de base 1000-mejor con un conjunto de 5 LSTMs invertidas 36.5
Oracle rescoring de la línea de base 1000-mejores listas ~ 45

Tabla 2: Métodos que utilizan redes neuronales junto con un sistema SMT en los WMT'14 Inglés al equipo de prueba francesa
(ntst14).

un margen considerable, a pesar de su incapacidad para manejar las palabras fuera de vocabulario. El LSTM está dentro de 0,5 puntos BLEU del
estado anterior de la técnica en rescoring la 1000-mejor lista del sistema de línea de base.

3.7 Rendimiento de frases largas

Nos sorprendimos al descubrir que el LSTM hizo bien en frases largas, que se muestra cuantitativamente en la fi gura 3. La
Tabla 3 presenta varios ejemplos de frases largas y sus traducciones.

Análisis 3.8 Modelo

Me dieron una tarjeta por ella en el jardín

María admira John 15 En el jardín, me dio una tarjeta


Ella me dio una tarjeta en el jardín
4 María está enamorada de John
10
23

01 5
María respeta John
John admira María
-1
-5 0 Se le dio una tarjeta por mí en el jardín
-2 John está enamorado de María
En el jardín, le di una tarjeta

-3 -10

-4
-15
John respeta María Le di una tarjeta en el jardín
-5

-6 -20
-8 -6 -4 -2 0 2 4 6 8 10 -15 -10 -5 0 5 10 15 20

Figura 2: La figura muestra una proyección PCA 2-dimensional de los estados LSTM oculto que se obtienen después de procesar las frases en las
figuras. Las frases son agrupados por sentido, que en estos ejemplos es principalmente una función del orden de las palabras, lo que sería difícil de
capturar con un modelo de bolsa de palabras. Observe que ambos grupos tienen una estructura interna similar.

Una de las características más atractivas de nuestro modelo es su capacidad para convertir una secuencia de palabras en un vector de dimensión
fija. La figura 2 visualiza algunas de las representaciones aprendido. La figura muestra claramente que las representaciones son sensibles al orden
de las palabras, mientras que ser bastante insensible a la

6
Tipo Frase
nuestro modelo Ulrich UNK, membre du Conseil d' administración du constructeur automóvil Audi,
af fi rme qu 'il s'agit d' une pratique courante depuis des ann' ees Pour que les t ' ephones el'
puissent portátiles collect' etre ES avant les R' eunions du Conseil d 'de la administración a n qu fi' ILS
ne pas soient utilis' ES comme appareils d'' ecoute ` una distancia .

Verdad Ulrich Hackenberg, membre du Conseil d' administración du constructeur automóvil Audi, d'
eclare Que la collecte des t ' el' ephones portátiles avant les R' eunions du Conseil, a n qu fi' ILS
ne pas puissent etre utilis' ES comme appareils d'' ecoute ` una distancia, est une pratique courante
depuis des ann' ees.
nuestro modelo “Les t ' el'ephones cellulaires, qui sont vraiment une question, no seulement parce qu' ils pourraient
potentiellement causante des interf' erences avec les appareils de navegación, mais
savons nous, selon la FCC, qu' interf' ILS pourraient erer avec les recorridos de t ' el' cellulaire Ephone
lorsqu 'ils sont dans l' aire”, DIT UNK.
Verdad “Les t ' el'ephones V 'portátiles sont eritablement probl` ONU eme, no seulement parce qu' ils
pourraient ' éventuellement cr' EER des interf' erences avec les instrumentos de navegación, mais
parce que savons Nous, d' apr` Es La FCC, qu' ils pourraient perturbador les Antenas-relais de
t 'el'ephonie s móviles ils sont utilis' ES `un bord”, ad' eclar' e Rosenker.
nuestro modelo Avec la cr' emation, Il ya un “sentimiento de la violencia contre le corps d'un cher de ser”,
qui sera “R' eduit ` una pila de junio de Cendres”en tr` ES peu de temps au lieu d'un processus de
reecomposition “qui les accompagnera ' etapes du deuil”.
Verdad Il ya, avec la cr' emation, “la violencia une faite au corps aim' e”,
Qui va etre “R ' eduit ` una ONU tas de Cendres”en tr` ES peu de temps, et non apr` Es Un processus de
reecomposition, qui “accompagnerait les fases du deuil”.

Tabla 3: Algunos ejemplos de traducciones largas producidas por el LSTM junto a las traducciones terreno la verdad. El lector puede
verificar que las traducciones son sensibles utilizando Google Translate.

LSTM (34.8) de línea de LSTM (34.8) de línea de


40 base (33.3) base (33.3)

35
puntuación de BLEU

puntuación de BLEU

30

25

20
4 7 8 12 17 22 28 35 79 0 500 1000 1500 2000 2500 3000 3500
frases de prueba ordenadas por su longitud frases de prueba ordenados por rango de frecuencia de palabras promedio 20 25 30 35 40

Figura 3: La trama izquierda muestra el rendimiento de nuestro sistema como una función de longitud de la oración, en el que el eje x corresponde
a las frases de prueba según su longitud y está marcada por las longitudes de secuencias reales. No hay degradación de frases con menos de 35
palabras, sólo hay una menor degradación de las frases más largas. La trama de la derecha muestra el rendimiento de la LSTM de frases con
palabras cada vez más raras, donde el eje X corresponde a las frases de prueba ordenados por su “rango de frecuencia media palabra”.

sustitución de una voz activa con una voz pasiva. Las proyecciones bidimensionales se obtienen utilizando PCA.

4 Trabajo relacionado

Hay un gran número de trabajos sobre las aplicaciones de las redes neuronales para la traducción automática. Hasta el momento, la manera más
simple y más eficaz de la aplicación de un modelo RNN-Language (RNNLM) [23] o una

7
Feedforward red neuronal del modelo de lenguaje (NNLM) [3] para una tarea MT es por rescoring las listas nbest de una fuerte línea
de base MT [22], lo que mejora la calidad de la traducción fiable.

Más recientemente, los investigadores han comenzado a estudiar la manera de incluir información sobre el idioma de origen en el
NNLM. Ejemplos de este trabajo incluyen Auli et al. [1], que combinan un NNLM con un modelo tema de la frase de entrada, lo
que mejora el rendimiento de listas de hipótesis. Devlin et al. [8] seguido un enfoque similar, pero que incorporan su NNLM en el
decodificador de un sistema de MT y utilizan información de alineación del decodificador para proporcionar la NNLM con las
palabras más útiles en la frase de entrada. Su enfoque fue un gran éxito y logró grandes mejoras respecto a su línea de base.

Nuestro trabajo está estrechamente relacionado con Kalchbrenner y Blunsom [18], que fueron los primeros en trazar la frase de entrada
en un vector y luego de vuelta a una frase, aunque se asignan penas a los vectores usando redes neuronales convolucionales, que
pierden el orden de las palabras . De manera similar a este trabajo, Cho et al. [5] se utiliza una arquitectura RNN LSTM similar para
mapear frases en vectores y la espalda, aunque su foco primario estaba en la integración de su red neuronal en un sistema SMT.
Bahdanau et al. [2] También intento de traducciones directas con una red neuronal que utiliza un mecanismo de atención a superar los
malos resultados en frases largas experimentados por Cho et al. [5] y ha logrado resultados alentadores. Del mismo modo,
Pouget-Abadie et al. [26] tratado de abordar el problema de memoria de Cho et al. [5] mediante la traducción de las piezas de la frase
de origen en forma que produce traducciones lisas, que es similar a un enfoque basado en la frase. Tenemos la sospecha de que
podían lograr mejoras similares con sólo la formación de sus redes en la frase de partida invertidos.

De extremo a extremo de entrenamiento es también el foco de Hermann et al. [12], cuyo modelo representa las entradas y salidas de las redes de alimentación
directa, y asignarlos a puntos similares en el espacio. Sin embargo, su enfoque no puede generar traducciones directamente: para obtener una traducción, que
tienen que hacer una mirada hacia arriba para el vector más cercano en la base de datos pre-computados de las oraciones, o para rescore una frase.

5. Conclusión

En este trabajo, hemos demostrado que un gran LSTM profundo con un vocabulario limitado puede superar a un sistema basado en el estándar
SMT cuyo vocabulario es ilimitada en una tarea MT a gran escala. El éxito de nuestro simple enfoque basado en LSTM MT sugiere que debería
hacer bien en muchos otros problemas de aprendizaje de secuencias, siempre y cuando tengan suficientes datos de entrenamiento.

Nos quedamos sorprendidos por la magnitud de la mejora obtenida mediante la inversión de las palabras en las frases de origen. Llegamos a la
conclusión de que es importante encontrar un problema de codificación que tiene el mayor número de dependencias a corto plazo, ya que
hacen que el problema de aprendizaje mucho más simple. En particular, aunque no hemos podido entrenar a un RNN estándar en el problema
no invertido traducción (que se muestra en la fig. 1), creemos que un RNN norma debe ser fácilmente entrenable cuando las frases de origen
se invierten (aunque no lo verificamos experimentalmente).

También nos quedamos sorprendidos por la capacidad de la LSTM a traducir correctamente frases muy largas. Al principio estábamos
convencidos de que la LSTM fallaría en frases largas debido a su limitada memoria, y otros investigadores informaron de malos resultados
en las frases largas con un modelo similar a la nuestra [5, 2, 26]. Y, sin embargo, LSTMs capacitados en el conjunto de datos invertido
tenían poca di fi cultad traducir frases largas.

Lo más importante, hemos demostrado que un enfoque relativamente sin optimizar simple, directo y una puede superar a un sistema SMT
madura, por lo que seguir trabajando probablemente conducirá a aún mayores precisiones de traducción. Estos resultados sugieren que
nuestro enfoque es probable que vaya bien en otra secuencia difícil de secuenciar problemas.

6 Agradecimientos

Agradecemos a Samy Bengio, Jeff Dean, Matthieu Devin, Geoffrey Hinton, Nal Kalchbrenner, Thang Luong, Wolfgang Macherey, Rajat
Monga, Vincent Vanhoucke, Peng Xu, Wojciech Zaremba, y el equipo de Google cerebro comentarios útiles.

8
referencias

[1] M. Auli, M. Galley, C. Quirk, y G. Zweig. idioma conjunta y el modelado de traducción con recurrentes
Redes neuronales. En EMNLP, 2013.
[2] D. Bahdanau, K. Cho, y Y. Bengio. Traducción automática neuronal mediante el aprendizaje en conjunto para alinear y traducir.
arXiv arXiv: 1409.0473, 2014.
[3] Y. Bengio, R. Ducharme, P. Vicente, y C. Jauvin. Un modelo de lenguaje probabilístico neuronal. En Diario de
Machine Learning Research, páginas 1137-1155, 2003.
[4] Y. Bengio, P. Simard, y P. Frasconi. Aprender dependencias a largo plazo con descenso de gradiente es difícil.
IEEE Transactions on Neural Networks, 5 (2): 157-166, 1994.
[5] K. Cho, B. Merrienboer, C. Gulcehre, F. Bougares, H. Schwenk, y Y. Bengio. Aprender frase represen-
taciones utilizando RNN codificador-decodificador para la traducción automática estadística. En ArXiv arXiv: 1406.1078,
2014.
[6] D. Ciresan, U. Meier, y J. Schmidhuber. profundas redes neuronales de varias columnas para una imagen clasi fi cación.
En CVPR, 2012.
[7] GE Dahl, D. Yu, L. Deng, y A. Acero. redes neuronales profundas pre-formados dependientes del contexto para grandes
reconocimiento de voz vocabulario. IEEE Transactions on Audio, Discurso y Procesamiento del Lenguaje - Número especial sobre aprendizaje
profundo de procesamiento del habla y lenguaje, 2012.
[8] J. Devlin, R. Zbib, Z. Huang, T. Lamar, R. Schwartz, y J. Makhoul. red neuronal rápido y robusto
modelos conjuntos para la traducción automática estadística. En ACL, 2014.
[9] Nadir Durrani, Barry Haddow, Philipp Koehn, y Kenneth Hea campo. máquina basada en la frase de Edimburgo
Los sistemas de traducción para WMT-14. En WMT, 2014.
[10] A. Graves. Generación de secuencias con redes neuronales recurrentes. En ArXiv arXiv: 1308.0850,
2013.
[11] A. Graves, S. Fern' Andez, F. Gómez, y J. Schmidhuber. Conexionista temporal clasi fi cación: etiquetado
datos de la secuencia no segmentados con redes neuronales recurrentes. En ICML, 2006.
[12] KM Hermann y P. Blunsom. Multilingüe distribuye representaciones sin alineación de palabras. En
ICLR, 2014.
[13] G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen,
T. Sainath, y B. Kingsbury. redes neuronales profundas para el modelado acústico en el reconocimiento de voz. Revista IEEE Signal
Processing, 2012.
[14] S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Tesis de maestría, Institut für Infor-
matik, Technische Universitat, Munchen, 1991.
[15] S. Hochreiter, Y. Bengio, P. Frasconi, y J. Schmidhuber. Gradiente de flujo en las redes recurrentes: la dificultad
de aprendizaje dependencias a largo plazo, 2001. [16] S. Hochreiter y J. Schmidhuber. La memoria a largo plazo corto. Neural Computation, 1997.
[17] S. Hochreiter y J. Schmidhuber. LSTM puede resolver los problemas de tiempo de espera largo y duro. 1997. [18] N. Kalchbrenner y P.
Blunsom. modelos de traducción continuas recurrentes. En EMNLP, 2013. [19] A. Krizhevsky, I. Sutskever, y GE Hinton. IMAGEnet clasi fi cación
con profunda neural convolucional

redes. En PELLIZCOS, 2012.


[20] QV Le, MA Ranzato, R. Monga, M. Devin, K. Chen, GS Corrado, J. Dean, y AY Ng. edificio
de alto nivel cuenta con el uso de aprendizaje no supervisado a gran escala. En ICML, 2012.
[21] Y. LeCun, L. Bottou, Y. Bengio, y P. Haffner. aprendizaje basado en gradiente aplicado para documentar el reconocimiento.
Actas de la IEEE, 1998.
[22] T. Mikolov. Modelos de lenguaje estadísticos basados ​en redes neuronales. Tesis doctoral, Universidad de Brno
Tecnología, 2012. [23] T.
Mikolov, M. Kara fi' a, L. Burget, J. Cernock` y, y S. Khudanpur. basado en red neuronal recurrente
modelo de lenguaje. En Interspeech, páginas 1045-1048, 2010.
[24] K. Papineni, S. Roukos, T. Ward, y WJ Zhu. BLEU: un método para la evaluación automática de la máquina
traducción. En ACL, 2002.
[25] R. Pascanu, T. Mikolov, y Y. Bengio. En la dificultad de la formación de redes neuronales recurrentes. arXiv
arXiv: 1211.5063, 2012.
[26] J. Pouget-Abadie, D. Bahdanau, B. van Merrienboer, K. Cho, y Y. Bengio. la superación de la
maldición de la longitud de la oración para la traducción automática de los nervios usando la segmentación automática. arXiv arXiv: 1409.1257, 2014.

[27] A. Razborov. En pequeños circuitos umbral de profundidad. En Proc. 3er Taller escandinava en el algoritmo
Teoría, 1992.
[28] D. Rumelhart, Hinton GE, y RJ Williams. Aprender representaciones de errores se propagan hacia atrás.
Naturaleza, 323 (6088): 533-536, 1986. [29] H. Schwenk. Universidad de Le Mans. http://www-lium.univ-lemans.fr/~schwenk/cslm_

joint_paper /, 2014. [En línea; visitada 03-Septiembre-2014].


[30] M. Sundermeyer, R. Schluter, y H. Ney. LSTM redes neuronales para el modelado de lenguaje. En ENTERRAR-
HABLA, 2010.
[31] P. Werbos. Propagación hacia atrás en el tiempo: lo que hace y cómo hacerlo. Actas del IEEE, 1990.

Вам также может понравиться