Вы находитесь на странице: 1из 31

Traduccin de oraciones compuestas del idioma espaol a la lengua tseltal

May 18, 2012

Contents
0.1 Antecedentes 0.1.1 0.1.2 0.2 0.3 0.4 0.5 0.6 0.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 2 4 4 5 5 5 5 5 6 7 7 9 10 11 11 Lenguas indgenas Diversidad lingstica en Mxico Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . Hiptesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Objetivo general Justicacin 0.7.1 0.7.2 0.7.3 0.7.4 0.7.5 0.7.6 0.7.7 0.7.8 0.7.9

Objetivos Especcos Estado del Arte libre"

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Extraccin Diccionario Automatizado de "conocimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Improving Statistical Machine Translation using Morphosyntactic Information LATION THE ROLE OF ONLINE MT IN WEBPAGE TRANS. . . . . . . . . . . . . . . . . . . . . . . . . . . Nominal Taxonomies and Word Sense Disambiguation . . STATISTICAL MACHINE TRANSLATION OF JAPANESE Language Control and Machine Translation . . . . . . . . The Cultivation of a Chinese-English-Japanese Trilingual Parallel Corpus from Comparable Patents . . . . . . . . . Machine Translation between Uncommon Language Pairs via a Third Common Language: The Case of Patents . . Building a Large English-Chinese Parallel Corpus from Comparable Patents and its Experimental Application to SMT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 13

0.7.10 Investigation for Translation Disambiguation of Verbs in Patent Sentences using Word Grouping Translation . . . . . . . . . . 0.7.11 Structural and Topical Dimensions in Multi-Task Patent . . . . . . . . . . . . . . . . . . . . . . . . . . 0.7.12 Tapta: A user-driven translation system for patent documents based on domain-aware Statistical Machine Translation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 15 16 0.7.13 Example-based Translation of Japanese Functional Expressions utilizing Semantic Equivalence Classes 0.7.14 Patent translation within the MOLTO project 1

CONTENTS
0.8 Marco teorico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.8.1 0.8.2 0.8.3 0.8.4 0.8.5 0.9 Tseltales . . . . . . . . . . . . . . . . . . . . . . . . . . . . Traductores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ensambladores Preprocesadores Intrpretes

16 16 16 17 17 17 17 23 23 23 24 24 24 24 24 25

. . . . . . . . . . . . . . . . . . . . . . . . . .

Sistemas de traduccion automatico . . . . . . . . . . . . . . . . . 0.10.1 Tipos de gramticas(Jerarquas de Chomsky) . . . . . . . 0.10.2 Clasicacin de Gramticas . . . . . . . . . . . . . . . . . 0.10.3 Jerarqua de Gramticas . . . . . . . . . . . . . . . . . . .

0.10 Gramtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

0.11 Impactos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.11.1 Social . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 0.11.2 Econmico 0.11.3 Ambiental

0.12 Propuesta Tcnica del proyecto . . . . . . . . . . . . . . . . . . .

0.1 Antecedentes
0.1.1 Lenguas indgenas
La diversidad de la cultura de Chiapas se reeja en la variedad de lenguajes que hablan sus pobladores, ya que el idioma es el principal elemento transmisor de las experiencias, conocimientos, mensajes y sensaciones del ser humano. En Chiapas al igual que en todo el pas el idioma ocial es el espaol. Sin embargo, tambin se hablan varias lenguas autctonas, que son producto de la enorme herencia cultural que aun guardan nuestros pueblos. Sin embargo en los ltimos aos se ha ido perdiendo aspectos tan importantes como la practica de la lengua materna[1].

0.1.2 Diversidad lingstica en Mxico


La diversidad lingstica de origen indoamericano presente en Mxico se encuentra registrada en el Catlogo de las lenguas indgenas de la siguiente manera: 11 familias lingsticas, 68 agrupaciones lingsticas y 364 variantes lingsticas. Una familia lingstica se dene como un conjunto de lenguas cuyas semejanzas en sus estructuras lingsticas (fonolgicas, morfosintcticas y lxicas) obedecen a un origen histrico comn. En Mxico se hablan lenguas de 11 familias lingsticas indoamericanas diferentes, lo cual da muestra de la gran riqueza lingstica que tenemos en contraste con otras regiones del mundo, como Europa, donde se hablan lenguas de cinco familias lingsticas. Las familias presentes en nuestro pas, son: 1. Algica

CONTENTS
2. Yuto-nahua 3. Chimi-yumana 4. Seri 5. Oto-mangue 6. Maya 7. Totonaco-tepehua 8. Tarasca 9. Mixe-zoque 10. Chontal de Oaxaca 11. Huave

Una agrupacin lingstica es el conjunto de variantes lingsticas comprendidas bajo el nombre dado tradicionalmente a un pueblo indgena. El trmino agrupacin lingstica no es un sinnimo de lengua, sino una categora intermedia de catalogacin. En Mxico existen 68 agrupaciones lingsticas a las cuales les corresponden, una o ms variantes lingsticas. La categora variante lingstica se reere a una forma de habla que presenta diferencias internas con tras variante de la misma agrupacin. Estas diferencias varan, segn cada caso, a nivel de sonidos, de palabras, de su signicado o del uso que se les da. Para algunas agrupaciones, las diferencias entre una variante y otra implican, adems cambios en su estructura, diferencias de tipo sociocultural, condicionadas a la territorialidad, las creencias o la vida poltica. En Mxico se hablan 368 variantes lingsticas. Por cuestiones del n de estudio nos enfocaremos a la familia maya por ser esta sonde se encuentra la agrupacin de inters, la legua tseltal. En la siguiente se listan las diversas agrupaciones lingsticas pertenecientes a la familia maya[2].

CONTENTS

Fig. 1 Agrupaciones lingsticas de la familia maya.

0.2 Planteamiento del problema


La poblacin hablante de lengua indgena en Chiapas se ubica en todo el territorio, aunque preferentemente en las regiones Altos, Selva y Norte del estado donde se concentran los hablantes de las principales lenguas indgenas y son municipios eminentemente y predominantemente indgenas, mientras que en la parte sur la poblacin hablante se encuentra dispersa. Es importante reconocer que en las comunidades donde se hablan lenguas indgenas especcamente la tseltal se ofrece una educacin informal debido a que los docentes que imparten las clases no hablan, ni escriben la lengua, adems actualmente no existen diversas herramientas didcticas apropiadas para facilitar la enseanza educativa en su lengua materna. Debido a esto es importante crear herramientas computacionales que ayuden a las personas a combatir el analfabetismo en las poblaciones indgenas. Con el desarrollo de este proyecto se beneciar a la educacin en la poblacin indgena, debido a que no cuentan con sucientes materiales didcticos y maestros capacitados para los diversos niveles educativos en las zonas indgenas del Estado de Chiapas, por este problema y no solo en la zona indgena si no en todo el Estado de Chiapas, el nivel educativo en nuestro Estado es bajo debido a que no se tienen las herramientas necesarias para incrementar el alfabetizo y tener una educacin de calidad[3].

0.3 Hiptesis
El traductor espaol a la lengua tseltal, con ello intentamos fortalecer con esta herramienta los conocimientos de docentes y alumnos de la regin de los altos de Chiapas, y as alcanzar un mayor nivel de conocimiento en los centros educativos.

CONTENTS

0.4 Objetivo general


Desarrollar una herramienta computacional que permita traducir al Tseltal textos o archivos de textos escritos de oraciones compuestas en idioma espaol.

0.5 Objetivos Especcos



Disear y elaborar una gramtica de la lengua tseltal con oraciones compuestas en tiempo presente. Clasicar todos los tipos de palabras del idioma espaol y tseltal (sustantivo, verbo, artculo, etc.). Elaborar un etiquetado de cada una de las palabras que contendr el lexicn (base de datos). Disear y construir un lexicn (base de datos). Desarrollar una interfaz visual amigable para el usuario.

0.6 Justicacin
Chiapas es uno de los estados con menor ndice educativo del pas y con mas analfabetas dentro de la regin de los altos; sea en las regiones urbanas y rurales en donde esta es donde se encuentra los mayores problemas en educacin, ya que los profesores bilinges en esta regin son escasos y no es suciente para atacar el problema de la compresin de la lengua espaol, ya que no se cuenta con herramientas sucientes y necesarias para la enseanza. La principal ventaja en el desarrollo de este proyecto es el de preservar las culturas indgenas principalmente rescatar una lengua muy importante a nivel nacional y la mas hablada en nuestro estado como lo es la lengua tseltal y no acabar con ellas forzando a los alumnos a estudiar idiomas que por obligacin tienen que aprender. Adems esta herramienta apoyara a los profesores que imparten clases en las zonas indgenas del estado de Chiapas, as como a las instituciones u organizaciones encargadas de la conservacin y enriquecimiento de las lenguas indgenas.

0.7 Estado del Arte


0.7.1 Extraccin Diccionario Automatizado de "conocimiento libre"
Un sistema de mquina basada en ejemplos de traduccin se suministra con una frase-alineados corpus bilinge, pero no otras fuentes de conocimiento. Usando el conocimiento implcito en el cuerpo, se genera un programa bilinge, palabra

CONTENTS

por palabra del diccionario para la alineacin durante la traduc-cin. Con este diccionario se genera automticamente, el sistema cubre (con el equivalente en calidad) ms de su entrada en textos invisibles que el mismo sistema hace cuando se proporciona con un manual creado de propsito general diccionario y otras fuentes de conocimiento.

0.7.2 Improving Statistical Machine Translation using Morphosyntactic Information

abstract

In the framework of statistical machine translation, correspondences between the words in the source and the target language are learned from bilingual corpora, and often little or no linguistic knowledge is used to structure the underlying models. The work presented in this thesis is motivated by the wellknown observation that training data typically does not suciently represent the range of phenomena in natural languages. In this thesis, various methods of incorporating morphological and syntactic information into systems for statistical machine translation are proposed and systematically assessed. The overall goal is to improve translation quality and to reduce the amount of parallel text necessary to train the model parameters. The development of the suggested methods is guided by the analysis of important causes of errors. Large dierences in word order between corresponding sentences are dicult to capture for automatic alignment algorithms. In this work, a range of sentence level restructuring transformations is introduced, which are motivated by knowledge about the sentence structure in the involved languages. These transformations aim at the assimilation of word orders in A detailed analysis of the eect on the corpora and the related sentences.

translation quality reveals that their application results in better alignments and as a consequence in less noisy probabilistic lexica, broader applicability of multi-word phrase pairs and a better coverage of the language model. En el marco de la traduccin automtica estadstica, las correspondencias entre las palabras en la fuente y el idioma de destino se aprenden a partir de corpus bilinge, ya menudo los conocimientos lingsticos poco o nada se utiliza para estructurarlos modelos subyacentes. El trabajo presentado en esta tesis est motivada por la conocida observacin de que los datos de entrenamiento por lo general no representan sucientemente la gama de los fenmenos en los lenguajes naturales. En esta tesis,los distintos mtodos de incorporacin de la informacinmorfolgica y sintctica en los sistemas de traduccin automtica estadstica se proponen y evalan de manera sistemtica. El objetivo general es mejorar la calidad de la traduccin y para reducir la cantidad de texto paralelo necesario capacitar a losparmetros del modelo. El desarrollo de los mtodos sugeridos es guiado por el anlisis de las causas importantes de errores. difciles de captar para los algoritmos de alineacin automtica. En este trabajo, una serie de transformaciones de reestructuracin a nivel Las grandes diferencias en el orden de palabras entre las frasescorrespondientes son

CONTENTS

de la oracin se introduce, que estn motivados por el conocimiento de la estructura de la oracin en las lenguas implicadas. Estas transformacionestienen por objeto la asimilacin de los rdenes de palabras enoraciones relacionadas. Un anlisis detallado de los efectos sobrelos cuerpos cavernosos y la calidad de la traduccin revela que los resultados de la aplicacin de mejores alineaciones y, como consecuencia de lxicos probabilsticos menos ruidoso, ms amplia aplicabilidad de los pares de frases de varias palabras y una mejor cobertura del modelo de lenguaje.[4]

0.7.3 THE ROLE OF ONLINE MT IN WEBPAGE TRANSLATION

abstract

This thesis is concerned with the use of online machine translation (MT) services to translate web-based text and enable the production and management of multilingual content on the Internet. The perspectives of interlingual dissemination and assimilation of digital information are both considered, to address the key challenges of using MT in the online environment. Adopting a languageneutral and systemindependent approach, this thesis examines in depth a range of under-researched questions regarding the successful deployment of web-based MT software in a number of scenarios, with a view to raising the prole of MT on the Internet. Esta tesis tiene que ver con el uso de la lnea de traduccin automtica (MT) para traducir los servicios web basados en texto y permitir la produccin y gestin de contenido multilinge en Internet.Las perspectivas de difusin interlingstica y la asimilacin de la informacin digital se considera tanto, para abordar los desafosclave del uso de TM en el entorno en lnea. La adopcin de un enfoque independiente del idioma y la systemindependent, esta tesis analiza en profundidad una serie de sub-investigadocuestiones relativas a la correcta implementacin de software deMT basado en la web en una serie de escenarios, con el n deelevar el perl de MT en el Internet[5].

0.7.4 Nominal Taxonomies and Word Sense Disambiguation

Abstract

Word Sense Disambiguation (WSD) is a signicant problem in Natural Language Processing (NLP). Current NLP research employs WSD to aid tasks such as Machine Translation, information Retrieval, Content Analysis, Parsing and Speech Processing. Semantic Similarity using lexical taxonomies is investigated, producing specialised WSD algorithms for the disambiguation of related noun groups. By creating semantic similarity measures based on notions of the  shape of WordNet's lexical taxonomy (SBSMs) containing only layman terms, results are produced that signicantly outperform existing state-of-the-

CONTENTS

art similarity measures in two tasks; rstly in matching human judgements, and secondly for disambiguating related noun-groupings. In the human judgement experiment, results are evaluated using Pearson and Spearman correlation coecients. The best SBSM almost reaches the equivalent human performance producing coecients of 0.90 and 0.86 respectively. A WSD system is presented for disambiguating related nouns groups, producing 88% precision and 90% recall for labelling a subset of Wordsmyth with equivalent WordNet senses. compared to the Wordsmyth experimental links to WordNet. The SBSMs are used as part of a WSD system for disambiguating opentexts. The proposed WSD system makes use of partial-taggers to reduce senses at dierent stages of WSD. A nal statistical component is investigated, using a new linguistically based denition of context. The SBSMs are used to match words according to similarity. Experiments with 11 highly polysemous words give promising results at 37.7% precision and recall for all words with an average polysemy of 22.1 senses, and 56.4% precision and recall for nouns with an average polysemy of 6 senses. Using a smaller test set of ambiguous contexts containing only test words produced 65.6% precision and recall for all words. This WSD is also used to reduce the costs of manual tagging of words, showing that a potential 60% reduction in cost is possible. Desambiguacin (WSD) es un problema signicativo en el Procesamiento del Lenguaje Natural (PLN). Las investigaciones actuales de la PNL emplea WSD para ayudar a tareas como la traduccin automtica, recuperacin de informacin, anlisis de contenido, anlisis y procesamiento del habla. Similitud semntica utilizando taxonomas lxicas se investiga, la produccin de algoritmos especializados para la WSD desambiguacin de grupos nominales correspondientes. Mediante la creacin de semntica similitud medidas basadas en las nociones de la "forma" de la taxonoma lxica WordNet (SBSMs) que contiene slo los trminos del laico, los resultados se producen que superan signicativamente a los existentes el estado de la tcnica de medidas de similitud en dos tareas: en primer lugar en la adecuacin de los juicios humanos, y en segundo lugar para la desambiguacin relacionados sustantivo-grupos. En el experimento el juicio humano, los resultados se evaluarn por medio de Pearson y los coecientes de correlacin de Spearman.La mejor SBSM casi alcanza el rendimiento equivalente humano produce coecientes de 0,90 y 0,86 respectivamente. Un sistema de WSD se presenta para desambiguar grupos sustantivos relacionados, produciendo el 88% de precisin y el 90% de recordacin para el etiquetado de un subconjunto de Wordsmyth equivalentes a los sentidos de WordNet. Estos resultados mejoran los obtenidos mediante otras medidas de similitud, y en comparacin con los enlaces Wordsmyth experimentales a WordNet. Los SBSMs se utilizan como parte de un sistema de WSD para desambiguar abierto de textos. El sistema WSD propuesto hace uso de la representacin parcial de etiquetadores para reducir sentidos en diferentes etapas de la WSD. Un componente estadstico nal se investiga, utilizando una nueva denicin basada These results improve those produced using alternative similarity measures, and when

CONTENTS
lingstica de contexto.

Los SBSMs se utilizan para que coincida con las palabras de acuerdo a la similitud. Los experimentos con 11 palabras polismicas altamente dar resultados prometedores en el 37,7% de precisin y recordar todas las palabras con un promedio de 22.1 polisemia sentidos, y el 56,4% de precisin y recuperacin de los nombres con una polisemia promedio de 6 sentidos. Usando una prueba ms pequeo conjunto de contextos ambiguos que contengan slo las palabras de prueba producido el 65,6% de precisin y el recuerdo de todas las palabras. Este WSD tambin se utiliza para reducir los costes de etiquetado manual de las palabras, mostrando que un potencial de reduccin del 60% en costo es posible[6].

0.7.5 STATISTICAL MACHINE TRANSLATION OF JAPANESE

abstract

Statistical machine translation (SMT) uses large amounts of language training data to statistically build a knowledge base for translating from one language to another. Before introducing this language data, usually in the form of a parallel set of sentences from both languages, the SMT system has no other linguistic information available to it. With supervised SMT, however, additional linguistic knowledge is allowed in addition to the training data. When translating between languages with little or no common linguistic backgrounds, like English and Japanese, using supervised SMT is extremely useful. better alignments between words in both languages. This thesis investigates dierent ways of augmenting the training data to nd the best possible alignments between Japanese and English texts from a large travel domain corpus to yield the highest numeric scores for accurate translation from Japanese into English. Results show that altering the topic and locative particles and altering tense, politeness levels, and verb endings in the training data result in the best score improvement. In addition to SMT experiments, automatic speech recognition (ASR) and text segmentation experiments are performed. The ASR experiments yield promising results, but they did not improve on the error rates of the default experiments. The text segmentation experiments show that by using a combination of a 2-gram and 3-gram windows, segments in Japanese text are correctly placed 94.4% of the time while adding incorrect segments to 3.2% of possible locations. La traduccin automtica estadstica (SMT) utiliza grandes cantidades de datos de formacin lingstica para construir estadsticamente una base de conocimientos para traducir de un idioma a otro. Antes de la introduccin de estos datos lingsticos, generalmente en forma de un conjunto paralelo de frases a partir de las dos lenguas, el sistema SMT no tiene ninguna otra informacin lingstica a su disposicin. Con supervisada SMT, sin embargo, el conocimiento lingstico adicional se permite, adems de los datos de entrenamiento. By giving the system linguistic rules before training on the parallel corpus, the SMT system can build

CONTENTS

10

Al traducir de un idioma con poca o ninguna orgenes lingsticos comunes, como el Ingls y Japons, utilizando supervisado SMT es extremadamente til. Al dar el sistema de reglas lingsticas antes del entrenamiento en el corpus paralelo, el Sistema de TAE puede construir mejores alineaciones entre las palabras en ambos idiomas. Esta tesis investiga diferentes maneras de aumentar los datos de entrenamiento para encontrar las alineaciones de la mejor manera posible entre los textos Japons e Ingls a partir de un corpus de viajes gran dominio para obtener los ms altos puntajes numricos para la traduccin exacta del japons al Ingls. Los resultados muestran que la alteracin del tema y las partculas locativas y la alteracin de los niveles tensos, cortesa, y terminaciones de los verbos en el resultado de datos de entrenamiento en la mejora de mejor puntuacin. Adems de los experimentos SMT, reconocimiento automtico del habla (ASR) y texto de segmentacin experimentos se llevan a cabo. Los experimentos ASR dar resultados prometedores, pero no mejor en las tasas de error de los experimentos predeterminados. Los experimentos muestran que la segmentacin de texto mediante el uso de una combinacin de una ventana de 2 gramos y 3 gramos-, los segmentos de texto en japons se colocan correctamente el 94,4% de las veces, mientras que la adicin de segmentos incorrectos al 3,2% de las ubicaciones posibles[7].

0.7.6 Language Control and Machine Translation

Abstract

This paper describes ongoing work on the integration of a machine-translation software, Multra, into the multilingual document processing environment of Scania CV AB. Multra is a prototype of a modular, transfer-based MT-system with Swedish as its source language. It handles translation into English and German, based on a common analysis structure. In order to guarantee consistency in the original as well as in the translated versions of the documents, a controlled language, ScaniaSwedish, is dened. Also, a language checker for this language is developed. The core of the checker is the analysis component of Multra. The checker will provide two kinds of results, i.e. a con- trolled version of the text and the text as a sequence of grammatical structures. These structures can then be forwarded to transfer and further generation. In other words, checking the text means taking the rst step in the translation process. The checker is developed in parallel with the denition of ScaniaSwedish. En este trabajo se describe la labor en curso sobre la integracin de una mquina de traduccin software, Multra, en el entorno de procesamiento de documentos multilinges de Scania CV AB. Multra es un prototipo de un sistema modular, basado en la transferencia de MT del sistema con el sueco como su idioma de origen. Se ocupa de la traduccin al Ingls y Alemn, sobre la base de un comn anlisis de la estructura. A n de garantizar la coherencia de la

CONTENTS

11

original, as como en el las versiones traducidas de los documentos, un lenguaje controlado, ScaniaSwedish, se dene. Adems, un corrector de idioma para ese idioma se desarrolla. El ncleo del corrector es la anlisis de los componentes de la Multra . El corrector se proporcionan dos tipos de resultados, es decir, un acondicionado la versin controlada del texto y el texto como una secuencia de estructuras gramaticales. Estos estructuras puede ser remitido a la transferencia y la generacin de ms. En otras palabras, comprobar que el texto signica dar el primer paso en el proceso de traduccin. El corrector es desarrollado en paralelo con la denicin de ScaniaSwedish. Buscar su referencia Anna Sgvall Hein: translation[8]. Language control and machine

0.7.7 The Cultivation of a Chinese-English-Japanese Trilingual Parallel Corpus from Comparable Patents

Abstract

Ranging from machine translation (MT) to cross-lingual information retrieval, many NLP applications require parallel corpora as critical resources. Given the phenomenal growth in patents and in the need to mediate between different languages, we explore a new but important area involving patents by investigating how a Chinese-English-Japanese trilingual parallel corpora can be cultivated from comparable patents, and introduce our mined trilingual corpus, which demonstrates the considerable potential of cultivating large-scale parallel corpora from comparable patents. Que van desde la traduccin automtica (TA) para la recuperacin de informacin en varios idiomas, muchas aplicaciones de la PNL requiere corpus paralelo como los recursos crticos. Dado el increble crecimiento de las patentes y en la necesidad de mediar entre los diferentes idiomas, se explora una nueva rea, pero importante, la participacin de las patentes mediante la investigacin de cmo una corporacin china-Ingls-Japonsparalelo trilinge se puede cultivar de las patentes comparables, e introducir nuestro corpus extrado trilinge , lo que demuestra el gran potencial del cultivo a gran escala de las patentes de corporacomparables[9]Bin Lu, Ka Po Chow, & Benjamin K.Tsou: The cultivation of a Chinese-English-Japanese trilingual parallel corpus from comparable patents[9].

0.7.8 Machine Translation between Uncommon Language Pairs via a Third Common Language: The Case of Patents

Abstract

This paper proposes to familiarize the MT users with two major areas of development: (1) To improve translation quality between uncommon language pairs,

CONTENTS

12

the use of a third language as the pivot. Various techniques have been shown to be promising when parallel corpora for the uncommon language pairs are not readily available. They require the use of two other language pairs involving a common third language pairing with each member of the initial target pair. (2) The surging demands in the eld of patent translation and for eorts to bootstrap machine translation in uncommon language pairs (e.g., Japanese and Chinese) via more common language pairs (e.g., Chinese-English and EnglishJapanese), and the application of the pivot approach to expedite processing. En este trabajo se propone familiarizar a los usuarios de MT condos reas principales de desarrollo: (1) Para mejorar la calidad de la traduccin entre pares de idiomas poco comunes, el uso de un tercer idioma como el pivote. Varias tcnicas han demostrado ser prometedores en corpus paralelos para los pares de idiomas poco comunes que no estn fcilmente disponibles. Se requiere el uso de dos pares de idiomas que impliquen una tercera lengua comnla vinculacin con cada miembro de la pareja objetivo inicial. (2)Las exigencias pleno auge en los campo de la traduccin de patentes y los esfuerzos a la traduccin de arranque de la mquinade pares de idiomas poco comunes (por ejemplo, japons y chino) a travs de pares de idiomas ms comunes (por ejemplo, Chino-Ingls e InglsJapons), y la aplicacin de la del enfoque de pivotepara acelerar el proceso[10].

0.7.9 Building a Large English-Chinese Parallel Corpus from Comparable Patents and its Experimental Application to SMT

abstract

The paper provides an account on the augmentation of a Chinese-English patent parallel corpus consisting of about 160K sentence pairs, which has been enlarged by about 45 times to more than 7 million sentence pairs mostly by the means of  harvesting comparable patents from the Web. First, based on a large corpus of English-Chinese comparable patents, more than 22 million bilingual sentence pair candidates have been mined, of which we extract more than 7 million highquality parallel sentences, which to our best knowledge is the largest parallel sentence corpus in the patent domain. Based on 1 million parallel sentences extracted from the abstract and claims sections, some interesting preliminary SMT results are also reported here. Last by not least, the method and approach proposed here should be applicable to other languages, which shows a novel way on how to reduce the data acquisition bottleneck in multilingual language processing. El documento proporciona una cuenta en el aumento de un corpusde patentes Chino-Ingls paralelo que consiste de alrededor de160K pena pares, que se ha ampliado en cerca de 45 veces a ms de 7 millones de pares de frases en su mayora por los medios de"cosecha" patentes comparables de la Web. En primer lugar, sobre la base de un amplio corpus de Ingls-Chino patentes comparables, ms de 22 millones candidatos bilinges par de frases han sido extrados, de los cuales se extrae ms de 7 millones de alta calidad sentenciasparalelas, que a

CONTENTS
la patente.

13

nuestro mejor conocimiento es el mayor corpus frase paralelo en el dominio de Basado en 1 milln de frases paralelasextrados de el resumen y las secciones de reclamos, algunos interesantesresultados preliminares SMT tambin se inform aqu. Mensaje porno menos importante, el mtodo y el enfoque propuesto aqu debera ser aplicable a otros idiomas, lo que demuestra una forma novedosa sobre cmo reducir la adquisicin de datos cuello de botella en el procesamiento del lenguaje multilinge[11].

0.7.10 Investigation for Translation Disambiguation of Verbs in Patent Sentences using Word Grouping

abstract

In the automatic translation of complicated patent sentences, one of the issues to improve translation quality is to translate verbs in the source language with various meanings to corresponding dierent words in the target language correctly. This paper proposes the disambiguation method using the word grouping. Verbs with various meanings usually co-occur with their corresponding nouns, and show the dierent meanings. Valence and frame structures of verbs were used to resolve such problems. However, the meanings should be dealt with more deeply and appropriately. This paper describes the trial of word grouping based on a thesaurus. En la traduccin automtica de las sentencias de patentecomplicadas, uno de los temas para mejorar la calidad de la traduccin es traducir los verbos en el idioma fuente con varios signicados correspondientes a diferentes palabras en el idioma de destino correctamente. En este trabajo se propone el mtodo de desambiguacin con la agrupacin palabra. Los verbos con signicados diferentes por lo general co-ocurren con sus nombrescorrespondientes, y mostrar los diferentes signicados. Valence y el marco de las estructuras de los verbos se utiliza para resolver tales problemas. Sin embargo, los signicados que debenser tratados con mayor profundidad y de manera apropiada. Este artculo describe el proceso de agrupacin la palabra sobre la base de un diccionario de sinnimos[12].

0.7.11 Structural and Topical Dimensions in Multi-Task Patent Translation

abstract

Patent translation is a complex problem due to the highly specialized technical vocabulary and the peculiar textual structure of patent documents. structure. In this paper we analyze patents along the orthogonal dimensions of topic and textual We view dierent patent classes and dierent patent text sections such as title, abstract, and claims, as separate translation tasks, and investigate the inuence of such tasks on machine translation performance.

CONTENTS

14

We study multitask learning techniques that exploit commonalities between tasks by mixtures of translation models or by multi-task metaparameter tuning. We nd small but signicant gains over task-specic training by techniques that model commonalities through shared parameters. A by-product of our work is a parallel patent corpus of 23 million German-English sentence pairs. Traduccin de patentes es un problema complejo, debido al vocabulario tcnico altamente especializado y la peculiar estructuratextual de los documentos de patentes. En este trabajo se analizanlas patentes a lo largo de las dimensiones ortogonales de tema yestructura textual. Consideramos que las diferentes clases de patentes y diferentes secciones de texto de patentes, tales comottulo, resumen, descripcin y reivindicaciones, como las tareas de traduccin independientes, e investigar la inuencia de estas tareas en el desempeo de traduccin automtica. Se estudianvarias tareas tcnicas de aprendizaje que explotan en comn entre las tareas por las mezclas de los modelos de traduccin o porajuste metaparameter multi-tarea. Encontramos gananciaspequeas pero signicativas sobre las tareas especcas de formacin por medio de tcnicas comunes de que los modelos a travs de parmetros compartidos. Un producto de nuestro trabajo es un corpus de patente paralela de 23 millones de pares de frasesalemningls[13].

0.7.12 Tapta: A user-driven translation system for patent documents based on domain-aware Statistical Machine Translation

abstract

This paper presents a study conducted in the course of implementing a project in the World Intellectual Property Organization (WIPO) on assisted translation of patent abstracts and titles from English to French. The tool (called `Tapta') is trained on an extensive corpus of manually translated patents. These patents are classied, each class belonging to one of the 32 predened domains. The trained Statistical Machine Translation (SMT) tool uses this additional information to propose more accurate translations according to the context. The performance of the SMT system was shown to be above the current state of the art, but, in order to produce an acceptable translation, a human has to supervise the process. Therefore, a graphical user interface was built in which the translator drives the automatic translation process. A signicant experiment with human operators was conducted within WIPO, the output was judged to be successful and a project to use Tapta in production is now under discussion. Este trabajo presenta un estudio realizado en el curso de la ejecucin de un proyecto en la Organizacin Mundial de la Propiedad Intelectual (OMPI) en la traduccin asistida de resmenes de patentes y los ttulos del Ingls al francs. La herramienta (llamada 'Tapta') se entrena en un extenso corpus de patentes traducidas manualmente. Estas patentes se clasican, cada clase que pertenece a uno de los 32 dominios predenidos. La formacin de traduccin automtica

CONTENTS
ducciones ms exactas de acuerdo al contexto.

15

estadstica (SMT), la herramienta utiliza esta informacin para proponer traEl rendimiento del sistema SMT ha demostrado ser por encima del estado actual de la tcnica, pero, con el n de producir una traduccin aceptable, un humano tiene que supervisar el proceso. Por lo tanto, una interfaz grca de usuario se construy en la que el traductor impulsa el proceso de traduccin automtica. Un experimento importante con los operadores humanos se llev a cabo en la OMPI, la salida se consider exitoso y un proyecto para utilizar Tapta en la produccin es actualmente objeto de debate[14].

0.7.13 Example-based Translation of Japanese Functional Expressions utilizing Semantic Equivalence Classes

abstract

This paper studies issues on machine translation of Japanese functional expressions into English. Unlike our previous works, in order to address the issue of resolving various ambiguities of a compound expression, this paper takes the approach of example based machine translation. In this approach, a patent translation example database is developed given the phrase translation tables trained with parallel patent sentences as well as the training parallel patent sentences themselves. When identifying the most similar translation examples, we integrate semantic equivalence classes of Japanese functional expressions as well as more ne-grained similarity measure of translation examples. In the evaluation, we compare the translation accuracy of the proposed framework with that of Moses, and show that the proposed framework somehow outperforms Moses. Este trabajo estudia los problemas de traduccin automtica de japoneses expresiones funcionales en Ingls. A diferencia de nuestros anteriores trabajos, con el n de abordar la cuestin de la resolucin de diversas ambigedades de una expresin compuesta, en este documento tiene el enfoque de la traduccin automtica basada en ejemplo. En este enfoque, una traduccin de patentes de base de datos ejemplo, se ha desarrollado teniendo en cuenta las tablas de traduccin de frases formados con frases paralelas de patentes, as como de formacin de la paralelo sentencias de patente s mismos. Al identicar los ejemplos de traduccin ms similares, integramos las clases de equivalencia semntica de las expresiones japonesas funcionales, as como ms medidas de similitud de grano no de los ejemplos de traduccin. En la evaluacin, se compara la precisin de la traduccin del proyecto de marco con la de Moiss, y demostrar que el marco propuesto de alguna manera supera a Moses Referencia Yusuke Abe, Takafumi Suzuki, Bing Liang, Takehito Utsuro, Mikio Yamamoto, Suguru Matsuyoshi, & Yasuhide Kawada: Example-based translation of Japanese functional expressions utilizing semantic equivalence classes[15].

CONTENTS

16

0.7.14 Patent translation within the MOLTO project

abstract

MOLTO is an FP7 European project whose goal is to translate texts between multiple languages in real time with high quality. Patents translation is a case of study where research is focused on simultaneously obtaining a large coverage without loosing quality in the translation. This is achieved by hybridising between a grammar-based multilingual translation system, GF, and a specialised statistical machine translation system. Moreover, both individual systems by themselves already represent a step forward in the translation of patents in the biomedical domain, for which the systems have been trained. MOLTO es un proyecto del 7

PM europeo cuyo objetivo estraducir textos en-

tre varios idiomas en tiempo real con alta calidad.Traduccin de las patentes es un caso de estudio donde la investigacin se centra en obtener simultneamente una amplia cobertura, sin perder calidad en la traduccin. Esto se logra mediante hibridacin entre un sistema de traduccin basado en la gramtica multilinge, GF, y un sistema especializado deestadstica de traduccin automtica. Adems, ambos sistemasindividuales por s mismas ya representan un paso adelante en la traduccin de las patentes en el mbito biomdico, para lo cual los sistemas se han formado[16].

0.8 Marco teorico


0.8.1 Tseltales
La diversidad de la cultura de Chiapas se reeja en la variedad de lenguajes que hablan sus pobladores, ya que el idioma es el principal elemento transmisor de las experiencias, conocimientos, mensajes y sensaciones del ser humano. En Chiapas a igual que en todo el pas el idioma ocial es el espaol. Sin embargo, tambin se hablan varias lenguas autctonas, que son producto de la enorme herencia cultural que aun guardan nuestros pueblos. Estas lenguas son idiomas, no dialectos como comnmente se les llama, ya que cuentan con todas las caractersticas gramaticales y fonticas, como cualquier otro idioma, como el ingles, el francs o el alemn.

0.8.2 Traductores
Los traductores son un tipo de programas cuya funcin es convertir el cdigo de un lenguaje en otro. Por ejemplo un compilador, que traduce cdigo fuente en cdigo objeto. Un traductor es un programa que recibe como entrada cdigo escrito en un cierto lenguaje y produce como salida cdigo en otro lenguaje. Generalmente el lenguaje de entrada es de ms alto nivel que el de salida. Existen distintos tipos de traductores, entre ellos destacan:

CONTENTS

17

0.8.3 Ensambladores
Es un tipo de traductor que convierte programas escritos en lenguaje ensamblador en programas escritos en cdigo mquina.

0.8.4 Preprocesadores
Traduce un lenguaje de alto nivel a otro, cuando el primero no puede pasar a lenguaje mquina directamente. 1. Procesamiento de macros. Un preprocesador puede permitir a un usuario denir macros, que son abreviaturas de construcciones ms grandes. 2. Inclusin de archivos. Un preprocesador puede insertar archivos de en-

cabezamiento en el texto del programa. 3. Preprocesadores  racionales . Estos Preprocesadores enriquecen los lenguajes antiguos con recursos ms modernos de ujo de control y de estructuras de datos. 4. Extensiones a lenguajes. Estos procesadores tratan de crear posibilidades al lenguaje que equivalen a macros incorporales.

0.8.5 Intrpretes
Se trata de traductores-ejecutores ya que con cada instruccin realizan un proceso triple de lectura-traduccin-ejecucin. Son relativamente lentos, pero muy buenos para la depuracin de programas. Los intrpretes no producen programas objetos, si no que ejecutan directamente los programas fuente. Los intrpretes son populares sobre todo en ambientes de desarrollo de programas en los cuales los programas se ejecutan poco tiempo hasta que aparece un error. Los intrpretes evitan el tiempo adicional del ensamblaje o la compilacin. Tambin son muy populares en las computadoras personales. No obstante, los intrpretes se ejecutan muy lentamente en comparacin con el cdigo compilado, ya que debe traducir cada instruccin siempre que esta se ejecuta.

0.9 Sistemas de traduccion automatico


Contar la historia de la traduccin automtica es un reto, ya que se trata de un campo cada vez ms amplio y, por qu no, ms controvertido, sobre todo en cuanto al futuro de la profesin de los traductores se reere. Hoy en da cada vez son ms las empresas que tratan de recortar costes en los procesos de traduccin y apuestan por la traduccin automtica. Quin no se ha topado con un supuesto encargo de revisin que ha resultado ser un borrador de traduccin generado automticamente por el traductor automtico de un conocido buscador de Internet? En este artculo vamos a intentar entender su origen y, con un poco de suerte, saber hacia dnde nos dirigimos. Para comenzar, vamos

CONTENTS
cin automtica[17].

18

a entrar en una mquina del tiempo y remontarnos a los orgenes de la traducSe podra decir que las primeras referencias al concepto de traduccin automtica se remontan al siglo XVII, cuando lsofos como Leibniz y Descartes reexionaron sobre cmo relacionar las palabras procedentes de idiomas distintos. Sin embargo, lo que hoy en da conocemos como traduccin automtica no requiere un salto temporal tan grande, ya que tan solo tenemos que remontarnos al siglo pasado para encontrar los primeros intentos reales de automatizar los procesos de traduccin[18]. Las primeras propuestas sobre sistemas de traduccin automtica se formularon en 1933, cuando el franco-armenio George Artsrouni y el ruso Petr SmirnovTroyanskii registraron, de forma completamente independiente, las primeras patentes que recogan propuestas concretas sobre cmo materializar la traduccin automtica. Artsrouni dise un dispositivo de almacenamiento que se poda emplear para encontrar el signicado de cualquier palabra en otro idioma y parece ser que en 1937 tuvo lugar una demostracin de un prototipo de este aparato. Si bien los acadmicos lo equiparan a un primer intento de automatizar la traduccin, el prototipo nos recuerda a herramientas como los glosarios multilinges y las bases de datos terminolgicas en formato digital, sin las cuales nuestro trabajo sera muy diferente en la actualidad[19]. Por otro lado, la idea de Troyanskii es mucho ms signicativa, ya que propona dividir la traduccin automtica (en aquel entonces mecnica) en tres fases. En la primera, un editor que nicamente conociera la lengua de origen debera realizar un anlisis lgico de las palabras y sus funciones sintcticas. En la segunda fase, una mquina se encargara de transformar todas las secuencias de palabras y funciones sintcticas a secuencias equivalentes en la lengua de llegada. Por ltimo, en la tercera fase, un editor que solo conociera la lengua de llegada tendra que adaptar dichas secuencias a su lengua para que sonaran naturales. Y aunque en su patente nicamente propona mecanizar la segunda fase, estaba convencido de que la fase de anlisis tambin se podra automatizar. Llegados a este punto, podemos plantear un nuevo inciso: no es precisamente as como funciona en la actualidad el sector de la traduccin? Sin saberlo, Troyanskii se adelant a su poca, ya que su propuesta es totalmente anloga a los procesos de postedicin que se realizan hoy en da. Sin embargo, no era conocido fuera de Rusia, y por tanto su propuesta qued relegada a artculos como este, en el que reexionamos sobre cmo se gestaron esos grandes monstruos a los que tanto temen muchos traductores. Ajenos a estas patentes, la historia contina en la Fundacin Rockefeller, en el ao 1949[20]. Los protagonistas de esta etapa fueron el estadounidense Warren Weaver, de profesin criptgrafo y en aquella poca uno de los directivos de la Fundacin, y el britnico Andrew Booth. Ambos se conocieron en 1946, y en 1947 comenzaron a desarrollar las primeras hiptesis sobre cmo se podran emplear los ordenadores (un invento reciente de la poca) para traducir diversos idiomas entre s. De hecho, en 1948 Booth trabaj junto al tambin britnico Richard H. Richens en la creacin de un analizador morfolgico para un diccionario mecnico (algo que ahora nos ofrecen diversos diccionarios digitales, por ejemplo). Sin embargo,

CONTENTS

19

sera un memorndum escrito por Weaver en 1949 el que realmente provocara el primer gran revuelo en torno a la traduccin automtica e incentivara la investigacin en este mbito en los Estados Unidos.[21] En palabras de Weaver, la traduccin automtica se podra comparar con las tcnicas criptogrcas en la segunda guerra mundial: I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. Adems de las tcnicas criptogrcas, Weaver tambin propuso emplear mtodos estadsticos, la teora de la informacin de Shannon y la exploracin de la lgica y los universales lingsticos. Durante los aos siguientes, varios centros de investigacin y universidades estadounidenses dedicaron recursos a la investigacin en traduccin automtica, y en 1954 tuvo lugar la presentacin pblica del primer prototipo de traductor automtico: un sistema desarrollado de forma conjunta por la Universidad de Georgetown e IBM. El sistema no dejaba de tener sus limitaciones: nicamente traduca 49 oraciones de ruso a ingls, su vocabulario era de tan solo 250 palabras y solamente tena 6 reglas gramaticales[22]. Sin embargo, la demostracin logr despertar el inters por el desarrollo de sistemas ms complejos y con ello comenz una poca dorada de nanciacin a gran escala para proyectos de traduccin automtica en Estados Unidos. Adems, el xito despert tambin proyectos de investigacin similares en otros pases del mundo, en especial, la URSS. As, podramos decir que el decenio de 1956 a 1966 estuvo marcado por un gran optimismo en lo que a la traduccin automtica se reere. Muchos de los avances tuvieron lugar gracias al clsico mtodo de ensayo y error, a la adopcin de mtodos estadsticos y a enfoques tericos basados en investigacin lingstica con el objetivo de encontrar soluciones a largo plazo. No obstante, no podemos olvidar uno de los mayores obstculos de la poca: los propios ordenadores[23].

Fig. 10 MIT Whirlwind, 1956

CONTENTS

20

As, muchos investigadores se vieron obligados a centrarse en temas ms tericos. Los estadounidenses y soviticos, por su parte, concentraron sus esfuerzos en desarrollar sistemas de traduccin automtica ruso-ingls e ingls-ruso por motivos obviamente polticos y militares. La primera conferencia sobre traduccin automtica tuvo lugar en 1952 y la organiz Yehoshua Bar-Hillel, director del grupo de investigacin en traduccin automtica del MIT y encargado de realizar un estudio sobre el campo. En 1960 Bar-Hillel publicara un informe que marcara el rumbo de la investigacin en traduccin automtica. En l criticaba el objetivo de lograr traducciones automticas de gran calidad que no se pudieran diferenciar de las realizadas por un ser humano[24]. Bar-Hillel no solo dijo que no era realista, dado el estado del conocimiento lingstico y de los ordenadores, sino que se aventur a aseverar que era imposible. Y no es esto lo que todava hoy se sigue diciendo? Por ahora, dejaremos la dcada del optimismo con grupos de investigacin en varios pases de todo el mundo, aunque como todo en esta vida, la historia se tuvo que enfrentar a un duro revs en 1966: el informe ALPAC. De este informe, de sus consecuencias y del modo en que la traduccin automtica sigui su camino hablaremos con ms detalle en el siguiente artculo. Si bien los aos 50 fueron una dcada de gran optimismo, conforme la complejidad de los problemas lingsticos se fue haciendo ms notoria, ese entusiasmo inicial dio paso al desconcierto y a la desilusin. El informe Bar-Hillel ya apuntaba indicios de problemas que la traduccin automtica no poda resolver y, pese a que la investigacin continu su curso tanto en Estados Unidos como en Europa, en 1964 las principales fuentes de nanciacin estadounidenses, es decir, las agencias militares y de inteligencia, solicitaron a la National Science Foundation la creacin de un comit asesor para el procesamiento del lenguaje natural: el Automatic Language Processing Advisory Commitee (ALPAC). Este comit recibi el cometido de evaluar la situacin y en 1966 se public el famoso informe ALPAC[25]. En l se conclua que la traduccin automtica era ms lenta, de menor calidad y dos veces ms cara que la misma traduccin hecha por una persona, y por tanto no se recomendaba continuar invirtiendo en su desarrollo. Como el lector imaginar, este fue un revs importante para el desarrollo de la traduccin automtica y, si bien afect de manera ms notoria a los investigadores estadounidenses por motivos obvios, tambin afect a los de otros pases, ya que se lleg a argumentar que si en Estados Unidos, con las facilidades y recursos que tenan, se rechazaba, en pases con infraestructuras menos desarrolladas las probabilidades de xito seran an ms escasas. Para los traductores tambin tuvo implicaciones, y no necesariamente negativas. Si bien en el informe no se recomendaba continuar investigando la traduccin automtica, s se haca hincapi en la necesidad de desarrollar herramientas de ayuda para los traductores: lo que fren la investigacin en un mbito la incentiv en otro del que nos beneciamos a diario: bases de datos terminolgicas, diccionarios electrnicos, memorias de traduccin, sistemas de reconocimiento del habla. . . El decenio que sigui al informe ALPAC fue sin duda un decenio de menor

CONTENTS

21

movimiento y excitacin en torno a la traduccin automtica, aunque hubo grupos que continuaron trabajando en ello y se produjo un cambio de enfoque. Si bien hasta ahora los esfuerzos se haban centrado en sistemas de traduccin automtica directa, el enfoque ahora era hacia sistemas de traduccin automtica basados en interlingua y sistemas de transferencia. Hagamos un pequeo inciso para entender las diferencias entre cada uno de los enfoques y, por aquello de que vale ms una imagen que mil palabras, este pequeo grco ilustra las diferencias entre los tres enfoques:

Fig. Distintos mtodos de TA. As, los sistemas de traduccin directa prcticamente no utilizan ningn tipo de anlisis de la lengua origen ni reglas de generacin en la lengua meta; lossistemas basados en la transferencia analizan lingsticamente el texto original y, mediante unas reglas de transferencia, establecen los equivalentes en la lengua meta y dichos equivalentes se reproducen siguiendo unas reglas de generacin, y, por ltimo, en los sistemas basados en una interlingua el texto original se analiza y se traslada a la interlingua, un lenguaje abstracto y comn para todos los idiomas del traductor automtico, para despus trasladarse nuevamente a la lengua meta. Este ltimo enfoque suele utilizar como argumento que permite desarrollar sistemas de traduccin automtica multilinges independientemente de las combinaciones de idiomas, puesto que la transferencia siempre se hace a travs de la interlingua y todos los idiomas que se incorporan al sistema deben poderse traducir correctamente a la interlingua y desde esta. Si nos ponemos nostlgicos, quizs nos lleguen reminiscencias de la Escuela de Traductores de Toledo y de cmo utilizaban una lengua puente para traducir los textos[26]. La diferencia es que en este caso es el ordenador quien se encarga de todo. Y una vez hecho el inciso, retomemos nuestra historia. Como decamos, entre 1966 y 1976 la investigacin se centr en desarrollar sistemas de traduccin automtica de transferencia y sistemas basados en una interlingua. Mientras en Estados Unidos la actividad se haba concentrado en el par de lenguas ingls-ruso, en otros pases las necesidades eran diferentes. Los canadienses tenan un mayor inters en desarrollar sistemas ingls-francs, y en Europa la necesidad de traducir textos cientcos, tcnicos, administrativos y legales a los idiomas de la Comunidad Europea acuciaba tambin el desarrollo de sistemas de traduccin automtica. Uno de los sistemas que todava hoy se mencionan como un gran xito de la traduccin automtica vera la luz en 1976: el sistema Mto de-

CONTENTS

22

sarrollado por el proyecto TAUM (Traduction Automatique de l'Universit de Montral). Este sistema es conocido por la gran calidad de sus traducciones de partes meteorolgicos. El truco? Un dominio muy concreto con un vocabulario muy restringido y una sintaxis limitada[27]. El xito de Mto foment un nuevo fervor en el mbito y ello trajo consigo numerosos proyectos en la dcada de los 80. Barriendo para casa y por acercar un poco la historia a nuestro continente, debemos recordar el mayor proyecto de traduccin automtica desarrollado hasta ese momento: EUROTRA. Este proyecto tena por objetivo desarrollar un sistema multilinge de traduccin automtica basada en reglas de transferencia para los idiomas de la Comunidad Europea. Sin embargo, el proyecto no lleg a culminar y lleg a su n al agotarse la nanciacin por parte de la Unin Europea. Desde aquel entonces hasta nuestros das es evidente que la investigacin ha continuado (cmo puede ser, si no, que Google Translate tenga resultados bastante aceptables en algunas combinaciones de idiomas?). Pero cmo? Seguramente los objetivos de proyectos como EUROTRA eran demasiado ambiciosos para el estado de la investigacin en procesamiento del lenguaje natural del momento. Sin embargo, precisamente gracias a estos proyectos se pudieron detectar los errores y obstculos que haba que solventar para poder acercarnos a una traduccin automtica de mayor calidad, y esto dio lugar a la proliferacin de nuevas reas de investigacin mucho ms concisas y que en los ltimos aos han logrado resultados muy positivos[28]. Precisamente esos avances han provocado que tambin en los ltimos aos haya habido una nueva ola de proyectos, tanto de nanciacin pblica como privada, para mejorar los sistemas de traduccin automtica. Son varios los proyectos nanciados por el Sptimo Programa Marco de la Unin Europea que estn trabajando en ello actualmente, sin olvidar sistemas como el de Google Translate y otros programas comerciales. De nuevo, la manera de intentar llegar a una solucin ptima no est clara y por ello hay distintas tendencias y enfoques. Hay grupos de investigacin trabajando en modelos basados en la interlingua, como por ejemplo el proyecto Molto de la UE, modelos basados en sistemas de reglas de transferencia; en Espaa contamos con uno de los ms conocidos, el sistema Apertium, desarrollado por el grupo de investigacin Transducens de la Universidad de Alicante, sistemas de traduccin automtica basados en mtodos puramente estadsticos, cuyo mayor exponente es el sistema de cdigo abierto Moses, desarrollado a lo largo de varios aos por varios proyectos de la UE, sistemas de traduccin automtica basada en ejemplos, que para funcionar utilizan grandes cantidades de corpus paralelos alineados, y sistemas hbridos de traduccin automtica que intentan combinar reglas lingsticas con modelos estadsticos o basados en ejemplos. Lograrn encontrar la llave de esta caja de Pandora? De momento no est claro, pero lo que s s es que los traductores debemos estar, cuando menos, al da de estos avances para que los posibles cambios que se produzcan en nuestro sector y en nuestros protocolos de trabajo no nos pillen por sorpresa[29].

CONTENTS

23

0.10 Gramtica
La gramtica es un modelo matemtico que permite especicar un lenguaje. Mediante el uso de gramticas, un lenguaje puede describirse a travs de un pequeo conjunto de reglas. En la teora de compiladores, las gramticas denen la etapa de sintaxis del lenguaje, operan bajo los conceptos de recursividad. Las gramticas describen lenguajes. Los lenguajes naturales como el espaol, o el ingls, son a menudo descritos por una gramtica que agrupa palabras en categoras sintcticas tales como sujetos, predicados, frases preposicionales, etctera. Expresndolo en forma matemtica, una gramtica es un dispositivo formal para especicar un lenguaje potencialmente innito, en una manera nita, puesto que es imposible enumerar todas las cadenas de caracteres en un lenguaje ya sea espaol, ingles o Pascal. Al mismo tiempo, una gramtica impone una estructura a las sentencias en el lenguaje.

0.10.1 Tipos de gramticas(Jerarquas de Chomsky)


Para el estudio de este tema es necesario analizar dos tipos de gramticas de la clasicacin de Chomsky, las regulares y las independientes de contexto, las reglas permitidas y no permitidas. Tener un conocimiento amplio de las gramticas y el lenguaje que se emplea en cada una de ellas, es una herramienta mas para la realizacin de los analizadores. En 1959 Noam Chomsky clasico las gramticas en cuatro familias. Las gramticas no restringidas, sensibles al contexto, independientes del contexto y las gramticas regulares que se conocen como gramticas de tipo cero, uno, dos y tres respectivamente. Los lenguajes que resultan de dichas gramticas tambin se identican con lenguajes de tipo cero, uno, dos y tres. A esta jerarqua de lenguaje se le conoce como la jerarqua de Chomsky.

0.10.2 Clasicacin de Gramticas

Fig. 10 Diccionario nhuatl-espaol en EULEX.

CONTENTS

24

0.10.3 Jerarqua de Gramticas

Fig. 10 Diccionario nhuatl-espaol en EULEX.

0.11 Impactos
0.11.1 Social
Gran parte de las comunidades indgenas sufren de subordinacin, marginacin y hasta maltrato, por ello emigran a la capital para mejorar su calidad de vida. Ellos no tienen a su alcance informacin que les permita poder superarse en el mbito educativo. Lo cual los hace vulnerables al desarrollo intelectual como personas. Con este proyecto comunidades indgenas hablantes del tseltal tendrn acceso a informacin importante sin tener que aprender el idioma espaol para abastecerse de ella. Dando como consecuencia una mejor calidad de vida indgena, superacin intelectual, la conservacin de una lengua muy importante dentro del estado de Chiapas y la proteccin de culturas para nuestras prximas generaciones.

0.11.2 Econmico
Para las instituciones u organizaciones encargadas del rescate y enriquecimiento de las lenguas indgenas se reducirn los costos en contratacin de personal encargados de traducir manualmente los textos. Y se reducirn los tiempos de traduccin por parte de los especialistas tseltales ya que estos solo se encargaran de revisar los documentos y corregir pequeos detalles en aspectos de semntica de las oraciones.

0.11.3 Ambiental
Dicho software no repercutir al medio ambiente ya que como es una herramienta computacional pues no se necesitara ms que una computadora (PC) y el software desarrollado dentro de un CD, adems no se aplicara un hardware o herramienta fsica.

CONTENTS

25

0.12 Propuesta Tcnica del proyecto


Se considera una herramienta con el nombre  sistema traductor del espaol al tseltal de oraciones compuestas muy fcil de utilizar y factible para el usuario con las herramientas adecuadas tales como: mensajes de errores al momento de meter la oracin al traducir, aceptando oraciones simples en el tiempo pasado, utilizando una gramtica tipo LR una opcin de poder convertir el archivo que se est traduciendo en documento Word o pdf. Software 1. Plataforma hecha en visual estudio 2010 2. Microsoft oce 2010 Word Donde se dar formato a toda la informacin y documentacin requerida del proyecto. Access Se usara para crear una base de datos con palabras en espaol y signicados en tseltal. Sefalas Para crear la tabla de transicin correspondiente a la gramtica que se utilizara.

Bibliography
[1] Baudez Claude F.  Una mirada hacia los antiguos mayas , en Los Mayas: La pasin por los antepasados, el deseo de perdurar. CNCA / FRIJALBO, Mxico D.F. 1994. [2] Subsecretara de Educacin Federalizada (SEF). Guillermo Lpez Hernndez, Estadstica de Educacin Primaria. 26 de Febrero de 2007. [3] Instituto de Educacin para Adultos Indgenas (IEA). Departamento de Atencin a grupos tnicos. [4] Sonja Nieen: ing Improving statistical machine translation usinformation. Ph D thesis, Rheinisch-

morpho-syntactic

Westflische Technische Hochschule Aachen, Dezember 2002. 123pp. [5] Federico Gaspari: The role of online MT in webpage translation. PhD thesis, University of Manchester, [June] 2007; 317pp. [6] Nuno M.F.Dionisio: Nominal taxonomies and word sense dis-

ambiguation. Ph D thesis, University of East Anglia, Norwich, November 15, 2003. 312pp. [7] Erik A. Chapla: Statistical machine translation of Japanese.

MSc thesis, Air Force Institute of Technology, Wright-Patterson Air Force Base, Ohio, March 2007 (AFIT/GE/ENG/07-06). 96pp. [8] TMI-97: proceedings of the 7th International Conference on

Theoretical and Methodological Issues in Machine Translation, July 23-25, 1997, St.John's College, Santa Fe, New Mexico, USA; pp.103-110. [9] MT Summit XIII: the Thirteenth Machine Translation Summit [organized by the] Asia-Pacic Association for Machine Translation (AAMT), 19-23 September 2011, Xiamen, China; pp.472479.

26

BIBLIOGRAPHY

27

[10] Benjamin K.Tsou & Bin Lu: Machine translation between uncommon language pairs via a third common language: the case of patents. Translating and the Computer 33, 17-18 November 2011, London; 13pp. [11] Bin Lu, Tao Jiang, Kapo Chow, & Benjamin K. Tsou: Building a large English-Chinese parallel corpus from comparable patents and its experimental application to SMT. [LREC 2010] Proceedings of the 3rd Workshop on Building and Using Comparable Corpora, Malta, 22 May 2010; pp.42-49. [12] Shoichi Yokoyama & Yuichi Takano: Investigation of translation disambiguation of verbs in patent sentences using word grouping. [MT Summit XIII] 4th Workshop on Patent Translation, Shoichi Yokoyama (ed,), Xiamen, China, September 23, 2011; pp.60-63. [13] Katharina Wschle & Stefan Riezler: Structural and topical dimensions in multi-task patent translation. [EACL 2012] Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, Avignon, France, April 23-27, 2012; pp. 818-828. [14] Bruno Pouliquen, Christophe Mazenc & Aldo Iorio: Tapta: a user-driven translation system for patent documents based on domain-aware statistical machine translation.[EAMT 2011]: proceedings of the 15th conference of the European Association for Machine Translation, 30-31 May 2011, Leuven, Belgium; eds. Mikel L.Forcada, Heidi Depraetere, Vincent Vandeghinste; pp.512. presentation, 15 slides [15] [MT Summit XIII] 4th Workshop on Patent Translation, Shoichi Yokoyama (ed,), Xiamen, China, September 23, 2011; pp.91-103. [16] Cristina Espaa-Bonet, Ramona Enache, Adam Slaski, Aarne Ranta, Llus Mrquez, & Meritxell Gonzlez: Patent translation within the MOLTO project. [MT Summit XIII]4th Workshop on Patent Translation, Shoichi Yokoyama (ed,), Xiamen, China, September 23, 2011; pp.70-78. [17] Merle D.Tenney: Machine translation, machine-aided transla-

tion, and machine-impeded translation. Tools for the Trade: Translating and the Computer 5. Proceedings of a conference. . . 10-11 November 1983, London Press Centre, ed. Veronica Lawson. (London: Aslib, 1985); pp.105-113 [18] Ralf D.Brown: Automated dictionary extraction for  knowledgefree example-based translation. TMI- 97: proceedings of the 7th

BIBLIOGRAPHY

28

International Conference on Theoretical and Methodological Issues in Machine Translation, July 23-25, 1997, St.John's College, Santa Fe, New Mexico, USA; pp.111-118. [19] Ralf D. Brown: Example-based machine translation in the Pangloss system. Coling 1996: the 16th International Conference on Computational Linguistics: Proceedings, August 5-9, 1996, Center for Sprogteknologi, Copenhagen; pp. 169-173. [20] Tatyana Gurina: Educational implications of a machine translation system. AMTA 2000 pre-conference workshop  Machine translation in practice: from old guard to new guard , Cuernavaca,Mexico, October10, 2000 . 5p. [21] Anna Sgvall Hein: Language control and machine translation. TMI-97: proceedings of the 7th International Conference on Theoretical and Methodological Issues in Machine Translation, July 23-25, 1997, St.John's College, Santa Fe, New Mexico, USA; pp.103-110. [22] Jrg Schtz: Utilizing evaluation in networked machine translation. TMI-97: proceedings of the 7th International Conference on Theoretical and Methodological Issues in Machine Translation, July 23-25, 1997, St.John's College, Santa Fe, New Mexico, USA; pp.208-215. [23] HUTCHINS, W. J. (1995). Machine translation: a brief his-

tory. En: KOERNER, E. F. K. y ASHER, R. E. [eds.]. Concise history of the language sciences.Oxford: Pergamon, 1995, p.431445. [24] Machine translation over fty years. Histoire, Epistmologie, Langage. Vol. 23 (1), 2001: Le traitement automatique des langues [ed. Jacqueline Lon], 7-31. [25] I. Dan Melamed: Automatic detection of omissions in translations. Coling 1996: the 16th International Conference on Computational Linguistics: Proceedings, August 5-9, 1996, Center for Sprogteknologi, Copenhagen; pp. 764-769. [26] Julien Gosme, Yves Lepage & Adrien Lardilleux: Translation

of sublanguages by subgrammars. Proceedings of the 3rd International Workshop on Example-Based Machine Translation, 1213 November 2009, Dublin City University, Dublin, Ireland, ed. Mikel L. Forcada [and] Andy Way; pp.77-84. [PDF, 116KB] [27] Nathalie Ct: System description/demo of Alis Translation Solutions application: multilingual search and query expansion.

BIBLIOGRAPHY
Machine translation and the information soup:

29

third confer-

ence of the Association for Machine Translation in the Americas, AMTA '98, Langhorne, PA,USA, October 1998; ed. David Farwell, Laurie Gerber, Eduard Hovy (Berlin: Springer Verlag, 1998); pp.522-525. [go to publisher details] [28] Tsuyoshi Morimoto & Akira Kurematsu: Automatic speech

translation at ATR MT Summit IV: International Cooperation for Global Communication. Proceedings, July 20-22, 1993, Kobe, Japan; pp.83-96. [29] Ian Crookston: Generation for MT in English in Eurotra. Proceedings of a Workshop on Machine Translation, 2-3 July 1990, UMIST, Manchester, ed.J.McNaught; 10pp.

Вам также может понравиться