Problemy Razrabotki Parallelnogo Korpusa Perevodov Russkoy Klassiki

© Вестник Военного университета. 2012. № 2 (30). С. ?- ?.
Потемкин Сергей Борисович,

кандидат технических наук, научный сотрудник
лаборатории обеспеченного компьютером обучения
филологического факультета ФГБОУ ВПО
«Московский государственный университет имени М.В.Ломоносова», г. Москва.
119991, Москва, ГСП-1, Ленинские горы, МГУ, д. 1, стр. 51, 1-й уч. корпус, филологический
факультет.
Тел:(495) 939-14-78. E-mail:potemkin@philol.msu.ru
Потемкин С.Б.
ПРОБЛЕМЫ РАЗРАБОТКИ ПАРАЛЛЕЛЬНОГО
КОРПУСА ПЕРЕВОДОВ РУССКОЙ КЛАССИКИ
Развитие науки о переводе в целом и различных направлений корпусной

лингвистики в частности в большой степени связано с использованием
современных лингвистических ресурсов и методов, в том числе больших
объемов текстов, научных, общественно-политических, юридических,
экономических и их переводов на иностранные языки, собранных в
параллельных корпусах [20, с. 87]. Возможность использования обширных
параллельных корпусов переводов1 вносит реальные перемены в способы
доступа к двуязычной лингвистической информации, открывает новые
возможности ее анализа и обобщения с последующим применением полученных
знаний для целей ручного и машинного перевода, составления словарей,
обучения иностранным языкам.
Важнейшую роль для использования этих ресурсов играет аннотирование
исходных текстовых материалов, собранных из самых разных источников, в
первую очередь, из сети Интернет, начиная от простого сопоставления разделов,
глав, параграфов исходного текста аналогичным структурам целевого текста – к
выравниванию предложений, фраз и слов внутри предложений, с
морфологическим, синтаксическим и семантическим разбором и сравнением
деревьев разбора, либо в модели непосредственных составляющих, либо в
1 Параллельный корпус (Parallel Corpora) - это электронный аналог параллельных переводных
текстов, состоящий, как правило, из множества блоков "текст-оригинал и один/несколько его
переводов". Электронные тексты в корпусе могут представлять собой целое оригинальное
словесное произведение или какую-либо его часть. – С.П.
модели семантико-синтаксических зависимостей. Размер и степень
аннотированности корпуса определяется задачами его исследователей. Большие
сбалансированные по тематике, хронологии и жанрам корпуса служат для
изучения общих свойств языка, тогда как при создании специализированных
параллельных корпусов стараются преимущественно решать вопросы анализа
конкретных аспектов перевода, или конкретных типов текстов, определения
авторства и пр.
Практика свидетельствует, что в отличие от моноязычных корпусов, таких,
как Британский национальный корпус [2] или Национальный корпус русского
языка (НКРЯ) [23], Компьютерный корпус текстов русских газет конца XX века
[22], параллельные корпуса, содержащие только переведенные тексты, имеют
значительно меньшие размеры и гораздо менее сбалансированы. Так, например,
подкорпус параллельных (русско-английских) текстов НКРЯ составляет по
объему около 10% от основного корпуса. Нетрудно понять причины такого
положения: использование языка его носителями предоставляет избыток данных
в каждой области науки, культуры, общественной жизни, тогда как переводные
тексты используются в ограниченном масштабе, при обучении языкам, переводе
различных слушаний, на конференциях. Фактически, параллельные корпуса в
настоящее время являются специализированными для определенной предметной
области (нормативные документы, технические руководства, художественные
произведения, для которых имеются переводы и т.д.).
Автоматическая обработка и аннотирование параллельных корпусов
выполняется иначе, чем корпусов моноязычных. Первой технической проблемой
в этом случае является точное автоматическое выравнивание исходного и
переведенного текстов на уровне предложений, словосочетаний и слов, что само
по себе представляет одну из наиболее трудных проблем автоматической
обработки текстов. Поскольку алгоритмы полностью автоматического
выравнивания основаны на вероятностной модели и поиск в пространстве
состояний для оптимального выравнивания является NP-сложной задачей [7,
с. 165–172], используются эмпирические и лингвистические соображения,
разнообразные статистические методы, сопоставление частотных или, напротив,
редких для данного текста слов. Совместные усилия лингвистов и
программистов привели к заметному повышения качества выравнивания и
упрощению построения специализированных параллельных корпусов, в
основном для европейских языков и других языков с обширной ресурсной базой,
таких, как китайский или японский [18, с. 237-248].
В то же время стоимость использования и авторские права на такие корпуса
часто не позволяют широко применять их в образовательных и
исследовательских целях, чем объясняется появление небольших корпусов,
собранных из текстов одного автора или одного периода, которые фактически и
составляют сегодня основную долю корпусов в научных проектах для перевода и
обучения [например: 26, с. 16-20]. Несмотря на малый объем, такие корпуса,
используемые совместно с большими моноязычными корпусами, могут быть
чрезвычайно полезны, а данные, извлеченные из них, могут заметно
контрастировать по частотности словоупотреблений, наличию специфической
лексики, грамматических конструкций, отсутствующих в корпусе общего
назначения, что составляет особую ценность таких частных корпусов.
Проблема построения параллельного корпуса заключается в высокой
трудоемкости, т.е. часто оказывается гораздо проще заново перевести текст, чем
выполнить его выравнивание с готовым переводом. Вследствие этого наиболее
точное ручное выравнивание выполняется лишь для нескольких сотен
предложений в исследовательских целях, в частности, для оценки качества
автоматического выравнивания, которое активно развивалось в течение двадцати
последних лет [3, с. 263-311; 10, с. 535-554; 12, с. 87-99; 14, с. 295-302; 19, с. 87-
94]. Несмотря на достигнутые успехи, методы автоматического выравнивания
дают ошибки, особенно если в текстах встречаются редкие слова и фразы.
Отсюда необходимость разработки таких методов и алгоритмов, которые давали
бы близкое к ручному качество выравнивания, при существенном снижении
затрат. Ниже излагаются некоторые проблемы создания и использования корпуса
текстов русской классики и параллельных переводов на английский язык, а также
подходы к их решению.
* * *
Выбор текстов
Современный русский литературный язык, созданный великими
писателями XIX в., несмотря на многочисленные девиации, отклонения от
литературной нормы, сохраняет свое лексическое и грамматическое ядро.
Овладение русским языком иностранными студентами, перевод иностранной
литературы на русский язык и обратно, требует изучения наследия русской
классической литературы и переводов, выполненных профессиональными
переводчиками, носителями целевого языка. Интерес всего мира к русской
классике XIX в. возник в конце XIX – начале XX столетия и не снижается до
настоящего времени. Этот интерес удовлетворяется как изучением русского
языка, так и в гораздо большей степени, переводами классических произведений
на иностранные языки. Наиболее многочисленны и доступны в электронном виде
переводы на английский язык, чем объясняется обращение автора данной статьи
к составлению корпуса русско-английских параллельных текстов, для которого
были выбраны переводы произведений «Петербургские повести» Н.В. Гоголя
[16], «Преступление и наказание» Ф.М. Достоевского [6] и сборника коротких
рассказов А.П. Чехова [17] в несколько старомодном переводе на английский
Констанс Гарнетт.
Выравнивание текстов на уровне предложений
Одна из первых по значимости и по порядку решения задач состоит в
установлении соответствий между текстами на уровне предложений. Для многих
целей, в частности, учебных, такого выравнивания достаточно, кроме того,
дальнейшее выравнивание (на уровне словосочетаний и отдельных слов)
невозможно без этого предварительного этапа. Соответствие между
предложениями исходного и целевого текстов очень часто не является взаимно-
однозначным, т.е. одному предложению исходного текста могут соответствовать
несколько предложений перевода и наоборот; какие-то предложения и целые
абзацы исходного текста могут выпадать в переводе, границы предложений могут
не совпадать, т.е. группа слов в переводе переходит в следующее предложение и
т.п. Особенно часто отсутствие однозначного соответствия между
предложениями и фразами в парах текстов характерно для перевода
художественных произведений.
При выравнивании на уровне предложений применяются чисто
структурные (по длине, числу слов, предложений) и статистические методы (по
частотности составляющих слов), которые не требуют развитой словарной базы и
могут использоваться для языков с небольшой ресурсной базой. Методы
выравнивания по длине очень чувствительны к пропускам или вставкам
предложений в том смысле, что отдельный пропуск или вставка может приводить
к неправильному последующему выравниванию от точки пропуска/вставки до
конца текста. Статистические методы также часто дают ошибочные результаты
выравнивания, требуя в последующем дорогостоящей ручной проверки и
исправления.
Для научных текстов часто применяют метод транскрибирования,
поскольку многие научные термины происходят из одного источника –
греческого, латинского, позднее из английского, немецкого, французского.
Сопоставленные таким образом термины служат опорными точками для
дальнейшего выравнивания. Использование двуязычных словарей для
выравнивания текстов менее распространено, и применялось в основном для
специализированных текстов, (англо-французские протоколы канадского
парламента [1], юридические тексты ЕС, спецификации программ, и т.п.).
Предлагаемый автором метод выравнивания содержит определенные
ограничения, а именно (a) порядок предложений в русском и английском текстах
совпадает; (b) в параллельных текстах нет значительных (более 200 слов)
пропусков; (c) длина параллельных текстов не слишком большая – порядка 40
тыс. словоупотреблений. Метод основан на использовании двустороннего англо-
русского словаря [24] объемом около 1,5 млн. пар эквивалентов, по которому
выполняется поиск переводных эквивалентов из анализируемых текстов. Вначале
рассматриваются только низкочастотные слова, а именно слова, встречающиеся
только 1 раз в каждом тексте (hapax legomena). Для каждого такого слова
исходного (русского) текста определяется переводной эквивалент, который также
встречается однократно в тексте перевода. Если для русского hapax legomena
находится несколько эквивалентов, все они исключаются из рассмотрения. Если
найденные эквиваленты связывают предложения с нарушением порядка их
следования в тексте перевода, они также исключаются. В результате такой
ограничительной стратегии получается набор уникальных пар слов-эквивалентов
в двух текстах. Такие пары образуют первичную структуру опорных точек или
«якорей», связывающих те предложения текстов, к которым они относятся. Затем
исходные тексты разбиваются на отрезки, ограниченные найденными парами
предложений. Эти отрезки рассматриваются как новые параллельные тексты и
процедура расстановки опорных точек повторяется. Итерации продолжаются,
пока появляются новые якоря. На практике число итераций в обработанных
текстах не превышало 6.
Во многих случаях сопоставление предложений исходного и переводного
текстов достигается уже после определения опорных точек. Если же эта цель не
достигнута, для определения эквивалентов применяется метод динамического
программирования на отрезках русского и английского текстов между опорными
точками. Для каждого слова отрезка русского текста (назовем его для краткости
параграфом) в словаре отыскивается словарный эквивалент (эквиваленты) в
соответствующем отрезке английского текста. Число таких эквивалентов
подсчитывается для каждой пары предложений, что определяет меру сходства
между предложениями. Мера сходства записываются в ячейку таблицы, строки
которой соответствуют предложениям исходного текста, а столбцы –
предложениям перевода (матрица смежности).
Через заполненные ячейки матрицы смежности можно провести несколько
различных путей – от начала до конца параграфа. Наиболее вероятное
согласование предложений исходного и переводного параграфов соответствует
критическому пути, т.е. такому пути, сумма величин в ячейках, через которые он
проходит, максимально. Поиск критического пути осуществлялся стандартными
методами динамического программирования.
Лемматизация для русского текста была выполнена по словарю словоформ,
построенному с использованием программы StarLing [25]. Для устаревших,
редких и диалектных слов вручную строились словоизменительные парадигмы,
которые использовались при лемматизации и пополняли словарь словоформ.
Лемматизация английского текста не проводилась ввиду относительно бедного
словоизменения в английском языке и наличия в двуязычных словарях многих
словоформ, отличных от исходной.
В результате выравнивания рассказа А.П. Чехова «Анна на шее» и его
перевода на английский язык в русском тексте были выделены 223 предложения,
в английском тексте – 239 предложений. Получено 182 пары предложений (78%
текста), из которых 165 предложений (90,5%) представляли полный и точный
перевод, 16 предложений (9%) - часть перевода оригинала (или наоборот) и 1
предложение (0,5%) было сопоставлено переводу ошибочно. Аналогичные
соотношения сохраняются для других текстов рассматриваемой коллекции.
Типичный пример несоответствия, когда одно предложение переводится
двумя: "Что это, вы больны?" <> "What's this?" "Are you ill?" Такие ошибки
легко исправляются путем анализа лексики. Другой, более трудный для
обработки случай – когда несколько предложений (2-3) переводятся 2-3
предложениями, однако их границы не совпадают: "Эк ведь спит! – вскричала
она с негодованием, – и все-то он спит!" <> "My goodness; how he sleeps! - she
cried indignantly: And he is always asleep". В таких случаях приходилось
проводить выравнивание, не определяя границ предложений. После нескольких
итераций такого слияния по всему тексту несвязанными остались около 5%
предложений, для которых сопоставление выполнялось вручную.
Фрагментация параллельных предложений
Выравнивание на уровне ниже уровня предложений обычно выполняется с
использованием статистических моделей машинного перевода [3, с. 263-311], где
любое слово предложения целевого языка (ЦЯ) считается возможным переводом
любого слова предложения исходного языка (ИЯ). Вероятность некоторого слова
ЦЯ быть переводом слова ИЯ зависит от частоты, с которой оба слова
встречаются в той же самой или близкой позиции в параллельном корпусе.
Наиболее вероятные пары принимаются в качестве переводных эквивалентов.
Такой подход имеет ряд недостатков, связанных с большим количеством редких
словоупотреблений, что обычно для малого корпуса, различиями в порядке слов
в языках и наличием словосочетаний, переводимых одним словом.
Приблизительно половина словника корпуса состоит из так называемых редких
событий, встречающихся в тексте с частотой менее 10 ipm (словоупотреблений
на миллион). Редкие события, очевидно, не дают достаточно информации для
статистического анализа. С другой стороны, от 5 до 10% словника корпуса
состоит из высоко частотных слов, то есть слов с частотами 100 ipm или выше.
Поскольку такие слова встречаются практически в любой позиции в корпусе, они
могут сопоставляться с чем угодно, если решение о выравнивании основано
исключительно на статистике.
Другая проблема, которая была отмечена уже в первых исследованиях по
выравниванию на уровне слов, касается различий в порядке слов между
исходным и целевым языком [5; 13, с. 107-130]. Многие предложения
английского и русского языков имеют совпадающий в основном порядок слов,
однако могут включать локальные инверсии. Наиболее распространенным
примером инверсии служит атрибутивная именная конструкция, порядок слов в
которой инвертирован относительно русского оригинала. Сопоставление
неравных по числу слов цепочек ИЯ и ЦЯ было отмечено в качестве трудной
задачи для статистического выравнивания по словам [8, с. 75-102]. Устойчивое
словосочетание, зафиксированное в словаре, должно обрабатываться именно как
таковое и эквивалентом для него в тексте перевода будет слово или
словосочетание из словарной статьи.
Параллельные предложения можно расположить по двум осям так
называемого пространства билингвы [13, с. 107-130]. Обычно номер слова в
предложении берется в качестве его координаты в пространстве билингвы. Будем
принимать в качестве координатных отсчетов не слова как таковые, а разделители
(пробелы) между соседними словами. При таком подходе отображение
фрагмента исходного предложения на фрагмент целевого предложения
представляет собой отрезок с координатами начала и конца фрагмента ИЯ на оси
X и начала и конца фрагмента ЦЯ на оси Y. Теперь можно ставить в соответствие
(на основе двуязычного словаря) не только однословные эквиваленты, но также
эквиваленты типа словосочетаний. Например, в параллельных предложениях
"Но теперь его вдруг что-то потянуло к людям" <> "But now all at once he felt a
desire to be with other people" [6] слово ИЯ вдруг переведено в ЦЯ
словосочетанием all at once и такой перевод зафиксирован в русско-английском
словаре. Построив по двуязычному словарю опорное пословное отображение,
можно переходить непосредственно к фрагментации, то есть к отображению
интервалов ИЯ на интервалы ЦЯ, которые лежат между уже определенными
опорными отрезками. Если мы рассматриваем только монотонные отображения
(т.е. считаем порядок слов исходного и целевого предложения по большей части
совпадающим), задача попадает в класс задач динамического программирования.
Однако исходное предложение и его перевод, даже имеющие в основном
совпадающий порядок слов, содержат фрагменты с инверсией, например:
"изредка только" <> "only occasionally". Такую локальную инверсию желательно
включить в критический путь, но общий алгоритм динамического
программирования этого не допускает. Поиск инверсных фрагментов
выполняется отдельным алгоритмом, после чего найденные фрагменты целиком
включаются в общий набор сопоставленных отрезков и участвуют в алгоритме
поиска критического пути.
Вернемся к приведенному примеру. Критический путь разбивает исходную
пару предложений на следующие фрагменты:
1. Но теперь == But now
2. теперь его вдруг == now all at once
3. вдруг что-то потянуло к == all at once he felt a desire to be with
4. к людям == with other people
Границы фрагментов представлены словами и словосочетаниями,
зафиксированными в словарях. Интерес представляет часть фрагмента, лежащая
между границами – это не вошедшие в словари «эквиваленты», которые могут
рассматриваться как кандидаты для включения в словарь авторского языка, либо
как образец перевода, который можно использовать в учебных целях или для
построения систем автоматического перевода.
Ниже приводится часть списка таких новых пар эквивалентов, извлеченных
после выравнивания на уровне слов из перевода «Петербургских рассказов»
Н.В. Гоголя [16]:
злодеяние <> evil deed; поручить <> enjoin; примороженный <> frozen;
полгорсти <> half a handful; поднести <> raise; будочники <> watchmen;
получить <> conceive; свой <> your; оставить <> neglect; требовать <>
compel; движение <> impulse; задуматься <> begin to think; представляться <>
recur; бледный <> poor; слышал <> hearkened; развлечься <> divert;
расположение <> state; приятный <> delightful; как известно <> as every one
knows [21].
Синтаксический анализ
Дальнейшее уточнение выравнивания на уровне слов требует выполнения
синтаксического анализа предложений ИЯ и ЦЯ. В последнее время прилагались
большие усилия по использованию для синтаксического анализа размеченных
корпусов, которые позволяют проводить проверку грамматических теорий, а
также формировать сами правила синтаксиса. Этот процесс называется
«тренировкой» формальной грамматики и должен завершиться при достижении
некоторого малого процента ошибок. Для тренировки грамматики составляются
синтаксически аннотированные корпуса, получившие название «treebank» [9,
с. 368–375]. Имеются хорошие синтаксические анализаторы (парсеры) для модели
непосредственных составляющих для английского и некоторых других языков.
Также имеются работы, основанные на модели дерева зависимостей, например,
MALT-парсер [11]. Для большинства языков мира, однако, отсутствуют хорошие
синтаксические анализаторы, либо вообще какие-либо анализаторы.
В описанной ниже модели локальных связей [15] структура зависимостей
строится снизу вверх. Вначале устанавливаются локальные связи между
соседними словами, которые объединяются в синтагмы или «юниты», затем
устанавливаются связи между соседними юнитами, и так далее, пока не
достигается последний, верхний уровень объединения, чем и завершается
построение дерева зависимостей. Существенным в этом процессе является выбор
последовательности объединения юнитов, который определяется весом связи
между ними. В качестве веса связи R между отдельными словами в предложении
принимается отношение числа установленных связей R между словами w i и wj в
предложениях корпуса, к числу обнаружений пар слов wi и wj в одном и том же
предложении корпуса. Если какая-либо пара слов (напр., предлог и
существительное в предложном падеже) всегда синтаксически связаны, вес такой
связи будет равен 1, во всех других случаях – меньше 1, то есть, связь с более
высокой вероятностью имеет больший вес.
Алгоритм парсинга заключается в последовательном установлении
локальных связей, то есть связей между соседними словами или уже связанными
фрагментами предложения. Фрагмент имеет «открытые» и «закрытые» слова.
Закрытым называем слово, над которым уже проведена синтаксическая связь, все
остальные слова фрагмента являются открытыми. Связи могут устанавливаться
только между открытыми словами. Например, в предложении "Доктор
мгновенно проникается уважением к пациенту" связи устанавливаются в
следующем порядке: к – пациенту, проникается – уважением, мгновенно –
проникается, доктор – проникается, уважением – пациенту.
Первоначальные веса связей устанавливались по 3-граммной модели, т.е.
все предложения корпуса разбивались на 3-словные цепочки, слова в которых
предполагались синтаксически связанными. Исходя из этого предположения,
вычислялись веса связей, затем выполнялось несколько итераций
синтаксического анализа, в результате чего веса изменялись. После 4-6 итераций
результаты анализа переставали меняться и считались окончательными.
Поскольку первоначальные связи устанавливались только в пределах окна
длиной 3 слова, а согласно алгоритму должны связываться слова, далеко
отстоящие друг от друга, необходимо задавать вес связи между любыми двумя
словами предложения. С этой целью используется приближение, описанное в
работе [4, с. 505-512].
В алгоритм заложены также некоторые лингвистические знания, например,
вес связей типа предлог – существительное, прилагательное – существительное
(согласованные) и т.п. увеличивается. Полученный в результате парсер
локальных зависимостей дает примерно 80% точности установления связей.
Аналогичный метод можно применить для синтаксического анализа английского
текста, однако мы использовали уже разработанные и хорошо себя
зарекомендовавшие и открытые анализаторы типа MiniPar, дающие еще более
высокую точность (до 85%). Деревья зависимостей для русского и английского
предложения, как правило, не совпадают. В приведенном примере из
Достоевского "Но теперь его вдруг что-то потянуло к людям" корнем дерева
разбора ИЯ является глагол потянуло, в дереве разбора ЦЯ – глагол felt, а весь
комплекс, связанный с ним feel a desire to be with переводится как потянуть(ся)
к… . В то же время, связь к – людям соответствует связи with – people, что дает
уточняющую информацию для фрагментации. Без учета этой синтаксической
информации предлог к был бы поставлен в соответствие показателю инфинитива
to, распознанному как предлог, поскольку в словарях такой перевод является
преобладающим.
Автоматический парсинг может быть улучшен при использовании
параллельных предложений, выровненных на уровне слов. Так, при наличии
достоверного парсера английского языка и выровненных английского и русского
предложений, можно выполнить проекцию дерева разбора английского
предложения на соответствующее русское предложение и наоборот. Устранение
расхождений, выявленных при сравнении прямого синтаксического анализа и
анализа, выполненного путем проекции, позволят улучшить качество
применяемого алгоритма. В этом смысле использование параллельных текстов
русской классики и их английских переводов особенно продуктивно благодаря
богатству использованной лексики и разнообразию синтаксических конструкций
в классических произведениях.
* * *
Создание параллельного корпуса для пополнения словарей, обучения,
перевода, машинного перевода, является важной и одновременно весьма сложной
задачей. Причина, по которой в статье рассматривались переводы русской
классической литературы, а не современные специальные тексты, заключается в
том, что перевод терминов является скорее нормативной задачей, то есть должен
фиксироваться в стандартизованных словарях, где каждому термину (в данной
предметной области) присваивается единственный допустимый эквивалент. Все,
что остается переводчику или студенту – это обратиться к такому
терминологическому словарю. То же самое происходит и при машинном
переводе: обращение к терминологической словарной базе решает вопрос
адекватного перевода. Также и разнообразие синтаксических конструкций в
специальных текстах стараются свести к минимуму, чтобы не затруднять
понимание сути (если неоднозначность не вносится автором намеренно).
Ситуация же с переводом общей лексики иная, перевод зависит от
контекста, который не может включаться в словари. Доступ к параллельному
корпусу текстов, включающих лучшие литературные образцы, позволит
переводчику, по мнению автора, с уверенностью использовать эти образцы в
своей работе, а в дальнейшем и переложить часть работы переводчика на
программы автоматического машинного перевода.
* * *
1. Aligned Hansards of the 36th Parliament of Canada Release 2001-1a [Электронный
ресурс] // Information Sciences Institute: [сайт]. URL: http://www.isi.edu/natural-
language/download/hansard/ (дата обращения: 22.04.2012).
2. British National Corpus (BNC) [Электронный ресурс] // British National Corpus: [сайт].
URL: http://www.natcorp.ox.ac.uk/ (дата обращения: 22.04.2012).
3. P.F. Brown, V.J. Della Pietra, S.A. Della Pietra, R.L. Mercer. The mathematics of statistical
machine translation: parameter estimation // Computational Linguistics. 1993. Vol. 19(2).
4. М. Collins., J. Hajic, E. Brill, L. Ramshaw, C. Tillmann. A statistical parser for Czech
[Электронный ресурс] // The Association for Computational Linguistics: [сайт]. URL:
http://www.aclweb.org/anthology-new/P/P99/P99-1065.pdf (дата обращения: 27.04.2012).
5. Collins М., Koehn Р., Kucerova I. Clause restructuring for statistical machine translation //
Proceedings of the Association for Computational Linguistics (2005) [Электронный
ресурс] // Faculty of Humanities - McMaster University: [сайт]. URL:
www.humanities.mcmaster.ca/~kucerov/ACL2005.pdf (дата обращения: 27.04.2012).
6. Crime and Punishment by Fyodor Dostoyevsky [Электронный ресурс] // Project
Gutenberg: [сайт]. URL: http://www.gutenberg.org/ebooks/2554 (дата обращения:
22.04.2012).
7. Dzemyda G., Sakalauskas L. Optimization and knowledge-based technologies //

Informatica. 2009. Vol. 20(2).
8. Gale W.A., Kenneth W.C. A Program for Aligning Sentences in Bilingual Corpora //
Computational Linguistics. 1993. Vol. 9(1).
9. Large-Scale Induction and Evaluation of Lexical Resources from the Penn-II Treebank /
R. O’Donovan, M. Burke, A. Cahill, J. van Genabith, A. Way // Proceedings of the 42nd
Annual Meeting of the Association for Computational Linguistics. Barcelona, 2004.
10. Laukaitis A., Vasilecas O. Multi-alignment templates induction // Informatica. 2008.
Vol. 19(4).
11. MaltParser [Электронный ресурс] // MaltParser: [сайт]. URL:
http://www.maltparser.org/ (дата обращения: 27.04.2012).
12. Marcu D., Wong W. A phrase-based, joint probability model for statistical machine
translation // Proceedings of the Conference on Empirical Methods in Natural Language
Processing. Philadelphia, 2002.
13. Melamed I. Bitext Maps and Alignment via Pattern Recognition // Computational
Linguistics. 1999. Vol. 25 (1).
14. Och F.J., Ney H. Discriminative training and maximum entropy models for statistical
machine translation [Электронный ресурс] // ACL Anthology: [сайт]. URL:
http://acl.ldc.upenn.edu/P/P02/P02-1038.pdf (дата обращения: 23.04.2012).
15. Potemkin S.B. Unsupervised parsing of the Russian sentence // Conceptual Structures for
Extracting Natural language Semantics (SENSE'09) [Электронный ресурс] // CEUR
Workshop Proceedings: [сайт]. URL: http://ceur-ws.org/Vol-476/paper6.pdf (дата
обращения: 22.04.2012).
16. The Collected Tales of Nikolai Gogol / translator Pevear R., Volokhonsky L. New York:
Pantheon Books, 1998. 435 p.
17. The Lady with the Dog and Other Stories by Anton Pavlovich Chekhov [Электронный
ресурс] // Project Gutenberg: [сайт]. URL: http://www.gutenberg.org/ebooks/13415 (дата
обращения: 27.04.2012).
18. Tiedemann J. News from OPUS – A Collection of Multilingual Parallel Corpora with
Tools and Interfaces // Recent Advances in Natural Language Processing. 2009. Vol V. P. 237-
248.
19. Toutanova K., Ilhan H.T., Manning C.D. Extensions to HMM-based statistical word
alignment models // Proceedings of Empirical Methods in Natural Langauge Processing.
Philadelphia, 2003.
20. Беляева Л.Н. Корпусная лингвистика и перевод: потенциал и ограничения // Труды
международной конференции «Корпусная лингвистика – 2011» (Санкт-Петербург, 27-29
июня 2011г.) СПб: Изд-во филологического ф-та СПбГУ, 2011. С. 87 – 91.
21. Кедрова Г.Е., Потемкин С.Б. Использование корпуса параллельных текстов для
пополнения специализированного двуязычного словаря // Труды и материалы III
Международного Конгресса исследователей русского языка «Русский язык:
исторические судьбы и современность» (Москва, 20-23 марта 2007):. М.: МАКС Пресс,
2007. С. 27-628.
22. Компьютерный корпус текстов русских газет конца XX-ого века [Электронный
ресурс] // Сайт филологического факультета МГУ имени М. В. Ломоносова: [сайт].
URL: http://www.philol.msu.ru/~lex/corpus (дата обращения: 27.04.2012).
23. Национальный корпус русского языка (НКРЯ) [Электронный ресурс] //

Национальный корпус русского языка: [сайт]. URL: http://www.ruscorpora.ru/ (дата
обращения: 27.04.2012).
24. Потемкин С.Б. Лексическая база данных с наложенной семантической метрикой //
II Международный конгресс русистов-исследователей «Русский язык: исторические
судьбы и современность» (Москва, 18-21 марта 2004): сб. тезисов. М., 2004.
25. Программа для работы с базами данных СТАРЛИНГ [Электронный ресурс] //
Вавилонская башня: [сайт]. URL: http://starling.rinet.ru/morpho.php?lan=ru (дата
обращения: 27.04.2012).
26. Электронный корпус текстов по памятникам древнерусской агиографической
литературы / А.С. Герд., Е.Л. Алексеева, И.В. Азарова, Л.А. Захарова // Научно-
техническая информация. Информационные процессы и системы. Серия 2. 2004. № 9.
C. 16 - 20.

Problemy Razrabotki Parallelnogo Korpusa Perevodov Russkoy Klassiki

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Problemy Razrabotki Parallelnogo Korpusa Perevodov Russkoy Klassiki

Загружено:

Авторское право:

Доступные форматы

© Вестник Военного университета. 2012. № 2 (30). С. ?- ?.

Потемкин Сергей Борисович,

Развитие науки о переводе в целом и различных направлений корпусной

7. Dzemyda G., Sakalauskas L. Optimization and knowledge-based technologies //

23. Национальный корпус русского языка (НКРЯ) [Электронный ресурс] //

Вам также может понравиться