Вы находитесь на странице: 1из 31

Translation Forum Russia 2018

Международная переводческая конференция


Извлечение терминологии:
инструменты и приемы
Сергей Савельев
itbFirst Language Service Provider
Значимость терминологии для заказчика
(данные интернет-опроса переводчиков и БП в 2017 году)
Всегда или часто требуют Всегда или часто дают
«хорошую терминологию» «хорошую терминологию»
(ок. 62%) (ок. 25%)

Подчеркивают ли Ваши заказчики необходимость точной Предоставляют ли Ваши заказчики глоссарии или
передачи терминологии в проекте? терминологические базы?

Да, всегда
Да, всегда
Да, часто
Да, часто
Да, иногда
Да, иногда
Нет, никогда
Нет, никогда
Самостоятельная подготовка терминологических ресурсов
на основе файлов конкретного проекта или заказчика

• Глоссарий адекватен текущей


задаче;
• Прирост скорости на этапе перевода
даже у «медленных» переводчиков;
• Снижение трудозатрат на этапе
редактуры и QA;
• Предметный разговор на тему «вы
всё перевели неправильно» с
исполнителями и заказчиками;
• Вовлечение заказчика в
переводческий процесс (в
некоторых случаях);
• Можно смелее использовать МП (с
определенными оговорками);
• Можно использовать наработанные
глоссарии на сходных проектах (с
определенными оговорками)
Методы сбора терминологии
Вручную Полная автоматизация
«+» «+»
• Высокое качество • Очень быстро
• Обнаружение потенциальных
трудностей
«-»

• Невысокое качество
Практически нет ограничений по
форматам файлов и носителям • Инвестиции в ПО
«-» • Высокие требования к типам
• Дорого (если хорошо) файлов и носителям
• Долго • Сложно спрогнозировать
• «Человеческий фактор» результат (некоторые языки)
• Результаты зависят от ПО
Автоматизация:
Аудитория 2014 текущее состояние
Автоматизирован ли у Вас процесс создания глоссария?

Да, автоматизирован полностью

Да, автоматизирован частично

Нет, но планируется полная автоматизация

Нет, но планируется частичная автоматизация

Нет, не автоматизирован

Другое (укажите)
Известные и доступные инструменты
(по результатам опроса)
«Популярные»
• SDL MultiTerm Extract
• MemoQ (Встроенный модуль извлечения
терминологии)
«Менее известные»
• Менеджер терминологии (ProMT)
• Лексикон (Déjà Vu X2/X3)
Как это работает
(немного теории)
«Статистический» метод «Лингвистический» метод
В выборку попадают единицы с В выборку попадают единицы с определенными
морфологическими и синтаксическими
заданной частотностью признаками
Особенности Особенности
• Словоформы = разные слова; • Выявление сложных терминов на основе
автоматического определения частей речи;
• Некорректное проведение границ • Соотнесение обрабатываемого текста с
словосочетаний; корпусом;
• Много частотных, но • Недоступен для некоторых языков;
нерелевантных явлений (т.н. Noise • Обработка полной формы и сокращения как
одного явления может вызвать трудности;
/ Silence Ratio);
• Применение «статистических» костылей
• Артефакты OCR снижают может дать обратный эффект;
эффективность обнаружения; • Синонимия;
• Требуются качественные стоп- • Артефакты OCR снижают эффективность
обнаружения;
списки.
Попробуем разобраться!
Исходные данные
Текст руководства по
обслуживанию станка
(ок. 30 тыс.слов):
• Языки: английский,
немецкий, русский;
• Распознан из pdf;
• Грубая очистка
TransTools
• В тексте есть схемы и
таблицы
Инструменты
Локальные Облачные
• Менеджер терминологии • Memsource Term Extract
PROMT (В составе Promt • OneClick Term (Sketch
Expert 18) Engine)
• MultiTerm Extract 2017 • Translated.Net
• MemoQ Term Extraction (в
составе MemoQ 2015)
• Lexiсon (В составе Déjà Vu
X3)
Условия сравнения
• Минимальная частотность ТК* в тексте – 3;
• Количество обнаруживаемых терминов не
ограничевается;
• Максимальная длина поликомпонентного
термина – 4 слова;
• Исключаем термины с цифрами (если возможно);
• Применяем продвинутые настройки (при
наличии).
*ТК – термин-кандидат
Lexicon (Déjà vu X3)
Достоинства Недостатки
• Возможность сортировки • «Рекордсмен» обнаружения –
результатов по критериям; 25670 ТК;
• Много уникальных значений • 2 (два!!) настраиваемых
(даже с поправкой на объем параметра;
выборки); • Плохо исключает цифры и
• Возможность выгрузки комбинации типа «A0001000400»;
результатов в Excel; • Чувствителен к регистру;
• Можно перевести результаты с • Не работает под Win10 (сборка
помощью ТМ и ТБ; 1703 и более поздние);
• Выявляет «нанизанные • Нельзя использовать стоп-списки;
термины»; • Не видит морфологию;
• Доступно в бесплатной версии. • Вставляет апостроф перед ТК.
Lexicon (Déjà vu X3)
adjusting
Adjusting
Adjusting embedded
Adjusting embedded bolt
Term Extraction (MemoQ 2015)
Достоинства Недостатки
• Большой диапазон • «Серебро» по количеству
обнаруженных ТК – 1610 ТК;
настройки параметров;
• Нет функции выгрузки результатов
• Выявление ТК с особым напрямую в стороннее приложение;
расположением • Трудоемкость изменения стоп-
списка;
служебных слов;
• Нет стоп-списка для русского языка;
• Игнорирование терминов • Пропустил много хороших ТК в
с цифрами; немецком;
• «Узкое место» для тех, кто
• Для некоторых языков использует другие САТ;
есть стандартный стоп- • Нет поддержки морфологии
список; • Цена ($770 за лицензию)
Term Extraction (MemoQ 2015)
SDL MultiTerm Extract
Достоинства Недостатки
• Ограниваемое количество • Мало настроек;
обнаруживаемых ТК; • Цена (17 тыс. рублей у
• Возможность замены штатного российского реселлера)
стоп-списка; • Предполагается работа в
• Нечувствителен к регистру; экосистеме SDL
• Иногда обнаруживает термин и • Невозможность фильтрации
его вариант (акроним); буквенночисловых единиц;
• Извлечение терминов на двух • В выдачу попадают спецсимволы.
языках (из tmx);
• Возможность экспорта в
Особенность – результаты MemoQ,
стороннее приложение;
Memsource и MultiTerm практически
• Частично поддерживает
идентичны.
морфологию.
SDL MultiTerm Extract
Менеджер терминологии PROMT
(в составе PROMT 18 Expert)
Достоинства Недостатки
• Расширенные настройки; • Высокие требования к
• Использование отраслевых и квалификации
пользовательских словарей; специалиста;
• Автоматический перевод
• Требуется
найденных ТК;
предварительная
• Возможность интеграции с
решениями SDL;
настройка;
• Функция исключения уже • Очень чувствителен к
известных терминов; артефактам OCR;
• Лучше всех справился с • Нет готовых стоп-списков
немецким. (нужно делать самим)
Абсолютный лидер по обнаружению уникальных (но не всегда релевантных) ТК
Менеджер терминологии PROMT
(в составе PROMT 18 Expert)
Memsource (Term Extraction Module)
Достоинства Недостатки
• Результаты обнаружения • «Бронза» по количеству
практически идентичны обнаруженных ТК – 1325 ТК;
таковым у MemoQ (для • Мало настроек;
английского); • «Узкое место» для тех, кто
• Бесплатно (с использует другие САТ
ограничениями); (спорно);
• Возможность экспорта в • Чувствителен к регистру;
Excel. • Нет поддержки морфологии;
• Плохо показал себя на
немецком тексте.
Memsource (Term Extraction Module)
OneClick Terms (SketchEngine)
Достоинства Недостатки
• Поиск по лемме; • Для многих языков нет стоп-
• Бесплатно (с существенными списков;
ограничениями); • Не всегда корректно
• Высокое качество обрабатывает односложные
поликомпонетных терминов (в термины (специфика
расширенной версии в самом алгоритма);
SketchEngine); • Требуются некоторые познания
• Высокая скорость работы; в корпусной лингвистике;
• Экспорт в CSV и TBX. • Артефакты OCR влияют на
• Дал хорошие результаты по результат;
немецким и русским • По факту плохо видит
словосочетаниям морфологию;
OneClick Terms (SketchEngine)
Translated.Net Labs
Достоинства Недостатки
• Бесплатно; • Макс.размер файла – 30
• Результаты высокого тыс. знаков;
качества. • Поддерживаются только
английский, испанский и
итальянский языки;
• Нет настроек;
• Работает только в демо-
режиме;
• Выдает только 20 ТК
Translated.Net Labs
Что же из этого следует?
Проблемы
• Нет явного и абсолютного лидера;
• Полная автоматизация (пока) невозможна;
• Высокие требования к верстке;
• Выявляются наиболее «очевидные» термины;
• Непредсказуемые результаты при работе с
«низкоресурсными» языками;
• Цена;
• Интеграция решений в рабочий процесс;
Что можно сделать
• Грамотная сортировка и классификация
документов;
• Анализировать результаты автоматического
извлечения терминов (АИТ);
• Интенсификация использования
существующих ТБ;
• Извлечение параллельной терминологии из
ТМ;
• Готовить вспомогательные ресурсы;
Общие рекомендации
• АИТ требует систематичности;
• Терминологическая работа ведется непрерывно;
• Работу можно (и нужно) поручать подходящему
сотруднику;
• Выбор системы зависит от вашей специализации и
языковых пар;
• Добивайтесь обратной связи по терминологии от
всех участников процесса;
• На определенных проектах эффект
непредсказуем.
Вопросы?

Вам также может понравиться