Академический Документы
Профессиональный Документы
Культура Документы
Подчеркивают ли Ваши заказчики необходимость точной Предоставляют ли Ваши заказчики глоссарии или
передачи терминологии в проекте? терминологические базы?
Да, всегда
Да, всегда
Да, часто
Да, часто
Да, иногда
Да, иногда
Нет, никогда
Нет, никогда
Самостоятельная подготовка терминологических ресурсов
на основе файлов конкретного проекта или заказчика
Нет, не автоматизирован
Другое (укажите)
Известные и доступные инструменты
(по результатам опроса)
«Популярные»
• SDL MultiTerm Extract
• MemoQ (Встроенный модуль извлечения
терминологии)
«Менее известные»
• Менеджер терминологии (ProMT)
• Лексикон (Déjà Vu X2/X3)
Как это работает
(немного теории)
«Статистический» метод «Лингвистический» метод
В выборку попадают единицы с В выборку попадают единицы с определенными
морфологическими и синтаксическими
заданной частотностью признаками
Особенности Особенности
• Словоформы = разные слова; • Выявление сложных терминов на основе
автоматического определения частей речи;
• Некорректное проведение границ • Соотнесение обрабатываемого текста с
словосочетаний; корпусом;
• Много частотных, но • Недоступен для некоторых языков;
нерелевантных явлений (т.н. Noise • Обработка полной формы и сокращения как
одного явления может вызвать трудности;
/ Silence Ratio);
• Применение «статистических» костылей
• Артефакты OCR снижают может дать обратный эффект;
эффективность обнаружения; • Синонимия;
• Требуются качественные стоп- • Артефакты OCR снижают эффективность
обнаружения;
списки.
Попробуем разобраться!
Исходные данные
Текст руководства по
обслуживанию станка
(ок. 30 тыс.слов):
• Языки: английский,
немецкий, русский;
• Распознан из pdf;
• Грубая очистка
TransTools
• В тексте есть схемы и
таблицы
Инструменты
Локальные Облачные
• Менеджер терминологии • Memsource Term Extract
PROMT (В составе Promt • OneClick Term (Sketch
Expert 18) Engine)
• MultiTerm Extract 2017 • Translated.Net
• MemoQ Term Extraction (в
составе MemoQ 2015)
• Lexiсon (В составе Déjà Vu
X3)
Условия сравнения
• Минимальная частотность ТК* в тексте – 3;
• Количество обнаруживаемых терминов не
ограничевается;
• Максимальная длина поликомпонентного
термина – 4 слова;
• Исключаем термины с цифрами (если возможно);
• Применяем продвинутые настройки (при
наличии).
*ТК – термин-кандидат
Lexicon (Déjà vu X3)
Достоинства Недостатки
• Возможность сортировки • «Рекордсмен» обнаружения –
результатов по критериям; 25670 ТК;
• Много уникальных значений • 2 (два!!) настраиваемых
(даже с поправкой на объем параметра;
выборки); • Плохо исключает цифры и
• Возможность выгрузки комбинации типа «A0001000400»;
результатов в Excel; • Чувствителен к регистру;
• Можно перевести результаты с • Не работает под Win10 (сборка
помощью ТМ и ТБ; 1703 и более поздние);
• Выявляет «нанизанные • Нельзя использовать стоп-списки;
термины»; • Не видит морфологию;
• Доступно в бесплатной версии. • Вставляет апостроф перед ТК.
Lexicon (Déjà vu X3)
adjusting
Adjusting
Adjusting embedded
Adjusting embedded bolt
Term Extraction (MemoQ 2015)
Достоинства Недостатки
• Большой диапазон • «Серебро» по количеству
обнаруженных ТК – 1610 ТК;
настройки параметров;
• Нет функции выгрузки результатов
• Выявление ТК с особым напрямую в стороннее приложение;
расположением • Трудоемкость изменения стоп-
списка;
служебных слов;
• Нет стоп-списка для русского языка;
• Игнорирование терминов • Пропустил много хороших ТК в
с цифрами; немецком;
• «Узкое место» для тех, кто
• Для некоторых языков использует другие САТ;
есть стандартный стоп- • Нет поддержки морфологии
список; • Цена ($770 за лицензию)
Term Extraction (MemoQ 2015)
SDL MultiTerm Extract
Достоинства Недостатки
• Ограниваемое количество • Мало настроек;
обнаруживаемых ТК; • Цена (17 тыс. рублей у
• Возможность замены штатного российского реселлера)
стоп-списка; • Предполагается работа в
• Нечувствителен к регистру; экосистеме SDL
• Иногда обнаруживает термин и • Невозможность фильтрации
его вариант (акроним); буквенночисловых единиц;
• Извлечение терминов на двух • В выдачу попадают спецсимволы.
языках (из tmx);
• Возможность экспорта в
Особенность – результаты MemoQ,
стороннее приложение;
Memsource и MultiTerm практически
• Частично поддерживает
идентичны.
морфологию.
SDL MultiTerm Extract
Менеджер терминологии PROMT
(в составе PROMT 18 Expert)
Достоинства Недостатки
• Расширенные настройки; • Высокие требования к
• Использование отраслевых и квалификации
пользовательских словарей; специалиста;
• Автоматический перевод
• Требуется
найденных ТК;
предварительная
• Возможность интеграции с
решениями SDL;
настройка;
• Функция исключения уже • Очень чувствителен к
известных терминов; артефактам OCR;
• Лучше всех справился с • Нет готовых стоп-списков
немецким. (нужно делать самим)
Абсолютный лидер по обнаружению уникальных (но не всегда релевантных) ТК
Менеджер терминологии PROMT
(в составе PROMT 18 Expert)
Memsource (Term Extraction Module)
Достоинства Недостатки
• Результаты обнаружения • «Бронза» по количеству
практически идентичны обнаруженных ТК – 1325 ТК;
таковым у MemoQ (для • Мало настроек;
английского); • «Узкое место» для тех, кто
• Бесплатно (с использует другие САТ
ограничениями); (спорно);
• Возможность экспорта в • Чувствителен к регистру;
Excel. • Нет поддержки морфологии;
• Плохо показал себя на
немецком тексте.
Memsource (Term Extraction Module)
OneClick Terms (SketchEngine)
Достоинства Недостатки
• Поиск по лемме; • Для многих языков нет стоп-
• Бесплатно (с существенными списков;
ограничениями); • Не всегда корректно
• Высокое качество обрабатывает односложные
поликомпонетных терминов (в термины (специфика
расширенной версии в самом алгоритма);
SketchEngine); • Требуются некоторые познания
• Высокая скорость работы; в корпусной лингвистике;
• Экспорт в CSV и TBX. • Артефакты OCR влияют на
• Дал хорошие результаты по результат;
немецким и русским • По факту плохо видит
словосочетаниям морфологию;
OneClick Terms (SketchEngine)
Translated.Net Labs
Достоинства Недостатки
• Бесплатно; • Макс.размер файла – 30
• Результаты высокого тыс. знаков;
качества. • Поддерживаются только
английский, испанский и
итальянский языки;
• Нет настроек;
• Работает только в демо-
режиме;
• Выдает только 20 ТК
Translated.Net Labs
Что же из этого следует?
Проблемы
• Нет явного и абсолютного лидера;
• Полная автоматизация (пока) невозможна;
• Высокие требования к верстке;
• Выявляются наиболее «очевидные» термины;
• Непредсказуемые результаты при работе с
«низкоресурсными» языками;
• Цена;
• Интеграция решений в рабочий процесс;
Что можно сделать
• Грамотная сортировка и классификация
документов;
• Анализировать результаты автоматического
извлечения терминов (АИТ);
• Интенсификация использования
существующих ТБ;
• Извлечение параллельной терминологии из
ТМ;
• Готовить вспомогательные ресурсы;
Общие рекомендации
• АИТ требует систематичности;
• Терминологическая работа ведется непрерывно;
• Работу можно (и нужно) поручать подходящему
сотруднику;
• Выбор системы зависит от вашей специализации и
языковых пар;
• Добивайтесь обратной связи по терминологии от
всех участников процесса;
• На определенных проектах эффект
непредсказуем.
Вопросы?