Вы находитесь на странице: 1из 4

Технические науки

УДК 004.912
Кунгурцев А.Б.
к.т.н., профессор кафедры СПО
Государственный университет «Одесская политехника»
Кожушан М.Г.
студентка IV курса, бакалавр
Государственный университет «Одесская политехника»

ФИЛЬТРАЦИЯ ТОЛКОВАНИЙ ТЕРМИНОВ В ЭЛЕКТРОННОМ


СЛОВАРЕ

Возникновение электронных словарей привело к сокращению времени


на поиск информации по сравнению с бумажными словарями. Благодаря им
можно решить проблему объема словаря, обеспечить одновременный поиск
не только по названию словарной статьи, но и по всему обширному
содержанию словарей, а также удобство в использовании. Результатами
поиска является большое количество толкований, фильтрация которых
производится вручную, значительно увеличивая затрачиваемое время на
поиск.
Использование компьютерной лексикографии [1] поможет выбрать
релевантные толкования, соответствующие интересам пользователя,
уменьшив общее время работы пользователя.
Целью работы является сокращение времени на поиск приемлемого
толкования термина для пользователя. Для реализации указанной цели в
работе нужно решить следующие задачи: создать математическую модель
словарной статьи словаря, разработать алгоритм фильтрации толкований
терминов, провести апробацию результатов фильтрации.
Представим математическую модель словарной статьи.
Каждая словарная статья представляет собой кортеж:
, где tr - термин; Ti − толкование термина.
Толкование термина можно представить в виде множества дефиниций:

, где - дефиниция, один из вариантов

толкования; n – количество вариантов толкования;

, где - текст дефиниции; - предметная область (ПО)


использования.
Множество поисковых терминов,

представим в виде: .
В работе [2] рассмотрены методика
анализа ПО с помощью лексико-
статистического анализа
дефиниций и введенных терминов
для поиска. Небольшое количество
поисковых терминов затрудняет
подобный анализ и не фильтрует
результаты поиска. Для решения
данной проблемы предложен
алгоритм фильтрации (рис.1).
На вход поступает результат
поиска в словаре – словарная статья,
дефиниции которой будут проходить
фильтрацию. Далее шаги алгоритма
зависят от знания пользователем темы, к
которой принадлежит термин.
Если пользователь указал тему или набор терминов, которые ее
характеризируют, то множество расширяется на набор введённых слов.
Перед фильтрацией, необходимо обработать данные:

Рисунок 1 - Алгоритм  Графематический анализ –


фильтрации толкований извлечение лексических единиц.
 Морфологический анализ – выделение лексической единицы,
несущую основное семантическое значение (приведение к словарной форме).
 Расширение множества – дополнение синонимичными
словами терминов, у которых единственный вариант толкования.
Затем, в случае введения темы или множества терминов, переходим к
лексико-статическому анализу – отбрасывание дефиниций с наименьшим
количеством выделенных лексических единиц [2]. В другом случае
переходим к кластеризации дефиниций с помощью латентно-семантического
анализа [3].
В результате применения алгоритма пользователь получает
кластеризованный список дефиниций по тематикам или отфильтрованные по
исследуемой ПО дефиниции введённых терминов.
 Проведена апробация алгоритма на 25-ми терминах из 5-ти ПО и 2-х
словарях. Время поиска сократилось на 17%.
В результате применения предложенных методов время поиска было
сокращено, результаты поиска локализированы под поисковой запрос.

Список литературы
1. Марчук Ю.Н. Компьютерная лингвистика. АСТ, Восток-Запад,
2007.-141 C.
2. Kungurtsev Alexey B., Novikova N., Kozhushan M., Automation of
searching for terms in the explanatory dictionary. 2020.
DOI: 10.15276/opu.3.62.2020.11
3. Latent semantic analysis. URL:
https://en.wikipedia.org/wiki/Latent_semantic_analysis

Вам также может понравиться