Академический Документы
Профессиональный Документы
Культура Документы
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
КОГНИТИВНЫЕ ТЕХНОЛОГИИ
ИССЛЕДОВАНИЯ ИНФОРМАЦИОННЫХ МАССИВОВ
ДЛЯ ВОССТАНОВЛЕНИЯ НЕЯВНЫХ ЗНАНИЙ И ДАННЫХ
А.Р. Закиров1, Е.Л. Кирьянов1, Н.В. Буханов1, Б.В. Белозеров1,
А.Д. Кульневич2, Р.А. Чугунов2, С.С. Сливкин3
1ООО «Газпромнефть НТЦ», 2Компания «Эконофизика»,
3Томский политехнический университет
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Для решения подобных задач хорошо подходит сеть стоявший из поисковой системы (на основе фреймвор-
долгосрочной памяти LSTM (Long Short Term Memory Ne- ка ElasticSearch), а также модуля аналитики документов.
ural Network), имеющая механизм краткосрочной и дол- Извлеченные из документов сущности использовались
госрочной памяти. в ранжировании результатов поиска. В систему были за-
Все рекуррентные сети имеют форму цепи повторяю- гружены файлы, связанные с нефтегазовой отраслью:
щихся модулей нейронной сети. В стандартной рекур- научные статьи и различные документы. Найденные до-
рентной сети повторяющийся модуль будет иметь очень кументы могут быть проанализированы с помощью мо-
простую структуру, например, слой гиперболического дуля аналитики: после анализа в них подсвечиваются
тангенса. LSTM сети также имеют структуру цепи, но по- сущности различных классов, а также указывается ко-
вторяющийся модуль выглядит несколько сложнее. реферирующие сущности. Созданы также рекоменда-
LSTM имеет возможность удалять или добавлять ин- тельная система на основе иерархической кластериза-
формацию в состояние ячейки, используя механизм ции (для извлечения признаков из текста использова-
ворот. В своей композиции они состоят из сигмоидных лась модель Doc2Vec) и наивный алгоритм связывания
слоев, функции произведения и функций гиперболиче- именованных сущностей (с помощью регулярных выра-
ского тангенса. жений). Данная рекомендательная система помогает
Двунаправленные LSTM сети объединяют две незави- пользователю быстро находить релевантные докумен-
симые рекуррентные сети долгосрочной памяти. Вход- ты, схожие с исходным документом.
ная последовательность данных передается в одну из Модели распознавания сущностей активно исполь-
сетей в прямом порядке временных промежутков, в то зуются в системах поиска информации, при автоматиче-
время как во вторую сеть передаются данные в обрат- ском построении дерева онтологий и ранжировании по-
ном порядке временных промежутков. исковых запросов. Поиск и определение специфических
Из примера с текстами следует, что, для предсказания слов, например, сущностей нефтяной отрасли помогает
некоторого слова имеется возможность смотреть слова в расширении запроса. Используя запрос «Легкие фрак-
в прошлом и будущем для учета контекста, что повыша- ции нефти», система может проводить поиск по всем
ет точность распознавания именованных сущностей фракциям, определенным и размеченным в документе.
и цепочек упоминаний (кореференции). Географические запросы, «Отчеты Западная Сибирь»
могут включать более точный географический запрос
Реализация разрешения кореференции «Отчеты ХМАО» или еще более точный «Отчеты Ханты-
Алгоритм разрешения кореференции основан на ней- Мансийск». Таким образом, при поиске информации
ронной сети и схож с распознаванием именованных нельзя быть точно уверенным, на каком уровне «точно-
сущностей в работах [2, 3]. Некоторые изменения были сти» находится релевантная поисковому запросу инфор-
внесены для улучшения распознавания кореференции мация, и использовать сразу всю информацию или про-
для русского языка. Для тренировки сети был использо- водить проверку по уровням. Поисковая система бази-
ван набор данных «Диалог-2014». LSTM слои в сети были руется на автоматически построенном дереве онтоло-
заменены на GRU слои, которые показывали несколько гий, использующем разметку текста. При выявлении
лучшие результаты на валидации вследствие небольшо- важных сущностей из текста необходимо провести его
го числа параметров и небольшого размера набора дан- правильную разметку, определить сущности и построить
ных. Векторы признаков word2vec модели skip-gram, зависимости между всеми существенными элемента до-
морфологических признаков, а также частей речи были кументов. Использование такой системы в поисковом
использованы в качестве векторного пространства. Из- механизме расширяет область поиска, одновременно
влеченный тэг именованной сущности добавлялся как повышая релевантность поисковой выдачи.
дополнительный признак, помогающий сети найти упо-
минания среди других извлеченных сущностей. Оценка качества распознования сущностей
Класс
Алгоритмы распознавания именованных сущностей Precision Recall F1-score Support
и разрешения кореференции протестированы на дан- B-PER 0,85 0,86 0,86 711
ных, предварительно размеченных экспертами пред- I-PER 0,89 0,87 0,88 919
метной области (взято случайным образом 10 % дан- B-ORG 0,78 0,73 0,76 1056
ных). Метрики качества были рассчитаны для каждого I-ORG 0,81 0,80 0,81 1158
типа сущностей отдельно (включая начало и продолже- B-LOC 0,82 0,85 0,83 1257
ние сущности, в случае если она состоит не из одного I-LOC 0,75 0,78 0,76 529
слова). Классы сущностей были не сбалансированы, так B-PROD 0,71 0,61 0,66 1590
I-PROD 0,68 0,59 0,63 371
как множество слов не имеют тэга. В таблице представ-
B-DATE 0,91 0,92 0,91 749
лена оценка качества распознавания сущностей на ва-
I-DATE 0,97 0,98 0,97 955
лидационной выборке. Оценка качества разрешения
O 0,99 0,99 0,99 107519
кореференции проводилась методом MUC, метриками
Avg / total 0,97 0,97 0,97 116814
являлись также Precision, Recall и F1.
Модели распознавания сущностей и разрешения ко- Примечания. 1. Класс: PER – person, ORG – organization, LOC – lo-
cation, Date – date, PROD – product; B – начало сущности; I – про-
референции были объединены в единый пайплайн, должение сущности в тексте; O – не сущность. 2. Строка Avg /
также включавший оптическое распознавание симво- total отражает усредненные / суммарные значения. 3. Precision –
лов (OCR), предобработку текста и токенизацию (раз- точность определения сущности; Recall – полнота распознава-
ния сущности; F1-score – гармоническое среднее точности и пол-
биение текста на токены). Был создан веб-сервис, со- ноты; Support – общее число сущностей данного класса.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ