Вы находитесь на странице: 1из 3

  

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

КОГНИТИВНЫЕ ТЕХНОЛОГИИ
ИССЛЕДОВАНИЯ ИНФОРМАЦИОННЫХ МАССИВОВ
ДЛЯ ВОССТАНОВЛЕНИЯ НЕЯВНЫХ ЗНАНИЙ И ДАННЫХ
А.Р. Закиров1, Е.Л. Кирьянов1, Н.В. Буханов1, Б.В. Белозеров1,
А.Д. Кульневич2, Р.А. Чугунов2, С.С. Сливкин3
1ООО «Газпромнефть НТЦ», 2Компания «Эконофизика»,
3Томский политехнический университет

Адрес для связи: Bukhanov.nv@gazprom-neft.ru

Ключевые слова: искусственный интеллект, машинное обучение, распознавание именованных сущностей,


разрешение кореференции, поисковые системы

аспознавание именованных сущностей – про- Алгоритмы могут использоваться в системах автома-

Р цесс, в ходе которого алгоритм принимает на


вход часть текста (например, предложение или
абзац) и определяет словосочетания (людей, ло-
кации, организации), которые упомянуты в данном текс-
те. На практике сущности в текстах часто упоминаются
тической суммаризации текста – распознавание сущно-
стей позволяет определить важные участки текста, кото-
рые должны быть включены в суммаризованный текст.
Применение таких технологий в нефтегазовой отрас-
ли особенно важно по двум причинам.
по-разному, есть различные виды кореференции, в том •Новые технологии, упомянутые в научных статьях,
числе анафорическая и катафорическая. Алгоритмы после применения на практике могут экономить сотни
разрешения кореференции используются для определе- тысяч долларов ежедневно.
ния всех упоминаний одной и той же сущности и объеди- •Множество документов создаются в нефтегазовой
нения их в один кластер. отрасли ежедневно и требуют тщательного анализа.
Данные алгоритмы могут значительно упростить ана-
лиз документов и статей. Они могут использоваться для Реализация распознавания
создания эффективных поисковых движков. Если для именованных сущностей
каждого запроса поисковый движок ищет все слова Извлечение информации – группа задач, позволяю-
в миллионах документов, то процесс поиска может щих по тексту на естественном языке в свободном фор-
длиться очень долго. Однако если запустить алгоритм мате получить некоторое структурированное представ-
распознавания сущностей и выделить из каждого доку- ление информации, содержащейся в тексте [1].
мента список сущностей, то поиск значительно ускорит- Задача выделения именованных сущностей является
ся. Поисковый запрос будет сравниваться только с не- одной из ключевых, так как позволяет узнать, о каких
большим списком сущностей, описанных в каждом доку- именно объектах идет речь в тексте.
менте, а не с каждым отдельным словом, что позволит Традиционные сети, например, многослойный пер-
заметно сократить время поиска. септрон, не имеют механизма памяти, дающего возмож-
Базы данных могут хранить миллионы различных доку- ность решать задачу не с начала, а на основе некоторой
ментов и статей. Сотни статей могут иметь одну и ту же тему предварительной информации. Рекуррентные сети
с небольшими изменениями, что осложняет поиск инфор- обладают механизмом краткосрочной памяти, позво-
мации в таких базах. Фильтрация документов на основе ляющий сохранять предыдущую информацию в диапазо-
тегов, созданных с использованием распознавания имено- не небольшого окна. В примере с текстом для предска-
ванных сущностей и разрешения кореференции, помогает зания следующего слова с помощью рекуррентных сетей
быстрее найти желаемую статью или документ. возможно учесть контекст одного предложения.
Данные алгоритмы можно применять для улучшения Например: Я родился во Франции и мой родной язык
работы рекомендательных систем путем рекомендации французский. В рамках предложения можно получить
пользователям документов с упоминаниями похожих контекст местоположения и предсказать язык.
сущностей; для создания объектов или свойств объ- Другой пример: Я родился во Франции в 1905 г. Мои
ектов в онтологии некоторой области (в том числе неф- родители были из рабочей семьи. Мой родной язык –
тегазовой), классификации контента для СМИ на основе французский. В рамках контекста одного предложения
распознанных сущностей. Распознавание сущностей трудно догадаться, что речь идет о Франции, таким об-
может являться частью эффективных систем взаимо- разом, здесь необходимо хранить данные контекста
действия с пользователями. о трех предложениях.

76 12’2018 НЕФТЯНОЕ ХОЗЯЙСТВО


  

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Для решения подобных задач хорошо подходит сеть стоявший из поисковой системы (на основе фреймвор-
долгосрочной памяти LSTM (Long Short Term Memory Ne- ка ElasticSearch), а также модуля аналитики документов.
ural Network), имеющая механизм краткосрочной и дол- Извлеченные из документов сущности использовались
госрочной памяти. в ранжировании результатов поиска. В систему были за-
Все рекуррентные сети имеют форму цепи повторяю- гружены файлы, связанные с нефтегазовой отраслью:
щихся модулей нейронной сети. В стандартной рекур- научные статьи и различные документы. Найденные до-
рентной сети повторяющийся модуль будет иметь очень кументы могут быть проанализированы с помощью мо-
простую структуру, например, слой гиперболического дуля аналитики: после анализа в них подсвечиваются
тангенса. LSTM сети также имеют структуру цепи, но по- сущности различных классов, а также указывается ко-
вторяющийся модуль выглядит несколько сложнее. реферирующие сущности. Созданы также рекоменда-
LSTM имеет возможность удалять или добавлять ин- тельная система на основе иерархической кластериза-
формацию в состояние ячейки, используя механизм ции (для извлечения признаков из текста использова-
ворот. В своей композиции они состоят из сигмоидных лась модель Doc2Vec) и наивный алгоритм связывания
слоев, функции произведения и функций гиперболиче- именованных сущностей (с помощью регулярных выра-
ского тангенса. жений). Данная рекомендательная система помогает
Двунаправленные LSTM сети объединяют две незави- пользователю быстро находить релевантные докумен-
симые рекуррентные сети долгосрочной памяти. Вход- ты, схожие с исходным документом.
ная последовательность данных передается в одну из Модели распознавания сущностей активно исполь-
сетей в прямом порядке временных промежутков, в то зуются в системах поиска информации, при автоматиче-
время как во вторую сеть передаются данные в обрат- ском построении дерева онтологий и ранжировании по-
ном порядке временных промежутков. исковых запросов. Поиск и определение специфических
Из примера с текстами следует, что, для предсказания слов, например, сущностей нефтяной отрасли помогает
некоторого слова имеется возможность смотреть слова в расширении запроса. Используя запрос «Легкие фрак-
в прошлом и будущем для учета контекста, что повыша- ции нефти», система может проводить поиск по всем
ет точность распознавания именованных сущностей фракциям, определенным и размеченным в документе.
и цепочек упоминаний (кореференции). Географические запросы, «Отчеты Западная Сибирь»
могут включать более точный географический запрос
Реализация разрешения кореференции «Отчеты ХМАО» или еще более точный «Отчеты Ханты-
Алгоритм разрешения кореференции основан на ней- Мансийск». Таким образом, при поиске информации
ронной сети и схож с распознаванием именованных нельзя быть точно уверенным, на каком уровне «точно-
сущностей в работах [2, 3]. Некоторые изменения были сти» находится релевантная поисковому запросу инфор-
внесены для улучшения распознавания кореференции мация, и использовать сразу всю информацию или про-
для русского языка. Для тренировки сети был использо- водить проверку по уровням. Поисковая система бази-
ван набор данных «Диалог-2014». LSTM слои в сети были руется на автоматически построенном дереве онтоло-
заменены на GRU слои, которые показывали несколько гий, использующем разметку текста. При выявлении
лучшие результаты на валидации вследствие небольшо- важных сущностей из текста необходимо провести его
го числа параметров и небольшого размера набора дан- правильную разметку, определить сущности и построить
ных. Векторы признаков word2vec модели skip-gram, зависимости между всеми существенными элемента до-
морфологических признаков, а также частей речи были кументов. Использование такой системы в поисковом
использованы в качестве векторного пространства. Из- механизме расширяет область поиска, одновременно
влеченный тэг именованной сущности добавлялся как повышая релевантность поисковой выдачи.
дополнительный признак, помогающий сети найти упо-
минания среди других извлеченных сущностей. Оценка качества распознования сущностей
Класс
Алгоритмы распознавания именованных сущностей Precision Recall F1-score Support
и разрешения кореференции протестированы на дан- B-PER 0,85 0,86 0,86 711
ных, предварительно размеченных экспертами пред- I-PER 0,89 0,87 0,88 919
метной области (взято случайным образом 10 % дан- B-ORG 0,78 0,73 0,76 1056
ных). Метрики качества были рассчитаны для каждого I-ORG 0,81 0,80 0,81 1158
типа сущностей отдельно (включая начало и продолже- B-LOC 0,82 0,85 0,83 1257

ние сущности, в случае если она состоит не из одного I-LOC 0,75 0,78 0,76 529

слова). Классы сущностей были не сбалансированы, так B-PROD 0,71 0,61 0,66 1590
I-PROD 0,68 0,59 0,63 371
как множество слов не имеют тэга. В таблице представ-
B-DATE 0,91 0,92 0,91 749
лена оценка качества распознавания сущностей на ва-
I-DATE 0,97 0,98 0,97 955
лидационной выборке. Оценка качества разрешения
O 0,99 0,99 0,99 107519
кореференции проводилась методом MUC, метриками
Avg / total 0,97 0,97 0,97 116814
являлись также Precision, Recall и F1.
Модели распознавания сущностей и разрешения ко- Примечания. 1. Класс: PER – person, ORG – organization, LOC – lo-
cation, Date – date, PROD – product; B – начало сущности; I – про-
референции были объединены в единый пайплайн, должение сущности в тексте; O – не сущность. 2. Строка Avg /
также включавший оптическое распознавание симво- total отражает усредненные / суммарные значения. 3. Precision –
лов (OCR), предобработку текста и токенизацию (раз- точность определения сущности; Recall – полнота распознава-
ния сущности; F1-score – гармоническое среднее точности и пол-
биение текста на токены). Был создан веб-сервис, со- ноты; Support – общее число сущностей данного класса.

НЕФТЯНОЕ ХОЗЯЙСТВО 12’2018 77


  

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Рис. 1. Поля ввода параметров системы автоматического поиска аналогов

документах и открытых источниках позволяет обрабаты-


вать большие объемы информации за очень короткое
время. Всего с помощью системы в настоящее время из-
учено более 100 открытых баз данных, много статей
и проектно-технических документов, которые позволили
сформировать базу данных по более чем 1000 место-
рождений по всему миру (рис. 2).
Как указано выше, поиск аналогов система выпол-
няет по значениям известных пользователю атрибутов.
Система возвращает пользователю ранжированный по
степени аналогии список аналогов и статистические на-
боры данных по найденным месторождениям-аналогам.
Рис. 2. Пример результата поиска аналогов на карте мира Таким образом, реализована система для эффектив-
ного поиска информации и анализа. Система включает
Автоматическое выделение сущностей в тексте нашло модули распознавания сущностей и разрешения коре-
практическое применение в системе определения анало- ференции для улучшения анализа документов и повы-
гов месторождений. Данная система предоставляет воз- шения эффективности поиска. Создана рекомендатель-
можность автоматического поиска аналогов месторожде- ная система на основе иерархической кластеризации и
ний на основе известных пользователю атрибутов (рис. 1). связывания (линкинга) сущностей.
Ключевым элементом этой системы является база
данных месторождений, в которой каждое месторожде-
ние характеризуется большим количеством как число-
Список литературы/References
вых, так и текстовых атрибутов. Атрибуты разделены на
1. Maithilee L., Patawar M., Potey A., Approaches to Named Entity Recog-
несколько крупных категорий: общие данные, парамет- nition. A Survey, International Journal of Innovative Research in Computer
ры ловушки, коллектора, данные о разработке и др. and Communication Engineering, 2015, V 3, no. 12, pp. 12201–12208.
2. Lafferty J., McCallum A., Pereira F.C.N., Conditional random fields: Prob-
Число атрибутов в базе подобрано таким образом, что abilistic models for segmenting and labeling sequence data, Proceeding
позволяет достаточно подробно описать месторождение ICML '01 / Proceedings of the Eighteenth International Conference on Ma-
chine Learning, 2001, pp. 282–289.
с позиций геологии, петрофизики и разработки. В систе- 3. McCallum W.Li, Early results for Named Entity Recognition with condi-
ме реализованы двуязычный интерфейс и сквозная си- tional random fields, feature induction and web-enhanced lexicons,
CONLL '03/Proceedings of the seventh conference on Natural language
стема кодирования атрибутов. learning at HLT-NAACL 2003, 2003, V. 4.
Источником информации для базы данных аналогов 4. Sha F., Pereira F., Shallow parsing with conditional random fields, Pro-
ceedings of HLT-NAACL 2003, pp. 213–220.
служат как проектно-техническая документация компа- 5. McDonald R.T., Pereira F.C.N., Online learning of approximate depen-
нии «Газпром нефть», так и открытые источники в виде dency parsing algorithms, Proceedings EACL 2006, 11st Conference of the
European Chapter of the Association for Computational Linguistics, 3–7
неструктурированных баз данных, а также статей и пуб- April 2006.
ликаций на русском и английском языках. Очевидно, что 6. Lample G., Ballesteros M., Subramanian S. et al., Neural architectures for
Named Entity Recognition, Proceedings of the 2016 Conference of the
на поиск необходимой информации и заполнение базы North American Chapter of the Association for Computational Linguistics,
данных атрибутов один специалист и даже несколько Human Language Technologies, 2016, pp. 260–270.
7. Lee K., He L., Lewis M., Zettlemoyer L., End-to-end Neural Coreference
специалистов должны затратить чрезвычайно много Resolution, Proceedings of the 2017 Conference on Empirical Methods in
времени. Поэтому процесс сбора и систематизации ин- Natural Language Processing, 2017, pp. 188–197.
8. Anh L.T., Arkhipov M.Y., Burtsev M.S., Application of a Hybrid Bi-LSTM-CRF
формации лучше автоматизировать. model to task of Russian Named Entity Recognition, URL:
При таком сценарии применение автоматического https://arxiv.org/pdf/1709.09686.pdf

распознавания именованных сущностей в проектных

78 12’2018 НЕФТЯНОЕ ХОЗЯЙСТВО