Вы находитесь на странице: 1из 24

КОНЦЕПТ-ПРОЕКТ

формирования семантической онтологии

и базы знаний нефтегазовой отрасли

версия от 9 февраля 2020 г.

Дмитриев Д. В., к.ф.н.

ЦЕЛИ И ЗАДАЧИ ПРОЕКТА


Формируемые в результате проведения НИР концептуальная онтология и
база знаний нефтегазовой отрасли должны представлять собой результат
автоматизированного мониторинга как можно большего числа актуальных
источников информации с привлечением предметных экспертов. Исходные
данные для формирования и расширения семантической онтологии
представлены на английском, русском, китайском и других языках.

Задачи, решаемые при помощи системы:

1. поиск актуальных и доверенных источников сведений в области


современной нефтегазовой промышленности;

2. концептуально-лингвистическая обработка контента (авторубрикация,


формирование понятийных тезаурусов, профильных доменных
онтологий, терминологических справочников и т. д.);

3. комплексирование информации, формирование структурированного


хранения данных;

4. обеспечение фактологического поиска и фасетной навигации по базе


знаний;

5. формирование тематических выборок, экспорт данных.


Целевая аудитория информационного ресурса:

1. эксперты в области нефтегазовой промышленности;


2. управляющий персонал и сотрудники компаний;
3. ученые, инженеры, специалисты смежных областей;
4. экономисты, инвесторы, предприниматели;
5. студенты, представители образовательных сообществ;
6. другие заинтересованные лица.
Для первичного отбора источников данных применяется метод экспертного
анализа, результатом которого является перечень авторитетных источников
информации, получающих высший рейтинг достоверности. Типы источников
информации:

1. материалы официальных сайтов;


2. обзоры, рецензии, аналитика в СМИ и специальных изданиях;
3. электронные публикации (документы, научные статьи);
4. технические спецификации, научно-техническая документация;
5. форумные дискуссии.
Общий метод отбора релевантного контента соответствует принципу
«вертикального» поиска, при котором в поле зрения агентов сбора данных
находятся лишь тематически профилированные ресурсы, соответствующие
определенным разделам формальной концептуальной онтологии. В
противоположность методам «горизонтального» поиска (широко применяемого
в роботах-краулерах традиционных поисковых систем) данный метод не
применяет широкополосное сканирование пространств IP-адресов.

Автоматические средства анализа контента используют данный перечень


для скачивания цифровых данных по каналам сети Интернет. Данные
извлекаются специальными программными агентами, входящими в подсистему
сбора данных. Каждый агент ориентирован на поиск информации
определенного типа. После скачивания первичных данных и предварительной
обработки все цифровые материалы обрабатываются подсистемой
конвертации и интерпретации данных, осуществляющей лингвистическую
рубрикацию контента с выделением семантической структуры исходного
документа.

Семантический анализ документа позволяет отсеять информационный


шум и не обследовать ссылки на те объекты, которые не входят в зону
интересов данного агента.

Эксперты имеют возможность влиять на работу программных агентов:


полученные результаты автоматического сбора и рубрикации контента,
соотнесенные автоматным агентом со стандартными классификаторами и
рубрикаторами, могут быть отредактированы для расстановки приоритетов
дальнейшего расширения зоны поиска контента агентами. Эксперт может как
отключать определенные маршруты обследования источников, так и добавлять
новые, полученные другим путем.

Обучение системы сбора данных экспертами осуществляется в виде


редактирования перечня ключевых понятий каждой тематической рубрики и их
связей друг с другом. Эксперт выставляет в том числе собственную оценку
соответствия информационного ресурса (документа, сайта, раздела каталога и
т. п.) той или иной теме в диапазоне от 0 до 1.

Итерации работы агентов продолжаются до тех пор, пока не будет


достигнут определенный уровень насыщенности комплекса собранных данных,
когда новые обследования приводят к уже выявленным ранее фактам. Каждой
итерации экспертами может быть дана качественная оценка. Общее количество
итераций определяется итоговой полнотой и качеством собранных источников
информации.

Система сбора данных должна представлять собой активный сетевой


сервис для извлечения цифровых объектов из внешних систем как посредством
специфицированных API, так и посредством имитации действий пользователя
(функция так называемого безинтерфейсного браузера, headless browser).
Включает в себя разнообразные утилиты по автоматическому поиску и
скачиванию информации, мониторингу заданных каталогов, взаимодействия с
открытыми источниками данных и т. п. В качестве входных данных система
должна обрабатывать следующие типы цифрового контента:

1. текстовые документы;
2. текстовые сообщения, набираемые в режиме онлайн через интерфейс ввода;
3. документы в XML-форматах (ODF, DOCX);
4. бинарные форматы распространенных систем (DOC, PDF, XLS);
5. графические образы (JPEG, PNG, TIFF и т.д.);
6. веб-данные (HTML, XML, JSON);
7. табличные данные (CSV, Excel);
8. данные реляционных СУБД.

ТЕОРЕТИЧЕСКАЯ БАЗА ПРОЕКТА И


ИСПОЛЬЗУЕМЫЕ ТЕХНОЛОГИИ
В качестве теоретической базы проекта предлагается использовать
методологию построения формальной семантической онтологии,
разработанную В. Ш. Рубашкиным (см. монографию автора «Онтологическая
семантика»). Методика автоматизированного пополнения онтологий опирается
на использование анализа текстов предметной области с помощью
лингвопроцессора, способного обнаружить ранее неизвестные термины,
терминологические сочетания, сокращения и неопределяемую текущей
онтологией семантическую сочетаемость.

Вся автоматически собранные сведения о сочетаемости, возможных


толкованиях терминов, энциклопедическом объеме понятий и других признаках
должны быть верифицированы экспертами и инженерами знаний для того,
чтобы перейти из разряда авторски-субъективных источников сведений в разряд
доверенного знания. Все ложные срабатывания и прочие недостатки
автоматических лингвистических механизмов отсеиваются на данном этапе
экспертной оценки.

Загрузка данных из существующих словарных источников и формальных


онтологий также должна опираться на лингво-семантический анализ текстовых
описаний источников (глоссы, толкования, комментарии).

Операции импорта и экспорта данных в создаваемой семантической онтологии


должны включать поддержку формализмов RDF/OWL и UML. В качестве
языка-посредника передачи данных внутри компонентов-микросервисов
системы может использоваться GSL (General Semantics Language) — язык
представления знаний, разработанный в рамках проекта открытой графовой
базы данных Knowdy.

СИСТЕМА АВТОРУБРИЦИРОВАНИЯ ТЕКСТОВ

Процесс автоматического рубрицирования документов и потоков текстовых


сообщений позволяет максимально оперативно вводить их в режим активной
поисково-аналитической работы экспертов и инженеров знаний. Для
повышения качества информационного обеспечения аналитиков требуется
создание интеллектуальной информационной системы промежуточного уровня
для классификации информации из различных источников, ее лингвистической
обработки с учетом ряда критериев и последующего единообразного
представления конечным пользователям. Система должна функционировать в
качестве активного экспертного инструмента для поточной обработки
цифровых ресурсов, обеспечивая максимальную пропускную способность.

Интеллектуальная система авторубрицирования базируется на


авторитетных файлах предметного рубрикатора, создаваемого специалистами в
соответствующей предметной области. Также должны быть предоставлены
возможности по расширению предметных описаний для углубленного профиля
описания семантических сущностей. Система поиска по предметным рубрикам
должна быть настроена для работы в качестве сетевой службы с возможностями
обработки запросов на естественном языке, чтобы максимально упростить
взаимодействие пользователей с интересующими их ресурсами.

Система предполагает активное использование лингвистических средств


анализа текстового содержания, включая автопостроение семантических
(концептуальных) графов. Программные средства должны функционировать в
качестве серверного компонента для обеспечения потоковой обработки
электронных документов с горизонтальным масштабированием, в результате
которой создаются распределенные семантические индексы.

Проект по созданию интеллектуальной системы авторубрицирования


предполагает решение ряда задач:

· внедрение серверного программного комплекса для формирования


распределенных семантических индексов с обеспечением надежности,
производительности, отказоустойчивости и других факторов;

· обеспечение интерфейсов редактирования базы авторитетных


предметных рубрик и семантической онтологии системы
авторубрикации;

· обеспечение автопостроения сводных и тематически ориентированных


поисковых индексов к полнотекстовым электронным ресурсам,
включая их лингвистическую обработку;

· создание программных средств семантической классификации и


рубрицирования материалов;

· создание интуитивно понятного интерфейса взаимодействия


пользователей с интеллектуальной поисковой системой с применением
уточняющих запросов и возможностей фасетного поиска.

Основные функциональные компоненты поисково-лингвистического ядра,


обеспечивающие конкурентные преимущества системы по сравнению с
традиционными ИПС:

1. Авторубрицирование контента по смыслу


Классификатор системы позволяет группировать входящие документы по
темам, контролируемым различными рубрикаторами. Пользователи получают
возможность настраивать под свои задачи существующие рубрики,
формировать собственные тематические задания по отслеживанию
содержательно близких документов. Данный модуль также позволяет устранять
документарные дублеты, находить явные и скрытые цитаты и др.
2. Определение логической структуры документа
Система позволяет автоматически извлекать метаданные, представленные в
теле документа и отсутствующие в исходной базе, публикующей данный
документ. Текст документа разбивается на содержательные зоны (главы, статьи,
параграфы) для обеспечения точности поиска, учитывающего нахождение
содержимого в конкретных частях документа. Данная функциональность
позволяет автоматически формировать гипертекстовые ссылки как внутри
документа, так и на уровне внешних единиц хранения. Документ получает
строгую типизацию в системе (напр., федеральный закон, приказ Президента,
постановление правительства, судебное решение и др.) с возможностью
сортировки поисковой выдачи по типу.

3. Фасетная навигация
Система обеспечивает фасетную поисковую навигацию с учетом сортировки
множества документов по определенным признакам. Выдача результатов
происходит не в линейной форме (список), а в виде структурированного дерева,
представляющего собой меню специализированных веток продолжения поиска.

4. Генерализация языковых пропозиций


Каждая языковая пропозиция, выявленная в тексте документа, образует ряд
импликаций более высокого уровня абстракции для обеспечения группирования
близкозначных пропозиций, образующих родо-видовые отношения (ФГУП -
ПРЕДПРИЯТИЕ - ОРГАНИЗАЦИЯ).

5. Фактоизвлечение, установление отношений между


выявленными в тексте объектами
Важной особенностью лингвио-семантического анализа документа является
точное определение направленности отношений между объектами. Например, в
нижеприведенном тексте необходимо выявить не только ключевые понятия, но
и раскрыть внутренние действия для отглагольных имен (ОЧИСТКА →
ОЧИСТИТЬ/ОЧИЩАТЬ), разобрать придаточные предложения, чтобы точно
понять, что именно и куда поступает:
«Система предназначается для очистки воздуха, поступающего в
цилиндры»
[Clause
[NP_СИСТЕМА:ТЕХНИЧЕСКИЙ КОМПЛЕКС]
(Pred/VP
[V{tn:pres,vo:pass}_ПРЕДНАЗНАЧАТЬ:ЦЕЛЬ ИСПОЛЬЗОВАНИЯ]
(ProcSpec/PP
[pr_ДЛЯ:ФУНКЦИЯ]
(gen/NP
[NP{vn:ОЧИСТИТЬ}_ОЧИСТКА:УДАЛЕНИЕ ЗАГРЯЗНЕНИЙ]
(REL/NP
[NP_ВОЗДУХ:ГАЗОВАЯ СМЕСЬ]
(A/VA
[VA{tn:pres}_ПОСТУПАТЬ:ФИЗИЧЕСКОЕ ПЕРЕМЕЩЕНИЕ]
(ProcSpec/PP
[pr_В:МЕСТО НАЗНАЧЕНИЯ]
(acc/NP{n:pl}_ЦИЛИНДР:КОНСТРУКЦИЯ)))))))]
Сценарии решения ряда задач экспертами-
аналитиками с использованием функционала
системы

В ежедневные обязанности экспертов входит ряд задач, автоматизация которых


должна освободить от продолжительной рутинной работы и позволить
сконцентрировать основные усилия высококвалифицированных специалистов
на ключевых вопросах.

Основные автоматизируемые задачи экспертов:

1. Задача поиска информационных источников по заданной теме

Эксперту необходимо иметь возможность как можно точнее сформулировать


тему и получить ссылки на документы по интересующей теме. При наличии
документа в информационной системе – получить возможность просмотра
документа.

2. Задача поиска точек зрения (позиций) по теме

Эксперту необходимо не столько получить список информационных


источников по теме, сколько определить варианты позиций, которые
принимались ранее по данной теме ранее (могут присутствовать в найденных
источниках). Для каждого варианта позиции должен быть определен перечень
информационных источников и предоставлена возможность его просмотра.

3. Задача отображения релевантных фактов

Эксперту необходимо получить упорядоченный перечень фактов по заданному


шаблону.

4. Задача навигации во внутренних информационных ресурсах


Эксперту необходимо найти документ или факт во внутренних ресурсах, по
заданной теме. Рассматривается ситуация, когда эксперту неизвестны атрибуты
искомого документа или(и) место его нахождения во внутренних ресурсах.

5. Задача уточнения объема понятия, термина

В документах нормативного характера устанавливаются разные определения


терминов — эксперту необходимо учитывать это в своей работе.

6. Задача обеспечения точности ссылочного аппарата экспертизы

Эксперту необходимо иметь возможность ссылаться на используемые


информационные источники. При этом ему необходимо формировать точные
ссылки, вплоть до номера абзаца. Использование гиперссылок на цитируемый
фрагмент является второстепенным, но полезно для работы с формируемым
документом (например, при его проверке другими специалистами).

Сценарии решения задач:

1. Сценарий уточнения поискового запроса с использованием фасетов.


Пользователь вводит поисковый запрос, если в результате поиска найдено
достаточно много документов, активизируются элементы управления фасетного
поиска, при одновременной выдаче первой порции результатов поиска. Фасеты
формируются как по заранее определенным, часто используемым признакам,
так и автоматически, из метаданных документа, а также на основе результатов
выполненного ранее авторубрицирования для найденных документов. С
использованием фасетов, пользователь может фильтровать или сортировать
результаты поиска. Когда действия пользователя приводят к получению нового
списка результатов поиска, уточняется и перечень доступных фасетов. Таким
образом, пользователю доступны для выбора значения (альтернативы) сразу из
нескольких фасетов. Автоматическое выделение новых фасетов производится
на основании содержания документов оставшихся в списке результатов поиска.
Процесс выделения новых фасетов прекращается, когда все результаты поиска
помещаются на одной странице, однако пользователь может в любое время
просто перейти к просмотру следующей страницы (номер страницы с
результатами поиска также может рассматриваться как фасет). Логики
использования технологии фасетного поиска представлена на рисунке.

Рисунок 1. Фасетная навигация по результатам поиска

2. Сценарий формирования и применения дополнительных пользовательских


фасетов.

2.1. Назначение и применение пользовательских фасетов. Для пользователей,


часто использующих документы, которые могут быть объединены по
некоторым специфичным признакам, полезно заблаговременно описать
дополнительную категорию классификации документов. Созданная
классификация будет сохранена и использована в дополнение к
существующему общему рубрикатору документов, при выполнении
авторубрицирования документов. Таким образом, категории, использованные в
описании новой классификации, будут доступны в качестве значения фасетов,
позволяющих ускорить доступ к документам, наиболее специфичным для часто
решаемых пользователем задач.

2.2. Формирование новой классификации. Для описания новых категорий может


быть задействован имеющийся рубрикатор, или технология поиска похожих
документов. Для уточнения результатов, обе технологии могут дополнять друг
друга при описании пользовательских признаков. Для формирования новых
категорий, пользователь должен назначить им имена и сохpанить.
Сформированные категории пользователь должен объединить в новую
классификацию, как альтернативы друг другу.

2.2.1. Создание новых категорий с использованием рубрикатора. При


использовании рубрикатора, должна быть выбрана одна из его рубрик, а из
массива документов соответствующих ей будет автоматически сформирован
перечень фасетов. Управляя набором фасетов, пользователь может описать
новые категории.

2.2.2. Создание новых категорий с использованием технологии поиска похожих


документов. Пользователь должен выбрать сразу несколько документов и
запустить процедуру определения их похожести. В результате будет
сформирован обобщенный тематический профиль, который при необходимости
допускается ограниченно корректировать (удалять ряд записей о темах).
Обобщенный тематический профиль может быть использован как описание
новой категории.

2.3. Технология поиска похожих документов. Данная технология может


использоваться как альтернатива сценарию заблаговременного создания новой
классификации, и позволяет добиваться сравнимых результатов. Технология
поиска похожих документов основана на использовании тематических
рейтингов каждого документа, получаемых в результате авторубрикации
документов. Тематические рейтинги документа определяют его тематический
профиль. Похожесть профилей определяется близостью соответствующих им
многомерных векторов. Для использования технологии, пользователь должен
выбрать один или несколько документов.

3. Сценарий поиска документов во внутренних информационных ресурсах.


Пользователь формулирует поисковый запрос, и после выдачи результатов
поиска выбирает значение фасета, определяющего источник получения
документа (файловый сервер, почтовая переписка, и т.п.). При последующем
уточнении результатов поиска, для навигации по внутренним ресурсам,
необходимо в большей степени ориентироваться на фасеты, получаемые из
метаданных документов.

4. Сценарий поиска вариантов в выборке документов. Предварительно должна


быть использована технология формирования новой классификации, для
определения наиболее типичных признаков ответа (например, типичные
признаки правовых позиций, занимаемых судебными органами). Пользователь
формулирует поисковый запрос и добивается его окончательного уточнения,
для уменьшения списка найденных документов. Выбирает заранее
сформированную классификацию, используемую в качестве фасета. Просмотр
вариантов значений этого фасета, и количества документов соответствующих
каждому из них, даёт представление об имеющихся вариантах, и их количестве
в найденных документах.

5. Сценарии использования рубрикатора документов. Рубрикатор имеет


древовидную иерархическую структуру, для каждой из рубрик определены
документы, которые ей соответствуют. Если на странице поиска не заполнялось
поле для поиска, навигация по рубрикатору приведет к отображению всех
документов соответствующих выбранной рубрике. Если выбрать одну из
рубрик, уже после выполнения поискового запроса, производится фильтрация
найденных документов, соответствующих рубрике. Выбор другой рубрики,
отменяет выполнение предыдущей фильтрации результатов поиска.

6. Сценарий определения объема понятия. Пользователь формулирует


поисковый запрос, и одновременно с выдачей результатов поиска, отдельно
получает варианты терминологических описаний. Если в найденных
документах присутствуют разделы с описанием терминов и определений,
выполняется дополнительный поиск по такому разделу. Таким образом,
пользователь получает возможность просмотреть все терминологические
описания, как описывающие поисковую фразу, так и использующие поисковую
фразу в описании других понятий. Пользователю будут доступны
терминологические описания, встречающиеся только в отобранных в результате
поиска документах.

7. Сценарий формирования ссылок на нормативные документы. При


осуществлении поиска, в списке найденных документов отображается название
найденного документов, и цитата в большей степени, соответствующая
поисковому запросу. Кроме того, для каждого документа доступен просмотр
всех цитат соответствующих запросу, в окружении некоторого контекста. В
режиме просмотра всех цитат, при выделении части текста, может быть
сформирована подробная юридическая ссылка и гиперссылка на цитируемый
фрагмент. Формирование подробной ссылки основывается на результатах
определения логической структуры документа.

Пример подробной юридической ссылки: «абзац 3 подпункта в) пункта 5.2


раздела 4 части первой Положения <название> утвержденного ФЗ <название>
от <дата>, с изменениями от <дата>». Такая ссылка будет оформлена в виде
гиперссылки на цитируемый абзац.
Фактологическая база

Фактологическая база состоит из двух взаимосвязанных блоков:


динамическая концептуальная онтология и хранилище фактов (см. рисунок 2).
Динамическая концептуальная онтология описывает состав и структуру
абстрактных формализованных понятий (концептов), используемых в
конкретной предметной области. Онтология развивается за счет диалогового
взаимодействия со специалистами-предметниками (без дополнительного
программирования) и поддерживает процессы хронологического изменения
сущностей, т. е. запоминает в какой момент времени были введены новые
понятия, изменены атрибуты, описаны сценарии и т.п.
Хранилище фактов отражает хронологически организованную
последовательность ввода новых фактов относительно объектов анализа и
позволяет прослеживать историю изменений в рамках постоянно меняющегося
состава атрибутов исходного объекта, его модификаций в другие объекты, его
удаления и др.
Рисунок 2 – Компоненты фактологической базы

Учет фактов в системе

Фактологическое хранилище (см. рисунок 2) позволяет сохранять


конкретные утверждения (факты), соответствующие определенному состоянию
онтологии. Утверждения включают в себя создание новых объектов, удаление
старых, изменение значений атрибутов, синхронизацию с текущим состоянием
онтологии и т.п.

Информационно-аналитические процессы
Фактологическая база обеспечивает поддержку разнообразных
информационно-аналитических процессов, включая составление
периодической или окказиональной отчетности, выгрузку данных для витрин
данных, поддержку интероперабельности с внешними аналитическими
пакетами за счет предоставления стандартных API.

Система концептуальной интерпретации данных

Система интерпретирует первичные данные во внутренний


концептуальный формат для последующего их упорядочения и построения
разнообразных инвертированных индексов для быстрого доступа к
произвольным объектам и их анализа. Для извлечения фактов необходимо
проанализировать контент и привязать все пропозиции исходного текста к
однозначным сущностям динамической концептуальной онтологии.
Внутреннее представление выделенных сущностей опирается на
динамическую концептуальную онтологию. Хранение концептуальных графов
и индексов к ним реализуется с помощью иерархического множества записей.
Все компоненты данной подсистемы реализованы под открытыми
лицензиями, работают в различных средах (ОС Linux /Mac / Windows ) для
обеспечения наибольшей производительности и отказоустойчивости системы.

Использование концептуальных графов


для семантического анализа текстов

Традиционным методом автоматического рубрицирования текстов на


сегодняшний день стал статистический метод кластерного анализа.
Часто можно услышать следующий довод в пользу статистического
кластерного анализа: статистические средства представляют объективную
картину анализируемых данных, не зависящую от персональных интерпретаций
и субъективных гипотез. Однако, не только для лингвистов должно быть
совершенно очевидно то, что коды естественного языка, используемые для
представления содержания текста, являются многозначными. Даже те из них,
которые представлены в традиционных словарях как слова, имеющие лишь
одно значение, в тексте могут принимать новые, контекстуальные значения,
возникающие в силу использования в дискурсе традиционных моделей
человеческого концептуального мышления, прежде всего, по причине
использования метонимии, метафоры и других средств. Соответственно, при
группировании текстов по принципу близости их содержания следует
ориентироваться не на языковые коды, а на их денотаты, на их актуальные
значения в данном контексте.
Статистический метод не принимает во внимание вычисление
контекстуальной семантики языковых сообщений, а опирается лишь на
внешние коды. Относительная успешность этого метода состоит в том, что не
все языковые коды используют контекстуальную многозначность. Например,
термины и терминологические сочетания как правило представляют собой
уникальные имена, поэтому для решения многих задач авторубрикации этого
количества кодов оказывается достаточно.
Вычисление контекстуальной семантики кодов представляет собой
альтернативный метод, результатом применения которого является
концептуальный граф текстового сообщения. Такой концептуальный граф
представляет собой множество экземпляров концептов, связанных между собой
конкретными отношениями. Каждый вычисленный граф соответствует тому
семантическому эталону, который используется ЛП на стадии анализа
документа. Этим эталоном является интеллектуальная карта, на которой
представлены все уникальные классы концептов.
Приведем пример разбора текста:
текст: создание легких маленьких летательных аппаратов
синтаксическое дерево:
[NP
[NP_СОЗДАНИЕ]
(REL/NP
[NP
[NP
[NP{n:pl}_АППАРАТ]
(A/a_ЛЕТАТЕЛЬН%)]
(A/a_МАЛЕНЬК%)]
(A/a_ЛЕГК%))]
набор пропозиций:
[=[A1](АППАРАТ:ТЕХНИЧЕСКОЕ УСТРОЙСТВО)]
[ФУНКЦИЯ [A1](АВИАЦИЯ)]
[ОТНОСИТЕЛЬНЫЙ РАЗМЕР [A1] (МАЛЕНЬКИЙ)]
[ОТНОСИТЕЛЬНЫЙ ВЕС [A1] (ЛЕГКИЙ)]
и т.д.
Обратим внимание на контекстуальное разрешение многозначности
лексических способов выражения понятий. Так, языковая форма «легкие»
может в зависимости от контекста трактоваться как относительная
характеристика веса или как орган человеческого тела, см:

«Система Cyberknife разработана специально для неинвазивных операций по


удалению опухолей во всем теле человека, включая головной мозг, легкие,
печень и др.»

Слово «аппарат» также будет иметь различные интерпретации в


зависимости от контекста («аппарат связи», «аппарат правительства»,
«слуховой аппарат», «математический аппарат», «дыхательный аппарат» и т.д.).
Многозначность языковых средств снимается за счет обращения к
формализованной и однозначной интеллектуальной карте. Интеллектуальная
карта как информационная сущность может формироваться как отдельным
человеком, так и группой людей. Требования универсальности при этом не
выдвигаются – возможно существование альтернативных карт. Процесс
формирования концептуального мышления представляет собой путь
индивидуального развития личности в общении с окружающим социумом,
поэтому создание информационной модели этого ментального механизма также
может идти различными путями.
Вычисление семантики конкретного текста состоит в соотнесении всех
языковых кодов, представленных в конечном представлении текста, с их
денотатами, имеющимися на используемой ЛП интеллектуальной карте.
Автоматическая рубрикация методом кластерного анализа языковых кодов
без вычисления контекстуальной семантики вынуждена опираться на сравнение
текстов друг с другом как единственный метод получения количественных
показателей их сходства по содержанию. Чем больше текстов в анализируемом
массиве, тем больше вычислительных ресурсов требуется, поскольку
построение матриц сравнения каждого элемента множества с каждым требует
N*N - N операций сравнения. Когда число текстовых документов и их объем
существенно возрастают, время их кластерного анализа и количество
потребляемых вычислительных ресурсов растет в геометрической пропорции.
В то же время альтернативные средства семантического анализа
документов позволяют обеспечить линейный рост времени вычислений в
зависимости от числа обрабатываемых документов. В этом процессе
происходит сравнение каждого текста с эталоном, с интеллектуальной картой,
т.е. выполняется своего рода операция хэширования, привязки текста документа
к соответствующему однозначному и уникальному множеству концептов. Этот
процесс можно сравнить со средствами предварительной индексации
документов для поиска.
Рубрикация – это группировка концептуальных графов по заданным
семантическим признакам, как абсолютным, так и относительным. Под
абсолютными признаками понимается соответствие точно заданным концептам,
а также указание тематической области и степени близости к ней. Под
относительными признаками понимаются такие критерии, как сходство
содержания, нахождение минимальной концептуальной дистанции между
текстами.
Еще одним существенным недостатком средств статистического анализа
близости содержания текстов является невозможность работы с
ультракороткими текстами, например, с новостными заголовками или краткими
информационными сводками, дайджестами. В ультракоротких текстах
практически все уникальные языковые коды встречаются в одинаковом, крайне
малом количестве. В таких текстах невозможно лишь по одной частоте
встречаемости понятия понять, насколько оно отражает специфику именно
данного текста. Неизбежно приходится прибегать к помощи источников
внешних знаний, а это автоматически означает использование все тех же
средств лингвистической интерпретации текста, поскольку упомянутая выше
проблема многозначности языковых единиц должна быть решена и в этом
случае.

Рассмотрим пример информационных сообщений из новостных дайджестов,


которые объединяются методом авторубрикации в общие темы несмотря на то,
что в каждом из них используются свои языковые средства выражения, не
повторяющиеся в других сообщениях.

ТЕКСТ СООБЩЕНИЯ:
«SCM решил не выплачивать дивиденды за 2012 год»
ТЕМЫ:
 Финансы (30.00);
 Экономика и бизнес (30.00);
 Бухучет и налоги (30.00);
 Психология (10.00).

КОНЦЕПТУАЛЬНЫЙ РЕЙТИНГ:
* SCM (81.01), сокр.: название компании
* 2005 (16.20), время_16
* 4574000 (1.28), выплата_121403
* 6129507 (0.54), шкала прибыль-убыль_12147_0
* 22010022 (0.43), намерение_1241_4141
* 22010022 (0.36), решение_14_162
* 22010022 (0.18), шкала приобретение-потеря_15310_0

ТЕКСТ СООБЩЕНИЯ:
«МЭРТ поднимает пошлины на экспорт леса»
ТЕМЫ:
 Бухучет и налоги (20.61);
 Экономика и бизнес (20.61);
 Финансы (20.61);
 Природа (7.36).

КОНЦЕПТУАЛЬНЫЙ РЕЙТИНГ:
* МЭРТ (90.62), сокр.: министерство
* 18946507 (3.72), налог_1214023
* 10893001 (2.15), строительный материал_12123
* 10893001 (1.33), лес_122412
* 28345500 (0.60), товар_1528_1
* 17713505 (0.19), движение_155
* 17713505 (0.17), сельскохозяйственный труд_152509

Рассмотрим еще один пример авторубрицирования ультракоротких


сообщений. Нижеприведенные тексты попадают в общие тематические разряды
за счет вычисления общих концептов.

ТЕКСТ СООБЩЕНИЯ:
«Автомобили Ford подорожают летом»
ТЕМЫ:
 Техника (18.48);
 Транспорт (18.48);
 Автомобили (18.48);
 Финансы (14.85);
 Экономика и бизнес (14.85);
 Торговля (14.85).

КОНЦЕПТУАЛЬНЫЙ РЕЙТИНГ:
* Ford (96.47), компания
* 1126504 (1.60), сухопутный транспорт_1213241
* 17745509 (1.29), цена_1_316
* 10924003 (0.64), шкала летний-зимний_16042_0

ТЕКСТ СООБЩЕНИЯ:
«GM-AVTOVAZ повышает цены на автомобили»
ТЕМЫ:
 Техника (18.48);
 Транспорт (18.48);
 Автомобили (18.48);
 Финансы (14.85);
 Экономика и бизнес (14.85);
 Торговля (14.85).

КОНЦЕПТУАЛЬНЫЙ РЕЙТИНГ:
* GM_AVTOVAZ (49.10), компания
* 1126504 (0.81), сухопутный транспорт_1213241
* 27481008 (0.65), цена_1_316
* 17433502 (0.33), шкала увеличение-уменьшение_15001_0

Что входит в понятие сходства содержания? Неформальным толкованием


этого понятия будет следующее: сознание отдельного индивидуума,
воспринимающее некоторое множество информационных сообщений,
группирует сообщения A и B по причине того, что в этих сообщениях
упомянуты такие объекты, которые воспринимаются концептуальным
мышлением как связанные между собой. Это сходство моделируется в
информационных структурах данных ЛП как семантические расстояния между
концептами, т.е. количество промежуточных шагов на интеллектуальной карте.
Связи могут проходить по нескольким направлениям: специальное – общее,
часть – целое, действие – объект воздействия и др. Концепты могут
упоминаться в информационном сообщении чаще или реже, от чего будет
зависеть их концептуальный рейтинг.
Разумеется, в дальнейшем предстоит исследовать и другие вопросы,
возникающие в связи с уточнением метода авторубрикации по концептуальным
графам. Как определить иерархию тематического содержания текста? О каком
предмете или объекте идет речь в первую очередь, о чем говорится во вторую и
т.д.? Какова прагматика данного текста? Какую позицию занимает автор? Из
чего это следует, какие специальные средства выражения для этого
используются?
На основании вышеприведенных доводов можно сделать следующие
выводы. Главная перспектива использования концептуальных графов в качестве
опорных средств для тематической авторубрикации множества текстов состоит
в том, что концептуальные графы представляют собой фактически
вычисленную семантику текста, а не набор неоднозначных кодов-сигналов.
Построение графов базируется на формально определенной интеллектуальной
карте, которая может быть верифицирована специалистами в соответствующей
предметной области. Все математические расчеты, связанные с вычислением
семантических расстояний между концептами интеллектуальной карты,
производятся над точно определенными объектами. Безусловным
преимуществом авторубрицирования методом вычисления концептуальных
графов является и то, что такой метод позволяет анализировать документы за
линейное время и не вводит никаких ограничений на размер отдельно взятого
документа.