Вы находитесь на странице: 1из 18

Знание-ориентированный подход к анализу

естественно-языковой текстовой информации


в интересах мониторинга и оценки ситуаций
Шемаев В. Н. к. т. н., доц, Замаруева И. В. д. т. н., с. н. с., Приймак М. В.,
Дубровский Е. Н., Национальная академия обороны Украины, г. Киев
В статье рассмотрен знание-ориентированный подход к автоматиза-
ции извлечения, формализации и обработки знаний, содержащихся в
разноязычной текстовой информации. Показаны его возможности для
решения задач мониторинга и анализа обстановки.

Введение
В конце 60-х годов проблемы логико-семантической обработки есте-
ственно-языковой текстовой информации выделились в самостоятель-
ное направление теории искусственного интеллекта. Основными целями
направления было решение задач построения систем машинного пере-
вода и реферирования, создания интеллектуального естественно-языко-
вого интерфейса. Современные информационные процессы, тесно свя-
занные с развитием и функционированием информационно-аналитиче-
ских центров (ИАЦ), актуализируют проблему автоматизации логико-
семантической обработки естественно-языковой информации в интере-
сах распознавания, оценки, прогнозирования развития ситуаций по
совокупности разноязычных текстовых сообщений. В этом контексте
одним из наиболее перспективных направлений совершенствования
информационных систем и технологий является создание знание-
ориентированных информационных систем, функционирование кото-
рых основано на автоматизации процесса формализации содержания
естественно-языковых текстов (ЕЯТ) с последующей обработкой фор-
мализованного представления этого содержания в интересах решения
конкретных задач анализа.
Информационные потоки, циркулирующие в ИАЦ, преимущест-
венно представляют собой неструктурированную разноязычную тек-
стовую информацию. Эта информация характеризуется следующими
особенностями:
– большие объемы суточной информации (порядка 10-15 Мб);
– неравномерность распределения информации по тематике;
– избыточность информации по одним аспектам и неполнота – по другим;

1
– наличие противоречивости при описании событий, а также дезин-
формации.
Принципиальной особенностью задач анализа текстовой информа-
ции является то, что предметом анализа выступают знания о предмет-
ной области, содержащиеся в текстовой информации. Таким образом,
ядром системы поддержки информационно-аналитической деятельно-
сти должна быть система автоматизации распознавания, извлечения и
формализации знаний, содержащихся в текстах.

Сущность знание-ориентированного подхода


Как уже указывалось информация, которая содержится в текстовых
источниках, может быть представлена на различных языках, что обу-
славливает необходимость преобразования разноязычной входной ин-
формации к единому ее представлению в базе знаний. Основными ком-
понентами знаний (с точки зрения их формализованного представле-
ния) выступают понятия, отношения между понятиями, характеристики
понятий и отношений, а также модальности этих характеристик. Таким
образом, обработка входного текста направлена на распознавание в
тексте основных компонентов знаний и установление логико-семанти-
ческих отношений между ними с целью формирования логико-семанти-
ческой структуры содержания входного текста. К формализованному
представлению знаний выдвигаются следующие требования: во-первых,
оно должно обеспечивать возможность корректной логико-семантиче-
ской обработки знаний; во-вторых, оно должно содержать всю необхо-
димую информацию для решения прикладной информационно-аналити-
ческой задачи, то есть максимально полно на содержательном уровне
сохранять текстовое представление элементов знаний. В интересах
решения таких задач, как: планирование действий или прогнозирование
развитие событий, составляется аксиоматическая модель, которая со-
держит отношения импликативного характера, которая обрабатывается
логико-математическими методами. С учетом этих требований для
формализованного представления знаний разработана [1] логико-семан-
тическая структура (ЛСС) содержания ЕЯТ. Особенностью ЛСС явля-
ется ее гибридное представление, которое объединяет в себе свойства
семантических сетей и предикатных моделей (в качестве вершин сети
выступают элементарные предикатные формулы). С целью сохранения
выразительных средств представления ЕЯТ введены специальные сред-
ства - префиксы и постфиксы предикатов и аргументов. Элементарная
предикатная формула может также содержать кванторы всеобщности
(  ) и существования (  ).

2
Префиксы предикатов и аргументов определяют тип семантического
класса. В качестве постфиксов выступают верхние и нижние индексы
предикатов и аргументов. Верхний индекс определяет грамматические
характеристики (это может быть, например, номер требуемого падежа,
число, одушевленность и т.д.) объединения отношений и понятий в
тексте. Нижний индекс определяет конкретного лексического предста-
вителя для соответствующего семантического класса. В процессе логи-
ческого вывода постфиксы игнорируются. Они необходимы на этапе
синтеза описания фрагментов базы знаний средствами выходного есте-
ственного языка. В отдельный семантический класс выделены лексиче-
ские единицы со значением модальности (хотеть, необходимо и т.п.).
Для отображения ролевых отношений введено понятие неявного
предиката. Под неявным предикатом в данном случае понимается от-
ношение, которое не имеет соответствующего лексического эквивален-
та в тексте (например, в словосочетании фирма “Лингвистика-93”
отношение “иметь имя” между понятиями “фирма” и “Лингвистика-93”
отображается в тексте пробелом). Унификация лексических эквивален-
тов понятий и отношений в рамках каждого семантического класса
осуществляется по отношению “род-вид”. Семантический класс пред-
ставляет собой иерархическую структуру, на верхнем уровне которой
находятся наиболее общие понятия, ниже лежащий уровень представля-
ется понятиями, которые конкретизируют соответствующие понятия
выше лежащего уровня. Выбор отношения «род-вид» для унификации
понятий и отношений в предметной области имеет принципиальное
значение. Для каждой элементарной предикатной формулы строится
матрица истинности C  Cij , которая определяет возможные значения
аргументов для заданного предиката. По существу, матрица является
фрагментом базы знаний. Столбцы матрицы определяют допустимые
значения аргумента X, а строки – аргумента Y. Элементы матрицы при-
нимают значения: “1” (предикат принимает значение “истина”), “0”
(предикат принимает значение “ложь”) и “?” (предикат принимает зна-
чение “условно истинная формула”, то есть допустимость соответст-
вующих аргументов X и Y доопределяется на основе аксиоматической
модели и контекста). Следует заметить, что матрица истинности опре-
деляет только семантическую корректность соответствующей элемен-
тарной предикатной формулы.
Полученная таким образом ЛСС удовлетворяет выдвинутым выше
требованиям к формализованному представлению знаний о предметной
области, представленных в тексте. Таким образом, на первом этапе
обработки текста информация приводится к единому представле-

3
нию путем извлечения знаний из текстовых источников и формали-
зации в виде ЛСС. В базе знаний интегрируется вся необходимая для
комплексного анализа априорная ("старая") и текущая информация.
Методами логико-семантической обработки знаний вся информация
анализируется на функциональную полноту, совместимость, противоре-
чивость, а также решаются и прикладные задачи такие, как, например,
обобщение информации, выявление дезинформации, составление ана-
литических документов и т.п.
Отметим, что при таком подходе многозначное понятие, которое
встретилось в начале текста, может уточняться в конце анализа на осно-
ве учета всех его контекстов. Кроме того, при построении ЛСС структу-
рируется и содержание входного текста, поскольку вся информация
относительно конкретного понятия, где бы она не встретилась в тексте,
группируется вокруг этого понятия. Не имеет также принципиального
значения и язык входного текста, так как ЛСС не зависит от того, на
каком языке представлен текст. Естественно, это не касается методов
лингвистического анализа, которые направлены на анализ закономерно-
стей описания знаний средствами ЕЯТ в интересах построения ЛСС.

Анализируемые уровни организации текста


Предлагаемый подход к разработке методов распознавания, извле-
чения и формализации знаний, содержащихся в ЕЯТ, базируется на
следующих концептуальных положениях:
– входной ЕЯТ - есть связанный осмысленный текст;
– текст – есть отображение трех взаимосвязанных систем: семиотиче-
ской системы, лингвистической и системы знаний о мире, связан-
ность текста соответственно обеспечивается графическими средст-
вами оформления текста, лингвистическими средствами и экстра-
лингвистическими;
– все эти средства в тексте выступают инструментом кодирования
знаний о мире (проблемной области), в качестве элементов реально-
го или абстрактного мира выступают объекты, описанные в тексте в
форме лексических эквивалентов понятий, отношений и характери-
стик понятий и отношений.
Таким образом, принципиальной особенностью анализа ЕЯТ являет-
ся подчинение всех этапов обработки текста построению ЛСС. При
этом текст рассматривается как объект разных уровней анализа: как
знаковая система, как грамматическая система и как система знаний о
мире. Каждый уровень представления текста имеет свои закономерно-
сти описания и, соответственно, присущие только ему методы обработ-

4
ки. Анализ существующих моделей понимания ЕЯТ с этой точки зрения
показывает, что распознавание смысла включает только анализ грамма-
тической системы [2, 3].
Практически анализ знакового уровня организации текста подчинен
лингвистическому и ограничивается отделением синтаксических разде-
лительных знаков от слова, выделением аббревиатур и т.п. В то же
время анализ реальных текстов показал, что уже на уровне знаковой
организации текста используются описательные возможности семиоти-
ческой системы для кодирования знаний о фрагментах реальной дейст-
вительности. Так, использование кавычек (например, кинотеатр "Са-
лют") свидетельствует, что слово в кавычках нельзя рассматривать в
значении, представленном в словаре. Собственные имена также могут
совпадать с написанием общепринятых слов, но при этом имеют другой
смысл (например: депутат Хмара, премьер-министр Major, ул. 23 Авгу-
ста). Кроме того, ряд слов в тексте вообще не подчинены грамматиче-
ским правилам языка, а выступают как семантические единицы знако-
вого уровня (например: числа: 25,5 %, 10, сокращения: млн, кг). Эти
особенности и обуславливают необходимость анализа знакового уровня
организации текста в качестве начального этапа построения ЛСС текста.
Прагматический анализ в существующих моделях понимания ЕЯТ
сводится, как правило, к средствам представления знаний о предметной
области, при этом не учитываются знания о решаемой задаче, а это,
собственно, и есть определяющим фактором при анализе ЕЯТ со сторо-
ны специалиста.
Анализ знакового уровня организации текста назовем графемным
анализом. При этом текст рассматривается как разновидность семиоти-
ческой системы. Задачей данного этапа анализа является исследование
особенностей описания единиц текста и правил их сочетания в аспекте
знаковой природы. Входные данные графемного анализатора – текущий
ЕЯТ и априорные эталонные модели (строк и знаков) [4]. Классифика-
тор строк включает следующие содержательно важные признаки: пус-
тая строка, полная строка, неполная справа, неполная слева, симметрич-
но неполная. В классификаторе знаков выделяются следующие призна-
ки: тип знака (цифра, буква, синтаксический знак, служебный знак и т.д.
), принадлежность буквы к алфавиту (латиница, кириллица, только
русская, только украинская), размер буквы (прописная, заглавная), фо-
нетические признаки (гласная, согласная). Закономерности сочетания
строк и знаков в тексте позволяют автоматически маркировать следую-
щие единицы текста: фрагмент, предложение, синтагма, лексема.
В качестве фрагмента выступает, например, заголовок, подзаголо-
вок, абзац текст и т.п. Этот класс текстовых единиц объединяет то, что

5
каждая из них выполняет законченную логико-семантическую функцию
и выступает в роли мини-текста. Анализатор выделяет следующие клас-
сы фрагментов: заголовок, подзаголовок, служебная информация (на-
пример: УДК, дата, автор и т.п.), абзац.
Под предложением понимается логически и семантически закончен-
ное высказывание, оформленное в соответствии с грамматикой входно-
го языка. В современных системах автоматической обработки текстовой
информации признаком конца предложения выступает “точка –пробел -
заглавная буква”, что очень часто приводит к семантическим ошибкам.
Разработанные правила знакового окружения точки позволили выделять
границы предложения в соответствии с их семантической законченно-
стью в 99% [3], правила сочетания строк выделять предложения, кото-
рые не оформлены точкой в конце. Выделяются следующие классы
предложений: языковое предложение, предложение-заголовок, служеб-
ное предложение.
Синтагма на этапе графемного анализа определяется как последова-
тельность лексем в предложении, расположенных между синтаксически-
ми разделительными знаками, скобками, кавычками (если они выполняют
функцию цитирования). Анализатор выделяет следующие классы син-
тагм: языковая синтагма, синтагма-обозначение, синтагма-цитата.
Под лексемой понимается словоформа или словосочетание, выпол-
няющие дифференцированную семантическую функцию в предложе-
нии. В качестве лексем могут выступать отдельные словоформы, аббре-
виатуры, словосочетания, которые, с точки зрения баз знаний, рассмат-
риваются как единая семантическая единица (например: Дж. Буш,
“Джонсон и Джонсон”). При этом графемный анализатор учитывает,
что словосочетания в тексте не всегда разделяются пробелом. Напри-
мер: Спортсмен пробежал 100м за 12с. В данном случае последова-
тельность знаков 100м (12с) включает не одну лексему, а две, так как
число и сокращение, хотя и представлены в тексте без пробела, опреде-
ляют разные классы понятий. Графемный анализатор выделяет 27 клас-
сов лексем, среди которых: языковая лексема (системе), аббревиатура
(США), сокращение (млн), обозначение (МиГ-21), наименование ("Мак-
доннел гелекоптер"), сложное обозначение (Р265 “Дамбартон Кастл”),
имя (Иванов), полное имя (Дж. Буш), число целое (2003), число дробное
(17,2), число сложное (17/03/99) и т.д.. В качестве отдельных классов
лексем выступают синтаксические разделительные знаки и точка в
значении конца предложения.
Таким образом, уже на этапе графемного распознавания ЕЯТ фор-
мируются элементы ЛСС. Такие классы лексем, как: обозначение,
сложное обозначение, наименование для прагматического интерпрета-

6
тора являются формальным основанием для формального установления
неявного предиката «иметь имя». Класс лексем «имя» уточняется на
словарях информационной базы данных (так, имени может быть при-
своен дополнительный класс: географическое название, периодическое
издание и т.п.). Между единицами текста устанавливаются отношения.
Так, отношение между заголовком (подзаголовком) и далее следующи-
ми абзацами соответствует отношению семантического подчинения,
между служебной информацией и заголовком – отношения «время»,
«место», «источник», «получатель», в зависимости от характера слу-
жебной информации. Конечной целью этого этапа является построение
графемной структуры входного ЕЯТ, которая определяет язык входного
текста, классы единиц текста и отношения между ними. Выходные
данные графемного анализа являются входными данными, как для лин-
гвистического уровня организации текста, так и для прагматического
интерпретатора.
Анализ на лингвистическом уровне организации ЕЯТ включает
традиционные этапы морфологического, синтаксического и семантиче-
ского анализа.
На вход модуля морфологического анализатора поступает только
класс языковых лексем [4]. Так как после графемного анализа известен
входной язык, то автоматически подключаются эталонные модели зна-
ний о входном естественном языке: словарь служебных слов и словари
морфем. Словарь служебных слов включает служебные части речи:
предлоги, союзы, частицы, а также местоимения, числительные, наибо-
лее нейтральную (с точки зрения семантики) часть наречий и прилага-
тельных. Такой словарь является статическим для любого языка, так как
динамические изменения в лексике осуществляются за счет имен суще-
ствительных, прилагательных, глаголов, наречий. Такой словарь абсо-
лютно не зависит от предметной области и его целесообразно задавать в
виде эталонной модели. Кроме того, объем словаря не превышает тыся-
чи словарных статей. Словари морфем включают словообразователь-
ную и словоизменительную модели входного языка.
Словоизменительная модель необходима для распознавания грамма-
тических характеристик словоформ в тексте (род, число, падеж, время
и т. п.). Словоизменительная модель включает аналитический словарь
квазиокончаний и парадигматический словарь квазиокончаний. Первый
словарь используется на этапе анализа ЕЯТ, второй – на этапе синтеза
выходного ЕЯТ. Особенностью парадигматического словаря является
то, что в него включены также поисковые образы, которые учитывают
чередования гласных, согласных и беглые гласные. Так, например для
украинского слова “річка” автоматически формируется три поисковых

7
образа «річк», «річок», «річц», а это, в свою очередь, повышает реле-
вантность отбираемых документов.
Словообразовательная модель необходима для распознавания семан-
тических характеристик словоформ текста (процесс, состояние, размер
и т. п.). Кроме того, словообразовательная модель позволяет распозна-
вать системе «новые» слова, которые образованы от известных по про-
дуктивным правилам заданного входного языка (например: near –
nearly). Это свойство словообразовательной модели позволило, с одной
стороны, на практике реализовать принцип отделения лингвистического
обеспечения системы от информационного, с другой стороны, сформу-
лировать требования к составу и содержанию информационного обес-
печения систем автоматической обработки текстовой информации. Так,
анализ современных систем машинного перевода показал, что даже при
больших объемах электронных переводных словарей (100-110 тыс.
словарных статей) практически в каждом входном тексте для системы
есть незнакомые слова. В то же время специалист переводит эти слова,
пользуясь словарем объемом 80 тыс. слов. Использование словообразо-
вательной модели позволяет осуществлять правильный перевод при
переводном словаре порядка 70-80 тыс. словарных единиц. Словообра-
зовательная модель включает словарь суффиксов и словарь префиксов.
Опыт разработки словарей морфем для систем автоматической обра-
ботки текстов показал, что суммарный объем этих словарей даже для
флективных языков (русский, украинский) не превышает 10 тыс. сло-
варных единиц для одного входного языка. Для английского языка
суммарный объем словарей морфем значительно меньше (порядка
2,5 тыс. словарных статей). При этом качество распознавания такое же,
как и в случае использования словаря полных словоформ. Кроме того,
такие компактные словари позволяют перекрыть всю совокупность слов
определенного языка (а это порядка 1 млн. слов), а также новые слова,
если они образованы по правилам грамматики этого языка. Эти пре-
имущества делают эталонную модель независимой от предметной об-
ласти, адаптируемой к новым прикладным задачам, а именно этого и не
хватает существующим программным системам.
Сущность анализа состоит в приписывании каждой лексеме текста
соответствующей информации. Эта информация включает: лексико-
грамматические классы (имя существительное, прилагательное, числи-
тельное, глагол и т.д.), соответствующие этим классам грамматические
характеристики (например, для существительных – это род, число, па-
деж), синтаксические (например, управление падежом для предлогов),
семантические (они переписываются по определенным правилам из сло-
варя и представляют собой соответствующий набор семантических приз-

8
наков, которые привносят префиксы и суффиксы в слово). Эталонная
модель определяет все свойственные данной морфеме характеристики.
Особенностью данного анализа является то, что моделирование мор-
фемной структуры заданного языка, с одной стороны, починено форми-
рованию элементов ЛСС, с другой стороны, не ориентировано на кон-
кретную прикладную задачу. В технологическом плане это позволяет
представить морфологический анализатор как универсальный компонент
лингвистического обеспечения (ЛО) систем обработки текстовой инфор-
мации. ЛО морфологического анализатора позволило при относительно
небольшом объеме словарей решить ряд технологически важных задач, а
именно: отделить данные от программ их обработки (один программный
модуль обрабатывает три входных языка - английский, русский, украин-
ский); отделить ЛО от информационного обеспечения, что позволило
представить переводной словарь в виде, привычном для человека (он не
отличается от твердой копии обычного переводного словаря), распарал-
лелить обработку данных, т.е графемная структура обрабатывается одно-
временно двумя модулями: морфологическим и прагматическим.
Входными данными для синтаксического анализа является графем-
ная структура текста с приписанными грамматическими и семантиче-
скими признаками к словоформам. Этап синтаксического анализа
делится на два этапа [4]. Задача первого - устранение грамматической
омонимии и построение словосочетаний. Единицей обработки является
синтагма, которая разбивается при помощи маркеров на более мелкие
единицы. В качестве маркеров выступают слова с определенными
грамматическими характеристиками. Выделяется три типа маркеров:
начало сегмента (например, для английского языка - артикль: a, an, the;
предлог: on, by и т.д.), конец сегмента (неправильные глаголы во 2 и 3
форме: said, made), маркеры, которые сами являются сегментом (союзы:
and, that, as). Для выделения словосочетаний в сегментах используется
эталонный словарь синтаксических правил, который определяет прави-
ла согласования, управления и примыкания. Полученные словосочета-
ния проверяются модулем прагматической интерпретации. Это необхо-
димо для отделения словосочетаний от понятий в предметной области
(сравните: железная дорога, железная дверь) и корректного построения
ЛСС. На втором этапе синтаксического анализа строится синтаксиче-
ская структура предложения, которая отражает направленность и тип
семантико-синтаксических отношений между словами в предложении.
Задачей семантического анализа является устранение синтаксиче-
ской омонимии (если она имеет место) и построение элементарных
предикатных формул ЛСС текста. Кроме того, на этом этапе осуществ-
ляется замена анафорических ссылок, унификация понятий и отноше-

9
ний по матрице истинности, восстановление эллипсов. Эталонные мо-
дели этого этапа включают тезаурус понятий и отношений (это, как
правило, глаголы). Сущность семантического анализа состоит в выде-
лении ядерных структур в предложении ( например: S(суб’єкт)  A
(дія)  O(об’єкт)), которые являются основой для построения элемен-
тарных предикатных формул.
Результатом работы семантического анализатора является понятий-
ная структура входного текста, которая, в свою очередь, является вход-
ной для прагматического интерпретатора. Его задача - интегрирование
понятийной структуры текста с базой знаний о предметной области.
Работа прагматического интерпретатора зависит от модели представле-
ния знаний о предметной области и модели знаний о решаемой задаче.
Так, например, для анализа военно-политической обстановки важно, что
слово Major в определенном контексте означает не просто лицо (в отли-
чие от других переводов: главный, майор и т.д.), а первое лицо в госу-
дарстве (бывший премьер-министр Великобритании) и, следовательно,
контекстное сопровождение этого слова приобретает другое прагмати-
ческое значение. Тезаурус прагматического уровня содержит энцикло-
педические знания о конкретной проблемной области. Такие знания, как
правило, в тексте распознать невозможно, поскольку они не идентифи-
цируются языковыми средствами или сопровождающим контекстом.
Так, например, словосочетание "беличья клетка" в электротехнике не
имеет ничего общего с принятым значением в языке. Кроме того, часть
общепринятых знаний, как правило, в тексте не сопровождается соот-
ветствующим контекстом. Так, например, слова Россия, США не сопро-
вождаются словами государство, страна. Реально прагматический ана-
лизатор начинает работать после графемного анализа. Обращение к
нему происходит на всех уровнях организации текста. На заключитель-
ном этапе он выполняет интегрирующую функцию.

Использование знание-ориентированного подхода


для задач мониторинга и анализа ситуаций
Предметной областью задач мониторинга и анализа обстановки яв-
ляются вопросы социального, политического, экономического развития,
согласованного взаимодействия исполнительных и представительных
органов государственной власти, информационно-аналитического обес-
печения процессов управления страной [5]. Задача мониторинга заклю-
чается в анализе всей поступающей текущей информации, ее обобще-
нии, сопоставлении и представлении заинтересованным руководителям
в виде, наиболее соответствующем их потребностям.

10
Конечными или целевыми задачами для специалистов по анализу
информации являются:
– мониторинг и анализ социальной, политической, экологической,
экономической и т.д. обстановки с целью оценки и прогнозирования
последствий решений, принимаемых государственными органами и
выработки предложений и рекомендаций по стабилизации социаль-
ной, политической, экономической и т.д. обстановки в стране в це-
лом и в отдельных ее регионах;
– проведение комплексного анализа и разработка долгосрочных и
краткосрочных прогнозов развития процессов как внутри страны,
так и за рубежом с учетом различных факторов;
– анализ расстановки политических сил и тенденций развития общест-
венных движений и т.д.;
– проведение целенаправленных исследований и подготовка аналити-
ческих и концептуальных материалов по отдельным вопросам госу-
дарственного управления и международной жизни.
С учетом особенностей решаемых задач инструментально-техноло-
гический комплекс (ИТК) автоматизации вышеперечисленных задач
должен обеспечивать реализацию следующих основных функций [5,6]:
– целенаправленный поиск и отбор необходимой информации;
– классификация разноязычных текстов;
– интегрирование и обобщение знаний, содержащихся в разноязычных
текстах;
– перевод разноязычных ЕЯТ на украинский язык;
– проверка знаний, содержащихся в разноязычных текстах, на логико-
семантическую совместимость и противоречивость;
– выявление закономерностей в предметной области и их формирова-
ние на содержательном уровне;
– формирование на украинском языке аналитических документов в
соответствие с требованиями пользователя.
Рассмотрим решение этих задач на основе предложенной знание-
ориентированной технологии. Задачи целенаправленного поиска и от-
бора необходимой информации, классификации разноязычных текстов
и перевода оригинальных текстов на язык пользователя традиционно
относят к этапу первичной обработки информации.
Любая информационно-аналитическая деятельность, в том числе и
мониторинг, ситуаций, непосредственно опирается на процессы сбора и
первичной обработки информации. Эти процессы представляют собой
наиболее рутинную, трудоемкую и, пока еще, достаточно неопределен-
ную в нормативно-правовом отношении часть работ. От успеха их реа-
лизации во многом зависит эффективность результатов аналитических

11
исследований. При плохой организации работ по сбору и первичной
обработке информации аналитические исследования характеризуются
низкой достоверностью и объективностью, и их результаты, как прави-
ло, отражают субъективное мнение отдельных экспертов. С учетом
указанных признаков и проводится первичная обработка поступаю-
щей информации. Ее цель - минимизировать объем материалов для
уменьшения трудоемкости рутинных операций при последующем про-
ведении аналитических работ, упростить процедуру поиска и подборки
необходимой информации для каждого аналитического исследования,
систематизировать информацию по степени важности и актуальности.
Задача поиска и отбора информационного материала. Реализация
знание-ориентированного подхода позволяет автоматизировать сле-
дующие виды поиска:
1. Поиск по структуре текстового документа. Этот вид поиска ис-
пользует результаты графемного анализа, то есть данные о структуре
документа. Поиск документов по заголовкам достаточно распространен,
однако, для избежания возможных ошибок поиска, следует учитывать
язык входного текста. Так, заголовки для английских текстов, как пра-
вило, отличаются от заголовков русских текстов, как по грамматической
организации, так и по информативности. Приведем несколько приме-
ров. Заголовки, взятые с английских текстов: "Ливия: программа попол-
нения запасов авиационного топлива возобновляется", "Индия - Паки-
стан: пенджабское насилие усложняет отношения". Заголовки рус-
ских текстов: "Зенитные ракетные комплексы стран НАТО", "Вашинг-
тонские "ястребы" помогают московским". Из примеров видно, что по
английским заголовкам можно не только определить тематическую
направленность текстового документа, но и основной результат (вывод).
С русских заголовков можно, как правило, определить только тематиче-
скую направленность. Кроме того, по последнему заголовку вообще
невозможно определить, что речь идет об юридической правомерности
Договора об ограничении систем противоракетной обороны (ПРО),
подписанного США и СССР в 1972 году.
Кроме того, структурный поиск по служебной информации, содер-
жащейся в текстовом документе может дать ряд интересных ответов,
например: Кто такой интересуется информацией? Какая информация
важна для заданной страны? и т. д.
2. Поиск и отбор по временным и пространственным показателям.
Временными показателями будем называть данные, которые отвечают
на вопрос когда? Эти данные могут быть представлены как числами
(например, 1998 г., 22/12/96), так и словами или словосочетаниями, то
есть нечеткими лингвистическими переменными (например, вчера,

12
недавно, не так давно). Пространственные показатели отвечают на
вопрос где? (например, Англия, США, НАТО, Министерство обороны).
Характеристики временных и пространственных показателей отражены
в ЛСС и по ним можно задавать поиск.
3. Поиск и отбор информации по тематике. Цель этого вида поиска
информации - ответить на вопрос что? Полноту поиска обеспечивает
тезаурус. Структура тезаурусу включает следующие поля:
<понятие><род-вид><часть-целое><синонимы><ассоциации><перевод>.
Поле род-вид позволяет подключать к поиску более абстрактные или
конкретные понятия. Например: самолет  тактический истребитель
 F-15. Поле часть-целое включает в поиск части целого объекта. Поле
синонимов включает только полные синонимы: НАТО = Южно-
Атлантический Блок. Ассоциации индивидуальны по своей природе и
слабо формализуемы, в данном случае может указываться контекстная
зависимость поискового понятия. Например: РЛС - корабль, в этом слу-
чае поиск понятия РЛС будет осуществляться только относительно к
корабельному оборудованию. В некоторых случаях это сокращает язык
запроса, хотя для общего случая сильно сужает поисковую область. Нали-
чие поля переводных эквивалентов позволяет отбирать необходимую
информацию по заданной тематике из текстов, представленных на анг-
лийском и русском языках. Кроме того, знания о структуре документа
позволяют устанавливать требования к отбору документов: это могут быть
либо целые документы либо их фрагменты (абзацы, предложения и т. д.).
Кроме того, знание-ориентированная технология позволяет учиты-
вать направленность отношений, что, в свою очередь, повышает точ-
ность отбираемой информации. Например, если у нас запрос касается
влияния экологии на человека, то по естественно-языковому запросу
будет построена элементарная предикатная формула «Влиять (субъект:
экология, объект: человек)». В этом случае источники, в которых идет
речь влиянии человека на экологию (а они тоже могут быть представле-
ны во входном массиве), отобранными не будут. Естественно, что при
использовании только тезауруса без ЛСС текста такого точного поиска
достичь невозможно.
4. Поиск по аналогии. Этот вид поиска используется в процессе ана-
лиза информации при решении конкретной прикладной задачи. Крите-
риями поиска являются знания о решаемой прикладной задаче.
Задача автоматического перевода информационного материала.
Базовыми для системы перевода также являются методы извлечения
знаний из входных текстов и их логико-семантической обработки. Осо-
бенностью системы перевода, построенной на таких принципах, являет-

13
ся высокое качество передачи содержания (смысла) входного текста. В
системе, как указывалось выше, удобный для пользователя переводной
словарь. Существенной проблемой распознавания является неопреде-
ленность и многозначность единиц текста. В случае многозначности
входной единице текста отвечает несколько эталонных образцов, а не-
определенности – пустое множество. В системе разрешены следующие
виды многозначности: грамматическая (например, словоформа дивизии
может выступать в тексте в родительном, дательном, творительном и
предложном падежах), лексико-грамматическая многозначность (сло-
воформа стекло может выступать в тексте как в роли существительно-
го, так и в роли глагола), семантическая многозначность (словоформа
лук как овощ и как оружие). В случае неопределенности для текущего
образца отсутствует эталонная модель. В системе разрешены следую-
щие виды неопределенности: словообразовательная, то есть когда обра-
зуется новое для системы слово из известного ей слова по правилам
словообразования данного языка (учитель – учительница); семантиче-
ская, когда в переводном словаре вообще отсутствует переводной экви-
валент. В последнем случае система выбирает все контексты незнако-
мого слова и через известные слова по матрице истинности подыскива-
ет предполагаемый синоним. В этом случае значение переводимого
слова имеет контекстную семантику, то есть его значение справедливо
только в употребляемом в тексте.
Результаты первичной переработки информации, представляющие
особый интерес документы, фрагменты документов, цитаты, конспекты,
изложение фактов и мнений, и т.п., поступают к специалистам, закреп-
ленным или за определенной тематикой, или за определенными потре-
бителями. При этом одни и те же данные могут поступать к разным
специалистам. Это связано с тем, что на базе одного информационного
материала можно решать разные прикладные задачи по анализу этой
информации.
Задача анализа информационного материала. Задачу анализа ин-
формационного материала можно определить как "фокусирование" за-
данной прагматической задачи на анализируемый информационный ма-
териал. Основной целью анализа является приведение информации в
систему относительно заданной прагматической задачи. К задачам этого
уровня можно отнести следующие:
1. Оценка информации. Она включает оценку достоверности инфор-
мации и оценку информативности (полезности). Оценка полезности
информации базируется на выводе относительно ее новизны для решае-
мой прагматической задачи. Эта оценка строится при сравнении интег-
рированной базы знаний с базой знаний текста (текстов).

14
2. Выделение сущности. Выделить сущность в данном случае - озна-
чает дать критическую оценку необработанным фактам. Выделение
сущности делает информацию прозрачной для решаемой задачи. Авто-
матизация решения этой задачи базируется на методах сжатия инфор-
мации с учетом сохранения ее семантической целостности. Их сущность
состоит в сокращении информации за счет устранения повторений (что
часто встречается в совокупности источников) и логико-семантическом
обобщении, задача которого привести отдельные сведения к общему
знаменателю. Так, например, если проходит предвыборная кампания, то
это событие будет отражено во многих текстовых источниках. Сжать
эту информацию, например, в виде следующего фрейма:
<Кандидаты> <Оценка их шансов> <Источник> <Прогнозы>
Понятия в скобках при этом выступают в роли заголовков колонок, в
которые наполняются данные из разных источников.
3. Задача синтеза выходного аналитического документа. Целью
синтеза является составление аналитического документа. Задачу авто-
матизации формирования выходного аналитического документа можно
разбить на несколько этапов: синтез логической структуры документа;
синтез содержания документа; синтез грамматической структуры вы-
ходного документа [7].
Под логической структурой аналитического документа понимается
последовательность представления его содержания (или логика пред-
ставления документа). В основе логической структуры лежит экстра-
лингвистическая семантика, которая образует каркас будущего доку-
мента. Конкретная логическая структура зависит от решаемой прагма-
тической задачи и вида аналитического документа (обзор, прогноз,
анализ обстановки и т.д.). Идеальный аналитический документ должен
содержать информацию, которую хочет знать заказчик (то есть то, что
он заказывал) и которую ему необходимо знать (то есть информация,
которая с точки зрения аналитика является важной для принятия опре-
деленных решений, но заказа на нее не было). Автоматизация решения
этой задачи – сложный процесс, так как она опирается на творческий
процесс, и пока ее полностью решает человек. Пример логической
структуры (которая, как правило, задается в виде априорной модели)
для задачи синтеза "аналитического обзора" событий за заданный про-
межуток времени представлен в табл. 1.

15
Таблица 1. Пример логической структуры аналитического обзора событий
Про что писать На какие вопросы необходимо ответить
1. Какие события для страны имеют первосте-
Самые важные
пенное значение?
события
Кто заказчик данного документа?
1. Какие события связаны с событиями первой
группы?
Сопутствующие 2. В чем проявляется эта связь?
события 3. Какие выводы можно сделать (Какие по-
следствия из этого выплывают для государст-
венных интересов?)
1. Про какие важные события необходимо
Другие события
знать заказчику?

Синтез содержания документа определяет наполнения заданного


каркаса конкретными знаниями. Автоматизация решения этой задачи
требует априорных моделей знаний как о соответствующей предмет-
ной области, так и знаний о заказчике (то есть его уровень знаний в
заданной предметной области). Наполнение аналитического докумен-
та означает:
– выбрать уровень обобщения терминов и понятий, понятный заказчику;
– устранить двойственное толкование как отдельных понятий, выра-
жений, так и документа в целом;
– достичь ясности мысли: избегать повторов, сжато выражать мысли,
при условии, что она не мешает ясности;
– вынести основную мысль или вывод на начало абзаца;
– обосновать каждый вывод.
К синтезу грамматической структуры документа выдвигаются сле-
дующие требования:
– описание представлять простыми повествовательными предложе-
ниями;
– заголовки документов формулировать по английскому образцу (то
есть заголовок должен отражать главный вывод);
– по возможности не использовать пассивный залог (с психологической
точки зрения это привносит неуверенность в излагаемые сведения).
Заданные требования хорошо выполняются при синтезе ЕЯ фраз на
предложенной модели представления знаний.

16
Выводы
Принципиальной особенностью предлагаемого подхода является то,
что предметом анализа выступает содержание (смысл) текстовой ин-
формации. Учет этой особенности обуславливает необходимость реали-
зации на практике методологического принципа моделирования “интел-
лектуальных функций” человека, которые он реализует в процессе ана-
лиза текстовой информации. Направление реализации методологиче-
ского принципа – создание интеллектуальноемких знание-ориентиро-
ванных информационных систем на основе автоматизации процессов
извлечения, формализации и логико-семантической обработки знаний,
содержащихся в ЕЯТ.
Сформулированные концептуальные положения комплексной авто-
матизации функций информационно-аналитического обеспечения на
базе знания-ориентированного подхода, сущность которых состоит в
том, что функции информационно-поисковых систем, систем машинно-
го перевода и реферирования, формирования аналитических документов
реализуются на единой теоретической базе в рамках единого инстру-
ментально-технологического комплекса.
Наиболее важными ожидаемыми результатами от реализации зна-
ние-ориентированного подхода, на наш взгляд, являются:
– существенное расширение информационных ресурсов за счет интег-
рирования зарубежных информационных фондов (достижений нау-
ки, технологий и т.д.) в национальные информационные ресурсы;
– повышение качества мониторинга и анализа обстановки на основе
автоматизации обработки больших потоков информации, рассредо-
точенной по разнородным источникам, ее анализ на наличие проти-
воречивой информации, в том числе и дезинформации, что будет
способствовать адекватности решений, принимаемых на основе этой
информации.
Реализация в полном объеме знание-ориентированного подхода по-
зволяет создавать информационные системы нового поколения. Право-
мерность этого обусловлена следующими факторами, которые наделяют
эти системы качественно новыми функциями и свойствами:
1) высокая интеллектуальная емкость, которая обеспечивает авто-
матизацию аналитических функций на основе всестороннего моделиро-
вания именно процесса понимания человеком ЕЯТ;
2) “знанийная” основа функционирования этих систем, которая пе-
ресматривает принципиальную ориентацию на автоматизацию извлече-
ния знаний из ЕЯТ, их формализацию и обработку в интересах решения
практических задач;

17
3) количественное и качественное расширение класса задач, автома-
тизация решения которых возможна лишь на основе знание-
ориентированного подхода (интегрирование содержания разноязычных
текстов, создание многоязычных систем реферирования, анализ содер-
жания ЕЯТ на противоречивость и т.д.).

Литература
1. Замаруєва І. В., Рось А. О., Губайдулін О. Ю., Данильченко В. А.,
Приймак М. В. Знання-орієнтований підхід до автоматизації інфор-
маційно-аналітичної діяльності // Проблемы программирования.
Научн. журнал. -К.: ИПС НАНУ. –2000. -№1-2. -С. 601-614.
2. Замаруєва І. В. Когнітивне розпізнавання текстових об’єктів. На-
ук.-техн. збірник.–К.:ННДЦ ОТ і ВБ України.–1999.-Вип. 3 –
С. 165-174.
3. Замаруєва І. В. Комп’ютерна модель розуміння природно-мовної
текстової інформації // Проблемы программирования. Научн. жур-
нал. –К.: ИПС НАНУ. –1999. -№2. С.96-102.
4. Замаруева И. В. Об одном подходе к компьютерному моделирова-
нию процесса понимания естественно-языковых текстов // KDS-97.
Шестая международной конференции "Знания – диалог – реше-
ние". Сборник научных трудов. –Ялта. –1997. - Том 1. –С. 241-248.
5. Рось А. А., Замаруева И. В.,Феклистов А. А., Назаренко С. Г., Лу-
кашин С. О., Лазарева О. Я. Концептуальный проект информаци-
онных систем нового поколения. // KDS-97. Шестая международ-
ной конференции "Знания – диалог – решение. ". Сборник научных
трудов. –Ялта. –1997. - Том 1. –С. 37-46.
6. Лазарева О. Я., Лукашин С. О., Рось А. А, Замаруева И. В. Метод
автоматизации оценки ситуации на основе анализа естественно-
языковой текстовой информации // Труды II Всероссийского семи-
нара "Нейрокомпьютерные технологии и пути их использования
при создании специальных технических комплексов". – Курск. –
1992. - С. 87-91.
7. Судаков Б. Н., Шемаев В. Н., Замаруева И. В. Решение задачи фор-
мирования фрагмента базы знаний на этапе логического синтеза
естественно-языковых конструкций // Обработка информации и
обеспечение надежности систем управления. Сб. научн. трудов. –
Харьков: НАНУ, Петровская академия наук и искусств, ХВУ. –
1997. -С. 80-82.

18

Оценить