Вы находитесь на странице: 1из 10

Подходы к описанию и использованию тезаурусов в ин-

формационных системах
© Аджиев Алим Сапарович © Нгуен Хунг Мань
ВЦ РАН ВЦ РАН
ajiev@ccas.ru nmhungru@yahoo.com

Аннотация специализированными) понятиями. Часто выделяют


3 подвида этого отношения:
В статье рассмотрены разные подходы к • Один термин обозначает понятие, являющееся
формализации тезаурусов, а также стандарты частью понятия, обозначаемого другим терми-
ISO и ANSI. Сделан анализ некоторых воз- ном (например, «наука» и «математика», «мате-
можных платформ для такой формализации, матика» и «теория чисел»).
описаны особенности работы с тезаурусами в • Один термин обозначает частный случай поня-
информационных системах, а также пробле- тия, обозначаемого другим термином (например,
мы при этом возникающие, требования к реа- «птицы» и «попугаи»)
лизации тезауруса в рамках Semantic Web • Один термин обозначает элемент класса, обо-
[12]. Рассмотрены особенности и различия значаемого другим термином («горные районы»
классификаторов ресурсов и обычных терми- и «Кавказ»).
нологических и лингвистических тезаурусов. Это отношение на множестве терминов является
Дан сравнительный анализ существующих отношением частичного порядка, то есть множество
схем данных и подходов к реализации тезау- терминов с такими связями образует ациклический
русов для информационных систем на основе граф, или полииерархическую структуру.
RDF. Рассмотрены также вопросы организа- Существуют также и другие связи между терми-
ции пользовательских интерфейсов для рабо- нами. Например, одно понятие или концепция мо-
ты с тезаурусами, и использования их при жет быть обозначено несколькими терминами, яв-
поиске в информационной системе, а также ляющимися синонимами. Некоторые термины мо-
интерфейсы администрирования тезаурусов. гут быть антонимами для других. Часто среди тер-
Во второй части статьи на основании проде- минов, относящихся к одному понятию, выделяют
ланного анализа сформулированы требования единственный (для каждого языка тезауруса) наибо-
к описанию тезауруса в ИСИР [17], и приве- лее предпочтительный (наиболее подходящий)
дена схема данных для представления тезау- термин, который наиболее хорошо характеризует,
руса в этой информационной системе, удов- или обозначает данное понятие. Остальные терми-
летворяющая перечисленным требованиям, и ны являются менее предпочтительными (менее
небольшой пример реализации в ней класси- подходящими).
фикатора MSC. Помимо вышеописанных, между терминами мо-
гут существовать также и другие, ассоциативные
Тезаурусы в описании информации связи, если понятия, обозначаемые этими термина-
Для описания какой-либо предметной области ми, как-либо связаны между собою по своему смыс-
всегда используется определенный набор терминов, лу, за исключением описанных выше иерархических
каждый из которых обозначает или описывает ка- связей.
кое-либо понятие или концепцию из данной пред- В многоязычных тезаурусах существуют также
метной области. Совокупность терминов, описы- связи эквивалентности между терминами на разных
вающих данную предметную область, с указанием языках. Выделяют полную (строгую) эквивалент-
семантических отношений (связей) между ними ность, и несколько видов частичной (нестрогой)
является тезаурусом. Такие отношения в тезаурусе смысловой эквивалентности терминов на разных
всегда указывают на наличие смысловой (семанти- языках.
ческой) связи между терминами. Тезаурус часто содержит комментарии к терми-
Основным отношением (связью) между терми- нам, раскрывающие для пользователя смысл терми-
нами в тезаурусе является связь между более широ- на, а также поясняющие, как следует его использо-
кими (более выразительными) и более узкими (более вать.
Тезаурусы применяются, прежде всего, для
классификации и поиска информационных ресур-
Труды 5ой Всероссийской научной конференции «Элек- сов. При этом каждому ресурсу могут быть сопос-
тронные библиотеки: перспективные методы и тех- тавлены одно или более понятий, описываемых
нологии, электронные коллекции» - RCDL2003, Санкт- терминами в тезаурусе, а пользователь, осуществ-
Петербург, Россия, 2003.
ляющий поиск, может по тезаурусу найти интере- личие связи BTP подразумевает наличие связи
сующие его понятия в данной предметной области, BT.
а также все характеризующие их термины. То есть A BTP B Ö A BT B.
на основе связей тезауруса происходит расширение • NT, NTG, NTP – Narrower Term, Narrower Term
поискового запроса (расширение слов запроса си- Generic, Narrower Term Partitive. Обращение
нонимичными, более общими или более частными связей BT, BTG и BTP соответственно.
по смыслу терминами). Навигация по связям тезау- A NT B Ù B BT A; A NTG B Ù B BTG A; A
руса помогает четче сформулировать сам запрос. NTP B Ù B BTP A.
Существует ряд стандартов разного уровня зна- • RT – Related Term. Ассоциативная связь. Связы-
чимости и проработанности на формат представле- вает семантически связанные между собою тер-
ния тезаурусов. Эти стандарты представляют тезау- мины, не находящиеся при этом в одной иерар-
рус в виде набора объектов нескольких типов, меж- хии, и не являющиеся синонимами или квазиси-
ду которыми может быть несколько типов связей. нонимами. Эта связь проставляется в тех случа-
Некоторые стандарты (например, стандарт ях, когда пользователю тезауруса может быть
ANSI/NISO Z39.19-1993) регламентируют также полезно осуществлять поиск или индексацию не
формат представления тезауруса в линеаризованном только по данному термину, но и по связанному
(текстовом) виде, пригодном для восприятия, как с ним. Связь должна быть двунаправленной
машиной, так и человеком. (симметричной):
A RT B Ù B RT A.
Стандарты ISO и ANSI/NISO Z39.19-1993 Структура многоязычных тезаурусов регламентиру-
Основными документами, регламентирующим ется стандартом ISO 5964-1985. В нем, помимо всех
формат представления тезауруса, являются стандар- вышеперечисленных связей и требований к ним,
ты ISO 2788-1986 для описания одноязычных тезау- есть также связи между эквивалентными терминами
русов, и ISO 5964-1985 для многоязычных. на разных языках. Существуют следующие типы
Стандарт ISO 2788-1986 определяет тезаурус, таких связей:
как набор терминов, связанных между собою соот- • Полная эквивалентность
ветствующими связями (отношениями). • Неполная эквивалентность (значения терминов
Термины могут иметь следующие атрибуты: не совпадают, но пересекаются)
• SN – Scope Note. Комментарий к термину. На- • Частичная эквивалентность (значение одного
пример, представляет вербальное пояснение термина шире, чем значение другого)
термина, или правила его использования. • Эквивалентность один ко многим (значение од-
• TT – Top Term. Признак, Выделяющий термины ного термина соответствует совокупности зна-
на самом верхнем уровне иерархии (термины чений нескольких терминов).
наиболее общих понятий в данной иерархии по-
нятий). Американский стандарт ANSI/NISO Z39.19-1993
Связи между терминами могут быть следующими: расширяет и уточняет стандарт ISO 2788-1986 для
• USE – Связывает термин с наиболее предпочти- одноязычных тезаурусов, а также накладывает ряд
тельным (на том же языке) термином для данно- дополнительных ограничений на структуру тезауру-
го понятия. A USE B = термин B является наи- са. Основные его отличия следующие:
более предпочтительным для понятия, обозна- Добавлены новые связи между терминами:
чаемого термином A. • BTI – Broader Term Instance. Вариант связи BT в
• UF – Used For. Обращение связи USE. Связыва- случае, когда термин характеризует элемент
ет наиболее подходящий термин с синонимами и класса, или частный случай понятия, определяе-
квазисинонимами (менее подходящими терми- мого более общим термином. Например, «Кав-
нами). A UF B Ù B USE A. каз» и «горные районы». Наличие связи BTI
• BT – Broader Term. Связь термина с термином подразумевает наличие связи BT.
более общего понятия. A BT B = термин B обо- A BTI B Ö A BT B.
значает более общее понятие по сравнению с • NTI – Narrower Term Instance. Обращение связи
понятием, обозначаемым термином A. BTI.
• BTG – Broader Term Generic. Вариант связи BT в A NTI B Ù B BTI A.
случае, когда термин характеризует разновид- • GS – Generic Structure. Это иерархическая связь,
ность понятия, определяемого более общим тер- используемая для визуального представления те-
мином. Например, «Попугаи» и «птицы». Нали- зауруса. Она может не соответствовать структу-
чие связи BTG подразумевает наличие связи BT. ре связей BT/NT. Эта связь используется потому,
A BTG B Ö A BT B. что визуальное представление полииерархиче-
• BTP – Broader Term Partitive. Вариант связи BT ской структуры, образуемой связями BT/NT за-
в случае, когда термин характеризует часть по- труднительно и ненаглядно.
нятия, определяемого более общим термином. • USE+ – Use … and… Связь один ко многим. Ис-
Например, «математика» и «теория чисел». На- пользуется, когда для данного термина более
предпочтительными является совокупность не-
скольких терминов. Например, «Угольные шах- классификаторы в разных отраслях науки, напри-
ты» USE+ «Уголь» and «Шахты». мер, MSC [13], PACS [14], DDC [15].
• UF+ – Обращение связи USE+. Структура классификатора соответствует струк-
Добавлены также атрибуты термина: туре обычного тезауруса, поскольку связи между
• ID – Identifier. Уникальный идентификатор тер- его рубриками по смыслу те же, что и между терми-
мина. нами тезауруса, и классификатор является его част-
• HN – History Note. История модификации связей ным случаем. Однако при классификации в соответ-
и атрибутов данного термина. ствие ресурсам ставятся не термины, а обозначае-
В стандарте указаны следующие ограничения на мые ими понятия. Потому в схеме данных инфор-
структуру тезауруса: мационной системы понятия тезауруса должны
• Из термина, не являющегося наиболее подходя- быть выделены в самостоятельные объекты. Это
щим для какой-либо концепции, могут исходить означает, что такая схема должна иметь структуру,
только связи USE и USE+, а входить только свя- отличную от вышеописанных стандартов, в которых
зи UF и UF+. Никаких других связей этот тер- понятия не выступают отдельными объектами, а
мин иметь не может. есть лишь термины и связи между ними. В то же
• Термин не может иметь связи с самим собою. время, схема должна позволять работать с тезауру-
• Одна пара терминов не может иметь 2 или более сами, описанными в соответствии с этими стандар-
связи (за исключением случаев, когда одна связь тами, т.е. быть совместима с ними.
следует из другой по правилам стандарта). Среди связей между терминами в вышеописан-
Стандарт ANSI/NISO Z39.19-1993 помимо структу- ных стандартах следует различать связи, которые по
ры регламентирует также и другие аспекты созда- смыслу характеризуют фактически соотношения не
ния, представления и поддержки тезаурусов. Одна- между терминами, а между термином, и обозначае-
ко это выходит за рамки рассмотрения данной ста- мым им понятием. К таковым относятся связи Use и
тьи. Used For. В схеме данных для информационной
Следует заметить, что данный стандарт не может системы стоит ставить такие связи между понятия-
полноценно представлять в тезаурусе антонимы. ми и терминами, которые их обозначают.
Наиболее предпочтительный термин, имеющий ан- Аналогично, иерархические и ассоциативные
тоним, должен быть связан с ним связью Use. При связи по смыслу являются связями между понятия-
этом термин-антоним не может иметь других свя- ми. Признак Top Term также является признаком
зей, кроме этой. Однако иногда антоним сам по себе понятия, находящегося на вершине иерархии поня-
реализует одно из представленных в тезаурусе по- тий.
нятий, включенное, в частности, в общую иерархию Таким образом, получается следующее отобра-
понятий, и является для него наиболее предпочти- жение связей между терминами в стандартах ISO и
тельным термином. Например, в вычислительной ANSI для одноязычных тезаурусов на отношения в
математике есть «линейные вычислительные зада- схеме данных информационной системы: Те связи,
чи» и «нелинейные вычислительные задачи». В которые допустимы между наиболее предпочти-
этом случае в рамках данного стандарта между ни- тельными терминами для каких либо понятий, в
ми нельзя установить отношение, показывающее схеме данных информационной системы становятся
антонимичность этих понятий. отношениями между понятиями. Те связи, которые
были допустимы между наиболее предпочтитель-
Особенности применения тезаурусов в ным термином и другими терминами данного поня-
информационных системах. тия, становятся отношениями между понятием и
термином.
Модель данных Как указывалось выше, в многоязычных тезау-
Описанные выше стандарты были разработаны для русах термины имеют атрибут язык, на котором
представления тезаурусов в виде, удобном для руч- данный термин обозначает данное понятие. Кроме
ной индексации информационных ресурсов. Такая того, стандартом ISO 5964-1985 предусматривается
модель может быть также использована для машин- ряд отношений эквивалентности между терминами
ной индексации с целью осуществления последую- на разных языках, допускающие, помимо строгой
щего поиска по ключевым словам. эквивалентности, несколько видов неполной экви-
Однако существует ряд тезаурусов, основная за- валентности терминов. По смыслу атрибут язык –
дача которых не индексация ресурсов, а их класси- свойство термина, а не понятия. В то же время тер-
фикация. В этом случае основными объектами та- мины на разных языках, между которыми есть толь-
ких тезаурусов (классификаторов) выступают не ко частичная эквивалентность, строго говоря, соот-
термины, а понятия (рубрики), и, часто, идентифи- ветствуют разным, пусть и близким, понятиям [6].
цирующие их уникальные идентификаторы (коды Таким образом, более естественной в схеме дан-
классификации). Отношения в таком тезаурусе – не ных тезауруса для информационных систем будет
семантические связи между терминами, а характе- привязка языка к терминам, а не к понятиям. Более
ризующие логику описываемой предметной области того, такой подход является единственно возмож-
отношения между понятиями (рубриками). Приме- ным для классификаторов, в которых именно неза-
рами таких тезаурусов могут служить тематические висящие от языка понятия классифицируют другие
ресурсы. Обычно такие классификаторы изначально Платформа реализации тезауруса, требования
создаются как одноязычные, и лишь потом для них Semantic Web
делаются переводы на другие языки. В этом случае Модель данных тезауруса, в том числе и учиты-
между терминами на разных языках имеет место вающая все перечисленные выше требования, мо-
только строгая эквивалентность, поскольку при пе- жет быть создана практически на любой платформе
реводе для каждого термина дается его строгий эк- представления онтологий. В частности, существуют
вивалент (который является эквивалентом по опре- модели тезаурусов на основе Topic Maps [11], RDF
делению, в контексте данного классификатора, даже [4, 6], DAML [5].
если фактически перевод не совсем точен). Привяз- Однако для того, чтобы реализация тезауруса
ка языка к понятию означала бы необходимость могла в полной мере соответствовать концепциям
делать отдельную копию одного и того же понятия проекта Semantic Web, на нее накладываются сле-
для каждого языка, и делать отдельную связь между дующие требования:
каждой копией понятия и классифицируемым им 1. Синтаксическая и семантическая интеропера-
ресурсом. Привязка языка к термину привязать все бельность. Любое приложение, работающее в
эквивалентные термины на разных языках к одному соответствии с требованиями Semantic Web
и тому же понятию. должно иметь возможность работать с тезауру-
Однако в тезаурусах, где много отношений не- сом без предварительного согласования форма-
полной эквивалентности между разноязычными тов.
терминами, а также имеются разные иерархии для 2. Расширяемость тезаурусов. При необходимости
терминов на разных языках, даже полностью экви- любое приложение должно иметь возможность
валентные термины могут оказаться в разных ие- может добавить в открытый тезаурус свои эле-
рархиях, а значит, не могут быть привязаны к одно- менты, и использовать его в таком расширенном
му понятию. Все это означает, что для поддержки виде для своих нужд.
многоязычных тезаурусов схема данных должна 3. Расширяемость модели. Схема данных должна
предусматривать описанные в стандарте ISO соот- допускать расширения и детализацию. То есть
ношения эквивалентности между терминами на раз- любое приложение должно иметь возможность
ных языках, как отношения между понятиями. При добавить в модель новые типы ресурсов и свя-
этом для каждого тезауруса, в зависимости от его зей, в частности детализировать уже сущест-
специфики, необходимо сделать выбор, каким обра- вующие, если это, например, необходимо для
зом реализовывать отношение полной эквивалент- описания нестандартного тезауруса. В то же
ности между разными терминами: время приложения, не знающие о таком расши-
1. Приписывать термины к разным понятиям, и рении, должны иметь возможность корректно
ставить между понятиями отношение полной эк- работать с этим тезаурусом в рамках прежней
вивалентности. модели, имея доступ к той части данных тезау-
2. Приписывать термины к одному и тому же поня- руса, которая в нее вписывается.
тию. Эти требования накладывают ограничения и на
Очевидно, для классификаторов необходимо ис- платформы реализации тезауруса. Например, плат-
пользовать второй подход, а для многоязычных те- форма Topic Maps [10] в формате XTM в целом
заурусов, имеющих разные иерархии на разных удовлетворяет пунктам 1 и 2, но не удовлетворяет
языках – первый. Следует заметить, что тезаурус, в пункту 3. Наиболее соответствует перечисленным
котором есть отношение неполной эквивалентности, требованиям платформа RDF, а так же ее расшире-
по смыслу уже подразумевает наличие разных ие- ния (например, DAML+OIL) [19]. Платформа RDF
рархий на разных языках, а значит, необходим пер- принята также в качестве основной для описания
вый подход при их реализации. онтологий в Semantic Web.
Еще одним важным атрибутом термина в тезау-
русе является комментарий к нему (Scope Note). В Подходы к описаниям тезаурусов
тезаурусах-классификаторах, где, по сути, первично В этом разделе рассмотрены некоторые сущест-
понятие, а не термин, комментарий, как правило, вующие схемы данных на основе RDF, предложен-
также характеризует понятие. Однако, в других те- ные в качестве стандартов для описания тезаурусов
заурусах комментарий может относиться именно к в информационных системах.
термину. Например, описывать случаи предпочти- Формат представления многоязычного тезауруса
тельного употребления именно этого синонима пе- в RDF, разработанный в рамках проекта LIM-
ред другими. Таким образом, в разных тезаурусах BER.
комментарии могут относиться, как к понятиям, так Данный формат изначально разрабатывался для
и к терминам. Выбор зависит от конкретного тезау- многоязычного тезауруса ELSST (European Lan-
руса. Универсальная схема данных в информацион- guage Social Science Thesaurus) [4]. Однако в на-
ной системе должна допускать оба варианта приме- стоящий момент LIMBER [3] предлагает данную
нения комментариев. модель как универсальную, для представления мно-
гоязычных тезаурусов.
“This hierarchy
• Указатель на корневую концепцию данной ие-
value is …” рархии (TopOfHierarchy)
“english”
in language of
scope note Существуют следующие связи между понятиями на
has type of
разных языках:
• Строгая эквивалентность (ExactEquivalent)
has scope of

top concept

• Нестрогая эквивалентность (InexactEquivalent)


concept is related to concept concept “hierarchy”

narrower
top concept
• Частичная эквивалентность (PartialEquivalent)
“english”
broader
“EN620” • Эквивалентность типа «один ко многим» (One-
in language of
concept
classification code ToManyEquivalent)
Used for
has scope of
“to be used Эта модель хорошо подходит для описания много-
only for
term preferred term
value Platonic язычных тезаурусов, в которых существуют разные
term
scope note
relationships”
иерархии терминов на разных языках. Однако здесь
value
in language of has type of
язык термина является атрибутом понятия, а не
“regular”
термина. Как было описано выше, такая модель не-
удобна для описания многоязычных классификато-
value
Exact equivalent “english”
“mates”

ров ресурсов, в которых понятия семантически не


“friends” “Ce mot en
has scope of
Anglais n’est связаны с каким-либо определенным языком.
que utilis? pour
classification code
concept
value les relations Схема данных тезауруса ILRT
“FR620” Platonique”
scope note
Эта схема данных строилась в расчете на работу не
in language of
Used for in language of
has type of только с тезаурусами в обычном, «лингвистиче-
“french”
“french” “translation”
ском» смысле, но и с классификаторами. Потому
язык термина привязан не к понятию, а к самому
“amis”
value
term
термину, а термины на разных языках, точно экви-
валентные друг другу, привязаны к одному и тому
же понятию. Термины на разных языках, не имею-
Пример описания тезауруса в схеме данных LIMBER щие строгой эквивалентности, должны быть отне-
сены к разным понятиям.
Модель имеет следующие основные типы объектов Модель предполагает 2 уровня детализации опи-
(ресурсов): сания тезауруса. Первый уровень реализует связи,
• Понятие (Consept) предусмотренные стандартом ISO 2788-1986 для
• Термин (Term) одноязычных тезаурусов, а также атрибут «язык»
• Комментарий (ScopeNote) для терминов. Второй уровень детализации пока не
• Язык (LanguageCode) оформлен в виде RDFS, и предполагает детализа-
Существуют следующие свойства понятий: цию ряда связей 1 уровня детализации. Например,
• Уникальный идентификатор (ClassificationCode) связь «более общее понятие» распадается на 3 RDF-
связи, реализующие 3 описанных выше вида этой
• Язык (inLanguageOf)
связи. Аналогично происходит детализация других
• Комментарий к понятию (hasScopeNote)
связей.
• Наиболее предпочтительный термин По сути, эта схема предназначена для одноязыч-
(PreferredTerm) ных тезаурусов и для тезаурусов-классификаторов,
• Менее предпочтительный термин (UsedFor) поскольку механизм полной поддержки многоязыч-
Существуют следующие свойства комментариев: ных тезаурусов никак не прописан, а обозначено
• Язык (inLanguageOf) только направление, как это можно сделать в рам-
• Тип (hasTypeOf). Существуют следующие типы ках данной модели.
комментариев: Особенностью данной модели, в сравнении с
o General. Комментарий к понятию на основ- предыдущей, является отсутствие избыточных свя-
ном языке тезауруса (один из языков тезауру- зей оптимизирующих скорость исполнения запро-
са в модели выделяется как основной или сов. Например, нет связи «более широкое понятие»,
главный). поскольку оно является обращением связи «более
o Translation. Комментарий на неосновных узкое понятие». Отсутствует также связь понятий с
языках. самыми верхними понятиями включающих их ие-
o Hierarchy. Признак понятия, находящегося на рархий, поскольку она тоже вычисляется из иерар-
вершине иерархии. хических связей. Это накладывает дополнительные
o History. Пометки об истории изменения этого ограничения на техническую реализацию такой мо-
понятия в предыдущих версиях тезауруса. дели. В частности, традиционные способы реализа-
Существуют следующие связи между понятиями ции графов не позволят за один шаг вычислить кор-
одного языка: невую вершину иерархии для произвольного поня-
• Более широкое понятие (BroaderConsept) тия.
• Более узкое понятие (NarrowerConsept) Модель тезауруса DRC
• Связанное понятие (isRelatedTo) Эта модель наиболее точно соответствует модели
одноязычного тезауруса ISO 2788-1986. В частно-
сти, в нем отсутствует класс понятий, и все связи Интерфейс просмотра тезауруса должен:
существуют только между терминами. Некоторые • Показывать все атрибуты данного термина или
связи детализированы, в частности выделены раз- понятия.
ные виды связей менее предпочтительными терми- • Показывать, с какими терминами и понятиями
нами. Модель реализована на языке DAML [16]. связан данный термин или понятие.
Стоит выделить одну явную ошибку этой моде- • Достаточно наглядно показывать пользователю
ли. Связь Related Term является транзитивной, что место термина или понятия в иерархии понятий
не соответствует действительности. Например, свя- тезауруса.
занными терминами являются транспортировка Первые 2 пункта выполнимы, если показывать
нефти и трубы для нефтепроводов, а также трубы пользователю для каждого понятия тезауруса на
для нефтепроводов и стальной прокат. Однако отдельном экране (странице) все его атрибуты, все
прямой связи между понятиями транспортировка связанные с ним термины (на всех или на опреде-
нефти и стальной прокат, очевидно, нет [4]. ленном языке), и все связанные с ним понятия. Ин-
Поскольку в модели нет понятий, как отдельных терфейс должен при этом обеспечивать переход к
объектов, она не удобна для реализации классифи- странице просмотра любого из перечисленных на
каторов. данной странице понятий. Если в тезаурусе схемой
данных разрешена привязка термина более чем к
Интерфейсы работы с тезаурусом в одному понятию, на той же странице для каждого
информационных системах термина должны быть перечислены также понятия,
Просмотр тезауруса и поиск ресурсов к которым еще привязан данный термин. Если у
В информационной системе тезаурус является не понятия есть термины на других языках, не полно-
только самостоятельным информационным ресур- стью эквивалентные данному понятию, или полно-
сом, но и инструментом для классификации или стью эквивалентные, но прикрепленные в силу
индексации ресурсов. Таким образом, пользователь структуры данного тезауруса к другим понятиям, на
информационной системы должен иметь возмож- странице должны присутствовать ссылки на стра-
ность: ницы этих понятий.
• Осуществлять просмотр тезауруса. Наглядно показать пользователю место термина
• Осуществлять поиск ресурсов по ассоциирован- или понятия в тезаурусе достаточно сложно, по-
ным с ними терминам или понятиям. скольку достаточно наглядное отображение поли-
Поиск ресурсов может вестись двумя способами: иерархической структуры на одной странице, в от-
• Поиск по ключевым словам, используя тезаурус. личие от иерархии, сложно, как для отображения,
• Навигация по тезаурусу. То есть поиск сначала так и для восприятия пользователем. В общем слу-
нужного понятия в тезаурусе с последующим за- чае невозможно будет обойтись без пересекающих-
просом ресурсов, соответствующих этому поня- ся линий, показывающих иерархические связи меж-
тию. ду понятиями. Потому будет правильно показать
При поиске ресурсов по ключевым словам поиско- только часть понятий и связей, которая, с одной
вая система может, используя тезаурус, расширять стороны, была бы легко отображаемой и восприни-
результаты поиска, выдавая пользователю не только маемой, и в то же время достаточно наглядно пока-
ресурсы, соответствующие введенным пользовате- зывала бы место понятия в общей иерархии поня-
лем ключевым словам, но и ресурсы, соответст- тий.
вующие связанным с ними терминам, или терми- Если тезаурус имеет строго древовидную струк-
нам, обозначающим также более узкие понятия от- туру, то представление дерева обычно осуществля-
носительно исходного термина. Например, если ется следующими способами:
пользователь ищет ресурсы, соответствующие тер- 1. Отрисовка пути по дереву от корня к текущему
мину «туннель», в результатах поиска необходимо элементу. Например, [18].
выдать также все ресурсы, соответствующие терми- 2. Отрисовка пути по дереву от корня к текущему
ну «тоннель», поскольку оба они являются разными элементу, а также соседей каждого предка теку-
вариантами написания одного и того же слова. Или щего элемента. Например, [17]
если ищутся ресурсы, соответствующие понятию 3. Отрисовка всего дерева целиком. Обычно в та-
дифференциальные и функциональные уравнения, ких случаях пользователь может открывать и за-
имеет смысл включить в результаты поиска также крывать отображение на экране потомков любых
ресурсы, соответствующие рубрике системы функ- узлов. Например, программа «Проводник» («Ex-
циональных уравнений и неравенства. Система по- plorer») в операционных системах Microsoft
иска может также, используя тезаурус, подсказать Windows.
пользователю, по каким еще словам ему стоит осу- При обычной реализации дерева в реляционной БД,
ществить поиск (например, квазисинонимы, связан- когда все элементы дерева хранятся в одной табли-
ные термины, более широкие термины, и т.д.). Оба це, и каждый элемент имеет атрибут-указатель на
этих варианта использования тезауруса широко непосредственного предка, для отрисовки дерева в
применяются, например, в поисковых машинах первых двух случаях можно обойтись одним запро-
Internet. сом к БД. Это достигается хранением избыточной
информации в таблице дерева.
В случае полииерархической структуры первые • Удалить понятие и все его связи. При удалении
2 из вышеописанных способов также могут быть понятия все его потомки, не имеющие других
применены. Но в этом случае необходимо задать предков, могут либо удаляться вместе с ним, ли-
путь от корня полииерархии к текущей вершине, по бо выделяться в отдельную иерархию.
которому будет произведена отрисовка. Это может • Удалить связь между понятиями. При удалении
быть путь, которым пользователь пришел к данной иерархической связи понятие-потомок и все его
странице при навигации по структуре тезауруса, потомки, не имеющие других предков, могут ли-
или некий «путь по умолчанию» (например, путь по бо удаляться вместе с ним, либо выделяться в
остовному дереву полииерархии). отдельную иерархию.
Известные алгоритмы отрисовки дерева одним • Добавить/изменить наиболее подходящий тер-
запросом к реляционной БД здесь неприменимы. мин для данного понятия на некотором языке.
Однако максимальное количество запросов к БД Должно обеспечиваться ограничение: Для каж-
будет равно максимальной длине пути по полиие- дого понятия не более одного наиболее подхо-
рархии тезауруса, которая, как правило, сопостави- дящего термина на каждом языке.
ма с логарифмом от общего количества понятий, • Добавить/изменить менее подходящий термин
что вполне приемлемо для информационной систе- для данного понятия на некотором языке. При
мы. Примером реализации такого подхода может добавлении добавляется также связь к этому
служить [18] (см. интерфейс добавления сайта в термину и указывается тип этой связи.
каталог). • Добавить связь определенного типа между
Еще один вариант отображения полииерархии – термином и понятием. Должно обеспечиваться
построение остового дерева, и отображение его вы- ограничение: для каждого термина не более од-
шеописанными способами. В этом случае для каж- ной связи с одним и тем же понятием.
дого элемента тезауруса необходимо выделить из • Изменить тип связи между термином и поня-
всех его предков одного, связь с которым и станет тием.
связью остового дерева (см., например, [17]). В не-
• Добавить/изменить комментарий к связи меж-
которых тезаурусах заложено решение проблемы
ду термином и понятием на некотором языке.
отображения именно таким путем. Специальная
• Удалить термин и все его связи.
связь Generic Structure не имеет значимого семанти-
• Удалить связь между термином и понятием.
ческого смысла, и служит лишь для отображения
Если термин не имеет других связей, он также
тезауруса как древовидной структуры в интерфей-
удаляется.
сах и в печатном виде [2].
Возможно также построение и отрисовка полно- • Изменить код (идентификатор) понятия.
го дерева путей по полииерархии тезауруса. Однако • Изменить код (идентификатор) термина.
размер такого дерева может оказаться недопустимо • Добавить/изменить комментарий к понятию.
большим. Например, в случае полииерархии типа Должно обеспечиваться ограничение: не более
«сетка рабица» (каждый элемент, кроме крайних, одного комментария к одному понятию на одном
имеет ровно по 2 предка и по 2 потомка). языке.
Еще один вариант отображения положения эле- • Добавить/изменить комментарий к термину.
мента в полииерархии, который будет, вероятно, Должно обеспечиваться ограничение: не более
полезен для пользователя – отрисовка всех соседей одного комментария к одному термину на одном
всех его непосредственных предков. Это будет, по языке.
сути, двухмерная таблица, легко отображаемая на Интерфейсы администрирования должны включать
экране. и использовать интерфейсы просмотра тезауруса
Администрирование тезауруса для поиска тех понятий, терминов, комментариев и
Интерфейсы администрирования тезауруса должны связей, которые должны быть изменены. Интерфей-
обеспечивать выполнение следующих операций: сы редактирования могут быть также частично ин-
• Добавить новое понятие к тезаурусу. При до- тегрированы в интерфейсы просмотра (в виде до-
бавлении добавляется так же связь с некоторым бавленных органов управления в окнах просмотра).
другим уже существующем в тезаурусе поняти-
ем. Указывается тип этой связи. Подход к описанию тезауруса в ИСИР
• Добавить связь определенного типа между по-
нятиями. Должно обеспечиваться ограничение: Формулировка задачи
не более одной связи между двумя понятиями.
При добавлении иерархической или ассоциатив- Для информационной системы ИСИР реализа-
ной связи добавляется так же парная к ней об- ция тезауруса должна удовлетворять следующим
ратная связь (A BT BÙ B NT A; A RT BÙ B свойствам:
RT A). 1. Позволять хранить любые существующие тезау-
русы, в частности, любые классификаторы,
• Изменить тип связи между понятиями. Должно
имеющие структуру тезауруса в соответствии со
обеспечиваться ограничение: Связь RT запреще-
стандартами ISO 2788-1986 и 5964-1985. В том
на между понятиями, одно из которых является
предком другого.
числе, реализация должна позволять работать с o ID. Уникальный идентификатор, или код
многоязычными тезаурусами. рубрики классификатора. Необязательный
2. Позволять, используя тезаурус, индексировать атрибут. Этот атрибут присутствует только
ресурсы терминами данного тезауруса, а также тогда, когда он имеет смысловую нагрузку в
классифицировать ресурсы понятиями тезауру- тезаурусе, и не заменяет внутренний систем-
сов-классификаторов. При этом работа с обоими ный или технический ID записи в базе дан-
видами тезаурусов должна осуществляться еди- ных.
нообразно. o IsTop. Имеет истинное значение, если данное
3. Позволять осуществлять просмотр (навигацию) понятие является самым верхним в иерархии.
по тезаурусу, а также поиск ресурсов, проиндек- • Term. Термин. Имеет следующие атрибуты:
сированных или классифицированных тезауру- o Value. Написание (наименование) термина на
сом. То есть реализация должна обеспечивать данном языке.
эффективное выполнение необходимых для это- o Lang. Язык термина
го запросов, а именно: o ID. Код термина. Необязательный атрибут.
• Получить значение атрибута понятия. Этот атрибут присутствует только тогда, ко-
• Получить все понятия, связанные с данным гда он имеет смысловую нагрузку в тезауру-
понятием, связями заданных видов (для свя- се, и не заменяет внутренний системный или
зей в соответствии со стандартами ISO или технический ID записи в базе данных.
их детализаций). • ScopeNote. Комментарий к понятию, термину,
• Получить самые верхние понятия в иерархии или отношению.
понятий, в которую входит данное понятие. o Value. Значение комментария на данном язы-
• Получить все термины, связанные с данным ке.
понятием, связями заданных видов (для свя- o Lang. Язык комментария.
зей в соответствии со стандартами ISO или • Concept Relation. Реализует отношение (связь)
их детализаций). между понятиями, снабженное комментарием.
• Получить все термины на данном языке, свя- • Term Relation. Реализует отношение (связь) меж-
занные с данным понятием связями заданных ду понятием и термином, снабженное коммента-
видов (для связей в соответствии со стандар- рием.
тами ISO или их детализаций). Связи между объектами классов тезауруса
• Получить все термины на данном языке, свя- • Связи между понятиями. Здесь все связи явля-
занные связями заданных видов (для связей в ются не связями в смысле RDFS, а экземплярами
соответствии со стандартами ISO или их де- класса Concept Relation. Каждый такой экземп-
тализаций) с данным понятием, или с поня- ляр отношения имеет связи с соответствующим
тиями, связанными с данным понятием дан- объектом и субъектом данной связи Concept Re-
ными связями эквивалентности терминов на lation.
разных языках. o Broader Concept
• Получить значение атрибута термина. o Narrower Concept
• Получить все понятия, связанные с данным o Related Concept
термином, связью данного вида (для связей в o Top Concept
соответствии со стандартами ISO или их де- o Equivalent. Для эквивалентности терминов на
тализаций). разных языках. Имеет подсвойства (специа-
• Получить все термины, содержащие данное лизации):
слово (или ключевое слово). • Exact Equivalent
• Получить полную иерархию понятий тезау- • Inexact Equivalent
руса. • Partial Equivalent
• Получить полный список терминов тезауру- • Single To Multiple Equivalent
са. • Non Equivalent
4. Быть расширяемой. То есть допускать детализа- • Связи между понятием и термином:
цию при необходимости некоторых связей, а так o Preferred Term
же добавление новых связей. o Nonpreferred Term. Имеет подсвойства:
• Synonym. Синоним
Описание схемы данных • Antonym. Антоним
Данная схема данных написана исходя из сооб- • Связи между понятием, термином или отноше-
ражений, сформулированных в разделе «Тезаурусы нием, и комментарием
в описании информации», а также в соответствии с o Has Scope Note
вышеперечисленными требованиями. Схема данных Данная модель имеет важное отличие от описанных
основана на платформе RDF. ранее стандартов и моделей: Один термин может
Классы модели иметь связь с несколькими понятиями. Например,
• Concept. Понятие. Имеет следующие атрибуты: для одного понятия быть наиболее предпочтитель-
ным термином, а для другого – антонимом. Ограни-
чение, привязывающее каждый термин строго к
одному понятию существенно в моделях, где поня- Term 20Gxx Linear algebraic groups (clas-
тия не являются отдельными объектами. В этом sical groups)
случае термин мог дублироваться в иерархии не- RT For arithmetic theory, see
11E57, 11H56
сколько раз, чтобы разным понятиям соответство- NT 20G05 Representation theory
вали заведомо разные вершины в графе представле-
ния тезауруса. Однако в модели с понятиями, как 11E57 20xx

отдельными объектами, такое ограничение уже не thes:code


thes:code True

оправдано. For arithmetic theory En concept thes:IsTop

False
Ряд тезаурусов, например, математический клас- thes:value thes:language concept
thes:IsTop
сификатор MSC, имеют отношения между понятия- scopeNote
Thes:objectconcept Thes:TopConcept

ми, которые нельзя отнести строго к какому-либо из thes:description


Thes:Related

определенных в стандарте типов, либо такое отно- conceptRelation


Thes:subjec
concept

шение требует уточнения (пример см. ниже). Как Thes:code


Thes:objectconcept
Thes:TopConcept

правило, таких отношений в тезаурусе очень мало, а 20Gxx

потому нецелесообразно для них выделять отдель- Thes:PreferredTerm


conceptRelation

Thes:subject

ные типы отношений. Средством описания таких termRelation


Thes:Broader Thes:subject 20G05

отношений может стать приписывание такого от- Thes:objectterm Thes:code


thes:IsTop
ношения к одному из базовых существующих ти- term
False concept Thes:Equivale
t

пов, с добавлением к нему комментария, характери- thes:language


Thes:PreferredTerm
Thes:PreferredTerm

Thes:subject
concept

зующего его особенности. В данной модели тезау- Thes:value


termRelation
Thes:subject

termRelation
руса любое отношение между понятиями, или меж- Linear algebraic En Thes:objectterm
Thes:objectterm
ду понятием и термином может быть снабжено groups
(classical groups) term
комментарием на любом языке. term
thes:language
Данный подход позволит также минимизировать Thes:value
thes:language
Thes:value

неминуемое дальнейшее расширение и детализацию Representation theory En


Теория представления
наборов связей между терминами или понятиями, Ru

которая сейчас наблюдается в различных моделях и


национальных стандартах (например, ANSI), по-
скольку, как альтернативу детализации, можно ис- Литература
пользовать комментарии к связям специального
[1] Thesaurus Construction
вида.
http://instruct.uwo.ca/gplis/677/thesaur/main00.htm
Ограничения модели
[2] Thesaurus Format: Nusearch Standard Specification
Ограничения этой модели включают прежде все-
http://www.excavio.com/pdf/wp_nusearch_thesauru
го известные ограничения стандарта ISO. В данной
s_spec.pdf
модели они приобретают следующий вид (в форму-
[3] LIMBER (Language Independent Metadata Brows-
лах ниже A и B – понятия, T – термин):
ing of European Resources) project:
• A Broader Concept BÙ B Narrower Concept A.
http://www.limber.rl.ac.uk/
• A Related Concept BÙ B Related Concept A. [4] A Thesaurus Interchange Format in RDF
• ∀ A ∃! T: A Preferred Term T (единственность http://www.limber.rl.ac.uk/External/SW_conf_thes_
для каждого языка). paper.htm
• A Related Concept B Ö B не является ни пред- [5] Hall, M. (2001) CALL Thesaurus Ontology in
ком, ни потомком A. DAML.
В дополнение к этим, модель имеет еще следующие http://orlando.drc.com/daml/ontology/Thesaurus/CA
ограничения, вытекающие из предыдущих рассуж- LL/
дений: [6] RDF Thesaurus Specification
• ∀ A ∃ B: A Top Concept B. http://ilrt.org/discovery/2001/01/rdf-thes/
• ∃ A: B Broader Consept A Ö IsTop( B ) = false. [7] Web Thesaurus Compendium
RDFS-схема Http://www.darmstadt.gmd.de/~lutes/thesoecd.html
RDFS-схема для данной модели тезауруса не может [8] ISO2788: Guidelines for establishment and devel-
быть здесь приведена по причине ограниченности opment of monolingual thesauri, 2 nd ed., Geneva:
объема статьи. Ее можно найти в Internet по URL ISO1986.
http://mathnet.ru/project/rdfs/thesaurus.rdfs. [9] ISO5964: Guidelines for establishment and devel-
Ниже приведен пример описания одной из руб- opment of multilingual thesauri, 1 st ed., Geneva:
рик классификатора MSC на официальном сайте ISO1985.
MSC http://www.ams.org/msc , а так же графически [10] Steve Pepper, The TAO of Topic Maps
отражено представление этой рубрики и ее связей http://www.ontopia.net/topicmaps/materials/tao.htm
на двух языках в данной модели. l
В целях экономии места из всех более узких поня- [11] Thesaurii, Techquila
тий данной рубрики в реальном MSC здесь оставле- http://www.techquila.com/tmsinia3.html
но только три.
[12] Semantic Web project
http://www.w3.org/2001/sw/ Approaches to description and using thesauri
[13] Mathematical Subject Classification (MSC) in information systems
http://www.ams.org/msc
[14] Physics and Astronomy Classification Scheme A. S. Ajiev, H .M. Nguyen
(PACS) http://www.aip.org/pacs/
[15] Dewey Decimal Classification (DDC) The paper contains consideration of different ap-
http://www.oclc.org/dewey/ proaches to thesauri formalization. Consideration is
[16] DARPA Agent Markup Language (DAML) given also to ISO and ANSI thesauri standards. Analy-
http://www.daml.org/ sis was given for some possible platforms for the for-
[17] Информационная система ИСИР malization and description was given for peculiarities
http://uis.isir.ras.ru and problems involved. Also requirements are given to
[18] Каталог ресурсов «Кирилл и Мефодий» thesaurus realization in Semantic Web [12].
http://search.km.ru/url/index.asp Consideration was given for peculiarities and dis-
[19] Бездушный А.А., Бездушный А.Н., Нестеренко tinctions between resource classifiers and common ter-
А.К., Серебряков В.А., Сысоев Т.М. Архитекту- minological and linguistic thesauri. Comparative analy-
ра RDFS-системы. Практика использования от- sis was given for existing RDF-based data schemes and
крытых стандартов и approaches for thesauri for information systems. Con-
технологий в системе ИСИР. 5 Всероссийская sideration was given also for user and administrative
научная конференция RCDL-2003. interfaces and using them in information search and
access.
In the second part of the paper basing on analysis
done requirements are stated to thesauri description in
ISIR [17]. ISIR RDFS data scheme for ISIR is stated
and a small example of MSC realization in the scheme
is given.