Вы находитесь на странице: 1из 520

О. Н.

Ляшевская
О.
О. Н.
Н. Ляшевская
Ляшевская

К
КОРПУСНЫЕ
ОРПУСНЫЕ ИНСТРУМЕНТЫ
ИНСТРУМЕНТЫ
В
В ГРАММАТИЧЕСКИХ
ГРАММАТИЧЕСКИХ
ИССЛЕДОВАНИЯХ
ИССЛЕДОВАНИЯХ
РУССКОГО
РУССКОГО ЯЗЫКА
ЯЗЫКА

ИЗДАТЕЛЬСКИЙ ДОМ ЯСК


ИЗДАТЕЛЬСКИЙ ДОМ ЯСК
ИЗДАТЕЛЬСКИЙ
РУКОПИСНЫЕ ПАМЯТНИКИДОМ ЯСК
ДРЕВНЕЙ РУСИ
МОСКВА 2016
МОСКВА 2016
КОРПУСНЫЕ ИНСТРУМЕНТЫ
В ГРАММАТИЧЕСКИХ ИССЛЕДОВАНИЯХ
РУССКОГО ЯЗЫКА
Olga
Olga Lyashevskaya
Lyashevskaya

C ORPUS IINSTRUMENTS
CORPUS NSTRUMENTS
FOR R
FOR RUSSIAN
USSIAN
G
GRAMMAR
RAMMAR
S
STUDIES
TUDIES

LRC PUBLISHING HOUSE


LRC PUBLISHING HOUSE
LRC PUBLISHING
THE MANUSCRIPT HOUSE
HERITAGE OF OLD RUS
MOSCOW 2016
MOSCOW 2016
81.1
80/81
99

-28-2014

. .

:
. - . . . . , . . . . .

. .
29
. — .: :
, 2016. — 519 .

ISBN 978-5-9907947-8-8
-
.
(http://ruscorpora.ru), -
- , - , - -
. , -

( )
, - .

-
: , -
, ,
.

80/81
81.1

« », 1911

ISBN 978-5-9907947-8-8 © . H., 2016


© , 2016

,
.
СОДЕРЖАНИЕ

Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

Часть 1. Развитие корпусных инструментов и технологий

1.1. Национальный корпус русского языка и его аннотация . . . . . . . . . . . . . . . . . . . . 13

1.2. Словоизменение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.1. Морфологический стандарт корпуса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.2. Пополнение грамматического словаря по корпусным данным . . . . . . . . . . 40
1.2.3. Соревнования морфологических анализаторов . . . . . . . . . . . . . . . . . . . . . . 49
1.3. Лексико-семантические классы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3.1. Принципы лексико-семантической разметки . . . . . . . . . . . . . . . . . . . . . . . . 64
1.3.2. Разрешение лексико-семантической неоднозначности с помощью
векторов контекстных маркеров . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
1.4. Интерфейс морфосинтаксиса и семантики . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
1.4.1. Аннотация лексических конструкций в системе ФреймБанк . . . . . . . . . . 112
Приложение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
1.4.2. Распознавание семантических ролей на основе ФреймБанка . . . . . . . . . . 176
1.4.3. Автоматическая синтаксическая аннотация корпуса и соревнования
парсеров зависимостей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
1.5. Словообразование . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

1.6. Частотные словари на базе корпуса . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224


1.6.1. Частотный словарь современного русского языка . . . . . . . . . . . . . . . . . . . 225
1.6.2. Частотный лексико-грамматический словарь . . . . . . . . . . . . . . . . . . . . . . . 246

Часть 2. Квантитативные подходы к исследованию на корпусных данных

2.1. Векторное представление корпусных данных и профили контекстного


«поведения» языковых единиц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

2.2. Грамматические профили . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279


2.2.1. Грамматическая специализация глаголов в формах времени
и наклонения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279
6 Содержание

2.2.2. К описанию дистрибуции форм единственного и множественного числа


имен существительных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
2.3. Конструкционные профили . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
2.3.1. Конструкционные профили приставочных видовых пар . . . . . . . . . . . . . . 338
2.3.2. Инкорпорация и экскорпорация в глагольном управлении: участник
«часть тела» . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
2.3.3. Инструментальная и генитивная конструкция формы
имен существительных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
2.4. Семантические профили: классы глаголов и выбор видовых приставок . . . . . . 382

2.5. Радиальный профиль значения: пространственная конструкция


с предлогом поверх . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407

Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 430

Приложения
Приложение 1 ......................................................... 435
Приложение 2 ......................................................... 457
Приложение 3 ......................................................... 468
Приложение 4 ......................................................... 474

Библиография . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 480

Принятые сокращения . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 514


Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Предисловие

Корпусная лингвистика — довольно молодое направление лингвистической


науки. Национальному корпусу русского языка исполнилось 10 лет, а самому ста-
рому представительному корпусу объемом более 100 миллионов словоупотребле-
ний, Британскому Национальному, — всего 25 лет. Прежде всего уточним, что
термин «корпусная лингвистика» предполагает два понимания: это и наука о том,
как создавать лингвистические корпуса, и методы исследования языка с привлече-
нием корпусных данных. Обычно считается, что созданием корпусов занимаются
инженеры и программисты, а исследованиями на данных корпуса — собственно
лингвисты. В случае Национального корпуса русского языка это не так: корпус со-
здавался лингвистами и для лингвистов (хотя и с помощью «инженеров»). Мне по-
везло несколько раз: в начале двухтысячных оказаться в отделе Лингвистических
исследований ВИНИТИ РАН, когда только появилась и начала реализовываться
идея Национального корпуса; затем в отделе корпусной лингвистики и лингви-
стической поэтики Института русского языка им. В. В. Виноградова, где ведется
основная работа над корпусом; после этого в Институте лингвистики Университе-
та Тромсё, где были начаты первые исследования Национального корпуса с помо-
щью квантитативных методов; и наконец в НИУ «Высшая школа экономики», где
собралась замечательная команда исследователей русского языка. Так и получи-
лось, что я работаю в обоих направлениях корпусной лингвистики.
Соответственно, книга, которую вы держите перед собой, тоже имеет две
части. Первая часть посвящена лингвистической аннотации текстов Националь-
ного корпуса русского языка (ruscorpora.ru) на разных уровнях: словоизменения,
словообразования, синтаксиса и семантико-синтаксического интерфейса, лекси-
ко-семантических классов. Мы обсуждаем исходные теоретические установки,
связанные с системой аннотации, разработку вспомогательных лингвистических
ресурсов (словарей и баз данных), компьютерных инструментов разметки и самое
интересное — то, что я бы назвала «сопротивлением материала», — описание
сложных случаев языкового материала, которые могут вызвать трудности как при
автоматической аннотации, так и при ручной разметке. Чуть выходя за рамки задач
непосредственно Национального корпуса, мы обращаемся к вопросам стандарта
оценки автоматической разметки текстов и рассказываем о двух инициативах в об-
ласти компьютерной лингвистики — о соревнованиях морфологических и синтак-
сических парсеров. В конце первой части описываются производные корпуса —
частотные словари, которые можно построить на корпусных данных.
8 Предисловие

Во вторую часть входят работы по исследованию грамматики и лексики рус-


ского языка квантитативными корпусными методами. Понятие грамматического
«поведения» языковых единиц в применении к корпусу видится как распределение
разного рода элементов в контексте. Это грамматический профиль (распределение
форм словоизменения), конструкционный профиль (распределение конструкций
некоторой «целевой» лексемы), лексический, лексико-семантический профиль
(распределение лексем или лексико-семантических классов в контексте другой лек-
семы или конструкции), радиальный профиль значения (распределение значений /
частных употреблений языковой единицы). С помощью методов грамматического,
конструкционного, семантического профилирования мы анализируем граммати-
ческую специализацию русских глаголов по формам вида, времени и наклонения;
вариативность образования приставочных видовых пар с разными приставками;
ограничения на заполнение слотов и связанные с этим вариации значения в гени-
тивной конструкции формы и в пространственной конструкции с предлогом по-
верх. Квантитативные методы, привлекаемые для анализа, разнообразны: от чисто
описательных частот и процентных долей до теста Фишера и регрессии.
Создание корпусов и квантитативные исследования, требующие масштабной
доразметки корпусных данных, — дело чрезвычайно трудоемкое, и его приятнее
делать в коллективе. Поэтому в этом предисловии я бы хотела поблагодарить моих
соавторов, с которыми мне посчастливилось работать в наших многочисленных
корпусных проектах: В. А. Плунгяна и Д. В. Сичинаву (морфологическая разметка
корпуса, см. Ляшевская и др. 2005в) пополнение грамматического словаря, см. (Ля-
шевская и др. 2007), Е. В. Рахилину, Г. И. Кустову, Е. В. Падучеву, О. Ю. Шемана-
еву, Б. П. Кобрицова, Т. И. Резникову (лексико-семантическая разметка корпуса и
разрешение неоднозначности, см. Kustova et. al. 2009; Шеманаева и др. 2007; Рахи-
лина и др. 2006), C. Ю. Толдову (синтаксическая разметка корпуса), Ю. Л. Кузне-
цову, М. С. Кудинова и Е. В. Кашкина (проект ФреймБанк, см. Кузнецова, Ляшев-
ская 2009; Кашкин, Ляшевская 2013; Lyashevskaya, Kashkin 2014), Е. А. Гришину,
М. Г. Тагабилеву, И. Б. Иткина, Е. К. Павлову (словообразовательная разметка кор-
пуса, см. Гришина и др. 2009), А. А. Бонч-Осмоловскую, Е. Г. Соколову, С. О. Сав-
чук, С. А. Коваля, еще раз С. Ю. Толдову и команду студентов МГУ (И. Астафьева,
А. Королева. М. Ионов, М. Кудринский, Д. Привознов, Евг. Сидорова и мн. др.),
с которыми мы организовывали соревнования парсеров (см. Ляшевская и др. 2010;
Толдова и др. 2012; Gareyshina et al. 2012; Bonch-Osmolovskaya et al. 2013), С. А. Ша-
рова, моего соавтора по частотному словарю (Ляшевская, Шаров 2009). Вместе
с А. В. Десятовой и А. А. Маховой мы делали проект по топологической классифи-
кации лексики и исследованию пространственных конструкций (см. Махова и др.
2009; Десятова и др. 2008), с О. А. Митрофановой, П. В. Паничевой, С. В. Рома-
новым, Н. С. Кузнецовой, М. А. Грачковой, А. С. Шимориной и А. С. Шурыги-
ной — проект по автоматическому разрешению лексико-семантической омонимии,
а с В. Г. Сибирцевой и Н. В. Карповым — проекты по использованию материалов
корпуса в учебных целях. Наконец, самые большие слова благодарности — основа-
Предисловие 9

телям исследовательской лаборатории CLEAR group Университета Тромсё Л. Янде,


Т. Нессету, С. В. Соколовой, (снова) Ю. Л. Кузнецовой, А. Б. Макаровой и А. В. Эн-
дресен (Байдимировой), вместе с которыми мы учились применять квантитативные
корпусные инструменты к данным Национального корпуса русского языка. Я еще
раз благодарю своих соавторов за любезное разрешение использовать материалы
наших совместных статей в этой книге. Первоначальные варианты многих глав
были опубликованы в материалах конференции «Диалог» — и мы бесконечно бла-
годарны ее организаторам и слушателям за многолетний интерес к публикациям
разработчиков Национального корпуса.
Особенные слова должны быть посвящены светлой памяти безвременно ушед-
шего И. В. Сегаловича. Илья одним из первых поддержал идею Национального
корпуса, щедро делясь своей позитивной энергией и креативными идеями на се-
минарах разработчиков корпуса. По инициативе Ильи «Яндекс» стал основным
техническим партнером корпуса и инициировал исследовательские гранты, с по-
мощью которых были проведены первые математические исследования на мате-
риалах корпуса. Тут же мы должны произнести много теплых слов благодарности
в адрес других сотрудников компании «Яндекс», которые на протяжении более
десятка лет обеспечивают техническую поддержку корпуса и терпят все капризы
лингвистов-разработчиков: А. И. Зобнина, И. Е. Шалыминова, Н. В. Григорьева,
А. В. Сокирко, А. А. Аброскина, В. А. Титова, С. А. Григорьеву, Е. С. Грунтову и др.
И еще: огромное спасибо студентам трех московских вузов, МГУ, РГГУ и НИУ
ВШЭ, принимавших участие в наших проектах в качестве разметчиков. Корпус не
был бы таким, какой он есть, без ваших усилий.
В европейской традиции принято благодарить не только научных руководите-
лей, начальников, учителей и коллег, но и тех, с кем просто пил чай. Я бы хотела
поддержать эту прекрасную традицию и назвать тех, кто был рядом, помогал, спа-
сал, создавал хорошее творческое настроение и беседовал за чаем о лингвистике и
не только: Ю. Родина, М. Пост, Д. Пинеда, П. Иосад, М. Панчева, Х. Андреассен,
Л. Антонсен, Р. Михайлык, М. Нордрум, Д. Папрот, Т. Горностай, А. Недолужко,
А. Бердичевский, Х. Экхофф, А. Рубин, О. Урюпина, М. Кронгауз, М. Даниэль,
Н. Добрушина, Е. Добрушина, В. Апресян, Б. Орехов, Т. Архангельский, Ю. Лан-
дер, А. Летучий, Я. Ахапкина, Д. Алексеевский, О. Виноградова, А. Марушкина,
Т. Никитина, Н. Слюсарь, В. Файер, Ю. Галямина, Ю. Кувшинская, М. Худякова,
Т. Ряпина, Н. Зевахина, С. Князев, Б. Иомдин, Н. Стойнова, П. Браславский, П. Ар-
кадьев, С. Сай, М. Овсянникова, А. и Л. Ландманы, И. Микулинская, Л. Кацман,
В. Гусев, Н. Галицкая, С. Бурлак, В. Степанов, Т. Михайлова, Е. Марголис, Б. Кро-
тов, Е. Калинина, В. Цуканова, Г. Дурново, Н. и А. Горовые, Н. и О. Сидоренковы,
Е. Шаульский, А. Занадворова, Е. Ягунова, Л. Пивоварова, М. Копотев, М. и А. Бе-
ловы, И. и Ю. Ребриковы, Е. и А. Ребриковы и многие, многие другие. В заключе-
ние я хочу произнести слова признательности моим родителям Н. С. и Н. Ф. Ля-
шевским, моему мужу Саше и сыновьям Егору и Степе. Спасибо вам за терпение,
сочувствие и поддержку.
10 Предисловие

Текст всей книги внимательно прочитали А. Ч. Пиперски, Е. В. Ягунова,


А. Я. Шайкевич и официальные рецензенты М. Р. Пентус и И. В. Азарова. Я бес-
конечно благодарна им за вдумчивые замечания и уточнение ряда формулировок.
Безусловно, все оставшиеся несообразности — недоработка автора. Моя глубокая
благодарность В. В. Столяровой, Е. Г. Сметанниковой, И. В. Богатыревой, осуще-
ствившим техническую подготовку издания к печати.

* * *
Рукопись монографии подготовлена при поддержке Научного фонда НИУ
ВШЭ, индивидуальный исследовательский проект № 14-01-0069, 2014-2015. Из-
дание осуществлено с помощью издательского гранта Фонда фундаментальных
лингвистических исследований, грант № B-28, 2014/2015 гг.
ЧАСТЬ 1

РАЗВИТИЕ КОРПУСНЫХ
ИНСТРУМЕНТОВ И ТЕХНОЛОГИЙ
1.1. Национальный корпус русского языка
и его аннотация

Принципам составления, разметки и использования представительных кор-


пусов языков мира посвящена уже довольно объемная коллекция литературы,
см. (O’Keeffe, McCarthy 2010; McEnery, Hardie 2012; McEnery, Wilson 2001; Togn-
ini-Bonelli 2001; Захаров, Богданова 2011; Большакова и др. 2011); статьи жур-
нала International Journal of Corpus Linguistics, материалы конференций «Corpus
Linguistics», LREC, COLING и т. п., тематические сборники статей в ведущих из-
дательствах мира, онлайн-курсы по корпусной лингвистике, профессиональная
email-рассылка Corpora List и мн. др. Документацию по Национальному корпусу
русского языка можно найти в сборниках (НКРЯ 2003—2005; НКРЯ 2006—2008;
НКРЯ 2012—2014), в публикациях конференций «Диалог», MegaLing, CORPORA,
«Манускрипт» и т. д. (многие публикации доступны на сайте корпуса http://rus-
corpora.ru и на обучающем портале http://studiorum.ruscorpora.ru). Очень коротко,
схема создания корпуса выглядит следующим образом:
• собрать и технически подготовить электронные версии текстов (в соответствии
с заранее продуманным планом объема, временнóго и жанрово-тематического
баланса текстовой коллекции);
• расклассифицировать тексты по сфере употребления, жанру, тематике, автор-
ству, времени создания, источнику происхождения и т. п. и приписать соответ-
ствующий набор условных ярлыков-тегов каждому тексту (мета-текстовая ан-
нотация);
• каждому слову текста приписать набор тегов частеречной принадлежности,
леммы (словарной формы, начальной формы слова), других словоизменитель-
ных признаков (лексико-грамматическая аннотация);
• каждому предложению, отдельным словам, группам и составляющим припи-
сать сведения о синтаксическом типе языковой единицы и типе синтаксическо-
го отношения между элементами (синтаксическая аннотация);
и т. п. — каждому языковому уровню, как правило, соответствует свой уровень
аннотации в корпусе, начиная от кодирования фонетических цепочек и знаков пре-
пинания и заканчивая аннотацией дискурсивных стратегий и референциальных
отношений. Иными словами, корпус — это коллекция текстов, в которую «воткан»
длинный шлейф лингвистических знаний о каждой большой и малой единице язы-
ковой структуры.
14 1.1. Национальный корпус русского языка и его аннотация

Остается занести в базу данных координаты каждого аннотированного элемен-


та, создать индексы для быстрого поиска, подключить словари для расширения
возможностей поиска, загрузить все данные в специальную программу (корпус-
менеджер, желательно работающий онлайн) и... корпусом можно пользоваться как
информационно-справочной системой.
В качестве примера на рис. 1 приведено XML-представление разметки очень ко-
роткого фрагмента текста, где на три словоформы Цены в них приходится 79 строк
разметки (и это не считая метаразметки, касающейся всего текста). Данный при-
мер будет выдан, в числе прочих, поисковой системой корпуса, если пользователь
задаст какой-либо признак (или комбинацию признаков) из тех, что содержатся
в корпусной разметке.
В зависимости от типа исходного текста (включая звучащие источники в виде
аудио- или видеофайлов, старые газеты, рваные объявления на заборе и т. п.), объ-
ема корпуса и задач, для которых он создается, будут различаться технологии
первичной подготовки, количество уровней аннотации и детализированность си-
стемы тегов на каждом уровне, технологии самой разметки. Например, медиафай-
лы корпуса кинофильмов понадобится очистить от шумов, разрезать на короткие
клипы, разметить временны́е границы реплик, сделать транскрипт звучащей речи,
произвести разметку транскрипта как письменного текста, добавить разметку уда-
рений, интонации, жестикуляции и мимики говорящего и т. п. В корпус древних
документов имеет смысл добавить уровень представления графического вида слов
и строк в рукописи, «перевод» на современный язык и, возможно, даже коммен-
тарии исследователей относительно возможных вариантов интерпретации текста.
Кстати, небольшую коллекцию древних документов можно разметить вручную —
тогда как для аннотации 100-миллионного корпуса новостей понадобится автома-
тическая программа.
Слово «технология» мы упоминаем не случайно: разметка корпуса — это всегда
компромисс между наличием доступных компьютерных программ, электронных
словарей, списков слов и других структурированных источников лингвистических
данных, временем разметки и стоимостью оплаты труда разметчиков, а также тре-
буемым качеством разметки в смысле полноты и точности.
О полноте и точности разметки требуется сказать отдельно. Для разных уров-
ней аннотации полнота определяется по-своему, но в целом имеется в виду два
понимания: количество элементов корпуса (слов, предложений, жестов и т. п.),
охваченных аннотацией, и количество признаков и противопоставлений, учи-
тываемых уровнем аннотации. Так, например, в корпусе может быть размечена
морфемная структура всех слов vs. только самых частотных (сплошная — выбо-
рочная аннотация); все типы синтаксических отношений vs. синтаксические от-
ношения, связывающие только предикат и его зависимые (богатая аннотация —
бедная аннотация).
1.1. Национальный корпус русского языка и его аннотация 15

<word text="Цены"> <word text="в"> <word text="них">


<ana> <ana> <ana>
<el name="lex"> <el name="lex"> <el name="lex">
<el-group> <el-group> <el-group>
<el-atom>цена</el-atom> <el-atom>в</el-atom> <el-atom>они</el-atom>
</el-group> </el-group> </el-group>
</el> </el> </el>
<el name="gramm"> <el name="gramm"> <el name="gramm">
<el-group> <el-group> <el-group>
<el-atom>S</el-atom> <el-atom>PR</el-atom> <el-atom>SPRO</el-atom>
<el-atom>inan</el-atom> </el-group> <el-atom>3p</el-atom>
<el-atom>f</el-atom> </el> <el-atom>pl</el-atom>
<el-atom>pl</el-atom> </ana> <el-atom>loc</el-atom>
<el-atom>nom</el-atom> <ana/> </el-group>
</el-group> </word> </el>
</el> <text> </text> </ana>
</ana> <ana>
<ana> <el name="sem">
<el name="sem"> <el-group>
<el-group> <el-atom>r:pers</el-atom>
<el-atom>r:abstr</el-atom> </el-group>
<el-atom>t:param</el-atom> </el>
</el-group> </ana>
</el> <ana/>
</ana> </word>
<ana> <text> </text>
<el name="flags">
<el-group>
<el-atom>animred</el-atom>
<el-atom>capital</el-atom>
<el-atom>first</el-atom>
<el-atom>numred</el-atom>
<el-atom>posred</el-atom>
</el-group>
</el>
</ana>
</word>
<text> </text>
Рис. 1. XML-представление аннотации фрагмента текста НКРЯ: начало предложения Цены в них ниже, чем
1
Рис. 1. XML-представление аннотациив фрагмента
обычных магазинах
текста НКРЯ: начало предложения
Цены в них ниже, чем в обычных магазинах1
Неточность разметки происходит в первую очередь из омонимии
(неоднозначности), свойственной языку на самых разных уровнях. В приведенном
1 примере аннотации (рис. 1) словоформе цены теоретически можно приписать две
В аннотации представлены лексико-грамматический (теги lex и gramm) и лексико-
взаимоисключающие пары тегов — gen sg (род. падеж ед. числа) и nom pl (им. падеж мн.
семантический (тег sem) уровни аннотации, а также уровень дополнительных «флагов».
числа)2, а словоформе них — взаимоисключающие теги gen, acc и loc (род., вин. и предл.
Полный список значений помет содержится на странице http://ruscorpora.ru. Под тегами
падеж). Это омонимия на уровне словоизменения (грамматическая омонимия).
word и lex приводятся орфографический вид словоформы и лемма соответственно. Далее,
в данном примере комбинация S, inan, f, pl, nom обозначает неодушевленное существи-
тельное
1
женскогопредставлены
В аннотации рода в форме им. падежа мн. числа
лексико-грамматический (цены);
(теги lex и gramm)PRи — предлог (в); SPRO,
лексико-семантический (тег sem)
уровни аннотации,
3p, pl, loc (них) а также уровень
— местоимение дополнительных
3 лица «флагов».
в форме предл. Полный(них).
падежа списокИнформация
значений помето содержится
лек-
на странице http://ruscorpora.ru. Под тегами word и lex приводятся орфографический вид словоформы и
сико-семантических разрядах и группах, к которым относятся слова, кодируется тегами
лемма, соответственно. Далее, в данном примере комбинация S, inan, f, pl, nom обозначает неодушевленное
r:abstr, t:param (абстрактное
существительное параметрическое
женского рода имя)мн.и числа
в форме им. падежа r:pers(цены);
(личное
PR —местоимение). Флаги
предлог (в); SPRO, 3p, pl, loc
capital и—
(них) first обозначают
местоимение первое
3 лица слово
в форме предл.впадежа
предложении, написанное
(них). Информация с заглавной буквы;
о лексико-семантических разрядах и
группах,
posred, к которым
animred, numredотносятся слова,что
указывают, кодируется
в словетегами r:abstr, t:param
повторяются (абстрактное
значения параметрическое
признаков части речи, имя) и
r:pers (личное местоимение). Флаги capital и first обозначают первое слово в предложении, написанное с
заглавной буквы; posred, animred, numred указывают, что в слове повторяются значения признаков части
речи, одушевленности и числа предыдущего слова (в данном случае последнего слова предшествующего
предложения).
2
Поскольку ударение в электронной версии исходного текста не проставлены, статус омографов (ценЫ и
цЕны) такой же, как и статус других омоформ, ср. лечу как форму глаголов лечить и лететь.
16 1.1. Национальный корпус русского языка и его аннотация

Неточность разметки происходит в первую очередь из омонимии (неоднознач-


ности), свойственной языку на самых разных уровнях. В приведенном примере
аннотации (рис. 1) словоформе цены теоретически можно приписать две взаимо-
исключающие пары тегов — gen sg (род. падеж ед. числа) и nom pl (им. падеж
мн. числа)2, а словоформе них — взаимоисключающие теги gen, acc и loc (род.,
вин. и предл. падеж). Это омонимия на уровне словоизменения (грамматическая
омонимия). Местоимение них может быть размечено как кореферентное одному
из ранее упомянутых существительных, на выбор: супермаркет, костел и стра-
на — это омонимия на уровне аннотации анафоры и кореференции. Глагол загнуть
может быть аннотирован как глагол каузации изменения положения в пространст-
ве (ср. загнуть палец) и глагол интерпретации речи (ср. Ну ты загнул, брат!) —
это омонимия на лексико-семантическом уровне3 и т. п.
В корпусной лингвистике омонимию технически определяют как альтерна-
тивные комбинации тегов разметки, которые можно приписать языковой едини-
це, если не знать контекста ее употребления. Разрешение омонимии — это выбор
наиболее подходящего варианта, исходя из контекста. Эта задача может быть по-
ручена либо аннотатору-человеку, либо компьютерной программе. Компьютерная
программа принимает решение, руководствуясь правилами, созданными лингви-
стами, или основываясь на статистической вероятностной модели. Например, пра-
вило выбора грамматических характеристик слова Цены может быть таким: «По
умолчанию слово в начале предложения <начинающееся с заглавной буквы> стоит
в именительном падеже»). Статистическая вероятностная модель сама предлагает
множество подобных правил, в этом случае используется машинное обучение на
ранее размеченной человеком части корпуса.
По точности разрешения омонимии компьютерные программы (пока еще)
значительно уступают человеку, однако аннотатор не может быстро обработать
миллионы контекстов в корпусе и, как замечено, в 3—5 % случаев все равно
делает ошибки — по невнимательности, из-за недостатка лингвистической ком-
петенции или недостаточной последовательности в принятии сложных решений.
Производительность и последовательность может быть существенным фактором
и для выбора порога точности в компьютерных приложениях. Простые, но менее
точные алгоритмы могут оказываться более предпочтительными для обработки

одушевленности и числа предыдущего слова (в данном случае последнего слова предшест-


вующего предложения).
2
Поскольку ударения в электронной версии исходного текста не проставлены, статус
омографов (ценЫ и цЕны) такой же, как и статус других омоформ, ср. лечу как форма гла-
голов лечить и лететь.
3
Заметим, что полисемия и омонимия в корпусной аннотации обычно не противопо-
ставляются. Таким образом, варианты семантических тегов для полисемичного глагола за-
гнуть, для разных пониманий приставочного глагола запустить (ср. ‘каузировать летать’
и ‘привести в неудовлетворительное состояние’), для «чистых» омонимов типа лук (ср. ‘ра-
стение’, ‘оружие’, новое ‘фотография’) ничем не отличаются по статусу.
1.1. Национальный корпус русского языка и его аннотация 17

больших массивов корпусных данных. И наконец, заметим, что в целом далеко


не всегда очевидно, что разрешенная омонимия — это абсолютное благо. Ска-
жем, поиск в корпусе глаголов деформации и изменения пространственного по-
ложения (ср. загнуть) в роли глаголов речи, т. е. поиск с учетом «генетического»
фактора или «внутренней структуры», — вполне осмысленная лингвистическая
задача.
Потребности потенциального пользователя корпуса — это, пожалуй, самое важ-
ное, что влияет на содержание аннотации корпуса. Различают корпусы, созданные
исследователями для себя и под свои конкретные исследовательские нужды (на-
пример, материалы фольклорных исследований или полевых экспедиций в малые
языки), и общепользовательские корпусы, которые рассчитаны на многообразные
нужды ученых, студентов, преподавателей языка и т. д. Национальные корпусы
относятся ко второму типу. Если при разметке корпуса «для себя» исследователь
может вводить какие угодно и очевидные только ему пометы, то разметка больших
общепользовательских корпусов предполагает соблюдение ряда принципов:
• «очевидность» принятых помет и системы их противопоставления;
• наличие стандарта принятия решений при разметке данных.
Идеально, чтобы система используемых признаков была общепринята в сооб-
ществе потенциальных пользователей, например известна из стандартного школь-
ного / университетского курса или описана в общепризнанной академической
грамматике. Если признаки полагаются неизвестными «рядовому» пользователю,
они должны быть просты для усвоения. В практике создания национальных кор-
пусов обычно комбинируют бóльшую часть общеизвестных, традиционных помет
с небольшим количеством помет, которые пользователь может освоить в короткое
время.
Стандартная инструкция по разметке данных на том или ином уровне важна по-
тому, что обычно эта задача поручается команде аннотаторов. Соответственно, они
должны использовать одну и ту же систему помет и в идеальном случае принимать
одинаковые решения в похожих типах контекстов. Стандарт аннотации включает
описание принципов аннотации, наиболее характерные и сложные случаи исполь-
зования тегов, а также сам тагсет — классификацию помет, желательно со стати-
стикой их встречаемости в уже размеченной части корпуса.
Далее в этой части книги мы расскажем о нескольких проектах разметки кор-
пуса, в которых принимал участие автор. Во второй главе речь пойдет о лексико-
грамматической разметке, т. е. определении леммы, части речи и характеристик
словоизменения словоформ. Глава охватывает задачи создания морфологического
стандарта, создания ресурсов для разметки (электронного грамматического слова-
ря) и проведения экспертизы качества работы компьютерных приложения.
Во третьей главе мы обратимся к лексико-грамматической разметке. Речь пой-
дет о принципах классификации лексики по группам типа «имена инструментов»,
«глаголы речи», «прилагательные цвета» и т. п., а также об экспериментах по раз-
решению лексической неоднозначности в контексте.
18 1.1. Национальный корпус русского языка и его аннотация

Четвертая глава посвящена разметке синтаксических и семантических отноше-


ний между элементами предложения, в частности о реализации в тексте лекси-
ческих конструкций глагола (моделей управления и фразем). Описаны принципы
создания ресурса ФреймБанк, основанного на данных Национального корпуса
русского языка, а также представлен опыт оценки качества работы синтаксических
парсеров.
В пятой главе мы обращаемся к представлению словообразовательной инфор-
мации в корпусе.
Шестая глава описывает опыт создания частотных словарей на базе корпуса.
1.2. Словоизменение

1.2.1. Морфологический стандарт корпуса *


Эта глава посвящена теоретическим и практическим вопросам представления
морфологической информации в корпусе текстов современного русского языка
(вторая половина XX — начало XXI в.). Основой унифицированной аннотации язы-
ковых единиц является морфологический стандарт корпуса — совокупность реше-
ний, связанных со структурой морфологических категорий, с составом парадигмы
слова и с единообразной трактовкой спорных вопросов русской грамматики. Эти
решения должны, с одной стороны, учитывать грамматическую традицию и быть
понятными для пользователей корпуса, а с другой стороны, должны допускать воз-
можность практической реализации в технологическом процессе разметки.
Существующий опыт теоретического обсуждения и практического создания
морфологически размеченных корпусов показывает, что можно выделить две край-
ности в подходах к аннотированию языковых единиц. Первый подход, который
можно назвать формально-морфологическим, предполагает, что каждой встречен-
ной в тексте словоформе, отличающейся по внешнему виду от других словоформ,
присваивается некоторый ярлык вне зависимости от реально стоящей за ней грам-
матико-семантической или синтактико-семантической информации. Например,
русской словоформе брата всегда приписывается ярлык «родительный падеж»,
даже если в некотором контексте эта словоформа с точки зрения «школьной» грам-
матики интерпретируется как винительный падеж: Я привел своего брата. То же
касается информации о лексемной принадлежности словоформы: у омонимичных
словоформ типа были (от глагола быть) и были (от существительного быль) исход-
ной формой всегда будет считаться инфинитив глагола быть.
Второй подход, который можно назвать углубленным семантическим, нацелен
на извлечение как можно более полной семантической информации, связанной
с данной словоформой. Примером ярлыков в корпусе, размеченном согласно такой

*
Первоначальный вариант текста опубликован в виде статей: Ляшевская О. Н., Плун-
гян В. А., Сичинава Д. В. О морфологическом стандарте Корпуса современного русского
языка (Ляшевская и др. 2005б); Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфоло-
гическом стандарте Корпуса современного русского языка (Ляшевская и др. 2005а).
20 1.2. Словоизменение

идеологии, могли бы служить пометы «настоящее историческое время» (для сло-


воформ приходит и смотрит во фразе А он вчера приходит и смотрит как-то
странно) или «будущее в значении вежливого побуждения» (для словоформы пе-
редадите во фразе Не передадите ли вы мне соли?).
Формально-морфологический подход часто применяется в прикладной лингви-
стике — в особенности в системах, где используется сплошное автоматическое ан-
нотирование текстов. Он выгоден тем, что позволяет разметить огромные массивы
текстов без участия человека (программа приписывает информацию, руководству-
ясь электронными морфологическими словарями-указателями словоформ). Кроме
того, он прост (для установления морфологических характеристик программе не
требуется анализировать контекст), удобен для статистических исследований, а от-
сутствие морфологической омонимии в разметке (т. е. ситуации, когда одной сло-
воформе приписывается несколько конкурирующих морфологических разборов)
позволяет избежать «комбинаторного взрыва» при автоматическом построении
различных синтаксических и семантических гипотез.
Главный недостаток чисто морфологического подхода становится очевиден,
если размеченный таким способом корпус предлагается пользователю-человеку
(будь то лингвист, школьник, иностранец, изучающий русский язык и т. п.). Не-
подготовленный пользователь будет, по-видимому, весьма озадачен, получив по
запросу «винительный падеж» только формы единственного числа женского рода
на -у / -ю или узнав, что в русском языке родительный падеж употребляется после
предлога за (ср. Рад за брата). Поскольку формально-морфологический подход
предлагает совершенно нестандартный взгляд на грамматику русского языка, иду-
щий вразрез со сложившейся грамматической традицией, размеченный таким
образом корпус будет малопригоден для использования в качестве экспертной си-
стемы по русскому языку.
С другой стороны, разметка текста в соответствии с углубленным семантиче-
ским подходом предполагает кропотливую работу лингвиста-эксперта, который
анализирует особенности контекста, интонационные характеристики высказыва-
ния и т. п. К сожалению, пока не существует компьютерных программ, которые
были бы способны заменить человека на этом направлении и обеспечить должный
уровень адекватности, а значит, нереально обработать таким образом значитель-
ные объемы текстов. Вместе с тем стремление к максимальной детализации грам-
матического значения таит и иную опасность. Разметка субъективна, поскольку
зависит от интуиции эксперта, и, следовательно, повышается вероятность, что
другой носитель русского языка (или другой специалист) окажется не согласен
с предлагаемой трактовкой грамматического значения словоформы.
Таким образом, каждая из представленных крайних точек зрения имеет свои
достоинства и недостатки. В связи с этим идеальным балансом между ними кажет-
ся такой подход к морфологической разметке текста, при котором словоформы раз-
мечаются на уровне традиционных грамматических ярлыков, таких как «родитель-
ный падеж» или «настоящее время», а омонимичным словоформам приписывается
1.2.1. Морфологический стандарт корпуса 21

только одна и «правильная» (т. е. общепринятая в русской грамматической


традиции) характеристика. Именно такой взгляд на устройство морфологической
разметки сформировался в коллективе разработчиков корпуса, см. (Герд, Захаров
2004). Предполагается, что глубина семантической информации о грамматических
формах достаточна для большинства пользователей корпуса1, а задача выбора нуж-
ного значения в принципе алгоритмизуема; таким образом, морфологическая раз-
метка больших по размеру корпусов может быть осуществлена, по крайней мере
в значительной части, при помощи компьютера.
Однако информация о потенциальной грамматической многозначности сло-
воформы, т. е. о морфологической омонимии, также не бессмысленна. Два вида
размеченных текстов — один со снятой омонимией и другой, в котором омонимич-
ным словоформам приписаны все возможные морфологические разборы, — могут
быть полезны не только для тренировки «обучаемых» прикладных программ, но и
для лингвистов, задавшихся вопросом: почему человек «не замечает» морфологи-
ческой омонимии в тексте, например почему он не понимает форму мыла во фразе
Мама мыла раму как форму родительного падежа существительного мыло?
Корпус современного русского языка (вторая половина XX — начало XXI в.)
входит в Основной корпус НКРЯ и состоит из двух подкорпусов — со снятой и
с неснятой грамматической омонимией. Разметка корпуса с неснятой омонимией
осуществляется автоматически, тогда как разметка корпуса со снятой омонимией
в настоящее время происходит в полуавтоматическом режиме (см. ниже) и требует
участия человека. В связи с этим корпус с неснятой грамматической омонимией
существенно превышает по размеру корпус со снятой грамматической омонимией.
В поисковой системе, расположенной на сайте ruscorpora.ru, пользователь может
задать ограничение на поиск по корпусу только со снятой или только с неснятой
грамматической омонимией. Поиск по корпусу с неснятой омонимией дает гора-
здо больше языкового материала, но, поскольку омонимичные формы в нем полу-
чают весь возможный набор разборов, поисковая выдача по этим текстам содер-
жит значительное количество «шума». Однако необходимо понимать, что разборы
в корпусе с неснятой грамматической омонимией не являются ошибочными — они
имеют другой статус: статус гипотетических разборов.
В следующих разделах мы представим технологию морфологической разметки,
применяемую в корпусе2, а затем обсудим особенности трактовки отдельных грам-
матических категорий и форм.

1
Исследователь семантики грамматических категорий сможет сам провести необходи-
мую детализацию значения, выбрав из предоставленного материала, например, по употреб-
лениям форм настоящего времени, примеры на «обычное» настоящее и настоящее истори-
ческое. Скорее всего, разные исследователи сделают это несколько по-разному.
2
Морфологический стандарт, разработанный для текстов Основного корпуса, исполь-
зуется также при разметке текстов газетного, устного, поэтического, мультимедийного, ак-
центологического корпусов и русской части параллельных корпусов. В разметке текстов
22 1.2. Словоизменение

Морфологическая разметка
в корпусе современного русского языка
Морфологическая разметка текста состоит в выделении словоформ и в припи-
сывании каждой словоформе информации о лексемной принадлежности (исход-
ной форме слова) и о совокупности ее грамматических признаков.
В результате морфологической разметки в тексте выделяется несколько видов
текстовых фрагментов:
• русские словоформы (в том числе неопознанные и гипотетические словофор-
мы), состоящие из букв кириллицы и, в редком случае, из знаков дефиса (-)
и апострофа (’): человек, что-то, д’Артаньян;
• арабские или римские цифры, а также словоформы, основанные на цифровой
основе, т. е. состоящие из арабских или римских цифр с добавлением букв ки-
риллицы (часто также знака дефиса): 17, XIX, 17-й, 100-рублевый;
• иноязычные фрагменты текста из словоформ, записанных латинскими, грече-
скими и другими некириллическими буквами (How do you do, p), или из ки-
риллических словоформ, представляющих запись текста на иностранном языке
(Гуд ивнинг, Здоровеньки булы)3;
• знаки препинания: точка, запятая, тире, кавычки, вопросительный, восклица-
тельный знак, двоеточие, многоточие и нек. др.;
• прочие символы типа %, >, $ и др.
Все фрагменты текста, кроме русских словоформ, а в корпусе со снятой грам-
матической омонимией — еще и цифр и словоформ на цифровой основе (для них
используется особая помета ciph), считаются неанализируемыми цепочками сим-
волов.
Морфологическая разметка содержит информацию о словоизменительных, но
не о словообразовательных признаках лексемы. Информация о морфемном со-
ставе лексем представлена в слое словообразовательной разметки (см. главу 1.5).
Деривационно-семантические признаки, такие как «диминутив», «имя деяте-
ля», «сингулятив», «семельфактив», включены в состав лексико-семантической
разметки, представляющей собой расширение морфологической аннотации
(см. главу 1.3.1).

XVIII в. и обучающего корпуса используются различные расширения данного стандарта.


Синтаксический, диалектный и исторические корпуса используют собственные стандар-
ты морфологической разметки. Например, в синтаксическом корпусе представлена другая
система показателей времени глагола, а в корпусе древнерусского языка аннотированы ана-
литические формы (да и сама структура грамматических тегов там, естественно, настроена
на грамматическую систему древнерусского периода).
3
Cловоформы, записанные смесью кириллических, латинских и прочих символов
(e-mail’ы, PRить и т. п.), приравниваются к кириллическим, так как кириллические эле-
менты в их написании говорят чаще всего в пользу адаптации недавних заимствований
к грамматической системе русского языка и о появлении у них словоизменения.
1.2.1. Морфологический стандарт корпуса 23

Совокупность морфологических признаков, приписываемых словоформе в не-


котором значении, называется ее м о р ф о л о г и ч е с к и м р а з б о р о м. Если ка-
кая-либо словоформа отождествляется с несколькими грамматическими значени-
ями (наборами грамматических признаков), то ей изначально приписываются все
возможные разборы. Используемые в морфологической разметке словоизмени-
тельные признаки мы будем называть также грамматическими признаками, а мор-
фологические разборы — грамматическими разборами.
Морфологическая информация, приписываемая произвольному слову в тексте,
состоит из четырех групп помет:
1. Л е к с е м а, которой принадлежит словоформа (указывается «словарная
запись» данной лексемы, т. е. лемма).
2. Множество грамматических признаков данной лексемы, или с л о в о к л а с -
с и ф и ц и р у ю щ и е х а р а к т е р и с т и к и (указываются принадлежность
лексемы к той или иной части речи и признаки, например, рода для сущест-
вительного, переходности для глагола и т. п., а также сведения о несклоняе-
мости имен существительных и прилагательных)4.
3. Множество грамматических признаков данной словоформы, или с л о в о -
и з м е н и т е л ь н ы е х а р а к т е р и с т и к и (например, падеж для существи-
тельного, число для глагола).
4. Информация о н е с т а н д а р т н о с т и грамматической формы и орфогра-
фических особенностях написания словоформы (грамматически аномаль-
ные формы, орфографические искажения, аббревиация типа млн, г-н и т. п.,
написание с заглавной буквы, через дефис, цифровая запись).
Пометы первого, второго и третьего типа записываются в конкретный грамматиче-
ский разбор, пометы четвертого типа приписываются словоформе в целом5.
Морфологическую разметку дополняет так называемая акцентуационная раз-
метка, в которой представлена информация о некоторых особенностях плана выра-
жения словоформы, таких как место ударения и произношение е как «ё»6.
В основу метаязыка грамматических помет, ввиду предполагаемой широкой
международной аудитории пользователей корпуса, положена система сокращенных
помет («тегов») на основе латинского алфавита. В то же время предусмотрена воз-
можность использования при поиске традиционных названий категорий на русском

4
В этой же зоне записываются пометы «фамилия», «имя», «отчество», «зооним» и
«инициал», не являющиеся в строгом понимании словоклассифицирующими грамматиче-
скими характеристиками, но коррелирующие с типом словоизменения лексемы.
5
Поиск по словоформе и лемме доступен в окне «Слово», по словоклассифицирующим
и словоизменительным признакам — в окне «Грамм. признаки», а поиск по нестандартным
пометам — в окне «Доп. признаки» лексико-грамматического поиска НКРЯ.
6
Акцентуационная разметка не применяется в корпусе с неснятой омонимией, т. к.
у омонимичных словоформ может быть несколько вариантов представления, ср. большáя
и бóльшая, лет и лёт.
24 1.2. Словоизменение

языке (в форме «грамматические признаки»). Полный список граммем и их сокра-


щенную латинскую нотацию см. в разделе «Морфология» на сайте ruscorpora.ru.
Приведем пример разбора фразы Вы оста-авите!7:
<w><ana lex="вы" gr="SPRO pl 2p=nom"/>Вы</w>
<w><ana lex="оставить" gr="V pf tran=act fut 2p pl=distort"/>оста-авите</w>!
[Александр Солженицын. В круге первом (т. 1)].

Пример разбора словоформы со смешанным латинско-кириллическим написа-


нием:
<w><ana lex="Ablaut" gr="S m inan=sg dat"/>Ablaut’у</w>.

Как уже было сказано, тексты корпуса размечаются автоматически (по край-
ней мере, на первом этапе) с помощью специальных программ — морфологи-
ческих анализаторов. При разметке используются встроенные в эти программы
морфологические словари, основанные на «Грамматическом словаре русского
языка» А. А. Зализняка (Зализняк 1977/2003). Словари включают имена соб-
ственные, аббревиатуры типа ЦСКА и продуктивные части сложных слов типа
авто-, радио-.
Разметка корпуса с неснятой лексико-грамматической омонимией осуществляется:
• автоматическим морфологическим анализатором, порождающим все потенци-
ально возможные разборы словоформ, а также гипотезы относительно слово-
форм, отсутствующих в словаре8;
• автоматическими фильтрами, поправляющими разборы анализатора в критиче-
ских для разметки корпуса точках, например при разметке частотных новых
слов9;
При разметке корпуса со снятой омонимией тексты последовательно обраба-
тываются:
• автоматически: аналогично предыдущему случаю, связкой автоматического
анализатора и фильтров10;

7
Приводится вариант xml-представления разметки для корпуса со снятой омонимией,
который используется для хранения и обработки текстов корпуса оффлайн. При онлайн-
поиске информация о грамматических разборах хранится в виде индексов.
8
Используется программа «Mystem» (Segalovich 2003; https://tech.yandex.ru/mystem/);
релиз для Национального корпуса русского языка выполнен компанией «Яндекс».
9
Фильтры разработаны А. Е. Поляковым и Д. В. Сичинавой. С их помощью могут до-
бавляться новые или удаляться ошибочные или не встречающиеся в корпусе «паразитиче-
ские» разборы, ср. разбор формы какая как деепричастия.
10
На первых этапах создания НКРЯ использовался вариант программы «Диалинг»
(Сокирко 2004; http://www.aot.ru), который частично прогнозировал правильные разборы
омонимичных словоформ; впоследствии от этой опции решено было отказаться, так как
ошибки программы трудно было проконтролировать. В 2012—2013 гг. для предваритель-
1.2.1. Морфологический стандарт корпуса 25

• вручную: разметчики разрешают морфологическую омонимию во всех остав-


шихся случаях и просматривают весь текст целиком, исправляя допущенные
программами ошибки.
Единообразное представление информации, полученной в результате рабо-
ты программ и разметчиков, обеспечивает морфологиче ский стандарт, раз-
работанный в 2001—2004 гг. В. А. Плунгяном, Д. В. Сичинавой, Г. И. Кустовой,
А. Е. Поляковым и автором этой книги. Стандарт служит теоретической и методо-
логической основой морфологической разметки и включает решения, касающиеся
инвентаря морфологических признаков, состава парадигмы лексемы, ее исходной
формы, представлений о грамматической норме (какие словоформы считаются
стандартными для данной лексемы, а какие аномальными, ср. формы императива
выйди и выдь), приемов идентификации морфологических разборов и проверки
правильности разрешения морфологической омонимии.
Разработчики стандарта морфологической разметки исходили из ряда принци-
пов. Во-первых, как уже было сказано, грамматические признаки, приписываемые
словоформе, должны быть понятны максимально широкому кругу пользователей
и согласоваться с традицией описаний грамматики русского языка. В тех случаях,
когда языковое явление допускает несколько трактовок в русле русской граммати-
ческой традиции (так называемые «спорные вопросы» русистики: сколько роди-
тельных падежей в русском языке — один или два; входит ли форма превосходной
степени в парадигму прилагательного; является ли предикатив особой частью речи
и т. д.), морфологический стандарт обеспечивает единообразное решение этой про-
блемы во всем корпусе, причем по возможности такое, которое было бы приемлемо
с точки зрения сторонников любой из существующих трактовок.
Во-вторых, всем словоформам корпуса, признанным формами русского языка
(а не включенными в русский текст словоформами иностранных языков), должна
быть обязательно приписана некоторая грамматическая характеристика. С этим
связана большая исследовательская работа разработчиков корпуса по выявлению
словоформ, не описываемых нормами русской грамматики и определению их
места в составе или вне состава парадигмы слова.
В-третьих, корпус стремится максимально облегчить для пользователя задачи
поиска морфологической и лексической информации. Именно этим подходом про-
диктовано решение, согласно которому потенциальные pluralia tantum типа взаи-
моотношения — взаимоотношение получают две исходных формы.
Четвертый принцип звучит следующим образом: «Не важно, как названо не-
которое грамматическое явление, важно, чтобы оно могло быть сформулировано
в виде запроса к корпусу». Так, иногда в грамматической традиции существует
несколько обозначений для одного и того же грамматического признака, например
будущее время (совершенного вида) = непрошедшее время (совершенного вида).

ной автоматической разметки текстов стала использоваться программа «Mystem», адапта-


ция Т. А. Архангельского.
26 1.2. Словоизменение

В корпусе в данном случае ярлыком грамматического признака было выбрано «бу-


дущее время» как более традиционное. В то же время разработчики понимали, что
исследователь русского языка, использующий термин «непрошедшее время», смо-
жет найти все интересующие его употребления, задав два запроса:
наст. время, несов. вид
буд. время, сов. вид11.

С этих же позиций при выработке решений, касающихся других спорных вопро-


сов грамматики, выбор делался в пользу более дробного представления граммати-
ческой категории. Например, в состав парадигмы существительного был включен
второй родительный падеж (ср. спору нет) с учетом того, что исследователь, счи-
тающий это употребление формой дательного падежа, сможет задать запрос:
существительное + второй род. падеж.

Обратное неверно; перечисление всех позиций, в которых встречаются формы


«дательного падежа в функции родительного»:
мало / много / недостаточно / побольше / полкило / две тарелки…
дать / налить / насыпать / пожалеть / купить / попробовать…
нет / не хватает / не нужно / обойтись без / осталось / жалко…
наделать / натерпеться / наесться / натаскать / наговорить…
+ сущ.: неодуш., м. р, дат. пад.,

создало бы много неудобств пользователю и дало бы некоторое количество «шума»,


ср. Предложил коллективу искупаться.
Пятый принцип можно было бы назвать «Не решай за исследователя». Если
контекст не позволяет во фразе Я тебя буду звать Квазимодо однозначно опреде-
лить падеж существительного (именительный vs. творительный), то в корпусе со-
храняются два альтернативных разбора12 — в противном случае разметчик корпуса
выступил бы в роли, которую надлежало взять на себя лингвисту-исследователю.
Наконец, ряд компромиссных решений был принят, исходя из особенностей
технического представления грамматической информации и возможности иден-
тификации грамматических разборов в процессе автоматической разметки. Боль-
шинство этих решений касаются аналитических грамматических форм, см. с. 27.
Техническими трудностями автоматического определения грамматической инфор-
мации вызвано соглашение об упрощенном формате разметки корпуса с несня-
той омонимией: в нем, частности, отсутствует информация о переходности / не-
переходности глагола, о форме второго винительного падежа (см. с. 27), помета

11
Здесь и далее для удобства читателей приводятся русские обозначения морфологиче-
ских признаков.
12
В корпусе со снятой лексико-грамматической омонимией.
1.2.1. Морфологический стандарт корпуса 27

«инициалы»; помета «сокращение» приписана только наиболее частотным едини-


цам типа «т. п.», «п/п»13.
Конкретные решения, принятые в морфологической разметке, опираются, пре-
жде всего, на работы (Зализняк 1977/2003; 1967). Далее мы обсудим отступления
от модели «Грамматического словаря», продиктованные изложенными выше соо-
бражениями.

Трактовка аналитических форм


В корпусе используется в основном пословный принцип морфологической раз-
метки; кроме того, в процессе разработки находится «второй слой» разметки на
уровне неоднословных устойчивых оборотов (в течение, во что бы то ни стало
и т. п.; ср. также опыт корпуса ХАНКО (Копотев 2004; Копотев, Мустайоки 2003)).
Предусмотрен поиск лексических единиц как в составе оборотов, так и вне их.
Например, пользователь, ищущий сочетания предлога в с существительным в ви-
нительном падеже, выбрав опцию «искать вне оборота», будет избавлен от много-
численных примеров употребления этого предлога в составе сложных предлогов
(типа в течение) и других оборотов.
Тем не менее аналитические грамматические формы: будущее время несовер-
шенного вида (будет оценивать), условное наклонение (оценили бы), прошед-
шее время совершенного вида пассивного залога (был оценен), аналитические
формы сравнительной степени прилагательных и наречий (более экзотически) и
нек. др. — разбираются в настоящее время только пословно, т. е. пользователь
должен задавать их в поиске как конструкцию из двух элементов.
Так, формы сложного будущего времени кодируются как
быть: буд. время + <глагол>: инфинитив, несов. вид (буду петь),

формы условного наклонения — как


<глагол>: прош. время / инфинитив + бы / б / чтобы / чтоб,

аналитические формы сравнительной и превосходной степени прилагательных и


наречий — с помощью формул
более / менее + <прил.>: положит. форма / <наречие>

или
самый / наиболее / наименее + <прил.>: положит. форма / <наречие>.

13
Заметим, что формам типа Рис. помета «сокращение» (ср. рисунок) в неснятом кор-
пусе не приписывается, дабы избежать паразитических омонимичных разборов у несокра-
щенных написаний (ср. рис как название еды).
28 1.2. Словоизменение

«Морфологический» принцип хорош своей относительной простотой и после-


довательностью: его легко провести программными средствами (для идентифика-
ции грамматической формы не требуется обращаться к ее контексту), а предложе-
ния, содержащие аналитические формы, вообще говоря, можно найти с помощью
стандартных поисковых запросов. Кроме того, это решение уравнивает конструкции
типа будет плакать с другими близкими инфинитивными конструкциями со значе-
нием будущего времени: станет плакать, начнет плакать, а признанные аналити-
ческие формы суперлатива — с похожими, но менее стандартными конструкциями
типа в наибольшей степени заинтересованный или менее всех заметный. Послов-
ный подход также избавляет нас от проблемы, как трактовать расстояние между
словами в поиске (например, как задать запрос, если пользователь хочет найти пат-
терны типа будет посылать им, им будет посылать и будет им посылать).
Как слабую сторону данного решения мы можем отметить наличие «шума»
при поиске и расхождение с традицией грамматического описания русского языка.
Неудобство при поиске возникает, во-первых, если пользователь, например, ищет
формы инфинитива (или прошедшего времени глагола), но не имеет возможности
автоматически отсеять аналитические формы. Во-вторых, при поиске самих ана-
литических форм пользователь должен задавать произвольное расстояние между
составляющими из-за свободного порядка элементов конструкции и отсюда велика
вероятность получить в выдаче примеры, где искомые формы встречаются случай-
ным образом (ср. Самым ценным качеством будет именно умение предвидеть;
подробный разбор этих случаев см. в Копотев 2004).
Безусловно, больше всего мы отходим от грамматической традиции в случае
форм будущего времени и условного наклонения. Возможный выход мы видим
в том, чтобы в будущем разбирать аналитические грамматические формы как осо-
бый вид оборотов14. От стандартных оборотов они будут отличаться большей сво-
бодой лексического наполнения и нежестким порядком входящих в них элементов.
Техническую сложность, кроме того, представляет разметка употреблений
сложного будущего времени с однородными формами типа буду читать, писать
(Там же), так называемых сериальных глагольных конструкций (Вайс 1993) типа
буду сидеть смотреть, как ты занимаешься, а также аннотация оборотов типа
должен буду думать, допускающих две интерпретации:
должен + думать: буд. время
и
должен: буд. время + думать.

14
Помимо указанных, сюда войдут сложные формы времени и наклонения неглаголь-
ных модальных показателей: должен был, должен будет, должен был бы, сложнее стало
(получать визы), а также предикативов: ему было безразлично (что будет с Ниной). Инте-
ресно, что, например, в корпусе ХАНКО этот подкласс аналитических форм в настоящее
время не учитывается.
1.2.1. Морфологический стандарт корпуса 29

На двух уровнях — пословном и на уровне оборотов — предполагается разбирать


также разрывные формы отрицательных и неопределенных местоимений типа ни
у кого, кое с кем, взаимные местоимения типа друг с другом, составные числительные
типа триста двадцать пять и аналитические формы императива типа давайте споем.

Части речи
Морфологический стандарт корпуса включает 16 частеречных характеристик:
имена существительные, прилагательные, числительные, числительные-прила-
гательные, глаголы, наречия, предикативы (вам пора ужинать), вводные слова,
местоимения-существительные, местоимения-прилагательные, местоимения-
предикативы (нечего тебе там делать), местоимения-наречия, предлоги, союзы,
частицы, междометия. Список частей речи в целом совпадает с используемым
в «Грамматическом словаре», за исключением категории «местоименное наречие»
(там, сколько-нибудь, по-вашему). Напомним, что подход, принятый в «Граммати-
ческом словаре», представлял собой известный компромисс. А. А. Зализняк пишет:
Все прочие слова, кроме имен и глаголов, образуют один грамматический раз-
ряд, где парадигма состоит из единственной формы… Вопрос о разделении этих
слов на части речи, как известно, весьма сложен. Поскольку, однако, для сло-
воизменения это несущественно, в настоящем словаре не предлагается какого-
либо самостоятельного решения данного вопроса, а используется практически
та же система рубрик, что в современных толковых словарях… Это разделение
носит в сущности синтаксический характер (Зализняк 1977/2003: 8).

Включение в номенклатуру частей речи корпуса категории «местоименное на-


речие» по семантическим и отчасти морфологическим критериям (местоименные
наречия относятся к разряду наречий, не имеющих форм сравнительной степени)
является дальнейшим сближением с лексикографической традицией (ср., напри-
мер, Ожегов, Шведова 1999; Кузнецов 2002 и др.).
С другой стороны, наречия «Грамматического словаря», полностью совпада-
ющие с падежными формами существительных (типа утром), в корпусе, вопреки
грамматической традиции, не выделяются (соответствующие единицы разбирают-
ся как существительные).
Предлог ради, имеющий в «Грамматическом словаре» статус «предлог; после-
лог», относится в нашем стандарте к категории предлогов. Поиск употребления
ради в функции послелога (в контекстах типа справедливости ради) можно задать
с помощью простого запроса:
сущ. в род. падеже + ради; расстояние между словами: 1.
Единая трактовка словоформы ради как предлога позволяет также не навязывать
своего решения исследователям в таких спорных случаях, как нашего ради спасения:
(нашего ради [посл.]) спасения vs. нашего (ради [предл.] спасения).
30 1.2. Словоизменение

Падежная система
Помимо шести основных падежей (Грамматика 1980), в разметке корпуса вы-
деляются звательный, второй родительный, второй предложный, второй винитель-
ный падежи, а также счетная форма15.
Признак второго родительного приписывается существительным мужского рода
(ср. сахар, мед, жир, чай, полк, сорт, народ и др.), а признак второго предложного —
существительным мужского и женского рода (ср. мед, жир, даль, ночь, кровь и др.),
у которых отмечена соответствующая особенность парадигмы (Плунгян 2002; 2011;
Кустова 2011). Помета о наличии второго предложного тем более необходима, что
для многих слов она кодирует форму, отличающуюся от формы дательного падежа
только ударением на окончании (ср. к меду и в медý, поклониться тéни и в тенú),
что немаловажно для адекватной работы акцентуационного модуля в корпусе.
Значение второго винительного падежа16, полностью совпадающего у одушев-
ленных существительных и числительных по форме с именительным падежом
(ср. идти в солдаты, по два мальчика, ходить по двое)17, приписывается в корпусе
со снятой омонимией вручную разметчиком, просматривающим все «подозритель-
ные» случаи употребления именительного падежа после предлога. Данное техни-
ческое решение позволяет, с одной стороны, отделить такие необычные случаи
от других употреблений номинатива, а с другой стороны, избежать избыточной
омонимии в формах именительного падежа в корпусе с неснятой омонимией (доля
употреблений второго винительного падежа пренебрежимо мала по сравнению
с частотностью форм собственно номинатива).
Проблема идентификации формы возникает и при разметке сложных числитель-
ных типа в одна тысяча девятьсот сорок пятом году. Форма типа одна, тысяча,
девятьсот, совпадающая с формой именительного падежа (единственного числа),
может стоять после любых предлогов и при любом падеже последней (склоняе-
мой) составляющей числа, ср. с девятьсот пятнадцатого года18. Решение всегда
приписывать этой форме признак именительного падежа вызвано техническими
соображениями простоты работы программы. Цифровая запись тех же сложных
числительных не имеет падежного разбора, ср. в 1945 году: 1945=NUM=ciph.
Формами звательного падежа считаются словоформы, употребленные в функ-
ции обращения и отличающиеся по внешнему виду от форм номинатива. К ним
относятся как реликты древнерусского вокатива (очень частотные Боже и Господи
и единичные формы других слов типа старче, друже, княже, владыко, Всецарю,
врачу и т. п.), так и новые формы с усечением флексии -а (совпадающие с формой

15
См. (Зализняк 1967: 43—52).
16
Ср. также термин И. А. Мельчука «винительный с потерей одушевленности» (Мель-
чук 1995).
17
См. (Зализняк 1967: 50—52, 13; Мельчук 1995).
18
В устной речи встречается также беспадежная форма существительного ноль (напри-
мер, при произнесении дат): пятого ноль первого девяносто шестого (5.01.96).
1.2.1. Морфологический стандарт корпуса 31

родительного падежа множественного числа: Мить, мам, ребят; не совпадающие:


Зойк)19. Формы с растянутым корневым гласным типа Ми-и-итя, сохраняющие
флексию номинатива, считаются формами именительного падежа с «орфографи-
ческим искажением». Поиск таких форм возможен с помощью пометы distort (поле
«Доп. признаки»).
Проблема «счетной формы» для словоформ часá, шагá, рядá, шарá (Зализ-
няк 1967: 46—48) появилась в корпусе с внедрением акцентуационной разметки:
за исключением места ударения эти формы совпадают с формами родительного
падежа единственного числа. Признак «счетной формы» добавляется к разбору
«род. пад. ед. ч.» (с сохранением последнего) в корпусе со снятой омонимией в со-
четаниях указанных лексем с числительными два, три, четыре, полтора, пол20,
ср. равно возможные варианты два ряд ́ а и два рядá; только у слова час ударение на
флексии считается единственно возможным (но акцентная вариативность призна-
ется у этого слова в сочетании четверть часа).
Следует заметить, что счетные формы представляют собой одну из реализаций
более общего морфологического явления — обязательного или факультативного
сдвига ударения на окончание, который свойствен значительному числу слово-
форм второго предложного падежа (в пыли), а у лексемы шар — в творительном
падеже в выражении хоть шарóм покати. Для обсуждаемого слова час признак
счетной формы приписывается наряду с признаком родительного падежа в выра-
жении четверть часá; в сочетаниях с другими числительными малого количества
форме часа признак счетной формы не приписывается.
Таким образом, счетная форма встраивается в систему реляционных падежей
и ее можно считать «третьим» родительным падежом:
Таблица 1
Основные неканонические формы словоизменения существительных
Функции падежа
Совпадение с другим
Падеж Сдвиг ударения пересекаются
основным падежом
с функциями:
второй род. п. → дат. п. ― род. п.
второй вин. п. → им. п. ― вин. п.
второй
→ дат. п. (+) предл. п.
предл. п.
счетная форма → род. п. + род. п.

Обязательный сдвиг ударения на окончание наблюдается также у лексем след,


черт и нек. др. в выражениях типа без следá, ни следá, нет / не осталось / не отыщешь

19
Как и во многих других случаях, в корпусе с неснятой омонимией помету вокатива
получает только ограниченный список частотных форм.
20
О трактовке пол как самостоятельной лексемы см. с. 36.
32 1.2. Словоизменение

и следá, на чертá (Зализняк 1977/2003), и здесь мы, по-видимому, имеем дело


с еще одним гибридным падежом, чье значение вкладывается в основное значе-
ние второго родительного падежа (партитивное употребление), а форма совпадает
со счетной формой.
Вместе с тем в корпусе признано нецелесообразным выделять признак т. н.
«стандартной счетной формы» (Зализняк 1967: 288), т. е. употребление форм ро-
дительного падежа единственного числа, родительного падежа множественного
числа и именительного падежа множественного числа после названных числитель-
ных: два города, две жены, две новых булочных / две новые булочные. Сохранение
исходных падежных ярлыков позволяет, в частности, проследить новые тенденции
в употреблении форм в этой конструкции (Corbett 1993), ср. примеры из корпуса21:
(1) За два последние года сюда не заглянула ни одна кинопередвижка [Александр
Яшин. Вологодская свадьба (1962)];
(2) Мы видим, как три эти блюда постоянно клубятся, дымятся и завихряются
в полном беспорядке и не можем нащупать в них ни смысла, ни логики, ни систе-
мы [Юлия Калинина // «Московский комсомолец», 2003.05.17].

В работе (Еськова 1983) счетной формой признаются еще и формы с нулевой


флексией типа пятнадцать килограмм, пять вольт, десять локоть, заменяю-
щие в количественной конструкции формы родительного падежа множественно-
го числа и совпадающие с формой именительного падежа единственного числа.
В корпусе принято решение считать эти формы аномальными вариантами роди-
тельного множественного, если в парадигме лексемы присутствуют также формы
родительного множественного на -ов / -ев (ср. пять килограмм = пять килограм-
мов). У словоформы вольт усеченная форма является полноправным членом па-
радигмы, так как соответствующей формы с окончанием -ов не существует. Суп-
плетивная форма лет (от лексемы год) считается формой родительного падежа
множественного числа наряду с формой годов, с дополнительным распределением
по контекстам (ср. сорок лет, но до сороковых годов).
С формальной точки зрения в русском языке, строго говоря, можно было бы
постулировать еще один дополнительный падеж («второй дательный») — у чи-
слительных столько, сколько, несколько, много после предлога по: по стольку, по
скольку, по нескольку, по многу (раз); ср. стандартную форму дательного падежа
по стольким и стандартную форму винительного падежа по столько. Грамматиче-
ский словарь признает здесь вариативность форм в счетной конструкции: по столь-
ку / по столько дней, однако заметим, что формы стольку и скольку употребляются
также в составе оборота по стольку по скольку (впрочем, чаще встречается слит-
ное написание: постольку поскольку; ср. также мало помалу и нек. др. выражения,

21
Из 323 употреблений определений в форме именительного падежа — вместо норматив-
ного родительного (709 употреблений), — обнаруженных в корпусе со снятой омонимией, 25
принадлежат местоимению этот, которое в форме родительного встречается всего 10 раз.
1.2.1. Морфологический стандарт корпуса 33

в современном языке орфографически и морфологически трактуемые как наречия;


с другой стороны, в текстах встречается слитное написание и в конструкциях типа
помногу часов). Так как круг лексем, которых касается данное явление, насчиты-
вает всего четыре единицы, а употребление формы на -у жестко ограничено кон-
текстом с предлогом по, мы все же предпочли не перегружать грамматическую си-
стему именного склонения новым падежом, а трактовать соответствующие формы
как аномальные формы винительного падежа22.
Наконец, мы не вводим особых помет а) в идиоматических конструкциях, в ко-
торых наблюдается сдвиг одушевленности, ср. на кой черт, на кой дьявол, на кой
леший и раздавить пузыря ‘выпить бутылку’, и б) в составных наименованиях
типа с Роман Львовичем, за Эльдар Алексаныча, где совпадение с формой им. па-
дежа первой части можно трактовать как потерю склоняемости (см. (Зализняк
1977/2003: 736) об аналогичной трактовке употреблений типа Жюль Верна, Марк
Твена, Гусь-Хрустального).

Pluraliа tantum и другие формы множественного числа


Имена pluralia tantum получают разбор, где исходной является форма множест-
венного числа, а помета множественного числа находится среди словоклассифи-
цирущих помет:
часы часы = S m inan pl = nom;
из сливок сливки = S inan pl = gen.

В то же время у существительных, имеющих формы единственного числа, чи-


словая помета заносится в словоизменительную часть грамматического разбора, ср.:
кислород кислород = S m inan = nom sg;
на колесницах колесница = S f inan = loc sg.

Таким образом, подобно глагольному виду, морфологический стандарт корпуса


трактует число как переходную категорию.
В отличие от решения, принятого в «Грамматическом словаре» (Зализняк
1977/2003), формы типа сапоги со значением ‘пара предметов’ считаются принад-
лежащими к парадигме лексемы ед. числа:
сапоги сапог = S m inan = pl nom.

Это связано с тем, что практически любая форма множественного числа су-
ществительных допускает интерпретацию как «нерасчлененной совокупно-
сти» (ср. паруса как ‘набор парусов’) или привносит какую-либо иную добавку

22
Еще одна морфологически возможная трактовка, к тому же поддерживаемая диахрони-
ческими фактами, — анализ этих форм как содержащих показатель дательного падежа един-
ственного числа — является проблематичной с семантико-синтаксической точки зрения.
34 1.2. Словоизменение

в значение, выражаемое формой единственного числа (ср. холод и холода; реше-


ние и решения; он враг и они враги ‘каждый является врагом другого’). Корпус
предоставляет исследователям возможность самостоятельно разобраться в трак-
товке таких случаев.
Особое решение было принято относительно так называемых «потенциальных»
pluralia tantum (Чельцова 1976) типа раскопки, боеприпасы. Для ряда слов сама за-
дача указать исходную форму в единственном числе могла бы поставить пользова-
теля в тупик, ср. тапочек или тапочка; шпрот или шпрота? Эта проблема реша-
ется так же, как и проблема вида — с помощью понятия расширенной парадигмы.
Для плюральных словоформ указывается лемма во множественном числе,
а также соотносительная лемма единственного числа:
по завершении раскопок: раскопка; раскопки;
для словоформ единственного числа — только лемма единственного числа, ср.
я нашла в раскопке: раскопка.
Такое решение позволяет избежать потери данных при поиске; в то же время
статус лексем единственного и множественного числа как связанных отличает этот
случай от «настоящей» омонимии лексем единственного и множественного числа
типа час и часы.
Таблица 2
Основные типы окончаний мн. числа

f (антресоли,
f (автогонки)
m (солдаты)

f (акриды)
m (глаза)

залежи)
m

И. -ы -ы -а -и -а -я -я -ы -и -и -и -и
Р. -ов ø ø -ей ø -ь -éй ø ø -ь -ь -ей
Д. -ам -ам -ам -ям -ам -ям -ям -ам -ам -ям -ям -ям
Т. -ами -ами -ами -ями -ами -ями -ями -ами -ами -ями -ями -ями
П. -ах -ах -ах -ях -ах -ях -ях -ах -ах -ях -ях -ях

Род существительных pluralia tantum


Род существительных pluralia tantum определяется по формальным признакам:
— по наличию потенциальной или соотносимой формы ед. числа (ср. раскоп-
ка — раскопки; харч — харчи; взаимоотношение — взаимоотношения; верх —
верхи; Бутырка — Бутырки; топоним (Набережные) Челны получает помету Fm,
так как имеется мотивирующее существительное с полночисловой парадигмой
мужского рода);
— по окончаниям именительного и родительного падежа (при нулевом оконча-
нии формы родительного падежа, если окончание именительного падежа -ы / -и, то
1.2.1. Морфологический стандарт корпуса 35

род женский или мужской, если окончание именительного падежа -а / -я, то род
средний;
— по словообразовательной структуре (например, слова на -мент всегда отно-
сятся к мужскому роду, все слова на -ние имеют помету среднего рода, ср. взаимо-
отношения).
NB: ножницы — женский род, но зданьице, платьице — средний (одинаковые
окончания); однако не бывает имен мужского рода с суффиксами -иц, -ниц;
— по семантическим критериям (лица мужского пола получают помету мужско-
го рода, женского пола — помету женского рода; с учетом формальных критери-
ев — названия гор получают помету женского рода).

Форма сравнительной степени на по-


В морфологическом стандарте корпуса, в отличие от большинства описаний
русской морфологии (в том числе и «Грамматического словаря»), выделяется
как словоизменительная также форма сравнительной степени, отличающаяся от
стандартной наличием приставки по-: побольше, поаккуратнее (-ей), повнима-
тельнее (-ей), см. (Сичинава 2013). Обычно приставка трактуется здесь как эле-
мент, привносящий значение аттенуатива (‘слегка’). В пользу словоизменительной
трактовки такой формы говорит полная регулярность ее образования, а также то,
что приставка не создает здесь новой лексемы (*побольшой, *поаккуратный), что,
очевидно, ожидалось бы, если бы морфема по- имела словообразовательный статус.

Вид и залог глагола


Морфологический стандарт корпуса трактует глагольный вид как словокласси-
фицирующую категорию, и глаголы разных видов имеют разные леммы (ср. пере-
красить и перекрашивать). Что касается залога, то в корпусе различаются две его
разновидности. Первая из них характеризуется противопоставлением «активный
vs. пассивный» залог у действительных и страдательных причастий, ср. перекра-
сивший (act) и перекрашенный (pass). Вторая разновидность залога противопостав-
ляет невозвратные и возвратные глаголы как активные и медиальные, ср. перекра-
сил (act) и перекрасился (med). Неразличение собственно пассивных употреблений
глагола (ср. Графа заполняется преподавателем) и декаузативных (ср. Окно мед-
ленно открылось) обусловлено как техническими трудностями определения се-
мантики словоформ на -ся, так и принципом ненавязывания пользователю дис-
кретных решений в спорных случаях.
Глаголы, не имеющие форм без -ся, признаются глаголами media tantum. При-
меры разборов глагольных форм с разными показателями вида и залога:
открывала (лемма открывать):
несов. вид — активный залог; индикатив; прош. вр.; ж. р.; ед. ч.
открылась (лемма открыться):
сов. вид — медиальный залог; индикатив; прош. вр.; ж. р.; ед. ч.
36 1.2. Словоизменение

открывшая (лемма открыть):


сов. вид — активный залог; причастие — активный залог и т. д.
открытая (лемма открыть):
сов. вид — активный залог; причастие — пассивный залог и т. д.
открывшаяся (лемма открыться):
сов. вид — медиальный залог; причастие — активный залог и т. д.

Вторая форма повелительного наклонения


В парадигме глаголов в повелительном наклонении различаются формы 2 лица
единственного числа, 2 лица множественного числа и (для глаголов совершенно-
го вида) формы инклюзивного императива (грамматическая помета imper2), сов-
падающего с формой 1 лица множественного числа будущего времени (пойдем).
Дополнительная клетка парадигмы выделяется для инклюзивной формы с суффик-
сом -те: пойдемте, идемте, споемте, разойдемтесь. Ее значение находится в при-
вативной оппозиции к значению формы без -те (пойдем, идем, споем, разойдемся)
и обозначает побуждение не скольких собеседников к совместному действию
(Буслаев 1959; Виноградов 1972; Добрушина 2013). Формант -те следует перед
возвратным показателем -ся, что также говорит в пользу трактовки этой словофор-
мы как словоизменительной23.

Отпричастные образования с не-, полу- и др.


Отыменные образования типа полстакана
При автоматическом анализе возникает одна своеобразная проблема, связан-
ная скорее с особенностями русской орфографии, чем русской морфологии; тем
не менее на морфологические решения, принимаемые при разметке, это обстоя-
тельство не может не влиять. Речь идет о формах причастий, в качестве первого
компонента содержащих либо отрицание не- (неопохмелившийся), либо адверби-
альный компонент типа полу- (полуодетый), ново- (новоприбывший), свеже- (све-
жевыбритый) и т. п. Слитное написание здесь, так сказать, скрывает лексемную
принадлежность этих форм; для того чтобы форма, например, неопохмеливший-
ся опознавалась как принадлежащая лексеме опохмелиться, необходимо ввести
дополнительное правило разбиения подобных слитных словоформ в письменном
тексте: не + опохмелившийся; аналогично, свежевыбритый → свеже + выбри-
тый24. Таким образом, процедура морфологического анализа строится по образцу
разбора других глагольных комплексов, таких как личная форма глагола с отри-

23
Другие варианты форм наклонения — с флексией -и вместо -ь и наоборот
(в графической реализации) и с аффиксом -ся вместо -сь: положь, не боись, избави Боже,
садися — считаются аномальными формами императива.
24
Здесь мы опускаем дискуссию о возможных различиях внутри класса сложных от-
причастных образований, в частности о градациях лексемного статуса, которые дают раз-
личные тесты.
1.2.1. Морфологический стандарт корпуса 37

цанием или наречием, форма краткого причастия с отрицанием (не опохмелился,


прежде утверждавшийся, не одет) и др.
Безусловно, это лишь одна из возможных трактовок нетривиального морфоло-
гического явления (в частности, можно ставить вопрос о том, нет ли здесь особой
разновидности глагольной инкорпорации); мы приняли данное решение, исходя из
технической простоты его воплощения в морфологическом анализаторе. Впрочем,
правило условного разбиения слитных словоформ может оказаться полезным и для
анализа текстов с «плохой орфографией», ср. нехочу, порусски, идуспать и др. В на-
стоящее время с проблемой таких текстов приходится считаться, поскольку их число
постоянно растет (особенно в области современной электронной коммуникации);
более того, нарушения орфографических норм в некоторых типах текстов исполь-
зуются и в качестве сознательного стилистического приема, особой языковой игры.
Сходный с отпричастными образованиями случай в именной зоне касается кон-
струкции вида пол + форма род. падежа ед. числа25, ср. полстакана, пол-яблока.
В их трактовке мы следуем за «Русским именным словоизменением», которое, от-
деляя этот тип от имен с полной парадигмой вида полночь (полуночи и т. д.), пред-
лагает рассматривать его как конструкцию с числительными малого количества
пол- (Зализняк 1967: 78). Тем самым речь снова идет об орфографическом казусе
и к тому же по правилам русской орфографии такие сочетания числительного и су-
ществительного пишутся то слитно, то через дефис (а при включении прилагатель-
ного — даже отдельно, ср. Чтоб был ростом в пол Останкинской башни [З. При-
лепин. Захар Прилепин из Нижнего Новгорода // «Русский репортер», 2011]).
Таким образом, в разметке корпуса случаи типа неопохмелившийся, полуодетый,
свежевыбритый, полстакана, пол-яблока разбираются как две отдельных слово-
формы, но при этом слитные написания получают особый тег <joined=together>,
а дефисные написания типа пол-яблока (как и другие дефисные написания) — тег
<joined=hyphen>.

Морфологический стандарт и нестандартная морфология


Мы представили краткий обзор решений, принятых на современном этапе су-
ществования Национального корпуса русского языка. Как можно видеть, в неко-
торых случаях принятие той или иной грамматической трактовки фактов русско-
го языка было обусловлено скорее техническими причинами, но в большинстве
случаев составители корпуса стремились следовать определенным теоретическим
принципам, обеспечивающим информативность и эффективность поиска слово-
форм и конструкций по заданным грамматическим свойствам — и в то же время не
входящим в слишком большое противоречие с существующей традицией.
Следует сказать и еще об одной важной проблеме, возникающей при попыт-
ке осуществить полную грамматическую разметку современных русских текстов.

25
В полшага, полряда, полчаса, полшара вторая часть может разбираться как форма ро-
дительного падежа или второго родительного падежа, в зависимости от ударения.
38 1.2. Словоизменение

Даже если ограничиться современными письменными текстами, представляющи-


ми литературный русский язык, наблюдаемая в них степень грамматической в а -
р и а т и в н о с т и окажется существенно выше той, которую отмечают грамматики
русского языка. Помимо того, что в текстах встречаются искаженные написания
(об этом говорилось выше), в них также проникают диалектные, региональные,
разговорные, жаргонные и т. п. грамматические варианты. И если описательная
грамматика русского языка всегда имеет возможность оставить какие-то вариан-
ты за пределами рассмотрения (присвоив им ярлык «ненормативных» или вынеся
«за ромб» и не дав никакой грамматической характеристики26), то корпусная лин-
гвистика работает совсем в другом идеологическом поле: она обязана учитывать
любые варианты, встреченные в текстах, поскольку они по определению принад-
лежат корпусу и поэтому должны получить адекватный разбор.
По данным Национального корпуса, наиболее регулярно в текстах встречаются
следующие отклонения от современной письменной нормы:
• редукция конечного гласного (ср. прям, тож, вродь, спасиб; в этом же ряду
можно отметить новые формы вокатива типа Маш, которые учитываются
в нашей системе морфологической разметки);
• усечения конца слова (ср. оч вместо очень, лан вместо ладно) и стяжения
(ср. тыща, седни, быр(р)о, бушь, все-тки, кто-нить; сосуществующие ряды
«полных» и очень распространенных «стяженных» форм в склонении личных
и вопросительных местоимений типа: тебя и тя, тебе и те, что и че и др.);
• морфонологические или морфологические отклонения от стандартных моде-
лей словоизменения (отсутствие переходного смягчения у форм типа пылесосю,
отсутствие палатализации в формах типа кудахтая, контаминация типов скло-
нения в таких формах, как герлов, сомнамбулов);
• вообще вариативность основ, в том числе орфографическая, например у суще-
ствительных на -ние vs. -нье, -тие vs. -тье (пение и пенье, счастие и счастье),
колебания в написании дефиса у слов типа квазинаучный и квази-научный, не-
устойчивая орфография сленговых элементов, не фиксируемых нормативными
словарями (например, галимый и голимый, флейм и флэйм) и т. п.;
• широко распространенные нестандартные формы деепричастий на -а / -я, -ась / -ясь
(положа, наклоня, прислонясь) наряду с несколько более редкими, но также
фиксируемыми старыми вариантными и диалектными формами на -ши, -чи (по-
ложивши, выпимши, вышедши, глядючи, сидючи, жалеючи);
• склоняемые краткие формы прилагательных в устойчивых оборотах и имита-
циях фольклорных текстов: средь бела дня, под белы ручки, на босу ногу, к едре-
не фене, красну девицу, сладку ягоду;

26
Ср. практику «Грамматического словаря», в котором «за ромб» выносится информа-
ция об «аномальных» формах лексем в составе устойчивых оборотов, например об употреб-
лении формы свеч (вместо свечей) в выражении игра стоит свеч; аналогично трактуются
там и формы типа по стольку, о которых шла речь выше.
1.2.1. Морфологический стандарт корпуса 39

• все большее распространение «неоформленных» имен (т. е. таких, которым не


приписывается никакой граммемы падежа), ср. уже отмеченные выше состав-
ляющие сложных числительных, а также употребления типа от Марь Петров-
ны, в святая святых, система исполнитель-заказчик).
Таким образом, для адекватного описания морфологии текстов корпуса оказы-
вается необходима модель, учитывающая постоянную и высокую морфологиче-
скую вариативность. Парадоксально, но подобные модели разрабатываются обыч-
но не применительно к стандартизованным письменным языкам, а применительно
к бесписьменным языкам с ярко выраженным диалектным членением (таким, на-
пример, как селькупский) или применительно к корпусу древних письменных па-
мятников (например, древненовгородских).
Добавим также, что ряд искажений и аномальных форм, регулярно встречаю-
щихся в корпусе, объясняется тем, что пишущие используют так называемую «ре-
чевую маску» как прием языковой игры (Земская 1973; Гловинская 1996; Санников
1999), например:
(3) [Дама в фиолетовом]. И старушка Изергиль с ними?
[Дама в синем]. А як же ж! Глянь, кто это там на кухне посудку намывает?
[Марина Палей. Long distance, или Славянский акцент].

Существуют конвенционализованные речевые маски, правила употребления


которых, безусловно, следует включать в полное описание современного русского
языка. Наиболее распространенные среди них — маска «рязанского мужика», кото-
рую можно опознать по словам типа чаво, таперича, а также восточнославянская
(усе, як, повбивав бы), кавказская (дэвушка, канэшна дарагой, пачиму), эстонская
и др. Если добавить к этому унаследованные современным русским языком «на-
слоения» из церковнославянизмов и других архаических оборотов (Возвращается
ветер на круги своя; три дни), а также из диалектной речи (семь суток не спамши),
то окажется, что современный русский язык не имеет четких границ — ни в про-
странстве (поскольку отражает диалектные и иноязычные вкрапления), ни во вре-
мени (поскольку отражает церковнославянизмы и «застывшие» старые формы);
нет четкой грани между письменной и устной речью (в той степени, насколько
особенности устной речи фиксируются в письменной).
Таким образом, русская морфология с точки зрения корпуса — более «либе-
ральная» и более широкая морфология, чем та, которая представлена в норматив-
ных грамматиках. В теоретической лингвистике на подобные явления обращают
внимание сравнительно редко (исключением являются исследования живой разго-
ворной речи, начатые еще в 1960-е гг. по инициативе М. В. Панова и Е. А. Земской,
ср. (Земская 1973) и др., ср. также более новые исследования, например (Гловин-
ская 1996; 2001; Воейкова 2011; Русакова 2014) и др., содержащие показательный
в этом отношении материал). Без решения объемлющей проблемы морфо- и ор-
фо-вариативности нельзя обойтись и при разметке корпусов устной речи (Гриши-
на 2012; Кибрик, Подлесская 2009; Богданова и др. 2010), диалектных корпусов
40 1.2. Словоизменение

(см. Сичинава, Качинская 2014 и др.) и корпусов текстов, написанных ранее XX в.


(см., например, Поляков 2012; Поляков и др. 2013; Баранов 2011; Пичхадзе 2005
и мн. др.). Тщательный учет подобных особенностей является самой актуальной
ближайшей задачей развития системы морфологической разметки и расширения
грамматического словаря.

1.2.2. Пополнение грамматического словаря


по корпусным данным *
Наилучший результат автоматической морфологической разметки корпусов
русского языка дают анализаторы, основанные на встроенном грамматическом
словаре. Например, анализатор Mystem, которым размечаются тексты Нацио-
нального корпуса русского языка, основан на электронном словаре, изначально
разработанном В. З. Санниковым и пополненном данными из «Грамматического
словаря» А. А. Зализняка (Зализняк 1977/2003), ср. также системы DiaLing/AOT/
pymorphy, ЭТАП-3, StarLing, RUSTWOL, Stemka и др. Однако любая словарно-
ориентированная система неизбежно сталкивается с неполнотой своего словаря,
хотим ли мы размечать тексты особого жанра (например, медицинские новости,
содержащие специальную терминологию), тексты последнего времени (в которых
будут присутствовать неологизмы) или просто достаточно редкие слова.
В этой главе мы представляем алгоритм лемматизации несловарных словоформ
(единиц текста, которые словарно-ориентированный морфологический анализатор
не может вывести из данных исходного словаря). Представленный алгоритм уста-
навливает парадигматические отношения внутри массива словоформ, подбирая
оптимальное членение словоформы на псевдооснову и псевдоокончание. Наша
оценка показывает, что соединение методов простой и сложной кластеризации эф-
фективно для морфологического пост-процессинга больших объемов текста.

Несловарные слова
Несловарные словоформы — это единицы текста, которые словарно-ориенти-
рованный анализатор не может интерпретировать стандартным способом, т. е. не
может вывести из данных исходного словаря. Встречая такие формы в тексте, ана-
лизаторы, как правило, пытаются построить одну или несколько гипотез об ис-
ходной форме и грамматических характеристиках словоформы (см. Mikheev 1997;
Сегалович, Маслов 1998; Сокирко 2004).
Как показывает статистика НКРЯ27, несловарные элементы составляют по-
рядка 3 % общего числа словоупотреблений. Если же рассматривать словарь сло-

*
В основу главы положена публикация «К проблеме лемматизации несловарных сло-
воформ» (Ляшевская 2007).
27
По данным на янв. 2007 г.: около 135 млн словоупотреблений, морфологический пар-
сер Mystem основан на словаре в 80—90 тыс. лексем.
1.2.2. Пополнение грамматического словаря по корпусным данным 41

воформ этого корпуса (чуть более 2 млн единиц), то несловарные и словарные


словоформы соотносятся в пропорции 45 % к 55 %. Присутствие несловарного
слоя в таком заметном объеме создает определенные проблемы для корпусной
лингвистики.
Во-первых, возможная неточность или неоднозначность определения мор-
фологических характеристик словоформ (большинству неопознанных слово-
употреблений приписывается несколько грамматических разборов) может созда-
вать поисковый «шум» для пользователей корпусов, а также вызывать ошибки
в работе синтаксических и т. п. анализаторов, учитывающих морфологические
данные. Для систем снятия морфологической омонимии несловарные формы
также являются камнем преткновения, поскольку триграмно ориентированные
системы «ломаются» на трех несловарных лексемах, идущих подряд (ср. Солт-
лейк-сити).
Во-вторых, весьма актуальна проблема избыточного объема хранимой инфор-
мации: например, если учесть, что для одной несловарной словоформы парсер
порождает в среднем 3 гипотезы морфологического разбора (Сегалович, Маслов
1998), то для вполне стандартного по современным меркам корпуса в 1 млрд сло-
воупотреблений это даст дополнительно 60 млн морфологических разборов, по-
множенных на избыточные синтаксические, семантические и проч. теги.
Вместе с тем массив несловарных словоформ является источником ценного
лингвистического материала, а именно новых слов и терминологии, аббревиатур,
нестандартных форм склонения и спряжения. Небезынтересен и сам по себе во-
прос, каков объем «словарного багажа» языка, как он меняется во времени и как
соотносится со словарным запасом других языков. В настоящее время с несло-
варными словоупотреблениями активно работают в основном системы извлече-
ния информации (IR), однако автоматическая обработка этого материала требуется
и в лексикографии, в частности для составления словарей новых и иностранных
слов, словарей аббревиатур и имен собственных, пополнения грамматического и
орфографического словарей.
Первоочередная техническая задача в этой области для языков с развитой
морфологией — составление списка лексем на базе списка словоформ, или лем-
мное сведе́ние. Между тем даже профессиональные мультиязычные системы
по оставлению словарей (ср. IDM Dictionary Production System (http://www.idm.
fr/), TshwaneLex (http://tshwanedje.com/tshwanelex/) и др.) предполагают ручное
составление словника, поддерживая лишь сортировку по началу и концу слова.
Не подвергая сомнению роль человека в отборе лексики для словника и его редак-
тировании, мы тем не менее хотели бы обсудить перспективы компьютеризации
леммного сведения как необходимого модуля в системах и выявить возможные
риски в построении систем автоматического пополнения грамматического слова-
ря (Daciuk 2001). Данная работа преследует цель оценить эффективность одного
из методов леммного сведения, суть которого состоит в установлении парадигма-
тических отношений внутри массива несловарных словоформ.
42 1.2. Словоизменение

Парадигматическое леммное сведéние (кластеризация)


Работу «гипотетического» модуля большинства русских морфоанализаторов
можно образно представить следующим образом. Сначала программа порождает
полное множество словоформ, предсказываемых собственным словарем. Встре-
чая в тексте словоформу, не входящую в это множество, программа сравнива-
ет ее с близкими по окончанию словарными словоформами и приписывает ей
аналогичную грамматическую информацию. В дальнейшем для оптимизации
числа разборов применяются некоторые эвристики, такие как приписывание до-
полнительных гипотез о несклоняемой форме, удаление или понижение в ранге
гипотез с редкими и непродуктивными грамматическими разборами, удаление
гипотез без гласной в основе, приоритет гипотезы с самым длинным окончанием
и др. (Коваленко 2002; Segalovich 2003; Сокирко 2004; Hana, Feldman 2004).
Как видно, всякий раз программа строит гипотезы без обращения к предыду-
щему опыту. Например, форме гипермаркетов анализатор приписывает два разбо-
ра {гипермаркет=S|гипермаркетов(ый)=A}, «забывая», что до этого в тексте ему
встретилась форма гипермаркеты, не имеющая адъективного разбора. Кажется
очевидным, что программный модуль, анализирующий накопленный опыт гипо-
тетических разборов, мог бы в определенной мере снизить неоднозначность мор-
фологической аннотации.
Таблица 3
Фрагмент частотного списка несловарных форм
Freq Словоформа
657 генома
10 геномах
83 геноме
14 геномика
12 геномике
35 геномики
59 геномной
38 геномных
167 геномов
28 геномом
17 геному
27 геномы
11 генотипирование
42 генотипирования

Парадигматический подход к лемматизации, по сути, имитирует работу лек-


сикографа, который «наметанным глазом» вычленяет в упорядоченном массиве
группы, относящиеся к одной лемме (см. табл. 3). Лингвистическим обосновани-
ем этого подхода является следующее допущение: если некоторое слово открытого
(словоизменительного) класса встретилось в тексте в форме X, то, скорее всего,
1.2.2. Пополнение грамматического словаря по корпусным данным 43

оно встретится в тексте в форме Y, отличной от первой (Hana, Feldman 2004). Есте-
ственно, эта закономерность будет иметь бо́льшую силу для высокочастотных слов
и на больших массивах текстов.
Некоторые эвристики на основе парадигматического подхода (ПКТ, или
«парадигма лексем по корпусу текстов») описаны в (Сегалович, Маслов 1998;
Segalovich 2003) для анализатора Mystem, но в текущей версии анализатора, по-
видимому, не используются как нерелевантные для поисковых задач. Гораздо
большая роль отводится этому подходу в работе (Ножов 2003) («метод подбора
словоформ на одну лексему»). Здесь предлагается удалять ложные варианты раз-
боров, используя корреляцию по гипотезам основ и значениям классифициру-
ющих грамматических категорий (часть речи, тип словоизменения, род имени
существительного). Метод парадигматического сравнения применяется также
в анализаторах других флективных языков, в частности чешского (Hana, Feldman
2004; Kanis, Müller 2005).
Таблица 4
Оценка гипотез членения словоформ на псевдооснову и псевдоокончание

Словоформа Псевдооснова Образец WAbs


гипермаркет| ср. паркет, анкет, решет, S 4
гипермаркет
гипермарке|т ср. одет, V 3
гипермаркета| ср. вполоборота, ADV 1
гипермаркета гипермаркет|а ср. паркет|а, анкет|а, решет|а, S 4
гипермарке|та ср. оде|та, V 3
гипермаркетов| ср. фиолетов, бертолетов, A; гитов, S 1
гипермаркетов
гипермаркет|ов ср. паркет|ов, облак|ов, S 4
гипермаркеты| ср. комроты, S, трикраты, ADV 1
гипермаркеты гипермаркет|ы ср. паркет|ы, анкет|ы, счет|ы, S 4
гипермарке|ты ср. оде|ты, V 3

Процедура автоматического сведéния парадигм предполагает предваритель-


ное разделение словоформ на псевдооснову28 и псевдоокончание, причем по-
следнее должно входить в множество окончаний русского словоизменения (наш
список окончаний был составлен на основе (Зализняк 1977/2003)). Каждой слово-
форме сопоставляется набор вариантов такого членения: например, словоформе
«гипермаркеты» приписывается набор гипотез {гипермаркеты|, гипермаркет|ы,
гипермарке|ты}. Затем каждой гипотезе приписывается вес в зависимости от того,

28
Псевдоосновой считается совпадающая часть всех словоформ парадигмы (мо|гу,
мо|жет, мо|гли), ср. объединение тематического элемента и аффиксального элемента в рас-
ширенную флексию в (Бидер и др. 1978).
44 1.2. Словоизменение

сколько раз та или иная псевдооснова встретилась в разборах разных словоформ


(см. табл. 4, столбец 4).
Различаются простая и сложная кластеризация словоформ. В первом случае из
морфологической аннотации несловарной словоформы удаляются (или понижа-
ются в ранге) все разборы, у которых вес гипотезы о псевдооснове ниже макси-
мального (в нашем случае это псевдоосновы гипермарке= с абсолютным весом 3,
гипермаркета=, гипермаркетов=, гипермаркеты= с абс. весом 1). Сложная кла-
стеризация включает проверку совместимости всех окончаний в одной парадигме
(по данным существующих парадигм морфологического словаря). Эта процедура
серьезно усложняет алгоритм, но зато позволяет исключить случаи, когда к одной
парадигме ошибочно приписываются словоформы двух и более реальных лексем,
ср. барион| и барион|ный; шмон| и шмон|али; Александровск| и александровск|ий.
Далее в работе мы опишем три эксперимента, проведенных на массиве несло-
варных слов НКРЯ, которые показывают преимущества и недостатки простой и
сложной кластеризации.

Простая кластеризация потенциальных парадигм


В качестве исходных данных для наших экспериментов был взят частотный
список несловарных словоформ НКРЯ, а также сопоставленный ему массив, со-
держащий информацию о частоте сочетаемости этих словоформ со знаками пре-
пинания (левые и правые «соседи») — точкой, дефисом и скобкой. В частотном
списке была сохранена информация о капитализации слова в тексте: прописная
и строчная буквы во всех позициях различались. Из частотного списка были
исключены:
1) словоформы, содержащие цифры и латинские буквы (1991; аpprox и т. п.);
2) потенциальные аббревиатуры: а) словоформы без гласных (МЖК, мкм, нрзб);
б) словоформы, состоящие из смеси больших и малых букв, исключая капитали-
зацию (РайПО, ГАБТа); в) словоформы, после которых в тексте обычно следует
точка (ул., ок., англ.); г) словоформы, после которых в тексте обычно следует
открывающая квадратная или угловая скобка (прост[ого], участн<ик>);
3) части сложных слов (лже, итало), слова-окончания (ый, тонный, ание,
ср. 1-ый, 45-тонный, изд[ание]): словоформы, которые обычно встречаются
перед дефисом, а также после дефиса или скобки;
4) потенциальные имена собственные: словоформы, вариант капитализирован-
ного написания которых превышает установленный порог (90 %).

Оставшиеся словоформы составили Основной частотный список несловарных


словоформ.
Для проведения первого эксперимента был создан рабочий массив, в который
из Основного списка вошли словоформы с порогом частотности 0,1 ipm, всего
ок. 21 тыс. словоформ.
Применение метода простой кластеризации дало следующие результаты:
1.2.2. Пополнение грамматического словаря по корпусным данным 45

Таблица 5
Результаты эксперимента 1
Число словоформ Нарастание
Число парадигм
в парадигме покрытия
13 и более 11 0,75 %
12 25 2,2 %
11 14 2,9 %
10 38 4,7 %
9 48 6,8 %
8 63 9,2 %
7 85 12,0 %
6 139 16,0 %
5 263 22,3 %
4 447 30,8 %
3 877 43,3 %
2 2197 64,2 %
Итого 13485 64,2 %

Таким образом, покрытие составило 64 % массива несловарных словоформ.


Для ряда словоформ метод простой кластеризации предсказал два варианта члене-
ния основы и окончания с равным весом гипотез, ср.:
13 инновацио|нный и инновацион|ный
12 поздней|ший и позднейш|ий
11 неоконч|енная и неоконченн|ая
7 госслуж|ащий и госслужащ|ий
4 аудиосист|ема и аудиосистем|а.

В этом случае была применена простейшая эвристика: вес гипотезы с более


короткой псевдоосновой был принудительно уменьшен.
Для того чтобы оценить аккуратность метода простой кластеризации, мы про-
вели выборочную ручную проверку полученных результатов: был проанализиро-
ван состав каждого десятого кластера объемом от 5 до 18 словоформ и каждого
пятого кластера объемом от 2 до 4 словоформ.
В соответствии с общими принципами русского словоизменения, самые объ-
емные кластеры — от 11 до 18 словоформ в парадигме — включали словоформы
глаголов и прилагательных (приватизировать, склеротизованный, новогородский
и др.). Кластеры с числом словоформ от 2 до 10 содержали, помимо глагольных
и адъективных, парадигмы имен существительных. В кластерах с 4-мя и более
словоформами было обнаружено два вида ошибок. Во-первых, это кластеры, в ко-
торых словоформы относятся к разным леммам (2 %). Сюда относятся случаи
46 1.2. Словоизменение

объединения форм возвратного и невозвратного глаголов (хватить и хватиться,


мерять и меряться), форм наречия и прилагательного (геополитически и геопо-
литический, клево и клевый), прилагательного и однокоренного глагола (розный и
розниться), форм существительных разного рода (латин и латино, отморозок и
отморозка), а также случаи совпадения нестандартных вариантов словоизменения
у однокоренных слов: родна и родясь; бось (разг. вариант формы «бойся») и босый,
босу; ложить и ложись (неучтенный в морфоанализаторе вариант императива от
ложиться)29.
Во-вторых, ошибку дала вышеупомянутая эвристика для форм причастий,
которые не были предсказаны морфологическим словарем морфоанализатора:
берущий, кишащий, привыкший, повисший, остывший, руководимый, предво-
димый, настоянный. Словоформы были правильно объединены в кластеры, но
неправильно поделены на псевдооснову и псевдоокончание, так как личные
формы глагола отсутствовали в массиве несловарных форм (из вариантов чле-
нения «берущ|ий» и «бер|ущий» был выбран более длинный вариант основы).
По нашему мнению, ошибки второго вида не свидетельствуют о недостатках
выбранного метода, поскольку зависят от реализации конкретного морфоана-
лизатора.
В кластерах с 3-мя словоформами ошибочно было сведено 3 % кластеров. Как
и следовало ожидать, кластеры с 2-мя словоформами показали самый ненадежный
результат, до 15 % по разным выборкам (ср. столькие и стольку, чернию и черну,
баско и баскет, шоба и шоблы и т. д.).

Кластеризация с понижением порога


Чтобы увеличить покрытие массива кластерами, а также увеличить объем кла-
стеров, мы повторили процедуру простой кластеризации, добавив в рабочий массив
словоформы Основного списка с частотностью более 2-х словоупотреблений в кор-
пусе (0,099 — 0,021 ipm). Цель эксперимента 2 состояла в том, чтобы найти для
частотных, но некластеризованных в результате эксперимента 1 словоформ «сосе-
дей» по парадигме среди низкочастотных словоформ. В результате было кластери-
зовано еще 22 % из 21-тысячного списка высокочастотных словоформ (> 0,1 ipm),
см. табл. 6.
Итоговое распределение объема кластеров на массиве высокочастотных сло-
воформ можно видеть на рис. 2. 49,3 % кластеров содержат 4 и более словоформ,
17 % кластеров — 3 словоформы, 20,1 % кластеров — 2 словоформы; некластери-
зованными остались 2868 словоформ (13,7 %).

29
Приведем также отдельные несистемные ошибки в кластеризации: робят и робить,
страм (‘срам’), страт и стрит, скин и скинемся, сторы (XVIII в.: ‘шторы’) и стори
(ср. лав стори), прешься и пром.
1.2.2. Пополнение грамматического словаря по корпусным данным 47

Таблица 6
Кластеризация одиночных словоформ
с использованием массива низкочастотных форм
Число словоформ
Число парадигм Нарастание покрытия
в парадигме
8 и более 105 64,7 %
7 121 65,3 %
6 178 66,2 %
5 314 67,6 %
4 689 70,9 %
3 1232 76,8 %
2 2004 86,3 %
Итого 4643 86,3 %

Рис. 2. Итоговое распределение объема кластеров


на массиве высокочастотных словоформ

Сложная кластеризация потенциальных парадигм


Для проведения сложной кластеризации мы использовали базу данных русско-
го словоизменения, где для каждого словоизменительного типа было указано: мно-
жество псевдоокончаний (МПО), которые могут принимать формы данного типа
парадигмы; часть речи и иные словоклассифицирующие характеристики леммы;
инструкция для построения исходной формы (номер псевдоокончания) и, как
опция, ограничения на тип основы (допустимые символы в конце псевдоосновы)30.
Для каждого полученного ранее кластера словоформ (потенциально входящих
в общую парадигму) требовалось установить, являются ли псевдоокончания сов-

30
В эксперименте 3 ограничения на тип основы не учитывались. Это позволило свести
воедино нестандартные варианты словоизменения (выравнены — выравненный, лицем —
лицы, болгаре — болгаров, плечей — плечьми, детем — детями, встретя — встретясь,
уставя — уставясь, добродетелию — добродетельми и др.), однако привело к некоторым
случайным объединениям разных лемм (см. ниже).
48 1.2. Словоизменение

местимыми друг с другом (т. е. найти хотя бы одно МПО, для которого данное
множество окончаний является подмножеством). Для совместимых окончаний со-
здавался индекс всех МПО, в которое они входили как подмножество, и на его ос-
нове строился список возможных лемм и их разборов (элементы, совпадающие по
исходной форме, частеречным и другим грамматическим характеристикам с уже
внесенными в список леммами, удалялись). Кластеры с несовместимыми оконча-
ниями помечались особым образом.
Насколько эффективно и аккуратно метод сложной кластеризации различа-
ет неправильно сведенные леммы? Метод показал свою наибольшую действен-
ность на кластерах объемом в 2 словоформы: с его помощью было обнаружено,
что 4,9 % двухсловных кластеров имеют несовместимые окончания, притом что
в общем для кластеров объема 2…18 этот показатель составил 1,7 %. Как видно,
процент обнаруженных ошибок оказался ниже, чем наша эмпирическая оцен-
ка (см. выше). Это связано с тем, что формы возвратных и невозвратных глаго-
лов, наречий и прилагательных остались сведенными (ср. наказуется как форма
страдательного залога и возвратного глагола; геополитически как краткая форма
прилагательного, по образцу брóски, и наречия). Кроме того, не были разведены
некоторые неизменяемые слова, например кластер завтре — завтря — завтрему,
который сравнивался с образцом сине — синя — синему, ср. также куми — куми-
те, полтона — полтонны и др.
Ручной анализ списка кластеров с несовместимыми окончаниями выявил два
интересных следствия применения этого метода. Во-первых, программа «отказа-
ла» в кластеризации архаичным вариантам склонения / спряжения (стои, зриши,
есмы, есмь). Во-вторых, были разведены парадигмы существительных на -ие и -ье,
имеющие, в принципе, общую форму род. п. мн. ч. на -ий, ср. думания и думанья,
позвякивание и позвякиванье.

* * *
Мы исходили из принципа, что если некоторое слово встречается в корпусе
текстов в форме f1, то весьма вероятно, что оно должно встретиться и в других
формах f2, f3, … . Этот принцип, однако, не распространяется на неизменяемые
слова (несклоняемые существительные и прилагательные, предлоги, союзы и
другие неизменяемые части речи; наречия, которые в большинстве своем редко
образуют степень сравнения). Идеальная реализация данного постулата означала
бы, что в корпусе мы имели бы, с одной стороны, массив лемм, представленный
четырьмя и более словоформами (изменяемые леммы), и, с другой стороны, мас-
сив лемм, представленный одной словоформой (неизменяемые леммы). На пра-
ктике же значительная доля результирующего списка приходится на леммы,
представленные всего двумя словоформами, и именно они демонстрируют «сла-
бое место» предложенного подхода (например, кластер из двух словоформ на -у
и на -и можно интерпретировать или как репрезентантов глагола (ср. гну, гни),
или как два случайно объединенных неизменяемых слова (ср. Перу, Пери)). При-
1.2.3. Соревнования морфологических анализаторов 49

нять правильное решение в этих случаях может только человек, причем если
словоформы ему незнакомы, может потребоваться знание контекста.
Выше были рассмотрены две процедуры леммного сведения, позволяющие
свести к минимуму объем ручного постредактирования и ранжировать массив не-
словарных словоформ: простая и сложная кластеризация. В результате простой
кластеризации исходный массив огрублено разбивается на множества словоформ,
потенциально образующих общую парадигму. Алгоритм характеризуется просто-
той, быстродействием, дает хорошее покрытие для частотных словоформ и, как
правило, устанавливает правильное деление форм на псевдооснову и окончание.
Точность алгоритма падает на 2-словных кластерах. Процедура сложной класте-
ризации, проверяющая найденные парадигмы на соответствие стандартным типам
русского словоизменения, строит множество гипотез об исходной форме и грамма-
тических характеристиках леммы и минимизирует ошибки в кластеризации. Вместе
с тем процедура времяемка и не всегда адекватно кластеризует неизменяемые слова
и нестандартные варианты изменения словарных слов. В соединении оба подхода
эффективны для морфологического пост-процессинга больших объемов текста.
Разумеется, конкретные предложенные методы кластеризации словоформ — не
единственно возможные, ср., например, для русского языка (Сокирко 2010). Одна-
ко сам принцип «накопления знаний», как кажется, является важной составляю-
щей для работы интеллектуальной системы, наряду с умением дизамбигуировать
форму и значение по контексту и строить аналогии по повторяющимся паттернам
(окончаниям) словоформ.

1.2.3. Соревнования морфологических анализаторов*


Морфологические парсеры — автоматические системы, которые распознают
лемму (словарную форму), часть речи и грамматические характеристики слова, —
уже не раз упоминались в предыдущих главах. Разметка корпуса не в последнюю
очередь зависит от качества работы парсера и лингвистических ресурсов, которые
он использует. Поэтому разработчики корпуса должны ориентироваться в рынке
существующих и разрабатываемых компьютерных систем, знать их сильные и сла-
бые стороны, а также уметь объяснять программистам, инженерам и математикам,
на какие проблемные точки в анализе корпусных данных стоит обратить внимание.
Форум «Оценка методов автоматической обработки текста» — совместная ини-
циатива лингвистов и разработчиков программного обеспечения, посвященная при-
цельно ресурсам для русского языка. Целью форума является обзор состояния ис-
следований в той или иной области обработки текста, независимая оценка методов
и алгоритмов работы систем, создание свободно распространяемых размеченных

*
Раздел основан на статье: Ляшевская О. Н., Астафьева И., Бонч-Осмоловская А., Га-
рейшина А., Гришина Ю., Дьячков В., Ионов М., Королева А., Кудринский М., Литягина А.,
Лучина Е., Сидорова Е., Толдова С., Савчук С., Коваль С. Оценка методов автоматического
анализа текста: морфологические парсеры русского языка (Ляшевская и др. 2010).
50 1.2. Словоизменение

ресурсов для проведения такой оценки. В целом ставится задача привлечь внимание
профессионального сообщества к интересным проблемам анализа текста и вдохно-
вить компьютерных лингвистов на создание новых и совершенствование существу-
ющих систем. В этой главе описываются принципы и процедура проведения первого
соревнования русскоязычных парсеров, состав участников, принципы составления
тестовой коллекции, организация экспертизы и, конечно же, результаты форума.

Введение
Форум «Оценка методов автоматического анализа текста» (http://ru-eval.ru)
стартовал в феврале 2010 г., и темой первого цикла стали морфологические пар-
серы русского языка. Тестовый запуск систем и экспертиза ответов были прове-
дены в марте-апреле того же года, а затем в рамках конференции «Диалог’2010»
состоялась очная встреча участников и обсуждение результатов. Сама идея фо-
рума вдохновлена конференцией Language Resources and Evaluation, важным на-
правлением которой считается осмысление состояния автоматических техноло-
гий, оценка работающих компьютерных приложений, прототипов и алгоритмов,
а также выработка мнения компьютерно-лингвистического сообщества в отноше-
нии дальнейших перспектив развития технологий. Однако настоящим своим ро-
ждением Форум обязан российской конференции по компьютерной лингвистике
и интеллектуальным технологиям «Диалог». Вместе с постоянными участниками
«Диалога» мы обсуждали, отчего, несмотря на существование старых и хорошо за-
рекомендовавших себя парсеров русского языка, все время появляются новые про-
цессоры, нужны ли лингвистические ресурсы, например словари, для построения
компьютерных лингвистических систем, в чем задача лингвистов на разных этапах
развития IT-технологий и, наконец, почему в мире большой популярностью поль-
зуются некоммерческие семинары по сравнительной оценке парсеров (ср. проекты
CLEF, AMALGAM, GRACE, EVALITA, SEMEVAL и др.) и не нужно ли ввести
такую моду в России для русскоязычных ресурсов.
Ключевое событие форума строится в игровой форме: системы соревнуются
друг с другом на специально подготовленной коллекции текстов, кто даст боль-
ше правильных ответов. Однако цель соревнования вовсе не в том, чтобы назвать
победителя, а в том, чтобы выявить, какие алгоритмы и ресурсы позволяют улуч-
шить результаты по тому или иному показателю. В связи с этим форум предпо-
лагается проводить регулярно, чтобы дать разработчикам возможность из года
в год совершенствовать свои методы. Таким образом, настоящая высокая цель фо-
рума — улучшение состояния науки в области автоматической обработки текста.
Но главное, форум должен способствовать созданию среды, в которой научные,
научно-производственные, коммерческие разработки могли бы проходить незави-
симую экспертизу и в которой могли бы обсуждаться проблемы и перспективы
развития технологий.
Немаловажным представляется и практический выход, полученный по оконча-
нии данного соревнования: корпус вручную размеченных и выверенных текстов,
1.2.3. Соревнования морфологических анализаторов 51

который можно использовать в научно-исследовательских целях, сформирован-


ные принципы разметки, к которой могут быть приведены разметки большинства
систем, исчисление сложных случаев русского языка, которые не имеют одноз-
начного решения. По счастливому стечению обстоятельств, форум получил также
образовательную составляющую: в его подготовке, проведении и формировании
финального отчета активное участие принимали студенты Отделения теоретиче-
ской и прикладной лингвистики филологического факультета МГУ им. М. В. Ло-
моносова, которые получили возможность «пощупать руками», как работают
парсеры, увидеть, в чем их сильные и слабые стороны, чем парсеры системно от-
личаются друг от друга и т. д.
Объектом рассмотрения в данном форуме являются не собственно морфоана-
лизаторы, работающие с изолированными словами (именно они рассматривались
в качестве объекта оценки в отдельных работах последнего десятилетия, ср. Ко-
валь 2003), а модули, учитывающие или потенциально учитывающие контекст.
В связи с этим как в названии форума, так и во всей его внутренней документации
последовательно используется понятие «морфологический парсер», обозначаю-
щее модуль, функциональность которого позволяет, как минимум, обрабатывать
сразу всю текстовую цепь слов и, как максимум, учитывать при анализе каждого
текстового слова результаты разбора его соседей. В этой второй, «сильной», интер-
претации термин «морфологический парсер» становится практически неотличи-
мым от используемого в англоязычной литературе термина POS tagger, однако ор-
ганизаторы форума предпочитают говорить о «морфологических парсерах» в силу
специфики русского языка: как «слабые» (не предусматривающие контекстную
дизамбигуацию разборов), так и «сильные» (включающие такую дизамбигуацию)
варианты парсеров опираются на заложенную их разработчиками модель такого
далеко не тривиального объекта, как русская словоизменительная морфология,
а значит, имеют достаточно много общего.
Важнейшая презумпция организации соревнования состояла в том, что не
бывает единственно правильного решения грамматически спорных вопросов и
единственно правильного алгоритма морфологического анализа. Существует
множество примеров того, как оптимальный выбор того или иного решения за-
висит от той цели, для которой проводится анализ. Так, выделение устойчивых
словосочетаний как одной единицы (например, «Государственная Дума») может
улучшить качество информационного поиска, двукомпонентный анализ в данном
случае необходим для корректных последующих уровней обработки. Разбор сло-
воформы «бело-кремовое» как единого целого, получающего грамматическую ха-
рактеристику по концовке, вполне удовлетворителен во многих ситуациях, однако
для тех систем, в цикл обработки которых включен семантический анализ, для
осмысления этой явно несловарной формы наверняка потребуется ее сегментация
по дефису.
В связи с этим достаточно широкий круг грамматических вопросов был выне-
сен за скобки соревнования и не оценивался. Тем не менее именно эти проблемы —
52 1.2. Словоизменение

и расхождения систем в предлагаемых решениях — явились предметом особого


внимания со стороны организаторов. Нам представляется, что исчисление и
классификация случаев, сложных для автоматического грамматического разбора,
а также сведения о частотности возможных решений являются самоценной инфор-
мацией, которая может быть использована научным сообществом и для исследова-
тельских целей и для улучшения эффективности прикладных разработок.

Дорожки
Организационно форум 2010 г. во многом строился по образцу Семинара по
оценке методов информационного поиска РОМИП (РОМИП 2009). Оценка алго-
ритмов проводилась по нескольким независимым дисциплинам (дорожкам). Ка-
ждая дорожка была посвящена одной конкретной задаче анализа текста с заранее
согласованными правилами оценки систем-участников. От участников не требова-
лось участия во всех дорожках сразу, поэтому у них была возможность сосредото-
читься на решении только одной из предлагаемых задач.
В соревнованиях рассматривались два типа морфологических разборов:
1) без дизамбигуации: системы дают множество возможных разборов, оценива-
ется наличие среди них правильного разбора;
2) с дизамбигуацией: система должна дать единственный правильный разбор,
корректность которого является объектом оценки.
Соревнования без дизамбигуации состоялись на следующих дорожках:
— «Лемматизация». Задача этой дорожки состояла в том, чтобы правильно
определить исходную форму словоформы;
— «POS». Требовалось правильно определить часть речи, к которой принадле-
жит исходная словоформа;
— «Морфология». Задача: правильно определить грамматические теги, которые
характеризуют исходную словоформу, например род, число, падеж, время и т. д.
Оценивалось наличие правильной комбинации грамматических тегов, представ-
ленных в разборе;
— «Редкие слова». Задача состояла в том, чтобы правильно определить лемму
и часть речи для списка специально отобранных несловарных или нестандартных
словоформ.
Соревнования с дизамбигуацией проводились на дорожках «Дизамбигуация:
леммы» и «Дизамбигуация: POS»32.

32
Первоначально предполагалось также проведение дорожки «Коллекции: Грязные
тексты», где системам ставилась задача разметить фрагменты плохо распознанных отска-
нированных документов, таблиц, содержащих слова с некорректно внесенными знаками
переносов и форматирования и текстов с большим количеством опечаток. Была подготов-
лена и разослана участникам специальная коллекция, однако, поскольку по этой дорожке
был получен только один ответ, дорожка была отменена и экспертиза результатов по ней не
проводилась.
1.2.3. Соревнования морфологических анализаторов 53

Участники
На конкурс были поданы заявки от 15 групп разработчиков из Москвы, Санкт-
Петербурга, Екатеринбурга (Россия), Минска (Беларусь), Донецка (Украина),
Лидса (Великобритания). В тестовых дорожках приняли участие 12 систем: ARME,
Crosslator, FSTMorph (+ ЭТАП-3), Libmorphrus, Mocky, Mystem (+ FastDictionary),
Polymorph, Pymorphy, RDMA_IAI, Semantarus Morpho, Starling, TextAn33. Некото-
рые разработчики представили несколько вариантов морфологических анализато-
ров для дорожек с дизамбигуацией и без нее и даже несколько вариантов реализа-
ции алгоритмов на одной дорожке.
В итоге было получено 13 ответов систем по дорожкам «Лемматизация» и
«POS», 12 ответов по дорожке «Морфология», 8 ответов по дорожке «Редкие слова»
и 7 ответов по обеим дорожкам с дизамбигуацией. Ответы одного участника по до-
рожкам «Лемматизация», «POS» и «Морфология» были дисквалифицированы за
несоответствие формата данных и не участвовали в экспертизе.

Тестовая коллекция и задания


Для соревнования была подготовлена общая коллекция неразмеченных текстов
для дорожек «Лемматизация», «POS», «Морфология», «Дизамбигуация: леммы»
и «Дизамбигуация: POS» (Основная коллекция) объемом около 1 млн словоупо-
треблений. Материалы для Основной коллекции были составлены из фрагментов
текстов, присланных некоторыми участниками и экспертами. В Основную коллек-
цию вошли тексты различной тематики и жанровой принадлежности в следующих
соотношениях: 18 % Статьи в СМИ / Нон-фикшн, 15 % Новости; 15 % Интервью;
15 % Технические тексты; 15 % Юридические тексты; 18 % Художественная лите-
ратура; 4 % Блоги и форумы.
На базе Основной коллекции было составлено задание для дорожки «Редкие
слова», включавшее 69 отобранных экспертами слов с их ближайшим контекстом,
в том числе:
1) продуктивные модели (слова с неизвестным словарю корнем, но образованные
с помощью продуктивных аффиксов. Среди них встречаются так называемые слова-
обманки: аррабьята (лемма «аррабьята») vs. френдята (лемма «френденок») и т. п.,
а также авторские «придуманные» слова: увазила, кругтелся, склипких, грезитвой;
2) сложные слова, у которых вторая часть совпадает со словами или вторыми
частями сложных слов в словаре Зализняка: полуколебаний, ультраженственной,
миллионометра, Росторгмонтаж;
3) слова с «неизвестными» корнями (в т. ч. имена собственные), не содержащие
продуктивных аффиксов, для которых носители языка могут однозначно опре-
делить лемму и часть речи (по стандартным окончаниям русского языка и зная

33
Еще одна система (АОТ) выступала вне зачета, с согласия автора ее запускали сту-
денты-эксперты. Более подробную информацию об участниках можно найти на странице
http://ru-eval.ru/participants.html.
54 1.2. Словоизменение

контексты, в которых они употреблены): турбийона (лемма «турбийон»), френдя


(«френдить»), тюрбо («тюрбо»), Баухаус («Баухаус») и др.;
4) редкие и нестандартные формы (некоторые деепричастия, формы первого
лица глаголов и степени сравнения, которые употребляются в языке, но призна-
ются окказиональными или ненормативными, в связи с чем обычно отсутствуют
в словарях): стригя, пья, побежу, висю, деревяннее, нельзей;
5) аббревиатуры типа ВЧК, ОГПУ, МФТИ, которые система могла бы спутать
с глаголами или словами других классов и ошибиться в определении леммы.
Источником выборки редких слов послужили научные тексты, инструкции, ку-
линарные рецепты и меню, записи речи детей дошкольного возраста (большинст-
во интересных продуктивных моделей и нестандартных форм было обнаружено
именно там, поскольку в возрасте с 3 до 5 лет дети постоянно изобретают новые
слова), форумы в Интернете, а также тексты Велимира Хлебникова и Людмилы
Петрушевской. Итоговый баланс задания «Редкие слова» включает 26 существи-
тельных, 12 прилагательных, 25 глаголов и 6 слов категории ADV.
Сравнение результатов по всем дорожкам проводилось на основе выборочной про-
верки ответов систем-участников. Для этого был подготовлен «Золотой Стандарт»34 —
множество случайно выбранных предложений из Основной коллекции, объемом
около 2000 словоупотреблений. В ходе экспертизы ответы систем сравнивались с
произведенной экспертами ручной разметкой Золотого Стандарта, см. с. 56.

Принятые соглашения по унификации грамматической информации


Подготовительный этап потребовал определенных решений, направленных на
унификацию нотации и структуры морфологических разборов в ответах, ожидае-
мых от парсеров. Было выявлено несколько типов проблемных случаев:
• некоторые частеречные категории не имеют устойчивой общепринятой нота-
ции разметки и выделяются, обозначаются и объединяются системами по-раз-
ному, что может затруднить оценку результатов (например, в одних системах
выделяется один общий класс местоимений, в других системах они разводятся
по классам существительных, прилагательных, наречий и т. д., в третьем слу-
чае выделяются классы местоимений-существительных, местоимений-прила-
гательных и т. п.);
• объем парадигмы может разниться от системы к системе, например формы
парных глаголов совершенного и несовершенного вида могут приводиться
к двум разным леммам (прыгнул — прыгнуть, прыгал — прыгать) или к одной
общей (прыгать); часто само требование к объему парадигмы зависит от того,

34
Специально отметим, что словосочетание «Золотой Стандарт» не носит какой-либо
особой положительной оценки, являясь широко распространенным термином в области ин-
формационных технологий (ср. англ. Gold Standard). Он предполагает ручную тщательно
выверенную разметку тестового блока данных. По иронии судьбы, в Золотых Стандартах
все равно встречаются отдельные ошибки разметки.
1.2.3. Соревнования морфологических анализаторов 55

для решения какой прикладной задачи используется модуль морфологического


парсинга;
• некоторые классифицирующие признаки словоформ (например, переходность
у глаголов) могут считаться избыточными на этапе морфологического анализа
текста, а их определение может быть затруднено в том случае, если анализиру-
емая словоформа не входит в словарь системы;
• некоторые морфологические признаки не могут быть однозначно определены
в рамках морфологического анализа (например, нетривиально определение
леммы и залога для глаголов с постфиксом -ся);
• некоторые морфологические характеристики (например, звательный падеж) име-
ются только у ограниченного числа словоформ и могут системно не выделяться.
С учетом ожидаемых расхождений было принято решение о том, что разметка
будет производиться парсерами по упрощенной системе. При лемматизации буквы
е и ё, а также написание с прописной / строчной буквы признавались равноправны-
ми. Частеречные признаки были приведены к следующему сокращенному инвен-
тарю: существительные (S), прилагательные (A), глаголы, в том числе причастия
и деепричастия (V), предлоги (PR), союзы (CONJ) и сборная категория, включаю-
щая прочие несклоняемые слова — наречия, вводные слова, частицы, междометия
(ADV). Не участвовали в оценке и могли быть размечены любым образом место-
имения (включая наречные и предикативные), числительные, а также составные
предлоги и союзы (ср. потому что, в течение).
Кроме того, был сокращен и список грамматических характеристик, припи-
сываемых словоформе. В общем случае сопутствующий набор грамматических
признаков определялся тем минимумом информации, который нужно знать для
однозначного восстановления словоформы из леммы. Морфологические признаки
указывались только для существительных, глаголов и прилагательных.
Итоговый список размечаемых морфологических характеристик словоформ
включает:
род: m (мужской), f (женский), n (средний)
падеж: nom (именительный), gen (родительный, в том числе счетная форма —
два шарá), dat (дательный), acc (винительный), ins (творительный), loc
(предложный, в том числе второй предложный, ср. в лесу)
число: sg (единственное), pl (множественное)
время: pres (= непрошедшее: настоящее и будущее время — пишу, напишу), past
(прошедшее),
наклонение: imper (повелительное)
инфинитив: inf
причастие: partcp
деепричастие: ger
залог: act (действительный), pass (страдательный) — указывается только в формах
причастий
лицо: 1p, 2p, 3p.
56 1.2. Словоизменение

Таким образом, из классифицирующих категорий необходимым для указания


являлся только род, не рассматривались переходность и вид глагола, залог для всех
форм глагола, кроме причастий и деепричастий, одушевленность имен. Кроме того,
необязательно было указывать при разборе степень сравнения прилагательных и
наречий, а также полноту / краткость прилагательных.
Следует также отметить, что не участвовал в оценке целый ряд непродуктив-
ных словоизменительных категорий, а также маргинальных реализаций продук-
тивных категорий: лицо и наклонение форм императива 1 лица типа пойдемте;
падеж имен в конструкциях «пойти в солдаты», «попить чаю»; звательный падеж
(Маш!, отче и др.); род слов общего рода (врач).

Подготовка Золотого Стандарта


Ручная разметка Золотого Стандарта, предшествовавшая экспертизе результа-
тов, преследовала несколько целей. Во-первых, требовалось независимое осно-
вание для автоматического сопоставления ответов систем, которое уменьшило
бы объем ручной экспертизы: проверке подлежали только случаи расхождения
между стандартом и ответами систем. Во-вторых, организаторы хотели избежать
влияния результатов, предоставленных системой, на интуицию экспертов, и про-
пусков ошибок по невнимательности. В-третьих, разметка Стандарта должна
была подготовить экспертов к оценке ответов систем, сформировать у них пред-
ставление о том, какие сложные случаи их ожидают, понять объективную приро-
ду несовпадения некоторых ответов и выработать критерии для их либеральной
оценки.
В разметке Стандарта принимало участие 10 экспертов, каждый фрагмент
размечался независимо двумя разметчиками. Перед ними стояла задача выделить
в тексте все русские словоформы и дать им единственный разбор. После техни-
ческой валидации разметки на предмет соблюдения формата и допустимых соче-
таний тегов согласованность результатов ручной разметки (inter-annotator agree-
ment) составила: леммы — 94,4 %, POS — 95,4 %, морфология — 89,0 %, весь
разбор в целом — 85,5 %. Оставшиеся содержательные расхождения согласовы-
вались экспертами в паре. В случае если эксперты не могли прийти к единому
решению, спорные вопросы выносились на обсуждение на специально организо-
ванных семинарах с участием всех разметчиков и еще 5 экспертов. В частности,
обсуждалось, как лемматизировать потенциальные pluralia tantum, сокращения,
слова с дефисом или незнакомые слова; к какому классу принадлежат слова типа
минувший — причастие или отпричастное прилагательное, данные — прилага-
тельное или отадъективное существительное. Каждый эксперт высказывал свое
мнение по поводу того или иного случая, а также объяснял свою точку зрения.
Затем наиболее убедительное решение вносилось в Золотой Стандарт. Напри-
мер, в случае выбора леммы для 72-часовых было предложено три возможных
решения: 1) это две словоформы, которым приписываются две леммы — «72»
и «часовой»; 2) лемма — «72-часовой»; 3) лемма — «семидесятидвухчасовой».
1.2.3. Соревнования морфологических анализаторов 57

В ходе дискуссии предпочтение было отдано первому варианту, который и был


отражен в Золотом Стандарте.

Экспертиза ответов систем


Процедура экспертизы ответов морфологических парсеров предусматривала
сравнение разбора каждой входящей в зачет словоформы с ее разбором в Золо-
том Стандарте. Полное совпадение по одному из учитываемых параметров (лемма,
часть речи, грамматические признаки) автоматически получало оценку 0. При
этом на дорожках без дизамбигуации для признания ответа правильным достаточ-
но было наличия правильного разбора среди любого количества вариантов разбо-
ра, предложенных системой.
Случаи расхождений отправлялись на рассмотрение экспертам, которые долж-
ны были оценить их по следующей шкале:
1 — права Система;
2 — прав Золотой Стандарт;
3 — спорный грамматический вопрос;
4 — затрудняюсь определить (такие оценки впоследствии пересматривались
в более широком кругу экспертов);
5 — неправы оба — и Система и Стандарт.
Сравнение ответов систем с Золотым Стандартом позволило выделить наибо-
лее распространенные отклонения от разборов, признанных эталонными.
1. Существенную часть ошибок составляет неправильное распознавание не-
стандартных классов слов. Можно выделить 5 основных типов.
1.1. Слова, имеющие дефис в графической репрезентации. Многие парсеры
последовательно разбивают такие слова на части и лемматизируют их по отдель-
ности, что можно признать правильным лишь в небольшом количестве случаев.
Правомерность такого разбиения зависит от статуса элементов, составляющих
дефисную конструкцию. Так, первым элементом может быть префиксоид (штаб-
квартира), первый сегмент заимствований, не несущий в русском языке смысло-
вой нагрузки (Тянь-Шаня, холд-ап), неотделимая часть некоторых типов предлогов
(из-за) и наречий (по-птичьи) и т. д., и тогда подобное решение грамматически
некорректно. Разбиение наиболее правомерно лишь тогда, когда обе части такого
формального слова склоняются (например, когда одна из них является приложени-
ем к другой: шофер-предприниматель) и первая часть может обладать самостоя-
тельными грамматическими признаками, но эти случаи составляют незначитель-
ную долю всех слов с дефисами.
1.2. Некоторые имена собственные. Неверно распознаются и лемматизируются
по исходному сегменту. Проблемы частеречной принадлежности и грамматиче-
ских признаков возникают не только с экзотическими словами, но и с фамилиями
на -ов, -их и т. п.
1.3. Аббревиатуры. В отдельных случаях не распознаются вообще, некоторые си-
стемы опознают только часть речи, в той или иной мере — грамматические признаки.
58 1.2. Словоизменение

1.4. Редкие слова. Зачастую также не распознаются или лемматизируются путем


копирования сегмента исходного текста. Иногда по такой неправильной лемме
определяются грамматические признаки.
1.5. Общепринятые сокращения типа тыс., ст. («статья») и др.
Таким образом, большая часть ошибок возникает в «несловарных» словах, что
объясняется тем, что парсеры либо имеют недостаточно эффективные средства об-
работки таких слов, либо вовсе их не имеют, полагаясь на закрытый список, состав-
ляющий словарь системы. Обилие ошибок с определением части речи и грамма-
тической характеристики таких слов указывает на необходимость использования
методов, учитывающих контекст. Экспертиза дорожки «Редкие слова» показала,
что наиболее уязвимы для парсинга слова непродуктивных моделей (джоулево,
гильоше), а также глагольные и наречные словоформы. Как кажется, это связано
с тем, что для многих прикладных задач выбор в пользу продуктивных моделей и
имен существительных дает большую эффективность системы.
2. Омонимия.
2.1. Достаточно типичными являются ошибки при разборе частичных (не «си-
стемных») омонимов, которые могли неверно лемматизироваться (парный — пар-
ной) и, как следствие, получали неверную POS-характеристику (ели).
2.2. Особый класс среди омонимов составляют пары из глаголов и отглаголь-
ных прилагательных / существительных (окружающий как форма глагола и как
прилагательное, данные как форма глагола и как существительное), наречий и
прилагательных (ясно как форма наречия или прилагательного), а также наречий и
производных предлогов (вблизи, навстречу), для различения которых нельзя обой-
тись морфологическими критериями. Это обстоятельство вызвало некоторые коле-
бания среди экспертов в оценке таких случаев.
3. Часть ошибок можно объяснить неправильным разбором по аналогии. Наи-
более типичным случаем является ошибочная лемматизация глаголов с постфик-
сом -ся путем отсечения этого постфикса в ситуации, когда соответствующий пар-
ный глагол не существует или отчетливо отличается по значению. Например, для
глаголов типа являться, стремиться, находиться отдельными системами были
предложены в качестве лемм соответственно являть, стремить, находить.
4. В отдельных случаях участники использовали классификации частей речи,
которые не совпадали с предварительно заданной для данного соревнования, а по-
тому использование символов этих классификаций оценивалось как ошибочное.
Вместе с тем, по общей договоренности, исключение было сделано для числитель-
ных и местоимений, разбор которых не входил в зачет.
Наряду с вышеперечисленными типовыми ошибками был выделен ряд случаев
лемматизации, определения части речи и полного грамматического разбора, кото-
рые по общему мнению были квалифицированы как спорные (оценка 3) и допуска-
ли более одного правильного (не наказываемого штрафными баллами) варианта.
Основные спорные грамматические вопросы включали:
1.2.3. Соревнования морфологических анализаторов 59

1) определение леммы сравнительных и превосходных степеней наречий и при-


лагательных (показатель степени может сохраняться в лемме, или же может быть
использована лемма положительной степени35);
2) определение леммы краткой формы прилагательного (лемматизация по пол-
ной / краткой форме);
3) определение леммы парных по виду глаголов (лемматизация по несовершен-
ному виду / по совершенному виду / по тому виду, который присутствует в исход-
ной словоформе);
4) определение леммы глагольных словоформ с постфиксом -ся (лемматизация
с сохранением постфикса / без него36).

Результаты соревнования
В основу ранжирования ответов систем положены три базовые величины:
n, общее количество ответов на дорожке — принято за константу для всех си-
стем и соответствует числу словоформ, получивших разметку в Золотом Стандар-
те и входящих в зачет в соответствии с регламентом;
f, количество неправильных ответов системы на дорожке: неправильными счи-
таются ответы, получившие оценку экспертов 2 и 5 (см. выше с. 57);
t, количество правильных ответов системы на дорожке: правильными считают-
ся ответы, получившие оценку 0, 1, 3 и 4.
Организаторы форума не могли уступить искушению использовать такие попу-
лярные метрики качества функционирования лингвистических информационных
систем, как точность и полнота. Вместе с тем при более внимательном рассмотре-
нии выяснилось, что эти метрики могут быть использованы лишь в весьма усечен-
ном виде, по крайней мере на начальном этапе существования форума, когда все
процедуры, в том числе оценочные, только отрабатываются.
Это несоответствие связано с принципиальными отличиями в функциональной
архитектуре между информационным поиском, из которого берут начало точность
и полнота, и морфологическим парсингом. В ситуации оценки информационного
поиска все пространство используемой коллекции документов делится на четыре
области:
tp — документы, признанные релевантными и найденные тестируемой системой,
fn — документы, признанные релевантными и не найденные тестируемой системой,
fp — документы, не признанные релевантными, но найденные системой,
(n – (tp + fn + fp)) — все остальные документы,

35
Во втором случае формы наречий должны быть приведены к наречиям, а формы при-
лагательных к прилагательным.
36
В последнем случае имеется в виду страдательный залог невозвратного глагола. Вари-
анты лемматизации признаются равноправными за исключением тех случаев, когда глагол
не употребляется без -ся (удаваться — *удавать) или же значение глагола без -ся принци-
пиальным образом отличается от значения возвратного глагола (находить — находиться).
60 1.2. Словоизменение

что позволяет определить точность Precision как отношение tp / (tp + fp), а полноту
Recall как отношение tp / (tp + fn) и дать этим величинам вполне осмысленную ин-
терпретацию. Однако эта ситуация не находит прямых соответствий в морфоло-
гическом анализе текста. Если принять за единицу подсчетов словоформу (а не,
допустим, отдельный тег или вариант разбора), то пространство размеченной кол-
лекции текстовых словоформ будет разделено на три области:
tp — словоформы, оценка которых учитывается при ответах системы и для кото-
рых система дала правильный ответ (= t),
fp — словоформы, оценка которых учитывается при ответах системы и для кото-
рых система дала неправильный ответ (= f),
fn — словоформы, оценка которых учитывается при ответах системы и для кото-
рых система не дала ответа (= n – t – p).
Если разбираемый текст содержит словоформы, разбор которых по общей до-
говоренности не подвергается оценке (как местоимения и числительные на дан-
ном форуме), случаи их окказионального разбора отдельными системами никак
не могут повлиять на оценку этих систем, поскольку остальные участники изна-
чально отказались от их разбора и общее основание для сопоставления результа-
тов всех участников отсутствует. Если одной словоформе из Золотого Стандарта
в ответе системы соответствует две словоформы с собственными разборами (на-
пример, бело-кремовое vs. бело и кремовое), то они получают одну общую оценку.
Таким образом, сумма tp + fn + fp является константой (n), обозначающей число
словоформ, по которым предполагается давать оценку системе, пользуясь данной
версией Золотого Стандарта (это справедливо для всех дорожек — с дизамбигуа-
цией и без дизамбигуации).
Механический перенос формул информационного поиска
Precision = tp / (tp + fp)
и
Recall = tp / (tp + fn)
в данную область дает лишь частичный эффект: точность вполне осмысленно ха-
рактеризует ту пропорцию ответов системы, которой можно доверять, тогда как
полнота едва ли может получить разумную интерпретацию. Причиной тому явля-
ется отсутствие каких-либо общих содержательных признаков между двумя слага-
емыми в знаменателе формулы — числом правильных ответов системы tp и числом
случаев, когда система по ошибке не дала никакого ответа fn (заметим, что в ин-
формационном поиске сумма tp + fn давала не что иное, как количество документов,
считающихся релевантными для данного запроса). Деление числа правильных от-
ветов на сумму разнородных слагаемых не поддается осмыслению.
Вместе с тем есть возможность воспользоваться еще одной метрикой, заимст-
вованной из информационного поиска, — это «аккуратность»:
Accuracy = tp / (tp + fn + fp).
1.2.3. Соревнования морфологических анализаторов 61

В связи с особенностью нашего выбора базовых величин для расчетов (n, f и t)


эта метрика имеет вид:
Accuracy = tp / (tp + fn + fp) = t / n
и легко интерпретируется как общая оценка качества работы парсера, поскольку
позволяет судить о том, какая доля словоформ получит правильный разбор дан-
ным парсером.
Существуют иные подходы к определению полноты и точности, см., например,
(Paroubek 2007: 111—112), где описаны возможные интерпретации этих понятий
специально для морфологического анализа без дизамбигуации. При этом либо рас-
сматривается ситуация, допускающая множественность разборов в Золотом Стан-
дарте, что является нетипичным в нашем случае, либо при сравнении с Золотым
Стандартом, приписывающим единственно возможную интерпретацию, полноту
предлагается определять так, как у нас определена аккуратность, а точность вклю-
чает понижающий коэффициент за неразрешенную неоднозначность. Однако мы
сочли удобным использовать при экспертизе дорожек описанную выше едино-
образную трактовку метрики для обоих вариантов разбора — как с дизамбигуа-
цией, так и без дизамбигуации.
Таблица 7
Результаты систем на дорожках
62 1.2. Словоизменение

Рис. 3. Результаты систем на дорожках морфологического анализа

* * *
Главной целью в 2010 г. было положить начало проведению в России семи-
наров, посвященных оценке методов автоматического лингвистического анализа
для русскоязычных коллекций. Как уже отмечалось, в мировой практике сложи-
лась традиция проводить соревнования по различным аспектам автоматической
обработки текста, в которых участвуют научные, научно-производственные, ком-
мерческие разработчики, заинтересованные в независимой экспертизе. В России
существует такая традиция в области информационного поиска (РОМИП). Однако
соревнования, где основное внимание уделяется собственно лингвистическому
анализу текста, в русскоязычном сообществе проводилось впервые.
В результате удалось:
— апробировать организационные процедуры для такого рода соревнования и
механизмы взаимодействия, в том числе дистанционного, в рамках оргкомитета;
— собрать большую коллекцию неразмеченных текстов разных жанров, на ко-
торой тестировалась работа систем;
— создать коллекцию Золотого Стандарта, размеченную вручную и выверен-
ную несколькими экспертами; эта коллекция может быть использована в дальней-
шем для тестирования систем и при подготовке специалистов по прикладной лин-
гвистике;
— выработать основные принципы морфологической разметки для создания
Золотого Стандарта;
1.2.3. Соревнования морфологических анализаторов 63

— принять основные грамматические решения, обеспечивающие унификацию


оценки разметок систем;
— выявить сложные и спорные случаи морфологической аннотации, вызыва-
ющие затруднения не только при автоматическом анализе, но и при разметке эк-
спертами;
— провести оценку работы парсеров по четырем дорожкам для систем без ди-
замбигуации и по двум для систем с дизамбигуацией;
— провести содержательный анализ ошибок парсеров, выработать классифика-
цию ошибок систем, а также решений, альтернативных принятым в Золотом Стан-
дарте;
— анализ результатов выявил также сложности в применении к оценке морфо-
логического анализа традиционных метрик, используемых в оценке информаци-
онного поиска.
В силу принципиальной несводимости к единому стандарту решений отдель-
но взятых систем по отношению к ряду спорных вопросов русской морфологии,
в 2010 г. эти спорные вопросы были вынесены за рамки соревнования. В дальней-
шем предполагается постепенно сужать их круг и расширять лингвистическую
базу для проведения соревнования, опираясь на взаимодействие с разработчиками
морфологических парсеров и учитывая новейшие тенденции в этой области.
Как и ожидалось, анализ результатов работы систем морфологического анализа
выявил целый ряд дискуссионных аспектов технологий морфологического анализа:
— состав набора морфологических тегов (специфика категоризации частей
речи для различных задач);
— оптимальные соотношения между размером словаря и мощностью генерато-
ра гипотез для «несловарных» слов;
— способы борьбы с различными типами «системной» омонимии и др.
Были решены главные задачи форума 2010 г.: построение типологии проблем
автоматического морфологического анализа текста и оптимизация структурирова-
ния соответствующего набора данных, что в целом может служить дополнитель-
ным стимулом развития алгоритмов в этой области. Активное участие в сорев-
новании большого количества различных научных и коммерческих коллективов
в 2010 г. показало актуальность и востребованность проведения подобных фору-
мов. В 2012 г. состоялся форум по оценке методов автоматического синтаксиче-
ского анализа, в 2014 г. оценивались методы автоматического разрешения анафоры
и кореференции. Последующие мероприятия могут быть посвящены синтаксиче-
скому и семантическому анализу, фактографии, анализу звучащей речи, использо-
ванию лексикографических ресурсов и многим другим аспектам автоматического
анализа текста.
1.3. Лексико-семантические классы

1.3.1. Принципы лексико-семантической разметки *


Лексико-семантическая аннотация в сочетании с грамматической аннотацией
представляет собой мощный инструмент для поиска не только отдельных клас-
сов слов, но и конструкций, характеризующихся ограничениями на морфологию
и семантику. С ее помощью пользователь может найти контексты, в которых упо-
требляются глаголы запаха или звука, имена инструментов и названия погодных
явлений, прилагательные цвета и формы и т. п., проверить возможность и эффек-
ты сочетаний семантических признаков в комбинации лексем, например допусти-
мость сочетания непредметных имен с глаголами движения, прилагательных цвета
с непредметными именами и т. д.
Уточним, что здесь речь пойдет о разметке лексических классов, реализован-
ной в Основном корпусе, а также газетном, поэтическом, устном, параллельном
и большинстве других корпусов1. В этой главе будут обсуждаться принципы,
особенности, проблемные точки разметки лексико-семантических классов имен
существительных, прилагательных, наречий и числительных. Первая часть по-
священа самой классификации; во второй части речь пойдет о проблеме снятия
лексико-семантической неоднозначности в тексте и способах решения этой зада-
чи с помощью ручных фильтров. Следующая глава (1.3.2) рассказывает о снятии
лексико-семантической неоднозначности автоматическими методами, с помощью
машинного обучения на размеченных данных.

*
Глава основана на материалах статей: Kustova G. I., Lashevskaja O. N., Paducheva E. V.,
Rakhilina E. V. Verb taxonomy: From theoretical lexical semantics to practice of corpus tagging
(Kustova et al. 2009); Рахилина Е. В., Кустова Г. И., Ляшевская О. Н., Резникова Т. И., Шема-
наева О. Ю. Задачи и принципы семантической разметки лексики в НКРЯ (Рахилина и др.
2009) и Рахилина Е. В., Кобрицов Б. П., Кустова Г. И., Ляшевская О. Н., Шеманаева О. Ю.
Многозначность как прикладная проблема: Лексико-семантическая разметка в Националь-
ном корпусе русского языка (Рахилина и др. 2006).
1
Для синтаксического корпуса разрабатывалась отдельная классификация (Апресян
и др. 2005), основанная на фундаментальной классификации предикатов Ю. Д. Апресяна
(Апресян 2003а; 2006). В онлайн-версии корпуса (http://ruscorpora.ru/search-syntax.html)
пока не реализована.
1.3.1. Принципы лексико-семантической разметки 65

Введение
Проект лексико-семантической классификации лексики для Национального
корпуса русского языка был реализован в Отделе лингвистических исследований
ВИНИТИ РАН в 2001—2005 гг. Группа под руководством Е. В. Падучевой разра-
батывала классификацию глаголов, вторая группа под руководством Е. В. Рахили-
ной разрабатывала классификации имен и наречий2. Исходно лексико-семантиче-
ская классификация в НКРЯ базировалась на принципах системы «Лексикограф»
(http://www.lexicograph.ru; Красильщик, Рахилина 1992; Падучева, Розина 1993;
Кустова 2004; Падучева 2004а; 2004б); при этом для целей разметки корпуса эта
система была существенно изменена и дополнена. Однако, уже будучи интегриро-
вана в корпус, семантическая разметка продолжает меняться и совершенствовать-
ся. Технология этих изменений такова: имеется базовая нотация, по которой есть
поиск в открытом доступе, и экспериментальная, которая проходит апробацию —
ею пользуются только разработчики корпуса. После тестирования новые пометы
внедряются в систему общедоступного поиска. В частности, в самые ближайшие
планы входит расширение системы семантических помет за счет включения новых
топологических типов имен и новых словообразовательных классов.
Понятие топологического типа имени восходит к (Talmy 1983/2000), где обраща-
ется внимание на лингвистическую релевантность геометрических характеристик
объектов внешнего мира. Мы применяли его к широкому русскому материалу в ра-
ботах, касающихся именной сочетаемости, см. (Рахилина 2000/2010; Десятова и др.
2008), и показали, что имена физических объектов, относящихся к классам «повер-
хности», «контейнеры», «веревки» и т. д., по-разному сочетаются с пространствен-
ными операторами, такими как прилагательные размера и формы, пространствен-
ные предлоги, глаголы локализации и движения и др. Сегодня поиск в корпусе идет
только по топологическим признакам «поверхность» и «контейнер», планируется
добавить в поисковую форму признаки «выступ», ср. нос, бородавка, грудь, бал-
кон и др., «вертикальная поверхность», ср. забор, стена, стенд и др., «отверстие»,
ср. дыра, горлышко, окно, а также ряд других топологических признаков.
Что касается словообразовательных помет, то в корпусе уже сейчас доступен
поиск разнообразных дериватов: приставочных глаголов, вторичных имперфек-
тивов (глаголов на -ыва, типа выпивать), семельфактивов (на -ну типа мигнуть),
а также — в зоне предметных существительных — диминутивов (ср. домик), ауг-
ментативов (ср. домище), в зоне прилагательных — каритивов (ср. безглазый, без-
дыханный) и некоторых других.

2
Перечислим основных участников проекта: Е. В. Падучева, Г. И. Кустова, Е. В. Рахи-
лина, Е. Ю. Калинина, Б. П. Кобрицов, О. Н. Ляшевская, Т. И. Резникова, С. Ю. Толдова,
О. Ю. Шеманаева. Ход работы не раз обсуждался на корпусном семинаре, и мы пользуемся
случаем, чтобы выразить благодарность всем принявшим участие в плодотворных дискус-
сиях. После завершения основного проекта классификация точечно редактировалась и рас-
ширялась, прежде всего силами Г. И. Кустовой и автора монографии.
66 1.3. Лексико-семантические классы

С другой стороны, помимо «плановых» изменений, имеющаяся на сегодняшний


день разметка редактируется, так сказать, «внепланово» — благодаря замечаниям
пользователей корпуса. Одновременно, помимо частных помет, интерес у пользо-
вателей — конечно, прежде всего у активных пользователей — вызывают и сами
принципы, заложенные в основу корпусной разметки. Например, Алексей Кретов
обратился к нам с целой статьей по этому поводу (Кретов 2009), и это стало хоро-
шим стимулом для нас, чтобы еще раз продумать возможные альтернативы «се-
мантических шагов», предпринятых в свое время в корпусе. Таким образом, следу-
ющие разделы главы будут посвящены обсуждению общей идеологии корпусной
разметки в семантической зоне, а затем — на примере конкретных спорных ре-
шений — мы обсудим «приложение» этих принципов — сначала к разметке как
таковой, а потом — к снятию семантической омонимии.

Лексико-семантическая классификация и корпусная разметка


Сегодня создано множество лексико-семантических классификаций, в том числе
на русском материале; см., например, (Кузнецова 1989; Бабенко 1999; Шведова
1998—2007); есть и примеры компьютерных систем, опирающихся на такого рода
классифицирование лексики, ср., например, систему WordNet для разных языков
мира (http://wordnet.princeton.edu; Fellbaum 1998), онлайн-база данных английских
глаголов VerbNet (http://verbs.colorado.edu/~mpalmer/projects/verbnet.html; Kipper et
al. 2006), также посвященный глаголам ресурс VerbOcean (http://demo.patrickpantel.
com/Content/verbocean) или систему USAS (Lancaster, http://ucrel.lancs.ac.uk/usas),
не говоря уже о базе данных «Лексикограф». Они отражают чисто семантический
подход к лексической классификации, подразумевающий максимально дробную
признаковую базу. Действительно, чем больше используется семантических при-
знаков, тем надежнее (за счет дробности классификации) можно предсказать со-
четаемостные особенности конкретных слов. Лучше всего эти задачи решает
лексическая база данных с максимально жесткой структурой и максимально по-
вторяющимися признаками — транскатегориальными, т. е. действующими в зоне
любой части речи, так что, например, признак ‘движение’ характеризует и глагол
идти, и прилагательное пеший, и существительное ноги. Пользователь такой базы
данных оперирует списками лексем разной степени общности, которые могут быть
релевантны для решения самых разных задач — от составления списков квазиси-
нонимов или, скажем, онтологий для информационного поиска до сопоставления
лексических систем разных языков.
Скажем сразу, что данный (чисто семантический) подход в полном объеме на
нашем корпусе реализован быть не может, во-первых, по техническим причинам:
многоступенчатая семантическая разметка, порождая все новую и новую омони-
мию, значительно бы «утяжелила» и без того объемный корпус (по своему «весу»
приближающийся к 300 млн словоупотреблений, к тому же снабженных морфоло-
гической и метатекстовой информацией), существенно замедляя его работу вплоть
до угрозы сбоев при поиске. Во-вторых, даже если бы техника выдерживала такую
1.3.1. Принципы лексико-семантической разметки 67

нагрузку без снижения быстродействия, транскатегориальный подход к корпусной


разметке устроил бы далеко не всех. Действительно, какому пользователю понра-
вилось бы, если бы на запрос ‘движение’ выдавался огромный массив предложе-
ний, содержащий не только глаголы и отглагольные имена, но и прилагательные
типа быстрый / медленный, а также предметные имена типа ноги, колеса, лыжи
и т. д. и т. п. и даже существительное часы (они ведь тоже ходят!). А ведь именно
с таким эффектом мы столкнемся, если, по предложению А. А. Кретова, «отменим»
частеречные противопоставления, действующие сегодня в системе семантических
классов корпуса.
Нам скажут: такое легко исключить, запросив только грамматический класс
глаголов с пометой «движение». А если пользователю нужны как раз отпредикат-
ные имена (типа хождение, вращение, полет и др.)? Здесь грамматические огра-
ничения не помогут, и в ответ на запрос о ‘движении’ будут выданы все те же часы
вкупе с лыжами. Если же исследователю действительно интересны предметные
имена, связанные с ‘движением’, он и в нынешней версии семантической разметки
может запросить все субъекты (т. е. предшествующие глаголу существительные
в именительном падеже) при глаголах движения, ср. запрос:
сущ. & им. п. + глагол : движение & личная форма.
С лингвистической точки зрения ответ многомиллионного корпуса на этот за-
прос будет гораздо точнее, чем априорное классификационное решение лингви-
ста-разметчика, которое базируется исключительно на его интуиции. В отличие от
лингвиста, корпус не будет «раздумывать» над тем, приписывать ли помету ‘дви-
жение’, прямо скажем, нестандартным с этой точки зрения именам типа часы, до-
рога, дым, пар, газ и им подобным, а просто выдаст исследователю весь объем
сочетаний — чтобы тот дальше мог выбрать нужные ему лексемы по своему усмо-
трению, а не был вынужден следовать чьей-то интуиции. Собственно, именно по-
этому разработчики корпусной разметки, опираясь на базу данных «Лексикограф»,
которая в части, касающейся предметной лексики, содержит для каждого имени
информацию о функциональном предикате (см. Красильщик, Рахилина 1992), со-
знательно «отрезали» эту семантическую зону, исключив ее из дерева разметки.

Древесная vs. фасетная классификация


Кстати, о деревьях. На первом этапе работы над разметкой мы считали, что
наша классификация должна быть не древесной, а фасетной. Древесный принцип
в чистом виде, реализованный, например, в Семантическом словаре Шведовой
(1998—2007), где предметное имя попадает или в класс контейнеров, или в класс
приспособлений, а глагол — или в класс речевых, или в класс посессивных, для
корпуса не годится, и нужно иметь возможность приписывать слову несколько се-
мантических помет сразу, что как раз и отражает идею фасетности (см. Кустова и др.
2005: 160). Однако в ходе работы выяснилось, что и фасетный принцип в чистом
виде как основа корпусной разметки тоже оказывается опасным. Действительно,
68 1.3. Лексико-семантические классы

он хорошо работает и широко применяется в корпусе для поиска по полностью


независимым признакам, скажем, с одной стороны, таксономическим, как ‘движе-
ние’, ‘лицо’, ‘физическое качество’, т. е. отражающим собственно онтологию, а с
другой — так сказать, «квазиграмматическим» пометам — отражающим мереоло-
гию (‘части’ — ‘целое’ & ‘элементы’ — ‘множество’), топологию (‘поверхности’,
‘контейнеры’ и др.), словообразование (уменьшительные суффиксы, приставки
и др.), оценку (положительная / отрицательная) и под. Именно за счет такой ком-
бинации (и даже практически всегда только за счет нее) возникает сложная много-
признаковая разметка в семантической зоне предметных имен3.
Другое дело — возможность фасетной организации разметки внутри чисто так-
сономических признаков, которые часто не-независимы друг от друга. Ведь при
таком способе структурирования семантической информации в один и тот же класс
попадают, скажем и глаголы, у которых данный признак является вершинным, и те,
у которых он совершенно второстепенный. В качестве примера удобно вернуть-
ся к признаку ‘движение’. Всякий человек (даже и не лингвист) знает, что такое
«глаголы движения» — это бегать, лететь, плыть, вертеться, катиться и т. д.,
довольно большой класс (общий его объем по нашей базе данных составляет для
русского языка более 1000 единиц). Все это те глаголы, в толковании которых при-
знак ‘движение’ является базовым или, говоря в синтаксических терминах, зани-
мает вершинную позицию. Но если иметь в виду глубокую детальную семантиче-
скую разметку, ориентированную на систематизацию лексики, о которой говорит
А. А. Кретов, то по признаку ‘движение’ придется разметить гораздо большее коли-
чество глаголов, у которых этот признак входит в толкование, но не как вершинный.
Тогда на запрос о глаголах движения в корпусе найдутся не только предложения
с «классическими» предикатами типа бегать или лететь, но и, например, предло-
жения с глаголом закрыть <дверь> (‘каузировать дверь, двигаясь, начать находить-
ся в контакте со стеной’), и отделить их друг от друга будет невозможно. Понятно,
что пользователь в этом случае будет разочарован, а значит, практическая задача,
которую корпус призван решать, не будет выполнена. Однако такой «провал» при-
кладных функций не случаен, он имеет и теоретическое объяснение.
Фактически идеология «универсальной» семантической разметки (о которой,
в частности, идет речь в работе А. А. Кретова и которая при поиске дает эффект
фасетности в полном объеме) восходит к семантическим примитивам Г. В. Лейб-
ница и компонентному анализу Й. Трира и Дж. Катца. Для них такое разложение
на минимальные смыслы было самоценно и представляло собой самостоятельную
научную проблему, ориентированную на поиск универсального метаязыка. Конеч-
но, с тех пор прошло много лет и сменилось много лингвистических теорий, но и
сегодня жива точка зрения, согласно которой решение этой задачи могло бы спо-

3
Примером, иллюстрирующим принцип возникновения редких исключений, здесь мо-
жет служить комбинация ‘вещества и материалы’ и ‘еда и напитки’, ср. сахар, творог, спирт
и т. п.
1.3.1. Принципы лексико-семантической разметки 69

собствовать построению лексической типологии и диахроническим исследовани-


ям лексики. Это не так. И теория (Fillmore, Atkins 2000; Lakoff 1987), и практика
(ср. Viberg 2001; Goddard 2003; Majid, Bowerman 2007), в том числе исследования
по лексической типологии (Копчевская-Тамм, Рахилина 1999; Майсак, Рахилина
2007; Резникова и др. 2008), говорят о том, что восприятие лексики носителями
и ее классификация в естественном языке опираются не на дискретные признаки,
а на целостные гештальты. Именно поэтому для семантического моделирования
в лексической типологии гораздо удобнее использовать теоретический аппарат
фреймов и конструкций, который как раз апеллирует к «не-независимости» отдель-
ных семантических признаков друг от друга. Так, признак ‘движение’ в семанти-
ке глагола закрыть настолько необходим для перехода объекта в результирующее
состояние, что является неотъемлемой частью этой ситуации. В этом смысле идея
движения для глагола закрыть ни с точки зрения типологии, ни с точки зрения
диахронии, скорее всего, релевантна не будет, потому что она присутствует в соот-
ветствующей внеязыковой ситуации обязательно.
В то же время, в семантике многих глаголов (а соответственно и отпредикат-
ных имен со значением ситуации) есть не одна (как у предметных имен), а две
в равной степени базовые таксономические зоны, причем достаточно независи-
мые друг от друга: способ действия и результат. Соответствующие им признаки
организуются фасетно и ищутся независимо друг от друга. Именно так устроен
глагол вытребовать, о котором шла речь в (Кустова и др. 2005: 160): с одной
стороны, вытребовать — это посессивный глагол, квазисинонимичный таким
как взять, получить, приобрести и под., а с другой — для него, как и для гла-
гола требовать, важна речевая составляющая, описывающая способ действия.
По тому же принципу размечены в корпусе глаголы ткнуться (‘движение’ + ‘кон-
такт’), барабанить (‘движение’ + ‘звук’), мелькать (‘движение’ + ‘восприятие’),
продрогнуть (‘изменение состояния’ + ‘физиологическая сфера’) и др. под.4 По-
нятно, что этих двух признаков недостаточно ни для полного описания соответ-
ствующих глаголов, ни для их типологического сравнения с другими языками.
Но поскольку корпус в принципе не может ставить перед собой задачу «описания
лексико-семантической системы русского языка» (см. Кретов 2009), это и не так
важно. Его задача — обеспечение максимально удобного поиска примеров для

4
Очевидно, что сам таксономический признак далеко не всегда просто сформулировать.
Например, для разбиравшегося выше глагола закрыть, который относится к классу ‘физи-
ческое воздействие’ наряду с резать, целовать, нажимать, касаться и др. под., опреде-
лить результат не так уж просто. С сугубо теоретической точки зрения это, наверное, мог
бы быть ‘контакт’, но всегда контакт предмета с предметом (двери с притолокой, например).
Между тем класс глаголов контакта интуитивно определяется (видимо, ввиду общей антро-
поцентричности картины мира) как состоящий из глаголов, способных описывать контакт
предмета с человеческим телом, ср. те же целовать, нажимать, касаться. В таких трудных
случаях лучше, конечно, оставить лексему недоопределенной — именно такая стратегия и
принята в корпусе.
70 1.3. Лексико-семантические классы

максимально широкого круга пользователей. Что же можно сделать для решения


этой задачи?
По нашему опыту, пользователю корпуса легче формулировать запросы, апел-
лируя к базовым категориям, — и именно они лучше всего приспособлены для
такой пользовательско-ориентированной системы, как корпус. Если говорить о гла-
голах, то это ментальные, речевые, позиционные, бытийные, движения, контакта
и др., если о прилагательных — цвета, размера, формы и др., в сфере предметной
лексики — лица, вещества, инструменты и проч. С одной стороны, такие классы
интуитивно понятны неподготовленному пользователю (хотя в корпусе все равно
каждая такая помета прямо в таблице снабжена всплывающей подсказкой и в бу-
дущем планируется разместить на сайте списки классов), а с другой — именно на
эти базовые классы, как выясняется, опирается большинство правил выбора значе-
ния при разрешении многозначности (см. с. 82). Ясно, что оба эти обстоятельства
вовсе не случайны: как раз такого рода свойства и лежат в основе определения
базовой лексики.
Конечно, базовые классы могут дальше специфицироваться — уже по древес-
ной схеме, так что, например, вещества будут делиться на жидкие, твердые и газо-
образные, а физические свойства — на форму, цвет, температуру и проч. Одновре-
менно на таксономическое дерево в корпусе, как мы уже говорили, накладывается
еще несколько «квазиграмматических» классификаций, и комбинация этих при-
знаков уже происходит по фасетной схеме. При этом «прозрачность» классифика-
ции, конечно, сохраняется: если здание относится к топологическому типу контей-
неров, то и его разновидность — дом — тоже.
Итак, дело не в том, что разработчики корпуса случайно или по недосмотру до-
пускают непоследовательности в использовании древесного или фасетного прин-
ципов классификации, а в том, что, учитывая специфику своего продукта и его
отличия от лексических баз данных и словарей, они вполне сознательно отказа-
лись от этих принципов как однозначной догмы и применили более эффективную
в условиях онлайн-поиска стратегию их совмещения. Конечно, такой подход не
дает возможности (и даже не ставит задачи) построить общезначимую надъязыко-
вую онтологию на базе универсальных лексико-семантических констант, а проще
говоря, компонентного анализа или (внечастеречных) семантических множителей,
зато позволяет довольно эффективно искать если не отдельные слова по заданному
семантическому признаку, то по крайней мере эти же слова в составе последова-
тельностей словоформ.

Семантика и синтаксис
И здесь мы переходим к ответу на еще один распространенный упрек: почему
же в Национальном корпусе русского языка нет синтаксической разметки?
Во-первых, строго говоря, она есть: в рамках семейства подкорпусов имеется
небольшой экспериментальный синтаксически размеченный подкорпус (см. http://
www.ruscorpora.ru/search-syntax.html). Работа над ним показала, насколько это тру-
1.3.1. Принципы лексико-семантической разметки 71

доемкая задача. У осуществляющей этот проект лаборатории ИППИ РАН под ру-
ководством Л. Л. Иомдина к началу работы имелся огромный опыт такого рода
деятельности в рамках работ по машинному переводу; имелся и задел — в виде
серии систем ЭТАП на базе русского поверхностного синтаксиса, принятого в мо-
дели «СмыслóТекст», а также пилотного корпуса новостных текстов, уже разме-
ченных к тому времени тем же анализатором. Тем не менее потребовалось 6 лет
для того, чтобы разметить корпус в пределах полумиллиона словоупотреблений.
Если даже представить себе, что дальше работа будет продвигаться в разы быстрее,
то для такой разметки всего массива НКРЯ потребуются десятки лет. Одновремен-
но детальная синтаксическая разметка в том виде, в котором она принята в син-
таксическом подкорпусе, требует не только профессиональной подготовки размет-
чика, но и дополнительной подготовки пользователя: «новичку» она недоступна.
Таким образом, подробный синтаксический анализатор не может быть пока
применен к корпусу в целом, во-первых, ввиду его объема, а во-вторых, ввиду от-
сутствия единой — одновременно общезначимой и общедоступной — модели рус-
ского синтаксиса. Можно было бы пофантазировать и попытаться себе предста-
вить, как мог бы выглядеть специальный модуль корпусного синтаксиса — чтобы
он был и общезначимым, и общеполезным, и автоматическим. Один из вариантов
решения этой проблемы нам видится в том, чтобы указывать сам факт синтакси-
ческой связи, не специфицируя ее природу. Можно ли будет добиться на этом пути
интересного результата, пока до конца не ясно.
Вместе с тем неправы те, кто говорит, что сейчас в НКРЯ нет никакой синтак-
сической разметки, см., например, (Копотев, Мустайоки 2008). Во-первых, в кор-
пусе имеется частеречная разметка, а это не только морфология, но и синтаксис;
плюс к этому — (морфологическая по природе) информация о падежном марки-
ровании: она тоже дает представление о синтаксических связях. Во-вторых, не так
давно была введена опция поиска по знакам препинания, так что теперь на всем
массиве текстов можно находить вопросы и восклицания, а также вводные слова
или сложноподчиненные предложения разных видов. Все это, конечно, не полно-
ценный синтаксис, но, что называется, элементы синтаксиса в корпусе (Там же).
Не забудем и о возможности задавать строгий порядок следования единиц поиска.
Таким образом, в совокупности для запросов оказываются доступны конструкции,
т. е. (как правило) сложные синтаксические единицы со своим значением, часто
фиксированным набором и порядком лексических переменных, заданным грам-
матическим оформлением и лексическим наполнением разной степени свободы —
от почти застывших фразеологизмов до свободных сочетаний с минимальными
ограничениями на составляющие.
Термин «конструкция» удобен тем, что, как говорится, «проверен временем»
и до сих пор используется самыми разными школами, причем примерно в одном
и том же значении. Главную особенность конструкций лучше всего эксплици-
ровал Ч. Филлмор в теории Грамматики Конструкций (Fillmore et al. 1988; Fill-
more 1988; Kay, Fillmore 1999; Fillmore, Kay 2005; см. также Goldberg 1995; 2006;
72 1.3. Лексико-семантические классы

Fried, Östman 2004; Рахилина 2010): конструкция — это минимальная языковая


единица, в которой ограничения разного уровня (морфологические, лексические,
семантические, синтаксические, а иногда и фонетические) взаимозависимы,
так как мотивированы семантикой конструкции в целом. Филлмор же предло-
жил компьютерную модель для своей теоретической идеи — систему Framenet
(см. http://framenet.icsi.berkeley.edu; Johnson et al. 2003), в которой воплощается
комплексная, многоступенчатая разметка контекстов употребления лексических
единиц.
Понятно, что НКРЯ, в сущности, воплощает ту же идею: лексическая семантика
в языке существует не сама по себе, а в теснейшей связи с так называемым «малым
синтаксисом» (см. также работы Л. Л. Иомдина на эту тему, например Иомдин
2003), следовательно, семантическая разметка в корпусе должна встраиваться
в морфосинтаксическую и взаимодействовать с ней. И действительно, наиболее
эффективен корпус тогда, когда задан сложный запрос, комбинирующий лингви-
стическую информацию разной природы. В этом случае он, во-первых, незаменим,
потому что никакая обычная интернет-поисковая система в принципе не может
осилить такой запрос (а ведь как часто критики говорят, что корпуса не нужны —
достаточно Интернета!). Во-вторых, именно в сложных запросах (а не в запросах
по одному независимому признаку), в том числе с учетом семантических параме-
тров, пользователь получает наиболее аккуратную выдачу, с минимальным шумом,
который как раз и снимается дополнительными условиями поиска.
Более того, именно возможность построить запрос на конструкцию, характе-
ризующуюся, в частности, определенными семантическими признаками, позво-
ляет оперировать существенно более простой системой помет, не перегружая ее
лишними параметрами. Например, теоретически можно было бы (как предла-
гает А. А. Кретов) приписать значению слова утихнуть помету weather:fin, на-
пример (метель) утихла. И действительно, с этим глаголом сочетаются и дождь,
и буря, и вьюга, и шторм, и гроза и т. д. Однако природные явления, как показы-
вает соответствующий запрос, составляют лишь малую часть субъектов глагола
утихнуть — среди них есть и крик и голос, и — метонимически — имена, обо-
значающие людей (женщина, ребенок и др.), а также ненависть, аплодисменты,
боль (и даже — метонимически — висок) и др. В то же время утихнуть, как и все
глаголы с подобным значением, легко находится в современной версии разметки
при поиске конструкции: непредметное имя класса «природное явление» + глагол
«прекращения существования».
Теперь суммируем все сказанное о принципах выделения семантических клас-
сов для корпусной разметки. По нашему мнению, классифицирующие таксономи-
ческие признаки должны обладать следующими свойствами:
• быть независимыми,
• быть базовыми,
• выделять крупные классы,
• порождать минимальный шум,
1.3.1. Принципы лексико-семантической разметки 73

• оптимальный результат при их использовании можно ожидать в случае сложно-


го поискового запроса (т. е. конструкции).
Итак, принципы обозначены. Но реальный словарь, который лежит в основе
семантической базы данных, очень большой, а его разметка предполагает пре-
имущественно ручную работу. И конечно, здесь могут быть ошибки и непосле-
довательности, так что процесс «чистки» семантического словаря идет непре-
рывно. Мы благодарны всем нашим «семантическим» оппонентам и прежде
всего А. А. Кретову, за то что они своими вопросами и замечаниями помогают
нам в этой работе. Однако здесь мы хотели бы обсудить не случайные ошибки,
а принципиальные решения и сложные случаи — в качестве иллюстрации наших
теоретических установок.

Независимость признаков
О необходимости этого принципа мы говорили выше. Теперь о трудностях.
Трудности его применения хорошо иллюстрируются материалом имен собствен-
ных. В корпусе собственные имена представляют собой отдельный класс — на-
равне с предметными и непредметными, так что им свойствен свой тип разметки.
Это очень естественно, потому что в число собственных имен не входят, с одной
стороны, ни инструменты, ни вещества, ни иные классы конкретной лексики,
а с другой — ни периоды времени, ни звуки, ни иные классы абстрактной лексики.
Одновременно собственные имена не являются ясным подклассом ни для пред-
метных, ни для непредметных имен: они бывают и теми и другими (ср. МГУ как
здание — предметное имя — и «Кинотавр» как мероприятие — абстрактное имя).
Именно поэтому система их разметки представляется в корпусе как независимая
от других имен. Пока она включает только имена, отчества, фамилии, топонимы,
а также словообразовательные корреляты: стяженные формы (типа Николаич и др.)
и аббревиатуры (типа МММ, ГРУ и под.). В дальнейшем могут быть добавлены
клички животных, марки машин и другие дополнительные разряды.
Эта работа, однако, не так проста, как кажется, потому что здесь мы столкнемся
с практически обязательной полисемией типа: Волга — топоним и «Волга» — марка
машины, Васька — кличка кота и Васька — имя человека, «Стрела» — название
поезда и стрела — предметное имя, Форд — фамилия человека и «Форд» — марка
машины и т. д. и т. п. Именно поэтому разработчики не торопятся с простым рас-
ширением числа помет в этой зоне: до того как разрешится проблема снятия омо-
нимии, оно не будет способствовать оптимизации поиска, а, наоборот, только «утя-
желит» корпус за счет дополнительной многозначности.
Раз собственные и предметные имена представляют разные классы, пометы
из этих классов оказываются в разметке независимо друг от друга. Нужно только
проследить, чтобы эта независимая разметка была проведена. Проведена она для
имен лиц, так что в корпусе можно найти и Александров, и Сергеевичей, и Пуш-
киных по запросу на имена лиц, но, конечно, только если убрать из поисковой
строки ограничение на конкретность имени. Тогда собственные имена найдутся
74 1.3. Лексико-семантические классы

наравне с нарицательными. Не проведена такая разметка для местоположений,


и пока названия городов и стран не ищутся как представители таксономического
класса space (а только на запрос «топоним» или его объемлющий класс «собст-
венное имя»).
Независимая разметка предметных и собственных имен имеет тот недостаток,
что пользователю требуется дополнительная подсказка о том, как ему найти од-
новременно все существительные со значением «лица», включая имена, фамилии
и отчества. По умолчанию он получит только нарицательные существительные
и должен будет дополнительно искать контексты с собственными именами. Но аль-
тернатива, которая предложена А. А. Кретовым, тоже не кажется нам оптимальной.
Его решение ввести разметку типа t:hum:persn для имен (Александр), t:hum:patrn
для отчеств (Сергеевич) и t:hum:famn для фамилий (Пушкин) осуществимо только
в том случае, если мы аннулируем имена собственные как отдельную категорию,
т. е. фактически сделаем их подклассами конкретных. Тогда потребуется очень
дробная (а значит, всегда априорная) их классификация, понадобится снятие омо-
нимии, а главное — сама табличка выбора признаков неизбежно потеряет систем-
ность. Действительно, рядом с именами лиц, инструментов, веществ, пространств
и т. д. в ней обнаружится класс имен собственных как таковых, не попавших ни
в какой из дробных разрядов (например, «Марсельеза», ГТО и прочие аббревиату-
ры). Хорошо бы, наверное, придумать в этой зоне что-то третье.

Базовость признаков
Значения многих важных классов («поведение», «мероприятие», «возраст»,
«изменение состояния или признака» и др.) со строго семантической точки зрения
не являются элементарными. Но и разработчикам, и пользователям важно иметь
именно такие классы для поиска, в частности потому, что они активно участвуют
в конструкциях, задавая семантические ограничения на лексическое наполнение
последних. Тем самым нужно, чтобы эти классы оставались в поисковой табличке
как целостные единицы.
Другой вопрос, насколько удобно использовать внутри самой лексической базы
данных корпуса их разложение на более элементарные компоненты: иными слова-
ми, можно ли попробовать в базе заменить помету behave на ее составляющие —
hum:act:neg (см. Кретов 2009: 253), при том что в поисковой табличке все равно
останется признак «поведение»? Или для глаголов взрослеть, твердеть, богатеть
заменить помету changest («изменение состояния») на «составную» incep:be:diff?
Нельзя. Базовый класс на то и базовый, чтобы существовать особняком, не сме-
шиваясь с другими. Разложение базового «гештальта» на составляющие пересечет
его со всеми теми классами, признаки которых входят в его состав. Тогда глаголы
изменения состояния будут искаться на запрос о бытийных, а поведение или воз-
раст — на запрос о человеке и т. д. Это сразу нарушит принцип «не порождать
лишнего шума» и существенно затруднит работу пользователей.
1.3.1. Принципы лексико-семантической разметки 75

Принцип крупных классов


В корпусе есть помета «физические свойства» (t:physq). Она введена ради
противопоставления классу «свойства человека» (t:humq), которое нужно, в част-
ности, для снятия неоднозначности в случаях переноса признаков с предмета на
человека (мягкий хлеб > мягкий человек). Обе пометы должны присутствовать и
в прилагательных (ср. крепкий vs. добрый), и в отпредикатных именах (крепость
<чая> vs. добродетель), но пока в полном объеме они применяются только к адъ-
ективной лексике. Конечно, как и всякая помета, t:physq достаточно условна, так
что если говорить об обозначаемых ею свойствах, то они не столько физические,
сколько эмпирически наблюдаемые, воспринимаемые органами чувств, ср. ‘вкус’
или ‘запах’ (хотя, разумеется, органами чувств они воспринимаются потому, что
имеют в конечном счете именно физическую природу). Условность этой пометы
проявляется и в том, что к физическим относятся и «потенциальные» качества
типа растворимый, которые важно противопоставить тоже потенциальным, но
«нефизическим» прилагательным, таким как неотвратимый или непредсказуемый.
Представить physq и humq как составные пометы с общей частью (q) и проти-
вопоставленные phys и hum не удастся по только что указанным причинам: тогда
человеческие качества получат отдельную помету hum как часть hum:q и пересе-
кутся с классом людей в целом, а значит, будут выдаваться по запросу об именах
лиц. Это неудобно для пользователей. Но и для разработчиков тоже: выясняется,
что различие между hum и humq может использоваться для снятия неоднозначно-
сти в глаголе, ср. Добродетель (humq) украшает человека vs. Девочка (hum) укра-
шает елку. Таким образом, эти классы как раз очень хорошо противопоставлены
семантически и, по нашему мнению, просто не нужны как объединение.
В принципе, для усиления сходства с прилагательными можно снабдить класс
непредметных имен ‘цвет’, как предлагает А. А. Кретов, дополнительной поме-
той physq. Поиск это не ускорит, но, безусловно, добавит системности в размет-
ку. Однако нужно понимать, что в любом случае в зоне прилагательных мы не
можем полностью распределить все ‘физические свойства’ по классам, поскольку
для них нет общеизвестных помет. Например, более спорным выглядит решение
о присвоении словам мягкий, вязкий необщепринятого признака plast — такой
класс (в отличие от ‘цвет’ или ‘форма’) пользователю незнаком. Но даже если
согласиться и принять это решение, оно, что называется, не спасет положения,
потому что в класс ‘физические свойства’ входят еще и такие прилагательные,
как слабый, сильный, пористый, слоистый, пуленепробиваемый, растворимый,
горючий, прозрачный, жидкий, глинистый, песчаный, каменистый и т. д., для
которых уж точно не найдется общепонятных помет. Мелкие классы из одного-
двух слов неудобны, плохо воспринимаются, загромождают поисковую форму
и по всем этим причинам не годятся для корпусной разметки. И наоборот, общий
класс ‘физические свойства’ оказывается и психолингвистически, и технически
релевантным.
76 1.3. Лексико-семантические классы

Другой интересный случай касается глаголов восприятия, которые, безусловно,


являются базовыми в любом естественном языке — просто в силу его антропоцен-
тричности.
В словаре корпуса таких глаголов порядка двух сотен, однако бóльшая часть
этого списка — глаголы зрительного восприятия (смотреть, глядеть, любовать-
ся, глазеть и др., а также их приставочные корреляты), и лишь небольшая — все
остальные. Поэтому если приписывать пометы smell, taste глаголам обоняния, вку-
сового восприятия и др., мы получим крайне маленькие и — как всегда в таких
случаях — сомнительные классы. Например, глагол нюхать, на базе которого стро-
илась бы вся группа запаха (нанюхаться, понюхать, принюхиваться, разнюхать),
строго говоря, не является глаголом запаха. Еще хуже дело обстоит с осязанием:
единого класса осязания обычно не выделяется, потому что прототипического гла-
гола осязания нет, а свойства, воспринимаемые осязанием, очень разные (ср. пе-
речисляемые в (Кретов 2009) слова мягкий, вязкий, тяжелый, легкий и горячий,
ледяной).
В такой ситуации для пользователя, конечно, проще составлять не семантиче-
ские, а «лексические» запросы с конкретными глаголами, т. е. вместо семантиче-
ского запроса с признаками «восприятие: обоняние» формулировать запрос, в ко-
тором фигурирует непосредственно глагол нюхать и его приставочные корреляты.
Что касается глаголов зрительного восприятия, то, поскольку это достаточно
мощный и единый класс, странно было бы его делить (как предлагает А. А. Кре-
тов), сопоставляя с пометами прилагательных light и color. Да и как делить? Тем
более что с помощью зрения человек оценивает не только свет и цвет, но также и
форму, которая связана, в частности, еще и с осязанием, а помимо этого — место-
положение предметов, расстояние, размер и многое другое! Не говоря уже о том,
что зрительно восприниматься могут не только предметы, но и ситуации (Видел,
как они входили в подъезд). Так что, пожалуй, тут все правильно: пусть класс гла-
голов восприятия остается базовым, а нужные уточнения пользователь в каждом
конкретном случае легко сделает сам.
Итак, с практической точки зрения в корпусе должны использоваться пометы,
которые достаточны или просто удобны для поиска, — а это имена больших таксо-
номических классов, в которых один признак определяет и семантические харак-
теристики и совокупность синтаксических свойств.

Соглашение о первом значении,


принятое в семантической разметке НКРЯ
При определении первого значения в толковых словарях лексикографы обычно
руководствуются принципом словообразовательной истории, машинный подход,
напротив, руководствуется теорией вероятности: какое значение наиболее частот-
но и нечувствительно к контекстному окружению (Азарова и др. 2004). Отсюда
возникают конфликты между нумерацией словарей (этимологической) и реальным
узусом. Ср. слово пигалица, имеющее следующие словарные значения:
1.3.1. Принципы лексико-семантической разметки 77

(1) ‘птица’;
(2) ‘легкомысленная девочка / девушка’.

По данным Основного корпуса НКРЯ, второе из указанных значений встреча-


ется 111 раз, в то время как первое — всего 33 раза (из них 20 раз — в «Записках
ружейного охотника» С. Т. Аксакова).5 В газетном корпусе значение ‘птица’ не
встречается ни разу, так же и во всех остальных корпусах. Другие показательные
примеры:

Европа
(1) ‘мифическое существо’ (похищение Европы);
(2) топоним (посетить Европу).

Коньяк
(1) ‘провинция во Франции’;
(2) ‘напиток’.

Уран
(1) ‘мифическое существо’;
(2) ‘планета’;
(3) ‘вещество’.

Примеры такого рода обнаруживают определенную системность и объяснение:


действительно, вероятность встретить в русском тексте упоминание мифологиче-
ского персонажа или французской провинции ниже, чем вероятность обозначения
бытовых или экономических реалий. Во всех подобных случаях в базе лексико-
семантической разметки корпуса производится «техническая» перенумерация зна-
чений6.
Мы также используем прием «технического» понижения статуса одного из омо-
нимов, если он является редким словом, ср. пара, сестра и Пара, Сестра (назва-
ния рек), сила и Сила (имя), яма и Яма (бог и река); ср. также омографы тишина —
Тúшина (фамилия). Чаще всего это касается имен собственных, омонимичных
нарицательным. Аналогичное решение допускается и для частичных морфологи-
ческих омонимов слова, например прилагательного полóвый, обозначающего блед-
но-желтую масть животного и относящегося к классу прилагательных цвета. Из

5
Еще 4 употребления приходятся на имя собственное (прозвище) Пигалица. Поиск осу-
ществлен осенью 2014 года.
6
Возможно, тут было бы правильнее говорить не о первом, а об основном значении
слова. Интересные примеры отклонений от «словарной» иерархии значений приводятся
в экспериментальном исследовании (Иомдин 2014), посвященном актуализованности тех
или иных значений предметных слов у носителей русского языка.
78 1.3. Лексико-семантические классы

проанализированных нами 1000 употреблений формы генитива полового, половой


меньше 1 % имеют значение цвета (полóвые щенки, полóвые чирки), остальные
относятся к парадигмам прилагательного половой ‘относящийся к полу’ (в разных
значениях) и существительного половой ‘слуга в трактире’. В связи с этим было
принято техническое решение удалить у прилагательного половый в словаре при-
знак «первое значение», но приписывать его с помощью фильтров в конструкциях
половый + S.«животное» и половый + S.«цвет».
Итак, в корпусе НКРЯ решается задача сплошной семантической разметки
очень большого объема текстов, которую можно выполнить только в автоматиче-
ском режиме. Одним из приемов в борьбе с многозначностью, которая порождает
шум при поиске по семантическим признакам, становится оптимизация исходно-
го семантического словаря, а именно установление иерархии значений и, в случае
необходимости, их перенумерация. Дополнительный критерий семантического
запроса «искать только по первому значению слова» позволит обеспечить выдачу
наиболее вероятного значения. Таким образом, использование порядка значений
слова в разметке является простым и достаточно эффективным инструментом по-
вышения адекватности выдачи.

Другие корпуса с лексико-семантической разметкой


Чтобы по-настоящему понять масштаб задачи лексико-семантической разметки
большого корпуса и разрешения лексико-семантической неоднозначности в нем,
надо иметь в виду, что на сегодняшний день в мире насчитывается очень неболь-
шое число корпусов с семантической разметкой7. Различия в разметке и в системах
автоматического разрешения неоднозначности (WSD — word-sense disambiguation)
определяются, прежде всего, тем, каковы потребности пользователей конечного
продукта и каким способом (и с какими затратами) разработчики собираются до-
биться нужного результата. От этого зависят:
1) «глубина» различения многозначности;
2) выбор словаря или лексической классификации, к которому привязана семан-
тическая аннотация;
3) ручной vs. автоматический способ WSD;
4) выборочная vs. сплошная дизамбигуация.
Например, если конечным результатом является правильная морфологиче-
ская разметка текста (POS-tagging), которую затем можно будет использовать
в системе машинного перевода, то задачи WSD ограничиваются снятием часте-
речной омонимии и вовсе не требуют обращения к семантической многозначно-

7
Здесь и далее мы будем говорить только о разметке, сопоставляющей лексеме толко-
вание (номер значения в авторитетном толковом словаре) или указывающей место в лек-
сической классификации (тезаурусе). Вне сферы нашего внимания останется разметка
семантических ролей предикатов (PropBank и др.), анафорических связей, темпоральных
отношений и т. п.
1.3.1. Принципы лексико-семантической разметки 79

сти внутри одной части речи; ср. богатую традицию таких работ на материале
английского языка, для которого весьма характерна конверсия из одной части
речи в другую.
Пионерские работы, связанные с полноценной семантической аннотацией
текстов, предполагали привязку текстовых словоупотреблений к одному из зна-
чений толкового словаря. Наиболее известен эксперимент с определением зна-
чения слова bank (‘берег’, ‘учреждение’ и др.) по словарю Longmans Dictionary
of Contemporary English (LDOCE; Wilks et al. 1990). Опираясь на кластеризацию
слов в LDOCE (объединение частных значений в более общие группы), группа
Й. Уилкса определила значение слова в 200 предложениях. Оказалось, что точ-
ность автоматического распознавания на уровне кластеров достигала 90 %, тогда
как на уровне частных она составляла всего 53 %. В 1994 г. Р. Брюс и Й. Вибе
продемонстрировали проект, в котором по словарю LDOCE вручную было раз-
мечено уже 2476 употреблений слова interest ‘интерес’, ‘прибыль’ и др. (Bruce,
Wiebe 1994). Вполне естественно, что привязка семантической аннотации к ин-
дивидуальным толкованиям в словаре требовала «штучной» работы с каждым
словом, а следовательно, WSD могло быть проведено только выборочно, для од-
ного или нескольких слов (sample method).
Современные системы семантической разметки используют привязку не
к словарям, а к семантическим сетям или лексическим классификациям, среди
которых наиболее популярен WordNet (http://wordnet.princeton.edu/, Fellbaum
1998), использующий разбиение на значения из словаря Oxford Avanced Learners
Dictionary (OALD). Первым на его основе был размечен подкорпус Брауновского
корпуса (Miller et al. 1993), содержащий 234 136 размеченных словоупотребле-
ний, из которых 186 575 многозначны. Затем появилась система LEXAS (Ng, Lee
1996), в которой вручную были размечены 192 800 словоупотреблений, относя-
щихся к двум сотням наиболее частотных существительных и глаголов. Корпус
SemCor (Miller et al. 1993; 1994), созданный в Принстонском университете, со-
держал 700 000 слов, 200 000 из которых (полнозначные слова) были вручную
размечены по значениям WordNet 1.6, а впоследствии автоматически перекоди-
рованы в WordNet 1.7.—2.0.
Большой корпусный материал дала реализация проектов Senseval-2 и Senseval-38.
В первом случае было размечено в полуавтоматическом режиме (supervised method)
13 000 словоупотреблений 73 многозначных лексем, во втором — все слова подряд
в корпусе из 5000 слов, в кодировке WordNet 1.7.1 (Kilgarriff 2003; Mihalcea et al.

8
В пилотном проекте Senseval-1 (Kilgarriff, Rosenzwejg 2000) было размечено
20 000 употреблений 35 лексем на основе лексической базы данных HECTOR (Atkins 1993),
объединявшей словарь и корпус (словарные входы были созданы лексикографами «с нуля»
в результате анализа 17 млн корпуса — первой версии BNC); впоследствии была произве-
дена перекодировка этой разметки в WordNet.
80 1.3. Лексико-семантические классы

2004)9. Как видим, среди перечисленных корпусов сплошная дизамбигуация (all-


words disambiguation) была сделана только для корпуса, тестировавшегося в про-
екте Senseval-3 и то на небольшом объеме текстов.
Очевидно, что чем грубее семантические противопоставления, тем проще ста-
новится задача снятия семантической неоднозначности и надежнее — ее результа-
ты. Однако переход от толковых словарей к семантическим сетям никак не повлиял
на это обстоятельство, поскольку количество синонимических групп, в которое по-
падает некоторое слово, напрямую соотносится с количеством значений в словаре.
Лексические классификации, ведущие свое начало от онтологий, менее чувстви-
тельны к семантическим нюансам. Они различают два значения слова, только если
одно из них принадлежит классу X, а другое — классу Y. Такова, в частности, клас-
сификация лексических единиц, используемая в проекте FrameNet (http://framenet.
icsi.berkeley.edu/), классификация системы SenseLearner, разрабатываемой в Уни-
верситете Северного Техаса (Mihalcea et al. 2004), классификация системы UCREL
Университета Ланкастера (Piao et al. 2005), а также таксономии, разрабатываемые
для корпусов русского языка — корпуса Лаборатории общей и компьютерной лек-
сикологии и лексикографии филологического факультета МГУ (Виноградова и др.
2001), Синтаксического корпуса (Апресян и др. 2005; Apresjan et al. 2006) и Основ-
ного корпуса НКРЯ.
Предметные имена

Рис. 4. Фрагмент классификации FrameNet

Нельзя не заметить, что степень семантической неоднозначности в этих си-


стемах зависит от количества выделяемых классов. В этом отношении наиболее
подробна лексическая классификация проекта FrameNet (800 классов, фрагмент

9
Практика разметки корпусов на базе WordNet распространяется на другие западно-
европейские языки, например немецкая версия WordNet используется в одном из текущих
проектов Штуттгартского университета.
1.3.1. Принципы лексико-семантической разметки 81

таксономии показан на рис. 4). Семантическая аннотация по лексико-семантиче-


ским группам не является самоцелью проекта: на нынешнем этапе семантическая
разметка применена в экспериментальном порядке к небольшому подкорпусу из
50 текстов (тексты BNC и PennTree Bank) и проводилась только вручную. Основ-
ной задачей проекта FrameNet является разметка актантной структуры глаголов и
других предикатных слов, а классификации по лексико-семантическим группам
отводится вспомогательная роль. Ее дробность определяется способностью слов
некоторого класса становиться аргументами предиката, например выделение клас-
са медицинский профессий (терапевт, окулист и др.) оправдано их участием в за-
полнении субъектной позиции глагола cure ‘лечить’.

Рис. 5. Фрагмент классификации НКРЯ

На противоположном конце шкалы — наименее детальная — классификация


лаборатории UCREL (Ланкастер), которая насчитывает 232 класса (полный спи-
сок классов доступен на сайте http://www.comp.lancs.ac.uk/computing/research/ucrel/
usas/). Изначально исследования UCREL были связаны с автоматическим извлече-
нием терминологии и контент-анализом, поэтому в разных частях классификация
разработана неоднородно, с большей или меньшей степенью подробности. Так,
с одной стороны, в классе «средства массовой информации (media)» выделяются
подклассы «книги», «газеты и др.», «телевидение, радио и кино», а с другой сторо-
ны, выделяется один общий класс «движение (moving, coming and going)».
Лексико-семантическая классификация, лежащая в основе разметки НКРЯ,
по своему духу близка системе FrameNet, как по целям (обеспечение исследова-
ний лингвистов, извлечение фактов о языке), так и по происхождению (она яв-
ляется наследницей лексической базы данных «Лексикограф», которая содержит
82 1.3. Лексико-семантические классы

форматированное толкование и информацию о модели управления глаголов в раз-


ных значениях и диатезах). Вместе с тем наша классификация не столь детальна,
как классификация FrameNet, что объясняется рядом практических соображений.
Во-первых, «прямой» поиск, без построения дерева вложенных подклассов, обес-
печивает быструю выдачу результатов. Во-вторых, ситуация, когда все названия
семантических классов обозримы, видны в одном окне компьютера, помогает
пользователю-лингвисту быстрее сориентироваться в системе классификации и,
соответственно, быстро задать поисковый запрос (см. рис. 5, на котором изображе-
на система классов предметных имен). Задача снятия семантической многозначно-
сти также оказывается проще при укрупнении лексических классов.
В свете практической задачи уменьшения «шума» при поиске по семантиче-
ским признакам разработчиками корпуса приняты особые соглашения, касающи-
еся традиционных понятий лексической семантики и лексикографии: многознач-
ность, омонимия, порядок значений слова.

Фильтры для снятия лексико-семантической неоднозначности


Семантическая разметка, принятая в корпусе, проходит еще одну апробацию:
она задействована в правилах снятия семантической омонимии (подробнее см. Ра-
хилина и др. 2006; Шеманаева и др. 2007; Толдова и др. 2008). Проект снятия се-
мантической омонимии все еще находится в стадии разработки, однако для этой
цели уже создано много «фильтров» — в основном для качественных прилагатель-
ных, предметных имен и глаголов, и в них задействованы те самые семантические
признаки, по которым строится поиск. Надо сказать, что некоторые принципы ра-
боты с этими тремя классами слов различаются, поэтому все дальнейшее касается
только качественных прилагательных10.
Вкратце суть этого проекта такова. Большая доля слов русского языка много-
значна, ср. знаменитые лук (‘растение’) и лук (‘оружие’), худой (‘не толстый’)
и худой (‘плохой’), колоть (‘воздействовать иглой’) и колоть (‘болеть’) и мн. др.
Однако в потоке речи эта омонимия «снимается» более широким контекстом, так
что говорящий и слушающий ее не замечают. Задача состоит в том, чтобы «нау-
чить» машину реагировать на релевантный контекст и, таким образом, разрешить
семантическую многозначность хотя бы для самых частотных случаев. Вот тут
как раз и оказываются задействованы семантические признаки — и самих мно-
гозначных слов, потому что разные значения нужно как-то отличить друг от друга,
а значит, разметить семантически, и тех слов, которые составляют их ближайшее
окружение, так как часто выбор значения многозначного слова зависит именно от
семантического класса соседней лексемы.
Итак, перед нами стоит задача разметить корпус размером в несколько сотен
миллионов словоупотреблений, причем в режиме сплошной (all-words) аннотации.

10
О снятии многозначности в глаголах см., например, работы (Кустова, Толдова 2009;
Акинина и др. 2013).
1.3.1. Принципы лексико-семантической разметки 83

В идеале, неразмеченными должны остаться лишь словоупотребления, отсутст-


вующие в словаре, а многозначные слова — получить единственно правильный
разбор. Сейчас семантический словарь корпуса достиг 330 тыс. лексем (т. е. слов
в одном из выделяемых значений), принадлежащих к знаменательным частям
речи — именам существительным, прилагательным, наречиям, глаголам.

Многозначность с точки зрения лексико-семантической классификации


Выше были подробно описаны принципы семантической дескрипции лексем
в базе данных корпуса. Напомним, что каждое значение слова задается набором
семантических ярлыков, свидетельствующих о принадлежности лексемы к тому
или иному лексическому классу, например:
парк
1) «предметное имя», «пространственный объект» (гулять в парке);
2) «предметное имя», «совокупность» (парк машин);
3) «предметное имя», «организация» (трамвайный парк).
валяться
1) «движение: движение субъекта», «некаузативный глагол» (валяться в грязи);
2) «местонахождение», «некаузативный глагол» (бумаги валяются на полу).
Первичная программа семантической разметки переносит в текст наборы
признаков, описывающих все значения слова; задача последующих фильтров —
выбрать корректный и удалить остальные (Кобрицов 2004). Если два словарных
значения одного слова получают одинаковый набор семантических помет, напри-
мер пломба — ‘жестяная пластинка или сплюснутый кусочек свинца либо другого
пластичного материала, которым опечатываются предметы, товары, помещения’
(сорвать пломбу с опечатанной комнаты; «предметное имя», «приспособление»)
и пломба — ‘твердеющий материал, вводимый в коронку или в полость больного
зуба’ (поставить пломбу; «предметное имя», «приспособление»), то с точки зре-
ния семантической разметки текста никакой неоднозначности в тексте не возника-
ет, но — на этом уровне различения многозначности.
Соответственно, понятие многозначности формулируется иначе, чем в теорети-
ческой семантике:
Многозначность имеет место, если в данной прикладной системе слово описы-
вается более чем одним набором семантических признаков.
Или:
Многозначность имеет место, если слово входит в разные лексические классы
одного типа.

(Конечно, если слово в одном из своих употреблений входит в несколько разно-


типных классов, например молоко — и «пища», и «жидкость», то о многозначно-
сти речи не идет.)
84 1.3. Лексико-семантические классы

Оказывается, что с этой точки зрения многие полисемичные слова не требуют


дизамбигуации, например:
институт
1) высшее учебное заведение;
2) научно-исследовательское учреждение;
3) в дореволюционной России: закрытое (с пансионом) женское среднее учебное
заведение для детей дворян (Ожегов, Шведова 1992).

Все три значения описываются одинаковым образом: «предметное имя», «ор-


ганизация».
У имени машина не различаются третье и четвертое (по словарю Ожегова) зна-
чения («предметное имя»; «транспортное средство»):
1) механическое устройство… (вязальная м.);
2) об организации… (государственная м.);
3) = автомобиль;
4) у спортсменов: мотоцикл, велосипед.

Регулярная полисемия с точки зрения лексической классификации — это пе-


реход двух и более членов одного класса в другой класс11. Понятие регулярной
полисемии важно при разработке правил снятия лексико-семантической неодноз-
начности. Правила, описывающие регулярные, продуктивные и частотные семан-
тические переходы, наиболее эффективны, ср.:
(1) «размер: большой» → «степень: большая»
(2) «размер: большой» → «количество: большое»
(большой, огромный, значительный (1, 2), бесконечный, гигантский, безграничный,
крупный, глубокий (1), обширный (2)).

Считается, что решение проблемы неоднозначности в компьютерно-ориенти-


рованных системах делает также нерелевантным противопоставление омонимии
и полисемии (Ravin, Leacock 2002; Kilgarriff 2003). Представляется, что с точки
зрения машины абсолютно все равно, существует ли этимологическая связь между
двумя значениями имени или нет. Однако тут мы готовы поспорить.
Дело в том, что при поиске по семантическим признакам оказывается очень
важным противопоставление «первое — непервое значение слова». Вероятность
употребления слова в тексте в первом значении, как правило, намного выше ве-
роятности его употребления в других значениях. Кроме того, в правилах семан-
тической дизамбигуации лексико-семантические признаки контекста, приписан-
ные первому значению слова, имеют гораздо больший вес. Соответственно, если

11
Вместе с тем в корпусно-ориентированном определении регулярной многозначности
снимается требование, высказанное в (Апресян 1974/1995), что лексемы, у которых посту-
лируется регулярная многозначность, не должны быть синонимами.
1.3.1. Принципы лексико-семантической разметки 85

слова считаются омонимами, то признак первого значения приписывается каждо-


му из них.

Контекстные правила для семантических фильтров


Разрабатывая правила снятия многозначности, или фильтры, разметчики поль-
зуются уже имеющимися в корпусе признаками, тем самым составление фильтров
оказывается своеобразной «экспертизой» для наших семантических помет. Оказы-
вается, что в основном для снятия омонимии классов, уже имеющихся в корпусе,
достаточно и необходимость добавления новых возникает крайне редко. Значит,
говорящие на естественном языке, выбирая значения, опираются на довольно про-
стые и общие свойства слов, и к тем же самым свойствам обращается пользователь
корпуса при поиске, пытаясь «угадать конструкцию».
Конечно, на эту тему можно сказать еще многое в теоретическом плане: и о том,
как соотносится эта идея с современными семантическими теориями, и о том, что
дает такой прикладной эксперимент для лексической типологии, для теории по-
строения универсального метаязыка или насколько подобная практика интересна
с психолингвистической точки зрения, но мы хотели бы здесь всего лишь проил-
люстрировать сказанное несколькими ясными примерами.
Первый пример демонстрирует важность разряда соседнего с прилагатель-
ным существительного, т. е. его принадлежности к предметным или непредмет-
ным именам. Это одно из базовых противопоставлений, крайне существенных
для развития многозначности адъективной лексики. Так, прилагательное легкий
означает физическое свойство (‘нетяжелый’) ровно в тех случаях, когда оно от-
носится к предметному имени; дальнейшее разграничение его значений ведется
с использованием таксономических классов непредметных имен. Поэтому один из
его фильтров будет выглядеть так:

Слово Контекст Итоговое значение


SEM=разряд: «качественное», таксономический класс: «физи-
легкий + «предметное»
ческое свойство: вес»

Понятно, что в правилах учитывается и более дробная классификация, прежде


всего таксономическая. Так, среди значений прилагательного голый принято раз-
личать по крайней мере следующие:
• ‘неодетый’, ср. голый человек,
• ‘неприкрытый’, ср. на голом полу,
• ‘чистый, без примесей’, ср. голый спирт,

и у каждого из этих значений есть свои ограничения на таксономический класс


существительного. Их можно сформулировать в терминах наших семантических
признаков:
86 1.3. Лексико-семантические классы

Слово Контекст Итоговое значение


SEM=разряд: «качественное», таксономический класс:
голый + «лица»
«физическое состояние»
+ «пространство и SEM2=разряд: «качественное», таксономический класс:
голый
место» «внешний вид»
SEM2=разряд: «качественное», таксономический класс:
голый + «вещество»
«физическое свойство»

Хороший пример использования непредметных классов дает прилагательное


холодный. Среди его значений есть следующие:
• ‘низкий (о температуре)’, ср. холодный ветер,
• ‘оттенок цвета’, ср. холодные цвета,
• ‘относящийся к человеку — его ментальной / эмоциональной / психологической
сфере или поведению’, ср. холодный взгляд.
Здесь можно сформулировать следующие контекстные правила:
Cлово Контекст Итоговое значение
SEM=разряд: «качественное», таксономический
холодный + «природное явление»
класс: «физическое свойство: температура»
+ «время»
SEM2=разряд: «качественное», таксономический
холодный + «цвет»
класс: «физическое свойство: цвет»
SEM2=разряд: «качественное», таксономический
холодный + «ментальная сфера»
класс: «свойство человека»
+ «психическая сфера»
+ «свойство человека»
+ «поведение и поступ-
ки человека»

Надо сказать, что параметр таксономического класса, каким бы эффективным


он ни был, все же не покрывает всех тонкостей и различий в семантике прила-
гательных. Так, два разных значения лексемы редкий используются с существи-
тельными одного и того же таксономического класса «растения», ср. редкая трава
(‘растет на большом расстоянии друг от друга’) и редкое растение (‘то, которое
редко встречается’). Здесь «помогает» мереологическая разметка: в контексте
существительных класса «множества и совокупности объектов» прилагательное
редкий может выступать только в значении расстояния:

Слово Контекст Итоговое значение


+ «растение» & SEM=разряд: «качественное», таксономический
редкий
«совокупности объектов» класс: «расстояние»

Полезной в плане различения значений прилагательных может оказаться и то-


пология предметных имен (т. е. их геометрические характеристики). Например,
1.3.1. Принципы лексико-семантической разметки 87

прилагательное тугой в сочетании с существительными, представляющими класс


«вместилища», имеет значение большого размера (тугой кошелек), тогда как в кон-
тексте имен, называющих неодушевленные объекты других топологических клас-
сов, оно отсылает к физическому свойству, не связанному с размером (что-то вроде
‘крепкий’), ср. тугой узел.

Слово Контекст Итоговое значение


SEM2=разряд: «качественное», таксономический класс:
тугой + «вместилища»
«размер: большой»
SEM=разряд: «качественное», таксономический класс:
тугой + «предметные»
«физическое свойство»
Конечно, сказать, что выделенных в корпусе семантических классов для прави-
ловых фильтров хватает всегда (с учетом топологии и мереологии), все-таки было
бы преувеличением. Система семантических помет постоянно совершенствуется,
в том числе благодаря фильтрам. Например, практика составления контекстных
правил показала, что класс «профессии» релевантен не только с энциклопеди-
ческой, но и с лингвистической точки зрения. Так, у слов старший и младший
конкурируют два значения: ‘старший по возрасту’ и ‘старший по иерархии’. Оба
значения представлены в контексте существительных класса «лица», однако вто-
рое значение оказывается возможным только при лексемах, образующих особый
подкласс среди имен лиц — существительных, называющих профессии. Соответ-
ственно, добавив класс «профессии» в систему семантических помет корпуса, мы
сможем отфильтровать контексты, в которых слова старший / младший использу-
ются во втором значении:
старший + «профессии»: старший ‘иерархия’;
младший + «профессии»: младший ‘иерархия’; (ср. старший / младший повар,
офицер и др.).

В сочетании с другими существительными класса «лица» описываемые прила-


гательные получают первое значение:
старший + «лица»: старший ‘возраст’;
младший + «лица»: младший ‘возраст’, ср. старший / младший брат.

Таким образом, процесс изготовления фильтров интересен для нас не только


как прикладная задача — снятие омонимии в корпусе, но одновременно и как
задача теоретическая. На этом материале становится ясно, какие семантические
классы слов одного лексико-грамматического разряда обуславливают семантиче-
скую многозначность слов другого лексико-грамматического разряда. Очевидно,
что в зоне прилагательных ключевыми являются противопоставления «одушев-
ленных» (включая «лица») и «неодушевленных», а также «предметных» и «не-
предметных» имен: мена между этими классами существительных всегда ведет
к сдвигу семантики прилагательного. Существенным, однако, представляется
88 1.3. Лексико-семантические классы

вопрос, какие еще классы имен релевантны для различения значений в адъектив-
ной семантической зоне и, более того, как они связаны с типом семантического пе-
рехода в прилагательном, т. е. в каких случаях изменение одного таксономического
класса на другой влечет за собой метонимический, а в каких — метафорический
сдвиг. Такое исследование требует большого языкового материала — и в этом от-
ношении корпус и реализованная в нем семантическая разметка оказываются иде-
альной источниковой базой. В свою очередь, проведение такого теоретического
исследования будет способствовать уточнению таксономических классификаций,
принятых в корпусе и тем самым — совершенствованию системы семантической
разметки НКРЯ.

1.3.2. Разрешение лексико-семантической неоднозначности


с помощью векторов контекстных маркеров *
Имея в распоряжении лексические теги, грамматические теги и разметку лек-
сико-семантических классов, мы можем поставить эксперимент по автоматическо-
му разрешению семантической неоднозначности в контекстах, где слову припи-
сано две и более комбинации лексико-семантических тегов. В этой главе описано
несколько таких экспериментов, связанных с дизамбигуацией многозначных пред-
метных имен. На самом деле экспериментов было гораздо больше: они проводи-
лись в рамках совместного проекта Национального корпуса русского языка и ка-
федры математической лингвистики филологического факультета СПбГУ12. Мы
пытались объединить опыт создания ручных фильтров для дизамбигуации, о чем
уже речь шла выше, с опытом машинного обучения. Для представления в книге
мы выбрали одну и, как нам кажется, показательную задачу проекта. В ее ходе
оценивались оптимальные условия разрешения неоднозначности с учетом а) вкла-
да разных типов корпусной информации, б) количества данных для обучения и в)
ширины контекстного окна.
Неоднозначность, свойственная естественному языку и проявляющаяся на раз-
личных его уровнях, является серьезным препятствием для компьютерного ана-
лиза текстов. Разрешение лексико-семантической неоднозначности (наряду с мор-
фологической и синтаксической) имеет особую важность в подготовке корпусов
текстов, используемых системами автоматического понимания естественного

*
Глава основана на материалах публикаций: Митрофанова О. А., Паничева П. В., Ля-
шевская О. Н. Автоматическое разрешение неоднозначности в контекстах для предметных
имен существительных (на материале Национального корпуса русского языка) (Митрофа-
нова и др. 2008б); Митрофанова О. А., Ляшевская О. Н., Паничева П. В. Эксперименты
по статистическому разрешению лексико-семантической неоднозначности русских имен
существительных в корпусе (Митрофанова и др. 2008а); Lashevskaja O., Mitrofanova O. Dis-
ambiguation of taxonomy markers in context: Russian nouns (Lyashevskaya, Mitrofanova 2009).
12
См., в частности, (Митрофанова и др. 2012; Lyashevskaya et al. 2011; Кузнецова 2009;
Шурыгина 2011; Грачкова 2011; Шиморина 2011).
1.3.2. Разрешение лексико-семантической неоднозначности… 89

языка. Выполнение этой процедуры представляет наибольшую сложность и зача-


стую требует ручной обработки текстов лингвистами-экспертами, в распоряжении
которых находятся обширные словарные картотеки. Качество ручной дизамбигуа-
ции оценивается как высокое, вместе с тем желательно снизить трудоемкость дан-
ной задачи за счет использования компьютерных инструментов, в которых реали-
зованы алгоритмы разрешения неоднозначности.
Таким образом, целью настоящего исследования является автоматизация про-
цесса разрешения лексико-семантической неоднозначности текстов, что предпо-
лагает решение ряда задач:
• подготовка компьютерного инструмента автоматического разрешения лексико-
семантической неоднозначности слов в контекстах;
• обработка экспериментальных выборок, содержащих неоднозначные контексты;
• определение оптимальных условий, при которых качество разрешения лексико-
семантической неоднозначности слов в контексте было бы высоким.
Известны достаточно эффективные методы дизамбигуации, позволяющие сни-
мать лексико-семантическую неоднозначность в полуавтоматическом или автома-
тическом режиме (Agirre, Edmonds 2006)13. Методы первого типа предполагают
использование компьютерных тезаурусов и формальных онтологий в качестве
источников данных о значениях слов. Методы второго типа основываются на ста-
тистических данных о контекстном окружении слов, позволяющем разграничивать
их употребление в различных значениях.
Применительно к материалу русского языка опробованы оба типа методов.
Использование мощного электронного лексикографического ресурса (WordNet,
FrameNet, РуТез, семантический словарь НКРЯ) обеспечивает высокий уровень
дизамбигуации (Кустова и др. 2006; Шеманаева и др. 2007; Лукашевич, Чуйко
2007). Если же есть необходимость и/или возможность обойтись без словарной
поддержки (например, в том случае, если обрабатываются большие объемы тек-
стов, а их лексический состав не покрывается имеющимися в распоряжении иссле-
дователей словарями), то предпочтение следует отдать статистическим методам.
Достаточно надежным является разрешение лексико-семантической неоднознач-
ности на основе сравнения дистрибуций частеречных тегов контекстного окруже-
ния слов (Азарова, Марина 2006) и на основе лексических маркеров контекстов
(Кобрицов и др. 2005а; 2005б). Допустимо совмещение тезаурусного и статис-
тического подходов к разрешению неоднозначности с учетом словарной инфор-
мации о моделях сочетаемости слов (Кобрицов и др. 2007). Можно предположить,
что не менее (а возможно, даже более) эффективной окажется статистическая
дизамбигуация с учетом дистрибуций лексико-семантических тегов в контекстах.
Таких исследований на материале корпусов русского языка до нынешнего времени

13
Cм. также материалы конференции SENSEVAL (www.senseval.org) и библиографию
работ по WSD в материалах Corpora List (http://listserv.linguistlist.org/cgi-bin/wa?A2=ind051
2&L=corpora&D=1&F=&S=&P=2873).
90 1.3. Лексико-семантические классы

не проводилось. Эксперименты подобного рода впервые осуществлены в рамках


обсуждаемого проекта.
В целях изучения возможностей статистического разрешения лексико-семан-
тической неоднозначности в русскоязычных текстах предлагается адаптировать
компьютерный инструмент автоматической классификации лексики таким обра-
зом, чтобы производилось сравнение неоднозначных контекстов с эталонными
контекстами, представляющими реализацию того или иного значения слова. Клас-
сификация контекстов может быть основана как на сходстве их лексического со-
става, так и на сходстве лексико-семантических тегов для контекстных элементов
(при наличии соответствующей разметки корпуса текстов).

Постановка экспериментов
Разрешение лексико-семантической неоднозначности слов в корпусе рас-
сматривается как задача распознавания образов. В качестве эксперименталь-
ной выборки используется набор контекстов, в которых вручную введены лек-
сико-семантические теги, соответствующие значениям исследуемых лексем.
Из экспериментальной выборки контекстов для той или иной лексемы автомати-
чески формируются образы — эталонные классы контекстов, иллюстрирующие
употребление слова в каком-либо одном значении. В образ попадают контексты,
отобранные случайно. Оставшиеся тестовые контексты (все или часть из них) ав-
томатически сравниваются с образами и распределяются по группам в соответ-
ствии со значениями, в этом случае априорная лексико-семантическая информа-
ция об исследуемых лексемах не используется: значение лексемы, употребленной
в контексте, определяется автоматически. Тем самым дизамбигуация предполагает
осуществление автоматической классификации контекстов употребления лексемы
в разных значениях. Данная процедура требует представления эксперименталь-
ной выборки как метрического пространства, где каждый контекст преобразуется
в вектор. Близость контекста употребления слова в каком-либо значении к тому
или иному образу оценивается с помощью трех мер расстояния: меры Евклида
(Eucl), меры Хемминга (Hm) и значения косинуса угла между контекстными век-
торами (Cos), см. подробнее на с. 270.
Для проведения экспериментов использовался компьютерный инструмент ав-
томатической классификации лексики (Митрофанова и др. 2007), адаптированный
для разрешения неоднозначности слов в контексте. Реализован алгоритм класси-
фикации с учителем. Программное обеспечение разработано П. В. Паничевой на
языке Python.
В ходе работы программы производятся следующие процедуры.
Во-первых, производится подготовительная обработка материала, в качестве
которого используются экспериментальные выборки контекстов. В выборке опре-
деляются те контексты, в которых значение лексемы идентифицировано одно-
значно. Вычисляется количество имеющихся контекстов для каждого из значе-
ний исследуемой лексемы. Для значений с достаточным количеством контекстов
1.3.2. Разрешение лексико-семантической неоднозначности… 91

употребления случайным образом формируется тестовая выборка и не пересекаю-


щаяся с ней обучающая выборка (эталонный класс). Для дальнейшей работы про-
граммы необходимо, чтобы для каждого значения были сформированы два файла,
в которых приведены тестовая выборка и эталонный класс.
Во-вторых, осуществляется процесс машинного обучения. Для каждого из ис-
следуемых значений программа производит обработку файла с эталонным клас-
сом контекстов, в ходе которой формируется образ значения. Из каждого эталон-
ного контекста извлекается лексическая информация, тем самым в образ значения
включается каждая лексема, встретившаяся в контексте, с учетом частоты ее встре-
чаемости. На выходе этой процедуры формируется статистический образ каждого
из значений анализируемого слова, представленный словарем, в котором указаны
лексемы и их относительная частота. Таким образом, если обучающая выборка
для одного из значений слова лук составляла бы 100 контекстов и в них 50 раз
встретилась лексема резать и 30 раз встретилась лексема морковь, то в статисти-
ческом образе этого значения глагол резать имел бы показатель частотности 0,5,
а существительное морковь — 0,3. Итак, образ значения можно рассматривать как
точку в векторном пространстве, координаты которой определяются частотными
показателями соответствующих лексем, встретившихся в обучающей выборке
контекстов для этого значения. В экспериментах с учетом лексико-семантической
и грамматической информации статистический образ формируется аналогичным
путем, однако координатами в векторном пространстве служат не лексемы, а лек-
сико-семантические теги и грамматические теги, соответственно.
Далее программа, прошедшая обучение, обрабатывает тестовые выборки кон-
текстов. Для этого каждый контекст также рассматривается как точка в векторном
пространстве и вычисляется мера расстояния данного контекста по отношению
к векторам, представляющим образы значений. Выбирается образ значения, кото-
рый оказывается наиболее близким к образу анализируемого контекста, тем самым
этому контексту присваивается соответствующее значение. Для проверки резуль-
татов классификации для каждого из значений вычисляется количество правиль-
ных решений — тех случаев, когда автоматическая оценка значения, реализован-
ного в контексте, совпадает со значением, назначенным вручную и отраженным
в лексико-семантических тегах исследуемой лексемы.
На материале предметных многозначных слов были поставлены две серии экс-
периментов. В первой серии проводились тесты с различными по объему эталон-
ными классами и тестовыми контекстами, с изменением меры близости, с опорой
на лексические маркеры значения в контексте либо на лексико-семантические теги.
В этой серии объем контекста не ограничивался каким-либо окном. Во второй
серии мы экспериментировали с шириной контекстного окна и объемом эталон-
ных классов, а также с различными комбинациями лексических, грамматических
и лексико-семантических тегов, учитываемых при обучении. В обеих сериях ре-
зультаты автоматической классификации контекстов сравнивались с результатами
ручной разметки значений слов в контекстах.
92 1.3. Лексико-семантические классы

Первая серия экспериментов: меры близости, объемы эталонных


классов, лексические и лексико-семантические теги

Экспериментальный материал
Эксперименты по разрешению лексико-семантической неоднозначности про-
водились на материале Национального корпуса русского языка. Были запланиро-
ваны эксперименты двух типов, предполагавшие снятие неоднозначности а) на ос-
нове лексических маркеров значений слов в контекстах (тег леммы) и б) на основе
лексико-семантической разметки контекстов (теги первого значения слова).
В качестве тестовых лексем выбраны предметные имена существительные
дом, орган, лук. Известна филиация значений данных слов, фиксируемая в лекси-
ко-семантической аннотации НКРЯ. При описании значений анализируемых лек-
сем использовалась структура значений слов в (Ожегов, Шведова 1992). Каждому
значению соответствует особая комбинация тегов, принятых в системе разметки
НКРЯ: например, значению слова дом «Жилое… здание: Дом-новостройка» со-
ответствует набор тегов «r:concr t:constr top:contain», значению слова орган «Кла-
вишный духовой музыкальный инструмент…: Играть на органе» соответствует
набор тегов «r:concr t:tool:mus», значению слова лук «Ручное оружие для мета-
ния стрел…: Стрельба из лука» соответствует набор тегов «r:concr t:tool:weapon
top:arc» и пр. Для каждого из рассматриваемых слов были сформированы тесто-
вые выборки контекстов с лексико-семантической разметкой, отсортированные по
порядку их следования в корпусе: 3000 контекстов употребления слова дом, 834
контекста употребления слова орган, 2200 контекстов употребления слова лук.
Очевидно, что анализируемые лексемы отличаются количеством значений, ха-
рактером развития полисемии / омонимии, степенью корреляции значений между
собой. Необходимо отметить, что в рамках данного исследования используется
трактовка неоднозначности, принятая в компьютерной лингвистике и допускаю-
щая условное приравнивание омонимичных коррелятов к многозначным словам
(Рахилина и др. 2006). Поэтому данный материал для экспериментов по автома-
тическому разрешению неоднозначности является репрезентативным и позволит
получить результаты, соотносимые с разными условиями дизамбигуации.

Разрешение неоднозначности в контекстах для слова дом


В ходе экспериментов была задействована лексикографическая информация
о филиации значений слова дом и о лексико-семантической аннотации их употреб-
лений в контекстах, см. табл. 8.
Исследование проводилось на основе экспериментальной выборки контекстов
употребления слова дом объемом 3000 контекстов. Было учтено, что в ряде кон-
текстов регистрируется диффузность значений исследуемой лексемы: например,
дом — m1а (строение) vs. дом — m1b (личное пространство, которое часто фи-
зически оказывается вовсе не домом, а комнатой или квартирой, ср. отыменные
наречия дома, домой). Эти случаи рассматривались отдельно.
1.3.2. Разрешение лексико-семантической неоднозначности… 93

Таблица 8
Филиация значений слова дом
Лексико-семантическая
Значения Примеры
аннотация
m1а. Жилое (или для учре-
r:concr t:constr top:contain Дом-новостройка
ждения) здание
m1b. Свое жилье r:concr t:space Брать работу на дом
m2. Семья, люди, живущие
r:concr t:group pt:set sc:hum Мы знакомы домами
вместе, их хозяйство
m3. Место, где живут люди,
объединенные общими r:concr t:space der:shift
Общеевропейский дом
интересами, условиями der:metaph
существования
m4. Учреждение, заведение,
обслуживающее какие-ни- r:concr t:org Дом культуры
будь общественные нужды
m5. Династия, род r:concr pt:set sc:hum Дом Романовых

Из экспериментальной выборки были отобраны 2158 контекстов, допускающих


однозначную трактовку. Среди них 1694 контекста для значения m1а; 95 контек-
стов для значения m1b; 72 контекста для значения m2; 292 контекста для значения
m4; 4 контекста для значения m3; 1 контекст для значения m5. Было осуществлено
обучение программы автоматического разрешения неоднозначности для иденти-
фикации значений m1а, m1b, m2 и m4. Чрезвычайно малое число примеров упо-
требления слова дом в значениях m3 и m5 не позволило оценить возможности
распознавания данных значений. Эталонные классы контекстов (всего 4 класса)
употребления лексемы дом в значениях m1а, m1b, m2 и m4 формировались слу-
чайным образом. В них вошли 847 контекстов для значения m1а; 85 контекстов
для значения m1b; 62 контекста для значения m2; 282 контекста для значения m4.
Общность контекстов в эталонных классах определялась общностью лексико-се-
мантических тегов, приписанных словоформам лексемы дом в контекстах. Объем
тестовых выборок, на которых проверялось качество автоматического разрешения
неоднозначности, составил по 10 контекстов на каждое значение. В ходе экспе-
риментов было определено, к какому эталонному классу автоматически отнесены
тестовые контексты. Автоматическое распознавание значений слова дом в контек-
стах производилось на основе лексических маркеров. В табл. 9 приведены резуль-
таты одной из серий экспериментов по соотнесению тестовых контекстов лексемы
дом с эталонными классами. В строках указаны значения слов, приписываемые
им в контекстах априори (назначенные вручную). В столбцах указано, какое число
контекстов из тестовой выборки для какого-либо фиксированного значения авто-
матически соотносится с тем или иным значением. Иначе говоря, чем выше число-
вые показатели в диагональных ячейках таблицы, тем выше качество распознава-
ния значений.
94 1.3. Лексико-семантические классы

Таблица 9
Сравнение результатов автоматической классификации тестовых контекстов
лексемы дом с эталонными классами
Эксперимент 1
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значе- значе- значе-
m1a m1b m2 m4 m1a m1b m2 m4 m1a m1b m2 m4
ние ние ние
m1a 4 0 3 3 m1a 0 0 10 0 m1a 6 0 2 2
m1b 2 5 1 2 m1b 0 8 2 0 m1b 2 5 1 2
m2 5 2 2 1 m2 0 5 5 0 m2 6 2 1 1
m4 0 1 1 8 m4 0 4 6 0 m4 1 1 1 7
Эксперимент 2
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значе- значе- значе-
m1a m1b m2 m4 m1a m1b m2 m4 m1a m1b m2 m4
ние ние ние
m1a 3 0 2 5 m1a 7 3 0 0 m1a 1 1 2 6
m1b 1 7 1 1 m1b 3 7 0 0 m1b 2 6 1 1
m2 5 0 4 1 m2 8 1 1 0 m2 2 1 5 2
m4 3 1 1 5 m4 8 2 0 0 m4 4 1 2 3
Эксперимент 3
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значе- значе- значе-
m1a m1b m2 m4 m1a m1b m2 m4 m1a m1b m2 m4
ние ние ние
m1a 6 1 0 3 m1a 9 1 0 0 m1a 3 1 1 5
m1b 3 7 0 0 m1b 5 5 0 0 m1b 0 7 1 2
m2 3 7 0 0 m2 9 1 0 0 m2 3 0 5 2
m4 5 0 1 4 m4 9 1 0 0 m4 3 0 2 5

Например, данные эксперимента 3, полученные при расчете значений меры ко-


синуса, можно трактовать следующим образом. Из 10 контекстов употребления
слова дом в значении m1a правильно распознаны 3, в 1 случае ошибочно приписа-
но значение m1b, в 1 случае ошибочно приписано значение m2, в 5 случаях оши-
бочно приписано значение m4. Из 10 контекстов употребления слова дом в значе-
нии m1b правильно распознаны 7, в 1 случае ошибочно приписано значение m2,
в 2 случаях ошибочно приписано значение m4. Из 10 контекстов употребления
слова дом в значении m2 правильно распознаны 5 контекстов, в 3 случаях оши-
бочно приписано значение m1a, в 2 случаях ошибочно приписано значение m4.
1.3.2. Разрешение лексико-семантической неоднозначности… 95

Из 10 контекстов употребления слова дом в значении m4 правильно распознаны 5,


в 3 случаях ошибочно приписано значение m1a, в 2 случаях ошибочно приписано
значение m2.
Наибольшее число правильных решений зарегистрировано при использовании
меры косинуса.
Лучше всего распознается значение m1b, затем значение m4 — это может быть
обусловлено достаточно большим объемом контекстов, задействованных в фор-
мировании эталонных классов. Умеренное качество распознавания значения m1a
объясняется наличием устойчивой связи между реализацией значений m1a и m1b,
а также существенным расхождением в числе контекстов, иллюстрирующих эти
значения. Низкое качество распознавания значения m2 обусловлено недостаточ-
ным объемом выборки контекстов для формирования представительного эталон-
ного класса.
В табл. 10 приведены некоторые примеры анализа контекстов для значения m1а.
Таблица 10
Примеры компьютерной обработки контекстов употребления слова дом
в значении m1а

Контексты (в квадратных скобках указан номер Распознанное


Cos
контекста в корпусе) значение
[649] Я помню всю эту чепуху детства, потери, находки, то,
как я страдал из-за него, когда он не хотел меня ждать и шел
в школу с другим, и то, как передвигали дом с аптекой, и еще
то, что во дворах всегда был сырой воздух, пахло рекой и за- 0,650 m1a
пах реки был в комнатах, особенно в большой отцовской, и,
когда шел трамвай по мосту, металлическое бренчание и лязг
колес были слышны далеко.
[957] Все подъезды в этом доме — со двора. 0,288 m4
[2130] Домишко рядом с домом подполковника. 0,099 m2

Пример [649] проанализирован верно, тогда как примеры [957] и [2130] ин-
терпретируются неточно. Вероятно, ошибочные решения связаны с недостаточно-
стью контекстного окружения для идентификации значений.
Наряду с экспериментами по автоматической обработке потенциально одно-
значных контекстов употребления слова дом была произведена дизамбигуация
842 неоднозначных (в том числе диффузных) контекстов.
В табл. 11 приведены примеры анализа неоднозначных контекстов употребле-
ния словом дом.
В дальнейшем условия эксперимента были изменены, дополнительно сформи-
рованы эталонные классы для диффузных значений типа m1a/m1b, m1a/m2, m1b/
m2 и пр.
96 1.3. Лексико-семантические классы

Таблица 11
Примеры компьютерной обработки сложных случаев
употребления слова дом в контекстах
Контексты (в квадратных скобках указан номер контекста Распознанное
Cos
в корпусе) значение
[337] А в доме у Ежика топилась печь, потрескивал в печи
огонь, а сам Ежик сидел на полу у печки, помаргивая, глядел на 0,429 m1a
пламя и радовался.
[2983] Семен на портфель и не взглянул, а заточку аккуратно
обтер кухонной тряпкой, предусмотрительно им захваченной из
дому, засунул инструмент в рукав, под часовой ремень, 0,541 m1b
и вышел из двора той новой походкой, негнущейся и манекен-
ной, которая образовалась у него после больничного излечения...
[3214] Родственники у Ливии все как один люди практичные,
богатые и важные, хоть и не без вывертов; кажется, единствен-
0,452 m2
ный человек, который уважает ее в этом доме, — это ее дворец-
кий, Трефль.

Серия экспериментов по дизамбигуации контекстов употребления слова дом


на основе лексических маркеров значений подтвердила принципиальную возмож-
ность данной процедуры, но полученные результаты свидетельствуют о том, что
параметры эксперимента требуют дополнительной корректировки.

Разрешение неоднозначности в контекстах для слова орган


Эксперименты основывались на определенной исходной информации о филиа-
ции значений слова орган и о лексико-семантической аннотации их употреблений
в контекстах, см. табл. 12.
Таблица 12
Филиация значений слова орган
Лексико-семантическая
Значения Примеры
аннотация
m1. Клавишный духовой музы-
кальный инструмент, состоящий из r:concr t:tool:mus Играть на органе
труб, в к-рые нагнетается воздух
m2. Часть организма, имеющая
r:concr pt:partb pc:hum
определенное строение и специ- Орган слуха
pc:animal hi:class
альное назначение
Печать — активный
m2а. Орудие, средство r:concr der:shift dt:partb
орган пропаганды
m3. Государственное или общест-
r:concr t:org hi:class Органы здравоохранения
венное учреждение, организация
m4. Печатное издание, принадле-
жащее какой-н. партии, организа- r:concr t:media hi:class Академический орган
ции, учреждению
1.3.2. Разрешение лексико-семантической неоднозначности… 97

В исследовании использовалась экспериментальная выборка контекстов упо-


требления слова орган объемом 834 контекстов. Среди них 27 контекстов для зна-
чения m1; 130 контекстов для значения m2; 660 контекстов для значения m3; 9 кон-
текстов для значения m2a; 8 контекстов для значения m4. Было принято решение
провести обучение программы разрешения неоднозначности для распознавания
значений m1, m2 и m3 на контекстах из эталонных классов. Объемы тестовых вы-
борок составили по 10 контекстов на каждое из значений. Общность контекстов
в эталонных классах определялась общностью лексико-семантических тегов, при-
писанных словоформам лексемы орган в контекстах. Значения m2a и m4 были
исключены из эксперимента в связи с недостаточным количеством иллюстриру-
ющих их контекстов. Автоматическое распознавание значений слова орган в кон-
текстах производилось на основе лексических маркеров. В сериях проведенных
экспериментов изменялся объем эталонных классов контекстов (от 15 до полной
выборки). В экспериментах 2—5 в эталонный класс контекстов для значения m1
включались все примеры, кроме тестовых; в эксперименте 5 эталонный класс для
значения m2 также формировался из всех контекстов, за исключением тестовой
выборки. Вычислялись значения трех мер расстояния (меры Евклида (Eucl), меры
Хемминга (Hm) и косинуса (Cos)). Результаты одной из серий экспериментов при-
ведены в табл. 13.
Данные, полученные в ходе исследования, свидетельствуют о следующем. На-
илучшие результаты разрешения лексико-семантической неоднозначности слова
орган на основе лексических маркеров могут быть получены при использовании
в качестве меры расстояния значения косинуса угла между контекстными вектора-
ми (в среднем 72,5 % правильных решений). Умеренное качество распознавания
значений может быть достигнуто с использованием меры Евклида (в среднем 60 %
правильных решений). Использование меры Хемминга дает низкое качество ди-
замбигуации (в среднем 33,3 % правильных решений).
Успешность разрешения лексико-семантической неоднозначности находится
в прямой зависимости от частотности контекстов с тем или иным значением слова
в экспериментальной выборке. Так, для слова орган высокочастотное значение
m3 распознается намного лучше, чем низкочастотное значение m1 и значение m2
с умеренной частотой. Частотность значения сказывается на четкости формиру-
емого эталонного класса. Эталонные классы для частотных значений являются
более четкими, чем классы для значений с умеренной частотой. Результаты экспе-
риментов с использованием меры Хемминга указывают на то, что эталонный образ
для значения m2 является настолько размытым, «усредненным», что к нему были
автоматически отнесены все тестируемые контексты.
Итак, хороших результатов распознавания можно достигнуть при наличии не
менее 100 контекстов употребления слова в экспериментальной выборке. Изме-
нение объема эталонного класса относительно объема всей экспериментальной
выборки также оказывает существенное влияние на качество дизамбигуации. При
предельных объемах эталонных классов качество распознавания оказывается
98 1.3. Лексико-семантические классы

низким, поскольку в эталонном классе малого объема недостаточно контекстов


для фиксации признаков употребления слова в том или ином значении, а в макси-
мально широком эталонном классе велика доля случайных признаков, не сопря-
женных с конкретным значением.
Таблица 13
Эксперименты с разным объемом эталонных классов
Эксперимент 1. Объем эталонных классов — 15 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 m3 значение m1 m2 m3 значение m1 m2 m3
m1 6 3 1 m1 1 9 0 m1 7 0 3
m2 1 8 1 m2 0 10 0 m2 1 6 2
m3 2 1 7 m3 0 9 1 m3 4 0 6
Эксперимент 2. Объем эталонных классов — 55 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 m3 значение m1 m2 m3 значение m1 m2 m3
m1 4 1 5 m1 0 10 0 m1 7 2 1
m2 1 8 1 m2 0 10 0 m2 0 9 1
m3 0 1 9 m3 0 10 0 m3 1 1 8
Эксперимент 3. Объем эталонных классов — 75 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 m3 значение m1 m2 m3 значение m1 m2 m3
m1 3 6 1 m1 0 10 0 m1 10 0 0
m2 1 6 3 m2 0 10 0 m2 3 6 1
m3 0 4 6 m3 0 10 0 m3 1 2 7
Эксперимент 4. Объем эталонных классов — 100 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 m3 значение m1 m2 m3 значение m1 m2 m3
m1 3 7 0 m1 0 10 0 m1 9 0 1
m2 0 10 0 m2 0 10 0 m2 1 8 1
m3 0 7 3 m3 0 10 0 m3 0 1 9
Эксперимент 5. Объем эталонных классов — 200 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 m3 значение m1 m2 m3 значение m1 m2 m3
m1 7 3 0 m1 0 10 0 m1 6 0 4
m2 1 4 5 m2 0 10 0 m2 0 3 7
m3 0 4 6 m3 0 10 0 m3 1 1 8
Эксперимент 6. Объем эталонного класса — все контексты для каждого значения
(за исключением тестовых)
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 m3 значение m1 m2 m3 значение m1 m2 m3
m1 5 5 0 m1 0 10 0 m1 7 2 1
m2 1 7 2 m2 0 10 0 m2 0 8 2
m3 0 4 6 m3 0 10 0 m3 0 2 8
1.3.2. Разрешение лексико-семантической неоднозначности… 99

Разрешение неоднозначности в контекстах для слова лук


В экспериментах использовалась следующая исходная информация о филиа-
ции значений слова лук и о лексико-семантической аннотации их употреблений
в контекстах, см. табл. 14.
Таблица 14
Филиация значений слова лук
Лексико-семантическая
Значения Примеры
аннотация
m1. Огородное или дикорастущее растение
r:concr t:plant t:fruit t:food
сем. лилейных с острым вкусом луковицы Репчатый лук
pt:aggr
и съедобными трубчатыми листьями
m2. Ручное оружие для метания стрел
Стрельба
в виде пружинящей дуги, стянутой тети- r:concr t:tool:weapon top:arc
из лука
вой

Исследовалась экспериментальная выборка контекстов употребления лексемы


лук объемом 2200 контекстов. Среди них 1600 контекстов для значения m1; 600 кон-
текстов для значения m2. Обучение программы разрешения неоднозначности для
распознавания значений m1 и m2 проводилось на основе контекстов из эталон-
ных классов. В сериях проведенных экспериментов изменялся объем эталонных
классов контекстов (100, 500, полная выборка). Общность контекстов в эталонных
классах определялась общностью лексико-семантических тегов, приписанных
словоформам лексемы лук в контекстах. Объем тестовых выборок по сравнению
с предыдущими экспериментами был увеличен до 20 контекстов на каждое зна-
чение. Автоматическое распознавание значений слова лук производилось по двум
схемам: а) на основе лексических маркеров, выявляемых в контекстах; б) на осно-
ве лексико-семантических тегов контекстного окружения. Определялись значения
трех мер расстояния (меры Евклида (Eucl), меры Хемминга (Hm) и косинуса (Cos)).
Результаты нескольких серий экспериментов приведены в табл. 15 и 16.
Наилучшие результаты по распознаванию значений на основе лексических
маркеров были получены с использованием меры косинуса при объеме эталон-
ных классов, равном 500 контекстам для каждого из значений (эксперимент 1.2.).
При данных условиях доля правильных решений для значения m1 составляет 75 %,
для значения m2 — 90 % (таким образом, эффективность дизамбигуации в этом
эксперименте можно оценить как 82,5 %). Наилучшие результаты по распознава-
нию значений слова лук на основе лексико-семантических тегов при аналогичных
условиях (эксперимент 2.1) таковы: доля правильных решений для значения m1
составляет 75 %, для значения m2 — 95 % (при этом эффективность дизамбигуа-
ции достигает 85 %). В целом доля правильных решений при разрешении лексико-
семантической неоднозначности на основе тегов несколько выше, чем с учетом
лексических маркеров.
100 1.3. Лексико-семантические классы

Таблица 15
Результаты распознавания с использованием лексических тегов
Эксперимент 1.1. Распознавание на основе лексических маркеров,
объем эталонных классов — полная выборка
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 значение m1 m2 значение m1 m2
m1 15 5 m1 20 0 m1 12 8
m2 6 14 m2 19 1 m2 1 19
Эксперимент 1.2. Распознавание на основе лексических маркеров,
объем эталонных классов — 500 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 значение m1 m2 значение m1 m2
m1 15 5 m1 18 2 m1 15 5
m2 8 12 m2 15 5 m2 2 18
Эксперимент 1.3. Распознавание на основе лексических маркеров,
объем эталонных классов — 100 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 значение m1 m2 значение m1 m2
m1 17 3 m1 20 0 m1 14 6
m2 9 11 m2 17 3 m2 5 15

Таблица 16
Результаты распознавания с использованием лексико-семантических тегов
Эксперимент 2.1.
Распознавание на основе лексико-семантических тегов,
объем эталонных классов — 500 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 значение m1 m2 значение m1 m2
m1 16 4 m1 20 0 m1 15 5
m2 6 14 m2 15 5 m2 1 19
Эксперимент 2.2.
Распознавание на основе лексико-семантических тегов,
объем эталонных классов — 500 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 значение m1 m2 значение m1 m2
m1 14 6 m1 20 0 m1 14 6
m2 6 14 m2 7 13 m2 2 18
Эксперимент 2.3.
Распознавание на основе лексико-семантических тегов,
объем эталонных классов — 500 контекстов
Eucl Число контекстов Hm Число контекстов Cos Число контекстов
значение m1 m2 значение m1 m2 значение m1 m2
m1 18 2 m1 20 0 m1 16 4
m2 7 13 m2 18 2 m2 5 15
1.3.2. Разрешение лексико-семантической неоднозначности… 101

В таблицах 17 и 18 приведены некоторые примеры, иллюстрирующие употребле-


ние слова лук в значениях m1 и m2, а также результаты их компьютерной обработки.
В подавляющем большинстве случаев распознавание на основе лексических
маркеров и на основе лексико-семантических тегов приводит к одинаково правиль-
ным решениям (см. примеры [2379], [1578], [235], [1120]). Вместе с тем результаты
дизамбигуации по тегам часто оказываются лучше, чем результаты, полученные
при использовании лексических маркеров (ср. значения меры косинуса для при-
меров [2379] и [235]). Были зарегистрированы контексты, показывающие незначи-
тельное снижение значения меры косинуса (ср. примеры [1578] и [1120]), однако
это не влияет на качество распознавания при переходе от лексических маркеров
к тегам. Важно, что в ходе анализа экспериментальных данных удалось получить
подтверждение гипотезы о том, что при разрешении неоднозначности на основе
лексико-семантических тегов удается улучшить результаты идентификации значе-
ний слов в контексте и избежать ошибочных решений (см. примеры [193], [1863],
[2324]). Среди причин, вызывающих неудачи при дизамбигуации, можно указать
недостаточность (вплоть до полного отсутствия) диагностических маркеров значе-
ния в чрезмерно коротких контекстах (см. примеры [193] и [2324]) или, наоборот,
в слишком широких контекстах (см. контексты [22], [1863]). Как правило, значение
меры косинуса в этих случаях удерживается около показателя 0,5.
Таблица 17
Примеры автоматической обработки контекстов употребления слова лук
в значении m1

Распознавание
Распознавание на основе на основе
лексических маркеров лексико-семантических
тегов
Контексты
Распознанное Распознанное
(в квадратных скобках указан номер Cos Cos
значение значение
контекста в выборке)
[2379] Помню хлеб с изюмом, с луком,
0,572 m1 0,786 m1
с какими-то кореньями.
[1578] Щавель — 300 г, огурцы —
50 г, лук зеленый — 30 г, яйца — 1 шт., 0,653 m1 0,569 m1
сметана — 30 г, сахар — 10 г, укроп.
[22] Причем корейцы отпускали
в прошлом году лук по три с полти-
ной, на базарах осенью он шел по 0,526 m2 0,514 m2
пять, а весной 2003-го цена достигла
десятки.
[193] Начинают принимать лук,
0,502 m2 0,514 m1
капусту — гляди в оба глаза.
102 1.3. Лексико-семантические классы

Таблица 18
Примеры компьютерной обработки контекстов употребления слова лук
в значении m2
Распознавание Распознавание
на основе лексических на основе лексико-
маркеров семантических тегов
Контексты
Распознанное Распознанное
(в квадратных скобках указан Cos Cos
значение значение
номер контекста в выборке)
[235] Одни тугие луки, над которыми
несколько человек справиться не могли,
«играючи» натягивали, другие толстен-
ные железные полосы вокруг шеи врага
0,533 m2 0,550 m2
скручивали, третьи возы через броды
на себе перетаскивали, ядра через
самые широкие реки запросто перебра-
сывали.
[1120] Знаешь, есть восточное присло-
вье, что, если человек стреляет из лука,
он никогда не попадет в мишень, если 0,543 m2 0,538 m2
стрела не пробьет одновременно его
сердце.
[1863] Не имев совершенного успеха
в намерении взбунтовать тушинский
стан и боясь мести гетмана, Марина,
0,609
в одежде воина, с луком и тулом за пле- 0,507 m1 m2
чами, [11 февраля] ночью, в трескучий
мороз ускакала верхом к мужу, прово-
ждаемая только слугою и служанкою.
[2324] За спиной у него висели лук
0,500 m1 0,517 m2
и колчан.

Итоги первого эксперимента


В исследовании был реализован алгоритм классификации объектов с учителем
и процедуры автоматической обработки контекстов с опорой на лексическое на-
полнение контекстов, а также с учетом лексико-семантических тегов, приписывае-
мых контекстному окружению слов.
Была проведена серия экспериментов по автоматическому разрешению неод-
нозначности контекстов употребления лексем с различной структурой неодноз-
начности, а именно предметных имен существительных дом, орган и лук. Данные
слова характеризуются разным числом значений, отличающихся по частотности
и по степени самостоятельности. Это позволило получить обширные эксперимен-
тальные данные на русскоязычном материале и оценить оптимальные условия,
обеспечивающие достаточно высокое качество разрешения семантической неод-
нозначности слов в контекстах (от 72,5 % до 85 % и выше).
1.3.2. Разрешение лексико-семантической неоднозначности… 103

Оптимальными можно признать следующие условия разрешения семантиче-


ской неоднозначности слов в контекстах:
• высокий объем экспериментальной выборки;
• наличие в выборке не менее 100 контекстов употребления слова в отдельном
исследуемом значении;
• объем эталонного класса около 500 контекстов;
• оценка близости контекстов к эталонному классу с использованием значения
косинуса угла между контекстными векторами;
• возможность снятия неоднозначности на основе лексических маркеров значе-
ния слова в контексте либо на основе семантических тегов его контекстного
окружения.
В ходе экспериментов нашла подтверждение гипотеза о большей эффективно-
сти дизамбигуации с опорой на лексико-семантическую разметку корпуса текстов,
поскольку это позволяет «конденсировать» информацию, получая общую стати-
стику по более крупным кластерам контекстов.

Вторая серия экспериментов: ширина контекстного окна,


объемы эталонных классов, лексические, грамматические
и лексико-семантические теги
Продолжая эксперименты, мы решили привлечь новые факторы, потенциаль-
но способные повлиять на успешность дизамбигуации, а также привлечь к ана-
лизу новый лексический материал. В качестве варьирующих параметров исполь-
зовалась ширина контекстного окна (количество слов слева и справа, которые
берутся в расчет при обучении), объемы эталонных классов, а также уровень
лингвистической информации: лексические, грамматические, лексико-семанти-
ческие теги. Лексический критерий предполагает разрешение неоднозначности
на основе лексических маркеров значений слов в контекстах (тег леммы, lex),
семантический критерий — разрешение неоднозначности на основе лексико-се-
мантической разметки контекстов (теги первого значения слова, sem), граммати-
ческий критерий — разрешение неоднозначности на основе морфологической
разметки контекстов (грамматические теги, gramm). В ходе исследования необ-
ходимо было установить наличие или отсутствие зависимости между данными
критериями.
В каждой из серий экспериментов происходило изменение параметров разре-
шения неоднозначности: а) объем эталонных выборок изменялся пропорциональ-
но общему числу контекстов для каждого из рассматриваемых значений (A = 10 %,
B = 15 %, C = 20 %), объем тестовых выборок составил 20 контекстов; б) изменя-
лась ширина контекстного окна [–i, +k], где 1 ≤ i, k ≤ 5, i = k vs. i ≠ k (допускается как
симметричное, так и асимметричное окно); в) обработка контекстов проводилась
с учетом границ синтагм: предварительные тесты показали, что в данном режиме
качество распознавания значений возрастает на 0,5 %…1 % по сравнению с обыч-
ным режимом анализа контекстов (без учета знаков препинания).
104 1.3. Лексико-семантические классы

Во всех тестах близость контекстных векторов по отношению к образам опре-


делялась с помощью меры косинуса (Cos) как наиболее надежной, при сопоставле-
нии автоматической классификации с результатами ручной дизамбигуации вычис-
лялась точность (P) и полнота (R) как показатели качества дизамбигуации.
Как уже указывалось ранее, надежность меры косинуса по сравнению с мера-
ми Евклида и Хемминга объясняется ее меньшей чувствительностью к частоте
контекстов. Меры Хемминга и Евклида в среднем обеспечивали 45 % и 65 % точ-
ности соответственно, в то время как косинусная мера обеспечила в среднем 85 %
правильных результатов (при объеме эталонных классов от 100 до 500 контекстов).
Разброс точности для меры косинуса в разных экспериментальных условиях со-
ставил от 50—60 % до 95—100 %. Иными словами, использование меры косинуса
гарантировало, что не менее 50 % решений будут правильными.

Экспериментальный материал
В дополнение к контекстам, на которых строились тесты в первой серии экспе-
риментов, были использованы 2866 контекстов существительного вид и 1073 кон-
текстов существительного глава, см. табл. 19. Все контексты были дизамбигуиро-
ваны вручную.
Эксперименты по разрешению неоднозначности проводились только для зна-
чений, представленных достаточным количеством контекстов (так, из рассмотре-
ния контекстов для слова вид были исключены значения ‘произведение живописи’,
‘расчет, намерение’, ‘документ’, ‘глагольная категория’).
Таблица 19
Распределение употреблений существительных дом, орган, лук, вид, глава
в разных значениях14

Количество
Значение и лексико-семантические теги контекстов
в НКРЯ
дом 3000 (всего)
‘здание’
1694
<r:concr t:constr top:contain>
‘личное пространство’ <r:concr t:space> 95

14
Для классификации значений использованы следующие теги: 1) разряды r:concr
(предметные имена), r:abstr (абстрактные имена); 2) таксономические классы t:hum (лицо),
t:org (организация), t:constr (здание / сооружение), t:space (пространство / место), t:tool:mus
(музыкальный инструмент), t:perc (восприятие), t:ment (ментальная сфера) и т. п.; 3) ме-
реологические классы pt:partb pc:hum pc:animal (часть тела человека или животного),
pt:part pc:constr (часть здания / сооружения), pt:set sc:hum (множество лиц); 4) топологи-
ческие классы top:contain (вместилище), t:arc (дуга); 5) словообразовательные маркеры
der:v (отглагольное имя), der:shift dt:partb (сдвиг значения от названия части тела), der:shift
der:metaph (метафорический сдвиг).
1.3.2. Разрешение лексико-семантической неоднозначности… 105

Количество
Значение и лексико-семантические теги контекстов
в НКРЯ
‘семья’
72
<r:concr t:group pt:set sc:hum>
‘общее пространство’
4
<r:concr t:space der:shift der:metaph>
‘учреждение’ <r:concr t:org> 292
‘династия’ <r:concr pt:set sc:hum> 1
(смешанные значения) 842
орган 834 (всего)
‘музыкальный инструмент’
27
<r:concr t:tool:mus>
‘часть организма’
130
<r:concr pt:partb pc:hum pc:animal hi:class>
‘средство’ <r:concr der:shift dt:partb> 9
‘учреждение’ <r:concr t:org hi:class> 660
‘печатное издание’
8
<r:concr t:media hi:class>
лук 2200 (всего)
‘растение’
1600
<r:concr t:plant t:fruit t:food pt:aggr>
‘оружие’
600
<r:concr t:tool:weapon top:arc>
вид 2866 (всего)
‘воспринимаемое пространство’ <r:abstr t:perc
1144
der:v>
‘форма, качество’ (в виде ч-л.) <r:abstr der:shift> 1075
‘документ’ <r:concr t:doc > 7
‘произведение живописи’ <r:concr t:workart> 10
‘расчет, намерение’ <r:abstr t:ment> 10
‘разновидность’
617
<r:abstr r:concr pt:set sc:X>
‘глагольная категория’ <r:abstr > 3
глава 1073 (всего)
‘часть тела (голова)’
8
<r:concr pt:partb pc:hum>
‘лидирующая позиция’ (во главе ч-л.)
140
<r:concr der:shift dt:partb>
‘купол церкви’
12
<r:concr pt:part pc:constr >
‘руководитель’ <r:concr t:hum > 301
‘часть текста’
612
<r:concr t:text pt:part pc:text>15
106 1.3. Лексико-семантические классы

Оценка точности при изменении типа тегов


Значения точности P определялись как отношение объема тестовых выборок
для каждого из значений к числу контекстов, по которым были приняты верные ре-
шения об их принадлежности к тому или иному образу. Также вычислялись сред-
ние значения Pср. Результаты трех тестов приведены в табл. 20.
Таблица 20
Оценка точности результатов: вид
lex sem gramm
P
m1 m11 m21 m1 m11 m21 m1 m11 m21
A 0,56 0,82 0,61 0,61 0,32 0,66 0,65 0,74 0,7
B 0,67 0,69 0,52 0,57 0,68 0,72 0,69 0,68 0,77
C 0,65 0,76 0,59 0,56 0,51 0,71 0,6 0,83 0,72
Pср lex sem gramm
A 0,66 0,53 0,7
B 0,63 0,66 0,71
C 0,67 0,59 0,72

Наибольшая точность результатов разрешения неоднозначности достигается


в экспериментах с использованием грамматического критерия (Pср = 0,7…0,72), на
втором месте — лексический критерий (Pср = 0,63…0,67), на третьем — семанти-
ческий критерий (Pср = 0,53…0,66). При возрастании объема эталонных выборок
наблюдается весомое увеличение точности.
Замечено, что значение m1 ‘воспринимаемое пространство’ (ср. вид на озеро)
при любых параметрах экспериментов распознается хуже, чем значения m11
‘форма, качество’ (ср. подсолнухи в виде букета) и m21 ‘разновидность’ (ср. отря-
ды и виды животных). Пара значений m11 и m21 дифференцируется по типу: при
использовании лексического критерия оказывается выше точность распознавания
значения m11, а при использовании семантического критерия возрастает точность
распознавания значения m21. Это подтверждает гипотезу о специализации кри-
териев разрешения неоднозначности с точки зрения типов лексических значений.

Оценка точности при изменении ширины контекстного окна


Существенное влияние на точность результатов разрешения неоднозначности
оказывает ширина контекстного окна. В табл. 21 приведены результаты несколь-
ких тестов с изменением ширины контекстного окна. Например, при обучении по
лексико-семантическим маркерам в контекстном окне [–1, +5] программа форми-
ровала образ с учетом маркеров одного слова слева и маркеров первых пяти слов,
стоящих справа от ключевого слова.
1.3.2. Разрешение лексико-семантической неоднозначности… 107

Таблица 21
Точность дизамбигуации трех значений имени вид:
ширина контекстного окна [–5, +5], [–5, +1], [–1, +5];
объем эталонного класса S = 20 % E
sem lex gramm
P
m1 m11 m21 m1 m11 m21 m1 m11 m21
[–5,+5] 0,4 0,5 0,7 0,75 0,8 0,5 0,65 0,9 0,8
[–5,+1] 0,95 0,35 0,75 0,7 0,85 0,65 0,6 0,95 0,85
[–1,+5] 0,25 0,8 0,75 0,65 0,7 0,85 0,65 0,9 0,85

Тесты не позволили выявить единственное оптимальное значение ширины окна


[–i, +k], однако в целом точность распознавания значений выше при значениях i ≤ 2,
2 ≤ k ≤ 4 (два слова слева, от двух до четырех слов справа). Наихудшие результаты
наблюдаются при ширине контекстного окна справа 0. Это говорит о том, что для
исследуемых имен правосторонние коллокаты важнее левосторонних15.

Оценка полноты результатов при изменении параметров экспериментов


Значения полноты R определялись как отношение объема тестовых выборок
для каждого из значений к числу контекстов, по которым были приняты верные и
ошибочные решения об их принадлежности к тому или иному образу. Также вычи-
слены средние значения Rср. Результаты приведены в табл. 22.
Таблица 22
Оценка полноты результатов: вид
lex sem gramm
R
m1 m11 m21 m1 m11 m21 m1 m11 m21
A 0,86 0,99 0,95 0,93 0,99 1 1 1 1
B 0,88 0,97 0,97 0,96 0,99 1 1 1 1
C 0,86 0,99 0,93 0,93 0,99 1 1 1 1
Rср lex sem gramm
A 0,93 0,97 1
B 0,94 0,99 1
C 0,94 0,97 1

Можно заметить, что наибольшую полноту обеспечивает грамматический кри-


терий (Rср = 1), второе место занимает семантический критерий (Rср = 0,97…0,99),
на третьем месте — лексический критерий (Rср = 0,93…0,94). При возрастании
объема обучающих выборок наблюдается незначительное увеличение полноты.

15
В работе (Шурыгина 2011) показано, что оптимальное значение ширины контекстно-
го окна и общий вклад этого параметра в результаты дизамбигуации существенно зависит
от ключевой лексемы и ее частеречного класса.
108 1.3. Лексико-семантические классы

Зарегистрировано снижение полноты в распознавании значения m1 как по лек-


сическому (R = 0,86…0,88), так и по семантическому критериям; значение m21
распознается по семантическому критерию (R = 1) с большей полнотой, чем по
лексическому (R = 0,93…0,97); значение m11 распознается по лексическому и
семантическому критериям примерно одинаково (R = 0,97…0,99). Замечено, что
наибольшее снижение полноты происходит при экспериментах с ограниченным
левым контекстом (контекстное окно [–1, +k], где k = 1…5).

Анализ сложных случаев


Ошибочные решения, потери данных и отсутствие решений о принадлежности
контекстов к тому или иному образу объясняются в основном двумя причинами:
а) недостаточность лексических, семантических и/или грамматических призна-
ков в контексте для правильного определения значения:
— исходное значение m1, распознанное значение m11, критерий sem:
[419] Клумбы опустели и имели беспорядочный вид.
— исходное значение m11, распознанное значение m1, критерий sem:
[1408] Гидроталькит встречается как в виде отдельных идиоморфных кристал-
лов размером до 5 миллиметров в поперечнике, так и в сростках и в друзоподоб-
ных агрегатах.
— исходное значение m21, распознанное значение m11, критерии lex, gramm:
[2341] Например, в ФРГ федеральные структуры исполнительной власти разде-
лены на три вида: министерства, ведомства и службы.
— исходное значение m1, распознанное значение 0, критерий lex:
[134] Вид Глюкала поразил пришедших.
— исходное значение m11, распознанное значение 0, критерий sem:
[2241] Он все и произнес лишь для того, чтобы доставить маленькому человеку
страдания в самом невыносимом виде.
— исходное значение m21, распознанное значение 0, критерий sem:
[2916] Существовал, однако, вид крамолы неистребимой.

б) употребление анализируемого слова в составе устойчивого сочетания или


конструкции, например:
— исходное значение m1, распознанное значение 0 или m21, критерии lex, sem, gramm:
[1121] Порой Елене казалось, что все явления и все предметы можно описать
в трех позициях: анфас, профиль, вид сверху.
— исходное значение m11, распознанное значение m1, критерии lex, gramm:
[1686] Обычно они существуют / плохие или хорошие / в том или ином виде / но
существуют / установленные / может быть / не совсем верно с точки зрения
иерархии законодательных актов.
— исходное значение m1, распознанное значение 0, критерий lex:
[96] Однако виду никогда не подаст.
— исходное значение m11, распознанное значение 0, критерий sem:
1.3.2. Разрешение лексико-семантической неоднозначности… 109

[1798] Герасим Николаевич говорит: «Доктор, я не баба, видел виды… говорите,


она?»
— исходное значение m21, распознанное значение 0, критерий lex:
[2573] Сами-то того не знаете вида…

Оценка корреляции параметров экспериментов


Был проведен корреляционный анализ экспериментальных данных, направлен-
ный на определение зависимости между (1) лексическим (lex), (2) семантическим
(sem) и (3) грамматическим (gramm) критериями разрешения неоднозначности
с учетом изменения объемов эталонных выборок (A = 10 %, B = 15 %, C = 20 %).
Определены значения коэффициента корреляции Пирсона Corr (X, Y). Результаты
представлены в табл. 23.
Таблица 23
Результаты корреляционного анализа: вид
Corr(X,Y) lex vs. sem lex vs. gramm sem vs. gramm
A = 10 % –0,704 –0,011 0,175
B = 15 % –0,045 –0,148 0,377
C = 20 % –0,309 0,364 –0,109

Данные свидетельствуют об отсутствии устойчивой зависимости между лек-


сическим, семантическим и грамматическим критериями. Исключение составляет
достаточно сильная обратная зависимость между лексическим и семантическим
критериями при объеме эталонных выборок 10 %: Corr = –0,704, однако в осталь-
ных случаях прямая или обратная зависимость не превышает значения |Сorr| =
0,377. Это означает, что можно ожидать повышения качества разрешения неодно-
значности в экспериментах с комбинированными критериями (lex + sem, sem +
gram, lex + gram, lex + sem + gram).

Итоги второго эксперимента


Эксперименты по статистическому разрешению лексико-семантической не-
однозначности с гибкими условиями на материале контекстов пяти предметных
имен существительных показали следующее. Проводя сопоставление эффектив-
ности лексического, семантического и грамматического критериев разрешения
неоднозначности, мы подтвердили гипотезу о специализации данных критериев
в отношении значений различных типов; показана несколько большая надежность
грамматического критерия по сравнению с лексическим и семантическим. Было
установлено отсутствие устойчивых связей между тремя критериями.
Эффективность разрешения неоднозначности повышается при формирова-
нии эталонных выборок пропорционально объему экспериментальных выборок.
Кроме того, подтверждено улучшение результатов распознавания значений при
110 1.3. Лексико-семантические классы

анализе контекстов с учетом границ синтагм; показана зависимость точности и


полноты от ширины контекстного окна.
В общем случае, по результатам на нашем материале можно указать следующие
оптимальные критерии дизамбигуации: более 85 % (в некоторых случаях до 95 %)
правильных решений обеспечивается при использовании меры косинуса, варьиро-
вании обучающей выборки от 100 до 500 контекстов (но не менее 20 % от экспери-
ментальной выборки), контекстное окно [–i; +k], где i ≤ 2, 2 ≤ k ≤ 4.
Продолжение экспериментов по разрешению семантической неоднозначности
может развиваться по следующим направлениям:
• строиться на более обширном корпусном материале (увеличение эксперимен-
тальной группы лексем, использование более объемных экспериментальных
выборок контекстов из корпуса);
• проводиться с оценкой контекста на основе комбинированных признаков: на-
пример, с учетом как лексических, так и лексико-семантических данных, с вы-
числением оптимальных весовых коэффициентов в контекстах и пр.;
• проводиться с детальным анализом диффузных контекстов употребления лек-
сем в сопряженных значениях (определение доминирующего значения: напри-
мер, стакан с водой (стакан — «вместилище») vs. стакан воды (стакан —
«мера+вместилище»);
• включать проверку ряда лингвистических и статистических гипотез об усло-
виях разрешения семантической неоднозначности лексем в корпусах текстов.
В частности, популярную в современной науке гипотезу дистрибутивной се-
мантики (Sahlgren 2008) предлагается использовать для проведения машинного
обучения без учителя, т. е. без заранее размеченных вручную выборок контекстов.
Предполагается, что слова одного лексико-семантического класса должны об-
наруживать похожие контекстно-дистрибутивные свойства. Отсюда можно пред-
положить, что контекстные образы многозначных слов (в значении нашего лек-
сико-семантического класса) и контекстные образы однозначных слов (тоже из
нашего лексико-семантического класса) должны быть похожи. Таким образом, на
основе контекстов однозначных лексем могут быть собраны эталонные выбор-
ки, которые представят дистрибутивные свойства своего лексико-семантического
класса. Дизамбигуация полисемичных слов может проводиться как распознавание
образов, построенных на эталонных выборках такого рода и представляющих два
или более лексико-семантических класса.
Еще один путь развития метода — использование идей искусственного интел-
лекта и когнитивной семантике об устройстве категорий по схеме «прототип —
периферия» (Lakoff 1987). Эту схему можно использовать, во-первых, для про-
тивопоставления свойств основного (так называемого первого) значения другим
значениям. Можно предположить, что контекстный образ первого значения обла-
дает некоторыми свойствами, которыми не обладают другие значения, и, соответ-
ственно, строить модель обучения с учетом этого фактора. Во-вторых, эту схему
можно применить к классификации контекстов корпуса на «прототипические»
1.3.2. Разрешение лексико-семантической неоднозначности… 111

(они же «хорошие», «полезные») и «периферийные» (они же «плохие», вносящие


«шум»). Машинное обучение на прототипических контекстах, как предполагается,
может дать лучшие результаты, чем обучение на всех доступных контекстах. Ин-
тересные импликации из схемы «прототип — периферия» следуют и для вышеиз-
ложенного принципа обучения на контекстах однозначных слов. Дело в том, что
неоднозначные слова — это, как правило, частотные слова, которые могут в одних
случаях формировать прототип лексической группы, а в других — принадлежать
к ее периферии. Результаты дизамбигуации неоднозначных слов с помощью обуче-
ния на контекстах однозначных слов можно использовать как меру для оценки рас-
стояния лексемы на шкале «прототип — периферия».
1.4. Интерфейс морфосинтаксиса и семантики

1.4.1. Аннотация лексических конструкций


в системе ФреймБанк *
В российской компьютерной лингвистике до последнего времени не было от-
крытых ресурсов, аналогичных FrameNet, VerbNet и PropBank, в которых можно
было бы получить иллюстрации глагольного и именного управления, а также пе-
риферийных лексически ориентированных конструкций. «Дочерним» проектом
Национального корпуса русского языка стала система FrameBank (ФреймБанк),
которая решает несколько задач. C одной стороны, она описывает семантику раз-
личных типов тематических ситуаций через формализованные схемы — фреймы.
Разметка ФреймБанка позволяет увидеть, как распределяется в тексте фреймовая
информация: какие участники ситуации выражены, какие нет; в каком порядке
выражаются участники и предикат; каким образом семантика ситуации распреде-
ляется по синтаксической структуре; с какими другими компонентами коммуника-
тивной структуры (дискурсивными маркерами, отрицанием и т. п.) взаимодейству-
ют элементы фрейма; как все это взаимодействует с контекстом, в частности что
происходит, если участники в двух фреймах перекрываются и т. п.
С другой стороны, ФреймБанк является инструментом для изучения конструк-
ционных свойств русской лексики. Лексические конструкции, строящиеся вокруг
глаголов, предикативов, прилагательных и других видов предикатных слов, яв-
ляются тем мостиком, который связывает отдельные значения слова с соответст-
вующими фреймами и задает морфологические, синтаксические, семантические
и лексические ограничения на выражение участников. Помимо словарного ре-
сурса (словарь лексических конструкций включает глагольные и именные модели
управления, устойчивые идиомы и т. п.), ФреймБанк предлагает разметку реали-
зации лексических конструкций в тексте. Так, например, можно проследить, как
часто и какими морфосинтаксическими средствами выражаются элементы фрейма,
*
Раздел основан на работах: Ляшевская О. Н., Кузнецова Ю. Л. Русский Фреймнет:
к задаче создания корпусного словаря конструкций (Ляшевская, Кузнецова 2009); Каш-
кин Е. В., Ляшевская О. Н. Семантические роли и сеть конструкций в системе FrameBank
(Кашкин, Ляшевская 2013); Ляшевская О. Н., Кашкин Е. В. Типы информации о лексиче-
ских конструкциях в системе ФреймБанк (Ляшевская, Кашкин 2015).
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 113

какие отклонения от стандарта допускаются; какие лексико-семантические огра-


ничения преодолеваются и с каким развитием значения это связано. Кроме того,
ФреймБанк позволяет увидеть, как лексическая сеть накладывается на сеть фрей-
мов и как структурные лексико-семантические отношения типа полисемии, сино-
нимии, антонимии и т. п. отражаются в лексических конструкциях.
В этой главе мы описываем задачи создания и структуру ФреймБанка1.

О системе ФреймБанк
Русский ФреймБанк является аналогом англоязычного ресурса FrameNet, раз-
работанного под руководством Чарльза Филлмора (http://framenet.icsi.berkeley.edu).
Как и FrameNet, ФреймБанк является общедоступным онлайн-ресурсом. Основ-
ная задача ФреймБанка — это выявление в текстах естественного языка элементов
фреймов, а именно идентификация участников ситуаций, обозначаемых предика-
тами (глаголами, существительными, прилагательными и т. д.), и разметка способа
их выражения — вне зависимости от того, связаны ли обозначающие участников
единицы с предикатом синтаксически или нет. В результате разметки ФреймБанк
представляет информацию:
• о лексических конструкциях русского языка и системе фреймов;
• о семантико-синтаксическом интерфейсе в более общем смысле;
• о многозначности предикатных лексем и о том, как система значений связана
с конструкционным потенциалом лексем.

Лексические конструкции
Лингвистический смысл разметки состоит в том, что мы можем на корпусных
данных составить каталог лексических конструкций, т. е. таких морфосинтакси-
ческих паттернов языка, где как минимум один элемент — предикатное (целевое)
слово — фиксировано:

жарить
фрейм
‘тепловая обработка пищи’

кто? что?
Рис. 6. Схема конструкции Мама жарила картошку

(1) кто?[Мама] жарила что?[картошечку].


Дом, безусловно, ваш, но что?[картошку] жарил кто?[я].
что?
[Шашлыки] кто?[наши разбойнички] научились жарить, научатся и аманатов
брать.

1
Проект выполняется в рамках программы фундаментальных исследований ОИФН
РАН (2009—2011 гг.), направление «Лингвистические аспекты исследования текста».
114 1.4. Интерфейс морфосинтаксиса и семантики

жарить
фрейм
‘тепловая обработка пищи’

кто? что? на чем

в пользу кого
производится действие?

Рис. 7. Схема конструкции Игрек жарил себе на времянке лепешки

(2) Среди ночи кто?[она] жарила в пользу кого?[ему] что?[яичницу] на чем?[на электроплитке].
Жарил в пользу кого?[себе] что?[мясцо] кто?[расхристанный, сердобольный мужик] —
на чем?
[на плитке], будто творил чудо.
... как раз в тот момент, когда кто?[Игрек] жарил в пользу кого?[себе] на чем?[на времянке]
что?
[лепешки].

Банк лексических конструкций включает:


• модели управления глаголов2 (см. 3— 4) и предикативов (см. 5 — 6);
• морфосинтаксические конструкции предикатных имен существительных
(включают не только управление, но и атрибутивные связи и другие синтакси-
ческие комплексы отношений, в т. ч. контроль связи между именем-предикатом
и аргументом с помощью глагола-лексической функции, см. 7— 8; реляцион-
ные предметные имена типа пациент, корпус также считаются предикатными);
• морфосинтаксические конструкции прилагательных, наречий, вводных оборо-
тов, разнообразных сирконстантных элементов3 (см. 9 —15);
• конструкции малого синтаксиса (фраземы, идиоматические конструкции) —
в них, как правило, лексической константой является не только предикатное
(целевое) слово, но и другие элементы и наблюдается высокая некомпозицион-
ность значения (см. 16 —18).

(3) Snom жарить.V Sacc


Мама жарила картошечку.
(4) Snom жарить.V Sacc на + Sloc Sdat
Ирек жарил себе на времянке лепешки.
(5) Sdat нельзя.PRAEDIC Vinf
Вам нельзя ходить пешком.

2
Обратим внимание, что в корпусе обнаруживаются и достаточно частотные нестандарт-
ные случаи аргументно-предикатных конструкций типа собрал силы и встал; собрав все
свои силы, он заиграл; они являются расширением стандартных моделей управления типа
собрал силы, чтобы встать и собрал последние силы для прыжка.
3
С синтаксической точки зрения прилагательные в атрибутивной позиции, наречия и
другие элементы в этой группе не являются предикатами, однако они по-прежнему облада-
ют способностью формировать вокруг себя морфосинтаксический паттерн.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 115

(6) PRгде + Sx холодно.PRAEDIC


В доме было холодно, мокро и пахло гарью.
(7) Snom [прийти.SUPPORT к +] соглашение.Sdat о + Sloc
Без особых сложностей обе стороны пришли к соглашению о создании в каждой
из столиц специальных миссий.
(8) соглашение.S между + Sins {A | CL}
С тех пор между ними мирное соглашение: вне дома главная Наташа.
(9) верный.A S
Это же верный человек, это повод для перевода на более ответственную рабо-
ту.
(10) верный.A Sdat S
…скоро в МВД не останется верных делу профессионалов.
(11) Snom верный.Abrev Sdat
Большинство пенсионеров по-прежнему верны Зюганову.
(12) верный.A S
Ну что ты, кто решится? За такую штуку верных десять лет дадут.
(13) верно.ADV + V
Руководство корпорации смогло верно оценить ситуацию.
(14) верно.ADV + A
Знатная, богатая вдова… — И верно прекрасная? — спросил Честон.
(15) верно.PRAEDIC + CL
— Кушать хотите, верно? — спросил милый и близорукий.
(16) себя.SPROdat V
Спит себе человек и спит, может, он устал с дороги.
...а старики пускай себе дерутся, коли им это весело.

жарить
фрейм
‘пить спиртные напитки’

кто? спирт
Рис. 8. Схема конструкции жарить спирт

(17) кто?
[Я] читаю стихи проституткам / И с бандитами жарю что?[спирт].
‘распивать крепкие алкогольные напитки (об уголовниках или алкоголиках)’

взять
фрейм
‘внезапно (сделать что-то)’

кто? да и что сделать?

Рис. 9. Схема конструкции взял (да) и запил


116 1.4. Интерфейс морфосинтаксиса и семантики

(18) CL[Он сделал последний контрольный ход (допустим — 40-й), перевел часы],
а кто/что?[флажок-предатель] взял да и V[рухнул].
А кто/что?[полковник] возьми да и V[откажись наотрез].

Итак, лексическая конструкция — это ключевая лексема (лексическая кон-


станта; иногда их может быть несколько) и некоторый набор слотов. Количество
слотов, их возможное морфологическое оформление, их возможное лексическое
наполнение, тип синтаксической связи между элементами, интерпретация кон-
струкции — вот те составляющие, которые в комплексе отличают лексические
конструкции друг от друга. Конструкции могут иметь одинаковое морфосинтак-
сическое оформление, но разную интерпретациюи наоборот, сходную интерпрета-
цию и разное морфосинтаксическое оформление.
Лексические конструкции входят в иерархию вложенных классов конструкций.
Различные генерализации (Dąbrowska 2004; Tomasello 2003) связывают конкрет-
ные цепочки словоформ в тексте (ср. хочу пить) с лексическими конструкциями
(ср. хочу Vinf, хотеть Vinf) и далее с конструкциями более абстрактного уровня
(здесь с инфинитивной конструкцией с волитивным глаголом; с общей инфини-
тивной конструкцией). Генерализации предполагают обобщение плана выражения
конструкций и обобщение плана содержания, когда индивидуальные особенности
конструкций стираются.
Генерализации возможны и «по горизонтали», в частности на уровне лекси-
ческих конструкций. Конструкции одного предиката, различающиеся количест-
вом элементов и их оформлением, также могут объединяться в классы (см. 1 и 2).
Основанием для объединения является то общее в их семантике, что представляет
один фрейм.

Фреймы
Фрейм (в лингвистическом понимании) — типовая ситуация, в которой заданы
участники и некоторое отношение между ними (например, действие, состояние,
свойство, связывающее их). В языке фрейм ассоциируется с определенным преди-
катом (а чаще несколькими близкими по смыслу предикатами), при котором выра-
жаются участники фрейма (аргументы).
Например, фрейм «обработка при помощи высокой температуры» состоит из
следующих единиц:
Продукт
Источник тепла
Контейнер

В типовой ситуации Продукт, находясь в Контейнере, подвергается нагреванию


от Источника тепла. Скорее всего, в результате этого процесса Продукт претер-
певает изменения (становится теплым и съедобным). Иногда в тексте могут быть
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 117

выражены некоторые дополнительные элементы, участвующие в данном фрейме.


Например, это может быть Температура, ср. 120°С в примере (21), или Образ дей-
ствия, ср. медленно в примере (22).
Фрейм «обработка при помощи высокой температуры» представляют в рус-
ском языке такие глаголы, как вариться, жариться, готовиться, томиться и др.
(ср. англ. bake, boil, cook, fry, stew и др.).
(19) На толстых столах бурно кипели, отражая нестерпимое черноморское солнце,
кривые самовары, и жарилась на сковородах украинская колбаса.
(20) После тщaтельного перемешивaния кaшу стaвят томиться в печь или духовку.
(21) Благодаря герметически закрывающейся крышке пища готовится при 120°С.
(22) Конина варилась медленно, жрать хотелось невыносимо.

Само английское название frame отсылает к «рамке», или интерпретации неко-


торой ситуации под определенным углом. Фреймы «покупка» и «продажа» явля-
ются частным случаем фрейма «товарно-денежная транзакция», представляя раз-
ную перспективу на ситуацию (со стороны покупателя или со стороны продавца).
Аналогично можно выделить фрейм «эмоция в перспективе экспериенцера» (ср. я
волнуюсь из-за экзаменов) и «эмоция в перспективе причины, ее вызывающей»
(ср. предстоящий экзамен волнует меня). Описанный выше фрейм «обработка при
помощи высокой температуры» представляет изменение Продукта как «процесс
в себе», а введение в рассмотрение человека, целенаправленно проводящего эту
обработку, дает новый каузативный фрейм (ср. Папа жарит сосиски).
Важно, что фреймы связаны друг с другом в сеть. Такой фрейм, как «обработка
при помощи высокой температуры», будет частным случаем фрейма «обработка
пищи», а тот, в свою очередь, частным случаем фрейма «физическое воздействие».
Фреймы могут быть связаны и как части сценария. Например, фреймы «получе-
ние работы», «работа (в должности)» и «увольнение с работы» являются подсцена-
риями фрейма «наемная работа».

Примечание. Фрейм в понимании инженерии знаний — более общий способ


представления окружающего мира, связанный с его членением на типовые ситуации
и их сценарии. Например, всю совокупность отзывов о гостиницах можно предста-
вить в виде единого сценария, где говорящий описывает свой приезд, оформление на
ресепшен, вид номера (большой, маленький), впечатления о кровати, санузле и т. п.,
понравился ли завтрак, отношение официантов, выезд из отеля и прочее. Специали-
сты по кластеризизации новостей и другим прикладным информационным задачам
также обращают внимание на «модус», который задают фреймы в отношении одного
и того же объективного события, ср., например, Президент поздравил дзюдоистов
с серебром на чемпионате мира и Дзюдоисты упустили золотые медали. В инфор-
мационных войнах симметричные события могут представляться «несимметрично»,
ср. Израиль выпустил 30 ракет по территории сектора Газа и На израильской тер-
ритории разорвались новые ракеты (каузатор события, террористическая организа-
ция «Хамас», не упомянута).
118 1.4. Интерфейс морфосинтаксиса и семантики

В понимании инженерии знаний фрейм не ассоциируется напрямую с выражающи-


ми его предикатами естественного языка, однако можно видеть, что фрейм прибытия
в отель можно соотнести с лингвистическими фреймами «кто приехал куда», «поздно
(прибыть)», «кто выдал ключи кому», «быстро (выдать ключи)» и т. д.

Как уже было сказано, семантику лексической конструкции можно соотнести


с тем или иным фреймом, а еще точнее, фрейм отражает прототипическое значение
конструкции (Hamm 2007), результат генерализации индивидуальных значений
лексических конструкций. Встает вопрос, где проходят границы между фреймами,
насколько различия в перспективе должны быть учтены — и на этот вопрос нет
четкого ответа.
Модус фрейма — это часть коммуникативной организации текста, а для нее
важен и порядок представления элементов (порядок слов), и их статус (полная
номинация, анафорическая отсылка к предшествующему контексту, опущение),
и способ оформления (как морфосинтаксический, так и интонационный) и мно-
гое другое. Если вернуться к лексическим конструкциям, то можно вспомнить
утверждение современной теории грамматики конструкций, что любое различие
во внешнем оформлении конструкции влечет различие в семантике, ср. такие близ-
кие примеры как рассказывать о даче и рассказывать про дачу. Получается, что
классификация фреймов не имеет дна.
Тут, однако, вступают в силу практические соображения. Во FrameNet, а вслед
за ним и во ФреймБанке фреймами нижнего уровня признаются обобщенные, ти-
повые конструкты, примерно соответствующие одному лексическому значению
слова в словаре. Можно указать следующие соглашения:
1. Если смена «перспективы наблюдения» и морфосинтаксического оформления
влечет за собой смену лексического якоря, т. е. предиката (ср. купить — про-
дать, уволиться — уволить, преступление — халатность и т. п.), то фреймы
считаются разными. В противном случае говорят о повышении / понижении
коммуникативного ранга участников внутри фрейма.
2. Каузативный и некаузативный фреймы в обязательном порядке признаются
разными, хотя и связанными фреймами. Однако пассивная и активная диа-
тезы, безличное, неопределенно-личное и обобщенно-личное употребление
и другие регулярные средства мены коммуникативного статуса участников
реализуют один фрейм.
3. Интерпретация функций (ролей) участников при отождествлении нескольких
описываемых ситуаций как представляющих один фрейм не имеет противо-
речий.
4. Один и тот же набор ключевых участников может представлять разные
фреймы. Различие происходит из интерпретация отношений между участ-
никами и интерпретации сценария фрейма, которые задаются предикатом
(предикатами).
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 119

Семантико-синтаксический интерфейс текста


Имея массив размеченных примеров, мы можем показать семантические и син-
таксические комбинаторные возможности предикатных слов. Лексические кон-
струкции задают ограничения на количество элементов в конструкции, морфологи-
ческий и синтаксический способ их выражения, лексические способы выражения
элементов, порядок слов, интонацию и т. д. Можно проследить, с помощью каких
лексических конструкций выражается значение фрейма, как способ выражения
участника зависит от способа выражения предикатного слова, насколько регуляр-
но выражается тот или иной элемент (например, элемент да в конструкции взял
да и V факультативен, ср. взял да и выпил, взял и выпил) и от каких факторов это
зависит. Интересно проследить плотность выражения участников в тексте: всегда
ли участники выражаются при предикате vs. упоминаются в более широком кон-
тексте, связаны ли предикат и участник синтаксически (возможно, например, они
связаны через слово-контролер, ср. разбойнички научились жарить), каков синтак-
сический ранг выражаемого элемента — высокий (например, Субъект или Объект)
или низкий (например, периферийная предложная группа), каков порядок упоми-
нания элементов в тексте и т. д. — т. е. интересно проанализировать все параметры
информационной (коммуникативной) структуры текста. С помощью размеченных
данных можно проанализировать дистрибуцию слов тех или иных лексических
групп, выражающих участников: с какими предикатами они встречаются чаще
всего, когда они более всего подвержены эллипсису и т. п. Наконец, ФреймБанк
представляет сведения о дистрибуции сирконстантов, т. е. обстоятельствах места,
времени и других относительно разных классов предикатов и конструкций.

Многозначность предикатных лексем и их конструкционный потенциал


Фрейму как семантической единице может соответствовать несколько преди-
катных лексем естественного языка. Вместе с тем многие предикатные лексемы
соотносятся с более чем одним фреймом, поскольку у них может быть более одно-
го значения, они могут иметь метафорические употребления, а также ранее упомя-
нутые фразеологически связанные употребления. ФреймБанк показывает, как сеть
значений предикатных слов накладывается на сеть фреймов.
Во-первых, фрейм ассоциируется с набором лексем, употребленных в опреде-
ленном лексическом значении. Во-вторых, он ассоциируется с набором лексиче-
ских конструкций каждой из этих лексем. Конструкции представляют то или иное
подмножество обозначаемых участников фрейма, с одной стороны, и формальный
способ их выражения — с другой.
Таким образом, ФреймБанк позволяет ответить на вопросы:
• Похожи ли конструкции разных предикатных слов, представляющих фрейм?
• Похожи ли конструкции предикатного слова, употребленного в разных значе-
ниях, т. е. конструкции, представляющие разные фреймы?
120 1.4. Интерфейс морфосинтаксиса и семантики

• Каким образом устроен механизм развития конструкционных возможностей


предикатной лексики?

ФреймБанк и FrameNet
FrameBank относится к семейству FrameNet-ориентированных ресурсов. Пер-
вая, наиболее известная и полная система FrameNet была создана для английского
языка, в дальнейшем появились версии версий FrameNet для японского, китай-
ского, бразильского португальского, шведского, испанского и немецкого языков
(см. https://framenet.icsi.berkeley.edu/fndrupal/framenets_in_other_languages), кото-
рые клонируют полностью или частично структуру и формат английской систе-
мы. Кроме того, к FrameNet-ориентированным ресурсам можно отнести современ-
ные корпусно-ориентированные словари валентностей, глагольные компоненты
WordNet-ов, а также корпуса с глубокой разметкой, отражающей аргументную
структуру, кореференцию, дискурсивные стратегии и мн. др. (ср., например, тек-
тограмматику в Prague Dependency Treebank, тестовые корпуса для машинного пе-
ревода с Compreno-разметкой ABBYY и др.).

Рис. 10. Фрагмент представления фрейма Fire_burning ‘гореть в огне’ в системе FrameNet
(определение, пример и ядерные фреймовые элементы)

Сам FrameNet строится вокруг сети фреймов — типовых ситуаций с извест-


ным набором участников и расписанными ролями. Различаются фреймы высокого
уровня (например, посессивного отношения, купли-продажи), промежуточного
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 121

уровня (например, купля-продажа в перспективе продавца vs. в перспективе поку-


пателя) и самого частного уровня (например, фрейм, кодируемый глаголом to shop
и существительным shopping). FrameNet связывает фреймы с набором предикатов,
которые могут обозначать эти ситуации, и с набором средств выражения участни-
ков в тексте. В традиции лексической семантики фрейм соответствует одному из
значений слова, а кодирование участников — конструкциям, строящимся вокруг
лексически фиксированного центра, например моделям управления глагола (или
группы глаголов).
Структурно FrameNet состоит из следующих разделов:
• Словарь фреймов — схематичное толкование ситуации, в которой представле-
ны ее участники, называемые по их роли (= фреймовые элементы), см. рис. 10.
Каждый фрейм снабжается иллюстративными примерами, а также списком
глаголов и других предикатных слов, ассоциированных с этим фреймом. На-
пример, к фрейму Fire_burning приписаны глаголы blaze, burn и rage, а также
существительные backfire, blaze, bonfire, fire, flames, hot spot, inferno и др.
• Граф фреймов — надстройка над словарем, в которой фреймы связаны по не-
скольким типам связей, см. рис. 11 и рис. 4 на с. 80.
• База лексических единиц, представляющих фреймы, — статистика способов
формального выражения участников фрейма, см. рис. 12 и 13.
• Аннотации — примеры, в которых размечены группы и клаузы, выражающие
участников, см. рис. 14.
• Конструкции малого синтаксиса типа the more… the better… и граммати-
ческие конструкции типа four dollars an hour выделены в отдельный блок
«Constructicon».
Помимо основной части, строящейся от фрейма к примерам, во FrameNet был
реализован проект сплошной аннотации текстов.
Frame-frame Relations:

Рис. 11. Связи фрейма Fire_burning с другими фреймами в графе фреймов


122 1.4. Интерфейс морфосинтаксиса и семантики

Рис. 12. Паттерны формальной реализации участников фрейма Fire_burning, глагол burn

Рис. 13. Поверхностные реализации валентных паттернов фрейма Fire_burning (фрагмент)


1.4.1. Аннотация лексических конструкций в системе ФреймБанк 123

Fire
[The first, a 8,000 hectare blaze near Blackheath], Fire[which] has been BURNINGTarget
Duration
[for nine days] broke containment lines at 11 PM AEDT on Monday.
Fire
[Wildfires in California] continued to spread on Tuesday , having BURNEDTarget
Fuel
[more than 140,000 acres of land] Place[throughout the state] and caused an
estimated US$13 million worth of damage.
Fire
[A second fire] has begun BURNINGTarget Place[on a 5 km ( 3 mile ) front, along the
Putty Road near Wiseman ‘s Ferry].
Fire
[The blaze] started BURNINGTarget last Wednesday north of Los Angeles.
Fire
[Fire] BURNSTarget Place[at Barangaroo construction site, Sydney, Australia]

Рис. 14. Разметка примеров, представляющих фрейм Fire_burning

Мы не стали идти по пути клонирования FrameNet, поскольку тогда мы были


бы связаны и с идеологическими, и с формальными ограничениями, накладывае-
мой этой системой. На наш взгляд, архитектура системы FrameNet идеологически
отстает от активно развивающейся теории грамматики конструкций. Кроме того,
эта архитектура не позволила бы отразить все особенности конструкций во флек-
тивных языках, к каковым относится и русский. Но что самое важное, система
клонирования FrameNet-ов строится на сомнительном принципе универсальности
фреймов во всех языках мира4. Нам представляется гораздо более ценным связать
фреймы во ФреймБанке с фреймами в системах FrameNet, VerbNet, WordNet и др.,
не обязательно во взаимно-однозначном соответствии, а не строить систему от
фреймов английского языка.
Во ФреймБанке основной единицей являются конструкции индивидуальных
лексем, а не обобщенные фреймы. Тем самым подчеркивается своеобразие кон-
струкций каждого глагола, уникальность всякой комбинации формы и значения
как конструкции. Принимаются во внимание индивидуальные особенности кон-
струкций у синонимов и даже диатетические вариации при одной лексеме. Как
результат, русский ФреймБанк ориентирован в большей мере на исследования лек-
сических конструкций в духе Грамматики Конструкций (Ч. Филлмор, А. Голдберг
и др.) и Московской семантической школы (Ю. Д. Апресян, Е. В. Падучева и др.),
нежели на теорию Frame Semantics (Fillmore 1977b; Hamm 2007), лежащую в ос-
нове системы FrameNet.
Отрицая идею универсальности набора фреймов в языках мира, FrameBank
ориентирован на анализ:

4
Этот принцип не раз высказывался создателями английского FrameNet Ч. Филлмором
и М. Петрук (персональная коммуникация); см. также (Fillmore, Atkins 2000; Burchardt et al.
2009; Ohara 2009; Subirats 2009 и др.). Х. Боас предлагает компромиссное решение, при
котором существует универсальный костяк и отдельные культурно-специфичные фреймы,
такие как англ. to date, sugar daddy, фин. saunoa ‘ходить в сауну’ (Boas 2011). Однако, как
показывает лексическая типология, даже самые ядерные фреймы, такие как думать, счи-
тать, знать; стоять, сидеть, лежать; кидать и бросать; резать и разбивать; видеть и
другие фреймы восприятия, не находят полного соответствия в языках мира.
124 1.4. Интерфейс морфосинтаксиса и семантики

• русской лексической системы, структуры лексико-семантических групп и по-


лисемии;
• парадигматических отношений между значениями многозначных слов — пре-
жде всего в том, как они отражаются в системе связанных с этими значениями
лексических конструкций;
• лексико-семантических ограничений на слоты конструкций;
• грамматических особенностей русского языка (порядок слов, падежи, согласо-
вание и т. п.).
ФреймБанк спроектирован с учетом традиций отечественной лексической се-
мантики и специфики русского языка, где информация о предложно-падежной
реализации управления предикатов и поверхностно-синтаксических свойствах
других конструкций имеет особую ценность. Эта компьютерная система должна
решать не только задачи словаря (ср. систему «Лексикограф», бумажные словари
(Апресян, Палл 1982; Сазонова 2008); лексикографические проекты (Азарова и др.
2004; Апресян 2008а; 2014) и др.), но и представлять аннотированный корпусный
материал. Этот ресурс реализует принципы гибридных систем, в которых автори-
тетные лексикографы видят будущее словарей (Atkins 1992; Kilgarriff et al. 2006):
словарь с выходом в корпус. С одной стороны, это словарь, но с возможностью
расширения иллюстраций за счет поиска в корпусе. С другой стороны, это корпус,
но с экспертным отбором примеров. Наконец, это лексически ориентированный
ресурс, где выборка примеров строится с ориентацией на конкретные лексемы, од-
нако в каждом предложении разметке подлежат все предикатные слова и связан-
ные с ними конструкции.

Словарь лексических конструкций


Шаблон конструкции
Словарь лексических конструкций представляет каждую конструкцию как ша-
блон, в котором указаны:
а) морфосинтаксические характеристики элементов конструкции;
б) синтаксический ранг участника;
в) экспликация (роль) участника;
г) лексико-семантические ограничения на заполнение слота конструкции;
д) статус участника: обязательный или факультативный;
е) буква, маркирующая участника в кратком паттерне вида Y-а занесло из Z в W.
Например, для глагола резать выделено около 30 шаблонов конструкций (обо-
значаемых для наглядности ярлыками-примерами), среди которых есть кластер
шаблонов Продавщица режет сыр, Она режет хлеб на тонкие куски, Василий
начал резать хлеб длинными ломтями, Портной режет ткань большими ножни-
цами, реализующих с помощью различных моделей управления значение глаго-
ла ‘разделять объект на части давлением острого инструмента’, кластер шаблонов
Старик резал четки из кипариса и Он резал деревянные ложки простым ножом,
соответствующих значению ‘изготавливать что-л. посредством резьбы’, а также
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 125

кластер В боку режет и У него в желудке резало, где глагол резать описывает
определенный тип болевого ощущения.

Рис. 15. Шаблон одной из конструкций глагола занести в значении перемещения

Морфосинтаксические признаки задаются сочетанием частеречных и грамма-


тических признаков, в основном в нотации НКРЯ, ср. Snom (имя существительное
в именительном падеже), SPROdat (местоимение-существительное в дательном
падеже), Ains (имя прилагательное в творительном падеже), ADV (наречие), Vinf
(глагол в инфинитиве), CL (клауза). Предложно-падежные группы задаются следу-
ющим образом: за + Sacc (предлог за, управляющий именем в винительном паде-
же), за + Sins (предлог за, управляющий именем в творительном падеже). Вслед за
(Апресян, Палл 1982) выделяются группы пространственных предлогов: PRгде +
Sx (местное значение, предлог отвечает на вопрос «где?»), PRкуда + Sx (направи-
тельное значение, предлог отвечает на вопрос «куда?»), PRоткуда + Sx (направи-
тельное значение, предлог отвечает на вопрос «откуда?»), PRтраект + Sx (значение
траектории, x везде обозначает падеж, который требует тот или иной предлог). По-
мета PR + Sx обозначает более общий вариант оформления предложной группы,
чаще всего со значением времени или способа, ср. в конструкции кончить работу
к вечеру, до десяти часов утра, в восемь часов, задолго до звонка, за пять минут
до конца урока и т. д. Варианты поверхностной реализации обобщенных предлож-
но-падежных групп представлены в табл. 24, в порядке убывания частотности (по
данным ФреймБанка). Возможные варианты оформления участников указываются
в фигурных скобках, ср. {ADV / PRкуда + Sx}, {Vinf / что + CL}.
В нотации предикатов могут быть указаны грамматические ограничения, накла-
дываемые данной конструкцией на форму предиката, ср. Vimpers (глагол в безлич-
ном употреблении), Vpass (глагол в пассиве5), Vpartcp.pass (глагол в форме пассив-
ного причастия), PRAEDIC (предикат), Abrev (краткое прилагательное) и т. п.

5
Указывается только для конструкций, в которых употребление предиката в активном
залоге невозможно.
126 1.4. Интерфейс морфосинтаксиса и семантики

В целом такой способ представления поверхностно-синтаксического участ-


ников отражает традиции грамматики зависимостей (ср. практику ТКС; Апресян,
Палл 1982; системы «Лексикограф» и др.), однако оформление участников может
обозначаться и в нотации, принятой в грамматике составляющих. В последнем
случае частеречные пометы заменяются на NP (именная группа), VP (глагольная
группа), PP (предложная группа), ADVP (наречная группа) и др.; помета CL (клау-
за) остается без изменений.
Таблица 24
Варианты поверхностной реализации обобщенных предложных групп
по данным разметки примеров во ФреймБанке
Группа предлогов Варианты поверхностной реализации предложных групп
в + Sloc, на + Sloc, за + Sins, у + Sgen, над + Sins, по + Sdat, под +
Sins, среди + Sgen, между + Sins, перед + Sins, вокруг + Sgen, возле
PRгде + Sx
+ Sgen, около + Sgen, подле + Sgen, меж + Sgen, внутри + Sgen, кру-
гом + Sgen, вне + Sgen, при + Sloc
в + Sacc, на + Sacc, к + Sdat, под + Sacc, за + Sacc, навстречу + Sdat,
PRкуда + Sx до + Sgen, за + Sins, кругом + Sgen, на + уровень + Sacc, наперерез +
Sdat, внутрь + Sgen
PRоткуда + Sx из + Sgen, с + Sgen, от + Sgen, из-за + Sgen, из-под + Sgen
по + Sdat, через + Sacc, в + Sacc, между + Sins, под + Sins, за + Sins,
PRтраект + Sx
вокруг + Sgen, мимо + Sgen, сквозь + Sacc
в + Sloc, на + Sacc, по + Sdat, в + Sacc, до + Sgen, c + Sins, без +
PR + Sx Sgen, прежде + Sgen, для + Sgen, после + Sgen, вокруг + Sgen, с +
Sgen по + Sacc, при + Sloc

Экспликация — это адаптация понятия «семантическая роль» к разным типам


предикатов. Как показал опыт развития FrameNet, традиционный список семан-
тических ролей неизбежно разрастается при расширении круга размеченных
глаголов и увеличении тематического разнообразия описываемых ими ситуаций,
а применительно к именам существительным и прилагательным инвентарь ролей
вообще не разработан. В силу этих обстоятельств было принято соглашение, что
в поле «Экспликация» может быть указана семантическая роль или стоять иное
пояснение, помогающее отождествить участника, например в модели управления
имени слуга (ср. слуга Петра) участник Петр может быть обозначен как «хозяин»
или «тот, кому служат»6. Инвентарь ролей мы обсуждаем ниже, см. раздел «Семан-
тические роли в системе ФреймБанк».
В поле синтаксического ранга участника содержатся пометы Предикат, Субъ-
ект, Объект (для прямого объекта), Периферия (все прочие падежные, предложные,

6
Технологически это устроено так, что аннотатор, вводящий в словарь новую конструк-
цию, может поставить любую помету, а затем редактор унифицирует пометы согласно ба-
зовому списку ролей.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 127

инфинитивные, наречные и т. п. группы), Клауза (для клауз с союзным и бессо-


юзным присоединением), Отрицание (для конструкций с обязательно встроенным
отрицанием) и др. Для атрибутивных конструкций введены пометы Атрибут (для
предиката) и Контролер согласования (ср. верный друг).
Лексические и лексико-семантические ограничения на заполнение слотов кон-
струкции записываются по возможности в стандарте тегов семантической размет-
ки НКРЯ, ср. inan / неодушевленный, abstr / абстрактный, hum / лицо, org / органи-
зация, food / пища, famn / фамилия, persn / имя и т. п., см. рис. 16. В случае жестких
лексических ограничений здесь может быть перечислен список конкретных лек-
сем русского языка, допустимых в данной конструкции (ср. конструкцию типа ба-
тюшка служит молебен, в которой объектная валентность может быть заполнена
именами служба, молебен, панихида, обедня).

Рис. 16. Глагол служить, конструкция Дядя служил в министерстве юстиции

По традиции представления моделей управления в русской лексикологии и лек-


сикографии, каждый участник имеет буквенное «имя» типа X, Y, Z. Лексические
константы обозначаются прочерком. Так же как и в системе «Лексикограф», во
ФреймБанке буквы могут использоваться для отождествления участников в кон-
струкциях одного фрейма, в конструкциях разных фреймов и в конструкциях раз-
ных глаголов.
Если участник факультативен, то его буквенное имя ставится в квадратные
скобки: [Z], [R], [-] и т. п. В целях более точного описания русских конструкций
в словаре мы по возможности «распарили» конструкции с факультативными
участниками: теперь они представляются как две и более связанных конструкции
с обязательным набором участников. Факультативные участники оставлены лишь
в зоне лексических констант, прежде всего это факультативные союзы, частицы
и т. п.
В пределах словарной статьи одного глагола или другого предиката все лекси-
ческие конструкции получают свое условное название (например, «служить в ми-
нистерстве», «служить царю» и т. д.) и связаны между собой отношениями «син-
таксической деривации» (Падучева 2004а).
128 1.4. Интерфейс морфосинтаксиса и семантики

Способ представления моделей управления и других лексических конструкций


в словаре заимствован в основных чертах из системы «Лексикограф» (Падучева
2004а). Пилотная версия глагольной части словаря (инвентарь моделей управления
и их характеристики) базировалась на словаре «Русский глагол — Венгерский гла-
гол» (Апресян, Палл 1982), в котором собрана информация о более чем 1300 глаго-
лах. В дальнейшем список конструкций редактировался, сокращался и расширялся
с учетом информации из других источников («Лексикограф», толковые словари,
ТКС, НОСС, синтаксический корпус НКРЯ, RussNet, материалы проекта дизам-
бигуации глагольных значений (Кустова, Толдова 2009) и др.), но прежде всего за
счет новых эмпирических данных из НКРЯ. По мере обработки примеров будут
формироваться словарные входы имен существительных и других частей речи.
Источниками конструкций малого синтаксиса в словаре являются (МАС 1999;
Грамматика 1980; Шведова 1960; Золотова 1986); лингвистические описания от-
дельных конструкций, а главное, конструкции, обнаруженные при разметке пред-
ложений.

Состав конструкций
В идеале конструкции в словаре должны покрывать паттерны всех слов в кор-
пусе, имеющих конструкционный потенциал. Рассмотрим для примера начало ро-
мана М. А. Булгакова:
(23) Однажды весною, в час небывало жаркого заката, в Москве, на Патри-
арших прудах, появились два гражданина. Первый из них, одетый в летнюю
серенькую пару, был маленького роста, упитан, лыс, свою приличную шляпу
пирожком нес в руке, а на хорошо выбритом лице его помещались сверхъесте-
ственных размеров очки в черной роговой оправе. Второй — плечистый, рыже-
ватый, вихрастый молодой человек в заломленной на затылок клетчатой кеп-
ке — был в ковбойке, жеваных белых брюках и в черных тапочках.

Первое предложение включает следующие базовые конструкции:


глагольная:
[два гражданина]Тема появились [в Москве, на Патриарших прудах]Место;

адъективная:
жаркий [закат]Носитель признака;

наречная:
небывало [жаркий]Признак;

именная:
закат (подчиненное имя не выражено, ср. закат солнца)
[Патриарший] пруд (конструкция наименования географического объекта);
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 129

конструкция с числительным:
два [гражданина];

сирконстантные конструкции (frame-setting constructions):


[однажды] P
[весною, в час небывало жаркого заката] P.

Второе предложение включает конструкции:


глагольные:
[Первый из них] одет [в летнюю серенькую пару]
[Первый из них] нес [свою приличную шляпу пирожком] [в руке]
[на... лице] помещались [очки...];

адъективные:
[Первый...] упитан
[Первый...] лыс
приличная [шляпа]
черная [оправа], серенькая [пара]
роговая [оправа]
сверхъестественный [размер]
выбритый [лицо]
свой [шляпа]
его [лицо];

наречная:
хорошо [выбритый]Признак;

именные:
[Первый...] [маленького] роста
[очки] [сверхъестественных] размеров
[шляпа] пирожком
очки [в… оправе]
лицо [его];

конструкция с числительным:
первый [из них].

Не перечисляя всех конструкций в третьем предложении, отметим интере-


сные конструкции «одежды», такие как человек в кепке и второй был в ковбойке
(со вспомогательным предикатом).
130 1.4. Интерфейс морфосинтаксиса и семантики

Все указанные конструкции включаются в словарь системы как лексические


конструкции, т. е. они привязаны к индивидуальным лексемам. В некоторых слу-
чаях единственной лексической константой в них будет предлог, ср. человек в кепке,
первый из граждан7. Вследствие принципа вложенности конструкций, несколько
лексических конструкций могут образовывать конструкцию более абстрактного
уровня, ср. параметрическую конструкцию типа человек высокого роста, дви-
жения небольшой амплитуды, инструментальную конструкцию формы шляпа
пирожком, нос уточкой, конструкцию заполнения типа заполнить шкаф книга-
ми, залить сад электричеством. О представлении таких конструкций речь пойдет
в следующем разделе.
Кроме того, для объяснения поведения лексических конструкций и их взаимо-
действия в тексте мы должны включить в словарь и другие грамматические кон-
струкции, не привязанные к конкретным лексемам, например конструкцию аппо-
зитивного прилагательного или причастия, конструкцию соположения атрибутов
типа A A A… S, дитранзитивную конструкцию (ср. испекла Пете пирог), а также
более общие синтаксические конструкции, такие как атрибутивная конструкция
с полным прилагательным и предикативная конструкция с кратким прилагатель-
ным; активная и пассивная глагольные конструкции, безличная, неопределенно-
личная, обобщенно-личная императивная; сочинение и подчинение, перестановки
порядка слов, конструкции повтора, компаративная (гиены трусливее зайцев), ге-
нитив при отрицании и т. д.
Словник словаря имеет две версии: целевой (все единицы, для которых целе-
направленно собирались данные) и полный (все предикаты, которые встретились
в предложениях). Словарь также делится на частеречные разделы: глаголы, аб-
страктные и предметные имена, прилагательные, наречия и проч.

Глагольные и неглагольные лексические конструкции


На рис. 15 и 16 были представлены лексические конструкции глагольного
управления. Здесь мы представим некоторые особенности синтаксических фразем
и конструкций имен, наречий.
Конструкции глагольных фразем, как правило, включают другие лексические
константы, помимо глагольного предиката, ср. шаблоны:

Snom знать свое + место


Snom знать Sacc как свои + пять + пальцев
так и знай, CL
то и знай, CL
CL {надо / пора} и честь знать

7
Конструкции с числительными задаются для всего частеречного класса или разряда,
т. к. предполагается, что индивидуальные лексемы не вносят особого вклада в свойства
конструкции, ср. NUMpauc + Sgen.sg (два, три, четыре гражданина).
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 131

бог знает {кто / что / какой / ADVPRO}


{бог / кто} {его / ее} знает Rel + CL.

На рис. 17 представлен шаблон идиомы типа знай себе играет, которая состоит
из 6 элементов (два элемента — союз и дативное себе — факультативные). Клау-
за, представляющая фоновую ситуацию, может быть выражена в преконтексте, за
пределами предложения, содержащего элемент знай (ср. (24)). Элементы Агенс и
Содержание действия, как и себе, синтаксически не подчинены предикату знать;
их ранг — Несобственный. Вместе с тем Агенс является синтаксическим субъек-
том участника в индикативе Содержание действия; это вложенная предикация, на
которую фразема, однако, накладывает определенные ограничения порядка слов.
Возможности диатетических преобразований вложенной предикации (пассив, им-
ператив и т. п.) также ограничены. Фразема накладывает ограничение и на форму
глагола знать — только форма императива 2 л. ед. ч. Вся эта информация сохра-
няется в словаре.

Рис. 17. Представление конструкции А он знай себе играет на гармошке


в словаре лексических конструкций

(24) Ну а Пермяков с Пашутиным — ангелы небесные. Никого они не могли насило-


вать. Знай работали себе на местном предприятии — из тех, что еще не закры-
лись.

У целого класса глаголов лексические конструкции включают, помимо собст-


венно аргументно-предикатных структур (моделей управления) и фразем, кон-
струкции, в которых эти глаголы выступают в роли лексических функций (Mel’čuk
132 1.4. Интерфейс морфосинтаксиса и семантики

2004; Апресян 2003а; 2008б; Апресян и др. 2010). Шаблон ЛФ-конструкций, как
правило, строится по образцу моделей управления, ср.
Snom оказать Sacc (оказать влияние),

но конструкции представлены в словаре как сами по себе, так и в составе комби-


нантных конструкций с предикатными именами (об этом ниже в этом разделе).
Если описание конструкций глаголов поддержано мощной традицией, как
в плане теоретической проработки, так и в смысле достаточно полных словар-
ных ресурсов, то этого нельзя сказать про конструкции имен. Хотя при разработке
структуры субстантивного шаблона мы опирались на разработки словарей (ТКС;
НОСС; Апресян 2014; Iordanskaja, Paperno 1996), базы имен системы «Лексико-
граф» (Красильщик, Рахилина 1992), мы не располагали готовым ресурсом, ко-
торый можно было бы использовать в качестве ядра субстантивной части сло-
варя лексических конструкций. Словарь имен строится по принципу bottom-up,
т. е. конструкции заносятся в словарь по мере их аннотирования в тексте. Как
результат, фактор типичных, часто встречаемых в корпусе паттернов, безусловно,
влиял на некоторые наши решения.
Словарь ФреймБанка включает конструкции трех типов:
• конструкции реляционных имен (ср. муж Маши, край стола, командир подлод-
ки, аналог НХЛ);
• конструкции собственно предикатных слов (включая девербативы типа прием,
вывод, заключение, деадъективы типа красота, горечь и собственно именные
предикаты типа мир (русской деревни), путь (к совершенству), (народовольче-
ский) террор);
• частотные шаблоны предметных слов, например названия организаций типа
Донская дивизия и других именованных сущностей (Лукашевич 2011; Брыкина
и др. 2013 и проч.).
Образец конструкции реляционного имени представлен на рис. 18. Конструк-
ция «Корпус Дохтурова» представляет фрейм с участниками Элемент (военнослу-
жащие, которые служат в корпусе; вооружение, которое имеется в корпусе), Агенс
(командующий корпусом), Цель (какие задачи выполняет корпус). Уточним, что
поскольку корпус в этом значении не является предикатным словом, роли опре-
деляются относительно встроенных функциональных предикатов (Рахилина
2000/2010), т. е. Агенс командует корпусом, Элемент несет военную службу в кор-
пусе и т. п.
Помимо данной генитивной конструкции, у имени корпус в этом фрейме
представлены лексические конструкции корпус под командованием Тухачевско-
го (с предложным управлением), корпус добровольцев (еще одна генитивная, но
с другим участником), танковый корпус, экспедиционный корпус (атрибутивные,
с разными участниками) и др., а также их комбинации, ср. конный корпус Гая.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 133

Рис. 18. Конструкция Корпус Дохтурова в словаре лексических конструкций

У собственно предикатных имен типа вывод, красота, путь мы отмечаем в сло-


варе их управление (и другие типы синтаксической связи: атрибутивный, примы-
кание и т. д.). Но, помимо этого, нельзя оставить незамеченным их употребление
с так называемыми light verbs или лексическими функциями типа прийти к выводу,
сделать вывод, напрашивается вывод и т. п., см. табл. 25; см. также (Иомдин, Иом-
дин 2014) о других конструкциях «малого синтаксиса» типа Вам нет нужды ис-
кать правду. Во-первых, известна лексическая избирательность как лексических
функций, подчиняющих предикатное имя, так и самих предикатных имен в отно-
шении подчиняющих их элементов. Во-вторых, с точки зрения синтаксической
структуры (и разных подходов к ее построению) не всегда можно дать однознач-
ный ответ, какому узлу, ЛФ-глаголу или целевому предикатному имени подчиняет-
ся актант во фразах типа оказать влияние на начинающего поэта. В-третьих, и это,
пожалуй, самое важное, оформление участников в ЛФ-конструкции может отли-
чаться от управления предикатного имени per se и от управления ЛФ-глагола. На-
пример, имя заслон управляет дативом только в конструкции (по)ставить заслон
пьянству8. Кроме того, даже если способы оформления актантов у имени в неза-
висимой позиции и в ЛФ-конструкции совпадают, выбор того или иного способа
оформления зависит от выбора лексической функции (количественная тенденция,
например глагол напрашиваться скорее связан с бессоюзным присоединением
клаузы, ср. напрашивается вывод: CL, глагол прийти (к) скорее связан с союзным
присоединением клаузы, ср. прийти к выводу, что CL, а при глаголе делать участ-
ник Содержание мысли скорее не выражен).

8
Об этой конструкции см. ниже, с. 170, а также (Антошина, Ляшевская 2010).
134 1.4. Интерфейс морфосинтаксиса и семантики

Таблица 25
Наиболее частотные элементы синтаксической структуры,
подчиняющие предикатное имя вывод9
сделать (вывод) 28 %
прийти (к выводу) 19 %
делать (вывод) 12 %
напрашиваться (вывод) 6%
приходить (к выводу) 4%
отсюда (вывод) 2%
правило (вывода) 1%
подтвердить (вывод) 1%
делать (вывод каким-л.) 1%
торопиться (с выводами) <1%

Рис. 19. Конструкция вывод Sgen о + Sloc в словаре лексических конструкций

Рис. 20. Конструкция прийти к выводу, что CL в словаре лексических конструкций

9
По данным случайной выборки из НКРЯ, 150 примеров.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 135

Пример разметки двух конструкций с именем вывод (в значении результата мен-


тальной деятельности) приведен на рис. 19 и 20. ЛФ-контролер получает синтакси-
ческий ранг Предикат-ЛФ (ср. прийти, сделать, напрашиваться и т. п.) или Пред-
лог-ЛФ (ср. согласно выводам Sgen, CL). Предполагается, что Субъект подчиняется
именно этому участнику. Целевое предикатное имя помечается как Объект (Преди-
кат), Субъект (Предикат), Периферия (Предикат): отсылка к Предикату в скобках
является условным способом обозначить целевое слово (семантически предикат).
Конструкции прилагательных включают, в стандартном случае, их употребле-
ние в атрибутивной позиции (в полной форме) и в предикативной позиции (в крат-
кой и полной форме), а также употребление с различными связками10 (например,
в депиктивной конструкции, ср. вечер оказался испорчен / испорченным, он при-
шел расстроенный). Помимо прилагательного, элементами конструкции является
именной элемент — Контролер согласования (в атрибутивной конструкции) или
Субъект (в предикативной конструкции), а также другие элементы, находящиеся
под синтаксическим управлением (если есть). Примеры двух конструкций с при-
лагательным вынужденный приведены на рис. 21 и 22.

Рис. 21. Предикативная конструкция Я вынужден признать поражение


в словаре лексических конструкций

Рис. 22. Атрибутивная конструкция вынужденное молчание


в словаре лексических конструкций

10
Следует уточнить, что конструкции со связкой быть с именами существительными,
прилагательными, предикативами в словаре отдельно не выделяются.
136 1.4. Интерфейс морфосинтаксиса и семантики

Общая информация о лексической конструкции


Помимо шаблона элементов, в словаре конструкций отражена следующая
общая информация о конструкции:
• метка конструкции;
• имя конструкции;
• пример;
• признаки;
• синопсис;
• комментарий;
• служебная информация о статусе разметки конструкции в системе.
Метка конструкции представляет собой, как правило, лексему с индексом, на-
пример волноваться 2.2 (первая цифра — порядковый номер значения, в основ-
ном соответствует нумерации в словаре (МАС 1999), вторая цифра — порядковый
номер лексической конструкции).
Имя конструкции — типичный пример, отражающий самые яркие особенности
оформления конструкции и тип участников, ср. Она волновалась из-за того, что
от дочери долго не было известий и Мать волновалась за сына.
Поле признаков содержит сведения о парном по виду глаголе для данного зна-
чения (например, СВ взять, СВ написать, НВ оценивать, СВ нет, а также инфор-
мацию об ограничениях на оформление лексических констант).
Синопсис содержит пояснения о структуре значений, например 1. ‘испытывать
эмоцию’ или 2. ‘находиться в колебательном движении’ для глагола волноваться.
Словарь лексических конструкций снабжен указателем целевых лексем (лек-
сических констант), а надстройкой над ним являются граф семантических ролей
(см. с. 156) и граф конструкций и фреймов (frame grapher), связывающие конструк-
ции по семантической и формальной близости (см. с. 157).

Аннотированный корпус примеров: реализации конструкций

Информация о реализации участников


Информация о моделях управления и других частях содержится в двух частях
системы: в словаре (шаблоны лексических конструкций) и при конкретных лекси-
ческих элементах в предложении (реализация конструкции в тексте, далее кратко
«реализация»).
В корпусной части ресурса FrameBank представлено приблизительно по
100 примеров из НКРЯ (в дальнейшем количество примеров планируется рас-
ширить) на каждое слово. При примере сохраняется вся информация из корпу-
са: метатекстовая, лексико-грамматическая, лексико-семантическая. Разметчик
должен соотнести пример с нужным шаблоном и его контекстным вариантом
(при деепричастии, пассивном причастии и т. п.), определить группы, соответ-
ствующие элементам конструкции (а также их синтаксические и семантические
вершины), несовпадения в морфосинтаксическом оформлении и ограничениях
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 137

на лексико-семантическую сочетаемость. Отдельно размечаются сирконстанты


и модальные слова, которых шаблон, естественно, не охватывает (см. рис. 25 на
с. 139). Если нужный шаблон в системе отсутствует, разметчик пополняет сло-
варь конструкций.
В общих чертах структура таблицы, в которой размечается реализация кон-
струкции в тексте, сходна с шаблоном лексической конструкции в словаре, но
имеет дополнительную часть. Как и в словаре, в шаблоне реализации перечисля-
ются элементы конструкции, как постоянные, так и переменные, и указаны их
лексические, грамматические и семантические ограничения. Дополнительными
полями в шаблоне конструкции являются:
• заполнение группы;
• заполнение семантической вершины группы;
• тип реализации.
В поле «Заполнение вершины» и «Заполнение группы» заносятся сегменты
размечаемого предложения, соответствующие элементам конструкции. Семан-
тическая вершина размечается для того, чтобы проследить вариации заполнения
элементов с точки зрения лексико-семантических классов (как работают семанти-
ческие ограничения). В простом случае семантическая вершина группы совпадает
с ее синтаксической вершиной (ср. маки в красные маки, волновался в очень вол-
новался). В случае квантификации размечается элемент, подчиненный «прозрач-
ному» оператору, ср., например, две чашки молока (семантическая вершина: моло-
ко), по две капли (в поле «Заполнение вершины» записывается разрывная группа:
по / капли). Помимо словесных цепочек, в системе сохраняется информация о ко-
ординатах групп и вершин в предложении, которую затем можно использовать для
вычисления порядка слов и расстояний между словами.
Информация в полях «Вершина», «Группа», «Экспликация», «Ранг», «Лексико-
семантические ограничения» исходно берется из шаблона лексической конструк-
ции в словаре. Далее в этих полях фиксируется информация о всех отклонения от
стандартной реализации по морфологическому, синтаксическому, семантическому
и лексическому оформлению.
В поле «Реализация» (в первой строке над полями «Заполнение вершины» и
«Заполнение группы») отмечаются стандартный и нестандартные типы реализа-
ции конструкции (сочинение, контроль, отрицание, императив, пассив, дееприча-
стие и др., см. с. 141).
Кроме основных элементов лексической конструкции, размечаются элементы,
отсутствующие в словаре конструкции:
• сирконстанты (периферийные элементы фрейма);
• модальные слова (отрицание и другие частицы)11;
• синтаксические контролеры управления (глаголы или другие предикаты,
управляющие целевым словом, через которые идет синтаксическая связь

11
Модальные глаголы и предикативы размечаются как синтаксические контролеры.
138 1.4. Интерфейс морфосинтаксиса и семантики

между целевым словом и Несобственным участником, ср. Папа хотел купить;


о C-командовании см. Тестелец 2001: 120 и сл.).
Заметим, что база сирконстантных (неядерных) участников, выраженных при
предикатно-аргументных конструкциях глаголов, является очень интересным при-
ложением к ФреймБанку. Постоянно пополняемая в процессе разметки реализа-
ции конструкций в предложении, база позволяет судить о том, как часто участник
с той или иной ролью выражается с некоторым классом лексических конструкций
или с некоторым тематическим классом глагола. Эта база дает богатый материал
для проверки гипотезы о так называемом «свободном» присоединении сиркон-
стантных участников, а точнее, показывает, что дистрибуция этих участников да-
леко не свободна.

Ранг Морфосинтаксис Экспликация Сем. класс


свести Предикат Vimpers
часть субъекта
Y Объект Sacc физиологического часть тела
состояния
X Периферия от + Sgen причина абстрактный
Рис. 23. Паттерн конструкции Пальцы свело от холода
в словаре лексических конструкций

Морфо- Причина Выражение


Ранг Экспликация Сем. класс
синтаксис альтернации элемента
X Субъект Snom причина абстрактный
конструкция
Периферия Sins = = с пассивным простудой
причастием
свести Предикат V
V.partcp.
Предикат-
pass.full. сведенные
Атрибут
acc
Часть субъ-
екта физио-
Y Объект Sacc часть тела
логического
состояния
Контролер конструкция
согласова- Sacc = = с пассивным пальцы
ния причастием
Рис. 24. Аннотация конструкции Судорога свела пальцы в примере …она подсела к печи,
сведенныеV простудойX пальцыY засовывала в самый огонь — грела.
Для каждого элемента конструкции первая строка отражает информацию из словаря, вторая —
аннотацию в примере
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 139

Рис. 25. Разметка реализации конструкции в примере И тут же Василия Степановича


арестовали с учетом сирконстантного элемента (вид в системе онлайн-разметки)

Каждый пример содержит мета-текстовую разметку (заполняется автомати-


чески по данным НКРЯ): автор, его пол и год рождения, время создания текста,
функционально-жанровая принадлежность. Размечаются характеристики предло-
жения: длина, место в тексте (начало, середина, конец), пунктуационные знаки,
а также его синтаксическая и лексическая сложность:
• простое предложение;
• сложносочиненное предложение;
• сложноподчиненное предложение;
• другое12.
Назначение такой разметки — помочь пользователю в отборе примеров,
в частности, по критериям времени создания, тематики и языковой сложности
(readability).
(25) Более 70 процентов участников рынка будут вынуждены искать средства для
увеличения означенной суммы [Стань сильней или умри (2002) // «Финансовая
Россия», 2002.09.19].
ссылка: Стань сильней или умри (2002) // «Финансовая Россия», 2002.09.19
автор: —
пол: —
год рождения: —
время создания текста: 2002
функциональная сфера: публицистика

12
Эта достаточно примитивная иерархия может быть использована преподавателями
русского языка и разработчиками компьютерных систем и компонентов. Категория «дру-
гое» включает предложения с причастными и деепричастными оборотами, с прямой речью,
с сочетанием разных типов сочинения и подчинения и т. п.
140 1.4. Интерфейс морфосинтаксиса и семантики

тема текста: бизнес, коммерция, экономика, финансы


тип текста: статья
длина предложения (слов): 13
длина предложения (символов): 101
место предложения в тексте: середина
пунктуационные знаки: нет
сложность предложения: простое предложение
слов с частотным рангом 1—500: 6
слов с частотным рангом 501—2500: 5
слов с частотным рангом 2501—10000: 1
слов с частотным рангом 10001—50000: 1
слов с частотным рангом 50001+: 0

Рис. 26. Метатекстовая информация и информации о предложении

(26) Он служил в конном корпусе Гая [Анатолий Рыбаков. Тяжелый песок


(1975—1977)].
лемма: корпус Словари НКРЯ
слово: корпусе
прописные: нет
ударение: 2
часть речи: S
грамматика: inan,m,sg
семантика: org
модель управления конструкции
tid2485; sid000387; lid005

Рис. 27. Паспорт слова корпус

Каждое слово в предложении также получает свой паспорт (см. рис. 27): поля
паспорта заполняются в том числе с использованием данных лексико-грамматиче-
ской и лексико-синтаксической разметки НКРЯ, а также Грамматического словаря
(Зализняк 1977/2003). В дальнейшем эта информация может пополняться и редак-
тироваться. Предусмотрена возможность посмотреть информацию о слове в сло-
варях МАС и Ожегова-Шведовой (интернет-версии), а также получить справку
об употреблении слова в НКРЯ (основной и синтаксический корпус).

Типичная реализация элементов


В словаре представлены лишь так называемые «базовые» конструкции. Все
варианты поверхностной реализации, которые можно предсказать по правилам
русской грамматики, привязываются к соответствующим базовым конструкциям,
а примеру приписывается информация о варианте нестандартной реализации. Пе-
речислим случаи, в которых элемент либо выражен нестандартно, либо вообще
не выражен в пределах предложения: участник выражен другой частью речи, но
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 141

в той же грамматической форме; нестандартная форма (падеж, предлог) участника,


не связанная с грамматическими конструкциями, перечисленными ниже; измене-
ние лексико-семантического класса; сочинение (участники синтаксически зависят
от предиката, сочиненного с данным); генитив субъекта или объекта при отрица-
нии; пассив; причастие в атрибутивной (полной) форме; контроль субъекта или
объекта другим деепричастием; инфинитивом; сам, один, весь и оба при дееприча-
стии, инфинитиве, причастии в случае контроля; дативный субъект при инфини-
тиве; императив; другие случаи несобственных участников; субстантивированное
употребление причастий: предикат обозначает самого участника.
1. Простая частеречная замена, ср. Им дают разные задачи, но они решают
только простые (эллипсис; элемент выражен не существительным, а прилагатель-
ным; ср. также замену существительного на местоимение-существительное и ре-
лятивизатор который).
2. Изменение формы (падежа, предлога), не связанное с грамматической кон-
струкцией: участник оформлен нестандартным падежом или предложной группой,
не представленной в словаре (например, в случае замены группы NPgen на NPacc,
ср. то, что так алкало его воображение; квантификации группы, ср. Пришло
около тысячи человек; Стадион вмещает до пяти тысяч зрителей и т. п.).
3. Изменение лексико-семантического класса участника. Например, в реализа-
ции участник обозначает «животное», а в словаре указано лексико-семантическое
ограничение «лицо».
4. Сочинение. Элемент является Субъектом (или Объектом) другого глагола,
который связан с данным отношением сочинения, ср. Иван кричал и волновался13.
5. Генитив субъекта или объекта при отрицании. Участник, который в стандарт-
ном случае был бы синтаксическим Субъектом или Объектом, выражен родитель-
ным падежом из-за отрицания при глаголе (ср. фонарей не горело, не знал слов).
То же для пассива (ср. Ни одной суетной человеческой эмоции не допущено в эту
храмовую постройку).
6. Пассив: творительный субъекта. Участник, который в стандартном случае
был бы Субъектом, выражен творительным падежом в пассивной конструкции
(предикат — краткое страдательное причастие, полное страдательное причастие
или форма на -ся, ср. Чьи права затронуты постановлением суда; жюри, воз-
главляемое Сергеем Шуваловым; Метеориты бомбардируются космическими
лучами).
7. Пассив: именительный объекта. Участник, который в стандартном случае
был бы Объектом, выражен именительным падежом в пассивной конструкции
(предикат — краткое страдательное причастие или форма на -ся, ср. чьи права
затронуты постановлением суда, Метеориты бомбардируются космическими

13
Тег «сочинение» ставится на второй, третий и т. п. предикат в сочиненной группе,
так как именно они являются несобственными в синтаксическом представлении НКРЯ
(СинТагРус).
142 1.4. Интерфейс морфосинтаксиса и семантики

лучами). О разметке сложных форм пассива (был обнаружен, может быть обна-
ружен) см. п. 13 ниже.
8. Полное пассивное причастие: семантический Объект является контролером
согласования (ср. у Ивана, исключенного из комсомола; жюри, возглавляемое Сер-
геем Шуваловым).
9. Полное активное причастие: семантический Субъект является контролером
согласования (ср. у Ивана, волновавшегося за меня).
Если предикат стоит между другими элементами группы субъекта (что впол-
не вероятно, т. к. он синтаксически входит в группу и зависит от ее вершины),
ср. этой огромной алчущей волной, то поле «Заполнение группы» размечается как
разрывная группа: этой огромной / волной. Зависимые от целевого предиката за-
полняются в своих строках.
10. Несобственный семантический Субъект при деепричастии (ср. Иван, волну-
ясь за меня).
11. Если контролирующий предикат стоит в причастной форме и субстантиви-
руется, т. е. обозначает Субъекта (ср. Приходящий ко Мне алкать), то ставится
комментарий «контроль: субстантивация».
12. Если предикат стоит в форме сложного будущего времени с глаголом-связ-
кой быть, ср. Но мы не будем их ограничивать, то этот случай размечается не как
контроль, а как стандартная реализация (в поле «Заполнение вершины» предиката
заносится «будем ограничивать»). Остальные связки со значением будущего (ста-
нет, начнет) трактуются как контроль.
13. Аналогично (добавлением в поле «Заполнение вершины») размечается гла-
гол-связка быть в сложном пассиве, при предикатах-прилагательных и предикати-
вах и некоторых других аналитических формах (ср. был объявлен, будет начата,
(может) быть начата; был замечательный, будет веселее; было холодно; был
выпивши). Примеры разметки модальных конструкций: Может быть понята —
может добавляется в поле «Модальные слова», быть понята — в поле «Запол-
нение вершины» (контролирующий предикат может управляет инфинитивной
группой); Любоваться было нечем — было нечем добавляется в поле «Модальные
слова», любоваться — в поле «Заполнение вершины» (контролирующий предка-
тив нечем управляет инфинитивом и имеет форму сложного прошедшего с глаго-
лом-связкой быть).
14. Сам, один, весь и оба при деепричастии, инфинитиве, причастии (контроль).
Если в ситуации контроля есть плавающие определители сам, один, весь и оба, ко-
торые отрываются от своей группы и выражаются как стандартный Субъект (в им.
падеже) при целевом субъекте в форме деепричастия, инфинитива, причастия,
ср. Он всё видел и всё слышал, сам оставаясь незаметным; Я не дурак, чтобы сам
себя губить за собственные деньги; Бакунин решил сам переломить свою участь.
Если те же определители сам, один, весь и оба стоят в форме датива, ср. Он говорил,
что нельзя ничего узнать, самому не попробовав, то реализация — «деепричаст-
ный датив» или «инфинитивный датив».
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 143

15. Дативный субъект при инфинитиве. В дативной конструкции семантиче-


ский субъект выражается дательным падежом как при контроле предикатива или
другого дативного предиката, так и без него, ср. Нечего вам гулять по ночам; Где
ему за мной угнаться; Мне выйти?; Мне и встать перед ним на колени!
16. Императив: несобственный и стандартный семантический субъект. Субъ-
ект при императиве может быть выражен как обращение, ср. Витя, иди сюда.
Если Субъект при императиве выражен стандартно (NPnom), ср. И ты приходи;
Сам купи!; А тот поезжай в Германию и живи там еще 20 лет, в т. ч. если обра-
щение стоит при стандартном Субъекте, ср.: А ты, Маша, не бойся!, реализация
признается стандартной. Если Субъект при императиве опущен, но называется
в контексте он размечается как несобственный участник.

Другие случаи несобственных участников


1. Участник не выражен зависимым при целевом предикате, но тем не менее
упомянут в других частях предложения, ср. А был бы кто пошустрей — подо-
брал бы кошелек; Нищие духом — не потому, что не имеют его, а потому, что
страждут и алчут. Это свойственно предикатам-инфинитивам и императивам,
ср. Одно тебе остается, чтобы избежать несчастья; довести товар до потре-
бителя для отечественного производителя по-прежнему остается сверхзадачей;
Если я тебе не понравлюсь, пройди мимо.
2. Вводная конструкция: целевой предикат употреблен вводно и вводит пред-
ложение или группу (ср. Допустим, эту кличку придумал отец; ... трудно было
сравнивать, допустим, с Кубанскими).
3. Субстантивированное употребление причастий: предикат обозначает само-
го участника. При субстантивации Cубъект активного причастия и Объект пассив-
ного причастия обозначаются самим предикатом, ср. Блаженны алчущие правды;
Один из собравшихся встал; Нехорошо пользоваться ворованным. Однако если
Субъект имеет атрибутивные зависимые (ср. всё собранное; эти алчущие богат-
ства), то они указываются в полях участника-Субъекта «Заполнение вершины»,
«Заполнение группы», «Вершина», «Группа»; «Реализация» — «субстантивация»;
«Ранг» — «Атрибут».

Опущение и предупомянутость участника


1. Участник может быть не выражен, если это Субъект при императиве (не
волнуйся), при глаголе 1—2-го лица (захожу вчера в магазин; знаете как оно бы-
вает?), в безличной конструкции (проходит / прошло три года), в неопределенно-
личной конструкции (ср. его казнят / казнили в Казани), в пассивной конструкции
(в том числе при пассивном причастии) и др.
2. Опущение семантического субъекта при пассиве, деепричастии, императиве
(о безличном пассиве см. ниже).
3. Участники — говорящие: участником является говорящий или адресат и он
не выражен при целевом глаголе, ср. Принеси письмо! (ты, мне — опущены).
144 1.4. Интерфейс морфосинтаксиса и семантики

4. Безличная конструкция: пример представляет безличное употребление


глагола (ср. Пещеру завалило — глагол в форме ср. рода прош. времени или 3-го
лица ед. числа), то на него заводится отдельная новая конструкция, ср. Вавилову не
разрешено было поехать в Эдинбург, хотя он был избран президентом конгресса;
Делай, как велено; Курить не разрешается.
5. Неопределенно-личная конструкция. Ср. Ему разрешили уехать за границу
(глагол во мн. числе прош. времени или в 3-м лице мн. числа).
6. Обобщенно-личная конструкция 2-го лица. Ср. Ударишь лошадь кнутом —
а она начнет лягаться (глагол обычно во 2-м лице ед. числа).
7. Причастие как термин. В терминологическом употреблении причастие об-
ычно теряет зависимые, ср. Особенности родингитов в целом определяются спе-
цификой вмещающей рамы (причастие по сути адъективируется).
8. Контроль имплицитный: целевой глагол в инфинитиве подчинен другому
предикату, но при этом контролирующем предикате участник не выражен (в силу
конструкционных свойств контролирующего предиката или грамматической кон-
струкции, в которую он попадает), ср. Идите пить чай (участник: кто пьет чай);
Трудно установить, что стало причиной аварии (участник: кто установил при-
чину).
Если группа неполная (ср. Четыре человека остались в комнате, а пятый
уехал), то этот случай размечается так же, как если бы группа была полная (в дан-
ном примере реализация — «стандартный»). Различные другие случаи эллипсиса
классифицируются как «сочинение», «преконтекст», «постконтекст» и т. п.

Формирование банка предложений


Список «целевых» глаголов (2500 единиц) формируется по признаку их частот-
ности, а также разнообразия и вариативности в управления. На первом этапе на ка-
ждую лексическую единицу собирается из 100 предложений НКРЯ — случайным
образом. На втором этапе выборка может быть доведена до 200 примеров, в том
числе и с целью балансировки выдачи.
Выборка должна быть сбалансирована по следующим показателям:
1) метатекстовые признаки:
время создания текста (после 1950 г., первая половина XX в., XIX в., XVIII в.);
(в идеале) не более 1 примера из 1 автора;
жанр (художественная литература, публицистика, прочая нехудожественная
литература, устная речь);
2) характеристики предложения:
длина;
сложность (простое, в т. ч. осложненное знаками препинания, сложносочинен-
ное, сложноподчиненное, парцелляты);
место предложения в тексте;
3) место предиката в предложении:
начало — середина — конец.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 145

Для особо частотных глаголов выборка может быть дополнительно сбаланси-


рована относительно контекстных маркеров, а именно слов открытых лексических
классов, которые наиболее часто встречаются в предложении с данным глаголом,
ср. речь идет, подписать… договор и т. д. Если их частотность в выборке будет не
слишком велика, это послужит некоторой гарантией тематического разнообразия
иллюстраций.
Банк предложений включает отобранные предложения и их ближайший кон-
текст (как правило, 3 предложения справа и слева от них в тексте).

Семантические роли в системе ФреймБанк


Словарь русских глагольных конструкций — часть системы FrameBank, кото-
рая постоянно пополняется по данным Национального корпуса русского языка. Се-
мантическая разметка глагольных конструкций включает а) определение значения
глагола и семантической роли (экспликации) участников ситуации, б) формули-
ровку семантических ограничений на заполнение валентностей, в) установление
отношений между конструкциями одного глагола и между конструкциями разных
глаголов в графе фреймов и конструкций. Далее речь пойдет о продолжающемся
(начат в 2012 г.) проекте по системной семантической разметке глагольных кон-
струкций, которая строится на иерархическом связывании конструкций и ролей.
Очевидно, что решение пользовательских и компьютерных задач чувствитель-
но к классификации семантических ролей и самих фреймов и конструкций. Суще-
ствуют ожидания пользователей об инвентаре этих единиц и круге явлений, ко-
торые они охватывают, и эти ожидания могут быть разными. Точно так же успех
задачи semantic role labeling (автоматического определения семантических ролей,
см. главу 1.4.2) зависит от дробности ролей и успешного «вытягивания» похо-
жих конструкций через сеть фреймов / конструкций. Для одних прикладных задач
нужен минимальный набор хорошо противопоставленных по контекстным харак-
теристикам ролей, так сказать, выборка идеальных частотных случаев, другие же
системы положительно реагируют на полноту и подробность разметки исходного
материала.
Инвентарь семантических ролей во ФреймБанке устроен иерархически, что по-
зволяет масштабировать его размеры от десятка проторолей до множества частных
определений. Точно так же строится и граф фреймов и конструкций: мы можем
объединять частные конструкции в более крупные классы и тем самым достигать
требуемого для разработки системы эффекта. Вместе с тем мы вводим «базовый
уровень» детализации системы, который коррелирует с семантической классифи-
кацией глагольной лексики в НКРЯ. Принцип иерархического устройства и списка
семантических ролей, и списка лексических конструкций должен, по нашему за-
мыслу, обеспечить гибкость в приспособлении к разным задачам.
В следующих разделах мы обсуждаем классификацию семантических ролей,
а затем — принципы построения графа конструкций, отражающего внутрилек-
семные и межлексемные семантические связи целевых глаголов. Кроме того, мы
146 1.4. Интерфейс морфосинтаксиса и семантики

обсуждаем возможности практического использования FrameBank в задаче seman-


tic role labeling, а также теоретические вопросы соотношения семантических клас-
сов глаголов, семантических ролей и семантических ограничений на заполнение
валентностей.

Инвентарь семантических ролей


Необходимо сказать, что инвентарь семантических ролей для русского языка
может иметь достаточно разный состав и объем (ср., в частности, (Апресян
1974/1995: 125—126; Апресян и др. 2010: 370—377; Падучева 2004а: 587—588);
а также обзор различных подходов и теоретических проблем в (Fillmore 1968;
1977а; 1982; Dowty 1991; Лютикова и др. 2006: 17—22; Плунгян 2011: 160—165)),
что во многом определяется конкретными нуждами его использования. Следует,
однако, иметь в виду следующие соображения:
— роль — это инвариант над разнообразием синтаксических и морфологиче-
ских способов кодирования участника; так же и семантически — это генерализа-
ция функций участника в круге ситуаций, обозначаемых группой предикатов;
— роли в описании семантически близких лексем (синонимов, лексико-семан-
тической группы) должны либо системно совпадать, либо системно различаться;
— полный инвентарь ролей должен описывать все области лексики.
Идея применения инвентаря семантических ролей к описанию больших масси-
вов лексических данных сама по себе не нова, ср., в частности, известные проекты
FrameNet, «Лексикограф», НОСС и RussNet. В упомянутых ресурсах, однако, этот
инвентарь играет лишь вспомогательную роль при описании других свойств лек-
сем и конструкций. Так, разработчики системы RussNet ориентированы в первую
очередь на создание детального тезауруса русской лексики, применимого в сфере
автоматической обработки естественного языка, а не на подробную классификацию
и анализ семантических ролей. В современной версии системы FrameNet семанти-
ческая роль служит лишь для пояснения конфигурации участников внутри одно-
го фрейма, и к ее называнию не предъявляется никаких требований. В результате
FrameNet предлагает слишком широкий и, как кажется, потенциально неограничен-
ный набор семантических ролей, часто и вовсе заводимых ad hoc для одного узкого
фрейма — ср., например, выделение отдельного фрейма AGRICULTURE, покры-
вающего лексические единицы to cultivate, to farm и farming, участникам которого
приписываются такие роли, как Agriculturist (тот, кто возделывает сельскохозяй-
ственную культуру) и Food (возделываемая сельскохозяйственная культура). Неу-
дивительно, что получить классификацию семантических ролей в онлайн-версии
системы невозможно и она не входит в число официальных компонентов FrameNet.
Проект «Лексикограф» идеологически более близок нашим задачам, однако
на данный момент охватывает не все значения и тематические классы глаголов
с одинаковой степенью детальности: так, в версии базы от 30.10.2010, доступной
сейчас онлайн, детально разработаны глаголы физического воздействия, переме-
щения, звука, однако отсутствуют такие глаголы, как видеть, слышать, понимать,
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 147

светиться, греметь и мн. др. (а для включенных в базу глаголов учтены далеко не
все значения и конструкции, ср. глагол бить, для которого в «Лексикографе» име-
ется только два входа — «БИТЬ 1 (палкой по забору)» и «БИТЬ 2 (кого)»). В этой
связи, говорить о полном инвентаре ролей не приходится.
Наш проект можно рассматривать как масштабирование идеи «Лексикографа»
на больший объем данных14. Была поставлена задача создания инвентаря семанти-
ческих ролей, строящегося на следующих принципах:
— инвентарь должен быть иерархически организован с целью создания более
гибкого инструмента поиска и кластеризации: при желании, его можно свести
к 5—10 проторолям, в других случаях он может быть расширен до нескольких
десятков и даже сотен ярлыков;
— интерпретация первого и второго аргумента в большей мере зависит от се-
мантики предиката, нежели трактовка третьих, четвертых и т. д. аргументов типа
Инструмента, Траектории и т. д.;
— инвентарь коррелирует с семантической классификацией глагольной лекси-
ки15, в частности это означает, что традиционные очень широко понимаемые роли
Агенса и Пациенса должны в разных группах получать разные ярлыки;
— объем роли строится по принципу прототипа и периферии: например, прото-
типом Пациенса является участник, претерпевающий изменение под физическим
воздействием контролирующего ситуацию Агенса, периферийные случаи (паци-
енс нефизического процесса; пациенс, не претерпевающий изменения; пациенс,
который создается в результате физического действия и проч.) получают собствен-
ные ярлыки (ср. Тема, Результат) и считаются частным случаем роли Пациенса;
— предусматривается возможность сдвоенных ролей и расщепления ролей
(Апресян 1974/1995).
За основу для составления списка был взят инвентарь семантических ролей,
приведенный в (Апресян и др. 2010: 370—377). Практическая работа с имеющими-
ся в системе шаблонами конструкций потребовала, однако, внесения в этот инвен-
тарь ряда изменений. Помимо незначительной правки технического характера (так,
вместо ярлыка «Пациенс!» нами было использовано более самодостаточное наи-
менование «Подвергающаяся воздействию часть пациенса»), в список Ю. Д. Апре-
сяна были внесены изменения в связи с тем, что ряд содержащихся в нем семан-
тических ролей объединяет достаточно разнородные семантические сущности.

14
При этом мы не преследуем задачу приписать каждому глаголу толкование по некото-
рой заданной схеме, как это делается в «Лексикографе», а сосредотачиваемся на детальном
описании конструкций и связей между ними.
15
Поскольку FrameBank является «дочерним» ресурсом НКРЯ, с надстроенным слоем
разметки и интегрированным словарем, он ориентирован на систему глагольных классов
Основного корпуса (Kustova et al. 2009), с учетом их дополнения и расширения. Вместе
с тем сам принцип иерархического выделения ролей может быть связан с любыми другими
лексическими классификациями.
148 1.4. Интерфейс морфосинтаксиса и семантики

Если роль соотносилась с несколькими семантическими классами глаголов, то она


разделялась нами на несколько — например, это коснулось роли Экспериенцера,
которой в нашей разметке соответствуют семантические роли Субъект восприятия
(видеть, слышать), Субъект ментальной ситуации (думать, понимать), Субъект
психологического состояния (бояться, любить), Субъект физиологического ощу-
щения (болеть, колоть в боку) и Субъект физиологической реакции (смеяться,
тошнить). Роль Агенса была сохранена для ядерных агентивных контекстов, но
в дополнение к ней в список были включены экспликации Говорящий, Субъект по-
ведения (лениться, медлить), Субъект социального отношения (дружить, поми-
риться), Субъект перемещения (последняя экспликация используется для всех (не
только агентивных) одноместных глаголов перемещения, коррелируя тем самым
с их выделением в особый класс; агентивность глагола в этом случае однозначно
устанавливается по одушевленности субъекта).
В результате для разметки шаблонов конструкций был использован список из
примерно ста базовых экспликаций, классифицированный по принципу семанти-
ческой близости на несколько групп: блок Агенса, блок Пациенса; блок Экспери-
енцера; блоки Инструмента и Адресата, блок обстоятельственных характеристик
(О-блок). Внутри блоков можно выделить группу посессивных ролей, группы ролей
Места, Времени, Параметров, Признаков, Причины и Цели; группа Источников и
Ресурсов объединяет роли из блока Агенса и Места; при максимальном сжатии ин-
вентаря роли группы Экспериенцера можно распределить между агентивными и
пациентивными ролями. Семантические роли и их блоки образуют единый граф
(см. рис. 28)16, что позволяет выбирать между разными уровнями дробности поиска,
релевантными для конкретного теоретического исследования или прикладной зада-
чи (например, найти как все шаблоны конструкций, в которых реализуются семан-
тические роли из Блока Агенса, так и все шаблоны конструкций, где есть участник
с ролью Говорящего).
Для целого ряда присутствующих в нашем материале шаблонов конструкций
оказалось невозможным приписать участнику ровно одну семантическую роль, по-
скольку имело место сочетание семантики двух различных ролей. В этих случаях
в разметку вводились двойные семантические роли (ср. здесь (Апресян 1974/1995:
140) об отдельных примерах синкретичного выражения валентностей). Так, на-
пример, в контексте обрабатывать детали на станке речь идет об инструменте
совершения действия, но одновременно этот инструмент имеет локативные свой-
16
Иерархические отношения между семантическими ролями обозначены на графе
сплошными линиями. Пунктирные линии соответствуют семантическим связям между ро-
лями, не связанными непосредственным иерархическим отношением. Двойные связи ро-
лей блока Экспериенцера показывают семантическую близость этих ролей к блоку Агенса
или к блоку Пациенса. О-блок объединяет в себе шесть групп обстоятельственных ролей,
которые традиционно не сводят к одной гиперроли. Пространственное расположение ярлы-
ков (например, сверху vs. справа) относительно ярлыков ролей верхнего уровня в иерархии
не несет какой-либо смысловой нагрузки.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 149

Рис. 28. Граф семантических ролей


150 1.4. Интерфейс морфосинтаксиса и семантики

ства, поэтому в данном случае использовалась экспликация Инструмент-Место.


Конструкция Пехотинцы строились клином описывает результат (то, что полу-
чилось в результате построения) и одновременно способ совершения действия;
и в этом, и подобных случаях в разметку вводилась двойная экспликация Резуль-
тат-Способ. В конструкции «Вот это фокус», — удивился он участник-лицо полу-
чил сдвоенную роль Говорящий-Субъект психологического состояния. Очевидно,
что сдвоенные роли присутствуют в конструкциях, где либо участник размечен
морфосинтаксически нестандартно (ср. на станке), либо предикат относится к не-
скольким лексическим классам (ср. удивился — эмоциональное психологическое
состояние и говорение).
Следует оговорить, что FrameBank предусматривает и более дробное представ-
ление ролей участников, например, для глаголов служить и спасти экспликации
в стиле FrameNet «тот, кому служат» и «тот, кого спасают» будут более точными
ярлыками, нежели Контрагент и Пациенс — однако следует понимать, что, с одной
стороны, такие индивидуальные ярлыки будут редко востребованы пользователя-
ми, а с другой стороны, такие ярлыки могут быть порождены автоматически по
определенной схеме. В этой связи основной рабочий статус в системе получает
инвентарь из ста базовых ролей17.
Табл. 26 представляет список наиболее частотных ролей. Показано количество
лексических конструкций, в которых присутствует эта роль, а также количество
предикатов, у которых есть конструкции с таким участником.
Таблица 26
Наиболее частотные семантические роли в словаре конструкций ФреймБанка
Кол-во Кол-во
Экспликация констр. Пример конструкции предикатов
в словаре в словаре
Агенс 4787 Продавщица режет сыр. 1824
Пациенс 3086 Продавщица режет сыр. 1498
Тема 1591 На берегу лежал человек. 1004
Субъект перемещения 1520 Мы выезжаем в Москву. 515
«Годовой план мы выполним до-
Говорящий 1304 749
срочно», — объявил директор.
Пациенс перемещения 1049 Мальчик водил слепого за руку. 358
Конечная точка 921 Мы выезжаем в Москву. 657
Место 903 На берегу лежал человек. 738

17
Это число не является абсолютным и, безусловно, со временем будет меняться.
В частности, не исключено, что потребуется определенное расширение инвентаря при раз-
метке конструкций имен прилагательных и существительных. С учетом случаев совмеще-
ния ролей в одном участнике (ср. Инструмент-Место) количество ролей может возрасти
более чем вдвое.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 151

Кол-во Кол-во
Экспликация констр. Пример конструкции предикатов
в словаре в словаре
Он сообщил, что работает над
Содержание высказывания 776 454
книгой.
Эффектор 643 Ветер треплет знамена. 565
Субъект психологического
643 Он тоскует по друзьям. 526
состояния
Содержание мысли 637 Мы считали его опасным человеком. 438
Содержание действия 634 Потрудитесь встать, пожалуйста! 526
Результат 633 Достиг я высшей власти. 445
Командира беспокоило, если развед-
Причина 616 501
чики долго не возвращались.
Субъект ментального
614 Павел точно знал адрес больницы. 475
состояния
Субъект социального
520 Я не ссорюсь с друзьями. 550
отношения
Начальная точка 485 Дождь лился из туч. 421
Он выразил неудовольствие одним
Способ 479 477
взглядом.
Контрагент 446 Я прощаюсь с тобой. 453
Адресат 421 Так велел ему князь. 384
Цель 377 Отряд остановился передохнуть. 292
Конечный посессор 361 Товарищ одолжил мне книгу. 284
Стимул 303 Капитан видит человека за бортом. 231
Исходный посессор 292 Товарищ одолжил мне книгу. 227
Предмет мысли 284 Мы считали его опасным человеком. 311
Пациенс социального
283 Он воспитывает трех сыновей. 380
отношения
Субъект поведения 258 Он работает спустя рукава. 341
Автор отразил в своих очерках на-
Предмет высказывания 230 219
строение рабочих.
Сфера 228 По физике он учился неплохо. 267
Субъект восприятия 225 Перед ним открылся вид на море. 155
Стоит подняться на эту горку и ви-
Ситуация в фокусе 218 286
ден будет наш дом.
Агенс — субъект Следователь вывел, кто будет следу-
189 132
ментального состояния ющей жертвой.
Каузатор 188 Он невольно выдал себя. 169
Место — пациенс 185 Беседка заросла репейником. 148
Подвергающаяся Тарас тыкал ее сапогом прямо
178 187
воздействию часть пациенса в лицо.
Траектория 164 Сани ехали по глухой лесной дороге. 138
152 1.4. Интерфейс морфосинтаксиса и семантики

Кол-во Кол-во
Экспликация констр. Пример конструкции предикатов
в словаре в словаре
Инструмент / Квазиинстру- Она коснулась земли зонтиком /
158 178
мент руками.
Горничная <споткнулась и> разбила
Агенс / Каузатор 149 123
тарелку на мелкие кусочки.
Он выступил в роли верховного
Статус 148 170
арбитра в этой ситуации.
Ваш завод отстает по всем показа-
Признак 144 193
телям.
Контрагент социального
141 Он ладил со всеми. 209
отношения
Новый препарат обладает интере-
Посессор 136 145
сным свойством.
Источник звука 128 Звонарь бил в сторожевой колокол. 58
Подписывайтесь ручкой, каранда-
Инструмент 124 112
шом нельзя.
Инструмент — Место 123 Мы выехали домой поездом. 136
Срок 121 Его посадили на три года. 122
Субъект физиологической Ленка взглянула на него и, не удер-
120 112
реакции жавшись, прыснула.
Часть субъекта физиологиче-
120 Болит нога. 58
ского ощущения
Признак действия 119 Земля хорошо родит. 149
Он оправдывался перед гостями
Мотивировка 108 151
за свое опоздание.
Субъект физиологического
108 Спазм сжал женщине горло. 126
ощущения
Девушка перевязывает письма
Средство 104 133
ленточкой.
Потенциальная угроза 86 Он избежал ареста. 57
Иван подражал отцу в манере гово-
Эталон 85 98
рить.
Агенс — Субъект восприятия 74 Боец целится в противника. 43
Бенефициант 70 Время работает на нас. 89
Такое впечатление, будто микрофон
Параметр 68 56
усиливает шум.
Мой коллега перешел в другой
Конечная точка — Сфера 66 94
институт.
Направление 64 Вершины гор уходят за облака. 77
Каменщики сложили из кирпича
Ресурс 63 78
высокую стену.
Коляска стоила пятьсот рублей
Цена 63 59
золотом.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 153

Кол-во Кол-во
Экспликация констр. Пример конструкции предикатов
в словаре в словаре
Водитель понижает скорость до
Значение параметра 60 65
сорока километров в час.
Я поскользнулся, но удержался за
Опора 56 58
косяк.
Квазиинструмент 55 Руки влюбленных встретились. 75
Источник света 52 Мелькают огоньки. 30
Я видел все это собственными
Часть субъекта восприятия 50 56
глазами.
Потенциальный пациенс 50 Наши войска удержали город. 41
Планку подняли еще на пять санти-
Расстояние 49 55
метров.
Часть субъекта психологиче- Душа у него тает, когда он смотрит
48 59
ского состояния на свою маленькую дочь.
Часть субъекта физиологиче-
40 Уши у него покраснели. 29
ской реакции
Адмирал вытянул корабли в кильва-
Результат — Способ 37 38
терную колонну.
Субъект перемещения метаф. 37 Дорога уходила вдаль. 35
Пятнадцать союзных республик
Множество 36 37
образуют Советский Союз.
Пациенс / Тема 36 Отец ударил кулаком по столу. 29
Субъект психологического
Иногда он вдруг загорался / его
состояния / Часть субъекта 35 41
глаза вдруг загорались.
психологического состояния
В книге говорится о последних
Носитель информации 34 44
открытиях в области физики.
Субъект психологического
Заботливый уход вернул больному
состояния / Субъект физио- 33 48
жизнь.
логического ощущения
Работа увлекла его своими перспек-
Свойство причины 33 47
тивами.
Предмет высказывания / Со- Старик жаловался на боли в области
33 39
держание высказывания сердца.
По дорогам / степи плыли караваны
Место / Траектория 33 31
верблюдов.
Умственное воспитание складывает-
Ресурс метаф. 32 44
ся из следующих элементов.
Субъект психологической
30 Девочка заплакала. 64
реакции
Момент времени 30 Теплоход отходит ровно в полночь. 50
154 1.4. Интерфейс морфосинтаксиса и семантики

Кол-во Кол-во
Экспликация констр. Пример конструкции предикатов
в словаре в словаре
Пациенс / Результат 30 Клены распускают почки. 29
Субъект ментального состо-
яния / Субъект психологиче- 29 Эх, дал я маху. 43
ского состояния
Часть субъекта ментального
28 Голова не соображает. 43
состояния
Часть темы в фокусе Православные церкви обращены
26 40
внимания алтарем на восток.
Предел 25 Его работа приближается к идеалу. 37
Докладчик отошел в сторону
Начальная точка — Сфера 24 37
от своей основной темы.
Конечное состояние 24 Она дошла до слез. 33
Конечная точка — Пациенс / Они бросались шишками
24 21
Конечная точка — Тема друг в друга.
Говорящий — Субъект
24 «Вот это фокус», — удивился он. 18
психологического состояния
Постоянно вращаясь среди актеров,
Социальная среда 23 33
я стал привыкать к их языку.
Он не различил в темноте
Среда 22 28
приближающегося человека.
Агенс — Субъект психологи-
21 Зря ты себя так казнишь. 28
ческого состояния
Думаете, мне было приятно
Аудитория 20 20
краснеть перед товарищами?
Контрагент — Субъект Учитель дважды в неделю занимает-
20 17
ментального состояния ся с отстающими.

О соотношении семантических ролей участников,


семантических ограничений, классов глаголов
Разметка семантических ролей участников конструкций и систематизация пе-
реходов между конструкциями позволит выявить закономерности системы поли-
семии глагольной лексики в ее связи со свойствами конструкций, в которых ре-
ализуется конкретный глагол. Так, с использованием базы можно будет выявить,
с одной стороны, типы переносов, характерных для глаголов какого-либо исход-
ного семантического класса (и свойства соответствующих конструкций), с другой
стороны, типы переносов (и свойства конструкций), результатами которых явля-
ются глаголы заданного класса — ср., например, перенос в семантическую область
речи из областей перемещения (Летят птицы → Летит молва), психологиче-
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 155

ского состояния (Парень волновался → «Не догонит!» — волновался парень), фи-


зического воздействия (Хозяйка отрезала кусок хлеба → «И слышать об этом не
хочу!» — отрезала хозяйка) и др.
Обсуждение такого рода явлений поднимает и теоретические вопросы о со-
отношении семантических ролей участников, семантических ограничений на за-
полнение валентностей, а также глагольных классов. В частности, для метафори-
ческих переносов (по определению предполагающих изменение семантических
ограничений на заполнение хотя бы одной валентности) в базе обнаруживаются
следующие возможности:
— Смена семантического класса глагола и семантических ролей участников,
ср. Летят птицы (перемещение, Субъект перемещения) → Время летит (ско-
рость перемещения, Время) и Летят птицы (перемещение, Субъект перемеще-
ния) → Летит молва (речь, Содержание высказывания).
— Сохранение семантического класса глагола и семантических ролей участ-
ников. Ср., например, переходы Летят птицы → Конь летит, ветер свистит
в ушах и Летят птицы → Не раз он летел кубарем (во всех примерах глагол
лететь относится к классу глаголов перемещения, а субъект получает семантиче-
скую роль Субъект перемещения).
— Смена семантического класса глагола при сохранении паттерна семантиче-
ских ролей: Мальчик ест хлеб (уничтожение, Агенс + Пациенс) → Мошки едят
лошадей (физическое воздействие, Агенс + Пациенс)18.
Детальное исследование этих вопросов предполагается сделать возможным
с использованием системы FrameBank. Кроме того, перспективным направлени-
ем развития системы предполагается создание графа фреймов (аналогичного име-
ющемуся во FrameNet), который бы послужил дополнением к разрабатываемому
сейчас графу конструкций и содержал эмпирический материал для обсуждения
связи фреймов с семантическими ролями, семантическими ограничениями и клас-
сами глаголов.

18
В этой связи встает вопрос о регулярности соответствия между семантической клас-
сификацией глаголов и приписываемыми их аргументам семантическими ролями. Дейст-
вительно, в большинстве случаев глаголам разных классов в системе приписываются раз-
ные наборы ролей. Вместе с тем в ряде случаев классификация глагольной лексики может
быть и более дробной (что отражается, например, в моделях метафорических сдвигов),
как в рассматриваемом примере, где глаголы уничтожения, по сути, являются подклассом
глаголов физического воздействия (ср. также глаголы перемещения, внутри которых вы-
деляется подкласс глаголов падения, но семантической ролью субъекта в любом случае
является Субъект перемещения), однако семантические характеристики самих участников
и отношения между этими участниками в таких случаях, как представляется, очень близки
и могут быть сведены к одинаковым наборам ролей.
156 1.4. Интерфейс морфосинтаксиса и семантики

Граф конструкций в системе ФреймБанк


В этом разделе мы сформулируем принципы построения графа конструкций,
отражающего как семантические переходы на множестве глагольной лексики, так
и наследование / сдвиги в морфосинтаксическом оформлении конструкций.

Полисемия глагольной лексики и ее подача в системе FrameBank


Разработка семантической разметки системы FrameBank предполагает также
системный анализ полисемии глагольной лексики и предоставление пользовате-
лю возможности использования базы данных как поискового инструмента при
исследованиях в этой области. На решение этой задачи и нацелена ведущаяся на
данном этапе работа. Речь идет не только об анализе отдельных семантических
полей (ср. исследования (Кустова 2004) о глаголах физического воздействия и лек-
семах с экспериенциальной семантикой, (Падучева 2004а) о фазовых и бытийных
глаголах, глаголах восприятия, эмоций, звучания, речи, перемещения и мн. др.),
но и о создании такого ресурса, который предоставлял бы информацию о систем-
ных закономерностях семантических переходов, происходящих на множестве гла-
гольной лексики, — причем о таких закономерностях, которые формулируются
в терминах не только наиболее базовых противопоставлений вроде «конкретный
предмет» vs. «абстрактное имя», но и более детальной классификации семантиче-
ских ролей и семантических ограничений.
В нашей работе мы опираемся на теоретический опыт школы Е. В. Падучевой
в осмыслении глагольной полисемии (см. Падучева 2004а и др.), а также на опыт
проекта Базы данных по многозначным качественным прилагательным и наречи-
ям русского языка (Рахилина и др. 2009; Карпова и др. 2010; 2011), призванного
решить аналогичную задачу для признаковой лексики. Естественно, набор исполь-
зуемых нами ярлыков для семантических переходов не является копией аналогич-
ного инвентаря из базы данных прилагательных и наречий — в первую очередь
в силу значительно большей вариативности конструкций у глагольной лексики по
сравнению с признаковой лексикой.
При разметке системы FrameBank для каждого из глаголов строится семанти-
ческая сеть, иллюстрирующая направления и типы переходов между всеми шабло-
нами конструкций этого глагола. Прежде всего выделяются внутрифреймовые и
межфреймовые связи. Связи между конструкциями, относящимися к одному зна-
чению глагола и, соответственно, к одному фрейму, маркируют введение нового
участника, замену участника при переносе фокуса внимания, мену коммуникатив-
ного статуса и морфосинтаксического оформления и т. п. явления. Межфреймовые
связи соединяют конструкции, относящиеся к разным значениям глагола.
Кроме того, различаются связи, маркирующие семантический переход, и фор-
мальные связи, маркирующие изменение или наследование формального паттерна
конструкции. Примером семантического перехода является метафора, например
при переходе от конструкции Гром гремит к конструкции Директор гремел, об-
личая пороки. Вместе с тем для конструкции Директор гремел... устанавливается
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 157

отношение точного формального наследования (Snom V) как с конструкцией Гром


гремит, так и с конструкцией Друзья говорили до утра, обозначающей прототипи-
ческую речевую ситуацию.

Типы переходов между конструкциями одного глагола


Ниже приводится пилотная классификация типов переходов между конструк-
циями одного глагола, выделенных по результатам обработки примерно половины
глагольной лексики в системе «Фреймбанк»; разметка связей между конструкци-
ями разных глаголов еще предстоит. Классификация включает различные комби-
нации изменения / сохранения плана выражения и плана содержания конструкций.

А1. Мена морфосинтаксического оформления участника:


(27) занес этот факт в протокол → занес в протокол, что судья обрывает его;

в т. ч. в зависимости от типа лексического заполнения элемента:


(28) он занес ногу за порог → через плетень → на ступеньку брички.

А2. Мена статуса участников, диатетический сдвиг:


(29) протираю стол от пыли → протираю пыль на столе;
(30) на лбу собрались складки → лоб собрался в складки.

А3. Невыражение участника, относящегося к известному классу:


(31) наши следы занесло снегом → наши следы занесло.

А4. Невыражение участника, дейктически или ситуативно известного:


(32) он выписал все адреса из справочника → он выписал все адреса.

А5. Невыражение участника, не определенного (неважного) в ситуации:


(33) птицы летят на юг → летят птицы.

А6. Добавление участника:


(34) вода собирается — вода собиралась каплями;

частный случай добавления — гибрид двух конструкций:


(35) рыбку занесло из речки, рыбку занесло в протоку → рыбку занесло из речки
в соленый океан.

А7. Мена участников (перенос фокуса с одного участника на другого):


(36) он выписал все адреса из справочника → он выписал все адреса в тетрадь.
158 1.4. Интерфейс морфосинтаксиса и семантики

Б. Добавление неядерного участника ситуации: в производную конструкцию экс-


плицитно добавляется участник, не предусмотренный прототипом фрейма:
(37) — Смотри, Коля: видишь, птица летит? — Вижу [Г. А. Газданов. Вечер у Клэр /
начало романа (1930)];
→ Чеглок летел не за кормом, летел за чем-то иным, за тем, что никак не давалось
его птичьему пониманию [Б. Евсеев. Евстигней // «Октябрь», 2010];
Вахтер выписал пропуск → Вахтер выписал мне пропуск.

В1. Специализация значения фрейма, связанная с невыражением одного из участ-


ников:
(38) Иван пьет чай → Антон пьет (хабитуалис с имплицитным участником из класса
алкогольных напитков);
(39) Мы говорили о прошлом → Ребенок уже говорит (‘умеет говорить’).

B2. Идиоматизация значения, связанная с введением в конструкцию новых лекси-


ческих констант (в частности, вместо переменных-участников):
(40) Он опустил кулак → Он опустил руки (‘перестать действовать, потеряв надежду’).

Г1. Метонимия: смежный участник. Используется при замене участника на друго-


го, смежного участника в пределах одного фрейма:
(41) Тем не менее, использовав легкую музыку как приманку, он поймал на крючок
публику, которая раньше вовсе не слушала классическую музыку [С. Спивакова.
Не всё (2002)];
→ Мы острим, шутим, вспоминаем былые времена, говорим на французском, слуша-
ем Баха, Вивальди, Моцарта [Л. Гурченко. Аплодисменты (1994—2003)].

Г2. Метонимия: перераспределение коммуникативных акцентов между участника-


ми ситуации (при диатетическом сдвиге, А2):
(42) Военный суд слушал дело о китайце Тьян-цен, обвинявшемся в том, что он,
прибыв из Китая с товарищем своим Чванном, убил его и завладел его товаром
[В России. Телеграммы наших корреспондентов (1908.12.16) // «Русское слово»,
1908];
→ В суде слушают дело о разводе [В. Шахиджанян. 1001 вопрос про ЭТО
(№№ 1—500) (1999)].
Г3. Метонимия: сдвиг домена, ср.:
(43) Михайлов вдруг пугается мысли, что любит Алевтину и что никого, пожалуй,
кроме нее, не любил, а жизнь была долгой [Владимир Маканин. Отдушина (1977)]
(‘испытывать сердечную склонность к лицу другого пола’);
→ Она своих девочек очень любит, воспитывает и следит за учебой [К. Арский.
«Метровые» дети (2002) // «Вечерняя Москва»] (‘чувствовать глубокую привязан-
ность к кому-л., быть преданным кому-л.’);
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 159

ср. также:
(44) служить царю → служить в министерстве → служить в армии.

Г4. Метонимия: смежный класс. Используется при переходе глагола в смежный


с исходным тематический класс, ср.:
(45) Вечером, сидя за чаем, Семен Семенович со скучающим видом слушал жену, кото-
рая что-то записывала на бумажке <…> [И. А. Ильф, Е. П. Петров. Широкий
размах (1935)] (‘обращать слух на звуки, чтобы услышать их’, глагол восприятия);
→ Хотя мэр Москвы по стилю своего публичного поведения, безусловно, принадле-
жит к людям, готовым слушать москвичей [Продайте нам город // «Известия»,
2001.06.22] (‘принимать во внимание слова, просьбы, советы’, глагол ментально-
го состояния);
→ Нет человека, властного над ветром, умеющего удержать ветер, особенно когда
этот ветер в голове. Не хотят слушать старших — пусть идут. Пусть хлебнут
горя своей золотой ложечкой [М. Успенский. Там, где нас нет (1995)] (‘подчинять-
ся распоряжениям, следовать советам, слушаться’, глагол поведения).

Д. Метафора. Используется при смене таксономического класса какого-либо из


участников ситуации, сопровождающейся сдвигом значения глагола:
(46) Карташев отрывался от занятий и смотрел в окно: вон два парня в парке
борются, один повалил другого и оба лежат в траве, смеются и не хочется им
вставать… [Н. Г. Гарин-Михайловский. Студенты (1895)]
→ Плоды японской революция 1868 года — конституция и управление страной при
помощи либеральных иностранцев — особенно смущают юные умы корейцев,
и автор книги рассказывает, что теперь на диком полуострове уже борются две
партии — консервативно-патриотическая, идущая против обезьянства, имеет
своим главой бывшего регента королевства; либералы, готовящиеся учредить
в Корее парламентаризм, хвастаются дружбой с молодым королем [А. Н. М..
Современная Корея // «Исторический вестник», 1886].

Е. Ребрендинг. Понимается нами в соответствии с (Бонч-Осмоловская и др. 2009;


Рахилина и др. 2009; 2010а; 2010б; Карпова и др. 2011) как семантический переход
лексемы в другой таксономический класс, основанный на механизме импликату-
ры (т. е. результат семантического перехода является следствием или выводом из
исходного значения), ср. переход:
(47) Такое, знаете ли, очень редко встречается, чтобы двое стреляли практически
одновременно [Вера Белоусова. Второй выстрел (2000)];
→ Грабор не хотел ввязываться в споры, от шума у него стреляло в голове, в левой ее
части ― необычная в его случае болезнь, голова у него вообще никогда не болела:
кость, сплошная кость [Вадим Месяц. Лечение электричеством // «Урал», 2002],

где происходит явная смена таксономического класса глагола стрелять (глагол


физического воздействия → глагол болевого ощущения), а производное значение
160 1.4. Интерфейс морфосинтаксиса и семантики

осмысляется как вероятный результат действия, подразумеваемого исходным зна-


чением (субъект испытывает такое ощущение, как будто в боку происходит дейст-
вие стрелять).

Ж. Другие, более далекие и менее прозрачные переходы. Ср., например, высту-


пить из толпы → выступить на совещании. Сюда же относятся некоторые слу-
чаи выветривания значения, когда глагол принимает роль лексической функции:
являться, выступать (свидетелем), обратить (внимание), питать (уважение)
и т. д.

Переходы между конструкциями разных глагола: к проблеме наследования


и мотивации
Иногда поведение конструкций может быть объяснено через заимствование
(наследование) свойств конструкций других предикатов. Это случаи, когда значе-
ния, выражаемые предикатом, связаны не непосредственно, а через цепочку «по-
средников» в значениях других предикатов. Например, конструкция собраться
с силами (, чтобы встать) связана в первую очередь с конструкцией собрать силы
(чтобы встать), а не с другими конструкциями возвратного глагола собраться.
Переходные конструкции занести письмо домой и войдет и занесет такую чушь...
‘начать нести (чушь)’, представляющие разные значения приставок («частичные
омонимы» по В. В. Виноградову (1960: 16)), связываются с конструкциями беспри-
ставочного глагола, а не между собой. Занести письмо домой связана с конструк-
цией глагола нести в значении физического перемещения, а войдет и занесет
такую чушь — с конструкцией глагола нести в переносном значении говорения.
Ниже мы покажем подход к установлению связей между конструкциями на
примере конструкции-идиомы брать влево (левее).
Конструкция брать (взять) влево / вправо / вверх / вниз / левее / правее / выше /
ниже, ср. (48)—(51), интересна с нескольких точек зрения. Так, она имеет фор-
мальный паттерн Snom V ADV.DIR, который не используется в других фреймах
глагола брать19. Появление нового участника — Направление / Конечная точка —
сигнализирует о переходе глагола в новый для него фрейм физического переме-
щения (в случае собственно перемещения — левее или правее, выше или ниже
от исходной траектории, в случае стрельбы — траектория выстрела пойдет выше,
ниже и т. п. относительно исходной и т. д.). Доноры формального паттерна — кон-
струкции типа идти / ехать и т. п. + направительная группа {ADV / PRкуда + Sx}
и повернуть + {ADV / PRкуда + Sx} — причем заметим, что повернуть в контек-
сте типа влево / левее означает не только ‘сделать поворот’, но и ‘повернув, продол-
жать движение так, что траектория проходит левее исходной’.

19
Кроме как бери выше, которая является метафорическим расширением от данной и
вполне объяснимо наследует формальные свойства.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 161

(48) — Капитан, а вы не сбились с дороги? — ежеминутно слышался голос коман-


дира дивизиона. — По-моему, надо брать левее… [А. А. Игнатьев. Пятьдесят лет
в строю. Кн. 1—2 (1947—1953)];
(49) Река резко брала влево <...> [Михаил Тарковский. Кондромо // «Октябрь», 2003];
(50) Разговор в ритме брасса: — Как сносит. — Надо брать выше. — Куда? — На
ту иву. — Ладно [И. Грекова. На испытаниях (1967)];
(51) Братец Сашенька выстрелил, но не попал: взял выше! [А. Ф. Писемский. Люди
сороковых годов (1869)].

Однако обратим внимание на два идиоматических свойства этой конструкции.


Во-первых, не совсем очевидно, почему центром конструкции, обозначающей пе-
ремещение, становится посессивный предикат брать / взять (а также их производ-
ные типа забирать). Во-вторых, имеет свои особенности и оформление участника
Направление / Конечная точка: допустима только адвербиальная реализация, но не
предложная группа (ср. ??Он взял на Ленинский проспект). Можно было бы просто
констатировать, что перед нами — конструкция-идиома20, но хотелось бы более
последовательно изучить связи этой конструкции в системе других лексических
конструкций русского языка.
В первую очередь обратим внимание на то, что для нового фрейма автоном-
ного перемещения, который по определению требует непереходной конструкции,
выбирается такой прототипически переходный глагол, как брать. Можно предпо-
ложить, что между конструкциями Snom V ADV.DIR и Snom V Sacc должно быть
промежуточное звено вида Snom V Sacc ADV.DIR, и действительно, его можно обна-
ружить среди других конструкций с глаголом брать.

А. Контексты с функциональным объектом:


(52) Лоцман, склонясь вперед, легонько стал брать руль налево [С. Т. Григорьев.
Красный бакен (1923)];
(53) Шофер, наверно, не такой опытный, как другие, чуть-чуть взял руля не туда,
заднее колесо заскользило по балке и грузовик провалился, повиснув карданом
на одной из балок и, по счастью, зацепившись передними колесами за другую
[К. Симонов. Живые и мертвые (1955—1959)];

20
Первые примеры употребления конструкции в НКРЯ датируются концом XVIII — на-
чалом XIX вв., причем в это время возможна их предложная реализация: Ежели бы граф
Мелин не брал влево и следовал точному повелению, тоб о злодее был совершенно известен
[Военно-походный журнал командира карательного корпуса подполковника Михельсона
И. И. (1774)]; Сначала виден с Артиллерийской бухты дом Снаксарева. Мы берем вправо,
в заставу. Под-вечер гуляю [А. С. Грибоедов. Отдельные заметки (1822—1825)]. Можно
отметить существование сходных конструкций в западноевропейских языках, ср. франц.
prendre la rue de Nidau, prendre à gauche; нем. Nehmen Sie die zweite Straße links, англ. take
left / right; однако исследование истории конструкции не входит в задачи нашего синхрон-
ного описания.
162 1.4. Интерфейс морфосинтаксиса и семантики

(54) Я чуть влево беру руля и, знаете, как метлой смел балласт с флагманской пиро-
ги, со второй, с третьей [А. Некрасов. Приключения капитана Врунгеля (1960—
1980)].

По импликации, взять в руки руль, штурвал, вожжи, ружье, лопату, лом —


значит поехать, начать стрелять, копать и т. п. Если движение или другая де-
ятельность, включающая движение, уже имеет место, то, повернув руль, человек
меняет его траекторию, например копает левее / правее исходного места21. Таким
образом, использование функционального объекта вынуждает возникновение
смежных фреймов, отсюда мотивационная связь в цепочке «посессивность» →
«изменение траектории движения».

Б. Конструкция вида брать курс / направление {ADV / PRкуда + Sx}:


(56) Залил полный бак и взял курс в Вольск [Героиновый тюремщик (2003) // «Крими-
нальная хроника», 2003.07.24];
(57) Самолет выровнялся и Сергей увидел, что Бардыкин берет курс чуть левее
холмов, чтобы их можно было видеть сверху и немного сбоку [Олег Куваев. Тер-
ритория (1970—1975)];
(58) Ехать пора, — сказал я и 415-й танк с гордо задранной пушкой взял направление
в сторону «Аминовки» [С. Погодаев. Письмо другу об афганской войне (2004)];
(59) Грэй взял направление к открытому морю, затем стал держаться левого
берега [А. С. Грин. Алые паруса (1922)].

Помимо этих двух конструкций, близких нашей конструкции формально и от-


носящихся непосредственно к глаголу брать, укажем конструкции глагола дер-
жать, в которых прослеживается параллельное развитие свойств.

В. Конструкции вида а) держать руль левее, б) держать путь на запад и


в) держать корабль против ветра:
(60а) Стартуй и держи руль немного левее [www.drive2.ru/l/3445510];
(60б) Хорошо. Держим курс в парк [Максим Милованов. Естественный отбор (2000)];
Мы тогда держали курс в SW четверти [Ф. Ф. Беллинсгаузен. Двукратные
изыскания в Южном Ледовитом океане... (1831)];
(60в) Нам оставалось одно — держать судно против ветра и ждать улучшения
погоды [А. С. Новиков-Прибой. «Коммунист» в походе (1924)];
Рулевой упорно смотрел на картушку, стараясь держать корабль на заданном
курсе [А. С. Новиков-Прибой. «Коммунист» в походе (1924)].

21
Ср. также примеры, описывающие управление самолетом: Лейтенант быстро взял
штурвал на себя — «ястребок» резко взмыл кверху [С. Н. Сергеев-Ценский. В снегах
(1941)], хотя, в отличие от ружья, в них нет прямого соответствия между направлением
движения штурвала и транспорт. Имя лопата требует несколько другой конструкции Snom
V Sins ADV, ср. взять лопатой левее.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 163

Брать левее и держать левее отличаются фазой: последнее означает ‘продол-


жать двигаться по траектории, находящейся левее исходной (т. е. той, которая при-
знана точкой отсчета)’. Вследствие большей статичности фрейма, с этим глаголом
допустимы как направительная конструкция Snom V Sacc {ADV / PRкуда + Sx},
так и локативная конструкция Snom V Sacc {ADV / PRгде + Sx} (ср. здесь: эскадра
движется в море, продолжать движение в первой четверти). Однако, если мы
рассмотрим пары взять яблоко в руку / держать яблоко в руке и взять левее / дер-
жать левее, то нужно признать, что направительная конструкция была бы менее
ожидаема22, если бы не фрейм движения, из которого «копируются» данные кон-
струкционные свойства.
Обратим внимание и на то, что посессивные брать и держать подчеркивают
контролируемый характер событий, ср. неконтролируемое пуля пошла / лом пошел
левей.
Таким образом, мы можем установить связи между конструкцией взять левее
и конструкциями:
• идти левее, повернуть левее (донор конструкции, полное формальное и фрей-
мовое соответствие);
• брать руль левее, брать курс левее (неполное формальное соответствие, под-
держивающее, однако, паттерн нашей конструкции; эти конструкции ближе
к паттернам брать в основных посессивных значениях);
• держать левее (копирование свойств «заимствованной» конструкции далее
к фрейму, отличающемуся фазой).

* * *
Проект ФреймБанк стартовал в 2011 г. при поддержке программы «Корпус-
ная лингвистика». Сейчас он вошел в «средний возраст» — это значит, он растет
вглубь и вширь. Построено ядро словаря лексических конструкций, отработана
технология разметки реализации конструкций в тексте. В стадии конструирова-
ния находится сеть фреймов и граф лексических конструкций. В планах — на-
несение слоя синтаксической разметки, а также разработка поисковой системы
для диагностики расхождений между аннотациями в словаре и в тексте, для ди-
агностики взаимосвязей между различными элементами конструкций на разных
уровнях разметки — морфологической, синтаксической, лексической, фреймо-
вой и т. д.
Наиболее проработанной является часть, связанная с глагольными конструкци-
ями (ядро ФреймБанка составляют 2,5 тысячи частотных русских глаголов и ас-
социированных с ними конструкций и корпусных примеров), однако конструкции
предикативов, прилагательных, наречий, предикатных имен существительных не
менее интересны и ждут своего представления во ФреймБанке.

22
Ср. другие идиомы брать под контроль: держать под контролем, брать на мушку:
держать на мушке и т. п.
164 1.4. Интерфейс морфосинтаксиса и семантики

Также пока не реализована сплошная полнотекстовая framenet-разметка (full-


text annotation) корпуса текстов, которая дала бы возможность изучать дистрибу-
цию синтаксических и семантических элементов на уровне предложения, абзаца
и текста.
Пока вся разметка системы производится вручную — вместе с тем становится
все яснее, как можно автоматизировать те или иные задачи. Глава 1.4.2 представ-
ляет один из таких экспериментов, связанный с автоматическим определением се-
мантической роли участника.

Приложение
Конструкции и трансформации *
Согласно теории Грамматики Конструкции (CxG, см. Fillmore 1988; Lakoff 1987;
Goldberg 1995 и др.), все значимые единицы в языке можно анализировать как кон-
струкции. Сочетания морфем внутри слова, модели управления глаголов, сложно-
подчиненное предложение и лексически фиксированные фразеологические оборо-
ты представляют собой пару: форма и сопоставленное ей конвенционализованное
значение. Конструкция постулируется, когда смысл некой лингвистической едини-
цы не вытекает из суммы смыслов ее элементов; точно так же формальные свойства
конструкции не предсказываются свойствами комбинирующихся единиц. Идиома-
тичность и некомпозициональность являются важными свойствами конструкции.
CxG возникла в противостоянии трансформационному подходу 50-х гг. В ста-
тье Дж. Лакоффа (Lakoff 1974) было показано, что предложения типа John invited
you’ll never guess how many people to you can imagine what kind of a party, for God
knows what reason on wasn’t it last Sunday? не могут быть описаны через тран-
сформацию вида John invited you’ll never guess how many people to the party ↔
You’ll never guess how many people John invited to the party. Несмотря на то что
мейнстрим генеративной теории ушел далеко от трансформаций, аргумент нетран-
сформационности продолжает подчеркиваться как отличительное достоинство
CxG (см. об этом Goldberg 2006).
Главный довод противников трансформационного подхода состоит в том, что
трансформация одной конструкции в другую невозможна, потому что каждая кон-
струкция по-своему профилирует обозначаемую ситуацию. Поэтому, даже если
одна ситуация с одинаковым набором участников может быть описана с помо-
щью разных грамматических конструкций, значение этих конструкции не может
быть тождественно друг другу. Кроме того, важно отметить, что CxG оперирует
с лексически детерминированными конструкциями: от заполнения одного слота
в конструкции может зависеть выбор и оформление всех остальных элементов.
Наконец, оппоненты трансформаций подчеркивают, что, если мы изучаем некую

*
Этот раздел основан на не публиковавшейся ранее статье: Кузнецова Ю. Л., Ляшев-
ская О. Н. Конструкции и трансформации (Кузнецова, Ляшевская 2009).
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 165

конструкцию только в сопоставлении с ее возможным трансформом, это обедняет


семантическое описание и не позволяет описать всех свойств исследуемой кон-
струкции (Goldberg 2006: 22—25).
Значит ли это, что трансформации ушли в прошлое? Ни в коем случае. Сме-
стились акценты: теперь пары предложений используются для того, чтобы про-
демонстрировать (тонкое) семантическое различие между ними. Отношение CxG
к трансформациям разделяется и в отечественной традиции лексической и грамма-
тической семантики. Приведем здесь показательную цитату из (Апресян 1995: 6):
…в статье «Синтаксическая обусловленность значений» пары фраз типа Он залил
бак горючим — Он залил горючее в бак трактовались как «ситуативно равнознач-
ные» <…>. Общий источник этой и других подобных ошибок — переоценка роли
формально-синтаксических трансформаций (в определение которых не входит
условие семантической инвариантности трансформов) как средства установления
семантических тождеств и различий.

Вторая выдержка — из работы (Падучева 2008: 4):


…даже для общеотрицательных предложений трансформационный анализ — не
конец дела, поскольку он не описывает общих законов семантического взаимо-
действия отрицания с исходным видовым значением глагола. А без этого нельзя
о б ъ я с н и т ь особенности семантики видовых форм…

Вместе с тем обратим внимание, что в лексической семантике трансформации


имеют особый статус. В первую очередь это касается исследований синонимиче-
ских средств языка. Один из принципов МСШ гласит, что различия в семантике
лексем неизбежно проявляются в синтаксисе (Апресян 1995), следовательно, раз-
личия в трансформационном потенциале пары предложений одинаковой струк-
туры, отличающихся лишь лексическим заполнением одной из позиций, служит
важным инструментом для определения границ синонимии и в конечном счете для
разграничения значений многозначных лексических единиц.
Вторая область применения трансформаций — в системной классификации
лексики. В работах (Апресян 1967) и (Levin 1993) трансформации (или альтерна-
ции) используются как прием, позволяющий выявить классы глаголов с близким
значением. Например, семантически однородна группа глаголов виниться, испо-
ведаться, каяться, открываться, отчитываться, признаваться, имеющая два
варианта модели управления: глаголы способны управлять, с одной стороны, да-
тельным падежом и предлогом в с предложным падежом, а с другой — предлогом
перед с творительным падежом и предлогом в с предложным падежом (трансфор-
мация вида N1n V N2d в N3p ↔ N1n V перед N2i в N3p: каяться отцу в содеянном ↔
каяться в содеянном перед отцом)23.

23
Этот принцип классификации отличается от использованного в (Francis et al. 1996),
где формальным критерием классификации служит лишь одна модель управления; выде-
ляемые с его помощью достаточно крупные глагольные классы в дальнейшем разбиваются
166 1.4. Интерфейс морфосинтаксиса и семантики

Таким образом, наблюдается конфликт понятий «конструкция» и «трансформа-


ция» — и в то же время, в видоизмененном виде, трансформации остаются инстру-
ментом семантических описаний.
Но вернемся к истокам. Наше исследование представляет попытку переосмыс-
лить классическое понятие «трансформации», предполагающее в общем и целом
синонимическое отношение между (как минимум) двумя конструкциями. Объек-
том трансформации является предложение с заполненными лексическими слотами
(например, Он бьет лошадь трансформируется в бить лошадь по бокам, бить ло-
шадь ногами или наносить побои лошади, см. Апресян 1967: 89).
Итак, что представляют собой трансформации с точки зрения теории Грамма-
тики Конструкций? На этот вопрос мы попытаемся ответить на примере известной
трансформации глагольного управления:
Xnom V Yacc Zdat ↔ X V Yacc перед Zins,

где дательный падеж сопоставляется творительному с предлогом перед; ср. при-


меры (61) и (62):
(61) Вы уверены, что правильно поставили задачу исследователям? [Организа-
ция исследований рынков и потребителей + анализ и рекомендации; http://www.
alpariconsulting.ru/template/content/print.php?val=4 &cid=63&bk=145]24;
(62) Справедливости ради надо отметить, что многие российские компании не рас-
полагают маркетологами, способными грамотно сформулировать цель и поста-
вить задачу перед исследователями, и агентства иногда этим пользуются
[Евгений Раров. Доверяй, но проверяй / Модные тенденции; http://www.muswave.
ru/taxsas37sx/raz/].

Постулируется, что эта трансформация допустима у следующего ряда глаголов


(Апресян 1967: 150, 182): выкладывать все другу / перед другом/, отворять / от-
крывать, отпирать / дверь кому-л. / перед кем-л., ставить задачу ученику / перед
учеником; ср. также демонстрировать (Апресян, Палл 1982). Общее значение гла-
голов — «открывать».
Далее мы рассмотрим основные значения, свойственные конструкции с дати-
вом и конструкции с предлогом перед; проанализируем, какими особенностями
обладают эти конструкции в случае, если глагольный слот в них реализован гла-
голом, допускающим трансформацию, а затем покажем, как их семантика связана
с прототипическим значением конструкции.

на более семантически однородные на основании интуиции составителя классификации


(сопоставление двух типов классификаций см. в Baker, Ruppenhofer 2002).
24
Приводятся примеры не только из Национального корпуса русского языка, но и дру-
гие образцы употребления, найденные с помощью поисковой системы Яндекс в интернет-
источниках. В примерах последнего рода приводится html-адрес страницы.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 167

Дативная конструкция и конструкция с предлогом перед


Здесь мы разберем значение и состав интересующих нас конструкций — датив-
ной конструкции и конструкции с предлогом перед. Дативная конструкция состоит
из четырех элементов: именной группы в именительном падеже (X), глагола (V),
именной группы в винительном падеже (Y) и именной группы в дательном паде-
же (Z). Эта конструкция имеет следующие семантические ограничения на элемен-
ты: именные группы, занимающие позиции X и Z, обычно являются одушевленны-
ми, глагол в конструкции имеет значение каузации перемещения. Вся конструкция
означает, что агент X каузирует перемещение Y к адресату Z. Ниже показано, как
в предложении (63), являющемся примером дативной конструкции, происходит
распределение конструкционных ролей.
элементы Xагент V Yпациенс Zадресат
форма NPnom V NPacc NPdat
семантические
одуш. каузировать движение одуш.
ограничения
пример он вручает плащ гардеробщику

(63) Он вручает гардеробщику плащ, размахивается и дает ему кулаком в морду


[Ordinamenti (2004) // «Экран и сцена», 2004.05.06].

Конструкция с перед тоже состоит пяти элементов, четыре из которых являют-


ся переменными, то есть могут заполняться разными лексемами, а один является
фиксированным: это предлог перед. Четыре незафиксированных слота в конструк-
ции с перед — это именная группа в именительном падеже (X), глагол (V), именная
группа в винительном падеже (Y) и именная группа в творительном падеже (Z),
следующая за предлогом перед. Именные группы X и Z обычно обозначают оду-
шевленных участников, значение глагола включает в себя значение помещение
объекта в некоторое место. Вся конструкция в целом означает, что агент X каузи-
рует Y находиться перед ориентиром Z, то есть в пространстве между агентом X
и ориентиром Z. Ниже показано, как распределяются роли конструкции с перед
между участниками ситуации, описанной в предложении ‎(64).
элементы Xагент V Yпациенс перед Zориентир
форма NPnom V NPacc перед NPdat
семантические
одуш. поместить
ограничения
Гримерша
пример Людмила усадила меня перед зеркалом
Борисовна

(64) Гримерша Людмила Борисовна усадила меня перед зеркалом [С. Довлатов. Чемо-
дан (1986)].
168 1.4. Интерфейс морфосинтаксиса и семантики

Заметим, что конструкции во многом схожи: и в той и в другой имеются четыре


переменные, три из которых являются именными группами, а одна — глаголом.
Таким образом, состав конструкций способствует возможности трансформации из
одной конструкции в другую: между элементами легко установить однозначное
соответствие. Семантика конструкций тоже во многом схожа: и в той и в другой
конструкции присутствует агент (X), который производит пространственное пе-
ремещение объекта (Y). Основное отличие между конструкциями состоит в ролях
участника Z: в дативной конструкции это адресат, в то время как в конструкции
с перед это ориентир. Это же различие частично отражается и в семантике глаго-
лов, участвующих в обеих конструкциях: в дативной конструкции речь идет о пе-
ремещении, конечной точкой которого является адресат, а в конструкции с перед —
о перемещении объекта в некоторую точку пространства, о которой известно, как
она ориентирована относительно участников X и Z.
После того как мы сформулировали значения обеих конструкций, становится
видно, что примеры употребления конструкций различаются по тому, насколько
они соответствуют прототипу. Например, такие примеры, как (65), очень близки
к основному значению конструкции, в них речь идет о перемещении материаль-
ного объекта от одного лица к другому. Такие примеры можно назвать прототипи-
ческими. С другой стороны, примеры вроде (66) находятся дальше от основного
значения. И хотя в таких примерах всё еще можно увидеть элементы структуры
дативной конструкции, однако связь эта уже не так очевидна. В примере (66) речь
идет о перемещении некоторой субстанции, но это не материальный объект, а воз-
можность, и передача ее происходит не в реальности, а только воображается
как часть взаимодействия человека с высшими силами. То есть в данном случае
мы имеем дело с метафорой: взаимодействие с высшими силами представляется
в этой метафоре как передача возможности от бога к человеку.
(65) Но у матери не оказалось мелких денег, и она дала ему сторублёвку, строго
наказав не потерять и принести сдачу [А. Тавобов. Террор несовершеннолетних
(2002) // «Вечерняя Москва», 2002.02.07].
(66) Может, Господь дал мне возможность восполнить пробел длиной в восемнад-
цать лет через Сашу, через мое с ней общение? [С. Спивакова. Не всё (2002)].

Таким образом, получается, что среди примеров конструкции есть примеры,


более близкие к центральному значению и более удаленные от него, связанные
с ним метафорическими, а иногда метонимическими отношениями. То есть мы
имеем с некоторой радиальной категорией (Lakoff 1987), где в центре находят-
ся более прототипические примеры, а на периферии более маргинальные, более
удаленные от центрального значения примеры. Обратим внимание, что примеры
в этой радиальной категории существуют не по отдельности, а скорее группами,
объединенными схожим значением. Так, например, в радиальной категории датив-
ной конструкции будет присутствовать группа примеров, посвященных «дарению
подарков», в которую будут входить примеры (67) и (68). Другим примером хо-
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 169

рошо вычленяющейся группы примеров в рамках дативной конструкции может


служить группа со значением «порчи, нанесения вреда», в нее будут входить такие
примеры как (69) и (70).
(67) А затем в награду полицейские подарили герою пуленепробиваемый жилет и
присвоили звание младшего офицера запаса [Из горилл — в офицеры (2003) //
«Криминальная хроника», 2003.07.08];
(68) Английский парламент вручил ему награду в 10 тысяч фунтов стерлингов и еще
раз — в 20 тысяч [Как родилась иммунология // «Знание — сила», № 7, 2003];
(69) На прощанье я обнял ее. Она испачкала мне щеку помадой [Е. Хаецкая. Синие
стрекозы Вавилона/ Обретение Энкиду (1997)];
(70) Неужели я испортил ей жизнь? [А. Тарасов. Миллионер (2004)].

Будем называть такие группы примеров со сходной семантикой, выделяемые


среди всех примеров одной конструкции, фреймами данной конструкции. Приме-
ры в одном фрейме схожи не только по семантике предложения в целом, но и по
тому, какие лексемы могут заполнять слоты в конструкции. Это очевидным обра-
зом касается глагольного слота. Во фрейме «дарения подарков» встречаются такие
глаголы как подарить, вручить, презентовать, завещать. Во фрейме «нанесения
вреда» эти глаголы не будут встречаться, а будут встречаться глаголы испортить,
испачкать, испакостить, расстроить и т. п. Однако ограничения на сочетаемость
коснутся не только глагольного, но и именных слотов конструкции. Так, напри-
мер, в слоте пациенса во фрейме «дарения подарка» будут часто встречаться такие
существительные как подарок, цветы, букет, радость и т. п. Очевидно, что во
фрейме «нанесения вреда» такие существительные, конечно же, не будут частот-
ными. В нем в слоте пациенса будут часто встречаться такие существительные, как
отношения, настроение или жизнь.
Таким образом, каждая конструкция, хотя и имеет одну общую для всех своих
примеров семантику, представляет собой радиальную категорию, единицами кото-
рой являются фреймы, представляющие собой реализации конструкции. Примеры
внутри одного фрейма объединены общей семантикой и являют собой частный
случай общего значения конструкции. Семантические ограничения на слоты в рам-
ках одного фрейма являются частным случаем общих семантических ограничений
на слоты конструкции, однако каждый фрейм может накладывать свои дополни-
тельные ограничения на слот конструкции. Результат действия таких ограничений
можно видеть при анализе частотного заполнения слота конструкции.

Фреймы, в которых возможны трансформации


Мы проанализировали все примеры употребления конструкции с предлогом
перед и прямым дополнением в НКРЯ. Мы приняли эту конструкцию за точку
счета, поскольку она значительно менее частотна: согласно данным корпуса, да-
тивная конструкция встречается в 100 раз чаще, чем конструкция с перед. Для
каждого варианта лексического заполнения глагольного слота мы попытались
170 1.4. Интерфейс морфосинтаксиса и семантики

найти аналогичную конструкцию с дативом. В результате были выделены пять


фреймов, где возможна трансформация между дативной конструкцией и кон-
струкцией с предлогом перед. Это фреймы «ставить заслон» (ставить заслон
перед мигрантами — ставить заслон мигрантам), «ставить задачу» (ставить
задачу перед исследователями — ставить исследователям задачу), «открывать
дверь» (открывать дверь сотруднице — открывать дверь перед сотрудницей),
«выложить свои соображения» (выложить свои соображения бойцам — выло-
жить свои соображения перед бойцами) и «демонстрировать знания» (продемон-
стрировать президенту полное знание деталей — продемонстрировать перед
президентом полное знание деталей). Далее в этом разделе мы рассмотрим по-
дробнее первые три фрейма.

«Ставить заслон»
Фреймы «ставить заслон» и «ставить задачу» организованы вокруг актанта, вы-
раженного прямым дополнением. Глагол в этом типе конструкций выполняет вспо-
могательную роль при абстрактном существительном, а именно, является лексиче-
ской функцией со «стертым» значением. Словарь Ожегова и Шведовой указывает,
что имя заслон управляет дательным падежом в переносном значении «противо-
действие, препятствие». Причины этой синтаксической особенности неочевидны,
учитывая, что от глагола заслонять имя могло бы унаследовать только управление
родительным падежом с предлогом от (оно действительно наблюдается у суще-
ствительного и в конкретном значении заслоняющего объекта и в абстрактном
значении). Следуя основным идеям Грамматики Конструкции, мы должны пред-
положить, что управление дательным падежом возникает как особенность сочета-
ния имени со вспомогательным глаголом, то есть свойственно всей конструкции
в целом25. Помимо имени заслон, позицию прямого дополнения в данном фрейме
могут занимать имена преграда, препятствие, барьер26, ср. пример (11) с предло-
гом перед и пример (12) с дательным падежом:
(71) Но зарождение «социального заказа» <…> поставило перед Пудовкиным
непреодолимое препятствие и положило конец иллюзиям о возможности сво-
бодного творчества при советском режиме [Ю. П. Анненков. Дневник моих
встреч (1966)];

25
Управление дательным падежом также не выводится из свойств глагола; хотя в пери-
ферийных значениях дативный участник появляется в модели управления (ср. поставить
кому-л. телефон; горчичники; нового директора), этот участник может быть только одушев-
ленным (ср. здесь ставить заслон пошлости / контрабанде).
26
Из слов того же ряда со значением ‘преграда’ или ‘защита’ имя помеха не употребля-
ется в конструкции с перед, а имена заграждение, щит — в конструкции с дативом. В связи
с ограниченным объемом публикации обсуждение мотивированности лексических префе-
ренций остается за рамками данной работы.
1.4.1. Аннотация лексических конструкций в системе ФреймБанк 171

(72) Пьеса была написана на тему о побеждающей страсти двух юных существ,
страсти, преодолевающей все препятствия, которые ей ставит грубая и деспо-
тическая старость [М. А. Булгаков. Жизнь господина де Мольера (1932—1933)].

Фрейм «ставить заслон» описывает ситуацию, в которой сталкиваются интере-


сы двух сторон: контрагента, который обычно представляет угрозу для некоторо-
го лица или государства (далее — «мишень»), и агента, который либо совпадает
с объектом угрозы, либо действует от его имени, ср. (73). Агент ставит преграду,
чтобы не допустить отрицательного воздействия контрагента на мишень.
(73) А милиция, которая должна и обязана поставить заслон такой торговле
[наркотиками], наполовину глазки прикрыла и выжидает [Мэру, лично // «Сто-
лица», 1997, № 11].

Иногда, напротив, контрагент может иметь чистые намерения (ср. ситуацию


молодого дарования, стремящегося к своей цели в (71)), но преграда, возникающая
усилиями агента, не дает этим намерениям осуществиться. Имплицитно в ситуа-
ции присутствует также наблюдатель — субъект оценки. В случае, когда наблюда-
тель солидаризируется с агентом, негативно, как угроза, оценивается контрагент
или его намерения, ср. Это поставит заслон наркотикам, безработице, бездарям.
Если же симпатии наблюдателя на стороне контрагента, негативно оценивается
агент и его деятельность, ср. (71—72).
Лексемы, заполняющие глагольный слот конструкции, относятся к классу со-
здания: это, прежде всего, (по)ставить, а также создать и воздвигнуть. Позиция
контрагента не имеет специальных лексических ограничений и может заполняться
именем лица, природной силы, ситуации и т. д. (ср. заслон мигрантам / огню /
коррупции). То же можно сказать и о позиции агента: например, препятствие могут
ставить журналисты, художественный совет, закон о СМИ или добрые друже-
ские отношения.
Отвлекаясь от интересующих нас конструкций, заметим, что участник-контр-
агент может быть также оформлен с помощью пространственных предлогов на
пути (заслон на пути пожара), против (барьер против пьянства) и между (за-
слон между я и миром). Это помогает нам метафорически представить ситуацию
следующим образом: контрагент движется в направлении к мишени; агент ставит
преграду на его пути.
Имена заслон, преграда и т. п. употребляются также с глаголами существо-
вания / функционирования (служить заслоном), прекращения существования
(убрать заслон) и преодоления (преодолеть заслон), однако глаголы перечислен-
ных классов не могут выступать в конструкциях-трансформах. В первом случае
контрагент выражается именительным или творительным падежом, фрейм «уби-
рать заслон» не допускает дательного падежа, а во фрейме «преодолевать заслон»
контрагент Z может быть выражен только с помощью предложных конструкций
на пути Zgen и между Zins и Wins (где W — мишень). Тем не менее с семантической
172 1.4. Интерфейс морфосинтаксиса и семантики

точки зрения все указанные фреймы тесно связаны друг с другом, и можно предпо-
ложить, что в семантике фрейма «ставить заслон» содержится фоновое представ-
ление о том, что препятствие впоследствии может впоследствии быть убрано или
преодолено.

«Ставить задачу»
Фрейм «ставить задачу» включает довольно узкий круг контекстов: в роли
вспомогательного глагола может выступать только (по)ставить, а в качестве пря-
мого дополнения — имена задача, проблема, вопрос и требование.
(74) Школьному психологу совместно с учителем рекомендуется ставить перед
такими детьми задачи, которые будут им по силам [А. Луговская. Если ребе-
нок боится ходить в школу (2002)];
(75) Даже Президент собрал экономический блок в начале года / и поставил им
задачу до конца марта решить вопросы / связанные с малым бизнесом [Беседа на
телевидении С. Шустера и С. Борисова, НТВ, «Герой дня» (2002)];
(76) Новая война поставила артиллерии много новых задач [В. П. Катаев. Сын
полка (1944)].

В этом фрейме также присутствуют агент и контрагент. Как правило, в роли


обоих участников выступают лица, но агентом может быть также событие,
а контрагентом — коллективный участник (например, государство или артилле-
рия), ср. (74—76). Агент каузирует ситуацию, в которой устанавливается отноше-
ние между контрагентом и задачей: задача представляется как преграда, стоящая
перед контрагентом. Предполагается, что в дальнейшем контрагент должен будет
решить задачу, то есть преодолеть преграду. Наряду с дативом и предлогом перед,
контрагент может быть также выражен конструкцией с предлогом для, ср. ПФР не
ставит для себя задачу легализовать доходы населения [Е. Гостева. Пенсионерам