Исследование по компьютерной лингвистике

Национальный исследовательский университет
�Высшая школа экономики�
Лицей
Исследовательская работа
Лингвистические признаки �сложных� слов
Выполнил:
Дмитрий Сухотин, 10И1
Москва
2020
Содержание
1 Введение 2
2 Длина слова как фактор, влияющий на сложность его объяснения 3
3 Длина определения слова и время, затраченное на подбор такого определения как

фактор, характеризующий сложность данного слова 3
3.1 Легкий корпус . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.2 Средний корпус . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3 Сложный корпус . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4 Род существительного как фактор, влияющий на сложность его объяснения 6
5 Частота употребления слова в живой устной речи как фактор, влияющий на сложность
его объяснения 7
5.1 Анализ количества общеупотребительных слов в списке самых сложных слов из трех корпусов 7
5.2 Анализ количества общеупотребительных слов в каждом из корпусов . . . . . . . . . . . . . 8
6 Заключение 9
1
1 Введение
Общие сведения. Шляпа – командно-парная интеллектуальная игра, в которой игрок должен за неболь-
шое время (в различных вариациях правил игры это время варьируется от 20 до 60 секунд, однако в
данном исследовании для определенности будет взято время, равное 30 секундам) объяснить как можно
больше слов, чтобы его партнер их отгадал. Таким образом, выигрывает команда, игроки которой объяс-
нили друг другу больше слов за отведенное время. Количество угаданных слов зависит от �правильности�
объяснения, то есть, от того, насколько быстро игрок может подобрать понятное для партнера определение
данного слова. Сложность такого подбора измерить достаточно непросто, ведь существует как минимум
два фактора имеющих сильное влияние на возможность быстрого подбора. Введем понятие �сложность
слова� и будем использовать его далее, понимая под ним сложность подбора �подходящего определения�
m
этого слова. Сложность будем измерять как часть времени, отведенного игрокам на объяснение всех
n
n
слов. Введем коэффициент сложности слова h = . Таким образом, h 2 (1; +1], и чем больше h,
n m
тем сложнее слово. Данный параметр определяется экспериментально.
Замечание. Важно заметить, что значение +1 включено в наш полуинтервал, так как, если объяс-
нение слова заняло все отведенное время, то очко за это слово не засчитывается, а значит это слово
обладает бесконечной относительной сложностью.
Стоит также разграничить два случая: в первом случае данное слово гипотетически может быть
объяснено, то есть человек имеет в голове четкий план его объяснения, но не укладывается в отве-
денное время, во втором случае объясняющий не имеет четкого плана объяснения данного слова и не
в состоянии его объяснить даже за минуту. Таким образом у нас будет два вида бесконечно сложных
слов: слова со счетно бесконечной сложностью @0 и слова с континуальной сложностью @1 . Критерий l
для таких слов будет равен @0 , так как количество слов выражается натуральным числом (множество
натуральных чисел N счетно бесконечно). Понятно, что слова с континуальной сложностью являют-
ся наиболее сложными, объяснить которые способен только человек, обладающий глубокими языковыми
познаниями и богатым словарным запасом.
В данном исследовании мы рассмотрим лингвистические факторы, оказывающие влияние на коэф-

фициент h. После выявления соответствующих факторов будет проведен эксперимент, во время которого
будет рассчитан коэффициент h для специально подобранных слов. Слова для данного эксперимента
взяты из частотного списка лемм русского языка и условно разделены на три набора разных уровней
сложности: Легкий, Средний и Сложный в соответствии с порядковым номером в упорядоченном по убы-
ванию частоты частотном списке лемм. Для более корректного определения сложности слова введем еще
один числовой параметр, а именно среднее количество слов !, произносимых человеком за 30 секунд,
которое примерно равно 60. Так у нас появится еще одна характеристика сложности слова – количество
!t
слов в его определении l, равное , где t – время, затраченное на определение, после которого напарник
30
назвал загаданное слово.
Стоит также пояснить некоторую неопределенность, связанную с данным критерием, а именно, ситу-
ацию, когда человек тратит время не на определение слова, а на придумывание этого определения. В
таком случае коэффициент l уже не будет отражать количество слов в определении, он будет показывать,
сколько слов можно было бы сказать за потраченное время. В данном исследовании мы будем считать,
что человек на самом деле произнес все эти слова, и таким образом получилось длинное определение.
Здесь мы полагаем, что продолжительный поиск определения эквивалентен быстрому подбору длинного
определения.
2
Цель исследовательской работы. Настоящая работа преследует следующие исследовательские це-
ли:
• Экспериментально выявить сложные для объяснения слова
• Установить лингвистические признаки, характеризующие сложность найденных слов
Для достижения упомянутых целей поставлены следующие задачи:
• Составить три корпуса слов для игры в Шляпу различных уровней сложности на основе частотного
списка лемм русского языка
• Написать компьютерную программу для игры в Шляпу на языке Python
• Провести 5 раундов игры в Шляпу с использованием каждого из трех корпусов слов
• Собрать статистические данные для вычисления значений параметров, определенных критериями

сложности слов
• Представить полученные данные для каждого корпуса в виде таблицы
• Проанализировать полученные данные и сделать выводы о критериях, характеризующих сложность

слов
2 Длина слова как фактор, влияющий на сложность его объясне-

ния
Рассмотрим три корпуса со словами различных уровней сложности и рассчитаем среднюю длину слов
в каждом корпусе. Алгоритм ее расчета предельно прост: необходимо сумму длин всех слов разделить
на количество слов в выбранном корпусе. Эта величина для легкого, среднего и сложного корпусов рав-
на соответственно 6,74, 7,93 и 8,33. Видно, что чем выше уровень сложности слов корпуса, тем длиннее
сами слова, значит, длину слов можно считать одним из факторов, влияющих на сложность самостоя-
тельного подбора определения для выбранного слова. Основываясь на данном критерии, оценим разницу
в сложности слов легкого и среднего, а также среднего и сложного корпусов. Так, разница в сложно-
7,93 6,74
сти слов легкого и среднего корпусов составляет 6,74 · 100 = 17,66%. Теперь вычислим, насколько
сложнее подобрать подходящее определение для слов из сложного корпуса, чем для слов из среднего:
8,33 7,93
7,93 · 100 = 5,04%. Таким образом, данный критерий показывает, что разница в сложности слов из
легкого и среднего корпусов более, чем в три раза превышает таковую для слов из среднего и сложного
корпусов.
3 Длина определения слова и время, затраченное на подбор тако-

го определения как фактор, характеризующий сложность дан-
ного слова
Проверить, действительно ли слова из Среднего корпуса намного сильнее отличаются по сложности от
слов из Легкого корпуса, чем слова из Сложного корпуса от слов из Среднего, нам поможет дополнитель-
ный критерий, упомянутый во введении, а именно величина l, позволяющая узнать, насколько длинным
будет определение выбранного слова, которое даст среднестатистический человек (в данном исследовании
3
будем считать, что напарники не обладают специальными знаниями, например, общими воспоминаниями,
позволяющими им значительно сократить время объяснения некоторого слова).
Для приблизительного вычисления данной величины было проведено в общей сложности 15 раундов
игры в Шляпу: каждый из трех корпусов был задействован в 5 раундах. Соревновались в скоростном
объяснении слов и молниеносном угадывании три пары людей. Сначала было вычислено среднее количе-
ство очков (за каждое верно угаданное слово пара получала одно очко), полученных командой за один
раунд. Игры проводились только в стандартном формате (без объяснения слов пантомимой или подбора
ассоциаций). Далее мы приведем и проанализируем полученные в ходе эксперимента данные для каждого
из трех корпусов.
3.1 Легкий корпус

Эксперимент начался с использования Легкого корпуса для игры в шляпу. Во время игры использовался
секундомер для измерения времени объяснения и отгадывания слов. Всего было проведено 5 раундов
игры в шляпу с использованием Легкого корпуса. В общей сложности в игре было задействовано 100
слов. Для каждого из них были рассчитаны соответствующие параметры, характеризующие сложность
слов. В приведенных ниже таблицах по убыванию �сложности� расположены 15 самых сложных слов из
всех сыгранных, согласно установленным критериям. Сортировка по сложности слов в данной таблице
основана на критерии l, который помогает оценить, сколько слов потребовалось на определение данного
слова.
Слово секретарь соглашение постановление представление

Длина слова 9 10 13 13
Коэффициент h 2,3 2,3 2,3 2
Коэффициент l 34 34 34 30
Слово понятие слой требование воля комиссия

Длина слова 7 4 10 4 8
Коэффициент h 2 1,87 1,67 1,66 1,59
Коэффициент l 30 28 24 24 22
Слово течение пьеса политика спектакль пространство усилие

Длина слова 7 5 8 9 12 6
Коэффициент h 1,5 1,5 1,43 1,36 1,3 1,25
Коэффициент l 20 20 18 16 14 12
Замечание. Заметим, что, несмотря на то, что таблица отсортирована по строке �Коэффициент l�,
строка �Коэффициент h� также оказалась отсортирована по убыванию значений. Отсюда мы можем
сделать вывод о том, что, используя любой из этих критериев, можно объективно оценить сложность
выбранного слова.
Теперь посмотрим, как средняя длина первых 15 по сложности слов из Легкого корпуса соотносится с
ранее установленным критерием. Для начала, найдем среднюю длину слова, которая равна
13 + 10 + 9 + 13 + 7 + 4 + 10 + 4 + 8 + 7 + 5 + 8 + 9 + 12 + 6
= 8, 33.
15
4
Теперь обратимся к главе 2, где была установлена средняя длина слов в каждом из трех корпусов и про-
верим, к какому из трех значений ближе всего только что вычисленная средняя длина �сложных� слов из
Легкого корпуса. Итак, в главе 2 было установлено, что средние длины слов в Легком, Среднем и Слож-
ном корпусах равны соответственно 6,74, 7,93 и 8,33. Соотнося полученные данные, мы обнаруживаем,
что средняя длина только что исследованных 15 слов в точности равна средней длине слов из Сложного
корпуса!
Отсюда можем заключить, что оценка длины слова, длины его определения и времени, затраченного
на формулировку этого определения позволяет весьма точно оценить сложность данного слова.
3.2 Средний корпус

Для Среднего корпуса было проведено аналогичное исследование, в ходе которого подтвердилась гипоте-
за о том, что сложность слов в этом корпусе достаточно сильно превосходит таковую в Легком корпусе.
Прежде всего, об этом можно судить по времени, затраченном на объяснение каждого слова. Однако,
критерии, разработанные в данном исследовании подкрепляют данную гипотезу. Ниже будут приведены
фрагменты таблицы, содержащей первые 15 позиций в списке из 100 сыгранных слов, а также рассчитан-
ные значения каждого из критериев.
Слово доминирование ухищрение инок плюрализм бдение

Коэффициент h @0 @0 15 15 10
Слово неурядица зарево универсальность полустанок посудина

Коэффициент h 7,5 7,5 4,28 3,33 3,33
Слово предвидение соискатель гранула умозаключение департамент

Коэффициент h 3 3 3 2,5 2,14
Мы можем заметить в данной таблице наличие двух слов со счетно бесконечной сложностью, согласно
критерию h, это значит, что данное слово не было успешно объяснено и угадано за отведенные 30 секунд,
однако за минуту эти слова объяснить удалось.
Средняя длина этих слов в 1,3 раза больше, чем средняя длина слов из Сложного корпуса, что в
очередной раз подтверждает гипотезу о том, что если слово является длинным, (более 7 букв1 ) то с
большой вероятностью оно окажется сложным для объяснения, однако обратное неверно: в приведенной
выше таблице есть такие слова как инок, бдение, зарево и гранула, длина которых не превосходит 7 букв,
однако, при объяснении данных слов у игроков возникают серьезные затруднения. На данном примере
мы убеждаемся, что длина слова является необходимым, но не достаточным условием для того, чтобы его
можно было назвать сложным, следовательно, существуют другие критерии, позволяющие более точно
установить, насколько сложно будет дать подходящее определение для выбранного слова.
1 Такова средняя длина слова в русском языке.
5
Разработкой и исследованием таких критериев мы займемся после анализа списка самых сложных
слов из Сложного корпуса.
3.3 Сложный корпус

Сложный корпус рассчитан на опытных игроков с большим словарным запасом и неординарным мыш-
лением, однако в данном исследовании в эксперименте участвовали неопытные игроки, не обладающие
общихными знаниями сложных слов. В связи с этим многие слова Сложного корпуса оказались контину-
ально сложными для игроков. Ниже приведена таблица, в которую включены только слова континуальной
и счетно бесконечной сложности, так как таких слов было большинство.
Слово притязание пюпитр ватага амплификация пепелище клерк варево мытарство

Длина слова 10 6 6 12 8 5 6 9
Коэффициент h @1 @1 @1 @1 @1 @1 @1 @1
Коэффициент l @0 @0 @0 @0 @0 @0 @0 @0
Слово межевание изобличитель птицефабрика одеяние ошеломление чертовщина уступка

Длина слова 9 12 12 7 11 10 7
Коэффициент h @1 @1 @0 @0 @0 30 15
Коэффициент l @0 @0 60 60 60 58 56
В данной таблице абсолютное большинство слов имеет бесконечную сложность различной мощности2 ,
однако количество букв в некоторых из них меньше, чем 7, а значит длина слова не является необходимым
условием для того, чтобы его можно было назвать сложным.
4 Род существительного как фактор, влияющий на сложность его

объяснения
Проанализируем приведенные выше фрагменты таблицы слов из Сложного корпуса и составим статистику
родовой принадлежности слов:
Мужской род: 3 слова

Женский род 5 слов
Средний род 7 слов
Исходя из данных таблицы, можем заключить, что слова среднего рода в большинстве случаев яв-
ляются наиболее трудными для объяснения, а слова мужского рода объяснять проще всего. Попробуем
разобраться, почему так происходит. Для этого вычислим количество слов мужского, женского и среднего
родов в корпусе, составленном на основе частотного списка лемм русского языка. Данный корпус состоит
из 21680 слов.
2 Речь идет о мощности бесконечных множеств – счетно бесконечная (существует биекция с множеством N натуральных
чисел) или континуальная, равная по можности множеству действительных чисел R.
6
Количество слов мужского рода: 10150
Количество слов женского рода: 8031
Количество слов среднего рода: 3499
Таким образом, слова мужского рода составляют 46,8% от всех слов в данном корпусе, являясь самыми
распространенными, в то время как слова среднего рода составляют лишь 16,1% от всех слов, что почти в 3
раза меньше. Полученные нами данные очень близки к данным, полученным кандидатом филологических
наук Сичинава Дмитрием Владимировичем на основе анализа Национального корпуса русского языка 3 ,
согласно которым доля слов мужского рода в русском языке составляет 46%.
Так, в силу своей высокой распространенности в русском языке, слова мужского рода наиболее лег-
ко поддаются объяснению, так как эти слова наиболее часто употребляются в речи, а значит, с ними
существует достаточно большое количество общеизвестных словосочетаний, что сильно облегчает их объ-
яснение.
5 Частота употребления слова в живой устной речи как фактор,

влияющий на сложность его объяснения
В предыдущих главах были составлены три списка самых сложных слов из каждого корпуса. Слова отби-
рались экспериментально с подсчетом численных критериев сложности. Мы выяснили, что слова среднего
рода объяснить сложнее в силу низкой частоты их встречаемости в Национальном корпусе русского языка,
однако есть критерий, который мы не учли.
Человек склонен излагать информацию, используя слова и выражения из повседневной лексики, сло-
ва, которые он чаще использует, ему проще объяснить, так как с этими словами существует множество
общеупотребительных выражений. Таким образом, для оценки сложности слова можно проанализировать
частотный словарь живой устной речи4 , чтобы оценить, насколько частно оно употребляется людьми в
обычной жизни. Вопрос, поставленный для исследования в данной главе: сколько слов среднего рода из
списка самых сложных слов из каждого корпуса не встречается в частотном словаре живой устной речи.
5.1 Анализ количества общеупотребительных слов в списке самых сложных

слов из трех корпусов
Для начала, приведем полный список, состоящий из 45 слов:
Секретарь, соглашение, постановление, представление, понятие, слой, требование, воля, комиссия, те-
чение, пьеса, политика, спектакль, пространство, усилие, доминирование, ухищрение, инок, плюрализм,
бдение, неурядица, зарево, универсальность, полустанок, посудина, предвидение, соискатель, гранула,
умозаключение, департамент, притязание, пюпитр, ватага, амплификация, пепелище, клерк, варево,
мытарство, межевание, изобличитель, птицефабрика, одеяние, ошеломление, чертовщина, уступка.
Назовем слово редким, если оно не входит в частотный список лемм живой устной речи и общеупотре-
бительным в противном случае. Так, из приведенных слов редкими являются: соглашение, постановле-
ние, представление, понятие, слой, требование, воля, комиссия, течение, пьеса, политика, спектакль,
пространство, усилие, доминирование, ухищрение, инок, плюрализм, бдение, неурядица, зарево, уни-
версальность, полустанок, посудина, предвидение, соискатель, гранула, умозаключение, департамент,
3 Сичинава Д.В. Род существительных. Материалы для проекта корпусного описания русской грамматики (http://
rusgram.ru). На правах рукописи. М. 2011. URL: http://rusgram.ru/\T2A\CYRR\T2A\cyro\T2A\cyrd#8
4 О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах Национального корпуса
русского языка). М.: Азбуковник, 2009. [Электронный ресурс] URL: http://dict.ruslang.ru/freq.php?
7
притязание, пюпитр, ватага, амплификация, пепелище, клерк, варево, мытарство, межевание, изоб-
личитель, птицефабрика, одеяние, ошеломление, чертовщина, уступка. Всего 35 слов, 17 из которых
среднего рода и 10 слов женского рода.
Соответственно, в список общеупотребительных слов вошли такие слова как: секретарь, представ-
ление, понятие, слой, воля, комиссия, течение, пьеса, спектакль, пространство. Всего 10 слов, 4 из
которых среднего рода и 3 женского рода.
5.2 Анализ количества общеупотребительных слов в каждом из корпусов

Рассмотрим три корпуса: Легкий (500 слов), Средний (535 слов) и Сложный (500 слов) и найдем про-
центное соотношение количества употребительных и редких слов в каждом из них, таким образом у нас
появится еще одна сравнительная характеристика сложности данных корпусов, которую мы сравним с
полученной ранее в главе 2.
Так, в Легком корпусе 425 общеупотребительных слов и 75 редких. Таким образом, процент редких
слов составляет 15%.
Проделав те же вычисления для Среднего корпуса, находим, что процент редких слов в нем состав-
ляет составляет 85%, что подтверждает полученный ранее результат о значительном превосходстве по
сложности Среднего корпуса над Легким.
Тем временем в Сложном корпусе процент редких слов, не входящих в повседневную лексику, состав-
ляет 96,6%, а значит, можно с уверенностью уверждать, что мы не только доказали предположение 2
главы, но и усилили результат засчет более внушительной процентной разницы (5,8 раза по сравнению с
3,5 раза), что позволяет нам сделать вывод о том, что Средний корпус значительно превосходит Легкий
по сложности, чего нельзя сказать про превосходство Сложного корпуса над Средним.
8
6 Заключение
В настоящем исследовании игра �Шляпа� изучена с лингвистической точки зрения. Рассмотрены различ-
ные факторы, влияющие на сложность объяснения того или иного слова, а также позволяющие оценить
ее, опираясь лишь на морфологические признаки, не включающие в себя лексическое значение слова. По
итогам проведенного исследования можно сделать следующие выводы:
• Если длина слова превышает 7 букв, то, с большой вероятностью у неподготовленного человека его
объяснение вызовет затруднения
• Обратное утверждение неверно: не все сложные слова состоят более, чем из 7 букв
• Объективно отсортировать слова по сложности можно только проведя соответствующий экспери-

мент и вычислив значения параметров h и l
• Опираясь на соотношение количества слов мужского, женского и среднего родов в русском языке,
можно утверждать, что слова среднего рода тяжелее объяснить из-за их нераспространенности в
руссом языке
• Данные эксперимента очень точно отражают реальную статистику � среди самых сложных слов в
каждом корпусе слова среднего рода составляют 46,7 53,3% от всех слов
• Оценить разницу в сложности слов различных корпусов позволяют два критерия: средняя длина
слова в корпусе и количество общеупотребительных слов нем
В процессе работы над исследованием возникли следующие проблемы, которые впоследствие были
решены:
• Сначала было тяжело подобрать исчисляемые критерии, с помощью которых можно объективно
оценить сложность слова
• Некоторые критерии было необходимо расширять и дополнять в виду их недостаточной точности
9
Список литературы
[1] Сичинава Д.В. Род существительных. Материалы для проекта корпусного описания русской грамма-
тики. На правах рукописи. М. 2011. [Электронный ресурс]. Режим доступа: http://rusgram.ru/\T2A\
CYRR\T2A\cyro\T2A\cyrd#8 (дата обращения 23.04.20)
[2] О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах
Национального корпуса русского языка). М.: Азбуковник, 2009. [Электронный ресурс]. Режим доступа:
http://dict.ruslang.ru/freq.php? (дата обращения 28.04.20)
10

Исследование по компьютерной лингвистике

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Исследование по компьютерной лингвистике

Загружено:

Авторское право:

Доступные форматы

Национальный исследовательский университет

�Высшая школа экономики�

Лингвистические признаки �сложных� слов

2 Длина слова как фактор, влияющий на сложность его объяснения 3

3 Длина определения слова и время, затраченное на подбор такого определения как

4 Род существительного как фактор, влияющий на сложность его объяснения 6

В данном исследовании мы рассмотрим лингвистические факторы, оказывающие влияние на коэф-

• Экспериментально выявить сложные для объяснения слова

• Установить лингвистические признаки, характеризующие сложность найденных слов

Для достижения упомянутых целей поставлены следующие задачи:

• Написать компьютерную программу для игры в Шляпу на языке Python

• Провести 5 раундов игры в Шляпу с использованием каждого из трех корпусов слов

• Собрать статистические данные для вычисления значений параметров, определенных критериями

• Представить полученные данные для каждого корпуса в виде таблицы

• Проанализировать полученные данные и сделать выводы о критериях, характеризующих сложность

2 Длина слова как фактор, влияющий на сложность его объясне-

3 Длина определения слова и время, затраченное на подбор тако-

3.1 Легкий корпус

Слово секретарь соглашение постановление представление

Слово понятие слой требование воля комиссия

Слово течение пьеса политика спектакль пространство усилие

3.2 Средний корпус

Слово доминирование ухищрение инок плюрализм бдение

Слово неурядица зарево универсальность полустанок посудина

Слово предвидение соискатель гранула умозаключение департамент

3.3 Сложный корпус

Слово притязание пюпитр ватага амплификация пепелище клерк варево мытарство

Слово межевание изобличитель птицефабрика одеяние ошеломление чертовщина уступка

4 Род существительного как фактор, влияющий на сложность его

Мужской род: 3 слова

5 Частота употребления слова в живой устной речи как фактор,

5.1 Анализ количества общеупотребительных слов в списке самых сложных

русского языка). М.: Азбуковник, 2009. [Электронный ресурс] URL: http://dict.ruslang.ru/freq.php?

5.2 Анализ количества общеупотребительных слов в каждом из корпусов

• Объективно отсортировать слова по сложности можно только проведя соответствующий экспери-

• Некоторые критерии было необходимо расширять и дополнять в виду их недостаточной точности

Вам также может понравиться