Академический Документы
Профессиональный Документы
Культура Документы
Лицей
Исследовательская работа
Выполнил:
Дмитрий Сухотин, 10И1
Москва
2020
Содержание
1 Введение 2
5 Частота употребления слова в живой устной речи как фактор, влияющий на сложность
его объяснения 7
5.1 Анализ количества общеупотребительных слов в списке самых сложных слов из трех корпусов 7
5.2 Анализ количества общеупотребительных слов в каждом из корпусов . . . . . . . . . . . . . 8
6 Заключение 9
1
1 Введение
Общие сведения. Шляпа – командно-парная интеллектуальная игра, в которой игрок должен за неболь-
шое время (в различных вариациях правил игры это время варьируется от 20 до 60 секунд, однако в
данном исследовании для определенности будет взято время, равное 30 секундам) объяснить как можно
больше слов, чтобы его партнер их отгадал. Таким образом, выигрывает команда, игроки которой объяс-
нили друг другу больше слов за отведенное время. Количество угаданных слов зависит от �правильности�
объяснения, то есть, от того, насколько быстро игрок может подобрать понятное для партнера определение
данного слова. Сложность такого подбора измерить достаточно непросто, ведь существует как минимум
два фактора имеющих сильное влияние на возможность быстрого подбора. Введем понятие �сложность
слова� и будем использовать его далее, понимая под ним сложность подбора �подходящего определения�
m
этого слова. Сложность будем измерять как часть времени, отведенного игрокам на объяснение всех
n
n
слов. Введем коэффициент сложности слова h = . Таким образом, h 2 (1; +1], и чем больше h,
n m
тем сложнее слово. Данный параметр определяется экспериментально.
Замечание. Важно заметить, что значение +1 включено в наш полуинтервал, так как, если объяс-
нение слова заняло все отведенное время, то очко за это слово не засчитывается, а значит это слово
обладает бесконечной относительной сложностью.
Стоит также разграничить два случая: в первом случае данное слово гипотетически может быть
объяснено, то есть человек имеет в голове четкий план его объяснения, но не укладывается в отве-
денное время, во втором случае объясняющий не имеет четкого плана объяснения данного слова и не
в состоянии его объяснить даже за минуту. Таким образом у нас будет два вида бесконечно сложных
слов: слова со счетно бесконечной сложностью @0 и слова с континуальной сложностью @1 . Критерий l
для таких слов будет равен @0 , так как количество слов выражается натуральным числом (множество
натуральных чисел N счетно бесконечно). Понятно, что слова с континуальной сложностью являют-
ся наиболее сложными, объяснить которые способен только человек, обладающий глубокими языковыми
познаниями и богатым словарным запасом.
Стоит также пояснить некоторую неопределенность, связанную с данным критерием, а именно, ситу-
ацию, когда человек тратит время не на определение слова, а на придумывание этого определения. В
таком случае коэффициент l уже не будет отражать количество слов в определении, он будет показывать,
сколько слов можно было бы сказать за потраченное время. В данном исследовании мы будем считать,
что человек на самом деле произнес все эти слова, и таким образом получилось длинное определение.
Здесь мы полагаем, что продолжительный поиск определения эквивалентен быстрому подбору длинного
определения.
2
Цель исследовательской работы. Настоящая работа преследует следующие исследовательские це-
ли:
• Составить три корпуса слов для игры в Шляпу различных уровней сложности на основе частотного
списка лемм русского языка
3
будем считать, что напарники не обладают специальными знаниями, например, общими воспоминаниями,
позволяющими им значительно сократить время объяснения некоторого слова).
Для приблизительного вычисления данной величины было проведено в общей сложности 15 раундов
игры в Шляпу: каждый из трех корпусов был задействован в 5 раундах. Соревновались в скоростном
объяснении слов и молниеносном угадывании три пары людей. Сначала было вычислено среднее количе-
ство очков (за каждое верно угаданное слово пара получала одно очко), полученных командой за один
раунд. Игры проводились только в стандартном формате (без объяснения слов пантомимой или подбора
ассоциаций). Далее мы приведем и проанализируем полученные в ходе эксперимента данные для каждого
из трех корпусов.
Замечание. Заметим, что, несмотря на то, что таблица отсортирована по строке �Коэффициент l�,
строка �Коэффициент h� также оказалась отсортирована по убыванию значений. Отсюда мы можем
сделать вывод о том, что, используя любой из этих критериев, можно объективно оценить сложность
выбранного слова.
Теперь посмотрим, как средняя длина первых 15 по сложности слов из Легкого корпуса соотносится с
ранее установленным критерием. Для начала, найдем среднюю длину слова, которая равна
13 + 10 + 9 + 13 + 7 + 4 + 10 + 4 + 8 + 7 + 5 + 8 + 9 + 12 + 6
= 8, 33.
15
4
Теперь обратимся к главе 2, где была установлена средняя длина слов в каждом из трех корпусов и про-
верим, к какому из трех значений ближе всего только что вычисленная средняя длина �сложных� слов из
Легкого корпуса. Итак, в главе 2 было установлено, что средние длины слов в Легком, Среднем и Слож-
ном корпусах равны соответственно 6,74, 7,93 и 8,33. Соотнося полученные данные, мы обнаруживаем,
что средняя длина только что исследованных 15 слов в точности равна средней длине слов из Сложного
корпуса!
Отсюда можем заключить, что оценка длины слова, длины его определения и времени, затраченного
на формулировку этого определения позволяет весьма точно оценить сложность данного слова.
Мы можем заметить в данной таблице наличие двух слов со счетно бесконечной сложностью, согласно
критерию h, это значит, что данное слово не было успешно объяснено и угадано за отведенные 30 секунд,
однако за минуту эти слова объяснить удалось.
Средняя длина этих слов в 1,3 раза больше, чем средняя длина слов из Сложного корпуса, что в
очередной раз подтверждает гипотезу о том, что если слово является длинным, (более 7 букв1 ) то с
большой вероятностью оно окажется сложным для объяснения, однако обратное неверно: в приведенной
выше таблице есть такие слова как инок, бдение, зарево и гранула, длина которых не превосходит 7 букв,
однако, при объяснении данных слов у игроков возникают серьезные затруднения. На данном примере
мы убеждаемся, что длина слова является необходимым, но не достаточным условием для того, чтобы его
можно было назвать сложным, следовательно, существуют другие критерии, позволяющие более точно
установить, насколько сложно будет дать подходящее определение для выбранного слова.
1 Такова средняя длина слова в русском языке.
5
Разработкой и исследованием таких критериев мы займемся после анализа списка самых сложных
слов из Сложного корпуса.
В данной таблице абсолютное большинство слов имеет бесконечную сложность различной мощности2 ,
однако количество букв в некоторых из них меньше, чем 7, а значит длина слова не является необходимым
условием для того, чтобы его можно было назвать сложным.
Исходя из данных таблицы, можем заключить, что слова среднего рода в большинстве случаев яв-
ляются наиболее трудными для объяснения, а слова мужского рода объяснять проще всего. Попробуем
разобраться, почему так происходит. Для этого вычислим количество слов мужского, женского и среднего
родов в корпусе, составленном на основе частотного списка лемм русского языка. Данный корпус состоит
из 21680 слов.
2 Речь идет о мощности бесконечных множеств – счетно бесконечная (существует биекция с множеством N натуральных
чисел) или континуальная, равная по можности множеству действительных чисел R.
6
Количество слов мужского рода: 10150
Количество слов женского рода: 8031
Количество слов среднего рода: 3499
Таким образом, слова мужского рода составляют 46,8% от всех слов в данном корпусе, являясь самыми
распространенными, в то время как слова среднего рода составляют лишь 16,1% от всех слов, что почти в 3
раза меньше. Полученные нами данные очень близки к данным, полученным кандидатом филологических
наук Сичинава Дмитрием Владимировичем на основе анализа Национального корпуса русского языка 3 ,
согласно которым доля слов мужского рода в русском языке составляет 46%.
Так, в силу своей высокой распространенности в русском языке, слова мужского рода наиболее лег-
ко поддаются объяснению, так как эти слова наиболее часто употребляются в речи, а значит, с ними
существует достаточно большое количество общеизвестных словосочетаний, что сильно облегчает их объ-
яснение.
7
притязание, пюпитр, ватага, амплификация, пепелище, клерк, варево, мытарство, межевание, изоб-
личитель, птицефабрика, одеяние, ошеломление, чертовщина, уступка. Всего 35 слов, 17 из которых
среднего рода и 10 слов женского рода.
Соответственно, в список общеупотребительных слов вошли такие слова как: секретарь, представ-
ление, понятие, слой, воля, комиссия, течение, пьеса, спектакль, пространство. Всего 10 слов, 4 из
которых среднего рода и 3 женского рода.
8
6 Заключение
В настоящем исследовании игра �Шляпа� изучена с лингвистической точки зрения. Рассмотрены различ-
ные факторы, влияющие на сложность объяснения того или иного слова, а также позволяющие оценить
ее, опираясь лишь на морфологические признаки, не включающие в себя лексическое значение слова. По
итогам проведенного исследования можно сделать следующие выводы:
• Если длина слова превышает 7 букв, то, с большой вероятностью у неподготовленного человека его
объяснение вызовет затруднения
• Обратное утверждение неверно: не все сложные слова состоят более, чем из 7 букв
• Опираясь на соотношение количества слов мужского, женского и среднего родов в русском языке,
можно утверждать, что слова среднего рода тяжелее объяснить из-за их нераспространенности в
руссом языке
• Данные эксперимента очень точно отражают реальную статистику � среди самых сложных слов в
каждом корпусе слова среднего рода составляют 46,7 53,3% от всех слов
• Оценить разницу в сложности слов различных корпусов позволяют два критерия: средняя длина
слова в корпусе и количество общеупотребительных слов нем
В процессе работы над исследованием возникли следующие проблемы, которые впоследствие были
решены:
• Сначала было тяжело подобрать исчисляемые критерии, с помощью которых можно объективно
оценить сложность слова
9
Список литературы
[1] Сичинава Д.В. Род существительных. Материалы для проекта корпусного описания русской грамма-
тики. На правах рукописи. М. 2011. [Электронный ресурс]. Режим доступа: http://rusgram.ru/\T2A\
CYRR\T2A\cyro\T2A\cyrd#8 (дата обращения 23.04.20)
[2] О. Н. Ляшевская, С. А. Шаров, Частотный словарь современного русского языка (на материалах
Национального корпуса русского языка). М.: Азбуковник, 2009. [Электронный ресурс]. Режим доступа:
http://dict.ruslang.ru/freq.php? (дата обращения 28.04.20)
10