Вы находитесь на странице: 1из 13

УДК 81’33 + 81’32 + 81’322.

Г. Я. Мартыненко 1,  Ю. Д. Григорьев 2

1
Санкт-Петербургский государственный университет
Университетская наб., 11, Санкт-Петербург, 199034, Россия

2
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»
ул. Профессора Попова, 5, Санкт-Петербург, 197376, Россия

g.martynenko@spbu.ru, yuri_grigoriev@mail.ru

ИНДЕКСЫ КОНЦЕНТРАЦИИ ЧАСТОТНЫХ СЛОВАРЕЙ

Рассматривается система индексов, характеризующих частотную концентрацию и рассеяние лексических еди-


ниц в частотных словарях. Если представить частотный словарь в форме рангового распределения, то к нему может
быть применен классический индекс итальянского ученого К. Джини, а также индексы отечественного статисти-
ка В. П. Трофимова и два индекса Г. Я. Мартыненко, основанные на ранговом среднем. Исследуются связи меж-
ду данными индексами, показана возможность их применения при исследовании структуры частотных словарей.
Исследуемые индексы представляют собой важные обобщающие статистики, позволяющие сравнивать частотные
словари друг с другом с точки зрения экспликации феномена концентрации и рассеяния. Рассматриваются класси-
ческие статистические распределения (Ципфа – Парето, Вейбулла, логистическое) в ранговой форме и аналитиче-
ские выражения, соответствующие этим распределениям. Возможность применения рассматриваемых индексов
концентрации показана на материале трех частотных словарей художественной прозы (А. П. Чехов, Л. Н. Андреев
и  А. И. Куприн), специализированного словаря по электронике и двух малых частотных словарей.
Ключевые слова: частотный словарь, автоматический анализ текста, ранговое распределение, статусное рас-
пределение, концентрация, рассеяние, ранговое среднее, индекс концентрации, индекс Джини, индекс Трофимова,
индексы Мартыненко, распределение Ципфа, распределение Вейбулла, логистическое распределение.

Введение аппроксимация эмпирических ранговых рас-


пределений аналитическими выражениями,
Ранговые распределения являются сред- их расслоение на ядро и периферию, оцени-
ством и объектом исследования во многих вание моментных характеристик и индексов,
областях науки: лингвистике, науковедении, изучение закономерностей неравномерно-
информационных технологиях, технетике, сти (концентрации и рассеяния) частотных
интернет-технологиях, системном анализе и масс и др. Статья посвящена рассмотрению
др. (см., например, [Горькова, 1988; Кудрин, последнего вопроса. Наша задача состоит в
1980; Мартыненко, 1988; Шрейдер, Шаров, систематизации индексов концентрации, ко-
1982; Яглом, 1980]). Представляют интерес торые используются в продуктах упорядочи-
как теоретические, так и эмпирические ран- вающей деятельности лингвиста, например
говые распределения. в частотных словарях. Статья имеет преиму-
При построении ранговых распределений щественно методический характер, привле-
актуальными являются такие процедуры, как кая внимание лингвистов к малознакомому

Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей // Вестн. Новосиб. гос. ун-та. Се-
рия: Лингвистика и межкультурная коммуникация. 2017. Т. 15, № 1. С. 41–53.

ISSN 1818-7935
Вестник НГУ. Серия: Лингвистика и межкультурная коммуникация. 2017. Том 15, № 1
© Г. Я. Мартыненко, Ю. Д. Григорьев, 2017
42 Компьютерная лингвистика

им инструментарию. Этому способствуют та (имя в таком распределении «исчезает»);


практические подсчеты, произведенные на в спектровом распределении роль независи-
материале некоторых частотных словарей, мой переменной выполняет частота лекси-
интерпретация индексов концентрации на ческой единицы, а роль зависимой  – число
примере популярных в лингвистике распре- единиц, обладающих данной частотой [Не-
делений Ципфа – Парето и Вейбулла, а также шитой, 1968; Тулдава, 1986; Мартыненко,
логистической функции. 1989].
Статья построена следующим образом. Детальный перечень способов система-
В разделе 1 говорится о различных способах тизации лексико-статистических данных
упорядочивания лингвостатистических дан- представлен в табл. 1. Показано, что при
ных и месте ранговых распределений в этой переходе от кумулятивного распределения к
системе упорядочивания, обсуждается значи- ранговому значения случайной переменной
мость феномена концентрации. В разделе 2 и их статистические веса меняются местами:
вводится определение рангового распределе- варианты становятся значениями зависимой
ния и рангового среднего. В разделе 3 пред- переменной (т. е. функции), а статистические
ставлен перечень индексов концентрации веса – значениями независимой переменной
ранговых распределений и формулируется (т. е. аргумента). Обращает на себя внимание
теорема об отношении порядка между ними. и то обстоятельство, что при переходе к ран-
В разделе  4 приводятся примеры вычисле- говым распределениям накопляемые числен-
ния индексов концентрации на материале ности объектов «превращаются» в последо-
нескольких частотных словарей, и, наконец, вательность чисел натурального ряда, т. е. в
в разделе 5 используемые индексы интерпре- ранговую последовательность.
тируются для трех теоретических распреде- В исследовательской практике активно
лений в ранговой форме. используются лишь некоторые из перечис-
ленных распределений. В математическом
1. Статусные распределения смысле они равноправны и представляют со-
и явление концентрации бой статистические «вариации» на одну и ту
же тему.
Частотный словарь представляет собой Предпочтения лингвиста определяются
лексикографический продукт, в котором ка- преимущественно психологическими факто-
ждая словарная статья содержит имя лекси- рами. Так, лингвисты в подавляющем боль-
ческой единицы (словоформы или лексемы) шинстве случаев строят ранговые распреде-
в сопровождении различного рода статисти- ления, сохраняя при этом информацию об
ческих данных – ранга лексической едини- именах лексических единиц, стоящих за ран-
цы, частоты, числа единиц с данной часто- гами и частотами. Причем в 100 % случаев
той, величины логарифмической функции это убывающие ранговые распределения, в
правдоподобия и др. На основании инфор- которых слова расположены в порядке убы-
мации, содержащейся в частотном словаре, вания частоты.
могут быть построены статистические рас- В таких распределениях элементы обыч-
пределения определенного типа в зависимо- но упорядочиваются по функциональному
сти от того, какая информация используется признаку, отражающему функциональный
в качестве зависимой или независимой пе- вес (статус, рейтинг) элементов, образую-
ременной. Основными среди них являются: щих конкретную систему. Такие распреде-
полиномиальное распределение, ранговое и ления называются статусными в отличие
спектровое (частотное) распределения. В по- от структурных распределений, с помощью
линомиальном распределении в качестве не- которых упорядочиваются объекты с точки
зависимой переменной выступает варьирую- зрения внутренней структуры единиц сово-
щее имя лексической единицы, а в качестве купности [Мартыненко, 1988. С. 32].
зависимой переменной – ее частота; в ранго- Статусные распределения, несмотря на
вом распределении в качестве независимой свое эмпирическое качественное разно-
переменной выступает ранг лексической образие, имеют много общих черт. Все они,
единицы, а в качестве зависимой – ее часто- в частности, крайне асимметричны и отли-
Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей 43

Таблица 1
Формы упорядочивания данных лингвостатистического наблюдения

Статистические данные
Распределение
варианты статистические веса
Частота лексической
Полиномиальное Имя лексической единицы
единицы
Спектровое Число лексических единиц
Частота лексической единицы
(частотное) с данной частотой
Число лексических
Спектрово-
Частота лексической единицы единиц, частота которых
кумулятивное
не превышает данную
Число лексических единиц,
Спектрово-
Частота лексической единицы частота которых равна
декумулятивное *
или превышает данную
Число лексических единиц,
частота которых не превышает
Частота лексической
Возрастающее ранговое данную
единицы
(ранг «текущей» лексической
единицы)
Число лексических единиц,
частота которых равна или
Частота лексической
Убывающее ранговое превышает данную
единицы
(ранг «текущей» лексической
единицы)

Кумулятивное Накопленная частота


Ранг лексической единицы
возрастающее ранговое лексических единиц

Кумулятивное Накопленная частота


Ранг лексической единицы
убывающее ранговое лексических единиц

*
Примечание: термин «декумулятивный» используется в эконометрии при построении распределений, в кото-
рых значения случайной величины образуют размер дохода, а статистическими весами являются значения числен-
ности лиц с доходом, превышающим данный [Ланге, 1964].

чаются патологически большой вариацией Земля, в науковедении – о концентрации на-


признака. Во всех случаях небольшое число учного продукта в трудах известных ученых,
элементов несет основную функциональную в языкознании  – о концентрации активных
нагрузку (концентрация активности), а функ- лексических единиц в верхней зоне частот-
циональная роль большинства элементов ного словаря и т. д.
сильно уступает лидерам. Другими словами, Этот феномен диктует необходимость ра-
можно говорить о зоне концентрации и зоне зыскания объективных способов измерения
рассеяния в таких распределениях. В эконо- концентрации в ранговых статусных распре-
мике говорят о концентрации производства делениях, в том числе в частотных словарях.
на крупных предприятиях, в демографии – о Важным инструментом исследования ча-
концентрации населения в больших городах, стотной концентрации является ранговое
в геохимии  – о концентрации химических среднее, обладающее одной важной осо-
элементов в различных районах планеты бенностью. Оно может рассматриваться не
44 Компьютерная лингвистика

только как мера центральной тенденции, но а статистические веса – соответствующее


и как индикатор концентрации / рассеяния ему распределение P. Аналогично опреде-
единиц в частотном словаре, структури- ляется возрастающий ранжированный ряд.
рующем текст или корпус. При этом мини- Ранговые распределения P с упорядочен-
мальная концентрация (максимальное рас- ными вероятностями словоупотреблений
сеяние) характерно для равномерного x1 , x2 , x3 ,...xk в лингвистике принято назы-
рангового распределения, в котором все вать статусными.
единицы имеют одинаковую активность Ранговым начальным моментом порядка
(например, частоту). Чем больше перепад k распределения P называется величина
между «головой» и «хвостом» рангового K
распределения, тем выше уровень концен- Mr k = ∑ pi xik . (2)
трации относительно равномерного распре- i =1
деления. Иначе говоря, это распределение Если p1 ≥ p2 ≥ p3 ≥ ... pK или p1 ≤ p2 ≤
может рассматриваться как эталон концен-
≤ p3 ≤ ... pK , то средние и дисперсии убы-
трации.
вающего и возрастающего ранговых рас-
2. Ранговое распределение пределений обозначаем ru , rv и σu2 , σv2 соот-
и ранговое среднее ветственно. Пусть
N
ωr
Следуя [Мартыненко, 1988; 1989; Мар- = ∑
pr ( N ) N −1 I ( y=
i − xr )
N
,
тыненко, Фомин, 1989], обсудим основные i =1

понятия, которые нам понадобятся в после- N

дующем изложении. Терминология при- ∑ ω=


j =1
j N ,=
r 1...K
ближена к используемой в лингвистике и
информационных технологиях, т. е. к тем есть оценки вероятностей p r , тогда верна
областям, в которых теория ранговых рас- следующая теорема.
пределений играет заметную роль. Теорема 1. Имеют место утверждения:
Рассмотрим произвольное дискретное 1) если x1 , x2 ,... – бесконечная последо-
вероятностное пространство с мерой P, за- вательность независимых, одинаково рас-
данной на конечном множестве объектов пределенных случайных величин с распреде-
словаря M объемом K. Пусть p1 , p2 , p3 ,... pK ,
лением P, то pr ( N ) → pr , N → ∞;

K
i =1
pi = 1 – вероятность словоупотребле- 2) rv + ru = K + 1;
ний x1 , x2 , x3 ,...xk , образующих некоторый 3) rv ≥ ru ;
текст, yi – элемент выборки ( y1 , y2 , y3 ,... yn ) , 4) σu2 ≥ σv2 .
т. е. значение дискретной случайной вели- Доказательство. Согласно п. 1 теоремы 1
чины Y с носителем supp Y = M такой, что оценка pr ( N ) является состоятельной. Это
P{= Y x= p. утверждение вместе с п. 3 доказано в [Кен-
i}
дал, Стюарт, 1964]. Утверждение 2 очевид-
Пусть вероятности p1 , p2 , p3 ,... pK упоря- но. Утверждение 4 высказано в [Мартынен-
дочены по убыванию, т. е. p1 > p2 > ко, 1988. C. 82]. Для того, чтобы убедиться в
> p3 > ... > pK . Данное распределение, со- нем, поступим следующим образом.
средоточенное в точках натурального ряда и ∑
K
Пусть ϕ( z )= Mz r = – произ-
xj
r =1
pjz
приписывающее каждому числу r нагрузку
водящая функция распределения P. Из оп-
p r , называется ранговым распределением, ределения ϕ( z ) следует, что
соответствующим исходной вероятностной
мере P. Соответствующий ряд с частотами ϕk =
(1) Mr (r − 1)...(r + 1 − k ),
f1 ≥ f 2 ≥ f3 ≥ ... f K образует убывающий и, следовательно,
ранжированный ряд
f Mr = ϕ/ (1)
pr = K r , (1) Dr = ϕ/ / (1) + ϕ/ (1) − [ϕ/ (1)]2 . (3)
∑r =1
fr
Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей 45

Обозначим содержательные меры неравномерности


распределений должны быть такими функ-
K
циями от частот f r , которые обращаются в
a= ∑f ,
r =1
r
нуль для равномерного распределения P.
K В работе показано, что перечисленные выше
b= ∑ rf , r
меры неравномерности являются функция-
r =1 ми только от ru и rv .
K
c= ∑r
r =1
2
fr .
3. Индексы концентрации

Отсюда, учитывая (2) и полагая xj = j, полу- Пусть P – статусное распределение с час-


чаем тотами f1 ≥ f 2 ≥ ... f K
r

∑f
b
ϕu/ (1) = , sr = n − j +1 ,
a j =1
(c − b )
ϕu/ / (1) = , r
a tr = ∑f ,
j =1
j
b
ϕv/ (1) = ( K + 1) − , K
a
b c
U= ∑s ,
r =1
r
ϕv/ / (1)
= K ( K + 1) − (2 K + 1) + .
a a zk
V= ∑t . r
Подставив полученные выражения в (3), r =1

находим, что
Тогда [Кендал, Стюарт, 1966]
ac − b 2
σu2 =σv2 = 2 , 1 V −U
a G= . (4)
K a
Поскольку
что и требовалось доказать.
U= b= aru ,
Наряду со средним Mr, дисперсией σ 2 и
V = ( K + 1)a − b = arv ,
коэффициентом вариации v = σ важное
Mr то отсюда и из (4) следует, что
место в изучении ранговых распределений
занимают различные индексы, характери-
rv − ru K + 1 rv − ru
зующие степень неравномерности (концен- G= = ⋅ . (5)
трации, неоднородности) соответствующих K K rv + ru
ранговых распределений. Наиболее извест- Индекс концентрации Мартыненко-1 [Мар-
ным среди них является индекс, или коэф- тыненко, 1989] по определению имеет вид
фициент, рассеяния Джини G [Джини, ru
1970]. Известны и другие индексы, в их H = 1− . (6)
числе индекс неравномерности Трофимова
rv
R [Трофимов, 1985. C. 25] и индекс концен- Отсюда и из (5) следует, что
трации Мартыненко H [Мартыненко, 1989; r −1

K
(1 − ) fr
Мартыненко, Фомин, 1989] и др. −1 rv
c = GH = =−1 r =1 K < 1.
В силу того что дисперсии убывающих и

K
K f
возрастающих ранжированных рядов совпа- r =1 r

дают, их использование в качестве мер не-


равномерности без сочетания с другими Следовательно, =
H cG > G .
моментами не дает желаемого результата. Индекс концентрации Трофимова R на-
С другой стороны, равенство rv − ru =
0 име- зван коэффициентом неравномерности.
В терминах наших обозначений имеем
ет место только для равномерного распре-
rv − ru rv − ru
деления p1= p2= ...= pK= K −1 . Поэтому = R = . (7)
K + 1 rv + ru
46 Компьютерная лингвистика

Таким образом, G > R. ко-1, который для ранговых распределений


Следуя логике построения индексов, ос- мы считаем базовым. Также можно обра-
нованной на использовании средних ru и тить внимание на то, что в индексе Джини
rv , введем индекс Мартыненко-2: множитель в скобках не оказывает сущест-
венного влияния на величину индекса в ма-
rv rv лых словарях (ведь даже в них число лексем
=J = . (8) больше 100). По этой же причине индексы
K + 1 ru + rv
Джини и Трофимова дают практически
Легко проверить, что здесь выполняется идентичные результаты. То же самое можно
неравенство J > H. Объединяя полученные сказать и об индексах Мартыненко-1 и 2.
результаты (5)–(8), заключаем, что имеет Заметные отличия дают только индексы
место следующая теорема. Джини и Мартыненко, но индекс Марты-
ненко-1 чуть проще для вычислений и дает
Теорема 2. Индексы концентрации Тро- более высокий результат.
фимова, Джини, Мартыненко-1 и Марты- В целом каждый из перечисленных ин-
ненко-2 связаны цепочкой неравенств
дексов может использоваться для измерения
R < G < H < J. (9) сходства и различия частотных словарей с
точки зрения феномена концентрации и рас-
При этом сеяния. Предпочтительными применительно
к лингвистическому материалу нам пред-
H ставляются индексы Трофимова и Марты-
R= ,
2−H ненко.
 1 H Все индексы обладают хорошими диаг-
G= 1 +  , ностическими свойствами. Они могут найти
 K 2−H
r широкое применение в статистической лек-
H = 1− u , (10)
сикографии, корпусной лингвистике, лин-
rv
гвистической экспертизе и стилеметрии, в
1 частности при атрибуции и таксономии тек-
J= .
2−H стов. Хорошим примером такого использо-
вания является индекс концентрации закона
В случае если все частоты f i одинаковы, Ципфа, который совпадает с показателем
1 степени γ в формулировке этого закона –
имеем R = G = H = 0, J = .
2 но только для тех исследователей, которые
придерживаются ципфовской парадигмы.
4. Примеры измерения концентрации Кстати, этот показатель степени в данном
и рассеяния в частотных словарях
случае через индекс концентрации получает
В табл. 2 представлены значения коэф- содержательную интерпретацию.
фициентов R, G, H и J, вычисленные для Однако, используя индексы концентра-
трех частотных словарей по 200 тыс. слово- ции на практике, следует иметь в виду сле-
употреблений: [ЧС рассказов А. П. Чехова, дующую неопределенность. Несмотря на то
1999; ЧС рассказов Л. Н. Андреева, 2003; что ранговое среднее, на основе которого
ЧС рассказов А. И. Куприна, 2006], частот- вычисляются предложенные индексы, обла-
ного словаря по электронике [Алексеев, дает теоретической состоятельностью в ста-
1968] и двух малых специальных частотных
тистическом смысле, практическая состоя-
словарей: частотного словаря предикатных
слов [Мартыненко, 1988] и частотного сло- тельность этой характеристики исследована
варя ассоциатов слова-стимула «береза» недостаточно. Поэтому необходимы тща-
[Мартинович, Мартыненко, 2002]. тельные тесты этой статистики на материале
Из табл. 2 видно, что все индексы явля- разного объема. Опыт, накопленный в этом
ются производными от индекса Мартынен- направлении, пока весьма незначительный.
Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей 47

Таблица 2
Эмпирические значения индексов концентрации в частотных словарях

Коэффициенты
Трофимов Джини Мартыненко-1 Мартыненко-2
Показатель H  1 H r 1
R= G = 1 +  H = 1− u J=
2−H  K 2−H rv 2−H

ЧС рассказов
А. П. Чехова
K = 13736, 0,850 0,85 0,919 0,925
a = 198066
ЧС рассказов
Л. Н. Андреева
K = 14132, 0,841 0,841 0,914 0,921
a = 192482
ЧС рассказов
А. И. Куприна
K = 21163, 0,883 0,883 0,938 0, 936
a = 288260
Предикатные
слова
K = 465, 0,923 0,925 0,960 0,961
a = 50000
Ассоциативный
словарь
K = 119, 0,639 0,644 0,780 0,819
a = 2500

Так, в работе [Мартыненко, 1988] полу- речевой день» [Косарева, Мартыненко,


чены данные о состоятельности рангового 2015; Шерстинова, 2015]. По предваритель-
среднего, функционально связанного с ин- ным данным, ранговое среднее и индексы
дексами концентрации. Установлено, что концентрации также обнаруживают хоро-
ранговое среднее тематически и функцио- шую сходимость к предельным теоретиче-
нально-стилистически ограниченных тек-
ским величинам.
стов стабилизируется при сравнительно не-
больших объемах выборки. Так, на
материале для частотного словаря по элек- 5. Индексы концентрации некоторых
тронике [Алексеев, 1968] была изучена за- теоретических распределений
висимость объема словаря от объема выбор-
ки и установлено, что эта характеристика В табл. 3 представлены три ранговых
обладает практической состоятельностью распределения в форме возрастающего и
[Мартыненко, 1988. С. 92–93]. убывающего ранжированных рядов, соот-
В настоящее время тестирование состоя- ветствующих известным непрерывным рас-
тельности индексов концентрации прово- пределениям Парето, Вейбулла и логисти-
дится на материале речевого корпуса «Один ческому [Мартыненко, 1982]:
48 Компьютерная лингвистика

Таблица 3
Индексы концентрации некоторых теоретических распределений

Распределение F (x)
Ранговое Ципфа – Парето Вейбулла логистическое
распределение
1 γ 1
1− ,γ >1 1 − e − cx , γ > 1 ,γ >1
xγ 1 + ax −γ
1
 γ
 
1 1
Возрастающее − 1 1 1
 r  γ

γ  r  aγ  − 1
1 − +  λ ln γ 1 − 
 K 1  K +1 1− r 
 K +1 

1 1 1 1
 K +1
− 1
Убывающее  K +1γ λ γ γ γ K +1 γ
  ln   a  − 1
 r   r   r 

 r 
Возрастающее и убывающее ранговые f 
распределения fu (r ) и f v (r ) распределения рывными. Если  K + 1  – плотность рас-
пределения вероятностей, соответствующая
Парето возникают следующим образом.
1 ряду частот f r , r = 1...K , то нахождение всех
Домножив y = F ( x) = 1 − γ на K + 1 и вы- s
x моментов Mr сводится к вычислению ин-
разив через x и y , после замены x на r , тегралов вида
K +1
получаем
1
 r 
= ( K + 1)
s +1
C= ∫ ∫
s
r f  dr x s f ( x)dx,
 K +1
1 s

 r  γ 0 0
f v (r=
) 1 −  , которые для трех рассматриваемых случаев
 K +1
1
удается вычислить в явном виде. Пусть
 K +1γ 1
fu (r ) =   , B (= ∫x (1 − x) q dx,
p
p, q )
 r  0
= r 1...K + 1. ∞
Необходимость домножения на K + 1
объясняется тем, что rv + ru = K + 1 , а также

Γ(α) = x α−1e − x dx
0
тем, что при r = K частота f K не должна есть бета- и гамма-функции соответственно.
равняться нулю. Аналогично вычисляются Is =
Cs
ранжированные ряды и для других распре- ( K + 1) s +1 для возрастающих
Интегралы
делений.
Легко проверить, что в табл. 4 выполня- рядов частот f r см. в табл. 5.
R
ются равенства rv + ru = K + 1 и = H. Заключение
J
Вычисления моментов осуществляются по
Хотя индексы концентрации были введе-
следующей схеме. Выдвигается предполо-
ны в разное время и разными авторами, нам
жение, что при достаточно больших значе-
удалось их объединить в систему на осно-
ниях K и/или γ (причем должно быть γ > 2 ) ве рангового среднего, предложенного в ра-
можно осуществить замену дискретных боте [Мартыненко, 1988]. Прикладной
распределений соответствующими непре- ценностью рассмотренных индексов явля-
Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей 49

Таблица 4
Параметры некоторых теоретических распределений

Распределение
Параметр
Парето Вейбулла логистическое
K +1  1  ( K + 1)(1 + γ −1 )
rv ( K + 1) 1 − −1 
2 − γ −1  2 γ +1
 2
( K + 1)(1 − γ −1 ) K +1 ( K + 1)(1 − γ −1 )
ru
2 − γ −1 2 γ −1 +1
2

( K + 1) 2 (1 − γ −1 )  1 1  ( K + 1) 2 (1 − γ −2 )
σ2 ( K + 1) 2  −1 − −1 
(3 − γ −1 )(2 − γ −1 ) 2 3γ +1
4 γ +1
 12
−1

−1 2γ +1
−2 2
H γ
2
−1
γ +1
−1 γ +1

H 1 1
R= 1−
γ −1
γ −1
2−H 2γ − 1 2
1 γ 1 γ +1
J = 1−
2γ − 1 γ −1 +1 2γ
2−H 2

Таблица 5
Интегралы возрастающих рядов частот для теоретических распределений

Распределение
Парето Вейбулла логистическое
Γ(1 + γ −1 )
I s , s > 0, γ > 1 B ( s + 1,1 − γ −1 ) −1 B ( s + 1 + γ −1 , 1 − γ −1 )
( s + 1)1+γ

ется их диагностический потенциал при ражающими неравномерность, асимметрич-


систематизации текстов, корпусов и их час- ность, неоднородность ранговых распреде-
тей. лений, их расслоение на качественно одно-
Наш подход позволяет содержательно, с
родные зоны. Такой подход в различных
точки зрения эффекта концентрации рассея-
ния, проинтерпретировать постоянные ко- вариациях реализован в работах В. Парето
эффициенты теоретических распределений. [Pareto, 1896], С. Брэдфорда [Bradford,
Так, в распределении Ципфа – Парето ко- 1948], Г. Хердана [Herdan, 1964], Б. Брукса
эффициент γ является ничем иным, как ин- [Brooks, 1969], Р. Г. Пиотровского [Пиот-
дексом концентрации в версии Мартынен- ровский Р. Г. и др., 1977], В. И. Горьковой
ко-1. [1969], Дж. Хирша [Hirsch, 2005], И.-И. По-
Рассмотренные индексы нуждаются в песку, К.-Х. Беста и Г. Альтмана [Popescu,
проверке на состоятельность, так как доста-
Altmann, 2006; Popescu et al., 2007; Popescu,
точно сильно зависят от объема выборки
(объема частотного словаря). 2009] и др. Сопряжение с результатами та-
Индексы концентрации могут быть со- ких работ предусмотрено в наших дальней-
пряжены с другими характеристиками, от- ших исследованиях.
50 Компьютерная лингвистика

Список литературы Мартыненко Г.  Я. Основы стилеметрии.


Л.: Изд-во ЛГУ, 1988. 176 с.
Алексеев П.  М. Частотный словарь ан- Мартыненко Г. Я. Статистические харак-
глийского подъязыка электроники. Статисти- теристики ранговых распределений // Кван-
ка речи. Л.: Наука, 1968. С. 151–166.  титативная лингвистика и автоматический
Горькова В. И. Ранговое распределение на анализ текстов. Учен. зап. Тартуского уни-
множестве научно-технической информации верситета. Тарту, 1989. С. 50–68.
// Научно-техническая информация. Сер.  2. Мартыненко Г. Я., Фомин С. В. Ранговые
1968. № 5. С. 5–11. моменты // Научно-техническая информа-
Горькова В.  И. Информетрия (количе- ция. Сер. 2. 1989. № 8. C. 9–14.
ственные методы в научно-технической ин- Нешитой В.  В. О взаимосвязи ранговых
формации). Итоги науки и техники. Серия
распределений со спектровыми // Науч-
«Информатика». М.: ВИНИТИ, 1988. Т. 10.
но-техническая информация. Сер. 2. 1968.
328 c. 
№ 10. С. 19–24.
Григорьев Ю. Д., Мартыненко Г. Я., Ми-
Пиотровский Р.  Г., Бектаев К.  Б., Пио-
тягин С.  А. Индексы концентрации ран-
говых распределений // Информационные тровская А. А. Математическая лингвистика.
технологии и системы: управление, эконо- М.: Высш. шк., 1977. 383 c.
мика, транспорт, право: Межвуз. сб. науч. тр. Трофимов В. П. Логическая структура ста-
СПб.: Андреевский издательский дом, 2009. тистических моделей. М.: Финансы и стати-
Вып. 1 (7). С. 37–42. стика, 1985 (Серия «Математическая стати-
Джини К. Средние величины. М.: Стати- стика для экономистов»). 192 c.
стика, 1970. 448 с. Тулдава Ю. А. Проблемы и методы кван-
Кендалл М. Дж., Стьюарт А. Теория рас- титативно-системного анализа лексики. Тал-
пределений. М.: Наука, 1966. 588 с. линн: Валгус, 1987. 203 с.
Косарева Е.  О., Мартыненко Г.  Я. Отно- ЧС – Частотный словарь рассказов
шение текст-словарь в повседневной устной А.  И.  Куприна. СПб.: Изд-во СПбГУ, 2009.
речи // Структурная и прикладная лингвисти- 550 с.
ка. 2015. № 11. С. 220–228. ЧС – Частотный словарь рассказов
Кудрин Б.  И. Исследование технических А.  П.  Чехова. СПб.: Изд-во СПбГУ, 1999.
систем как сообществ изделий техноценозов 172 с.
ЧС – Частотный словарь рассказов
// Системные исследования. Методологиче-
Л.  Н.  Андреева. СПб.: Изд-во СПбГУ, 2003.
ские проблемы. Ежегодник 1980. М.: Наука,
397 с.
1981. C. 236–254.
Шерстинова Т.  Ю. Наиболее употреби-
Ланге О. Введение в эконометрику. М.:
тельные слова повседневной русской речи (в
Прогресс, 1964. 295 с. гендерном аспекте и в зависимости от усло-
Мартинович Г. А., Мартыненко Г. Я. Мно- вий коммуникации) // Компьютерная линг-
гопараметрический статистический анализ вистика и интеллектуальные технологии: По
результатов ассоциативного эксперимента. материалам ежегодной Международной кон-
СПб.: Изд-во СПбГУ, 2003. 28 с. ференции «Диалог». М.: Изд-во РГГУ, 2016.
Мартыненко Г. Я. Некоторые закономер- Вып. 15 (22). C. 616–631.
ности концентрации и рассеяния элементов Шрейдер Ю.  А. О смысле ранговых рас-
в лингвистических и других сложных систе- пределений // Научно-техническая информа-
мах // Структурная и прикладная лингвисти- ция. Сер. 2. 1975. № 1. С. 9–20.
ка. Л.: Изд-во ЛГУ, 1978. Вып. 1. С. 63–79. Шрейдер Ю.  А., Шаров А.  А. Системы и
Мартыненко Г. Я. Типология лингвостати- модели. М.: Радио и связь, 1982. 152 с. 
стических распределений // Лингвостатисти- Яглом И. М. Математические структуры и
ка и вычислительная лингвистика. Тарту: Изд- математическое моделирование. М.: Сов. ра-
во Тартуского гос. ун-та, 1982. С.  103–120. дио, 1980. 144 с. 
Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей 51

Bradford S. C. Documentation. London: Popescu I.-I. Quantitative Linguistics: Word


Crosby Lockwood, 1948. 156 p. Frequency Studies. Berlin; New York: Mouton
Brooks B. C. Bradford’s law and the bibliog- de Gruyter, 2009. 278 p.
raphy of Science // Nature. 1969. № 9. Р. 953– Popescu I.-I., Altmann G. Some aspects
956. of word frequencies // Glottometrics. 2006.
Herdan H. Quantitative Linguistics. London: Vol. 13. P. 23–46.
Butterworths, 1964. 284 p. Popescu I.-I., Best K.-H., Altmann G. On the
Hirsch J. E. An index to quantify an indi- dynamics of word classes in text // Glottomet-
vidual’s scientific research output. PNAS 102 rics, 2007. Vol. 14. P. 58–71.
(46): 16569–16572, 2005. http://www.pnas.org/
content/102/46/16569.full.
Pareto W. Cours d’économie politique. Lau-
sanne: F. Rouge, 1896. Vol. 1–2. 438 p. Материал поступил в редколлегию 05.02.2017

G. Ya. Martynenko, Yu. D. Grigoriev

Saint Petersburg State University


11 Universitetskaya nab., St. Petersburg, 199034, Russian Federation

Saint Petersburg Electrotechnical University «LETI»


5 Professor Popov Str., St. Petersburg, 197376, Russian Federation

yuri_grigoriev@mail.ru

CONCENTRATION INDICES FOR MEASURING AND COMPARING


OF WORD FREQUENCY LISTS

We analyze the system of indices that characterize frequency concentration and scattering of lex-
ical units in word frequency lists. If a word frequency list is presented in the form of rank distribu-
tion, the classic index proposed by the Italian scholar C. Gini (the Gini index, or Gini ratio) can be
applied to it. The other indices applicable here are the index proposed by the Russian statistician
V. P. Trofimov and two indices proposed by G. Ya. Martynenko, which are based on the rank mean.
The relationship between these four indices is examined, and the possibility of their application for
studying the structure of word frequency lists is shown. The analyzed indices represent the important
generalizing statistics, which allow to compare different word frequency lists with each other in terms
of concentration and scattering of lexical units.
Further, the paper examines the classical statistical distributions (Zipf – Pareto, Weibull, logistic)
in a rank form and the analytical expressions corresponding to these distributions. The possibility
of  pplying the analyzed concentration indices is shown on the material of three word frequency lists
of classical Russian fiction (by Anton Chekhov, Leonid Andreev and Alexander Kuprin), a special-
ized word frequency dictionary on electronics, and two small frequency dictionaries.
Keywords: word frequency list, automatic text analysis, rank distribution, status distribution, con-
centration, dispersion, rank means, concentration index, the Gini index, the Trofimov index, the Mar-
tynenko indexes, Zipf distribution, Weibull distribution, logistic distribution

References

Bradford S. C. Documentation. London: Crosby Lockwood, 1948. 156 p.


Brooks B. C. Bradford’s law and the bibliography of Science. Nature. 1969. № 9. Pp. 953–956.
Herdan H. Quantitative Linguistics. London: Butterworths, 1964. 284 p.
Hirsch J. E. An index to quantify an individual’s scientific research output. PNAS 102 (46):
16569–16572, 2005. http://www.pnas.org/content/102/46/16569.full.
52 Компьютерная лингвистика

Pareto W. Cours d’économie politique. V. 1–2. Lausanne: F. Rouge, 1896. 438 p.


Popescu I.-I. Quantitative Linguistics: Word Frequency Studies. Berlin-New-York: Mouton de
Gruyter, 2009. 278 p.
Popescu I.-I., Altmann, G. Some aspects of word frequencies. Glottometrics, 2006. V. 13. Pp. 23–
46.
Popescu I.-I.; Best K.-H.; Altmann, G. On the dynamics of word classes in text. Glottometrics,
2007. V. 14. Pp. 58–71.
Alekseev P. M. Chastotnyy slovar’ angliyskogo pod”yazyka elektroniki [A specialized word fre-
quency dictionary on electronics]. Statistika rechi [Speech statistics]. Leningrad: Nauka, 1968. 151–
166 p. (In Russ.)
Gor’kova V. I. Rangovoe raspredelenie na mnozhestve nauchno-tekhnicheskoy informatsii [Rank
distributions on a set of scientific and technical information]. Nauchno-tekhnicheskaya informatsi-
ya – [Scientific and technological information]. Ser. 2. 1968. № 5. Pp. 5–11. (In Russ.)
Gor’kova V. I. Informetriya (kolichestvennye metody v nauchno-tekhnicheskoy informatsii) [In-
formetrics (Quantitative methods in the scientific and technical information)]. Itogi nauki i tekhniki.
Seriya “Informatika” – The results of science and technology. “Informatics” Series. Vol. 10. Mos-
cow: VINITI, 1988. 328 p. (In Russ.)
Grigor’ev Yu. D., Martynenko G. Ya., Mityagin S. A. Indeksy kontsentratsii rangovykh raspredele-
niy [Concentration indices for rank distributions]. Informatsionnye tekhnologii i sistemy: upravlenie,
ekonomika, transport, pravo. [Information technology and systems: management, economics, law].
St Petersburg: OOO «Andreevskiy izdatel’skiy dom». 2009. № 1 (7). Pp. 37–42. (In Russ.)
Gini K. Srednie velichiny [Mean values]. Moscow: Statistika, 1970. 448 p. (In Russ.)
Kendall M. G., Stewart A. Teoriya raspredeleniy [Distributions theory]. Moscow: Nauka, 1966.
588 s. (In Russ.)
Kosareva E. O., Martynenko G. Ya. Otnoshenie tekst-slovar’ v povsednevnoy ustnoy rechi [The
type-token ratio in everyday spoken Russian]. Strukturnaya i prikladnaya lingvistika – [Structural
and Applied Linguistics]. 2015. № 11. Pp. 220–228. (In Russ.)
Kudrin B. I. Issledovanie tekhnicheskikh sistem kak soobshchestv izdeliy tekhnotsenozov [The
study of technical systems as a community of technocenosis products]. Sistemnye issledovaniya.
Metodologicheskie problemy. Ezhegodnik 1980 [System research. Methodological problems. The
Yearbook 1980]. Moscow: Nauka, 1981. Pp. 236–254. (In Russ.)
Lange O. Vvedenie v ekonometriku [Introduction to Econometrics]. Moscow: Progress, 1964. 295
p. (In Russ.)
Martinovich G. A., Martynenko G. Ya. Mnogoparametricheskiy statisticheskiy analiz rezul’tatov
assotsiativnogo eksperimenta [Multivariable statistical analysis of the results of associative experi-
ment]. St Petersburg: St Petersburg State University Publ., 2003. 28 p. (In Russ.)
Martynenko G. Ya. Nekotorye zakonomernosti kontsentratsii i rasseyaniya elementov v lingvis-
ticheskikh i drugikh slozhnykh sistemakh [Some regularities concerning concentration and disper-
sion in the linguistic elements, and other complex systems]. Strukturnaya i prikladnaya lingvistika –
[Structural and Applied Linguistics]. № 1. Leningrad: Leningrad State University, 1978. Pp. 63–79.
Martynenko G. Ya. Tipologiya lingvostatisticheskikh raspredeleniy [The typology of linguostatis-
tical distributions]. Lingvostatistika i vychislitel’naya lingvistika [Linguostatistics and computational
linguistics]. Tartu: Tartu State University, 1982. Pp. 103–120. (In Russ.)
Martynenko G. Ya. Osnovy stilemetrii [Foundations of Stylometrics]. Leningrad: Leningrad State
University, 1988. 176 p. (In Russ.)
Martynenko G. Ya. Statisticheskie kharakteristiki rangovykh raspredeleniy [Statistical character-
istics of rank distributions]. Kvantitativnaya lingvistika i avtomaticheskiy analiz tekstov [Quantita-
tive linguistics and automatic text analysis]. Tartu: Uchenye zapiski Tartuskogo universiteta, 1989.
Pp. 50–68. (In Russ.)
Martynenko G. Ya., Fomin S. V. Rangovye momenty [Rank moments]. Nauchno-tekhnicheskaya
informatsiya. Seriya 2 – [Scientific and technical information. Series 2], 1989. № 8. Pp. 9–14. (In
Russ.)
Мартыненко Г. Я., Григорьев Ю. Д. Индексы концентрации частотных словарей 53

Neshitoy V. V. O vzaimosvyazi rangovykh raspredeleniy so spektrovymi // Nauchno-tekhnich-


eskaya informatsiya. Seriya 2 – [Scientific and technical information. Series 2], 1968. № 10. Pp. 19–
24. (In Russ.)
Piotrovskiy R. G., Bektaev K. B., Piotrovskaya A. A. Matematicheskaya lingvistika [Mathematical
linguistics]. Moscow: Vysshaya shkola, 1977. 383 c. (In Russ.)
Trofimov V. P. Logicheskaya struktura statisticheskikh modeley [The logical structure of statistical
models]. Moscow: Finansy i statistika, 1985 (Seriya “Matematicheskaya statistika dlya ekonomis-
tov” – [“Mathematical Statistics for Economists” Series]). 192 c. (In Russ.)
Tuldava Yu. A. Problemy i metody kvantitativno-sistemnogo analiza leksiki [Problems and meth-
ods of quantitative and systematic lexical studies]. Tallinn: Valgus, 1987. 203 p. (In Russ.)
Chastotnyy slovar’ rasskazov A. I. Kuprina [Frequency list of stories by Alexander Kuprin]. St Pe-
tersburg: St Petersburg State University Publ., 2009. 550 p. (In Russ.)
Chastotnyy slovar’ rasskazov A. P. Chekhova [Frequency list of stories by Anton Chekhov].
St Petersburg: St Petersburg State University Publ., 1999. 172 p. (In Russ.)
Chastotnyy slovar’ rasskazov L. N. Andreeva [Frequency list of stories by Leonid Andreev]. St Pe-
tersburg: St Petersburg State University Publ., 2003. 397 p. (In Russ.)
Sherstinova T. Yu. Naibolee upotrebitel’nye slova povsednevnoy russkoy rechi (v gendernom as-
pekte i v zavisimosti ot usloviy kommunikatsii) [The Most Frequent Words in Everyday Spoken
Russian (in the gender dimension and depending on communication settings)]. Komp’yuternaya
lingvistika i intellektual’nye tekhnologii: Po materialam ezhegodnoy Mezhdunarodnoy konferentsii
«Dialog» – [Computational Linguistics and Intellectual Technologies. Proc. of the Int. Conference
Dialogue], Vol. 15 (22). Moscow: RGGU, 2016. Pp. 616–631. (In Russ.)
Shreyder Yu. A. O smysle rangovykh raspredeleniy [On the meaning of rank distributions]. Nauch-
no-tekhnicheskaya informatsiya. Seriya 2  – [Scientific and technical information. Series 2], 1975.
№ 1. Pp. 9–20. (In Russ.)
Shreyder Yu. A., Sharov A. A. Sistemy i modeli [Systems and models]. Moscow: Radio i svyaz’,
1982. 152 p. (In Russ.)
Yaglom I. M. Matematicheskie struktury i matematicheskoe modelirovanie [Mathematical struc-
tures and mathematical modeling]. Moscow: Sovetskoe radio, 1980. 144 p. (In Russ.)