Вы находитесь на странице: 1из 27

Основы лексикостатистики

Глоттохронология Основные предпосылки


Автоматизированная лексикостатистика Примеры
Выводы Проблемы
Список литературы

.
Квантитативные методы оценки языкового
родства
.

О.И. Беляев

МГГУ им. М.А. Шолохова

16 апреля 2012 г.

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология Основные предпосылки
Автоматизированная лексикостатистика Примеры
Выводы Проблемы
Список литературы

▶ Метод предложен М. Сводешем в середине XX века


[Swadesh 1950, 1955]
▶ Две предпосылки:
▶ Универсальное ядро значений, наименее подверженное
заимствованию
▶ Замена слов на новые происходит по мере внутреннего
развития языка
▶ ⇒ чем больше в списках для двух родственных языков слов
общего происхождения, тем ближе эти два языка

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология Основные предпосылки
Автоматизированная лексикостатистика Примеры
Выводы Проблемы
Список литературы

Фрагмент списка из 100 слов, предложенного Сводешем:


1. I я 13. big большой
2. you (thou) ты 14. long длинный
3. we мы 15. small маленький
4. this этот 16. woman женщина
5. that тот 17. man мужчина
6. who кто 18. person человек
7. what что 19. fish рыба
8. not не 20. bird птица
9. all всё 21. dog собака
10. many много 22. louse вошь
11. one один 23. tree дерево
12. two два 24. seed семя

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология Основные предпосылки
Автоматизированная лексикостатистика Примеры
Выводы Проблемы
Список литературы

Фрагменты 100-словных списков для русского, украинского и


польского:

осетинский персидский русский


I ɜž, mɜn- mæn я, меня
this ɑ- in этот
that wəj ɒn тот
who či ki кто
what sə či что
not nɜ næ не
all ɜpːɜt hæme все
many birɜ besjɒr много
one iw jek один
two dəwːɜ do два
big štər bozorg большой
long dɑrʁ derɒz длинный
louse šəšt šepeš вошь

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология Основные предпосылки
Автоматизированная лексикостатистика Примеры
Выводы Проблемы
Список литературы

У осетинского с персидским 56% базовой лексики, у русского с


осетинским — 23%, у русского с персидским — 28%
Другие значения для языков и диалектов [Коряков, Майсак 2001]:
98 португальский
97 украинский-белорусский, узбекский-уйгурский
96 лужицкий, валлийский,
голландский-фламандский-африкаанс
95 шведский, литовский
94 абх-абаз, французский, бретонский
93 исландский-фарерский, иберо-романские
92 чеченский-ингушский, корейский, осетинский
91 чешский-словацкий, японский, персидский-таджикский
90 болгарский-македонский, албанский
89 аварский, туркменский-киргизский, исландский-букмол
88 немецкий-фризский, сербский-чешский,
испанский-итальянский

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология Основные предпосылки
Автоматизированная лексикостатистика Примеры
Выводы Проблемы
Список литературы

▶ Список в виде, предложенном Сводешем, не универсален:


так, в языках Океании отсутствует слово ‘рог’, т.к. в тех
местах не водятся животные с рогами
▶ Однако статистически вклад таких лексем не значим
▶ Во многих случаях одному английском слову в списке
Сводеша соответствует несколько слов языка-объекта
▶ Это серьёзная проблема, поскольку при
лексикостатистических подсчётах даже небольшой дрейф
значения означает “выпадение” слова из списка. Проблема во
многом решена в работе [Kassian et al. 2010], где даются
конкретные семантические дефиниции и диагностические
контексты для каждого слова в стословнике

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Метод Сводеша
Автоматизированная лексикостатистика
Метод Старостина
Выводы
Список литературы

▶ Предположим, что скорость выпадения лексем одинакова во


всех языках
▶ Тогда, зная долю общей лексики, сохранившейся к моменту t,
можно определить значение t.
▶ Формула Сводеша (для n языков):

N(t) = N0 e−nλt

(λ = − ln r)
, где N0 — объём исходного ОС, N(t) — число слов исходного
ОС, сохранившихся к моменту t, r — доля слов из N0 ,
сохраняемых за тысячелетие (“глоттохронологическая
константа”), λ — “скорость замены” слов

ln c Nt
t= , где c =
−nλ N0

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Метод Сводеша
Автоматизированная лексикостатистика
Метод Старостина
Выводы
Список литературы

▶ Предположение Сводеша: λ = 0, 14 (т.е. замена около 14


слов за тысячелетие)
▶ [Bergsland, Vogt 1962]: в исландском языке λ = 0, 04, в
литературном норвежском λ = 0, 2
▶ Причина: в норвежском 100-словнике — 11 датских
заимствований
▶ [Старостин 2007]: даже если исключить влияние
заимствований и принять более правдоподобное значение
λ = 0, 6, распад украинского и белорусского оказывается
произошедшим 250 лет назад, а русского и персидского —
10600 лет назад
▶ Таким образом, датировки для близкородственных языков
оказываются умоложенными, для более дальних —
наоборот, удревнёнными. Значит, дело не в значении λ, а в
самих принципах глоттохронологии

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Метод Сводеша
Автоматизированная лексикостатистика
Метод Старостина
Выводы
Список литературы

[Старостин 2007]:
▶ Необходимо исключить заимствования
▶ “Старение” лексем из-за размывания их значения
▶ ⇒ скорость выпадения лексики повышается с течением
времени
▶ Разные значения обладают разными стабильностями, а
значит, по мере замены наименее стабильных лексем,
остаются более стабильные
▶ ⇒ показатель λ уменьшается по мере уменьшения доли
сохранённой лексики

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Метод Сводеша
Автоматизированная лексикостатистика
Метод Старостина
Выводы
Список литературы

Формула Старостина (для n языков):



c = e−nλ ct
n 2


ln c
t= √
−nλ n c
λ = 0, 05
Результаты: украинский и белорусский — XIV в., германские —
1800–1900 лет назад, разделение скандинавских — X–XI вв. н.э.

Проблемы есть, однако, и у этого метода, ср. их обзор и одно из


возможных решений в [Васильев 2010]

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Метод Сводеша
Автоматизированная лексикостатистика
Метод Старостина
Выводы
Список литературы

Глобальная лексикостатистическая база данных:

http://starling.rinet.ru/new100/

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Лексикостатистика в модификации Старостина даёт довольно


точные результаты, но у неё есть два “недостатка”:
▶ Для того, чтобы определить, родственны ли слова в
сравниваемых языках, необходимо обращаться к данным
сравнительно-исторической реконструкции. Так, если
родственность рус. дерево и польск. drzewo видна “на глаз”,
этого не скажешь об арм. erku, рус. два
Но для большинства языковых семей такая реконструкция
либо вообще отсутствует, либо носит спорный характер
▶ Даже в хорошо изученных семьях определение того,
родственны ли два слова, носит элемент субъективности.
Например, осет. диг. е и иронск. уый по мнению [Thordarson
1989] восходят к разным праиранским корням, но в [Cheung
2008] возводятся к одному источнику

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

▶ 4817 языков и диалектов


▶ 40-словные списки в
унифицированной системе
транскрипции

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Метрика лексической близости:


▶ Подсчитывается расстояние Левенштейна (минимальное
число замен, вставок или удалений, необходимых для того,
чтобы прийти от одного слова к другому) для каждой пары
лексем → LD
▶ итал. pesce [peSSe] — исп. pez [pe8] ‘рыба’: LD = 3 (1 замена, 2
вставки)
▶ Каждое LD делится на длину бо́льшего из двух слов → LDN
▶ LDN = 3 / 5 = 0,6
▶ Среднее значение LDN для слов с одинаковыми значениями
делится на среднее значение LDN для слов с разными
значениями → LDND
▶ Мера близости s = 1 − LDND . Может быть отрицательной!
(но редко)

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Метод очень прост, но при использовании значения s для


построения филогенетических деревьев (по алгоритму
ближайшего соседа) результат на удивление хорош.
Большинство известных языковых семей и групп чётко
выделяются (дерево языков мира доступно онлайн:
http://email.eva.mpg.de/~wichmann/language_tree.htm)

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Балто-славянские языки:

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Нахско-дагестанские:

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

НО: позиция греческого рядом с нило-сахарскими языками

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

▶ [Holman et al. 2011]: что будет, если в формуле Сводеша


t = 2lnlncr заменить долю общей лексики c на показатель s?
▶ Тогда r — значение меры близости, сохраняемое за тысячу
лет
▶ Дополнительная идея: поскольку праязык в “нулевой момент
времени” неоднороден, t = ln s−ln s0
2 ln r , где s0 — средний
уровень лексической близости на момент начала распада
языков. В таком случае r — это доля лексической близости,
сохраняемой за некоторый промежуток времени
▶ Осталось определить значения для r и s0

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Выборка из 52 различных независимых датировок распада для


групп языков в разных частях света.

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Корреляция Пирсона = -0,84

s0 = 0, 92

(точка пересечения прямой с горизонтальной осью)

r = 0, 72
1
(угловой коэффициент прямой равен 2 ln r )

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Сравнение датировок:

дата ASJP %
индоевропейские 5500 4348 -1152 -26
иранские 3900 2856 -1044 -37
германские 2100 1745 -355 -20
романские 1729 1759 +30 +2
славянские 1450 1157 -293 -25
цыганские 650 603 -47 -8
тюркские 2500 3404 +904
китайский 2000 2982 +982 +33

Среднее расхождение равно 29%. Пять датировок расходятся на


более чем 50%, одна (чешский и словацкий) — на более 100%.

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики Суть проблемы
Глоттохронология Проект ASJP
Автоматизированная лексикостатистика Классификация языков
Выводы Автоматическая датировка
Список литературы Пример

Иронский и дигорский диалекты осетинского языка:


▶ Метод Старостина: c = 0, 935, t = 0, 834: конец XII в.

▶ Метод ASJP: s = 0, 57, t = 0, 73: конец XIII в.

▶ Разница в сто лет несущественна. Сами даты


правдоподобны: монгольское завоевание Алании было в
первой половине XIII в. (ок. 1230 г.)

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Автоматизированная лексикостатистика
Выводы
Список литературы

▶ На сегодняшний день лингвистика располагает


квантитативными методами, позволяющими определить
примерную дату расхождения языков исключительно на
основании лексических данных.
▶ Глоттохронологический метод в модификации Старостина
даёт достаточно точные датировки, опираясь на
сравнительно-исторические данные и учитывая только
внутреннее развитие языков.
▶ Т.е. не учитываются заимствования, а фонетические
изменения, какими бы радикальными они ни были, не
приводят к удревнению даты распада.

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Автоматизированная лексикостатистика
Выводы
Список литературы

▶ Метод ASJP основан на механическом подсчёте т.н.


“лексической близости” без учёта реконструкции
▶ Таким образом, если в одном из двух родственных языков
слова изменились до неузнаваемости, языки будут
классифицированы как неродственные. Ср. позицию
греческого. В классической лексикостатистике такие ошибки
невозможны

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Автоматизированная лексикостатистика
Выводы
Список литературы

▶ Тем более интересно, что для языков, чьё родство известно,


получаемые на основании меры близости ASJP датировки
оказываются сравнительно точными
▶ Это говорит о том, что скорость фонетических изменений и
заимствований (по крайней мере в пределах базовой
лексики) также обладает определёнными закономерностями.
Определить, каковы эти закономерности, метод ASJP не
позволяет, т.к. учитывает лишь поверхностное сходство слов

О.И. Беляев Глоттохронология и лексикостатистика


Основы лексикостатистики
Глоттохронология
Автоматизированная лексикостатистика
Выводы
Список литературы

Васильев М.Е. 2010. Об использовании лексического критерия для построения


генеалогической классификации // Бюллетень Общества востоковедов РАН. Вып. 17. М.:
Учреждение Российской академии наук «Институт Востоковедения РАН». С. 530-–572.
Коряков Ю. Б., Майсак Т. А. 2001. Систематика языков мира и базы данных в интернете //
Труды Международного семинара «Диалог ’2001» по компьютерной лингвистике и ее
приложениям. Том 2. М., Аксаково.
Старостин С.А. 2007. Сравнительно-историческое языкознание и лексикостатистика //
Старостин С.А. Труды по языкознанию. М.: Языки славянских культур. С. 407–447.
Bergsland K., Vogt H. 1962. On the validity of glottochronology // Current Anthropology 3. С.
115–153.
Cheung J. 2008. The Ossetic Case System Revisited // Lubotsky A., Schaeken J., Wiedenhof J.
(eds.). Evidence and Counter-Evidence: Essays in Honour of Frederik Kortlandt,
Amsterdam-New York. С. 87–105.
Holman E.W., Brown C.H., Wichmann S., Müller A., Velupillai V., Hammarström H., Sauppe S.,
Jung H., Bakker D., Brown P., Belyaev O., Urban M., Mailhammer R., List J.-M., Egorov D. 2011.
Automated dating of the world’s language families based on lexical similarity // Current
Anthropology 52.6. С. 841-875.
Kassian A., Starostin G., Dybo A., Chernov V. The Swadesh wordlist. An attempt at semantic
specification // Journal of Language Relationship, No. 4 (2010). С. 46–89.
Swadesh M. 1950. Salish internal relationships // International Journal of American Linguistics 16.
С. 157–167.
Swadesh M. 1955. Towards greater accuracy in lexicostatistic dating // International Journal of
American Linguistics 21. С. 121–137.
Thordarson F. 1989. Ossetic // Schmitt R. (ed.). Compendium Linguarum Iranicarum. Wiesbaden.
О.И. Беляев Глоттохронология и лексикостатистика

Вам также может понравиться