Академический Документы
Профессиональный Документы
Культура Документы
Лекция 1.
Прикладная и математическая лингвистика.
Квантитативные характеристики в языке и речи
4.02.2021
Язык и число
1
Ничто из существующего в пространстве и времени не может быть вне меры и
числа. Поддается ли качественность осмысленной квантификации? Можно ли измерить
потенциальное наличие, диагностическую силу, степень проявленности качественного
признака? Да, безусловно, можно, тогда и при том условии, когда и если удается выделить
в исследуемом явлении некоторые элементарные, доступные измерению признаки,
которые в совокупности могут дать исследователю картину, представление, модель,
включающую меру и число.
Количественные оценки присутствуют практически в любой работе о естественном
языке. Описывая конкретный язык, его исследователь обязательно отметит, например, что
в нем различаются два числа, шесть падежей и т.п. Не менее часто исследователи
высказывают «полуколичественные» суждения, типа: «в данном языке много префиксов и
мало суффиксов», «в рассматриваемую эпоху наблюдается тенденция к увеличению длины
слова» и т.д. Также в лингвистических работах встречаются результаты трудоемких
подсчетов, оформленные в виде таблиц и графиков, эмпирические формулы,
приближающие найденные зависимости между измеримыми элементами языка
[Мартыненко 1996; Орлов 1980; Orlov 1982].
Измерение – процесс определения отношения измеряемой величины к другой
однородной величине, которая принята за единицу. Качество смыслоразличительное,
сигнификативное (фонема), или качество семантическое (морфема или лексема) нельзя
непосредственно измерить, как нельзя измерить радость, или продукт творчества: его
можно только описать. При этом описание может быть построено по-разному: от
предельно простого до предельно сложного, не уступающего по сложности самому
объекту описания. Естественноязыковое описание и есть такое максимально сложное
измерение. Провести измерение – значит приписать каждому признаку его величину. В
науке числовые системы, с помощью которых осуществляется измерение, называются
шкалами.
2
Основной материал исследования квантитативного лингвиста – лексика языка.
Однако словарный запас языка рассматривается одновременно с разных точек зрения: слово
может рассматриваться как единица текста; как элемент словаря, место которого в словаре
связано с его ролью в тексте; нас могут интересовать количественные характеристики
формы или значения слова и т.д.
3
средства – дифференциальные уравнения, разностные уравнения, стохастические
процессы, теория вероятностей, шкалирование, теория графов, теория информации и
математическая статистика.
4
изучению (описанию и объяснению) квантитативных свойств системы речевой
деятельности и языкового механизма в целом – в неразрывном единстве квантитативного
анализа с качественной интерпретацией.
Квантитативная лингвистика придает математическую форму языковым
механизмам, порождающим структуры и зависимости. Поскольку язык принадлежит к
классу самоорганизующихся систем, в нем все взаимосвязано, но не всегда напрямую.
Связи, обнаруживаемые в статистических распределениях, формируют цепи
зависимостей. Чем больше расстояние между двумя элементами цепи, тем слабее
зависимость. Изучение зависимостей (часто взаимозависимостей), установление
закономерностей – важный аспект квантитативных исследований. Примерами обобщения
(генерализации) подобных распределений являются закон Ципфа, закон Менцерата, закон
Крылова и др. [Арапов 1988; Тулдава 1987; Крылов 1987; Orlov 1982, Hammerl, Sambor
1993; Altmann 1997; 1999; Quantitative 2005].
Лингвистика и статистика
Слово «статистика» вначале означало науку о состоянии государства (status –
состояние, лат.), которая занималась вопросами численности населения и армии, а также
некоторыми хозяйственными вопросами. Как таковая, статистика уходит своими корнями
в глубокую древность; известно, например, что переписи населения производились
задолго до начала нашей эры. Однако основы статистики в более широком смысле были
заложены лишь в XVII веке, в Англии и Голландии, где она называлась «политической
арифметикой» и ее предметом были не только численность населения и армии, но также
проблемы финансов, рождаемости, смертности и другие социальные вопросы. Видными
представителями периода становления современной статистики были Дж. Граунт (1620–
5
1676), У. Петти (1623–1687), Г. Ахенвалль (1719–1772) и некоторые другие. Но и тогда
еще не производилась статистическая обработка подсчетов в современном понимании.
Впервые пример сознательной, целенаправленной обработки статистических материалов
дал бельгиец А. Кетле в работе «Sur l’homme et le développment de ses facultés ou Essai de
physique social» (1835). [А. Кетле. Человек и развитие его способностей, или Опыт
общественной физики (русский перевод – 1865 г.)].
Весомый вклад в развитие математической статистики и ее основы – теории
вероятностей – внесли русские и советские математики П. Л. Чебышев, А. А. Марков, А.
М. Ляпунов, А. Н. Колмогоров, Н. В. Смирнов, В. В. Налимов, а также ученые других
стран – А. Гаусс, К. Пирсон, Э. Пирсон, Р. Фишер, Стьюдент [Псевдоним английского
статистика У. С. Госсета (W. S. Gosset)], Г. Альтманн и др.
При исследовании массовых явлений стохастического характера статистические
методы являются единственно возможными, поэтому в настоящее время статистика
представляет собой вообще науку о массовых явлениях, реализация которых
характеризуется определенной вероятностью.
Использование математических методов в научных исследованиях позволяет более
глубоко проникать в сущность изучаемых явлений. Однако для этого от исследователей
требуется правильное понимание и применение этих методов. Всем известны такие
крылатые выражения, как «средняя температура по больнице» или «от осины не родятся
апельсины». Некорректное использование математического аппарата, а также ложные
исходные положения и предпосылки явились основной причиной резкой критики со
стороны противников статистических методов. Именно вследствие этого английский
антрополог Френсис Гальтон (1822–1911), сам широко применявший статистические
методы, саркастически замечал, что есть три рода лжи: ложь по необходимости, которую
можно извинить, просто ложь, которая не находит себе оправдания, и статистика.
7
Полезность применения статистических методов в языкознании бесспорна. Ведь
многие языковые закономерности нельзя рассматривать как некие абсолютные законы, их
можно трактовать лишь как правила, вытекающие из статистической вероятности. Кроме
того, статистические исследования и описания могут иногда приводить к новым
формулировкам традиционных закономерностей. Исследователи в области лингвистики
сейчас уже говорят об «очевидной органичности статистических методов для лингвистики
как науки».
Популярность квантитативной лингвистики (лингвостатистики) постоянно
возрастает, о чем свидетельствуют не только многочисленные работы, опубликованные за
последние годы, но также регулярно проводимые конференции, симпозиумы и совещания,
посвященные вопросам, которые тесно связаны с применением квантитативных методов в
языкознании. С 1991 года (г. Трир, Германия) проводятся Международные конференции
по квантитативной лингвистике. С 1994 года (до настоящего времени – 2021) выходит
международный «Журнал по квантитативной лингвистике» (The Journal of Quantitative
Linguistics or Glottometrika).
В течение последних десятилетий квантитативная лингвистика стала завоевывать
все более важное место как в исследованиях отдельных ученых, так и в университетских
курсах – не только в Гарварде, но и в других университетах Европы и Соединенных
Штатов. Центрами статистических исследований речи и языка стали Массачусетский
технологический институт, Мичиганский и Пенсильванский университеты в Соединенных
Штатах, Бохумский и Трирский университеты в Германии, а также Тартуский,
Московский и Ленинградский (СПбГУ) университеты в Советском Союзе.
Тем не менее, лишь сравнительно небольшая часть исследователей в области
языкознания может правильно и в полной мере воспользоваться теми огромными
возможностями, которые таит в себе математическая статистика.
Цель настоящего курса – ознакомить лингвистов, начинающих исследователей в
области лингвостатистики, с приемами статистических вычислений и корректным
использованием математического аппарата. Все вычислительные методы иллюстрируются
примерами, большинство которых дается на языковом материале. Назначение предмета
чисто утилитарное – дать в руки исследователя-языковеда элементы математического
аппарата, используемого в статистике. Поэтому в нем мало выводов предлагаемых
формул и математических обоснований описываемых методов, а если таковые и
приводятся, то главным образом с целью показать, что в математических основах можно
при желании разобраться, обладая подготовкой в объеме программы средней школы. Для
тех, кто стремится к более глубокому познанию математических основ статистики, даются
библиографические ссылки.
9
количественных методов анализа оказывается неизбежным.
Разрабатываются подходы, основанные:
- на изучении количественных особенностей реализации синтаксических структур;
- выявлении некоторых особенностей формальной структуры текста, связанных с
выражением типов чужой и авторской речи;
- соотношение чужой речи (прямой, смешанной, вложенной) с авторской также
оказывается стилеобразующим фактором.
10