Квантитативная лингвистика и НИТ. Лекция 1

Квантитативная лингвистика и НИТ
Лекция 1.
Прикладная и математическая лингвистика.
Квантитативные характеристики в языке и речи
4.02.2021
– Давайте присядем на это бревно у дороги, – говорю я, – и забудем

бессердечность и сквернословие этих поэтов. Настоящую красоту надо искать в
великолепных рядах установленных фактов и общепринятых правил. В этом
самом бревне, на котором мы сидим, миссис Сэмпсон, – говорю я, – скрыта
статистика более прекрасная, чем любая поэма. Кольца показывают, что ему
было шестьдесят лет. На глубине двух тысяч футов оно за три тысячи лет
превратилось бы в уголь. Самая глубокая в мире угольная шахта находится в
Киллингворте, близ Ньюкастла. В ящик длиной четыре фута, шириной три фута
и высотой два фута восемь дюймов войдет тонна угля. Если артерия порезана,
сожмите ее выше раны. В ноге человека – тридцать костей. Лондонский Тауэр
горел в 1841 г.
– Продолжайте, мистер Пратт, – говорит миссис Сэмпсон. – Эти мысли
так оригинальны и приятны. Я думаю, ничего нет прекраснее этой статистики.
О. Генри. Справочник Гименея (1907). (Эпиграф к книге М.Дж. Кендалла и

А. Стьюарта «Теория распределений»).
Язык и число
История всех наук показывает, что наилучшим концептуальным аппаратом или

аналитическим средством являются математические методы. Это не может не относиться
и к лингвистике, даже если окажется, что у языка своя собственная математика. Тем не
менее, нельзя ожидать, что лингвист внезапно обратится к математике и начнет изучать
весь спектр её составляющих. Он будет использовать некоторые методы, постепенно
обучаться и понемногу углублять свои знания на пути, проложенном скорее
лингвистическим, чем математическим интересом. В то же время, нет гарантии, что
хороший математик сможет эффективно заниматься лингвистикой. Необходимым
условием здесь являются хорошие экспертные знания, иначе появляются работы,
требующие сложной математики, но совершенно неуместные лингвистически.
Лингвисты, получившие традиционную подготовку, формулируют свои
утверждения о языке в качественной форме. Поскольку с помощью существующего
математического аппарата им трудно выразить суть проблем, которые естественно
возникли в ходе развития лингвистики, традиционные лингвисты склонны вообще
отрицать значение квантитативной стороны языка.
Сегодня редкая монография или учебное пособие по квантитативной лингвистике
обходится без знаменитого высказывания Н. С. Трубецкого, ставшего притчей во языцех:
«Язык лежит вне меры и числа». Или, в другой трактовке, – «Язык внеположен числу».
Язык лежит вне меры и числа

Н.С. Трубецкой
1
Ничто из существующего в пространстве и времени не может быть вне меры и
числа. Поддается ли качественность осмысленной квантификации? Можно ли измерить
потенциальное наличие, диагностическую силу, степень проявленности качественного
признака? Да, безусловно, можно, тогда и при том условии, когда и если удается выделить
в исследуемом явлении некоторые элементарные, доступные измерению признаки,
которые в совокупности могут дать исследователю картину, представление, модель,
включающую меру и число.
Количественные оценки присутствуют практически в любой работе о естественном
языке. Описывая конкретный язык, его исследователь обязательно отметит, например, что
в нем различаются два числа, шесть падежей и т.п. Не менее часто исследователи
высказывают «полуколичественные» суждения, типа: «в данном языке много префиксов и
мало суффиксов», «в рассматриваемую эпоху наблюдается тенденция к увеличению длины
слова» и т.д. Также в лингвистических работах встречаются результаты трудоемких
подсчетов, оформленные в виде таблиц и графиков, эмпирические формулы,
приближающие найденные зависимости между измеримыми элементами языка
[Мартыненко 1996; Орлов 1980; Orlov 1982].
Измерение – процесс определения отношения измеряемой величины к другой
однородной величине, которая принята за единицу. Качество смыслоразличительное,
сигнификативное (фонема), или качество семантическое (морфема или лексема) нельзя
непосредственно измерить, как нельзя измерить радость, или продукт творчества: его
можно только описать. При этом описание может быть построено по-разному: от
предельно простого до предельно сложного, не уступающего по сложности самому
объекту описания. Естественноязыковое описание и есть такое максимально сложное
измерение. Провести измерение – значит приписать каждому признаку его величину. В
науке числовые системы, с помощью которых осуществляется измерение, называются
шкалами.
Интересно отметить, что в трудах Н. С. Трубецкого, формулировавшего свои

утверждения о языке в терминах бинарных оппозиций, также использовались категории
числа и меры: и градации наличия признаков, и элементарные подсчеты, и понятия типа
«мало», «часто», «редко». В истории науки о языке не было случайным обращение к
количественным оценкам элементов языка и речи в работах таких великих ученых, как И.
А. Бодуэн де Куртенэ, А. М. Пешковский, М. Н. Петерсон, Е. Д. Поливанов, В. В. Ви-
ноградов и др. Лингвисты указывали на типичность, распространенность одних явлений в
языке и окказиональность других, противопоставляли регулярные и спорадические
средства выражения. Всё это размывало основные постулаты бинарной парадигмы.
Факты, связанные с частотой употребления единиц различных уровней языка
(звуков, фонем, морфем, лексем) относятся к речи, а факты, связанные со структурой этих
единиц, – к языку. Между тем, в структурной парадигме, восходящей к Ф. Соссюру,
налагался запрет на использование в теории утверждений, где объединялись бы факты
речи и языка (синтагматики и парадигматики, диахронии и синхронии). Но запрет строить
содержательные высказывания и теории, в которых данные о структуре языковых единиц
сопоставляются с данными об их употребительности, оказался бесплодным.
Чтобы увидеть взаимосвязь этих разнородных данных, понять место «меры и числа»
в языковой системе, необходимо создание теоретической концепции, которая позволила
бы органически увязать количественные данные с качественными суждениями о языке.
Разделом языкознания, изучающим меру и число в языке, взаимозависимости между
количественными и качественными характеристиками языковых единиц, стала
квантитативная лингвистика.
Таким образом, задачей квантитативного лингвиста является именно поиск связи
между количественной и качественной сторонами языка.
2
Основной материал исследования квантитативного лингвиста – лексика языка.
Однако словарный запас языка рассматривается одновременно с разных точек зрения: слово
может рассматриваться как единица текста; как элемент словаря, место которого в словаре
связано с его ролью в тексте; нас могут интересовать количественные характеристики
формы или значения слова и т.д.
Математическая лингвистика как наука зачастую подразделяется учеными (К. Б.

Бектаев, Р. Г. Пиотровский) на два раздела: комбинаторную и квантитативную
лингвистику.
Раздел комбинаторной лингвистики считают историческим родоначальником
математической лингвистики, так как математическая лингвистика возникла в результате
разработки категориальных (качественных) понятий и формулирования связей между
ними. Так, в соответствии с их назначением, в языкознание были введены в первую
очередь качественные разделы математики: логика, теория множеств, теория групп,
теория автоматов, формальные грамматики, линейная алгебра, топология и геометрия. В
результате этого были созданы предпосылки для точных и непротиворечивых
лингвистических высказываний. Однако, как показывает опыт других наук, для более
глубокого проникновения в исследуемый предмет таких понятий, лежащих на уровне
категориальной шкалы, бывает недостаточно. Следовательно, и в лингвистике со
временем потребовались порядковые и метрические, т.е. количественные понятия, а
вместе с тем модели и методы, которые, естественно, основывались на количественных
понятиях.
Потребность лингвистики в понятиях более высокого уровня, в использовании
математических методов Райнхард Келер (1991) обосновывает следующими аргументами:
1. Факт изменения языка с течением времени. Каждая языковая система подвергается

очень большому числу слабых и малому числу сильных влияний, изменяющихся
скачкообразно. А в синхронной детерминистской системе правил отсутствуют какие-либо
средства для описания соответствующих отклонений. Однако изменения в языковых
системах не только поддаются измерению, они сами лежат в основе определенных
(стохастических) закономерностей.
2. Размытость значения, в связи с чем в современной семантике все в большей

степени используются количественные модели (например, основанные на теории
нечетких множеств).
3. Дефицит информации, характерный для общественных наук. Так, мы можем

охватить лишь небольшой фрагмент исследуемого объекта: он или бесконечен (например,
множество текстов на немецком языке), или меняется быстрее, чем его можно описать
(например, лексика языка). Однако такое положение дел представляет собой классический
случай необходимости применения статистических методов, которые позволяют делать
выводы при недостатке информации.
Различие между качественным и количественным методами заключается в

получаемом результате: благодаря использованию количественных методов достигается
бóльшая точность отображения результатов по сравнению с данными, полученными на
основе качественных методов, например, дедукции, при которой получаемый результат
далее не уточняется, и предмет отображается лишь нечетко.
Таким образом, необходимость применения в лингвистике понятий количественного
уровня обусловили появления второго раздела в математической лингвистике –
квантитативной лингвистики. Обычно применяемые в квантитативной лингвистике
3
средства – дифференциальные уравнения, разностные уравнения, стохастические
процессы, теория вероятностей, шкалирование, теория графов, теория информации и
математическая статистика.
Квантитативная лингвистика подразумевает изучение и экспликацию языковых

явлений с помощью методов количественной математики (теория вероятностей,
математическая статистика, теория информации, теория нечетких множеств) и
противопоставляется «комбинаторной» лингвистике, опирающейся на разделы
«неколичественной» математики (алгебра, теория множеств, теория алгоритмов,
математическая логика и т.д.). Квантитативная и комбинаторная лингвистика являются
двумя сторонами общего, родового понятия «математическая лингвистика».
С 50-х годов XX века математическая лингвистика стимулируется различными
прикладными задачами, среди которых автоматическая обработка языковой информации,
включающая автоматический (машинный) перевод.
Некоторые авторы подчеркивают, что квантитативная лингвистика не является
«математической лингвистикой», как некоторые ошибочно считают. Квантитативная
лингвистика (лингвостатистика, лексикостатистика, статистика речи) есть ответвление
традиционной лингвистики с применением математического аппарата статистики, тогда
как собственно математическая (комбинаторная) лингвистика является по существу
неколичественной дисциплиной, которая рассматривает язык как отображение (функцию)
представлений и концептов из плана содержания.
Характерной чертой новейших исследований по квантитативной лингвистике
является стремление разработать теоретические основы квантитативной типологии
текста, общей теории систем, языковой саморегуляции, лингвистической синергетики.
Одним из реальных оснований применения квантитативных методов в изучении
языка и речи (текста) следует признать объективную присущность языку количественных
признаков, квантитативных характеристик [Пиотровский, Бектаев, Пиотровская 1977;
Налимов 1979; Лесохин, Лукьяненков, Пиотровский 1982; Тулдава 1987; Tuldava 1998;
Corpus 2004; Quantitative 2005; Пиотровский 2006; Гребенщикова 2014]. Повторяемость
(рекуррентность, периодичность) языковых, в том числе лексических единиц, их
воспроизведение в различных текстах является наиболее важным условием
квантификации языкового материала и применения методов количественной математики
для его анализа. Квантитативный подход способен охватить лишь определенный аспект
языка и речи. Но это – существенный аспект, отражающий многие важные стороны
речевой деятельности, которые невозможно обнаружить чисто качественным анализом.
Квантитативный анализ иногда упрощает языковую реальность (например, когда не
учитываются языковой полиморфизм, поливалентность и многообразие оттенков
значений). Но при этом подходе возможен и более дифференцированный анализ
полиморфизма, полисемичности и других свойств языковых единиц. Часто оказывается,
однако, что переплетение ассоциаций элементов языка настолько сложно и бесконечно,
что оно не может поддаться в полной мере не только количественному, но и
качественному анализу. Кроме того, следует указать на неизбежный недостаток
качественного анализа, который нередко остается на уровне субъективных, произвольных
интерпретаций.
Квантитативно-системное исследование текста может вестись в плане динамики,
статики или в их взаимосвязи. Можно исследовать текст как последовательность
грамматически и семантически связанных лексических единиц или как связное целое с
темой и стилистическими и прагматическими особенностями. Выявление частотных
свойств текстов и построенных на них словарей, установление связей между словами в
парадигматике и синтагматике, изучение факторов порождения текста – должны вести к
обобщению, упорядочению и осмыслению эмпирического материала на более высоком
теоретическом уровне. Конечной целью является синтетический, интегральный подход к
4
изучению (описанию и объяснению) квантитативных свойств системы речевой
деятельности и языкового механизма в целом – в неразрывном единстве квантитативного
анализа с качественной интерпретацией.
Квантитативная лингвистика придает математическую форму языковым
механизмам, порождающим структуры и зависимости. Поскольку язык принадлежит к
классу самоорганизующихся систем, в нем все взаимосвязано, но не всегда напрямую.
Связи, обнаруживаемые в статистических распределениях, формируют цепи
зависимостей. Чем больше расстояние между двумя элементами цепи, тем слабее
зависимость. Изучение зависимостей (часто взаимозависимостей), установление
закономерностей – важный аспект квантитативных исследований. Примерами обобщения
(генерализации) подобных распределений являются закон Ципфа, закон Менцерата, закон
Крылова и др. [Арапов 1988; Тулдава 1987; Крылов 1987; Orlov 1982, Hammerl, Sambor
1993; Altmann 1997; 1999; Quantitative 2005].
Квантитативная лингвистика, опирающаяся на статистику, по мере приближения

методологии количественной математики к решению филологических задач сталкивается
с необходимостью осмысления двух проблем:
а) перетолкование основных категорий количественной математики в
лингвистических терминах (чтó в филологии считать распределением, частотой,
вероятностью, случайной величиной, совокупностью, корреляцией и т.п.);
б) переосмысление основных лингвистических категорий в терминах
количественной математики (язык / речь; парадигматика / синтагматика; норма /
узуальное / оказиональное и т.д.) [Alekseev 1984; Tuldava 1995].
Одной из важнейших задач квантитативной лингвистики является составление

частотных словарей, необходимость использования которых для решения прикладных и
исследовательских задач постоянно возрастает. Частотный словарь – это модель особым
образом преобразованного текста, модель распределения частот употребления единиц в
тексте. Частотный словарь включает в себя упорядоченный список слов или других
языковых единиц (словоформы, словосочетания), которые зарегистрированы
составителем в обследованном им тексте, фрагменте текста или корпусе текстов и
снабжены данными о частоте их употребления в тексте (речи). (В конкордансе к этим
данным добавляются и данные об их адресе в тексте и/или данные о контекстах). С
помощью частотных словарей можно пытаться ответить на вопросы: каков вокабуляр
(лексический состав) языка (текста), с какой интенсивностью слова используются в речи,
какие из них употребительнее (предпочтительнее) в той или иной сфере коммуникации.
Частотные словари используются в лингводидактике, стилистике, психолингвистике,
терминологической лексикографии, лингвистической синергетике, когнитивистике,
культурологии, медицине, юриспруденции, криминологии и т.д. [Алексеев 2001;
Частотный 1977; Лённгрен 1993; Ляшевская, Шаров 2009].
Лингвистика и статистика
Слово «статистика» вначале означало науку о состоянии государства (status –
состояние, лат.), которая занималась вопросами численности населения и армии, а также
некоторыми хозяйственными вопросами. Как таковая, статистика уходит своими корнями
в глубокую древность; известно, например, что переписи населения производились
задолго до начала нашей эры. Однако основы статистики в более широком смысле были
заложены лишь в XVII веке, в Англии и Голландии, где она называлась «политической
арифметикой» и ее предметом были не только численность населения и армии, но также
проблемы финансов, рождаемости, смертности и другие социальные вопросы. Видными
представителями периода становления современной статистики были Дж. Граунт (1620–
5
1676), У. Петти (1623–1687), Г. Ахенвалль (1719–1772) и некоторые другие. Но и тогда
еще не производилась статистическая обработка подсчетов в современном понимании.
Впервые пример сознательной, целенаправленной обработки статистических материалов
дал бельгиец А. Кетле в работе «Sur l’homme et le développment de ses facultés ou Essai de
physique social» (1835). [А. Кетле. Человек и развитие его способностей, или Опыт
общественной физики (русский перевод – 1865 г.)].
Весомый вклад в развитие математической статистики и ее основы – теории
вероятностей – внесли русские и советские математики П. Л. Чебышев, А. А. Марков, А.
М. Ляпунов, А. Н. Колмогоров, Н. В. Смирнов, В. В. Налимов, а также ученые других
стран – А. Гаусс, К. Пирсон, Э. Пирсон, Р. Фишер, Стьюдент [Псевдоним английского
статистика У. С. Госсета (W. S. Gosset)], Г. Альтманн и др.
При исследовании массовых явлений стохастического характера статистические
методы являются единственно возможными, поэтому в настоящее время статистика
представляет собой вообще науку о массовых явлениях, реализация которых
характеризуется определенной вероятностью.
Использование математических методов в научных исследованиях позволяет более
глубоко проникать в сущность изучаемых явлений. Однако для этого от исследователей
требуется правильное понимание и применение этих методов. Всем известны такие
крылатые выражения, как «средняя температура по больнице» или «от осины не родятся
апельсины». Некорректное использование математического аппарата, а также ложные
исходные положения и предпосылки явились основной причиной резкой критики со
стороны противников статистических методов. Именно вследствие этого английский
антрополог Френсис Гальтон (1822–1911), сам широко применявший статистические
методы, саркастически замечал, что есть три рода лжи: ложь по необходимости, которую
можно извинить, просто ложь, которая не находит себе оправдания, и статистика.
Есть три рода лжи:

ложь по необходимости, которую можно извинить,
просто ложь, которая не находит себе оправдания, и
статистика
Ф. Гальтон
Э. Льюис (1963) отмечал: «Статистику иногда определяют как искусство и науку

количественной обработки наблюдений, подверженных изменениям». Как писал Дж.
Тьюки (1968): «Мне нравится следующее короткое и точное определение статистики:
статистика занимается сбором и интерпретацией данных».
Поскольку отдельные элементы языка и речи характеризуются некоторой частотой, а
следовательно, и вероятностью, произведения речи очевидно могут анализироваться и
исследоваться с помощью методов математической статистики. Ученые-лингвисты не
могли не заметить статистических характеристик элементов речи. Поэтому рождение
лингвистической статистики было неизбежно.
Хотя лингвостатистика оформилась как самостоятельная наука сравнительно
недавно, попытки квантитативного подхода к анализу текстов делались уже в седой
древности; известно, что еще в эллинский период александрийские грамматисты
подвергали произведения Гомера по существу статистической обработке. Правда, эта
работа, как и многие другие работы подобного рода, была далека от того, что мы
понимаем в настоящее время под статистической обработкой речевых произведений. Это
был простой подсчет слов и некоторых других языковых явлений.
В языкознании делались лишь первые шаги в области применения аппарата
математической статистики, тогда как в биологии, медицине, агрономии, психологии,
педагогике, социологии и других науках, которые ранее считались «нематематическими»,
статистические методы применялись уже очень широко, благодаря чему они стали
6
экспериментальными науками в полном смысле этого слова.
Чем же объяснялось такое отставание языкознания? Ведь психология и педагогика,
например, не являются более «математическими» науками, чем языкознание.
Для этого существовало несколько причин.
Во-первых, языкознание как наука возникло и созрело значительно раньше, чем
математическая статистика и ее основа – теория вероятностей. Поэтому в языкознании
действовали не только укоренившиеся традиции, но также и инерция. Считалось, что для
лингвистических работ типична «неколичественность». Языкознание относилось к чисто
гуманитарным наукам, и для лингвиста, например, XIX века, предложение использовать в
его исследованиях математические методы показалось бы странным и неприемлемым.
Во-вторых, языкознание было долгое время изолировано от естественных наук, где
математическая статистика впервые нашла широкое применение. Вследствие всего этого
статистические методы проникали в языкознание очень медленно, чему способствовало
также сопротивление самих ученых-лингвистов.
Первые серьезные попытки применить статистические методы в языкознании
сделаны у нас в начале XX века математиками Н. А. Морозовым (1854–1946) и А. А.
Марковым (1856–1922). Они указывали на то, что, выполняя научное исследование,
нельзя ограничиваться голословными утверждениями типа «больше», «меньше», «реже»,
«чаще» и т. п., а необходимо оперировать числами, устанавливать уровень надежности
получаемых результатов и указывать на допустимые колебания этих результатов. Правда,
цели этих работ не были лингвистическими. Произведения речи были избраны
математиками как иллюстративный материал. Так, в работе А. А. Маркова (1913) на
материале «Евгения Онегина» иллюстрировались случайные процессы, известные теперь
под названием «марковских». Надо заметить, что математические методы вначале
вводились в языкознание главным образом математиками, которые на языковом
материале искали и находили математические закономерности.
Потребность в использовании математических методов в языкознании становилась
все более настоятельной, и в 1949 г. французский лингвист Марсель Коэн заявил, что
продолжающееся пренебрежение числом в лингвистических исследованиях приведет
лишь к торможению дальнейшего развития языкознания. Другой современный
французский языковед – Пьер Гиро – причисляет языкознание к типично статистическим
наукам, поскольку «язык, по сути дела, является статистическим явлением, т. е. таким,
которое охватывает измеряемые элементы, проявляющие статистические тенденции, а
поэтому они могут быть и определены и интерпретированы численно». По его мнению,
частота языковых знаков является одной из их характерных свойств и обладает
функциональным значением, и, что, следовательно, «существует статистическая языковая
функция, не менее важная и не менее объективная, чем функция семантическая, и столь
же необходимая для полного и правильного понимания языковых фактов».
Пьер Гиро обследовал большое количество работ, касающихся применения
статистических методов в языкознании, и опубликовал обширную библиографию. По его
мнению, большинство трудов, опубликованных до 1940 г., устарело, так как за редким
исключением, лингвисты до указанного времени подразумевали под статистикой простые
подсчеты. Только после работ Дж. К. Ципфа, Дж. Юла, А. Росса и некоторых других были
ясно осознаны возможности, которые дают статистические методы.
Довольно давней традицией обладают стилистические работы с применением
статистических методов. Достаточно сказать, что даже такой ярко выраженный
представитель «классического» толка в языкознании, как академик В. В. Виноградов еще
в 1938 г. признавал необходимость привлечения квантитативных методов при изучении
стилей. Он писал: «По-видимому, в разных стилях книжной и разговорной речи, а также в
разных стилях и жанрах художественной литературы частота употребления разных
типов слов различна. Точные изыскания в этой области помогли бы установить
структурно-грамматические, а отчасти, и семантические различия между стилями».
7
Полезность применения статистических методов в языкознании бесспорна. Ведь
многие языковые закономерности нельзя рассматривать как некие абсолютные законы, их
можно трактовать лишь как правила, вытекающие из статистической вероятности. Кроме
того, статистические исследования и описания могут иногда приводить к новым
формулировкам традиционных закономерностей. Исследователи в области лингвистики
сейчас уже говорят об «очевидной органичности статистических методов для лингвистики
как науки».
Популярность квантитативной лингвистики (лингвостатистики) постоянно
возрастает, о чем свидетельствуют не только многочисленные работы, опубликованные за
последние годы, но также регулярно проводимые конференции, симпозиумы и совещания,
посвященные вопросам, которые тесно связаны с применением квантитативных методов в
языкознании. С 1991 года (г. Трир, Германия) проводятся Международные конференции
по квантитативной лингвистике. С 1994 года (до настоящего времени – 2021) выходит
международный «Журнал по квантитативной лингвистике» (The Journal of Quantitative
Linguistics or Glottometrika).
В течение последних десятилетий квантитативная лингвистика стала завоевывать
все более важное место как в исследованиях отдельных ученых, так и в университетских
курсах – не только в Гарварде, но и в других университетах Европы и Соединенных
Штатов. Центрами статистических исследований речи и языка стали Массачусетский
технологический институт, Мичиганский и Пенсильванский университеты в Соединенных
Штатах, Бохумский и Трирский университеты в Германии, а также Тартуский,
Московский и Ленинградский (СПбГУ) университеты в Советском Союзе.
Тем не менее, лишь сравнительно небольшая часть исследователей в области
языкознания может правильно и в полной мере воспользоваться теми огромными
возможностями, которые таит в себе математическая статистика.
Цель настоящего курса – ознакомить лингвистов, начинающих исследователей в
области лингвостатистики, с приемами статистических вычислений и корректным
использованием математического аппарата. Все вычислительные методы иллюстрируются
примерами, большинство которых дается на языковом материале. Назначение предмета
чисто утилитарное – дать в руки исследователя-языковеда элементы математического
аппарата, используемого в статистике. Поэтому в нем мало выводов предлагаемых
формул и математических обоснований описываемых методов, а если таковые и
приводятся, то главным образом с целью показать, что в математических основах можно
при желании разобраться, обладая подготовкой в объеме программы средней школы. Для
тех, кто стремится к более глубокому познанию математических основ статистики, даются
библиографические ссылки.
Основные области применения

структурно-вероятностной модели языка
Основным методом решения различных задач новыми информационными
технологиями (НИТ) является метод моделирования. Суть его заключается в том, что для
решения какой-либо задачи строится модель некоторого объекта, явления или процесса.
Таким образом, описательная лингвистика рассматривает языковые явления на
различных уровнях, теоретическая лингвистика формулирует структурную модель языка,
а квантитативная лингвистика вместе с новыми информационными технологиями,
благодаря использованию статистических методов и автоматизации исследовательских
процессов позволяет дополнить структурную модель языка вероятностным компонентом,
т. е. создать структурно-вероятностную модель, обладающую значительным
объяснительным потенциалом.
Рассмотрим некоторые области применения структурно-вероятностной модели
языка.
8
Лингвистический мониторинг функционирования языка
Задача лингвистического мониторинга заключается в выявлении общих

особенностей функционирования языковой системы в конкретном типе дискурса
(научном, политическом дискурсе, текстах средств массовой информации и т.д.).
В качестве предмета лингвистического мониторинга могут выступать такие
феномены естественного языка, как типы языковых ошибок, сфера иностранных
заимствований, новые слова и значения, новые (креативные, творческие) метафоры,
тематическое распределение лексики (например, лексика временных и пространственных
отношений, лексика выражения чувств и эмоций, спортивная лексика и т.д.), особенности
использования в текстах тех или иных грамматических форм, синтаксических
конструкций.
Технология лингвистического мониторинга основывается на двух важнейших
предпосылках. Во-первых, на регулярности и периодичности анализируемых данных. Во-
вторых, на достаточно большом объеме привлекаемого материала, на репрезентативности
выборочных данных.
В силу этого лингвистический мониторинг невозможен без соответствующего
компьютерного обеспечения. Использование компьютерной технологии позволяет давать
оценку исследуемому феномену, выявляя его распределение по времени, источникам,
авторам и т.д.
Компьютерное моделирование языка и речи
Другая важная область прикладных исследований – использования знаний о частоте

употребления тех или иных языковых единиц и структур.
Многие компьютерные программы, связанные с функционированием языка,
используют алгоритмы, основывающиеся на данных о частоте употребления фонем,
морфем, лексических единиц и синтаксических конструкций. Например, программы
автоматической коррекции орфографии содержат словари, как правило, только наиболее
частотных лексем. Аналогичные словари используются в программах автоматического
распознавания письменного текста и речи (FineReader).
Абсолютная и относительная частоты появления лексем (особенно
терминологической лексики) используется в системах автоматического аннотирования и
реферирования.
Дешифровка кодированного текста
В процессе дешифровки также могут использоваться данные о частоте употребления

графем, морфем и слов, а также их взаимном расположении.
К настоящему времени разработаны продуктивные алгоритмы дешифровки,
основанные на частоте и дистрибуции элементов кодированного текста: дешифровочные
алгоритмы Б. В. Сухотина и статистико-комбинаторный метод Н. Д. Андреева. Близки к
задачам дешифровки формальные процедуры «открытия» морфемного состава
неописанного языка, предложенные З. Харрисом.
Авторизация / атрибуция текста
Проблема авторизации текста относится к числу классических проблем

филологического исследования. Часто она рассматривается в рамках «количественной
стилистики» – стилеметрии.
Лингвистические основания авторизации могут быть различны, но использование
9
количественных методов анализа оказывается неизбежным.
Разрабатываются подходы, основанные:
- на изучении количественных особенностей реализации синтаксических структур;
- выявлении некоторых особенностей формальной структуры текста, связанных с
выражением типов чужой и авторской речи;
- соотношение чужой речи (прямой, смешанной, вложенной) с авторской также
оказывается стилеобразующим фактором.
10

Квантитативная лингвистика и НИТ. Лекция 1

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Квантитативная лингвистика и НИТ. Лекция 1

Загружено:

Авторское право:

Доступные форматы

Квантитативная лингвистика и НИТ

– Давайте присядем на это бревно у дороги, – говорю я, – и забудем

О. Генри. Справочник Гименея (1907). (Эпиграф к книге М.Дж. Кендалла и

История всех наук показывает, что наилучшим концептуальным аппаратом или

Язык лежит вне меры и числа

Интересно отметить, что в трудах Н. С. Трубецкого, формулировавшего свои

Математическая лингвистика как наука зачастую подразделяется учеными (К. Б.

1. Факт изменения языка с течением времени. Каждая языковая система подвергается

2. Размытость значения, в связи с чем в современной семантике все в большей

3. Дефицит информации, характерный для общественных наук. Так, мы можем

Различие между качественным и количественным методами заключается в

Квантитативная лингвистика подразумевает изучение и экспликацию языковых

Квантитативная лингвистика, опирающаяся на статистику, по мере приближения

Одной из важнейших задач квантитативной лингвистики является составление

Есть три рода лжи:

Э. Льюис (1963) отмечал: «Статистику иногда определяют как искусство и науку

Основные области применения

Задача лингвистического мониторинга заключается в выявлении общих

Компьютерное моделирование языка и речи

Другая важная область прикладных исследований – использования знаний о частоте

Дешифровка кодированного текста

В процессе дешифровки также могут использоваться данные о частоте употребления

Авторизация / атрибуция текста

Проблема авторизации текста относится к числу классических проблем

Вам также может понравиться