Вы находитесь на странице: 1из 31

ВВЕДЕНИЕ В КОРПУСНУЮ

ЛИНГВИСТИКУ

Е.А. Бакланова
ЛЕКЦИЯ 1: Понятие «корпус»
1.1.«Корпус как инструмент и как идеология»
В.А. Плунгян. Корпус как инструмент и как идеология: о некоторых уроках
современной корпусной лингвистики. // Русский язык в научном освещении. - М., 2008. - № 2
(16). - С. 7-20:

Современная теоретическая лингвистика учитывает:

- текст, дискурс как реальный инструмент коммуникации в целом;

- квантитативный компонент языка (частотность явления);

- синхронную вариативность языка;

- диахроническую вариативность языка;

- расширение границ языковой нормы.


1.1.«Корпус как инструмент и как
идеология»

usage-based vs. system-based approach (т.е. эмпирики vs. рационалисты)


…we can investigate how speakers and writers exploit the resources of their language. Rather than
looking what is theoretically possible in a language, we study the actual language used in the naturally
occurring texts” [Biber, Conrad, Reppen 1998]

«Системный» подход (N. Chomsky etc.) «Корпусной» подход (J.Bybee, W.Croft, etc.)

искуственные конструкции «живые» конструкции

оценка верности / ошибочности основа для выведения правила

правило выводится ДО употребления правило выводится ИЗ употребления

интуиция, интроспекция данные корпуса


1.1.«Корпус как инструмент и как идеология»

Н.В. Перцов. О роли корпусов в лингвистических исследованиях


[Труды межд. конф. «Корпусная лингвистика 2006». СПб., 2006. С. 318-331]

[Языковая картина мира и системная лексикография / В.Ю. Апресян, Ю.Д.


Апресян, Е.Э. Бабаева и др.; отв. ред. Ю.Д. Апресян. – М, 2006: 38]:
невозможность сочетания глагола сидеться с «оценочными атрибутами
типа хорошо, плохо, отлично и т. п.; ср. *И чего тебе плохо сидится?<..>»

Данные НКРЯ: К <5>: — Я не люблю ловить рыбу, — с вялой улыбкой сказал


Сергей Сергеевич. — Просто здесь хорошо сидится [Ю. Буйда, 1999]; Кошкин
самодовольно откинулся на спинку кресла, в котором так хорошо сиделось [Е.
и В. Гордеевы, 2002]; За бешбармаком, водкой и легкими разговорами хорошо
сидится [Д. Маркиш, 2003].
1.2. История создания языковых корпусов

• докорпусная цифровизация гуманитарного знания -


с 1949 - свящ. Роберто Буза, Index Thomasticus

• 1960-е - Brown Corpus:

Henry Kučera

William Nelson Francis


1.2. История создания языковых корпусов

Критерии отбора текстов для Брауновского корпуса:

1.Происхождение и состав текста


2.Синхронизация
3.Продуманное соотношение численной представленности
различных жанров и отбор отдельных текстов при помощи
особой вероятностной процедуры (500 2000-словных отрывков)
4.Доступность для компьютерной обработки (специальные
пометы для передачи графических особенностей текста и т.п.)
1.3. Понятие «лингвистический корпус текстов»

Корпус - это "совокупность текстов, считающаяся


представительной для данного языка, диалекта или
другого подмножества языка, предназначенная для
лингвистического анализа" (Фрэнсис 1983)

Корпусная лингвистика – раздел прикладной


лингвистики, связанный с разработкой общих
принципов построения и использования
лингвистических корпусов с применением
компьютерных технологий.
1.3. Понятие «лингвистический корпус текстов»

Требования к формированию корпуса текстов [Захаров 2005]

1. Репрезентативность
2. Электронный формат
3. Аннотирование, или разметка
4. Компьютерная поддержка (комплекс программ по обработке
данных)
5. Размер (для национального корпуса языка - минимум 100 млн.
словоупотреблений)
1.3. Понятие «лингвистический корпус текстов»

• Репрезентативность - необходимо-достаточное
для выбранной задачи и пропорциональное
представление в корпусе текстов исследуемых
периодов, жанров, стилей, авторов и т.п.
• сбалансированность - типы текстов в тех
пропорциях, в которых они представлены в изучаемом
сегменте языка.
1.3. Понятие «лингвистический корпус текстов»

Основные требования к созданию национального корпуса языка

1. Необходимый и достаточный объём (минимум 100 млн словоупотреблений).


2. Достаточно протяжённый хронологический охват языка.
3. Репрезентативность выборки текстов
4. Тексты должны пройти филологическую экспертизу.
5. Тексты должны быть представлены в электронной форме.
6. Многопрофильная система аннотирования (метатекстовая,
акцентная, морфологическая, синтаксическая, семантическая разметка).
7. Многофункциональность корпуса
8. Общедоступность.
1.3. Понятие «лингвистический корпус текстов»

Примеры
национальных
корпусов

BNC - 100 млн.


НКРЯ (основной корпус) -
более 260 млн.слов
ruscorpora.ru
COCA - 520 млн
NKJP - 300 млн.
1.3. Понятие «лингвистический корпус текстов»

вэб-корпус (скачивание
массивов текста из Интернета
- web-crawling ):

Генеральный Интернет-корпус
Русского Языка
(ГИКРЯ) – более 20 млрд. слов
www.webcorpora.ru

Sketch Engine
www.sketchengine.eu , и мн. др.
1.4 Принципы создания корпуса

• Критерии отбора текстов автор должен обозначить в


информации о корпусе (метаданных). В т.ч.
необходимо указать объем корпуса, корпус должен
быть finite-sized

Можно ли сказать, что словоупотребление возросло?


«аз»: 18 век - 335 вхождений, 19 век- 603, 20 век - 887
1.4 Принципы создания корпуса

• Разметка, аннотация (tagging, annotation) - это


введенная автоматически или вручную
лингвистическая или метатекстовая информация обо
всех выбранных [для исследования] единицах
корпуса: тексте, предложении, текстоформе, морфеме,
звуке и т.п.
[подробнее: Михаил Копотев. Введение в корпусную лингвистику. Прага:
Анимедиа, 2014]
1.4 Принципы создания корпуса

• Типы разметки

1.Экстралингвистическая (метаразметка):
- сведения об авторе
- сведения об объеме корпуса и (при необходимости) каждого из
текстов
- сведения о тексте: источник, год и место публикации, жанр,
тематика, автор, название.
1.4 Принципы создания корпуса
Пример: Структура метаразметки НКРЯ (http://ruscorpora.ru/corpora-
parameter.html)
I. 1) Автор текста: имя, пол, дата рождения (или примерный возраст);
2) Название текста;
3) Время создания текста (точно или приблизительно);
4) Объем текста: для художественных произведений принято, что обычная
длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до
15 тыс. слов; обычная длина романа — более 15 тыс. слов.

II. метаописания трех основных массивов текстов корпуса: а)


художественных текстов; б) нехудо-жественных текстов; в) драматургии.
1.4 Принципы создания корпуса

2.Структурная разметка (расстановка меток - глава, абзац,


предложение, словоформа)

3.Собственно лингвистическая
- Морфологическая разметка (PoS-tagging) - основная
- синтаксическая разметка (parsing, treebank)
- семантическая разметка (semantic annotation)
- анафорическая разметка (референтные связи)
- просодическая разметка (ударение, интонация).
1.4 Принципы создания корпуса

• Примеры тегов (помет) в НКРЯ:


Имена существительные (S)
Разряды
r:concr – предметные имена (девочка, стол)
r:abstr – непредметные имена (вождение, время)
r:propn – имена собственные (Иван, Петроград)
Таксономия (тематический класс)
t:hum – лица (человек, учитель)
t:hum:etn – этнонимы (эфиоп, итальянка)
t:move – движение (беготня, вынос)
t:move:body – изменение положения тела, части тела (поклон)
1.4 Принципы создания корпуса
Имена числительные (NUM, A-NUM)
r:card – количественные (два, пять, десять)
r:card:pauc – числительные малого количества
r:ord – порядковые (первый, второй, десятый)
Местоимения (PRO)
S-PRO – местоимения-существительные (он, кто)
A-PRO – местоимения-прилагательные (его, какой)
ADV-PRO – местоимения-наречия (где, как)
Глаголы (V)
t:move – движение (бежать, дергаться, бросить, нести)
Наречия (ADV) , и т.п.
1.4 Принципы создания корпуса
КОРПУСНАЯ ТЕРМИНОЛОГИЯ
Текстоформа, токен (token) – «аналог» словоформы в
компьютерной лингвистике, единица текста от пробела до пробела
токенизация (tokenization): выделение в текстовом потоке
текстоформ для последующего анализа
лемма (lemma) – словарная форма слова, «аналог» лексемы,
результат автоматического сведения текстоформ к начальной форме
лемматизация (lemmatization) – процедура восстановления
словарной формы слова по его словоформе.
парсинг (parsing) – приписывание определенных синтаксических
признаков слову или сочетанию слов
парсер (parser) – комп. программа, осуществляющая приписывание
предложению синтаксической структуры.
1.4 Принципы создания корпуса
семантическая сеть (semantic / frame network) - разметка
семантических связей между лексемами
тег - значок, условно обозначающий морфологический признак
теггер, лингвистический аннотатор - программа,
автоматически анализирующая морфологию слов
тегсет (tagset) - морфологическая характеристика текстоформы в
виде набора тегов
1.4 Принципы создания корпуса
Корпус-менеджер (corpus manager) – специализированная поисковая
система, включающая программные средства для поиска данных в корпусе,
получения статистической информации и предоставления результатов
пользователю в удобной форме.

Примеры:
AntConc - laurenceanthony.net
Voyant Tools - https://voyant-tools.org
Word Cruncher - https://www.wordcruncher.com/#!

Конкорданс – список всех употреблений данного слова в контексте со


ссылками на источник.
1.4 Принципы создания корпуса

Geoffrey Leech (1936-2014)


британский лингвист,
один из пионеров
корпусной лингвистики

- инициатор Lancaster-
Oslo/Bergen (LOB) Corpus
- создатель British National
Corpus (BNC)
и др.
1.4. Принципы создания корпуса
«Максимы Лича» - общие принципы аннотирования корпуса:
1.It should be possible to remove the annotation from an annotated
corpus in order to revert to the raw corpus.

2.It should be possible to extract the annotations by themselves from


the text.

3.The annotation scheme should be based on guidelines which are


available to the end user.

4.It should be made clear how and by whom the annotation was carried
out.
1.4. Принципы создания корпуса
5.The end user should be made aware that the corpus annotation is not
infallible, but simply a potentially useful tool.

6.Annotation schemes should be based as far as possible on widely


agreed and theory-neutral principles.

7.No annotation scheme has the a priori right to be considered as a


standard. Standards emerge through practical consensus.

[Garside, R., G. Leech and A. McEnery (eds.) (1997). Corpus Annotation:


Linguistic Information from Computer Text Corpora, London: Longman]
1.5. Технология создания корпуса

1. Определение перечня источников.


2. Оцифровка текстов.
3. Предобработка текста (филологическая выверка;
метаданные).
4. Конвертирование и графематический анализ.
5. Разметка текста:
- структурная - обычно автоматически;
- лингвистическая - автоматически и/ или вручную.
1.5. Технология создания корпуса

6. Исправление ошибок и снятие неоднозначности (вручную /


полуавтоматически)
Снятие языковой неоднозначности (disambiguation) -
процедура выбора самого верного варианта из множества
омонимичных разборов.

Токен Лемма Граммемы


глокая ГЛОКИЙ прил., ж.р., им. пад,
ед.ч.
глокая ГЛОКАТЬ дееприч., действ.,
наст.вр.
1.5. Технология создания корпуса

7. Заключительный этап – конвертирование размеченных


текстов в структуру специализированной лингвистической
информационно-поисковой системы (corpus manager),
обеспечивающей быстрый многоаспектный поиск и
статистическую обработку.

8. Обеспечение доступа к корпусу (в пределах дисплейного


класса, на носителях, в локальной сети, в Интернете).
Материалы к вводным лекциям

Крупнейшие
специализированные
каталоги Clarin.eu и
ELRA.info содержат инфо
о более чем 3000 корпусов

Clarin:
https://www.clarin.eu/reso
urce-families/manually-
annotated-corpora
Материалы к вводным лекциям

ELRA
http://catalog.elra.info/en-
us/repository/search/?q=corpus
Материалы к вводным лекциям

Захаров В.П. Корпусная лингвистика: методическое пособие. СПб,


2005.
Захаров В.П., Коваль С.А. Корпусная лингвистика и
лингвистические базы данных. URL: http://www.viniti.ru/cgi-
bin/nti/nti.pl?action=show&year-=2_2002&issue=7&page=24
Копотев, Михаил. Введение в корпусную лингвистику. Прага, 2014.
Рыков В.В. Корпусная лингвистика и лексикография – проблема
репрезентативности. URL: http://rykov-cl.narod.ru/t32.html
Чардин И.С. Лингвистические корпуса с синтаксической разметкой
и их применение. URL: http://www.viniti.ru/cgi-
bin/nti/nti.pl?action=show&year-=2_2003&issue=6&page=18