Вы находитесь на странице: 1из 21

Корпусная лингвистика

Основные понятия
Корпус — это информационно-справочная система, основанная на собрании
текстов на некотором языке в электронной форме.

Назначение языкового корпуса - показать функционирование


лингвистических единиц в их естественной контекстной среде.

Корпус служит основанием для оценки допустимых и недопустимых


вариантов перевода.
На основе корпуса можно получить данные:

● о частоте словоформ, лексем, грамматических категорий,


● об изменениях частот
● об изменениях контекстов в различные периоды времени
● о поведении языковых единиц разных авторов
● о совместной встречаемости лексических единиц
● об особенностях их сочетаемости, управления
● и т.д.
Пользователи корпусов текстов

- исследователи-лингвисты

- переводчики

- литературоведы, историки, журналисты, редакторы

- преподаватели родного и иностранного языков

- изучающие родной или иностранный языки


Типы корпусов
- корпусы, относящиеся ко всему языку (Национальные корпусы)

- корпусы, относящиеся к какому либо подъязыку (жанр, стиль,


язык определенной возрастной или социальной группы, язык
писателя, язык ученого и т.п.)

Существует большое число разных других корпусов.


Можно выделить различные основания для классификации корпусов
Классификация корпусов
признак типы корпусов

Тип данных ● письменные


● речевые
● смешанные

Язык текстов ● русский


● английский и т.д.

Параллельность ● одноязычные
● двуязычные
● многоязычные

Специфичность ● литературные
● диалектные
● разговорные
● терминологические
Классификация корпусов

признак типы корпусов

Жанр ● литературные
● фольклорные
● драматургические
● публицистические

Доступность ● свободно доступные


● коммерческие
● закрытые

Назначение ● исследовательские
● иллюстративные

Динамичность ● динамические (мониторные)


● статические
Классификация корпусов

признак типы корпусов

Характер разметки ● морфологические


● синтаксические
● семантические и т.д

Объем текстов ● полнотекстовые


● “фрагментотекстовые”

Разметка ● размеченные
● неразмеченные
Типы корпусов данных
Статические - отражают определенное временное состояние языковой системы
(авторские корпусы — коллекции текстов писателей)

Динамические (мониторные) - отражают определенное временное состояние


языковой системы (авторские корпусы — коллекции текстов писателей)

Корпусы параллельных текстов - подмножество текстов на языке-источнике и одно


или несколько подмножеств текстов, которые являются переводами текстов языка-
источника на языки-цели. Формируются для научных и практических целей
Требования к корпусу текстов с точки зрения
пользователя
Репрезентативность - необходимо-достаточное и пропорциональное представление в
корпусе текстов различных периодов, жанров, стилей, авторов и т.п.

Полнота - явление должно включаться в корпус, даже если его появление не


соответствует идее репрезентативности.

Достаточный объем
Экономичность - корпус текстов должен экономить усилия исследователя при изучении
проблемной области.

Структуризация информации - наличие описи данных, в которой единицы хранения


характеризуются по тем параметрам, которые могут оказаться важными для пользователя.

Компьютерная поддержка - поддержка корпуса текстов комплексом программ по


обработке данных, обеспечивающих функции составления конкордансов, статистической
инвентаризации, автоматической словарной обработки, и т.д.
Способы представления и хранения корпуса
данных
Неструктурированных - текстовый способ хранения (запись
графем текста в ASCI-кодах);

Структурированный - формат хранения (текст со специальной


разметкой);
Разметка
Англ.: tagging, annotation.
Разметка – приписывание текстам и их компонентам специальных
меток.

Виды разметки:
● экстралингвистическая (метаразметка)
● сведения об авторе и сведения о тексте: автор, название, год и место
издания, жанр, тематика;
● структурная: глава, абзац, предложение, словоформа;
● собственно лингвистическая;
Корпус

Корпус корпусный менеджер


(массив данных) (специализированная
поисковая система)
Программы - конкордансеры
Поиск лингвистической информации в корпусе
осуществляется с помощью программы -
конкордансера, которая выстраивает соответствующий
конкорданс .
Конкорданс — это вертикальный список случаев
употребления слова, расположенных в алфавитном
порядке в электронном корпусе текстов. Слово подается
вместе с его левым и правым окружением.
Программы - конкордансеры
Образец конкорданса, выстроенного для существительного
increase:
The increase in capital allowances is very welcome.
A 50% increase in the sales team to 9,000 helped spark a 124% profits surge.
A big increase in car sales last month encouraged British Aerospace to climb
Wp.
But why the need for the increase in the subsidy in the first place?
In short, the increase in earnings from tourism happened in the year after
the
millennium.
In some areas a 1% increase in spending will result in a 7 or 8% increase in
bills.
Электронные ресурсы переводчика:
● текстовый редактор
● электронные двуязычные и одноязычные словари для работы в режиме онлайн и
офлайн
● Интернет
● англоязычные терминологические базы данных
● специализированные терминологические словари и глоссарии
● программы автоматического редактирования
● общие и специализированные энциклопедии, энциклопедические словари
● электронные корпуса параллельных текстов и конкордансеры
● электронные библиотеки
● онлайновые газетные и журнальные архивы
● программы Переводческой памяти
● программы машинного перевода
Практическое использование корпусов
В процессе перевода на иностранный язык корпус текстов помогает
решать следующие конкретные задачи:
● исходя из критерия частотности выбрать правильный или наиболее
распространенный на данном этапе развития языка, вариант лексико-
грамматического словосочетания и проанализировать
комбинаторные возможности слова;
● определить при переводе предложения, правильно ли выбрана
соответствующая синтаксическая конструкция;
● выяснить, допустим ли в данном конкретном случае буквальный
перевод выражения;
Практическое использование корпусов
● установить на основе данных объективного анализа современного
словоупотребления, в каком значении искомое слово чаще всего
используется на данном этапе развития языка;
● проверить грамматические возможности слова, например, можно ли
перед абстрактным именем существительным willingness в значении
«готовность» употребить неопределенный артикль во фразах типа to
demonstrate/exhibit a willingness to smth, т.е. правильно ли сказать:
Leaders at all levels exhibit a willingness to compromise, tolerance and
responsibility.
● использовать корпус в качестве источника дополнительной
информации о той предметной области
Примеры компьютерных корпусов
● The Bank of English (150 млн слов),
● British National Corpus (100 млн. слов),
● American National Corpus (22 млн слов),
● The Australian Corpus of English (1 млн слов),
● Brown Corpus of American English (более 1 млн слов),
● The International Corpus of English (600 000 слов);
● Национальный корпус русского языка (более 20 млн слов);
● Чешский национальный корпус (100 млн слов);
● The Finnish Translation Corpus (7 млн слов);
● корпуса немецкого языка IDS Korpora и IMS Stuttgart;
● параллельный корпус English-Norwegian Parallel Corpus
Преимущества и недостатки
Преимущества: Недостатки:

● быстрый поиск лингвистически ● Корпусная лексикография не дает


информации готовых рекомендаций и советов
относительно того, что хорошо и что
● огромное количество примеров,
плохо, чему именно следует отдать
иллюстрирующих современное
предпочтение
употребление искомого слова в языке и,
в частности, его лексико- ● нет готовых корпусов для отдельных
грамматическую сочетаемость; подъязыков (проблема решается путем
составления и использования
● регулярное пополнение состава корпуса
специализированных корпусов)
и расширение объема выборки;

● возможность самостоятельного
принятия решения относительно
типовой сочетаемости искомого слова в
языке перевода