Вы находитесь на странице: 1из 1

ЧЕШСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС (Český národní korpus или ČNK) — это доступная для открытого поиска

база письменных текстов в электронной форме на чешском языке, поддерживаемая Университетом имени
Карла в Праге. Сайт доступен на чешском и английском языках.

-------------------------------------------------------------------------------------------------------------------------------------------------------

Идея о создании ЧНК была выдвинута в 1991 году представителями Факультета философии Карлова
университета. Инициативу поддержали Масариков университет, Университет Палацкого и Академия наук
Чехии (в особенности Институт чешского языка) (ЩЁЛК).

ПРЕДПОСЫЛКИ ДЛЯ СОЗДАНИЯ КОРПУСА:


 отклонение современного чешского языка от общепринятых норм (создание корпуса помогло бы
избавить чешскую лексикографию от подобных отклонений);
 стабилизация политической ситуации (более широкое сотрудничество с международным научным
сообществом помогло привнесению в чешскую лингвистику компьютерной лексикографии и
корпусной лингвистики как отдельных ветвей) (ЩЁЛК).

В 1994 году при Факультете философии Карлова университета был создан Институт Чешского
национального корпуса, а также были подписаны соглашения о сотрудничестве с некоторыми
институциями (ЩЁЛК)

В частности, НА ДАННЫЙ МОМЕНТ С КОРПУСОМ СОТРУДНИЧАЮТ:


 Институт формальной и прикладной лингвистики и Математико-физический факультет Карлова
университета (Прага, Чехия);
 Факультет информатики Масарикова университета (Брно, Чехия);
 Департамент чешского и славянского языкознания (Брно, Чехия);
 Институт чешского языка Академии наук Чехии;
 Факультет славянских языков Брауновского университета (Род-Айленд, США);
 Факультеты филологии и искусств Санкт-Петербургского Государственного Университета;
 Факультет философии и литературы Университета Гранады (Испания);
 Институт немецкого языка в Мангейме (Германия);
 Университет Амстердама (Нидерланды) и другие крупные научные центры

-------------------------------------------------------------------------------------------------------------------------------------------------------

ОБЩИЙ ОБЪЁМ КОРПУСА составляет свыше 9 млрд словоупотреблений, из которых лемматизировано и


размечено морфологическими тегами ~8894,5 млн. ЛЕММАТИЗАЦИЯ – это возведение словоформы в её
словарную форму (для существительных — именительный падеж, единственное число, для
прилагательных — именительный падеж, единственное число, мужской род, для глаголов, причастий,
деепричастий — глагол в инфинитиве несовершенного вида), а МОРФОЛОГИЧЕСКИЕ ТЕГИ – это просто
частеречная разметка (определение части речи и грамматических характеристик слов в тексте (корпусе) с
приписыванием им соответствующих тегов).

-------------------------------------------------------------------------------------------------------------------------------------------------------

ОСНОВНЫМ СОДЕРЖИМЫМ ЧНК являются:


 Тексты, полученные в электронном виде от издательских домов и индивидуальных владельцев;
 Тексты, полученные из газет (составляют абсолютное большинство текстов корпуса — около 60%);
 Тексты словарей