Вы находитесь на странице: 1из 9

МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ФАКУЛЬТЕТ СОЦИОКУЛЬТУРНЫХ КОММУНИКАЦИЙ

Кафедра компьютерной лингвистики и лингводидактики

Реферат на тему: CLARIN – Европейская исследовательская


инфраструктура языковых ресурсов и технологий. CLARIN-PL

Кизицкой Ирины Васильевны

студентки 5 курса,

специальности «современные

иностранные языки (преподавание)»

Минск, 2021
Оглавление
Введение..................................................................................................................3
О CLARIN-PL.........................................................................................................3
PolLinguaTec...........................................................................................................5
Основные инструменты и ресурсы....................................................................5
Выводы:...................................................................................................................9

2
Введение
CLARIN (Common Language Resources & Technology Infrastructure) -
общеевропейская исследовательская инфраструктура - позволяет
исследователям в области гуманитарных и социальных наук комфортно
работать с очень большими коллекциями текстов.
CLARIN расшифровывается как "общие языковые ресурсы и
технологическая инфраструктура".

Цель CLARIN - сделать лингвистические ресурсы и электронные


инструменты для автоматической обработки естественного языка
доступными для исследователей всех научных дисциплин, в частности,
гуманитарных и социальных наук.
Инфраструктура CLARIN полностью функционирует во многих странах, и
большое число участвующих центров предлагают услуги доступа к данным,
инструментам и экспертным знаниям. В то же время CLARIN продолжает
создаваться в некоторых странах, присоединившихся к нему совсем недавно,
и наборы данных и сервисы CLARIN постоянно обновляются и
совершенствуются.

Инфраструктура CLARIN состоит из сети центров. 


Это центры:
 тип А: здесь создаются технологические основы и сервисы для
функционирования сети;
 Тип B: Центр языковых технологий, здесь пользователям
предоставляются инструменты и ресурсы, связанные с обработкой
естественного языка (это основные элементы сети);
 Тип-C: вот описания ресурсов или метаданные;
 Тип K: здесь пользователи получают поддержку и доступ к знаниям и
экспертам.

О CLARIN-PL
CLARIN-PL - это польский научный консорциум, часть общеевропейской
исследовательской инфраструктуры CLARIN. Они состоят из шести
исследовательских групп, которые разрабатывают электронные языковые
ресурсы и инструменты для работы с большими коллекциями текстов на
польском языке.
Сеть CLARIN предоставляет программное обеспечение, которое позволяет
использовать ранее разработанные цифровые архивы и корпуса, а также
создавать, хранить и совместно использовать новые ресурсы. Также можно
работать с необработанным текстом, опубликованным в Интернете в таких
формах, как пресс-релизы, статьи, блоги и другие документы. В планах на
3
будущее создание инструментов для анализа записанной речи в трансляциях,
видеоблогах и так далее.
В отличие от коммерческих поисковых систем в Интернете, которые лучше
всего работают с небольшими наборами ключевых слов, программное
обеспечение CLARIN пытается понять анализируемые тексты, поэтому
пользователи получают информацию, относящуюся к их интересам, без
необходимости пробовать различные комбинации терминов. Это особенно
полезно при поиске в очень больших наборах исходных текстов связей
между такими конкретными элементами, как люди, места, учреждения или
предприятия.
Инструменты CLARIN будут поддерживать множество задач обработки
языка, включая автоматическое обобщение текста, поиск названий
сущностей и морфологический и синтаксический анализ
документов. Обработка такого рода поможет, например, тем, кто изучает
политический, социальный или рекламный дискурс.
Приложения, доступные через CLARIN, имеют удобный интерфейс, не
требующий глубоких знаний в области информационных
технологий. Инструменты, созданные для польского языка (CLARIN-PL),
соответствуют стандартам, которые делают их полностью совместимыми с
услугами, предлагаемыми другими европейскими центрами CLARIN. Это
обеспечивает гибкость при объединении отдельных инструментов в
многоступенчатые системы обработки, в том числе многоязычные системы,
и, таким образом, позволяет максимально увеличить объем информации,
получаемой из текста.
Лидером консорциума является Центр языковых технологий Вроцлавского
технологического университета, который является B-центром CLARIN.
Польский национальный координатор - Мацей Пясецки. В состав
консорциума входит очень разноплановая группа специалистов: IТ-
специалисты, лингвисты, литературоведы, а также специалисты в области
библиотечного дела и информатики.

Целью Центра языковых технологий CL-PL является заполнение пробелов в


так называемом основные инструменты и ресурсы для польского
языка. Благодаря активному сотрудничеству с избранными учеными в
области гуманитарных и социальных наук Центр будет создавать
инновационные исследовательские приложения в области электронных
гуманитарных наук, ориентированные на польский язык. В конечном итоге
сотрудничество может также включать электронные библиотеки, архивы,
музеи и т. д.
Центр языковых технологий разрабатывает программы, которые будут
полезны, в том числе в определении авторства анонимных текстов,
определении психологического профиля автора, автоматическом обобщении,
4
извлечении знаний и информации из текстов, исследовании связей в бизнесе,
политике и науке. 

В задачи Центра также входят:


 построение репозитория, в котором собранные инструменты и ресурсы
будут помечены постоянными идентификаторами;
 забота о технической согласованности появляющейся системы и
соблюдении принятых стандартов, прав интеллектуальной собственности,
лицензий и этических принципов;
 установление политики безопасности, например, посредством
сертификации серверов и ответственного управления личными данными.

PolLinguaTec
Техническая инфраструктура (то есть серверы) находится во Вроцлавском
технологическом университете в Центре языковых технологий CLARIN-PL.
PolLinguaTec - Центр знаний CLARIN по технологиям польского языка.
Центр знаний по технологиям польского языка - это CLARIN K-центр,
расположенный при Центре языковых технологий CL-PL при Вроцлавском
университете науки и технологий.
Центр языковых технологий (LTC(Polish Language Technology)) - это
учреждение, обеспечивающее доступ к знаниям, полезным при применении
инструментов и систем для анализа естественного языка, особенно
польского, в рамках цифровых гуманитарных и социальных наук. LTC имеет
в своем распоряжении документацию (инструкции и руководства) и опытных
сотрудников, способных решать проблемы, связанные с использованием
инструментов, ресурсов и систем. LTC также предлагает ряд
исследовательских приложений, созданных для конкретных типов
исследовательских задач и в тесном сотрудничестве с исследователями из
областей H&SS. LTC уже много лет является одним из ведущих польских
центров по разработке технологий обработки естественного языка.

Основные инструменты и ресурсы


Языковые инструменты - это программы для автоматического анализа
текста и речи на разных уровнях описания: формальном (морфологическом,
синтаксическом), семантическом и прагматическом. Языковые инструменты
- это также специализированные программы, разработанные для конкретных
задач в текстовом редакторе. Мы можем упомянуть здесь, например,
программы для распознавания встречаемости имен собственных, их

5
семантической классификации или автоматического отображения языковых
данных.
Многие типы языковых ресурсов и инструментов - это основные
компоненты построения систем языковой обработки. Отсутствие этих
ресурсов и инструментов для конкретного языка сильно ограничивает
возможные применения инженерии естественного языка для данного языка.
Услуги CLARIN-PL - это электронные языковые ресурсы, приложения для
решения конкретных исследовательских задач в области гуманитарных и
социальных наук, а также инструменты для автоматического анализа текстов.

plWordNet является крупнейшей в мире сетью WordNet, доступной по


открытой лицензии, вместе с ее отображением в Princeton WordNet. Он
включает эмоциональную аннотацию и был создан в тесном сотрудничестве
со словарем валентности Walenty.
Słowosięć (wordnet) - реляционный семантический словарь, отражающий
лексическую систему польского языка. В настоящее время он содержит 191
000 существительных, глаголов, прилагательных и наречий, 285 000
значений и более 600 000 сообщений. Это уже самая большая вордсеть в
мире, которая постоянно растет;

6
Words of the Day показывает слова, наиболее часто используемые в СМИ.
Каждое утро сравнивается частота слов в RSS-каналах новостей 7
национальных газет: Dziennik Gazeta Prawna, Gazeta Wyborcza, Polska. The
Times »,« Rzeczpospolita »,« Nasz Dziennik »,« Fakt »и« Super Express».
«Слова дня» отбираются на основе специального статистического ключевого
фактора Даннинга (Dunning, 1993), значение которого указано в четвертом
столбце. При вычислении этого показателя мы сравниваем частоту слова в
данный день и его частоту за последние 12 месяцев.
В третьем столбце мы предоставляем комментарий, ограниченный ссылкой
на собственные слова и имена (включая раскрытие имен и сокращений). В
пятом столбце мы приводим ссылки на график частоты появления слов за
последние 12 месяцев;

7
Paralela – поисковая система для аннотированных параллельных польско-
английских текстов.
Общедоступный указатель Paralela в настоящее время содержит более 262
000 000 слов в 10 877 301 параллельных сегментах из польско-английских и
англо-польских переводов текста. Более 8 миллионов слов в корпусе были
вручную выровнены и аннотированы для типов эквивалентности;

Phonetic transcription - инструмент для преобразования текста в


фонетическую транскрипцию;

Spokes - поисковая система для разговорных данных.


Корпуса спонтанной разговорной речи являются важным источником
первичных данных не только для лингвистов, но и во все большей степени
для исследований в других областях социальных и гуманитарных
наук. Spokes - это мультимедийная поисковая система для уникального
корпуса повседневной разговорной польской речи.
В настоящее время он разрабатывается командой PELCRA как
часть польской инфраструктуры CLARIN . Предоставляя инструменты для
интеллектуального анализа данных и визуализации, мы надеемся сделать эти
данные более доступными для исследователей, заинтересованных в изучении
образцов естественного разговорного языка.
В настоящее время корпус содержит 304 672 высказывания (2 624 197 слов) в
транскрипциях спонтанных разговоров. Большинство транскрипций
совмещены с аудиозаписями;

8
Большинство инструментов и ресурсов работают в удобной для пользователя
технологии веб-сервисов (для этого не требуется установка какого-либо
программного обеспечения на компьютер пользователя);
И различные инструменты распознавания речи, такие как Align.

Выводы:
Конечная цель CLARIN-PL, заключается в продвижении исследований в
области гуманитарных и социальных наук, предоставляя исследователям
единый вход на платформу, которая объединяет языковые ресурсы и
передовые инструменты на европейском уровне. Это должно осуществляться
путем создания и функционирования общей распределенной
инфраструктуры, которая направлена на то, чтобы сделать языковые
ресурсы, технологии и экспертные знания доступными для всего сообщества
исследователей гуманитарных и социальных наук.