Вы находитесь на странице: 1из 9

Типы лингвистического

аннотирования
Морфологическая разметка
Аннотация/разметка - это

 приписанная всем единицам выбранного


уровня (текст, предложение, словоформа и
пр.) соответствующая лингвистическая
информация
Принципы разметки общедоступного
корпуса (по Дж.Личу)
 разметка должна основываться на доступной для пользователя (в виде инструкции
или руководства) схеме анализа, в которой введение каждого параметра должно быть
мотивировано;
 разметка должна быть «теоретически нейтральной», т.е. опираться на знакомую всем
систему понятий;
 должно быть ясно, кто и как разрабатывает схему, а также каковы ограничения
(технические или юридические) при пользовании корпусом.
Существующие типы лингвистического
аннотирования
 звуковой: звук (аллофон);
 просодический: фонетическое слово (или фраза);
 словообразовательный: морфема;
 морфологический: словоформа;
 лексический: лексема;
 синтаксический: предложение.
Этапы развития автоматического анализа
текста (Адам Килгарифф)
 токенизация – выделение в потоке минимальных фрагментов (токенов);
 лемматизация – определение для всех токенов начальной формы;
 частеречная разметка - определение частей речи для всех слов;
 полная морфологическая разметка – приписывание морфологических признаков
словоформам;
 синтаксическая разметка/парсинг – приписывание синтаксических признаков слову
или сочетанию слов;
 семантическая разметка – включение слова в определенный лексико-семантический
класс;
 создание семантических сетей: маркировка семантических связей между лексемами.
Морфологическая разметка

 Токен - текстоформа, цепочка символов от пробела до пробела. Часто соответствует


словоформе, но:
буду читать – 1 словоформа, но две текстоформы
омонимия (лечу-лечу)
 Лемматизация (лечу – лететь, но лечу – лечить). Лемма - начальная единица. Но! Это
графическая единица, без учета семантики (например, ключ).
 Для того, чтобы провести смысловое различие, нужен другой уровень разметки.
 Особенно сложно в английском.
 Fruit flies like a banana.

Что может помочь?


Частеречная разметка (теггирование)

 Программы, анализирующие морфологию слов – лингвистические


аннотаторы/теггеры. Результат – полная морфологическая характеристика в виде
тегсета.
 Обычно не учитывает смысл.
 Глокая куздра штеко будланула бокра и кудрячит бокрёнка.
Алгоритмы анализаторов:

 1. Бессловарный метод – в словаре не морфемы, а псевдокончания/хвосты


(например, - алась)
 2. Словарный метод
 2.а. Соотнесение со словарем основ- используются два словаря: словарь основ и всех
словоизменительных частей слова с приписанной информацией
 Алгоритм: отделение от слова всех потенциальных окончаний, поиск основы,
определение возможности сочетания такой основы и аффикса.
 2.б. Соотнесение со словарем окончаний (псевдосинтаксическая информация) –
поиск синтаксической рамки, например В –ом –е –ются –и.
 2.в. Соотнесение со словарем словоформ
Проблемы
 Языковая неоднозначность:
 Омонимия (отличается от традиционного представления): в общем – в общем вагоне;
 Я.н.: снимаемая – контекст дает необходимую информацию - и контекстуальная – не дает (без
друга пропадешь – три, три и три?);
 Теоретическая неоднозначность – слова типа миллион/ миллиард;

 Многокомпонентные единицы:
 Морфологические аналитические формы (прочитал бы…)
 Многокомпонентные лексемы (железная дорога, числительные).
 Их делят на три группы:
 Контактные неомонимичные обороты (располагаются друг за другом, обозначают цельную единицу);
 Контактные омонимичные обороты ( в общем, в прошлом и т.д.);
 Дистантные обороты (могут быть расположены дистантно: не тольно, но и, читал бы)

Вам также может понравиться