Вы находитесь на странице: 1из 17

Lexical chaining

– Lexical chains - textual cohesion


(Halliday & Hasan)

Cohesion: text makes sense as a whole


Cohesion occurs where the interpretation of
one item is dependent of that of another
item in the text. It is this dependency that
gives rise to cohesion.
Textual coherence
• Союзы
• Референция
• Лексическая связанность
• Субституция (one; делать)
• Эллипсис
В чем преимущество лексической
связанности для автоматического
анализа?
Lexical chaining
5 типов лексической связанности
• повтор
• синонимия
• общее частное СЛОВАРИ
• часть целое
• коллокации ( и антонимы как подтип)

статистически часто встречаются


вместе
WORDNET
(Miller et al. 1990 Fellbaum 1998)
An online lexical database whose design is
inspired by current psycholinguistic theories of
human lexical memory.

– 4 гр. категории: сущ., глагол, прил., наречие


– Главное отношение: СИНОНИМИЯ

SYNSET
Wordnet noun relations

• Гипонимы
• Гиперонимы
• Холонимы
• Меронимы
• Антонимы
Генерация цепочки
1. К термину подбирается синсеты (neighbouri
set)
2. Любой другой термин, который совпадает с
одним из терминов синсета, становится
членом лексической цепочки
3. Если в цепочке имеется более трех
терминов, то ее индексируют
4. И так для всех терминов сообщения

Greedy vs. non-greedy


Morris & Hirst (1991)

Правила выбора правильной цепочки


• Chain salience (words should be added
to the most recently updated chain).

• Thesaural relationship (wordnet:часть-целое)


• Transitivity
• Allowable word distance
Типы отношений (I)
Очень сильные (extra strong) отношения
• повторение слов (mouse/mice)
Сильные (strong) отношения
• два слова, если они имеют одинаковый номер
синсета telephone/phone
• два синсета, если они связаны горизонтальной
связью
• два синсета, если между ними существует связь
наверх или вниз
• два слова, если одно из них является сложным
словом, а другое – его частью (orange_tree, tree)

8
Типы отношений (II)
Отношения средней силы (medium-
strength relations)
• два синсета соединены в WordNet разрешенным
путем длины x, 1≤x≤5
Правила:
• никакое направление не должно
предшествовать связи вверх
• разрешено не более одного изменения
направления (кроме тех случаев, когда
горизонтальная связь использована для
перехода от связи вверх к связи вниз)

9
• В основе выделения трех типов
отношений лежит презумпция того, что
близость в значении прямо зависит от
расстояния (в узлах) в таксономии
• Не все дуги одинаковой длины; правила
– попытка сократить количество узлов,
семантически не связанных между
собой, но близких формально

10
Интуитивные основания
правил
• Если контекст сужен, расширение его
последующей связью наверх не имеет
большого смысла
• Изменение направления – «большой
шаг» в семантике (кроме (редкой)
горизонтальной связи), т. о. отношения
средней силы – либо генерализация,
либо специализация

11
Необходимость правил

12
Работа алгоритма:
Поиск связи между целевым словом и словом
одной из цепочек:
очень сильное отношение > сильное
отношение > отношение средней силы
Отношения средней силы взвешиваются в
зависимости от длины пути и количества
изменений направления (нужно найти самое
сильное отношение средней силы):
(1) Link Strength = C – path length - k
C – константа, k – кол-во изменений направления

13
Работа алгоритма:
Ограничения на расстояние между
целевым словом и последним словом
цепочки:
• нет для очень сильных отношений (‘one
sense per discource’ assumption)
• 7 предложений для сильных отношений
• 3 предложения для отношений средней
силы

14
Работа алгоритма:
• Greedy lexical chaining approach: при добавлении
слова к цепочке учитывается только его левый контекст
• «Очередь» (queue): каждое слово предложения n
добавляется к очереди; ищутся очень сильные
отношения между этими словами и всеми созданными
к этому моменту цепочками. Как только очень сильное
отношение найдено, поиск прекращается, слово
удаляется из очереди и добавляется к цепочке. Затем
ищутся сильные отношения, затем отношения
средней силы (которые взвешиваются по формуле (1))
между оставшимися словами из очереди и всеми
лексическими цепочками; слова удаляются из очереди
и добавляются к соответствующим цепочкам.
Для слов, оставшихся в очереди, создаются новые
цепочки.
15
Работа алгоритма:

• Chain salience: слова добавляются к


цепочке, которая обновлялась
последней.

16
17