Академический Документы
Профессиональный Документы
Культура Документы
Интернета и Общества
www.newmediacenter.ru
Сергей Чернов
Текст в электронных библиотеках
30 лет назад мы имели дело с тысячами документов
Иерархические алгоритмы
Создают иерархию
Снизу-вверх, агломеративные
Сверху-вниз, разделяющие
Жесткая кластеризация
каждый документ принадлежит строго одному кластеру
Мягкая кластеризация
документ может принадлежать нескольким кластерам
Antony 157 73 0 0 0 0
Brutus 4 157 0 1 0 0
Caesar 232 227 0 2 1 1
Calpurnia 0 10 0 0 0 0
Cleopatra 57 0 0 0 0 0
mercy 2 0 3 5 5 1
worser 2 0 1 1 1 0
Документы
Предварительная
обработка
Кластеризация Поиск тем
Токенизация
документов (Topic Discovery)
Удаление стоп-слов
Стемминг
Маркированные
кластеры
Создание взвешенной документов
матрицы терм-документ
Выберите количество
кластеров, при котором
кривая становится более
«плоской»
В данном случае: 4 or 9.
animal
vertebrate invertebrate
Алгоритм:
Вначале каждый документ это отдельный кластер
Поочередно объединяем два наиболее похожих кластера
До тех пор пока не останется один кластер
История объединений формирует дерево иерархии
Такая история изображается дендограммой
Мы можем отсечь
дендограмму на любом
шаге для получения
плоской кластеризации
Примеры тем:
Веб- Программные
приложения интерфейсы
приложений
(API)
Приложения с
пользовательским Приложения в
интерфейсом командной Большинство
строке ПО попадает
сюда
Слайд 85 из 74
Russian Media Cloud (2)
Слайд 86 из 74
Russian Media Cloud (3)
Слайд 87 из 74
Russian Media Cloud (4)
Слайд 88 из 74
Другие пакеты (1)
UIMA – Unstructured Information Management Architecture
http://uima.apache.org/
Профессиональное, масштабируемое, и т.д.
Требует хороших навыков работы с Xml, Eclipse, Java or C++. Не очень подходит
для новичков.
NLTK – Natural Language Toolkit
http://www.nltk.org/
Python, большое количество разработчиков; много дополнительных модулей
Содержит в основном программные модули и API, без пользовательского
интерфейса или командной строки
LingPipe
http://alias-i.com/lingpipe/
RapidMiner
http://rapid-i.com/
Вычисление близости документов и кластеризация в RapidMiner
Спасибо за внимание!