Методы кластеризации текстовых данных

Центр Изучения
Интернета и Общества
www.newmediacenter.ru
Методы кластеризации текстовых

данных
Слайды адаптированы из курсов: Christopher D. Manning, Prabhakar
Raghavan, Hinrich Schütze, David M. Blei
Сергей Чернов
Текст в электронных библиотеках
30 лет назад мы имели дело с тысячами документов
Слайд 2 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Центр Изучения Интернета и Общества, РЭШ
Текст в онлайн-медиа
Сегодня публикуется
несколько миллиардов
новых постов в день

Тема семинара
 Кластерный анализ БОЛЬШИХ объемов текстовых
данных
with word counts
http://wordle.net/ Jonathan Feinberg

План семинара
 Введение в кластерный анализ
 Базовые методы кластерного анализа
 Тематические методы кластерного анализа
 Программные пакеты для кластеризации текстов
 Заключение


Информационный поиск и
кластеризация
 Информационный поиск (Information retrieval) — процесс
поиска неструктурированной документальной информации и
наука об этом поиске.
 Кластеризация документов — одна из задач информационного

поиска. Кластеризация автоматически выявляет группы
семантически похожих документов. Группы формируются только
на основе попарной схожести описаний документов, и никакие
характеристики этих групп не задаются заранее, в отличие от
классификации документов, где категории задаются заранее.
 Документы в одном кластере ПОХОЖИ

 Документы в разных кластерах РАЗЛИЧНЫ

Данные с простыми кластерами

Данные с простыми кластерами

Кластеризация для навигации

Кластеризация в медиа-исследованиях
Mapping Russian
Twitter
March 20, 2012
By John Kelly, Vladimir
Barash, Karina
Alexanyan, Bruce Etling,
Robert Faris, Urs Gasser,
and John Palfrey

Кластеризация для агрегации
новостей

Типы кластерных алгоритмов
 Плоские алгоритмы
 Начинают разделять документы по группам случайным образом
 Итеративно улучшают результат

 Главный алгоритм: K-средних
 Иерархические алгоритмы
 Создают иерархию
 Снизу-вверх, агломеративные
 Сверху-вниз, разделяющие
 Жесткая кластеризация
 каждый документ принадлежит строго одному кластеру
 Мягкая кластеризация
 документ может принадлежать нескольким кластерам

Векторная модель представления
документов
 Векторная модель (Vector Space Model) представляет
каждый документ в виде вектора, где:
 Измерение = терм (слово в нормальной форме)
 Значение = количество упоминаний в документе (в простом
случае)
 Матрица Терм-Документ
Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth
Antony 157 73 0 0 0 0
Brutus 4 157 0 1 0 0
Caesar 232 227 0 2 1 1
Calpurnia 0 10 0 0 0 0
Cleopatra 57 0 0 0 0 0
mercy 2 0 3 5 5 1
worser 2 0 1 1 1 0

Определение близости между
документами
В идеале: семантическая близость
 На практике: близость по статистике
встречаемости термов
 Дистанция – величина обратная близости
 Обычно используется косинусная мера
близости (cosine similarity)
 В примерах мы используем Евклидову
метрику

Из J. Jayabharathy, Dr. S. Kanmani, and A. Ayeshaa
Parveen. A Survey of Document Clustering Algorithms
Этапы обработки текста with Topic Discovery. Journal of Computing, Volume 3,
Issue 2, Feb 2011.
Документы
Предварительная
обработка
Кластеризация Поиск тем
Токенизация
документов (Topic Discovery)
Удаление стоп-слов
Стемминг
Маркированные
кластеры
Создание взвешенной документов
матрицы терм-документ


K-средних (K-means)
 Самый популярный и простой алгоритм кластеризации
 Каждый кластер определяется центроидом.
 Критерий кластеризации: минимизоровать усредненную квадратичную
дистанцию от центроида
 Определение центроида:
 Где w обозначает кластер.

 Мы пытаемся найти минимальную усредненную дистанцию итеративно
применяя два шага алгоритма:
 перераспределение: причисляем каждый вектор (документ) к ближайшему
центроиду
 перерасчет: заново рассчитываем каждый центроид как среднее векторов
отнесенных к кластеру на предыдущем шаге

Пример: кластеризовать набор
данных

Пример: случайным образом выбираем
центроиды для двух кластеров (K=2)

Пример: распределяем каждую точку к
ближайшему центроиду

Пример: результат распределения

Пример: пересчитываем центроиды
кластеров

Пример: распределяем точки к
ближайшим центроидам


кластеров



кластеров



кластеров



кластеров



кластеров



кластеров

Пример: центроиды и распределение
точек по окончании работы алгоритма

Вычислительная сложность K-средних
 между двумя документами O(M), где M размерность
векторов (количество различных термов).
 Перераспределение документов между кластерами:
O(KN) вычислений дистанций, то есть O(KNM).
 Вычисление центроидов: каждый документ единожды
причисляется к центроиду O(NM).
 Если у нас I итераций, получаем общую сложность:
O(IKNM).

Проблемы K-средних
 Неустойчив при обработке изолированных
(необычных) документов
 Не поддерживает сложную форму кластеров (только
сферические)

Как определить количество
кластеров?
 Число кластеров K должно быть задано заранее
 Эвристика: зная характер документов, предположите
“приемлемое” число кластеров.
 Например, для визуализации результатов поиска идеальное
K заранее неизвестно, но используемый пользовательский
интерфейс и размер экрана может наложить ограничения
на количество кластеров.
 Поиск “правильного” числа кластеров часть проблемы

кластеризации
 Можно задать критерий оптимизации К

Простая целевая функция для K (1)
 Основная идея:
 Начинаем с одного кластера (K = 1)
 Продолжаем добавлять кластеры (= увеличиваем K)
 Начисляем штраф за каждый новый кластер
 Балансируем штрафы за новые кластеры и выгоду от

меньшей средней дистанции от центроидов
 Выбираем K с наилучшим балансом

Простая целевая функция для K (2)
 Для данной кластеризации, определите стоимость штраф
для документа как квадрат расстояния до центроида
 Общий штраф для кластера рассчитайте как сумму
штрафов всех документов в кластере RSS(K) (Residual Sum
of Squares)
 Каждый кластер дополнительно штрафуется
фиксированным параметром λ
 Для кластеризации из K кластеров общий фиксированный
штраф Kλ
 Целевая функция – минимизировать RSS(K) + Kλ
 Остается проблемой как найти оптимальное значение λ . . .

Поиск “колена” на кривой
Выберите количество
кластеров, при котором
кривая становится более
«плоской»
В данном случае: 4 or 9.

Иерархическая кластеризация
 Задача иерархической кластеризации построить иерархию
кластеров
animal
vertebrate invertebrate
fish reptile amphib. mammal worm insect crustacean
 Иерархия строится автоматически, сверху-вниз или снизу-

вверх.
 Самый известный метод построения снизу-вверх:
иерархическая агломеративная кластеризация.
Иерархическая Агломеративная
Кластеризация (ИАК)
 Строит иерархию в виде двоичного дерева
 Использует меру близости для определения
сходства двух кластеров
 Алгоритм:
 Вначале каждый документ это отдельный кластер
 Поочередно объединяем два наиболее похожих кластера
 До тех пор пока не останется один кластер
 История объединений формирует дерево иерархии
 Такая история изображается дендограммой

Дендограмма
Мы можем отсечь
дендограмму на любом
шаге для получения
плоской кластеризации

Основной вопрос: как вычислить
близость кластеров?
 Одиночная связь: Максимальная близость
 Максимальная близость любых двух документов
 Полная связь: Минимальная близость

 Минимальная близость любых двух документов
 Центроид: Средняя межкластерная близость

 Средняя близость всех пар документов (исключая пары документов
внутри кластеров)
 Равносильно близости центроидов.
 Групповое-среднее: Средняя внутрикластерная близость

 Средняя близость всех пар документов, включая пары внутри кластеров.

Близость кластеров: пример

Одиночная связь: Максимальная
близость

Полная связь: Минимальная близость

Центроид: Средняя межкластерная
близость
 Межкластерная близость = близость двух
документов в разных кластерах

Групповое-среднее: Средняя
внутрикластерная близость
 Внутрикластерная близость = близость всех пар,
включая документы внутри кластеров

Вычислительная сложность
неоптимизированного алгоритма ИАК
 Сначала, вычисляем близость всех N × N пар документов.
 Затем, на каждой итерации:
 Сканируем O(N × N) близостей для нахождения
максимальной.
 Объединяем два кластера.
 Вычисляем близость между созданным кластером и всеми
оставшимися.
 Всего O(N) итераций, каждая требует O(N × N)
сканирований.
 Общая сложностьO(N3).
 Существуют более рациональная модификация алгоритма
со сложностью O(N2).

Плоская или иерархическая кластеризация?
 Плоская кластеризация значительно быстрее, хорошо
подходит для больших объемов данных
 Для стабильного предсказуемого результата используют
ИАК
 Иерархическая кластеризация также требуется там, где
нужны структура кластеров
 Иногда иерархическая кластеризация используется для
определения K, и последующего использования плоской

Одна из главных проблем кластерного анализа –
маркировка кластеров
 Когда кластеры созданы, их необходимо маркировать (описать в нескольких

словах или фразах)
 Селективная маркировка – анализирует все кластеры и выбирает наиболее

специфичные термы, отличая кластер от остальных
 Неселективная маркировка – выбирает термы и фразы исходя только из

содержимого кластера, обычно самые частые слова
 Маркировка по заголовкам документов кластера
 Каждый из методов может быть эффективен, все зависит от конкретных

данных

Как определить качество
кластеризации?
 Внутренние критерии
 Например: Сумма квадратов отклонений в K-средних
 Но внутренние критерии часто не оценивают практическую

полезность кластеризации
 Альтернатива: Внешние критерии

 Сравните с классификацией составленной человеком

Внешние критерии для оценки
 Основаны на «золотом стандарте», например известной
коллекции документов, используемой для классификации
 Цель: кластеризация должна воспроизвести классы
«золотого стандарта»
 Оговорка: мы лишь пытаемся оценить распределение
документов по классам, игнорируя маркировку классов
(class labels)
 Простая метрика для оценки: Чистота (purity)

Внешние критерий: Чистота
 Простая метрика: чистота (purity), отношение
доминирующего класса в кластере πi к размеру
кластера ωi
1
Чистота(i )  max j (nij ) j C
ni
 Метрика смещена, поскольку имея n кластеров мы

ее максимизируем
 Другие меры включают энтропию, взаимную
информацию, индекс ранда, f-метрику, точность,
полноту
Пример вычисления Чистоты
     
     
    
Кластер 1 Кластер 2 Кластер 3
Кластер 1: Чистота = 1/6 (max(5, 1, 0)) = 5/6



Тематические Модели
 Тематические Модели основаны на следующих
принципах:
 Внутри коллекции документов присутствую латентные
(скрытые) темы
 Мы можем описать каждый документ с помощью тем
 Такое описание позволяет легко кластеризовать
документы

Формальное описание
 Тяжело уместить в пару слайдов
 Попробуем описать общую идею, избегая формул

Два слова о Латентном Семантическом Анализе
(Deerwester et al., 1990)
 Латентный Семантический Анализ (LSA)
 Популярный метод последнего десятилетия
 Использует декомпозицию по собственным значениям для
выделения латентных тем
 Эффективно решает проблему синонимии и полисемии

 Главный
Слайд 68 из 74 минус:
Сергей медленный и требовательный
Чернов, Методы кластеризации к ресурсам
текстовых данных, 10/07/2020
Как ускорить вычисления?
 Параллелизация алгоритмов
 Для многих алгоритмов, включая LSA, существуют версии,
обрабатывающие части матрицы терм-документ на разных
процессорах
 Онлайн-алгоритмы
 Базовая модель вычисляется на части данных, оставшиеся
данные разбиваются на небольшие части и поочередно
используются для обновления модели
 Приблизительные алгоритмы
 Точность результата незначительно уменьшается, время
работы сокращается в десятки раз

Латентное размещение Дирихле (LDA)
 LDA основан на генеративной (порождающей)
вероятностой модели. Мы предполагаем, что
документы могут быть представлены распределением
латентных тем, каждая из которых представлена
распределением термов.
 Примеры тем:
Человек Эволюция Заболевание Компьютер

Геном Вид Бактерия Модель
ДНК Организм штамм Информация
генетика жизнь данные

Генеративная модель LDA
Темы Документы Пропорции тем и
распределение термов
 Каждая тема характеризуется распределение термов

 Каждый документ характеризуется распределение тем
 Каждый терм выбран из распределения в одной из тем
Сколько тем использовать?
 Количество тем зависит от задачи. Значение по
умолчанию 10-30 дает общее представление о
содержимом коллекции документов.
 Чем больше документов, тем больше тем может
понадобиться.
 Интервал от 200 до 400 позволяет добиться
детализированной кластеризации.

 Введение в кластерны анализ

Приложения для кластеризации
текстов
Веб- Программные
приложения интерфейсы
приложений
(API)
Приложения с
пользовательским Приложения в
интерфейсом командной Большинство
строке ПО попадает
сюда

Используемые языки
программирования
 На чем запрограммировано основное ПО?

 Perl
 Классический скриптовый язык для обработки текстов с
удобными механизмами регулярных выражений
 Python
 Более современный скриптовый язык, используется в одной из
лучших по качеству документации систем обработки текстов
NLTK.
 Java
 Самый распространенный язык для средств обработки текстов,
хорошая поддержка регулярных выражений, Юникод, и т.д.

Популярные пакеты кластеризации
текстов
 GATE – General Architecture for Text Engineering
 http://gate.ac.uk/
 Java, «все что вы хотели сделать с текстом», самый большой функционал,
активно развивается и поддерживается, содержит огромное количество
компонентов
 Mahout
 http://mahout.apache.org/
 Java, новая профессиональная платформа для алгоритмов машинного обучения,
фокус на масштабируемости вычислений
 Stanford Topic Modeling Toolbox
 http://nlp.stanford.edu/software/tmt/tmt-0.4/
 Java, небольшой пакет с ограниченным функционалом, разработан специально
для LDA
 Mallet
 http://mallet.cs.umass.edu/
 Java, еще один пакет, больше чем Stanford TMT, но меньше Mahout или GATE
GATE

Stanford Topic Modeling Toolkit

TMT on PubMed Data

Media Cloud (www.mediacloud.org)

Media Cloud – Twitter vs LiveJournal

(экономика)

(цензура)

Russian Media Cloud
Слайд 85 из 74
Russian Media Cloud (2)
Другие пакеты (1)
 UIMA – Unstructured Information Management Architecture
 http://uima.apache.org/
 Профессиональное, масштабируемое, и т.д.
 Требует хороших навыков работы с Xml, Eclipse, Java or C++. Не очень подходит
для новичков.
 NLTK – Natural Language Toolkit
 http://www.nltk.org/
 Python, большое количество разработчиков; много дополнительных модулей
 Содержит в основном программные модули и API, без пользовательского
интерфейса или командной строки
 LingPipe
 http://alias-i.com/lingpipe/
 RapidMiner
 http://rapid-i.com/
 Вычисление близости документов и кластеризация в RapidMiner

Другие пакеты (2)
 Carrot2
 http://project.carrot2.org/
 Weka
 http://www.cs.waikato.ac.nz/ml/weka/
 gCluto
 http://nhttp://glaros.dtc.umn.edu/gkhome/cluto/gcluto/overview
 The Lemur Toolkit
 http://www.lemurproject.org/
 А также
 The Semantic Engine, The Semantic Vectors Package, Terrier
IR Platform, и другие.

Практика обработки текста
1. Большинство пакетов работает с кодировкой
Юникод, так что кириллица поддерживается
корректно
2. Большинство пакетов работают с обработанным
текстом, без HTML или XML тегов
3. По умолчанию, все классификаторы натренированы
на корпусах англоязычных новостей

Какое «железо» необходимо?
 Софт для кластеризации часто требует много оперативной

памяти и мощности процессора
 Но современные ноутбуки мощнее многих серверов
десятилетней давности
 Для коллекций в десятки тысяч документов подойдет
любой ПК
 Сотни тысяч документов лучше обрабатывать с
оперативной памятью в 4GB
 Десятки миллионов документов кластеризуйте на
серверах с 16 GB RAM и несколькими процессорами
 Кластеризация больших коллекций может занимать
несколько дней…

Заключение
 Кластеризация текстовых данных необходима для
многих приложений
 Основные алгоритмы включают K-средних,
иерархические алгоритмы, LSA и LDA
 Один из главных критериев при выборе алгоритма это
его скорость и маштабируемость
 Вы можете использовать для кластеризации один из
готовых программных пакетов, выбор конкретного
средства зависит от ваших данных и общих
предпочтений

Время для вопросов
Спасибо за внимание!


Методы кластеризации текстовых данных

Загружено:

Сведения о документе

Оригинальное название

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Методы кластеризации текстовых данных

Загружено:

Авторское право:

Доступные форматы

Центр Изучения

Методы кластеризации текстовых

Слайд 2 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 3 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

with word counts

http://wordle.net/ Jonathan Feinberg

Слайд 4 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 5 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 6 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

 Кластеризация документов — одна из задач информационного

 Документы в одном кластере ПОХОЖИ

Слайд 7 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 8 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 9 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 10 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 11 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 12 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

 Итеративно улучшают результат

Слайд 13 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 14 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 15 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 16 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 17 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

 Где w обозначает кластер.

Слайд 18 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 19 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 20 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 21 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 22 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 23 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 24 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 25 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 26 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 27 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 28 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 29 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 30 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 31 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 32 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 33 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 34 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 35 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 36 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 37 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 38 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 39 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 40 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 41 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 42 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 43 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 44 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

 Поиск “правильного” числа кластеров часть проблемы

Слайд 45 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

 Балансируем штрафы за новые кластеры и выгоду от

Слайд 46 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 47 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 48 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

fish reptile amphib. mammal worm insect crustacean

 Иерархия строится автоматически, сверху-вниз или снизу-

Слайд 50 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

Слайд 51 из 74 Сергей Чернов, Методы кластеризации текстовых данных, 10/07/2020

 Полная связь: Минимальная близость

 Центроид: Средняя межкластерная близость