Академический Документы
Профессиональный Документы
Культура Документы
Отчет
Отчет
Лабораторная работа №4
Кластерный анализ экспериментальных данных
Магнитогорск, 2023
Содержание
ЗАДАНИЕ........................................................................................................................3
1 ИСХОДНЫЕ ДАННЫЕ...............................................................................................4
2 РАСЧЕТ МАТРИЦ КОЭФФИЦИЕНТОВ ПОДОБИЯ.............................................5
2.1 ИНФОРМАЦИЯ..........................................................................................................5
2.2 КОЭФФИЦИЕНТЫ ПОДОБИЯ......................................................................................5
2.3 КОЭФФИЦИЕНТЫ РАССТОЯНИЯ.............................................................................10
3 КЛАСТЕРИЗАЦИЯ МЕТОДОМ КОРРЕЛЯЦИОННЫХ ПЛЕЯД........................13
4 КЛАСТЕРИЗАЦИЯ НАБЛЮДЕНИЙ ЦЕНТРОИДНЫМ МЕТОДОМ................16
ЗАКЛЮЧЕНИЕ.............................................................................................................19
БИБЛИОГРАФИЧЕСКИЙ СПИСОК..........................................................................20
2
ЗАДАНИЕ
Задание 1.
Для исходных данных выполнить расчет матрицы коэффициентов
сопоставимости по факторам и наблюдениям, матрицы парной корреляции, матрицы
расстояний (способ расчета расстояния согласовать с ведущим преподавателем).
Задание 2.
Выполнить кластеризацию факторов по методу корреляционных плеяд.
Задание 3.
Выполнить кластеризацию наблюдений. Количество классов не должно быть
менее 30. Выбор процедуры кластеризации согласовать с ведущим преподавателем.
Задание 4.
Оформить результат предварительной обработки данных в виде письменного
отчета. В отчете отобразить: исходные данные, матрицы мер сходства и их анализ,
дендрит кластеризации, состав групп, новую матрицу исходных данных.
3
1 ИСХОДНЫЕ ДАННЫЕ
4
2 РАСЧЕТ МАТРИЦ КОЭФФИЦИЕНТОВ ПОДОБИЯ
Для исходных данных выполнить расчет матрицы коэффициентов
сопоставимости по факторам и наблюдениям, матрицы парной корреляции, матрицы
расстояний (способ расчета расстояния согласовать с ведущим преподавателем).
Выполнить кластеризацию факторов по методу корреляционных плеяд.
2.1 Информация
Для оценки сходства элементов используют три типа мер, классификация
которых приведена на рисунке 2. Меры сходства образуют матрицу, размерность
которой зависит от количества наблюдений или количества выбранных признаков
для исследования.
6
P kl
Skl = ,
S
где Skl – коэффициент сопоставимости,
Pkl – количество пар с совпадением бинарных признаков,
Свойства коэффициентов:
а) kl ∈ [ 0 ; 1 ] ;
б) если Skl =0, то объекты не являются схожими;
в) если Skl =1, то объекты совпадают;
г) для остальных возможных значений уровень схожести определяется
исследователем;
д) Skk =1
7
Рисунок 5 – Матрица коэффициента совстречаемости по факторам
Коэффициент Рао определяет отношение количества пар совпавших единиц
в бинарных признаках к их общему количеству:
1, 1
P kl
Skl = ,
S
Свойства коэффициентов:
а) Skl ∈ [−1 ; 1 ] ;
б) если Skl =−1, то в паре бинарных признаков нет совпадения разрядов;
в) если Skl =1, то в объектах совпадают все бинарные единичные разряды;
г) если Skl > 0, то больше половины бинарных признаков совпадают;
д) если Skl < 0, то больше половины бинарных признаков не совпадают;
√
m
1
d kl = ∑ ( Z −Z lj)2 ; k ,l=1 , n ,
m j=1 kj
10
Z kj , Z lj– стандартизированные значения признака j для каждого k –го и l –го
объектов соответственно.
11
Рисунок 11 – Матрица расстояния Махаланобиса по наблюдениям
12
3 КЛАСТЕРИЗАЦИЯ МЕТОДОМ КОРРЕЛЯЦИОННЫХ ПЛЕЯД
Коэффициент корреляции является количественной оценкой взаимосвязи
между двумя выбранными объектами, в частном случае – столбцами или строками
данных.
В случае группировки признаков элементы матрицы парной корреляции
рассчитываются:
n T
1 Z i ∗Z j
r ij = ∑ Z ki∗Z kj = ,
n k=1 n
Вес скрапа,
загруженного в печь, 0,06 1 0,12 0,22
т
Потребление
0,28 0,22 -0,04 1
углерода, кг
13
1. Максимальный по абсолютному значению коэффициент корреляции имеет
пара факторов Вес чугуна и Время горения дуги – 0,33. Получаем дендрит
первого порядка (рисунок 12, а).
2. Фактор Вес чугуна имеет наибольший коэффициент корреляции с фактором
Вес скрапа – 0,12, а фактор Время горения дуги с фактором Потребление
углерода – 0,28. Выбираем наибольшее значение – 0,28 и устанавливаем
связь между факторами Время горения и Потребление углерода (рисунок
12, б).
3. Для всех объединённых факторов Вес чугуна, Время горения дуги,
Потребление углерода рассматриваем коэффициенты корреляции с
оставшимся фактором Вес скрапа. Этот фактор имеет наибольший по
модулю коэффициент с фактором Потребление углерода, равный 0,22.
Получаем дендрит, приведенный на рисунке 12, в.
1 Чугун
2 Длительность, Углерод
3 Скрап
15
4 КЛАСТЕРИЗАЦИЯ НАБЛЮДЕНИЙ ЦЕНТРОИДНЫМ МЕТОДОМ
Существует несколько процедур агломеративной кластеризации по
расстоянию. Все эти процедуры различаются по формуле пересчета расстояния,
которая в общем виде выглядит так:
d sr =α p d ps + α q d qs + β d pq + γ |d ps−d qs|,
где d ps, d qs , d pq – расстояния между кластерами;
α p, α q, β , γ – параметры, определяемые методом расчета.
В центроидном методе соответствующие коэффициенты имеют следующие
значения:
np nq −n q
α p= ; α q= ; β= ; γ=0.
n p +n q n p +n q ( n p + nq )
2
16
Рисунок 14 – Дендриты первого порядка
Далее формируются вторичные дендриты (рисунок 15) и дендриты
третьего порядка (рисунок 16).
17
Результаты по составу кластеров после разрыва назначенных
соединений приводятся в виде таблицы (таблица 11).
Таблица 6 – Состав кластеров по наблюдениям
Номер кластера Состав кластера
1 C_11 C_24
C_22 C_13 C_23 C_5 C_30 C_31 C_1 C_26 C_27
2
C_29
C_3 C_18 C_17 C_21 C_8 C_28 C_9 C_6 C_15
3 C_4 C_32 C_20 C_16 C_19 C_14 C_7 C_10 C_2
C_25
4 С_12
18
ЗАКЛЮЧЕНИЕ
В задаче рассматривались качественные стали, выплавленные на печи №2
(57*). Количество исходных данных равнялось 32. Данные были приведены к
бинарному представлению, благодаря чему получилось подсчитать коэффициенты
подобия. Из нескольких видов этого коэффициента были выбраны три:
совстречаемости, Рао и Хаммана. Именно для них рассчитаны матрицы
коэффициентов по наблюдениям и факторам.
Из коэффициентов расстояния были выбраны два вида: Евклида и
Махаланобиса. Для каждого из них было рассчитано по две матрицы.
Выполнена кластеризация наблюдений методом корреляционных плеяд. Также
была построена матрица парной корреляции. По последней был построен дендрит.
Оказалось, что значения одной связи больше, чем критический коэффициент,
следовательно, их необходимо было разорвать. Все факторы образовали три
кластера.
Также проведена кластеризация наблюдений по центроидному методу, и
получено 4 кластера. Цель работы достигнута.
19
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Васнев, С. А. Статистика: Учебное пособие / С. А. Васнев. – Москва:
МГУП, 2001. – 170 с.
2. Обработка экспериментальных данных на ЭВМ: учебник / О. С. Логунова,
П. Ю. Романов, Е. А. Ильина [и др.]. – Москва: ИНФРА-М, 2019. – 326 с. –
Текст: электронный. – URL: https://znanium.com/catalog/product/1025509
(дата обращения: 23.10.2020). – Режим доступа: по подписке.
3. Гмурман, В. Е. Теория вероятностей и математическая статистика: учебное
пособие для вузов / В. Е. Гмурман. – М.: Высшая школа, 1977. – 479 с.
4. Боровиков, В. П. Программа STATISTICA для студентов и инженеров / В.
П. Боровиков. – М.: КомпьютерПресс, 2001. – 301 с.
20