Вы находитесь на странице: 1из 20

Министерство науки и высшего образования Российской Федерации

Федеральное государственное бюджетное образовательное учреждение


высшего образования
«Магнитогорский государственный технический университет
им. Г.И. Носова»

кафедра вычислительной техники и программирования

Лабораторная работа №4
Кластерный анализ экспериментальных данных

по дисциплине «Обработка экспериментальных данных на ЭВМ»

Выполнил: Ляшенко М.Ю. студент 4 курса, группа АВб-20-11


Проверила: Ильина Е.А., доцент кафедры ВТ и П, к.п.н.

Магнитогорск, 2023
Содержание
ЗАДАНИЕ........................................................................................................................3
1 ИСХОДНЫЕ ДАННЫЕ...............................................................................................4
2 РАСЧЕТ МАТРИЦ КОЭФФИЦИЕНТОВ ПОДОБИЯ.............................................5
2.1 ИНФОРМАЦИЯ..........................................................................................................5
2.2 КОЭФФИЦИЕНТЫ ПОДОБИЯ......................................................................................5
2.3 КОЭФФИЦИЕНТЫ РАССТОЯНИЯ.............................................................................10
3 КЛАСТЕРИЗАЦИЯ МЕТОДОМ КОРРЕЛЯЦИОННЫХ ПЛЕЯД........................13
4 КЛАСТЕРИЗАЦИЯ НАБЛЮДЕНИЙ ЦЕНТРОИДНЫМ МЕТОДОМ................16
ЗАКЛЮЧЕНИЕ.............................................................................................................19
БИБЛИОГРАФИЧЕСКИЙ СПИСОК..........................................................................20

2
ЗАДАНИЕ
Задание 1.
Для исходных данных выполнить расчет матрицы коэффициентов
сопоставимости по факторам и наблюдениям, матрицы парной корреляции, матрицы
расстояний (способ расчета расстояния согласовать с ведущим преподавателем).
Задание 2.
Выполнить кластеризацию факторов по методу корреляционных плеяд.
Задание 3.
Выполнить кластеризацию наблюдений. Количество классов не должно быть
менее 30. Выбор процедуры кластеризации согласовать с ведущим преподавателем.
Задание 4.
Оформить результат предварительной обработки данных в виде письменного
отчета. В отчете отобразить: исходные данные, матрицы мер сходства и их анализ,
дендрит кластеризации, состав групп, новую матрицу исходных данных.

3
1 ИСХОДНЫЕ ДАННЫЕ

Рисунок 1 – Исходные данные


В задаче рассматриваются качественные стали, выплавленные на печи №2
(57*). Количество исходных данных, взятых после отсева, равняется 32 (рисунок 1).

4
2 РАСЧЕТ МАТРИЦ КОЭФФИЦИЕНТОВ ПОДОБИЯ
Для исходных данных выполнить расчет матрицы коэффициентов
сопоставимости по факторам и наблюдениям, матрицы парной корреляции, матрицы
расстояний (способ расчета расстояния согласовать с ведущим преподавателем).
Выполнить кластеризацию факторов по методу корреляционных плеяд.
2.1 Информация
Для оценки сходства элементов используют три типа мер, классификация
которых приведена на рисунке 2. Меры сходства образуют матрицу, размерность
которой зависит от количества наблюдений или количества выбранных признаков
для исследования.

Рисунок 1 – Схема классификации мер сходства для кластеризации признаков и


наблюдений
2.2 Коэффициенты подобия
Порядок вычисления:
1. Подготовить матрицу исходных данных.
2. Перевести значения наблюдаемых признаков в бинарный вид.
5
3. Выровнять количество бинарных признаков во всех исходных данных по
длине максимального значения в каждом столбце.
4. Выполнить расчет коэффициентов подобия по соответствующей формуле для
каждой пары признаков или наблюдений.
5. Записать вычисленные коэффициенты на соответствующие места в матрице.

Рисунок 2 – Бинарное представление исходных данных


Коэффициент совстречаемости определяет отношение количества пар
совпавших бинарных признаков к их общему количеству признаков:

6
P kl
Skl = ,
S
где Skl – коэффициент сопоставимости,
Pkl – количество пар с совпадением бинарных признаков,

k , l – номера рассматриваемых объектов (строк или столбцов).

Свойства коэффициентов:
а) kl ∈ [ 0 ; 1 ] ;
б) если Skl =0, то объекты не являются схожими;
в) если Skl =1, то объекты совпадают;
г) для остальных возможных значений уровень схожести определяется
исследователем;
д) Skk =1

Рисунок 3 – Матрица коэффициента совстречаемости по наблюдениям

7
Рисунок 5 – Матрица коэффициента совстречаемости по факторам
Коэффициент Рао определяет отношение количества пар совпавших единиц
в бинарных признаках к их общему количеству:
1, 1
P kl
Skl = ,
S

где P1kl,1 – количество пар совпавших единиц.


Свойства коэффициентов:
а) Skl ∈ [ 0; 1 ] ;
б) если Skl =0, то в паре бинарных признаков нет совпадения единиц;
в) если Skl =1, то в объектах совпадают все бинарные единичные разряды;
г) для остальных возможных значений уровень схожести определяется
исследователем.

Рисунок 6 – Матрица коэффициента Рао по наблюдениям


8
Рисунок 7 – Матрица коэффициента Рао по факторам
Коэффициент Хаммана усиливает значение совпадений:
P kl−Q kl
Skl = ,
S
где Skl – коэффициент сопоставимости,
Pkl – количество пар с совпадением бинарных признаков,

Qkl – количество пар несовпадений двоичных разрядов,

k , l – номера рассматриваемых объектов (строк или столбцов).

Свойства коэффициентов:
а) Skl ∈ [−1 ; 1 ] ;
б) если Skl =−1, то в паре бинарных признаков нет совпадения разрядов;
в) если Skl =1, то в объектах совпадают все бинарные единичные разряды;
г) если Skl > 0, то больше половины бинарных признаков совпадают;
д) если Skl < 0, то больше половины бинарных признаков не совпадают;

Рисунок 8 – Матрица коэффициента Хаммана


9
Рисунок 9 – Матрица коэффициента Хаммана по факторам
Проанализируем полученные результаты. В таблицах 1-3 представлен подсчёт
количества пар в зависимости от значения для матриц коэффициентов.
Таблица 1 – Результаты для коэффициента совстречаемости
Коэффициент Кол-во пар, Кол-во пар, Кол-во пар, Кол-во пар,
Макс. Мин.
совстречаемости >= 0,5 < 0,5 равных 0 равных 1

для наблюдений 1024 0 0 32 1 0,53571

для факторов 12 4 0 4 1 0,417411

Таблица 2 – Результаты для коэффициента Рао


Коэффициент Кол-во пар, Кол-во пар, Кол-во пар, Кол-во пар,
Макс. Мин.
совстречаемости >= 0,5 < 0,5 равных 0 равных 1

для наблюдений 0 1024 0 0 0,055804 0,008929

для факторов 0 16 0 0 0,408482 0,002232

Таблица 3 – Результаты для коэффициента Хаммана


Коэффициент Кол-во пар, Кол-во пар, Кол-во пар, Кол-во пар,
Макс. Мин.
совстречаемости >= 0,5 < 0,5 равных 0 равных 1

для наблюдений 0 1024 0 0 0,125 0,008929

для факторов 4 12 0 4 1 -0,165179

2.3 Коэффициенты расстояния


Показатели расстояния характеризуют степень взаимной удаленности
элементов и применяются в основном для кластеризации объектов.
Расстояние Евклида между объектами обычно оценивается метрикой:


m
1
d kl = ∑ ( Z −Z lj)2 ; k ,l=1 , n ,
m j=1 kj

где m – число признаков X ,

10
Z kj , Z lj– стандартизированные значения признака j для каждого k –го и l –го

объектов соответственно.

Рисунок 10 – Матрица расстояния Евклида по наблюдениям


Расстояние Махаланобиса между объектами обычно оценивается метрикой:
2 −1 T
d kl =( Z k −Zl ) R ( Z k −Z l ) ,

где Z k, Zl – строки стандартизированных значений признаков для k и l объектов


соответственно;
R
−1
– матрица, обратная матрице парных линейных коэффициентов
корреляции наблюдений.
Фрагменты матриц расстояний Евклида и Махаланобиса представлены на
рисунках 10 и 11 соответственно. В таблице 4 представлено количество пар,
меньших половины значения от максимума и больших.

11
Рисунок 11 – Матрица расстояния Махаланобиса по наблюдениям

Таблица 4 – Подсчет количества пар


Кол-во пар, меньших Кол-во пар, больших
Максимальное значение половины значения от
Коэффициент расстояния половины значения от
коэффициента в таблице максимума максимума

Расстояние Евклида 2,9 600 424


Расстояние
0,24 482 542
Махаланобиса

12
3 КЛАСТЕРИЗАЦИЯ МЕТОДОМ КОРРЕЛЯЦИОННЫХ ПЛЕЯД
Коэффициент корреляции является количественной оценкой взаимосвязи
между двумя выбранными объектами, в частном случае – столбцами или строками
данных.
В случае группировки признаков элементы матрицы парной корреляции
рассчитываются:
n T
1 Z i ∗Z j
r ij = ∑ Z ki∗Z kj = ,
n k=1 n

где Zi , Z j – векторы стандартизированных уровней признаков X i и X j


соответственно.
Матрица парной корреляции представлена в таблице 5.

Таблица 5 – Матрица парной корреляции


Вес скрапа,
Время горения дуги, загруженного в Потребление
Вес чугуна, т
мин печь, т углерода, кг

Время горения дуги,


1 0,06 -0,33 0,28
мин

Вес скрапа,
загруженного в печь, 0,06 1 0,12 0,22
т

Вес чугуна, т -0,33 0,12 1 -0,04

Потребление
0,28 0,22 -0,04 1
углерода, кг

При уровне значимости α =0 , 1 значим коэффициент корреляции между весом


чугуна и временем горением дуги. При уровне значимости α =0 , 05 значимых
коэффициентов нет.
Метод корреляционных плеяд является простейшим методом факторного
анализа, поскольку используется чаще всего для группировки признаков на основе
показателей их корреляции (коэффициентов связи).
Выполним кластеризацию признаков по матрице коэффициентов парной
корреляции (таблица 5).

13
1. Максимальный по абсолютному значению коэффициент корреляции имеет
пара факторов Вес чугуна и Время горения дуги – 0,33. Получаем дендрит
первого порядка (рисунок 12, а).
2. Фактор Вес чугуна имеет наибольший коэффициент корреляции с фактором
Вес скрапа – 0,12, а фактор Время горения дуги с фактором Потребление
углерода – 0,28. Выбираем наибольшее значение – 0,28 и устанавливаем
связь между факторами Время горения и Потребление углерода (рисунок
12, б).
3. Для всех объединённых факторов Вес чугуна, Время горения дуги,
Потребление углерода рассматриваем коэффициенты корреляции с
оставшимся фактором Вес скрапа. Этот фактор имеет наибольший по
модулю коэффициент с фактором Потребление углерода, равный 0,22.
Получаем дендрит, приведенный на рисунке 12, в.

Рисунок 12 – Схема формирования дендрита по факторам


14
4. Определим порог для разрыва связей в дендрите. Выполним разрыв связей
со значениями абсолютной величины коэффициента корреляции менее
0,3493.
t (5 % , 32−2)=1 , 7 ;
1,7
=0 , 3.
√30+ 1, 72
5. В итоге получим классы, приведенные в таблице 6.

Таблица 5 – Матрица парной корреляции

Номер кластера Состав кластера

1 Чугун

2 Длительность, Углерод

3 Скрап

6. Наличие 3-х групп факторов говорит о том, что должно получиться не


менее 4-х групп по наблюдениям.

15
4 КЛАСТЕРИЗАЦИЯ НАБЛЮДЕНИЙ ЦЕНТРОИДНЫМ МЕТОДОМ
Существует несколько процедур агломеративной кластеризации по
расстоянию. Все эти процедуры различаются по формуле пересчета расстояния,
которая в общем виде выглядит так:
d sr =α p d ps + α q d qs + β d pq + γ |d ps−d qs|,
где d ps, d qs , d pq – расстояния между кластерами;
α p, α q, β , γ – параметры, определяемые методом расчета.
В центроидном методе соответствующие коэффициенты имеют следующие
значения:
np nq −n q
α p= ; α q= ; β= ; γ=0.
n p +n q n p +n q ( n p + nq )
2

Рисунок 13 – Фрагмент схемы формирования по наблюдениям


Начиная с первых строк таблицы формируются отдельные дендриты первого
порядка, соединяющие по два элемента (рисунок 14).

16
Рисунок 14 – Дендриты первого порядка
Далее формируются вторичные дендриты (рисунок 15) и дендриты
третьего порядка (рисунок 16).

Рисунок 15 – Дендрит второго порядка

Рисунок 16 – Дендрит третьего порядка


Аналогичным образом все элементы соединяются в один дендрит, а
затем производится разрыв самых длинных связей. Чем больше порядок
дендрита, тем более удалены объекты, соединенные последней связью.

17
Результаты по составу кластеров после разрыва назначенных
соединений приводятся в виде таблицы (таблица 11).
Таблица 6 – Состав кластеров по наблюдениям
Номер кластера Состав кластера
1 C_11 C_24
C_22 C_13 C_23 C_5 C_30 C_31 C_1 C_26 C_27
2
C_29
C_3 C_18 C_17 C_21 C_8 C_28 C_9 C_6 C_15
3 C_4 C_32 C_20 C_16 C_19 C_14 C_7 C_10 C_2
C_25
4 С_12

18
ЗАКЛЮЧЕНИЕ
В задаче рассматривались качественные стали, выплавленные на печи №2
(57*). Количество исходных данных равнялось 32. Данные были приведены к
бинарному представлению, благодаря чему получилось подсчитать коэффициенты
подобия. Из нескольких видов этого коэффициента были выбраны три:
совстречаемости, Рао и Хаммана. Именно для них рассчитаны матрицы
коэффициентов по наблюдениям и факторам.
Из коэффициентов расстояния были выбраны два вида: Евклида и
Махаланобиса. Для каждого из них было рассчитано по две матрицы.
Выполнена кластеризация наблюдений методом корреляционных плеяд. Также
была построена матрица парной корреляции. По последней был построен дендрит.
Оказалось, что значения одной связи больше, чем критический коэффициент,
следовательно, их необходимо было разорвать. Все факторы образовали три
кластера.
Также проведена кластеризация наблюдений по центроидному методу, и
получено 4 кластера. Цель работы достигнута.

19
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Васнев, С. А. Статистика: Учебное пособие / С. А. Васнев. – Москва:
МГУП, 2001. – 170 с.
2. Обработка экспериментальных данных на ЭВМ: учебник / О. С. Логунова,
П. Ю. Романов, Е. А. Ильина [и др.]. – Москва: ИНФРА-М, 2019. – 326 с. –
Текст: электронный. – URL: https://znanium.com/catalog/product/1025509
(дата обращения: 23.10.2020). – Режим доступа: по подписке.
3. Гмурман, В. Е. Теория вероятностей и математическая статистика: учебное
пособие для вузов / В. Е. Гмурман. – М.: Высшая школа, 1977. – 479 с.
4. Боровиков, В. П. Программа STATISTICA для студентов и инженеров / В.
П. Боровиков. – М.: КомпьютерПресс, 2001. – 301 с.

20

Вам также может понравиться