Вы находитесь на странице: 1из 35

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное


учреждение высшего образования
«Ижевский государственный технический университет имени М.Т.
Калашникова»
(ФГБОУ ВО «ИжГТУ имени М.Т. Калашникова»)

В.А.Тененев

МЕТОДИЧЕСКИЕ УКАЗАНИЯ
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ
методические рекомендации для выполнения контрольных работ для
магистрантов технических вузов очной формы обучения

Ижевск 2019
Рег. номер

1
Методические рекомендации по выполнению контрольных работ
составлены в соответствии с рабочей программой учебной дисциплины,
разработанной на основе Федерального государственного образовательного
стандарта при изучении дисциплины «Математическое моделирование».

Рецензент:.
Составитель: Тененев В.А., д.ф.-м.н., профессор

Рекомендовано Ученым советом факультета для использования в


учебном процессе в качестве в качестве учебно-методических материалов
для магистрантов технических вузов очной формы обучения
при изучении дисциплины «Математическое моделирование».
(протокол № __ от «___» апреля 2019 г.)

2
Содержание

Введение 4

1. Вычисление меры неопределенности системы данных 6

2. Построение наивного байесовского классификатора 11

3. Построение модели нечеткого вывода 17

4. Кластеризация данных 23

Заключение 32

Литература 33

3
Введение

Задачи обработки данных с целью извлечения новых знаний


сопровождают системное и математическое моделирование поведения
объектов самой различной природы. Системный подход к анализу данных
дает общую методологию обработки, независимо от природы объектов.
Любое исследование, направленное на установление количественных
взаимосвязей между объектами, связано с некоторыми данными,
полученными из натурных или модельных экспериментов. В реальности,
большое количество влияющих и неучтенных факторов, погрешность
эксперимента приводят к тому, что в любых экспериментальных данных
присутствуют элементы случайности и неопределенности. Исторически
первыми, для обработки экспериментальных данных развивались методы
математической статистики, основанные на строгих положениях теории
вероятности. Позднее появилась терминология “Data mining” или технологии
извлечения знаний из данных. Для обработки наборов данных и выявления
закономерностей, присутствующих в них, разработан ряд конкурирующих
подходов, которые в литературе называются методами интеллектуального
анализа данных. К ним относятся искусственные нейронные сети, нечеткая
логика, гибридные сети, деревья решений, когнитивное моделирование и др.
Многие из этих методов не соблюдают строгость математической
статистики, но добиваются хороших результатов. Это связано с тем, что в
реальных экспериментах много противоречивой информации и получение
корректных законов распределения вероятностей просто невозможно, а
различные эвристики помогают процессу обнаружения закономерностей в
данных. Эти две группы методов обработки данных с неопределенностью
должны дополнять друг друга при совместном использовании.
Нечеткая логика (fuzzy logic), основы которой заложил Л. Заде за
несколько десятилетий превратились в мощный инструмент для построения
моделей приближенных рассуждений человека в задачах принятия решений в
условиях неопределенности, классификации и анализа данных.
Математический аппарат теории нечетких множеств позволяет построить
модель объекта, основываясь на нечетких рассуждениях и правилах. В
случаях, когда знания об исследуемом объекте сосредоточены у экспертов и
возникают трудности при построении математической модели
традиционными методами, нечеткое моделирование – эффективный способ
решения поставленной проблемы. Согласно теореме FAT (Fuzzy
Approximation Theorem), любая математическая функция может быть
аппроксимирована нечеткой системой.
При анализе различных процессов часто возникает потребность
решения задач классификации. При известном наборе характеристик
некоторый объект необходимо отнести к какому-либо классу. Свойства
объекта могут быть булевыми, дискретными или непрерывными. При

4
непрерывной выходной характеристике появляется задача регрессии с
построением какой-либо математической модели.
Методы кластерного анализа позволяют разделить изучаемую
совокупность объектов на группы схожих объектов, называемых кластерами.
Кластеризация отличается от классификации тем, что для проведения
анализа не требуется иметь выделенную целевую (выходную) переменную.
Второе направление снижает размерность входных признаков посредством
выявления корреляционных связей между ними.
В данном пособии рассмотрены варианты контрольных работ,
основанные на методах анализа данных.

5
1. Вычисление меры неопределенности системы данных

При системном анализе данных может быть два подхода:


вероятностный, когда число наблюдений достаточно большое;
возможностный, когда количество данных ограничено. Если вероятности
рассматриваются как характеристики данных, то находятся частоты
состояний N (c) для всех c  C .
Функция поведения, характеризующая рассматриваемую систему, для
вероятностного подхода определяется как относительная частота появления
состояния переменных c  C выражением
N(c)
f B (c)  . (1.1)
 N(a)
aC

Для возможностного подхода


N(c)
f B (c)  . (1.2)
max N(a)
aC

Рассмотрим систему данных D  (I , d ) в виде таблицы


V  [ v j ]  [vij ], i  1, m, j  1, n
,
где v j - вектор переменных системы, определенный на параметрическом
множестве { j  1, n} . Данные, полученные в абсолютной или интервальной
шкале, переводятся в шкалу наименований, в которой значению переменной
соответствует целое число 0,1,..., Li  1 . Преобразование осуществляется по
формуле
 
 vij  vi min 
u ij  Int  , vi min  min (vij ), vi max  max (vij ),
 vi max  vi min   
j j

 L 
где  - целая часть выражения. Состояние с переменной описывается
u k , k  1, N , N  n
вектором . По формуле (1.1) или (1.2) вычисляется функция
поведения системы. Величина N (c) равна количеству одинаковых векторов
u k , k  1, N , N  n
.
В качестве примера возьмем данные из табл.1, где первые 3 столбца
исходные данные, последние три – приведенные к номинальной шкале (L=3).

6
Таблица 1. Исходные данные

v1 v2 v3 u1 u2 u3
2.72 2.41 19.97 2 0 0
1.55 3.34 27.34 0 2 1
1.64 2.32 16.68 0 0 0
1.74 2.85 22.25 0 1 1
1.16 2.95 22.22 0 1 0
1.14 3.68 30.66 0 2 2
1.12 2.59 18.33 0 0 0
2.83 2.74 23.61 2 1 1
2.55 2.66 22.04 2 0 0
2.4 3.69 33.33 2 2 2
2.44 2.61 21.32 2 0 0
1.33 2.66 19.42 0 0 0
1.93 2.49 18.95 1 0 0
2.65 2.56 21.31 2 0 0
1.96 2.3 17.12 1 0 0
2.75 2.57 21.73 2 0 0
2.55 3.95 37 2 2 2
1.99 3.78 33.46 1 2 2
2.65 2.04 16.38 2 0 0
1.28 2.29 15.66 0 0 0
2 2.04 14.84 1 0 0
2.19 2.02 15.05 1 0 0
2.55 3.3 29.1 2 1 1
2.54 3.42 30.42 2 2 2
2.12 2.41 18.55 1 0 0
2.36 3.19 27.32 1 1 1
2.91 3.29 29.89 2 1 2
3 2.49 21.52 2 0 0
2.35 2.59 20.9 1 0 0
1.17 3.54 29.05 0 2 1

В табл.2 представлены частоты состояний N (c) . По формулам (1), (2)


рассчитаны функции поведения для вероятностного и возможностного
подходов, соответственно.

7
Таблица 2. Функции поведения
N (c) f B вероятностная f B возможностная
7 0.2333 1
2 0.0667 0.2857
4 0.1333 0.5714
1 0.0333 0.1429
1 0.0333 0.1429
1 0.0333 0.1429
2 0.0667 0.2857
3 0.1 0.4286
6 0.2 0.8571
1 0.0333 0.1429
1 0.0333 0.1429
1 0.0333 0.1429

Степень детерминированности системы измеряется обобщенной


нечеткостью, сопутствующей порождению данных и определяться через
функции поведения.
Вероятностный подход.
Для вероятностных функций распределения мерой нечеткости является
энтропия Шеннона
H ( f ( x) | x  X )    f ( x) log 2 f ( x) . (3)
x X

Возможностный подход.
Возможностная мера нечеткости представляет собой функцию
U :   [0,  ] . Для любого распределения возможностей f  ( i | i  N |X | )   и
для любого действительного l  [0,1] функция c :   [0,1]  P ( N ) называется
функцией уровня, а множество c( f , l )  {i  N | X | |  i  l} называется множеством
l -го уровня от f . Обозначим через L f  {l1 ,..., l q } уровневое множество для f ,
где l1  0, q | L f |; l i  l j | i  j; l f  max  i , l f  l q  L f .
i

Функция U -нечеткости имеет вид


lf
1
U( f )   log 2 c( f , l ) dl или
lf 0
q 1
1
U( f )   (l k 1  l k ) log 2 c( f , l k 1 ) . (4)
lf k 1

На примере таблицы 2 вычислим меру неопределенности по


вероятностному подходу по формуле 3:
f B ln f B
0.340 0.181 0.269 0.113 0.113 0.113 0.181 0.230 0.322 0.113 0.113 0.113

8
1
H 
ln 2
 f B ln f B =3.177
Для расчета меры нечеткости по возможностному подходу определим, в
соответствии с табл.2, уровневое множество и функцию уровня. По формуле
(4) рассчитываем меру нечеткости:

Функция уровня CL 12 6 4 3 2 1
Уровневое множество L f 0.143 0.286 0.429 0.571 0.857 1.000
lk 1  lk 0.143 0.143 0.143 0.143 0.286 0.143
q 1
1
U( f ) 
lf
 (l
k 1
k 1  lk ) log 2 CL ( f , lk 1 )

0.355 0.256 0.198 0.1569 0.198 0 1.679

Контрольные вопросы и упражнения

1. Проследите переход от исходной системы к системе данных и, далее, к


порождающей системе.
2. Как определяется поведение системы?
3. Для чего задают маску на параметрическом множестве?
4. Приведите пример маски. Порождающие и порожденные переменные.
5. Для чего нужна структуризация систем?
6. Что такое проекция функции поведения для структурированной системы?
7. Раскройте содержание задачи идентификации.
8. Как осуществить несмещенную реконструкцию системы?
9. Какая мера принимается для сравнения реконструктивных гипотез?
10. В чем заключается уточнение системы?
11. Мера близости сопоставимых систем.
12. Задана таблица данных
u1 u2 u3
1 0 1
1 0 1
1 1 1
1 1 1
2 0 1
1 1 0
1 0 0
0 0 1
1 1 1
1 0 1
1 1 1
2 1 1
2 1 1

9
2 1 0
1 0 0
1 1 0
1 0 1
1 1 1
1 0 1
1 1 0
1 1 1
1 0 1
1 1 0
1 0 1
1 0 0
0 0 0
0 0 0
0 0 1
1 0 0
1 1 1
Вычислить функции поведения системы и меры нечеткости:
а) по вероятностному подходу;
б) по возможностному подходу.
13. Задана таблица данных
u1 u2 u3
1 0 1
1 0 0
0 1 0
1 1 1
1 0 0
1 0 0
0 1 1
2 1 0
1 0 1
2 1 1
1 1 0
1 1 0
1 1 0
1 0 1
1 0 1
1 1 1
1 0 0
0 0 1
1 0 1
1 0 0
1 1 1
1 0 1
1 0 1
1 0 1
2 1 1
1 0 1
1 1 0
1 0 1

10
1 1 1
2 1 0
Для маски
s3 s6
s2 s4 s6
вычислить функции поведения:
а) по вероятностному подходу;
б) по возможностному подходу.
14. Даны функции поведения двух систем. Найти расстояние между системами.
f fh
0.010768 0.039477
0.009852 0.011736
0.116108 0.089074
0.102326 0.047395
0.039323 0.015327
0.087442 0.071099
0.062221 0.02052
0.107174 0.052065
0.08267 0.095118
0.015532 0.087454
0.046102 0.099858
0.023681 0.059226
0.006751 0.029472
0.030814 0.012957
0.020072 0.02872
0.023911 0.078305
0.047122 0.079799
0.031961 0.045533
0.064784 0.033888
0.071387 0.002977

2. Построение наивного байесовского классификатора

Упрощенный (наивный) алгоритм Байеса является алгоритмом


классификации на основе байесовского правило в предположении, что
входные переменные (свойства объекта) условно независимы друг от друга.
В этом случае
n
p (x | q )   p ( x j | q )
j 1

и правило классификации для наивного байесовского классификатора


принимает вид
n
NB
q (x)  arg max p(q ) p( x j | q ) .
j 1

Рассмотрим пример классификации с n  3, H  30 .

11
Если входные переменные являются непрерывными, то для
применения данного алгоритма их следует разбить на классы. В случае
равномерного распределения входных величин приведение к дискретному
виду проводится по формуле:
 x j  x min 
 l j  Trunc L j  1 max
discr j
x j   1 , где Trunc обозначает отбрасывание
 x j  x minj 
дробной части числа; x min max
j ,xj - минимальные и максимальные значения
переменных; L j - количество классов (интервалов), на которое разбивается
входная переменная.

Таблица 2.1. Исходные данные для классификации


x1 x2 x3 q
1.100 2.078 1.090 4
1.147 1.064 1.146 1
1.013 1.028 1.129 1
2.027 1.079 1.014 2
2.099 1.019 2.031 3
1.178 2.088 2.042 5
2.008 1.029 1.011 2
1.000 1.124 1.057 1
2.025 1.121 1.195 2
1.015 2.152 1.113 4
2.199 2.085 1.158 5
2.025 2.135 1.170 5
1.043 1.200 2.094 2
1.170 2.021 1.173 4
2.039 2.021 2.164 5
2.012 2.124 1.181 5
2.011 2.182 2.121 5
2.185 2.005 1.183 5
2.163 1.161 1.108 2
2.166 1.098 2.005 3
2.188 2.178 2.017 5
2.199 1.189 1.043 2
2.084 2.194 2.157 5
2.189 1.095 1.016 2
2.068 2.045 2.037 5
2.185 2.080 1.147 5
1.187 2.068 1.176 4
2.146 1.014 1.050 2
2.147 2.149 1.100 5
1.019 1.155 1.051 1

12
Дискретные значения входных переменных в следующей таблице 2.2.

Таблица 2.2. Дискретные данные для классификации


x1 x2 x3 q
1 2 1 4
1 1 1 1
1 1 1 1
2 1 1 2
2 1 2 3
1 2 2 5
2 1 1 2
1 1 1 1
2 1 1 2
1 2 1 4
2 2 1 5
2 2 1 5
1 1 2 2
1 2 1 4
2 2 2 5
2 2 1 5
2 2 2 5
2 2 1 5
2 1 1 2
2 1 2 3
2 2 2 5
2 1 1 2
2 2 2 5
2 1 1 2
2 2 2 5
2 2 1 5
1 2 1 4
2 1 1 2
2 2 1 5
1 1 1 1

Входные переменные x j , j  1,2,3 разбиты на 2 класса ( l  1,2 ), выходная


переменная принадлежит пяти классам. Количество точек Hq,
принадлежащих классу q и количество точек H qjl , соответствующих классу q
, номеру переменной x j , классу входной переменной l запишем в таблицу
2.3.

Таблица 2.3. Количество точек, соответствующих классам


13
H qjl
j=1 j=2 j=3 Hq q l
4 4 4 4 1 1
0 0 0 4 1 2
1 8 7 8 2 1
7 0 1 8 2 2
0 2 0 2 3 1
2 0 2 2 3 2
4 0 4 4 4 1
0 4 0 4 4 2
1 0 6 12 5 1
11 12 6 12 5 2

Hq H qjl
Соответствующие вероятности p(q)  , p( x j | q)  содержатся в
H Hq
следующей таблице 2.4.

Таблица 2.4. Расчет вероятностей


p( x j | q)
j=1 j=2 j=3 p (q ) q l
1 1 1 0.1333 1 1
0 0 0 0.1333 1 2
0.125 1 0.875 0.2667 2 1
0.875 0 0.125 0.2667 2 2
0 1 0 0.0667 3 1
1 0 1 0.0667 3 2
1 0 1 0.1333 4 1
0 1 0 0.1333 4 2
0.0833 0 0.5 0.4 5 1
0.9167 1 0.5 0.4 5 2

Эта таблица является результатом обучения наивного байесовского


классификатора. Рассмотрим точку x  2;1;1T . Апостериорные вероятности
p ( q | x) для нее равны:
q p ( q | x)
1 0
2 0.204
3 0

14
4 0
5 0

x  2;1;1
T
Следовательно, точка принадлежит второму классу с
вероятностью 0.204.

Контрольные вопросы и упражнения

1. Что такое функция правдоподобия?


2. Принцип максимума правдоподобия.
3. При каком условии получается оптимальный Байесовский классификатор?
4. Основное допущение при использовании упрощенного (наивного) Байесовского
классификатора.
5. Предположения, лежащие в основе дискриминанта Фишера.
6. В чем заключается параметрическое восстановление плотности распределения.
7. Основные этапы ЕМ-алгоритма.
8. Что такое опорные вектора?
9. Для чего используются функции ядра?
10. Задан набор точек. Провести классификацию с применением наивного
Байесовского классификатора для точки (1;2;2).
x1 x2 x3 q
1 1 1 1
1 1 2 2
2 2 1 5
2 1 1 4
1 1 2 2
1 2 2 3
1 1 2 2
1 1 1 1
1 2 2 3
1 1 2 2
2 1 1 4
2 2 2 5
2 2 2 5
2 2 2 5
2 2 2 5
1 1 1 1
1 2 1 2
2 2 1 5
2 2 1 5
2 1 1 4
2 2 1 5
2 2 2 5
1 2 1 2
2 1 2 5
2 2 2 5
2 1 1 4
2 1 1 4
1 2 2 3
1 2 2 3
15
1 1 2 2

11. Для набора точек


x1 x2 x3 q
0.237 0.431 0.251 2
0.879 0.819 0.167 3
0.009 0.284 0.521 2
0.953 0.325 0.750 4
0.014 0.034 0.986 3
0.620 0.686 0.357 3
0.949 0.634 0.454 4
0.585 0.698 0.506 4
0.964 0.023 0.725 3
0.337 0.571 0.905 4
0.139 0.548 0.265 2
0.257 0.406 0.528 3
0.371 0.701 0.663 4
0.683 0.561 0.259 3
0.106 0.701 0.925 4
0.772 0.097 0.436 2
0.695 0.608 0.762 4
0.067 0.167 0.720 3
0.521 0.081 0.098 1
0.344 0.207 0.631 3
0.096 0.020 0.084 0
0.769 0.213 0.400 2
0.312 0.455 0.782 4
0.300 0.542 0.327 2
0.099 0.749 0.739 4
0.440 0.791 0.563 4
0.446 0.831 0.829 5
0.489 0.110 0.792 3
0.612 0.337 0.039 1
0.564 0.941 0.774 5

провести классификацию точки


0.538 0.677 0.634
с применением упрощенного байесовского классификатора для непрерывных входных
переменных для нормального распределения объектов внутри классов.
12. 12. Для набора точек
x1 x2 x3 q
0.249 0.409 0.649 3
0.109 0.541 0.877 4
0.702 0.205 0.055 1
0.728 0.312 0.896 4
0.780 0.004 0.029 1
0.672 0.835 0.700 4
0.050 0.578 0.701 3
0.731 0.080 0.381 2
0.253 0.981 0.047 2

16
0.872 0.254 0.258 2
0.410 0.529 0.151 2
0.949 0.153 0.625 3
0.535 0.598 0.166 2
0.659 0.599 0.127 2
0.613 0.238 0.686 3
0.646 0.260 0.618 3
0.189 0.595 0.207 2
0.808 0.148 0.067 1
0.562 0.167 0.319 2
0.546 0.184 0.691 3
0.500 0.418 0.995 4
0.828 0.501 0.534 3
0.790 0.262 0.567 3
0.168 0.656 0.657 3
0.002 0.894 0.372 3
0.964 0.731 0.360 4
0.096 0.978 0.872 5
0.940 0.862 0.922 5
0.255 0.828 0.297 3
0.881 0.002 0.453 2

провести классификацию точки


0.241 0.383 0.154
с применением дискриминанта Фишера.

17
3. Построение модели нечеткого вывода

Основой для проведения операции нечеткого логического вывода


является база знаний нечеткой системы, содержащая правила, названия
термов и функции принадлежности термов. Пусть имеется система нечеткого
вывода, имеющая в БП m правил вида:
R1: ЕСЛИ x1 это A11 … И … xn это A1n, ТО y это B1
Ri: ЕСЛИ x1 это Ai1 … И … xn это Ain, ТО y это Bi
………
Rm: ЕСЛИ x1 это Ai1 … И … xn это Amn, ТО y это Bm ,
где x j , j  1, n – имена входных переменных; y – имя выходной переменной;
Aij , i  1, m, j  1, n – определенные функции принадлежности.
Результатом нечеткого вывода является четкое значение переменной
~y  Y на основе заданных четких значений ~ x j  X , j  1, n .
В общем случае механизм логического вывода включает четыре этапа:
введение нечеткости (фазификация), нечеткий вывод, композиция и
приведение к четкости, или дефазификация.
Алгоритмы нечеткого вывода различаются главным образом видом
используемого нечеткого вывода, следующим после фазификации, и
разновидностью метода дефазификации. Разработаны модели нечеткого
вывода Мамдани, Сугено, Ларсена, Цукамото.
Нечеткий вывод по способу Мамдани (Mamdani).
Данный алгоритм математически описывается следующим образом.
1. Процедура фазификации: определяются степени истинности, т.е.
значения ФП для левых частей каждого правила (предпосылок). Для базы
знаний с m правилами обозначим степени истинности как
Aij ( ~
x j ), i  1, m, j  1, n .
2. Нечеткий вывод. Сначала определяются уровни «отсечения» для
левой части каждого из правил. В качестве t-нормы выступает логический
минимум (min):
 i  min ( Aij ( ~x j )), i  1, m, j  1, n .
j
Далее находятся «усеченные» функции принадлежности
Bi ( y )  min ( i , Bi ( y )), i  1, m .
i
3. Композиция, или объединение полученных усеченных функций, для
чего используется максимальная композиция (t-конорма):
 ( y )  max( Bi ( y )), i  1, m ,
i
где  ( y ) – функция принадлежности итогового нечеткого множества.
4. На этапе дефазификации приведение к четкости можно осуществить
разными методами.

18
Метод среднего центра, или центроидный метод:
 yB( y )
~y  y
 B( y )
y
или для дискретного варианта:
m
  i yi
~y  i 1
.
m
 i
i 1
Геометрический смысл рассчитанного значения – это центр тяжести
для кривой  ( y ) .Пример: система нечеткого логического вывода
X  y, X  ( x1 , x2 ) , состоит из 5-ти правил:

if ( x1  A11)and ( x 2  A12)then( y  B1)


f ( x1  A21)and ( x 2  A22)then( y  B 2)
if ( x1  A31)and ( x 2  A32))then( y  B3)
f ( x1  A31)and ( x 2  A12))then( y  B 2)
f ( x1  A11)and ( x 2  A32))then( y  B 2)

Функции принадлежности левых частей:


2
  x C  
ij ( x)  exp    j ij
  , i  1, m; j  1, n; m  5; n  2
  Sij  
 
Функции принадлежности правых частей:
 y  qi
 P  1, y  qi
i
( y )   , i  1, m
y  qi
  1, y  qi
 Pi

Коэффициенты Cij

0 0
3.64 3.16
8.00 8.00
0 8.00
8.00 0

Коэффициенты S ij

19
3.00 4.01
4.86 3.35
7.59 4.64
6.49 4.65
7.14 4.40

Коэффициенты для правых частей:


qi Pi
0 3.62
4.95 3.66
8.00 1.43
4.00 2.78
4.55 3.31

Значения входных переменных x j , j  1, 2 =(4.90; 2.44).


Последовательность расчетов.
Правило 1.
  4.9  0 2 
11 ( x1 )  exp       0.069;
  3  
  2.44  0 2 
12 ( x2 )  exp       0.691;
  4.01  
Минимальное 1  0.069 .
Правило 2.
Минимальное  2  0.93 .
Правило 3.
Минимальное  3  0.24 .
Правило 4.
Минимальное  4  0.24 .
Правило 5.
Минимальное  5  0.73 .

Центроидный метод для нахождения четкого значения переменной ~y


 yB( y)
~y  y
можно реализовать численно, например, методом трапеций.
 B( y )
y
На рис.3.1 показана агрегированная функция принадлежности правой
части.

20
Рис.3.1. График агрегированной функции принадлежности правой части

Разделим область изменения y на К=8 отрезков длиной h=1.

y 0 1 2 3 4 5 6 7 8
B 0.07 0.07 0.24 0.53 0.73 0.93 0.71 0.44 0.24
yB 0 0.07 0.48 1.59 2.92 4.65 4.26 3.08 1.92
Bk 1  Bk
2 0.070.1550.385 0.63 0.83 0.820.575 0.343.805
yk 1 Bk 1  yk Bk
2 0.0350.2751.035 2.2553.7854.455 3.67 2.518.01

По формуле трапеций

21
K
yk 1 Bk 1  yk Bk
 yB( y)dy  h
y k 1 2
 18.01,
K
Bk 1  Bk
 B( y)dy  h
y k 1 2
 3.805 и

y  4.73 .

Контрольные вопросы и упражнения

1. Дайте определение лингвистической переменной.


2. Изобразите графически основные нечеткие операции.
3. Последовательность нечеткого логического вывода.
4. Виды функций принадлежности.
5. Состав системы нечеткого логического вывода.
6. В чем отличие нечеткого логического вывода по Мамдани от вывода по Сугено?
7. Основные элементы нечеткой арифметики.
8. Для набора правил (1) провести расчет нечеткого вывода по Мамдани. Вид
функций принадлежности, как в примере 1.
Коэффициенты C ij
i
1 2 3
1 0 0 0
j 2 4.63 3.12 4.14
3 8 8 8

Коэффициенты S ij
i
1 23
1 3.3 4.91 5.47
j 2 3.47 6.36 4.83
3 6.46 4.48 6.62

i qi Pi
1 0 2.63
2 4.34 2.42
3 8 3.02

Значения входных переменных ~


x j , j  1,2,3 :
1.57 7.45 6.87
9. Провести расчет нечеткого вывода при данных по левым частям правил, как в
примере 1.
Коэффициенты C ij
i
1 2 3
1 0 0 0
j 2 4.97 4.73 4.34
3 8 8 8

22
Коэффициенты S ij
i
1 2 3
1 7.64 5.5 7.73
j 2 3.27 6.49 4.55
3 7.50 3.36 7.61

Коэффициенты полиномов правых частей


i pij
1 0.36 0.54 0.14 0.61
2 0.69 0.11 0.39 0.76
3 0.49 0.20 0.23 0.74

Значения входных переменных ~


x j , j  1,2,3 :
4.14 2.59 2.29

a1 a2 x  a3
10. Вычислить функцию f ( x)   для
x 2 a 4  ln(a 5 x)
нечетких коэффициентов
i ai  l ai  r ai
1 2.187 0.219 0.437
2 3.102 0.31 0.62
3 1.733 0.173 0.347
4 1.92 0.192 0.384
5 1.82 0.182 0.364

и пяти значений нечетких переменных.


x l x r x
1.205 0.241 0.362
1.176 0.235 0.353
1.149 0.23 0.345
3.293 0.659 0.988
2.937 0.587 0.881

23
4. Кластеризации данных

Методы кластерного анализа позволяют разделить изучаемую


совокупность объектов на группы “схожих” объектов, называемых
кластерами, разнести записи в различные группы, или сегменты.
Кластеризация в чем-то аналогична классификации, но отличается от нее
тем, что для проведения анализа не требуется иметь выделенную целевую
переменную. Ее удобно использовать на начальных этапах исследования,
когда о данных мало что известно. Для этапа кластеризации характерно
отсутствие каких-либо различий как между переменными, так и между
записями. Напротив, ищутся группы наиболее близких, похожих записей.
Когда кластеры обнаружены, делается попытка установить, что означает
такое разбиение на кластеры, чем оно вызвано.
Для нахождения расстояния (различия) между точками применяются
различные метрики:
n
2
D x, w    x i  wi  - эвклидово расстояние;
i 1
n
D x, w    xi  wi - мера Манхеттена;
i 1

Dx, w   x, w  - скалярное произведение.


Введение метрики, расстояния между категориальными переменными
или отношениями порядка имеет более сложный характер.
0 | xi  wi 1 n
di   ; Dx, w    d i - расстояние в категориальной шкале.
1 | xi  wi n i 1
n
  
 L
 2  min  xi , wi  
1
D x, w    d i  n  L 1  i nL 1  - расстояние в смешанной
n  i 1  n 
 

 x i   wi 

 l  L 1 l  L 1

шкале.
Методы кластеризации могут работать с категориальными, булевыми
переменными и с текстом. В технологии извлечения знаний из данных
широко применяются методы расщепления, непосредственно разбивающие
всю совокупность записей на несколько кластеров. Из них наибольшее
распространение получили различные модификации метода K-средних.

Метод K средних
Метод K средних хорошо работает, если данные по своей естественной
природе делятся на компактные, примерно сферические группы.
Зададим число K – число кластеров, на которые мы хотим разбить
записи. Случайным образом или по какому-либо правилу выбирается K
исходных центров – точек в пространстве всех переменных.
 
c k  cik , i  1, n; k  1, K

24
Не очень критично, какие именно это будут центры, процедура выбора
исходных точек отразится, главным образом, только на количество итераций.
На первом шаге разобьем все записи на K групп, наиболее близких к одному
из центров.
 
J k  j | min D x j , c k , j  1, p
k
 
На втором шаге вычисляем новые центры кластеров по средним
значениям переменных для записей, отнесенных к сформированным
группам.
1
c k (t )  x j
, t  1,2,3,...
Jk jJ k

Если переменная измеряется в шкале наименований, то в качестве


соответствующей координаты нового положения центра берется наиболее
часто встречающееся наименование.
Новые центры могут отличаться от предыдущих. Процедура
повторяется до тех пор, пока центры кластеров (соответственно, и границы
между ними) не перестанут меняться
c k (t )  c k (t  1)   .

Пример 1.
Количество переменных n  3 , p  15 .

Приведем последовательность вычислений при кластеризации данных


из таблицы 1.

Таблица 1. Исходные данные для кластеризации


x1 x2 x3 j
-0.15 -0.23 0.91 1
-0.86 1.29 0.08 2
-0.41 1.44 0.69 3
0.55 0.26 1.35 4
0.69 1.04 0.57 5
-0.58 0.48 0.42 6
-0.41 1.47 0.04 7
0.06 0.12 1.23 8
-0.33 1.36 1.44 9
0.08 1.59 1.14 10
1.62 1.3 0.4 11
2.58 1.06 1.3 12
1.6 2.56 1.42 13
3.12 2.43 1.23 14
2 2.38 1.3 15

В двумерном отображении точки представлены на рис.1.


25
Рис.1. Двумерное отображение данных

Зададим случайным образом координаты центров кластеров c k (0) .


k c1 c2 c3
1 2.87 0.73 0.26
2 1.93 2.03 2.32
3 3 0.89 1.49

На рис.2 первоначальное положение центров показано квадратиками


черного, серого и белого цвета. В таблице представлены расстояния от точек
с номерами j до центров. k  arg min Dx j , c k  . На первой итерации
k

сформировались три подмножества J 1  1,6,11, J 2  2,3,4,7,8,9,10,13,15,


J 3  12,14 (табл.2).

Таблица 2. Расчет расстояний, 1-я итерация


j D ( x, c ) k
1 10.43 11.41 11.46 1
2 14.22 13.36 17 2
3 11.45 8.49 12.56 2
4 6.78 5.96 6.39 2
5 4.94 5.57 6.19 1
6 11.97 12.33 14.09 1

26
7 11.34 10.98 14.03 2
8 9.22 8.34 9.28 2
9 12.02 6.34 11.29 2
10 9.29 5.01 9.12 2
11 1.89 4.29 3.22 1
12 1.28 2.4 0.23 3
13 6.3 1.2 4.76 2
14 3.9 2.76 2.47 3
15 4.56 1.15 3.25 2

Пересчитываются координаты центров классов.


k c1 c2 c3
1 0.4 0.65 0.57
2 0.25 1.39 0.97
3 2.85 1.74 1.27

Рассчитываются на второй итерации расстояния от точек до центров.


Точки переходят из множеств: J 1  1,4,5,6,8,11, J 2  2,3,7,9,10, , J 3  12,13,14,15
(Табл.3).

Таблица 3. Расчет расстояний, 2-я итерация


j D ( x, c ) k
1 1.17 2.77 13.04 1
2 2.23 2.04 15.42 2
3 1.3 0.52 11.1 2
4 0.78 1.5 7.51 1
5 0.24 0.47 5.67 1
6 1.01 1.82 14.13 1
7 1.61 1.3 12.25 2
8 0.83 1.72 10.47 1
9 1.79 0.56 10.32 2
10 1.32 0.1 7.74 2
11 1.96 2.21 2.46 1
12 5.49 5.66 0.55 3
13 5.84 3.41 2.26 3
14 11.06 9.41 0.55 3
15 6.08 4.13 1.14 3

Уточнение координат центров кластеров


k c1 c2 c3
1 0.36 0.5 0.81
2 -0.39 1.43 0.68
3 2.33 2.11 1.31

27
Третья итерация, вычисление расстояний. J 1  1,4,5,8,11,
J  2,3,6,7,9,10, , J  11,12,13,14,15 ( Табл. 4).
2 3

Таблица 4. Расчет расстояний, 3-я итерация


j D ( x, c ) k
1 0.8 2.87 11.75 1
2 2.67 0.61 12.35 2
3 1.52 0 8.34 2
4 0.38 2.7 6.56 1
5 0.47 1.32 4.37 1
6 1.05 1.02 11.91 2
7 2.15 0.4 9.52 2
8 0.41 2.24 9.12 1
9 1.63 0.59 7.63 2
10 1.4 0.46 5.34 2
11 2.4 4.14 1.98 3
12 5.48 9.36 1.17 3
13 6.18 5.79 0.74 3
14 11.54 13.64 0.75 3
15 6.44 6.96 0.18 3

Новые значения координат центров кластеров


k c1 c2 c3
1 0.29 0.3 1.02
2 -0.42 1.27 0.63
3 2.19 1.95 1.13

Следующая итерация не изменяет расположение центров кластеров.


Результат кластеризации показан на рис.3

28
Рис. 3. Кластеризация методом K-средних

Рассчитанные центры кластеров обозначены кружками большого


размера: первый кластер черный, второй серый, третий светлый. Точки,
принадлежащие этим кластерам, такого же цвета.

Пример 2.
Количество переменных n  4 , из них в категориальной шкале L  2 ,
p  10 .

Таблица 5. Исходные данные для кластеризации


x1 x2 x3 x4 j
a b 0 0 1
a a 0 1 2
a b 0 0 3
a a 2 0 4
a b 2 0 5
c c 16 8 6
c c 16 8 7
c c 18 12 8
c b 18 8 9
c c 16 8 10
29
Зададим случайным образом координаты центров кластеров c k (0) .
k c1 c2 c3 c4
1 a a 2 2
2 c c 16 10

В таблице 6 представлены расстояния от точек с номерами j до


центров. k  arg min Dx j , c k  . На первой итерации сформировались два
k

подмножества J 1  1, 2,3, 4,5 , J 2  6,7,8,9,10 , (табл.6).

Таблица 6. Расчет расстояний, 1-я итерация


j D ( x, c ) k
1 0.75 1 1
2 0.3 0.96 1
3 0.75 1 1
4 0.17 0.93 1
5 0.42 0.93 1
6 0.86 0.02 2
7 0.86 0.02 2
8 0.88 0.04 2
9 0.87 0.29 2
10 0.86 0.02 2

Пересчитываются координаты центров классов.


k c1 c2 c3 c4
1 a b 0.8 0.2
2 c c 16.8 8.8

Рассчитываются на второй итерации расстояния от точек до центров.


(Табл.7).

Таблица 7. Расчет расстояний, 2-я итерация


j D ( x, c ) k
1 0.5 1 1
2 0.65 0.96 1
3 0.5 1 1
4 0.48 0.93 1
5 0.23 0.93 1
6 0.96 0.02 2

30
7 0.96 0.02 2
8 0.97 0.04 2
9 0.71 0.27 2
10 0.96 0.02 2

Уточнение координат центров кластеров


k c1 c2 c3 c4
1 a b 0.8 0.2
2 c c 16.8 8.8

Следующая итерация не изменяет расположение центров кластеров.

Контрольные вопросы и упражнения

1. Какие метрики применяются для нахождения расстояния между точками ?


2. На каком принципе основано двумерное представление многомерных данных?
3. Можно ли с помощью метода К-средних выбирать число кластеров?
4. Что является мерой принадлежности объекта к кластеру в методе C-means?
5. На чем основано преобразование Густаффсона-Кесселя?
6. Метод главных компонент – это линейное или нелинейное преобразование?
7. Как определить погрешность реконструкции при отбрасывании компонент?
8. Даны значения собственных чисел  1 ... 5
4.15993 0.65485 0.12255 0.0607 0.00197
Определите погрешность реконструкции при отбрасывании: одной компоненты; четырех
компонент.
9. Даны пять собственных векторов-столбцов:
0.48019 -0.09 -0.41333 -0.47759 -0.60198
0.32426 0.92463 -0.07915 0.18073 0.03137
0.45985 -0.33654 -0.28904 0.76922 0.00531
0.46656 -0.08468 0.85547 0.00691 -0.20803
0.4849 -0.12854 -0.08676 -0.38404 0.77028
Как проверить ортонормированность этих векторов?
10. Даны пять собственных векторов из предыдущего упражнения. Запишите
выражение для двух первых главных компонент.
11. Для исходных данных
x1 x2 x3
3.19 3.36 -0.58
1.93 3.69 0.59
2.82 3.59 0.4
2.22 2.05 0.28
2.21 3.61 -0.65
1.08 2.14 3.04
0.88 1.37 1.65
0.88 2.21 2.11
1.1 1.37 2.34
2.01 2.55 1.28
0.87 0.14 2.18
2.31 1.63 2.73

31
1.94 0.89 3.45
1.71 0.7 3.6
2.35 0.3 2.15
провести кластеризацию на три кластера при начальном расположении центров кластеров:
k c1 c2 c3
1 0.2 2.02 0.76
2 0.18 0.68 1.1
3 0.58 1.71 2.51

32
Заключение

Для выполнения контрольных работ рассмотрены некоторые методы


извлечения знаний из данных:
1. С позиций системного анализа. Этот подход известен, как Универсальный
Решатель Системных Задач. Данная методология использует вероятностную
и возможностную постановки задач и позволяет получать дополнительную
информацию о слабо формализованных системах.
2. Алгоритм классификации на основе байесовского правила в
предположении, что входные переменные (свойства объекта) условно
независимы друг от друга.
3. Методы работы с данными, основанные на применении теории нечетких
множеств.
4. Метод кластерного анализа, позволяющий разделить изучаемую
совокупность объектов на группы “схожих” объектов, называемых
кластерами. Кластеризация отличается от классификации тем, что для
проведения анализа не требуется иметь выделенную целевую переменную.

33
Литература

1. Пономарев М.И., Тененев В.А., Якимович Б.А. Анализ систем данных с


неопределенностью. Изд-во ИжГТУ, 2014. 288с.
2. Введение в математическое моделирование [Электронный ресурс]:
учебное пособие/ В.Н. Ашихмин [и др.].— Электрон. текстовые данные.—
М.: Логос, 2016.— 440 c.— Режим доступа:
http://www.iprbookshop.ru/66414.html.— ЭБС «IPRbooks»
3. Математическое моделирование и дифференциальные уравнения
[Электронный ресурс]: учебное пособие для магистрантов всех направлений
подготовки/ М.Е. Семенов [и др.].— Электрон. текстовые данные.—
Воронеж: Воронежский государственный архитектурно-строительный
университет, ЭБС АСВ, 2017.— 149 c.— Режим доступа:
http://www.iprbookshop.ru/72918.html.— ЭБС «IPRbooks»

34
Приложение 3
к приказу №______от_________

Форма реестра регистрации методических указаний1


Реестр методических указаний факультета/института
_________________________________
Код
Дата
№ программы Рег.
Название методических указаний Кафедра Разработчик утвержд
п/п из реестра номер*
ения
ООП**
1
2

* Номер трехзначный сквозной для выпускающей кафедры, пример 30/001


**шифр направления - номер п/п из реестра ООП, пример 09.03.01-1

1
Заполняется факультетом, реализующим образовательную программу

35

Оценить