Академический Документы
Профессиональный Документы
Культура Документы
ББК 40.3я73
М55
Рецензенты:
Е.В. Шеин – доктор биологических наук
Ю.Н. Благовещенский – доктор физико-математических наук
2
Занятие 1. Ввод данных. Описательная статистика (анализ единичной
выборки). Анализ распределений. Гистограммы
ЦЕЛЬ занятия - рассчитать статистические характеристики и исследо-
вать распределения для одного из почвенных свойств (в зависимости от ва-
рианта - мощности пахотного горизонта, его влажности, гидрологической ки-
слотности, содержания гумуса, глубины нижней границы горизонта Е), по-
лученных на двух участках дерново-подзолистой (серой лесной, черноземной
или др.) почвы, расположенных на разных элементах рельефа.
НАЧАЛО. Получите у преподавателя свой вариант данных, вниматель-
но ознакомьтесь с ним. Войдите в систему, под именем кафедры. Имя группы
и пароль спросите у преподавателя. Запомните их или запишите. Создайте
свой каталог на диске Y в каталоге своей кафедры (biol4, geogr4 и т.д.). Назо-
вите каталог своей фамилией латинскими буквами. В своем каталоге с помо-
щью программы EXCEL создайте файл для записи результатов анализа. На-
зовите его RES1.…..(вместо точек поставьте начальные буквы фамилии, не
более 4). Для записи результатов последующих занятий необходимо будет
создать аналогичные по названию файлы, отличающиеся только номером за-
нятия.
ЗАПУСК ПРОГРАММЫ СТАТИСТИКА. Современный статистический
пакет STATISTICA позволяет всесторонне анализировать статистические дан-
ные. Его интерфейс соответствует среде Windows. Программа запускается
Переменные
Номера наблюдений
3
ременными и десятью наблюдениями. После активизации переменной (или
ячейки) можно добавлять, удалять (и т.п.) переменные, щелкнув по кнопке
Переменные (Variables, сокращенно VARS).
4
Результат удаления переменных:
5
РАБОТА С ПЕРЕМЕННЫМИ. Назвать переменную, изменить ее тип,
ввести текстовые метки или формулы можно, дважды щелкнув левой кнопкой
по имени переменной (например, по VAR1). В результате появляется новое
окно. Щелкнув два раза левой кнопкой в окошке Имя (Var), можно вести но-
вое имя, например, Pole1_Ivanov. Назовите переменные. Во избежание всяких
недоразумений имена переменных лучше задавать латинскими буквами. Поя-
вившееся окно дает возможность изменить тип переменной, число десятичных
знаков, ввести коды пропущенных значений и т.п. Убедитесь, что для ваших
переменных указан Тип Двойной (Double).
6
ПРЕДУПРЕЖДЕНИЕ!!!
После запуска программы STATISTICA появятся последние
данные, с которыми работала программа.
Для открытия собственного файла выберите в меню Файл (File), затем пункт
Открыть (Open Data). Далее стандартным образом указывается, откуда будут
взяты данные.
ПЕРВИЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ. Для выполнения раз-
личных видов статистического анализа нужно щелкнуть по кнопке Анализ
(Analyses).
7
Щелчок по кнопке Переменные (Variables) открывает список перемен-
ных, для которых мы хотим провести анализ. Выделение необходимых пере-
менных производится обычным для Windows способом. Кроме того, можно
просто ввести номера переменных в окошке, причем, если они идут подряд, то
просто вводят номер начальной и конечной переменной через дефис. В про-
тивном случае номера вводятся через запятую или щелчками по имени пере-
менной при нажатой кнопке Ctrl.
Для задания необходимых статистик нужно щелкнуть по кнопке До-
полнительно (Advanced) и поставить галочки в окошках требуемых показа-
телей. Затем нажать ОК.
8
Нажмите ОК. Результаты вычислений размещаются в рабочую книгу
(Workbook):
В нижнем левом углу экрана находится значок текущего анализа. Для про-
должения щелкните левой кнопкой по этому значку.
9
Так выглядит диаграмма размаха. На диаграмме размаха в виде точки
показан центр распределения (медиана или среднее) и характеристики варьи-
рования (квартили, стандартные ошибки или стандартные отклонения). Также
могут быть изображены крайние точки (минимум и максимум) или выбросы
(исходя из идеи нормального распределения). В правом нижнем углу дана ле-
генда, где показано, что обозначено символами на графике.
Содержимое
рабочей
книги
10
Гистограмма - это графическое представление распределения сгруппи-
рованной переменной, на котором для каждого класса рисуется столбец. Его
высота пропорциональна наблюдаемой частоте для данного класса. Линией
показано ожидаемое нормальное распределение, имеющее то же среднее и
дисперсию, что и изучаемая переменная.
11
Ниже приведен результат работы модуля Нормальные вероятностные
графики (Normal Probability plot):
Вопросы к занятию 1
1. Что характеризуют данные? В чем отличие первой переменной от второй
переменной?
2. Насколько близки различные характеристики центра распределений для
показателей? О чем может свидетельствовать их совпадение? О чем может
свидетельствовать их значительное расхождение?
3. Сравните представление Median-Quart-Range (Медиана- Квартили- Раз-
мах) и Mean/SE/1,96*SE (Среднее- Стандартное отклонение – 1,96 * на
стандартное отклонение.). Какую информацию можно получить, используя
каждое из этих представлений?
4. Какие отличия для исследуемых переменных выявили диаграммы размаха
(Box&Wiskers Plot)?
5. В каких случаях можно использовать "Нормальные вероятностные графи-
ки" (Normal probability plot)? Какие из показателей имеют распределения,
близкие к нормальному?
6. Что характеризует гистограмма? Что на рисунке гистограммы обозначено
тонкой непрерывной линией?
7. Отличаются ли гистограммы для каждого из свойств?
8. Используя данные из таблицы статистических характеристик, покажите,
как рассчитывается доверительный интервал для среднего.
13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних
14
Щелкнув по кнопке ОК, переходим к новому окну, где нужно выбрать
переменную. Пока она не выбрана, параметры (заставка Параметры (Parame-
ters)) распределения обнулены.
15
Перейдите на вкладку Быстрый (Quick). Здесь можно построить табли-
цу подгонки распределения с помощью клавиши Наблюдаемые и ожидае-
мые частоты (Summary: Observed and Expected distribution).
16
значимость (p-уровень) находится в убывающей зависимости от надежности
результата.
Щелкнув по вкладке Опции (Options), можно добавить проверку по
критерию Колмогорова – Смирнова (К.-С.): для сгруппированных данных
(Categorized) и для данных без группировки (Continuous). Если для критерия
хи-квадрат указать условие – составные интервалы (Combine Categories), тогда
будут объединены классы, у которых ожидаемые частоты менее 5. Можно
также выбрать вид графика: Гистограмма, т.е. распределение частот по клас-
сам (Frequency distribution) или кумулятивное распределение (Cumulative dis-
tribution). Также можно указать единицы оси ординат: абсолютные/ исходные
частоты (Raw frequencies) или относительные частоты (Relative frequencies).
17
Если критерий хи-квадрат не будет значимым при любом числе классов,
то есть в шапке графика (гистограммы) будут стоять прочерки, – снимите
значок с опции Составные интервалы (Combine Categories). Щелкнув по
вкладке Быстрый (Quick), можно построить графики распределений. На-
помним, что все результаты записываются в рабочую книгу (Workbook).
Постройте одну таблицу подгонки нормального распределения для
любой переменной. Для двух переменных постройте гистограммы, на кото-
рых указана проверка по критерию хи-квадрат, для Нормального (Normal),
Логнормального (Lognormal), Равномерного (Rectangular) и Гамма
(Gamma) распределений. Оформите страницу отчета.
СРАВНЕНИЕ СРЕДНИХ. Щелкните по кнопке Анализ (Statistics) и
выберите окно Основные статистики и таблицы (Basic Statistics / Tables).
Вопросы к занятию 2
1. Какими распределениями можно (а какими нельзя) аппроксимировать
распределения изучаемых показателей? (по своим данным)
2. Какие из показателей имеют распределения, близкие к нормальному?
(по данным всей группы).
3. Как влияет выбор уровня значимости на результат принятия или отвер-
жения гипотезы о типе распределения?
4. Как влияет отличие распределений свойств от нормального на результа-
ты сравнения средних?
5. Можно ли считать дисперсии свойств однородными? Как влияет при-
знание дисперсий неоднородными на конечные выводы проверки гипо-
тезы о равенстве средних?
6. Принимается или отвергается гипотеза о равенстве средних для двух
участков? Как влияет уровень значимости на результаты проверки гипо-
тезы о равенстве средних?
7. Чему равно число степеней свободы для критерия сравнения средних
при равенстве дисперсий? В случае неравенства дисперсий?
20
Занятие 3. Двухфакторный дисперсионный анализ
21
гербицида 0, 10, 20, 30 г/га могут соответствовать значения 1, 2, 3, 4 или 0, 10,
20, 30. Вторая переменная также может принимать значения 1, 2, 3 и 4, что
соответствует дозам удобрения 0, 30, 60, 90 кг д.в./га. В третью колонку зане-
сите данные урожайности. Введенные данные могут, например, выглядеть
так:
23
В окне, соответствующем закладке Дополнительно (Options) можно
выбрать разные модели дисперсионного анализа. В разделе Параметризация
(Parameterization) поставьте галочку напротив надписи Без свободного чле-
на (No intercept). Свободный член обычно включается в более сложные мо-
дели дисперсионного анализа. Снимите галочку с Сигма-ограниченная
(Sigma-restricted) параметризация. Сигма - ограниченная модель предполага-
ет, что для кодирования градаций фактора используются целые значения,
сумма которых равна нулю. Например, наличие известкования участка можно
было бы закодировать как +1, а в случае, если известкование не проводилось –
как -1.
Нажмите OK.
24
Откроется основная первая панель, где можно выбрать результаты ана-
лиза. Обратите внимание, что внизу этой панели можно задать доверительные
пределы и уровень значимости для проверок гипотез. По умолчанию он со-
ставляет 0,05.
25
Для того чтобы продолжить анализ, нужно нажать на клавишу Резуль-
таты анализа (Anova Results…), находящуюся в нижнем левом углу окна, в
котором открыта программа Statistica.
26
случае взаимодействие между факторами описывается в виде изменения од-
ного эффекта под воздействием другого. В рассмотренном примере двухфак-
торное взаимодействие можно описать как изменение урожая, получаемого
при разной дозе удобрений, под воздействием обработок гербицидом. На
графике по оси абсцисс отложены коды, соответствующие градациям первого
фактора (дозы удобрения), по оси ординат отложен урожай. Символами зако-
дированы разные дозы гербицида. Всего имеется 16 средних урожаев, соот-
ветствующих сочетаниям взаимодействия. Они получены усреднением каж-
дой из двух повторностей, соответствующих сочетанию дозы удобрения и
гербицида.
27
ПРОВЕРКА ОТЛИЧИЯ СРЕДНИХ ПО ГРАДАЦИЯМ ФАКТОРА. Пе-
рейдите на вкладку Апостериорные (Post-hoc). В окошке Эффект (Effect)
укажите фактор – доза гербицида. Проверьте, что в качестве зависимой пере-
менной указан урожай. Выберите опцию Значимые разности (Significant
differences). Здесь также можно построить таблицы, где средние сгруппиро-
ваны в однородные группы или построить для них доверительные интервалы.
29
те на кнопку , где указан тест Кохрена С, Хартли, Бартлетта (Cohran C,
Hartley, Bartlett).
Появится следующая таблица. Скопируйте ее в отчет. Как видно из таб-
лицы, проверка дисперсий на однородность осуществляется одновременно по
3 тестам.
Вопросы к занятию 3
1. Опишите изменения средних по градациям факторов и по взаимодейст-
вию для своего случая. По таблице исходных данных приведите значе-
ния, по которым получены эти средние.
2. Сформулируйте исходную гипотезу дисперсионного анализа для каждо-
го из факторов и для взаимодействия.
3. Соблюдаются ли эти гипотезы для ваших данных по урожайности?
Влияет ли взаимодействие факторов на средние значения урожайности?
4. Какой из факторов значимо влияет на урожай с/х культур? (по данным
всей группы)
5. Что такое НСР? Какой способ сравнения средних обнаруживает боль-
ше различий между средними?
6. Какие группы средних можно признать однородными?
7. Однородность каких дисперсий проверяется? Зачем это нужно?
8. Что нужно делать в случае, если дисперсии неоднородны?
9. Какие преобразования исходных данных допустимы, если распределе-
ния положительно асимметричны и условие однородности дисперсий не
выполняется?
10. Какие выводы о влиянии различных доз гербицида и удобрений можно
сделать по результатам проведенного дисперсионного анализа?
30
Занятие 4. Регрессионный анализ
ЦЕЛЬ занятия - провести множественный линейный регрессионный
анализ данных зависимости урожайности от почвенных признаков; опреде-
лить переменные, влияющие на урожайность; оценить степень влияния каж-
дой из переменных; исследовать качество аппроксимации зависимости.
Войдите в пакет STATISTICA (см. занятие №1). В программе
STATISTICA создайте новый файл данных для своего варианта (см. занятие
№3). Введите данные как показано на картинке ниже. Признаки – это столб-
цы, строки – это наблюдения.
31
Назначение множественной регрессии состоит в анализе связи между
несколькими независимыми переменными (называемыми также регрессорами
или предикторами) – в данном случае, почвенными свойствами и зависимой
переменной – урожаем.
Выберите закладку Дополнительно (Advanced).
33
Для продолжения анализа в нижнем левом углу нажмите на свернутую
панель Множественная регрессия (Multiple Regression). На вкладке Допол-
нительно (Advanced) нажмите кнопку Итоговая таблица регрессии (Sum-
mary: regression results). Появится таблица, где суммированы результаты
регрессионного анализа для каждой из независимых переменных. Скопируйте
шапку и таблицу в отчет. Оцените отличие обычного и скорректированного
коэффициентов детерминации.
35
На появившейся панели перейдите на вкладку Дополнительно (Ad-
vanced) и выберите кнопку Корреляции (Correlations) для построения кор-
реляционной таблицы между признаками. При построении таблицы корреля-
ций выберите все признаки. Скопируйте таблицу в отчет. При анализе ре-
зультатов нужно учесть, что при числе степеней свободы ν=19 значимыми (то
есть отличными от нуля) можно считать коэффициенты, превышающие по
модулю 0,45. А при ν=14 – 0,53. Если независимые переменные окажутся тес-
но связанными между собой (коэффициенты корреляции по модулю равны
или более 0,85), то следует исключить коррелированные признаки, оставив
один из них. Затем можно использовать алгоритмы пошаговой регрессии.
Humus
P2O5
K2O
Yield
36
Другой вариантом при наличии большего числа коррелированных при-
знаков является проведение факторного анализа (метод главных компонент) и
переход к новому набору переменных, которые будут не связаны между со-
бой. Множественная регрессия строиться для этих новых переменных (ком-
понент).
Для построения попарных графиков между переменными выберите
кнопку Матричный график (Matrix plot of correlations). Сначала выберите
все переменные и урожай. Рассмотрите график. Затем постройте график толь-
ко для значимых переменных и для урожая. Для выделения нужных перемен-
ных используйте клавишу Ctrl. Скопируйте график в отчет.
АНАЛИЗ ОСТАТКОВ. Отклонение отдельной точки от линии регрес-
сии (от предсказанного значения) называется остатком. Анализ остатков -
важная составляющая регрессионного анализа, позволяющая проверить, на-
сколько хорошо выполняются основные предположения множественной рег-
рессии. Наличие выбросов (т.е. экстремальных наблюдений) может вызвать
смещение оценок, "сдвинуть" линию регрессии и тем самым, вызывать сме-
щение регрессионных коэффициентов. Часто исключение лишь одного экс-
тремального наблюдения приводит к изменению результата.
Для того чтобы выполнить анализ остатков, в нижнем левом углу на-
жмите на свернутую панель Множественная регрессия (Multiple
Regression). Появится размещенная выше таблица Просмотра описатель-
ных статистик (Review Descriptive Statistics). Чтобы подняться в меню на
более высокий уровень, нажмите кнопку Отмена (Cancel).
Появится следующее меню. Выберите закладку Остатки/ предсказан-
ные/ наблюдаемые значения (Residuals/assumptions/ prediction).
37
Выберите закладку Остатки (Residuals) и нажмите кнопку Гистограм-
ма остатков (Histogram of residuals). В множественной регрессии предпола-
гается, что остатки распределены нормально. Оцените, насколько это допу-
щение выполняется в Вашем случае. Появившийся график скопируйте в от-
чет.
Вернитесь к меню.
Выберите закладку Диаграмма рассеяния (Scatterplots).
38
Для построения графика зависимости остатков от предсказанных значе-
ний используйте клавишу Предсказанные и остатки (Predicted vs. re-
siduals). Скопируйте график в отчет. Чем меньше разброс значений вдоль ли-
нии, тем, очевидно, лучше прогноз. В случае хорошей аппроксимации остатки
не должны зависеть от наблюдаемых и предсказанных величин.
39
Для построения нормального вероятностного графика остатков выбери-
те закладку Вероятностные графики (Probability plots) и нажмите клавишу
Нормальный (Normal plot of residuals). Скопируйте график в отчет. В случае
хорошей аппроксимации остатки должны иметь нормальное распределение.
ПОШАГОВАЯ РЕГРЕССИЯ. Существует две схемы пошаговой регрес-
сии: «с исключением» признаков и «с включением».
Первый алгоритм состоит в том, что после построения уравнения рег-
рессии и оценки значимости всех коэффициентов из модели исключают тот
признак, коэффициент при котором незначим и имеет наименьшее значение t .
После этого получают новое уравнение множественной регрессии и снова
производят оценку значимости всех оставшихся коэффициентов регрессии.
Если среди них опять окажутся незначимые, то опять исключают признак с
наименьшим значением t -критерия. Процесс исключения признаков останав-
ливается на том шаге, при котором все регрессионные коэффициенты значи-
мы. При использовании этой схемы негативные последствия мультиколлине-
арности могут сказаться.
При реализации второго алгоритма первым в уравнение включается
признак, наиболее тесно коррелирующий с Y, вторым в уравнение включается
тот признак, который в паре с первым из отобранных дает максимальное зна-
чение множественного коэффициента корреляции, и т.д. На каждом шаге по-
лучают новое значение множественного коэффициента корреляции (большее,
чем на предыдущем шаге); тем самым определяется вклад каждого отобран-
ного признака в объясненную дисперсию Y.
Нажмите в нижнем левом углу на свернутую панель Множественная
регрессия (Multiple Regression). Чтобы вернуться назад, несколько раз на-
жимайте Отмена (Cancel) до тех пор, пока не появится следующее меню:
40
Выберите закладку Дополнительно (Advanced). В появившемся окне
поставите галочку в окне Пошаговая или гребневая регрессия (Advanced
options- stepwise or ridge regression). Проверьте, правильно ли заданы зави-
симые и независимые переменные. Нажмите ОК.
В появившемся меню перейдите на вкладку Пошаговый (Stepwise).
Выберите процедуру Пошаговая с включением (Forward stepwise). В окне
Отображение результатов (Display results) укажите пункт На каждом шаге
(At each step). Нажмите ОК.
41
На той же вкладке Дополнительно (Advanced) выберите клавишу Ито-
говая таблица регрессии (Summary: regression results). Появится таблица,
аналогичная таблице, полученной при проведении стандартной процедуры
регрессионного анализа, но содержащая одну переменную (в данном случае –
это фосфор) и свободный член.
42
Напишите новое уравнение регрессии. В данном случае оно будет вы-
глядеть следующим образом:
Yield [ц/га] = 3,93 [ц/га] + 0,86 [ц/га*%] *Humus [%] + 0, 51 [(ц/га)/ мг-
экв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г.
почвы] *K2O[мг-экв. / 100 г. почвы] .
43
Занятие 5. Кластерный анализ
ЦЕЛИ данного занятия: провести иерархическую классификацию гори-
зонтов методами одиночной связи и Варда, используя Евклидово расстояние;
провести классификацию переменных этими же методами; выполнить два ва-
рианта классификации объектов методом k-средних, задав в первом случае 3
класса, во втором - 5 классов.
Войдите в пакет STATISTICA (см. занятие №1). В программе
STATISTICA создайте новый файл данных для своего варианта (см. занятие
№3). Введите данные так же, как они даны в таблице данных. Данные пред-
ставляют собой результаты анализов образцов горизонтов, отобранных из 5
разрезов дерново-подзолистых почв Московской области. Сохраните данные.
Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выбери-
те раздел Многомерный разведочный анализ (Multivariate Exploratory
Technique), затем перейдите в раздел Кластерный анализ (Cluster Analysis).
45
Выберите правило объединения (Amalgamation –linkage rule) и подхо-
дящую Меру близости между объектами (Distance measure).
46
Евклидово расстояние – это геометрическое расстояние в многомерном
пространстве, то есть аналог физического расстояния. Метод одиночной свя-
зи (ближайшего соседа) предполагает, что расстояние между двумя кластера-
ми определяется расстоянием между двумя наиболее близкими объектами
(ближайшими соседями) в сравниваемых кластерах. В результате формируют-
ся кластеры, представленные длинными "цепочками" объектов.
Следующая панель дает информацию о выбранных ранее условиях (чис-
ло случаев, число переменных, число пропусков, способ присоединения и ме-
ра близости).
47
На графике по оси абсцисс отложены объекты (наблюдения). В данном
случае – это 30 горизонтов, соответствующие 5 разрезам дерново- подзоли-
стой почвы. По оси ординат отложено Евклидово расстояние между объекта-
ми и группами объектов, рассчитанное по свойствам объектов (наблюдений).
В группы объединяются объекты (и/или их группы), находящиеся на самом
близком расстоянии.
Дважды щелкнув по графику можно перейти в режим оформления, где
можно заменить номера объектов (наблюдений) на их имена. Для этого в поя-
вившемся меню выберите вкладку Единицы, заданные пользователем (Cus-
tom Units). Для сохранения имени горизонта в строке используйте клавишу
Enter. Замените порядковые номера наблюдений названиями горизонтов. На-
жмите OK. Сохраните график в файле результатов Excel.
48
Проведите иерархический кластерный анализ методом Варда с исполь-
зованием Евклидового расстояния. Этот метод отличается от всех других ме-
тодов, поскольку он использует методы дисперсионного анализа для оценки
расстояний между кластерами. Метод Варда минимизирует сумму квадратов
для любых двух кластеров, которые могут быть сформированы на каждом ша-
ге. При использовании данного метода получаются кластеры малого размера.
Результаты сохраните в файле Excel.
На этой же панели меню, где строятся дендрограммы (см. стр. 47), мож-
но сохранить в виде таблицы порядок объединения объектов - схема объеди-
нения (Amalgamation schedule), график схемы объединения (Graph of Amal-
gamation schedule), матрицу расстояний между объектами (Distance matrix),
а также среднее и стандартное отклонение для полученных классов – Описа-
тельные статистики (Descriptive statistics).
СРАВНЕНИЕ ПЕРЕМЕННЫХ. Кластерный анализ позволяет также
оценивать близость переменных между собой. Для этого на первой панели в
поле Объекты (Cluster) выберите Variables (Columns)..
49
МЕТОД K-СРЕДНИХ. Вернитесь в самое начало анализа и выберите
Кластеризацию методом к-средних (K-means clustering).
По методу K средних будет построено K кластеров, расположенных на воз-
можно больших расстояниях друг от друга. Расчеты начинаются K кластеров,
в которые объекты объединены случайным образом. Процедура состоит в из-
менении принадлежности объектов к кластерам так, чтобы: изменчивость
внутри кластеров сделать минимальной, изменчивость между кластерами -
максимальной. Эта оценка производиться с помощью дисперсионного анали-
за. Выберите закладку Дополнительно (Advanced).
50
Результирующая панель содержит информацию о заданных ранее усло-
виях кластерного анализа. Она позволяет оценить качество классификации с
помощью таблицы Дисперсионного анализа (Analysis of variance), получить
таблицу средних значений признаков для кластеров и таблицу расстояний ме-
жду кластерами – Средние кластеров и Евклидовы расстояния (Cluster
means & Euclidean distances), построить графики средних значений для кла-
стеров – График средних (Graph of means), получить описательные стати-
стики для каждого класса (Descriptive statistics for each cluster), получить
таблицу принадлежности объектов к каждому классу Элементы кластеров и
расстояния (Members of each cluster & distances).
51
Например, из данной таблицы видно, что для всех почвенных свойств
уровень значимости меньше 0,05 и, следовательно, нулевая гипотеза о равен-
стве средних по выделенным кластерам отвергается. Варьирование между вы-
деленными кластерами превышает внутриклассовое варьирование. Значения
F-статистики, полученные для каждого признака, являются индикатором того,
насколько хорошо соответствующий признак разделяет кластеры.
Постройте график средних и таблицу принадлежности объектов к каж-
дому классу. Результаты сохраните в файле Excel.
52
Вопросы к занятию 5
1. Что такое кластерный анализ?
2. Что такое аггломеративные методы кластеризации? Приведите приме-
ры.
3. Что такое итеративные дивизивные методы кластеризации? Приведите
примеры.
4. Что такое расстояние между объектами? Какие виды расстояния между
объектами вы знаете?
5. Какие виды расстояний используются для качественных признаков?
6. Какие методы объединения реализованы в программе STATISTICA?
7. Что такое дендрограмма и как она строится?
8. Для каких случаев, на Ваш взгляд, удобнее вертикальная дендрограмма,
а для каких горизонтальная дендрограмма?
9. На каждой из сохраненных в отчете дендрограмме проведите по 3 сече-
ния. Опишите, как происходит процесс объединения горизонтов в клас-
сы. Какие горизонты попадают в один, а какие в разные кластеры?
10. Чем отличаются кластеры, выделенные методом одиночной связи и ме-
тодом Варда?
11. Какие признаки оказались «ближе», а какие «дальше» для данного мно-
жества горизонтов?
12. В чем заключается принцип работы метода k-средних? К какому типу
методов кластеризации он относится?
13. Как соотносятся результаты работы алгоритма по методу k-средних для
3 и 5 классов?
14. Одинаковое ли разбиение дают разные методы кластеризации для одних
и тех же объектов?
15. Какой метод, на ваш взгляд, дает лучшее разбиение для ваших данных?
53
Занятие 6 . Метод главных компонент и дискриминантный анализ
ЦЕЛЬ занятия: провести анализ данных методом главных компонент
(МГК); выполнить дискриминантный анализ совокупности данных о горизон-
тах дерново-подзолистой почвы, оценить качество классификации; сравнить
результаты анализов.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ осуществляет переход от исходных
признаков Х1,...,Хp к новой системе координат Y1,...,Yр, называемых главными
компонентами (ГК). ГК представляют собой линейные нормированные ком-
бинации исходных признаков. Они выбираются таким образом, что среди всех
возможных линейных нормированных комбинаций исходных признаков пер-
вая главная компонента Y1 обладала наибольшей дисперсией. Вторая главная
компонента имеет наибольшую дисперсию среди всех оставшихся линейных
преобразований, некоррелированных с первой главной компонентой и пер-
пендикулярных первой главной компоненте. Следующие главные компоненты
определяются по аналогичной схеме.
Войдите в пакет STATISTICA (см. занятие №1). В программе
STATISTICA откройте файл данных для 5-6 задания для своего варианта (см.
занятие №3). Данные представляют собой результаты анализов образцов го-
ризонтов, отобранных из 5 разрезов дерново-подзолистых почв Московской
области.
Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выбери-
те раздел Многомерный разведочный анализ (Multivariate Exploratory
Technique), перейдите в раздел Анализ главных компонент и классифика-
ция (Principal Components& Classification Analysis).
55
После того, как переменные заданы, важно принять решение, будет ли
анализ проводится на основе ковариаций, либо корреляций. При анализе, ос-
нованном на матрице ковариаций, на вычисляемые факторы будут влиять раз-
личия вариабельности (изменчивости) переменных, включенных в анализ. В
большинстве случаев, эти различия связаны с различными единицами измере-
ний. В нашем случае анализ будет проводиться на основе корреляционной
матрицы. Поэтому выберите опцию Анализ основан на (Analysis based on)
Корреляциях (Correlations).
Нажмите кнопку OK. Появится новое меню. В информационном поле
диалога представлена общая информация о текущем анализе.
56
Появится таблица Факторных координат переменных на основе кор-
реляций (Factor coordinates of the variables, based on correlations), в кото-
рой показаны координаты исходных переменных в пространстве главных
компонент (факторов). Так как текущий анализ производится на основе кор-
реляционной матрицы, выводимые результаты можно интерпретировать как
корреляции соответствующих переменных с каждой ГК (с каждым фактором).
57
Нажмите кнопку График каменистой осыпи (Screeplot). Построенный
график скопируйте в отчет.
58
Перейдите на вкладку Наблюдения (Cases). Нажмите кнопку Фак-
торные координаты наблюдений (Factor coordinates of cases).
59
брать подмножество таких наблюдений, чей вклад больше среднего вклада и
т.п. Скопируйте полученную таблицу в отчет.
60
Появится график, на котором показаны все наблюдения (в данном слу-
чае горизонты) в пространстве первых двух ГК. При интерпретации результа-
тов рассматриваются подмножества точек с отрицательными координатами и
с положительными координатами по каждой из осей. Такое разбиение пока-
зывает различия, которые существуют между наблюдениями, следовательно,
раскрывает скрытую структуру данных в наблюдениях. В данном случае вид-
но, что первая ГК разделяет верхние и нижние горизонты.
С помощью вкладки Описательные (Descriptive) можно оценить ос-
новные параметры распределения для наблюдений, построить корреляцион-
ную и ковариационную матрицы и обратные к ним, различные графики для
основных и вспомогательных переменных.
61
ДИСКРИМИНАНТНЫЙ АНАЛИЗ. Щелкнув на кнопке Анализ (Statis-
tics) откройте меню и выберите раздел Многомерный разведочный анализ
(Multivariate Exploratory Technique), затем перейдите в раздел Дискрими-
нантный анализ (Discriminant Analysis).
62
list). В этом окне укажите группирующую переменную (переменная Horizon)
и независимые переменные (гумус, рН, содержание ила и глины).
Для идентификации того, к какой совокупности принадлежит каждый
образец, необходимо указать коды, которые были использованы при группи-
ровке переменных. Нажмите на кнопку Коды для группирующей перемен-
ной (Codes for grouping variable), или нажмите на кнопку Все (All), или ис-
пользуйте звездочку (*), соответствующую отбору всех кодов.
64
вклад соответствующей переменной в дискриминацию. Видно, что «главными
переменными» являются гумус и степень ненасыщенности.
Значение толерантности определяется как 1 минус R-квадрат для соот-
ветствующей переменной со всеми другими переменными в модели. Оно дает
представление об избыточности данной переменной. Если бы в модель входи-
ла каждая переменная по отдельности, то значение ее равнялось бы 1,0.
Одна из целей анализа дискриминантной функции - дать исследователю
возможность провести классификацию объектов. Посмотрим, насколько хо-
рошо построенные дискриминирующие функции классифицируют горизонты.
Для этого перейдите на вкладку Классификация (Classification).
65
Функции классификации вычисляются для каждой совокупности и мо-
гут непосредственно применяться для классификации объектов. Наблюдение
(горизонт в данном случае) будет попадать в ту совокупность, для которой
вычислен наибольший классификационный вес. Скопируйте таблицу в отчет.
Нажмите теперь на кнопку Матрица классификации (Classification
Matrix). В таблице показан процент правильной классификации и дана рас-
шифровка, к каким классам (горизонтам) были отнесены при классификации
наблюдения. Вторая линия в заголовке каждой колонки приводит априорные
вероятности классификации.
66
В таблице приведены вероятности отнесения каждого объекта к одной
из групп. Строки, отмеченные звездочкой (*), указывают на неправильно
классифицированные образцы.
Скопируйте полученные таблицы в отчет. Оформите отчет в соответст-
вии с образцом (см. стр. 79-81).
Вопросы к занятию 6
1. Что такое собственные числа?
2. Какую долю общей дисперсии учитывает каждая компонента по от-
дельности? Какую долю общей дисперсии суммарно учитывают 1-ая и
2-ая компоненты? Какую долю – суммарно 1-ая, 2-ая и 3-я компоненты?
3. Какие признаки вносят наибольший вклад в каждую из компонент?
4. Зачем были построены проекции переменных на 1-ую и 2-ую ГК?
5. Что такое график «каменной осыпи»?
6. Какая информация может быть получена при проектировании объектов
на 1-ую компоненту и на 2-ую компоненту?
7. Какие два объекта находятся на максимальном расстоянии при проек-
ции объектов на 1-ую компоненту?
8. Каковы итоги анализа дискриминантных функций?
9. Что такое классифицирующая функция?
10. Выпишите классифицирующие функции для принятия решения об от-
несении объекта к каждому из классов?
11. Укажите, в скольких случаях происходит ошибочная классификация?
Какие объекты правильно, а какие неправильно классифицируются?
12. Выпишите объекты, которые классифицируются правильно с вероятно-
стью более 95%, с вероятностью более 70%, с вероятностью менее 70%?
67
Пример оформления отчета
Преподаватель. Подпись.
Дата:
Москва 2008
68
Практические занятия по курсу "Математическая статистика" Подпись преподавателя
Номер 19 Кафедра Студент
Занятие 1-2 Дисперсионный анализ (занятие 3) Кластерный, дискриминантный анализы, МГК (занятия 5-6)
Р2О5, мг/100 г
Урожайность кукурузы, ц/га № № Гори- Гумус, рН соле- Содерж Содер. Степень
участок участок Гербицид объек- разреза зонт % вой ание физ. нена-
1 2 г/га та ила глины сыщ., %
Контроль NPK30 NPK60 NPK90
7,41 8,83 1 2 1 2 1 2 1 2
3,30 12,42 0 136 185 162 190 196 171 197 185 1 1 A1 4,0 4,0 9 35 21
6,72 11,57 10 135 141 192 161 185 183 225 211 2 1 A2 1,5 4,1 14 27 33
3,32 5,55 20 132 109 173 191 226 204 261 257 3 1 A2B 0,3 4,5 23 56 8
6,52 4,95 30 134 113 177 154 188 196 234 236 4 1 B 0,6 4,0 39 45 7
12,83 3,17 среднее 135,6 175,0 193,6 225,8 5 1 C 0,1 4,2 36 70 0
4,98 7,83 6 2 A1 3,4 4,0 11 36 68
6,78 25,01 Регрессионный анализ (занятие 4) 7 2 A2 0,7 4,2 7 28 46
5,18 19,08 Урожайность ячменя 8 2 A2B 0,8 4,7 17 44 31
12,60 6,04 hum,% P2O5, pH K2O, NO3, урожай Данные в 9 2 B 0,3 4,1 14 43 21
12,07 5,45 мг/100г мг/100г мг/100г ц/га заданиях1-4 10 2 C 0,2 4,1 28 72 6
10,49 9,00 3,97 18,89 7,14 12,75 8,36 20,64 представляют 11 3 A1 1,9 3,5 10 30 29
12,35 10,22 4,09 13,61 6,61 13,34 8,98 18,19 собой 12 3 A2 0,9 4,4 12 27 42
69
7,62 7,70 4,26 17,61 6,31 8,09 9,08 18,91 результаты 13 3 A2B 0,4 4,4 9 30 10
10,10 4,65 4,26 15,17 6,98 12,00 8,91 19,12 исследований на 14 3 B 0,4 4,7 25 46 6
7,53 1,89 3,95 10,51 6,67 12,17 9,55 16,48 серых лесных 15 3 C 0,3 3,8 38 59 4
10,44 14,89 3,65 20,85 7,27 14,73 9,16 21,99 почвах 16 4 A1 5,0 3,8 19 40 45
15,90 10,18 3,85 14,50 7,17 10,76 9,13 17,85 17 4 A2 0,5 4,2 8 33 46
15,54 14,83 3,87 17,01 7,07 9,94 7,76 18,68 18 4 A2B 0,4 4,1 16 41 26
8,13 4,27 3,87 15,15 6,62 12,25 8,65 18,34 19 4 B 0,3 4,0 36 57 21
4,64 10,22 4,22 17,54 6,93 10,44 8,65 19,58 20 4 C 0,4 5,6 30 58 13
8,25 6,63 4,16 15,18 7,66 13,54 8,74 19,61 21 5 A1 5,9 3,9 12 36 56
16,55 10,74 4,14 17,09 7,18 13,13 9,58 20,27 Данные в 22 5 A2 2,4 3,9 10 36 62
9,03 10,61 4,20 13,90 7,51 12,26 8,57 18,50 заданиях 5-6 23 5 A2B 0,2 3,8 26 45 29
6,34 7,36 4,05 17,34 7,45 10,79 8,79 19,64 представляют 24 5 B 0,1 4,8 31 54 12
7,93 9,87 4,15 14,84 6,64 12,00 8,47 18,90 собой 25 5 C 0,1 4,8 31 63 0
12,03 5,04 4,00 12,48 6,63 17,78 8,70 19,20 результаты 26 6 A1 9,5 4,0 26 34 15
11,93 4,22 3,92 16,04 7,35 10,48 8,02 18,78 исследований на 27 6 A2 1,5 4,1 8 27 53
5,72 4,94 3,86 17,75 7,06 10,74 8,81 19,46 дерново- 28 6 A2B 0,6 3,5 34 42 39
7,47 6,64 3,81 14,24 7,35 11,77 9,00 17,88 подзолистых 29 6 B 0,1 3,1 38 56 23
среднее 4,29 9,61 6,62 13,35 8,31 16,57 почвах 30 6 C 0,1 4,5 33 57 5
8,99 8,79 среднее Московской
4,03 15,47 7,01 12,12 8,76 18,93 области.
Отчет 1. Описательная статистика. Гистограммы.
Студент Неизвестный Н.Н. Кафедра географии почв. Вариант 120.
Дата проверки: Подпись преподавателя:
Таблица 1. Статистические характеристики для распределения гумуса на
водоразделе (H1) и в нижней части склона (H2) Гистограмма Н1
H1 H2 H is togram: H 1
K-S d=,08650, p> .20; Lilliefors p> .20
Ex
H pec ted N ormal
is togram: H1
Объем выборки Valid N 30 30 16
K-S d=,08650, p> .20; Lilliefors p> .20
Ex pec ted N ormal
14 16
No. of obs .
6
Медиана Median 5,06 3,99 4
8
No. of obs .
6
Минимум Minimum 4,09 3,71 2
4
6 8
Ошибка среднего Standard Error 0,08 0,03 5 7
No. of obs .
Ошибка асимметрии Std.Err. Skewness 0,43 0,43
3 5
2
4
No. of obs .
1
3
0
3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3
2,0 2,0
1,5 1,5
1,0 1,0
0,5 0,5
0,0 0,0
- 0,5 - 0,5
- 1,0
Exp ecte d No rmal Valu e
- 1,0
Exp ecte d No rma l Val ue
- 1,5
- 1,5
- 2,0
- 2,0
- 2,5
3, 6 3,7 3,8 3 ,9 4 ,0 4, 1 4,2 4,3 - 2,5
4,0 4,2 4,4 4 ,6 4,8 5,0 5,2 5 ,4 5, 6 5,8 6,0 6 ,2
Valu e V alue
переменная H2 переменная H1
Диаграммы размаха (коробочки с усиками)
Box & W hiske r Plo t Bo x & W his ker P lot
6,2 6,2
6,0 6,0
5,8 5,8
5,6 5,6
5,4
5,4
5,2
5,2
5,0
5,0
4,8
4,8
4,6
4,6
4,4
4,4
4,2
4,2
4,0
4,0
3,8
3,6 3,8
Me an Media n
±S D 25%- 75%
3,4 ±1 ,96* SD 3,6 Min-Max
H1 H2 H1 H2
70
Отчет 2. Проверка гипотез о типе распределения и о равенстве средних
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
8 8
7 7
6 6
No. of observations
No. of observations
5 5
4 4
3 3
2 2
1 1
0 0
3,90 4,16 4,42 4,68 4,94 5,20 5,46 5,72 5,98 6,24 6,50 3,6562 3,7375 3,8187 3,9000 3,9812 4,0625 4,1437 4,2250 4,3062
3. Проверка на логнормальность
Variable: H1, Distribution: Log-normal Variable: H2, Distribution: Log-normal
Chi-Square test = 0,23387, df = 1 (adjusted) , p = 0,62867 Chi-Square test = 5,44993, df = 1 (adjusted) , p = 0,01957
10 9
9 8
8 7
7
6
No. of observations
No. of observations
6
5
5
4
4
3
3
2
2
1
1
0
0
3,6562 3,7375 3,8187 3,9000 3,9812 4,0625 4,1437 4,2250 4,3062
3,7813 4,1250 4,4688 4,8125 5,1563 5,5000 5,8438 6,1875 6,5313
Category (upper limits)
Category (upper limits)
71
Отчет 2. (продолжение) Проверка гипотез о типе распределения и о равенстве средних
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Участок 1 Участок 2
4. Проверка на возможность аппроксимации равномерным распределением
Va riable: H1, Distribution: Rectangu lar Var iable: H2, Distr ibution: Rectangular
Chi- Squar e test = 10,15408, df = 1 ( adjus ted) , p = 0,00 144 Chi- Square test = 1,12596, df = 1 (adjusted) , p = 0,28864
9 10
8 9
8
7
7
6
6
5
5
4
4
3
N o. of obs erv ations
No. of observations
3
2
2
1
1
0 0
3, 90 4,1 6 4,42 4,68 4,94 5 ,20 5, 46 5,72 5,98 6,24 6,50 3,8125 3,8750 3,9375 4,0000 4,0625 4,1250 4,1875 4,2500 4,3125
Catego ry ( up per limits) Category ( upper limits)
p =0,00 < 0,05 => Ho отвергается p =0,28 > 0,05 => принимается Ho
5. Проверка на возможность аппроксимации гамма распределением
Var iab le: H1 , Distribution: Gamma Variable: H2, Distribution: Gamma
Chi- Squar e test = 0,34286, d f = 1 (adjust ed) , p = 0,558 18 Chi- Square test = 1,51017, df = 1 ( adjusted) , p = 0,21911
9 8
8 7
7
6
6
5
5
4
4
3
No. of observations
N o. of obs erv ations
2
2
1
1
0 0
3, 90 4,1 6 4,42 4,68 4,94 5 ,20 5, 46 5,72 5,98 6,24 6,50 3,80 3,85 3,90 3,95 4,00 4,05 4,10 4,15 4,20 4,25 4,30
p =0,56 > 0,05 => принимается Ho p =0,22 > 0,05 => принимается Ho
72
Отчет 3. Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Herb icids ; Unw eight ed Me ans Доза Средний Ошибка 95% Доверительный
Cu rrent effec t: F(3, 16)= 3,145 5, p= ,0542 0
Effec tive h ypoth esis decom pos ition
Ve rtical bars deno te 0,9 5 co nfiden ce in terva ls
гербицида урожай среднего интервал для
2 40 кукурузы среднего
2 30 Herbicids Maize yeilds Maize yeilds Maize yeilds Maize yeilds
2 20 0 181,5 7,5 165,6 197,4
2 10
10 186,8 7,5 170,9 202,7
20 211,9 7,5 196,0 227,8
2 00
30 190,6 7,5 174,7 206,5
1 90
Ma ize ye ilds
1 80
1 70
1 60
1 50
0 10 20 30
H erbic ids
Fertil izer; U nwe ighted Mea ns Доза Средний Ошибка 95% Доверительный
Cur rent e ffect : F(3, 16)=2 4,475 , p=, 00000
E ffect ive hypothe sis d ecom posi tion
Ve rtical bars denot e 0,9 5 con fiden ce in terval s
удобрения урожай среднего интервал для
28 0 кукурузы среднего
26 0 Fertilizer Maize yeilds Maize yeilds Maize yeilds Maize yeilds
24 0 0 147,7 7,5 131,8 163,6
22 0
1 182,6 7,5 166,7 198,5
20 0
2 204,6 7,5 188,7 220,5
3 235,9 7,5 220,0 251,8
18 0
Maiz e ye ilds
16 0
14 0
12 0
10 0
0 1 2 3
Fert ilizer
73
Отчет 3 (продолжение). Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Сравнение средних по градациям Fertilizer Но: среднее по градации 0 и среднее по градации
LSD test -НЗР фактора удобрение 1 равны
{1} {2} {3} {4}
0 1 2 3
147,7 182,6 204,6 235,9
1 0 0,004592 0,000063 0,000000 Выводы: отличаются средние 1 и 2,
2 1 0,004592 0,054756 0,000126 1 и 3, 1 и 4, 2 и 4, 3 и 4
3 2 0,000063 0,054756 0,009488
4 3 0,000000 0,000126 0,009488
260
240
220
200
180
Maize yeilds
160
Fertiliz er
140
0
120 Fertiliz er
1
100 Fertiliz er
2
80
0 10 20 30 Fertiliz er
3
Her bicids
74
Отчет 4. Регрессионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Результаты дисперсионного анализа. Регрессия как фактор.
Источник варьиро- Сумма числ.ст. средний F-критерий уровень Но: предсказание Y по регрес-
вания квадр. свободы. квадрат значим.
сионной модели не лучше
Sums of df Mean F p-level
Squares Squares предсказания Y по его среднему
Регрессия Regress. 42,541 5 8,50816 145,76 0,000
Остатки Residual 0,817 14 0,05837
Сумма Total 43,358
Вывод: Но - отвергается, модель можно считать адекватной и использовать для предсказания Y
P 2O5
K2 O
Yield
75
Отчет 4 (продолжение). Регрессионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Гистограмма для остатков Остатки на нормальном вероятностном графике
Distr ibu tion of Raw r esiduals Nor mal Pr obability Plot of Re siduals
Ex pecte d Nor ma l 2,0
7
1,5
6
1,0
5
0,5
4 0,0
- 0,5
3
No of obs
- 1,5
1
- 2,0
- 0,3 - 0,2 - 0,1 0,0 0,1 0, 2 0,3 0,4
0 Re siduals
-0 ,4 - 0,3 -0 ,2 - 0,1 0,0 0, 1 0,2 0 ,3 0,4
График зависимости наблюдаемых значений урожая График зависимости остатков (ось у) от предсказанных
(ось y) от предсказанных значений (ось x) значений (ось x)
Pr edic ted v s. O bser ve d V alue s Pr edic ted vs. Residual Sc or es
Depen dent var iab le: Yield Depend ent var iab le: Y ield
19 0,4
18
0,3
17
0,2
16
0,1
15
0,0
R esidu als
14
O bserved Valu es
- 0,1
13
- 0,2
12
11 - 0,3
11 12 13 14 15 16 17 18 19 11 12 13 14 15 16 17 18 19
Pr ed icte d V alue s 95 % conf idenc e Pred icted V alues 95% c onf idence
Итоги по шагам
Шаг +в /- Множест. Множест. R-квадр. F- p-уров. Перем.
ис R R-квадр. измен. вкл/искл включ.
P2O5 1 0,8450 0,7140 0,7140 44,9294 0,0000 1
K2O 2 0,9836 0,9675 0,2536 132,7081 0,0000 2
Humus 3 0,9904 0,9808 0,0133 11,0999 0,0042 3
76
Отчет 5. Кластерный анализ Дата проверки: Подпись преподавателя:
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
1. Иерархическая классификация
Tree Diagram for 30 Cas es
Single Link age
Euclidean dist ances
10
4
L in k a g e D is ta n c e
0
C C C C C A2B B B A2B A1 A2 A2 A2 A1 A1
B C B B C A2B A2B A2B A1 A1 A2 A2 A2B A2 A1
200
150
100
Lin ka ge D is tan ce
50
0
C C B B C A2B A2B B A2B A2 A2 A2B A2 A1 A1
C C C B B B A2B A2B A2 A2 A2 A1 A1 A1 A1
Tree Diagram for 5 Variables Tree Diagram for 5 Variables
Single Linkage Ward`s method
Euclidean distances Euclidean distances
120 350
100 300
250
80
200
60
150
40
L in ka ge D ista nce
100
20 50
0 0
G IL PHS V C G IL PHS V C
77
Отчет 5 (продолжение). Кластерный анализ Дата проверки: Подпись преподавателя:
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Метод K-средних 3 кластера
Analysis of Variance (pc_kla.sta)- Дисперсионный анализ
Признаки Between Within signif.
SS df SS df F p
Сумма кв. Число ст. Сумма кв. Число ст.
между свободы между свободы
классами классами Уровень
значимости
C 41,253422 2 89,541245 27 6,219717 0,0060027
PHS 0,4869745 2 1,8676891 27 3,519941 0,0438099
IL 2881,6445 2 291,72192 27 133,3537 1,015E-14 Members of Cluster 3
G 2422,0554 2 256,64453 27 127,4048 1,774E-14 N=13
V 0,5615084 2 0,5753129 27 13,17607 0,0001016 A1 раз.1 C_1
A2 раз.1 C_2
Объекты 1-го кластера Members of Cluster 2 A1 раз.2 C_6
N=8 N=9 A2 раз.2 C_7
B раз.1 C_4 A2B раз.1 C_3 A1 раз.3 C_11
C раз.1 C_5 A2B раз.2 C_8 A2 раз.3 C_12
B раз.4 C_19 B раз.2 C_9 A2B раз.3C_13
C раз.4 C_20 C раз.2 C_10 A1 раз.4 C_16
B раз.5 C_24 B раз.3 C_14 A2 раз.4 C_17
C раз.5 C_25 C раз.3 C_15 A1 раз.5 C_21
B раз.6 C_29 A2B раз.4 C_18 A2 раз.5 C_22
C раз.6 C_30 A2B раз.5 C_23 A1 раз.6 C_26
A2B раз.6 C_28 A2 раз.6 C_27
Plot of Means for E ach Cluster Plot of Means for Each C lust er
70 70
60 60
50 50
40 40
30 30
Cluster
20 20 No. 1
Cluster
No. 2
10 10
Cluster Cluster
No. 1 No. 3
0 Cluster 0 Cluster
No. 2 No. 4
Cluster Cluster
-10 -10
C PHS IL G V No. 3 No. 5
C P HS IL G V
Variables Variables
5 кластеров
Analysis of Variance (pc_kla.sta)
Between Within signif.
SS df SS df F p
C 122,03867 4 8,7559967 25 87,11078 2,655E-14
PHS 0,5546677 4 1,7999959 25 1,925934 0,1373336
IL 2947,4778 4 225,88867 25 81,55228 5,694E-14
G 2455,95 4 222,75 25 68,90993 3,928E-13
V 0,5645458 4 0,5722755 25 6,165581 0,0013542
78
Отчет 6. Метод главных компонент Дата проверки: Подпись преподавателя:
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Кумулятивые
Собствен. % общей Собствен. % общей
значения дисперсии значения дисперсии
Eigenvalue % Total Cumulati- Cumulative
ve eigenv. %
1 2,804818 56,09637 2,804818 56,0964
2 0,930753 18,61505 3,735571 74,7114
3 0,728369 14,56737 4,463940 89,2788
4 0,420163 8,40325 4,884102 97,6820
5 0,115898 2,31795 5,000000 100,0000 Проекция переменных на 1-у и 2-ю ГК
Projection of the variables on the factor-plane ( 1 x 2)
Факторные координаты переменных
на основе корреляций 1,0 pH
Factor 1 Factor 2
ГК1 ГК2
Humus 0,621709 -0,144134
pH -0,377633 0,904197 0,5
iL -0,927706 -0,245346
Glina -0,870322 -0,162209
V 0,810919 0,076803 V
0,0
Координаты наблюдений Glina Humus
при проекции на ГК iL
ГК1 ГК2 Горизонт
Factor 2 : 18,62%
21 2,87122 -0,98677 A1
2,0
22 1,79848 1,32774 A2
23 -0,66253 -0,32805 A2B
1,5
24 -1,40778 -1,28481 B
25 -2,18431 0,17789 C
Eigenvalue
1,0 18,62%
26 2,22900 -0,41996 A1 14,57%
79
Отчет 6 (продолжение). МГК и Дискриминантный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Проекция наблюдений на ГК1 И ГК2
C
2 A2B
B A2B A2 A2
1 C A2
C A2B A1
A2
0 C A1A2
A2BA2B A1
A1 A2
A1
C C A2B
B B
A1
-1 B
B
Factor 2: 18,62%
B
-2
-3
-4
-5 -4 -3 -2 -1 0 1 2 3 4 5
Factor 1: 56,10%
80
Отчет 6 (продолжение). Дискриминантный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Классификационная функция
Classification Functions; grouping: VAR2 (pc_kla.sta)
B A1 A2 A2B C
p=,20000 p=,20000 p=,20000 p=,20000 p=,20000
C 0,7 4,0 1,9 1,1 0,6
PHS 89,8 85,3 87,2 91,4 95,0
IL 1,4 -0,6 -1,0 0,4 1,8
G 2,1 2,3 2,3 2,1 2,1
V 41,7 72,5 76,9 55,7 35,2
Consta -265,3 -232,1 -232,1 -254,0 -301,8
Классификационная матрица
Classification Matrix (pc_kla.sta)
Rows: Observed classifications - строки : Наблюдаемая классификация
Columns: Predicted classifications - предсказания
Percent B A1 A2 A2B C
Correct p=,20000 p=,20000 p=,20000 p=,20000 p=,20000
Процент правильной классификации
B 66,7 4 0 0 1 1
A1 66,7 0 4 2 0 0
A2 100,0 0 0 6 0 0
A2B 100,0 0 0 0 6 0
C 83,3 1 0 0 0 5
Total 83,3 5 4 8 7 6
Апостеририорные вероятности
Posterior Probabilities (data_zan_5_6) Incorrect classifications are marked with *
Observed A1 A2 A2B B C
1 A1 0,999084 0,000666 0,000247 0,000003 0,000000
2 A2 0,006776 0,930802 0,062290 0,000106 0,000025
3 A2B 0,000001 0,001540 0,583571 0,313252 0,101636
4 B 0,000000 0,000001 0,025817 0,721818 0,252364
5 C 0,000000 0,000000 0,006276 0,335943 0,657782
6 A1 0,646745 0,353186 0,000069 0,000000 0,000000
7 A2 0,000120 0,991941 0,007922 0,000015 0,000001
8 A2B 0,000203 0,381981 0,617606 0,000115 0,000096
* 9 B 0,000002 0,002368 0,484000 0,453401 0,060229
* 10 C 0,000000 0,000240 0,568432 0,335546 0,095782
* 11 A1 0,310134 0,294119 0,395648 0,000095 0,000004
12 A2 0,000487 0,949403 0,050101 0,000007 0,000001
13 A2B 0,000002 0,005073 0,971755 0,007574 0,015596
* 14 B 0,000000 0,000000 0,008140 0,062747 0,929113
15 C 0,000000 0,000000 0,000348 0,402088 0,597565
16 A1 0,774727 0,196370 0,028784 0,000116 0,000003
17 A2 0,000224 0,989558 0,010217 0,000001 0,000000
18 A2B 0,000070 0,004454 0,976331 0,017791 0,001354
19 B 0,000000 0,000001 0,006878 0,887244 0,105877
20 C 0,000000 0,000107 0,097017 0,041255 0,861621
21 A1 0,999998 0,000002 0,000000 0,000000 0,000000
22 A2 0,002868 0,995681 0,001452 0,000000 0,000000
* 23 A2B 0,000005 0,001086 0,438781 0,470973 0,089154
24 B 0,000000 0,000000 0,005690 0,821646 0,172664
25 C 0,000000 0,000000 0,000971 0,216701 0,782328
26 A1 1,000000 0,000000 0,000000 0,000000 0,000000
27 A2 0,063304 0,931947 0,004747 0,000001 0,000000
28 A2B 0,000242 0,019863 0,883921 0,079929 0,016046
29 B 0,000000 0,000000 0,004779 0,924543 0,070678
30 C 0,000000 0,000000 0,000444 0,076238 0,923319
81
Вопросы к теоретическому курсу
1. Понятие об испытании в многомерном статистическом анализе.
2. Многомерные случайные величины. Представление данных в формаль-
ном виде.
3. Этапы анализа исследуемой реальной системы.
4. План сбора исходной информации в почвоведении.
5. Первичная обработка данных.
6. Случайный вектор. Понятие ковариации.
7. Классификация типов данных и выбор способа анализа зависимостей.
8. Исследование зависимостей в случае многомерных данных.
9. Обобщение одномерных дисперсионных моделей на многомерный слу-
чай.
10. Разложение дисперсий при многомерном дисперсионном анализе.
11. Обобщение одномерных регрессионных моделей на многомерный слу-
чай.
12. Пошаговая регрессия
13. Статистическая значимость параметров регрессии и ее оценка.
14. Множественный и частный коэффициент корреляции.
15. Сходство и различие почвенных объектов.
16. Понятие расстояния между объектами. Виды расстояний.
17. Кластерный анализ. Иерархические схемы классификации.
18. Понятие о дискриминантном анализе.
19. Метод главных компонент.
20. Визуализация многомерных наблюдений.
82
ОГЛАВЛЕНИЕ:
Занятие 1. Ввод данных. Описательная статистика (анализ единичной
выборки). Анализ распределений. Гистограммы 3
Вопросы к занятию 1 13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних 14
Вопросы к занятию 2 20
Занятие 3. Двухфакторный дисперсионный анализ 21
Вопросы к занятию 3 30
Занятие 4. Регрессионный анализ 31
Вопросы к занятию 4 43
Занятие 5. Кластерный анализ 44
Вопросы к занятию 5 53
Занятие 6 . Метод главных компонент и дискриминантный анализ 54
Вопросы к занятию 6 67
Пример оформления отчета 68
Вопросы к теоретическому курсу 82
83
Юлия Львовна Мешалкина, Вера Петровна Самсонова
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В ПОЧВОВЕДЕНИИ
Практикум
84