Вы находитесь на странице: 1из 84

УДК 378(075):

ББК 40.3я73
М55

Рекомендовано Учебно-Методическим Советом по почвоведению


при УМО классических университетов Российской Федерации
в качестве учебного пособия для студентов высших учебных заведений,
обучающихся по направлению 020700 – «почвоведение»

Рецензенты:
Е.В. Шеин – доктор биологических наук
Ю.Н. Благовещенский – доктор физико-математических наук

Ю.Л. Мешалкина, В.П. Самсонова.

М55 Математическая статистика в почвоведении: Практикум.- М.: МАКС


Пресс, 2008. – 84с.
ISBN 978-5-317-02231-0

В пособии представлены задачи, выполняемые студентами ф-та почвоведе-


ния МГУ им. М.В.Ломоносова в ходе компьютерных практических занятий
по курсу «Математическая статистика». Базовый статистический пакет –
STATISTICA 6. Рассматриваются описательные статистики, проверка гипотез
о типе распределения, сравнение средних, двухфакторный дисперсионный
анализ, регрессионный анализ, кластерный анализ, метод главных компонент,
дискриминантный анализ. Включены определения статистических терминов и
пояснения выполняемых процедур. Приведены ход решения задач и примеры
оформления отчетов, ответы на вопросы семинарских занятий.
Для студентов, аспирантов и научных работников, занимающихся вопросами
почвоведения, агрохимии и экологии.
УДК 378(075):
ББК 40.3я73

ISBN 978-5-317-02231-0 © Мешалкина ЮЛ., Самсонова В.П., 2008

2
Занятие 1. Ввод данных. Описательная статистика (анализ единичной
выборки). Анализ распределений. Гистограммы
ЦЕЛЬ занятия - рассчитать статистические характеристики и исследо-
вать распределения для одного из почвенных свойств (в зависимости от ва-
рианта - мощности пахотного горизонта, его влажности, гидрологической ки-
слотности, содержания гумуса, глубины нижней границы горизонта Е), по-
лученных на двух участках дерново-подзолистой (серой лесной, черноземной
или др.) почвы, расположенных на разных элементах рельефа.
НАЧАЛО. Получите у преподавателя свой вариант данных, вниматель-
но ознакомьтесь с ним. Войдите в систему, под именем кафедры. Имя группы
и пароль спросите у преподавателя. Запомните их или запишите. Создайте
свой каталог на диске Y в каталоге своей кафедры (biol4, geogr4 и т.д.). Назо-
вите каталог своей фамилией латинскими буквами. В своем каталоге с помо-
щью программы EXCEL создайте файл для записи результатов анализа. На-
зовите его RES1.…..(вместо точек поставьте начальные буквы фамилии, не
более 4). Для записи результатов последующих занятий необходимо будет
создать аналогичные по названию файлы, отличающиеся только номером за-
нятия.
ЗАПУСК ПРОГРАММЫ СТАТИСТИКА. Современный статистический
пакет STATISTICA позволяет всесторонне анализировать статистические дан-
ные. Его интерфейс соответствует среде Windows. Программа запускается

щелчком по значку на рабочем столе или из меню ПУСК –


ПРОГРАММЫ – STATISTICA. После запуска программы STATISTICA появ-
ляется пустая таблица или появятся последние данные, с которыми работала
программа. Для открытия нового файла выберите в меню File, затем пункт
New. В появившемся окошке нажмите OK.
ВВОД ДАННЫХ. По умолчанию строится пустая таблица с десятью пе-

Переменные
Номера наблюдений

3
ременными и десятью наблюдениями. После активизации переменной (или
ячейки) можно добавлять, удалять (и т.п.) переменные, щелкнув по кнопке
Переменные (Variables, сокращенно VARS).

После щелчка открывается меню, выбрав в котором, например, Удалить


(DELETE) и щелкнув по соответствующей кнопке, получим следующее ме-
ню, в котором надо указать, с какой и по какую переменную нужно удалить.
Аналогичным образом осуществляется и добавление переменных.

4
Результат удаления переменных:

Потренируйтесь добавлять и удалять переменные. Изменение числа На-


блюдений (Case) производится аналогичным образом:

Добавьте необходимое количество наблюдений.


Результат добавления наблюдений

5
РАБОТА С ПЕРЕМЕННЫМИ. Назвать переменную, изменить ее тип,
ввести текстовые метки или формулы можно, дважды щелкнув левой кнопкой
по имени переменной (например, по VAR1). В результате появляется новое
окно. Щелкнув два раза левой кнопкой в окошке Имя (Var), можно вести но-
вое имя, например, Pole1_Ivanov. Назовите переменные. Во избежание всяких
недоразумений имена переменных лучше задавать латинскими буквами. Поя-
вившееся окно дает возможность изменить тип переменной, число десятичных
знаков, ввести коды пропущенных значений и т.п. Убедитесь, что для ваших
переменных указан Тип Двойной (Double).

После того, как введены имена переменных и определены их свойства,


можно заполнять таблицу данными. Сохранить ее можно стандартным спосо-
бом, щелкнув Файл – Сохранить и указав папку и имя своего нового файла
латинскими буквами. Имя файла должно быть не более 8 знаков, должно лег-
ко запоминаться и ассоциироваться с данными. Лучше всего выберите свои
инициалы или сокращение от фамилии. Запомните или запишите это имя!
Файлы данных STATISTICA имеют расширение .sta. Сохраните свои данные
на диске в СВОЕЙ ДИРЕКТОРИИ (будьте внимательны!). Выйдите из про-
граммы STATISTICA. Вновь запустите программу.

6
ПРЕДУПРЕЖДЕНИЕ!!!
После запуска программы STATISTICA появятся последние
данные, с которыми работала программа.
Для открытия собственного файла выберите в меню Файл (File), затем пункт
Открыть (Open Data). Далее стандартным образом указывается, откуда будут
взяты данные.
ПЕРВИЧНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ. Для выполнения раз-
личных видов статистического анализа нужно щелкнуть по кнопке Анализ
(Analyses).

7
Щелчок по кнопке Переменные (Variables) открывает список перемен-
ных, для которых мы хотим провести анализ. Выделение необходимых пере-
менных производится обычным для Windows способом. Кроме того, можно
просто ввести номера переменных в окошке, причем, если они идут подряд, то
просто вводят номер начальной и конечной переменной через дефис. В про-
тивном случае номера вводятся через запятую или щелчками по имени пере-
менной при нажатой кнопке Ctrl.
Для задания необходимых статистик нужно щелкнуть по кнопке До-
полнительно (Advanced) и поставить галочки в окошках требуемых показа-
телей. Затем нажать ОК.

Отметьте следующие статистики: объем выборки (Valid N), среднее


(Mean), доверительный интервал для среднего (Conf. limits for means), медиана
(Median), минимум (Minimum), максимум (Maximum), нижний квартиль
(Lower Quartile), верхний квартиль (Upper Quartile), дисперсия (Variance),
стандартное отклонение (Std.Dev.), ошибка среднего (Standard Error), асим-
метрия (Skewness), ошибка асимметрии (Std.Err. Skewness), эксцесс (Kurtosis),
ошибка эксцесса (Std.Err. Kurtosis).
Для нормального распределения характерно совпадение характеристик
центра распределения: среднего арифметического, моды и медианы. Если ме-
диана больше среднего, то для распределения случайной величины характерна
правосторонняя асимметрия. Доверительный интервал для среднего может
быть рассчитан для любой вероятности. Чем меньше значение вероятности,
тем доверительный интервал будет уже.

8
Нажмите ОК. Результаты вычислений размещаются в рабочую книгу
(Workbook):

В нижнем левом углу экрана находится значок текущего анализа. Для про-
должения щелкните левой кнопкой по этому значку.

ДИАГРАММА РАЗМАХА. Нажав кнопку Быстрый (Quick), можно


получить доступ к Диаграмме размаха (Box&Wiskers Plot) для всех пере-
менных. Такие диаграммы называются также «Коробочки с усиками».

Закладка Опции (Options)позволяет задать тип диаграмм размаха. Вы-


берите 2 опции: 1) Медиана/Квартиль/Размах (Median-Quart-Range) и 2)
Среднее/Стандартное отклонение/95% доверительные интервалы для значе-
ний случайной величины, исходя из предположения о ее нормальности
(Mean/SD/1.96*SD).

9
Так выглядит диаграмма размаха. На диаграмме размаха в виде точки
показан центр распределения (медиана или среднее) и характеристики варьи-
рования (квартили, стандартные ошибки или стандартные отклонения). Также
могут быть изображены крайние точки (минимум и максимум) или выбросы
(исходя из идеи нормального распределения). В правом нижнем углу дана ле-
генда, где показано, что обозначено символами на графике.

Содержимое
рабочей
книги

ГИСТОГРАММЫ. Аналогичным образом постройте Гистограммы


(Histograms).

10
Гистограмма - это графическое представление распределения сгруппи-
рованной переменной, на котором для каждого класса рисуется столбец. Его
высота пропорциональна наблюдаемой частоте для данного класса. Линией
показано ожидаемое нормальное распределение, имеющее то же среднее и
дисперсию, что и изучаемая переменная.

НОРМАЛЬНЫЙ ВЕРОЯТНОСТНЫЙ ГРАФИК. Для качественной про-


верки нормальности распределения можно нажать кнопку Диаграммы (Prob.
&Scatter plots) и затем Нормальные вероятностные графики (Normal
Probability plot):

11
Ниже приведен результат работы модуля Нормальные вероятностные
графики (Normal Probability plot):

Нормальный вероятностный график называют еще Графиком на нор-


мальной вероятностной бумаге. Он может быть использован для визуальной
оценки близости распределения к нормальному. Нормальный вероятностный
график строится следующим образом. Сначала все значения переменной упо-
рядочиваются. Каждому значению присваивается ранг. Берется стандартизо-
ванное нормальное распределение. По этому распределению для рангов рас-
считываются значения z, которые затем откладываются по оси Y графика. Ес-
ли наблюдаемые значения (откладываемые по оси X) распределены нормаль-
но, то все значения на графике должны попасть на прямую линию. Если зна-
чения не являются нормально распределенными, они будут отклоняться от
линии. На этом графике можно легко обнаружить выбросы. В программе Sta-
tistica реализованы еще два типа графиков. Полунормальные вероятностные
графики используют в анализе только положительную часть нормальной кри-
вой, а нормальные вероятностные графики с исключенным трендом удаляют
из данных линейный тренд.
На графике, на предыдущей странице, точки на концах и в центре рас-
пределения не лежат на прямой и, следовательно, распределение отличается
от нормального распределения.
СОЗДАНИЕ ОТЧЕТА. Скопируйте необходимые результаты из рабочей
книги (Workbook) в предварительно открытый файл Excel, где будут хра-
ниться результаты первого занятия. Копирование графиков производится
стандартным способом: правая кнопка мыши – Копировать график (Copy
12
graf). Переходите в окно программы Excel, правая кнопка Вставить (в файле
Excel). Еще лучше вставить график через Специальную вставку и выбрать
Метафайл или Рисунок, тогда связи между программой Excel и Statistica со-
хранены не будут и график будет занимать существенно меньше места. Поль-
зуйтесь последним способом для вставки рисунов в отчет.
Таблицы предпочтительнее копировать через меню Правка (выделить
таблицу (Select all) – Правка (Edit)- Копировать с заголовками (Copy With
Headers) – Вставить (в файле Excel). Для того, чтобы удобно разместить
таблицу статистик, ее нужно еще раз скопировать уже в программе Excel и
вставить через Специальную вставку, поставив галочку в окошке транспо-
нирование. Отчет отредактировать в соответствии с формой отчета. Показать
отчет преподавателю и с его разрешения распечатать. Подписать отчет у пре-
подавателя.

Вопросы к занятию 1
1. Что характеризуют данные? В чем отличие первой переменной от второй
переменной?
2. Насколько близки различные характеристики центра распределений для
показателей? О чем может свидетельствовать их совпадение? О чем может
свидетельствовать их значительное расхождение?
3. Сравните представление Median-Quart-Range (Медиана- Квартили- Раз-
мах) и Mean/SE/1,96*SE (Среднее- Стандартное отклонение – 1,96 * на
стандартное отклонение.). Какую информацию можно получить, используя
каждое из этих представлений?
4. Какие отличия для исследуемых переменных выявили диаграммы размаха
(Box&Wiskers Plot)?
5. В каких случаях можно использовать "Нормальные вероятностные графи-
ки" (Normal probability plot)? Какие из показателей имеют распределения,
близкие к нормальному?
6. Что характеризует гистограмма? Что на рисунке гистограммы обозначено
тонкой непрерывной линией?
7. Отличаются ли гистограммы для каждого из свойств?
8. Используя данные из таблицы статистических характеристик, покажите,
как рассчитывается доверительный интервал для среднего.

13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних

ЦЕЛЬ занятия – проверить, можно ли каждую из изучаемых перемен-


ных аппроксимировать нормальным, логнормальным, равномерным и гамма
распределениями. Провести сравнение средних двух участков.
ПРОВЕРКА ТИПА РАСПРЕДЕЛЕНИЯ. Войдите в пакет STATISTICA,
загрузите свои данные (см. занятие №1). Щелкните по кнопке Анализ
(Statistics) и выберите Подгонка распределений (Distribution Fitting).

Открывается новое окно, в котором можно выбрать разные Непрерыв-


ные распределения (Continuous Distributions) и Дискретные (Discrete Dis-
tributions) распределения. Выберите непрерывные распределения (Continu-
ous Distributions).

14
Щелкнув по кнопке ОК, переходим к новому окну, где нужно выбрать
переменную. Пока она не выбрана, параметры (заставка Параметры (Parame-
ters)) распределения обнулены.

Выбрав переменную и снова щелкнув по кнопке ОК, увидим, что в


окошках появились параметры распределения переменной. Они указаны по
умолчанию и их можно при желании изменить.

15
Перейдите на вкладку Быстрый (Quick). Здесь можно построить табли-
цу подгонки распределения с помощью клавиши Наблюдаемые и ожидае-
мые частоты (Summary: Observed and Expected distribution).

Появится результирующая таблица подгонки распределения:

Обратите внимание, что для критерия хи-квадрат и уровня значимости


указаны прочерки. В этом случае, измените, например, уменьшите, число
классов (заставка Parameters) так, чтобы прочерки заменились цифрами.
ПРЕДУПРЕЖДЕНИЕ!!! В программе STATISTICA буквой p обознача-
ется статистическая значимость (т.е. уровень значимости для проверки нуле-
вой гипотезы).
Как правило, если р≥0,05 => Но - принимается,
если р<0,05 => Но - отвергается
однако величину 0,05 можно заменять исходя из целей исследования
Более низкий p-уровень соответствует более высокому уровню доверия
к нулевой гипотезе. Если в качестве критического значения вместо 0,05 взять
значение 0,01, то надежность результатов возрастает, то есть статистическая

16
значимость (p-уровень) находится в убывающей зависимости от надежности
результата.
Щелкнув по вкладке Опции (Options), можно добавить проверку по
критерию Колмогорова – Смирнова (К.-С.): для сгруппированных данных
(Categorized) и для данных без группировки (Continuous). Если для критерия
хи-квадрат указать условие – составные интервалы (Combine Categories), тогда
будут объединены классы, у которых ожидаемые частоты менее 5. Можно
также выбрать вид графика: Гистограмма, т.е. распределение частот по клас-
сам (Frequency distribution) или кумулятивное распределение (Cumulative dis-
tribution). Также можно указать единицы оси ординат: абсолютные/ исходные
частоты (Raw frequencies) или относительные частоты (Relative frequencies).

Поставьте опции как на рисунке выше: критерий Колмогорова-


Смирнова – нет, составные интервалы – отмечено, график распределения –
гистограмма и график частот – исходные частоты.

17
Если критерий хи-квадрат не будет значимым при любом числе классов,
то есть в шапке графика (гистограммы) будут стоять прочерки, – снимите
значок с опции Составные интервалы (Combine Categories). Щелкнув по
вкладке Быстрый (Quick), можно построить графики распределений. На-
помним, что все результаты записываются в рабочую книгу (Workbook).
Постройте одну таблицу подгонки нормального распределения для
любой переменной. Для двух переменных постройте гистограммы, на кото-
рых указана проверка по критерию хи-квадрат, для Нормального (Normal),
Логнормального (Lognormal), Равномерного (Rectangular) и Гамма
(Gamma) распределений. Оформите страницу отчета.
СРАВНЕНИЕ СРЕДНИХ. Щелкните по кнопке Анализ (Statistics) и
выберите окно Основные статистики и таблицы (Basic Statistics / Tables).

В меню второго уровня выберите пункт t-тест для независимых пере-


менных (t-test for independent variables).

Теоретически, t-критерий может применяться только в том случае, если


переменные нормально распределены. Если это условия не выполнено, следу-
18
ет использовать непараметрические альтернативы t-критерия, например, кри-
терий Вилкоксона.
Укажите сравниваемые переменные. Нажмите ОК.

Перейдите на вкладку Опции (Options). Отметьте опции сравнения как


сравнение при раздельном расчете дисперсий, т.е. когда дисперсии неодно-
родны, для этого отметьте галочкой строку t-критерий с разделенными
оценками дисперсий (t-test with separate variance estimates).

Равенство дисперсий в двух группах можно проверить с помощью F-


критерия, он включен в таблицу вывода t-критерия. В качестве опций возмо-
жен расчет t-критерия как с объединением дисперсий (по умолчанию), так и
с раздельным их расчетом (t-test with separate variance estimates). Первый из
этих случаев возможен, когда дисперсии обеих выборок однородны, а второй
– когда неоднородны. Так же опции позволяют отображать длинные имена
переменных, задавать уровень значимости и использовать два критерия до-
19
полнительных критерия для сравнения дисперсий – Левена (Levene’s test) и
Брауна – Форсайта (Brawn & Forsythe test).
Щелкните по вкладке Быстрый (Quick), и проведите расчеты, нажав на
клавишу T-критерий (Summary: t-test) . В результате расчетов появится таб-
лица:

На этой таблице указано два варианта расчета числа степеней свободы и


уровней значимости для проверки гипотезы о равенстве средних – для случая
однородных (t-value, df, p) и неоднородных дисперсий (t sep.-value, df, p 2-
sided). В первом случае число степеней свободы равно сумме объемов двух
выборок минус два, во втором число степеней свободы будет тем меньше, чем
больше отличаются дисперсии. Если гипотеза о равенстве средних отвергает-
ся с заданным в опциях уровнем значимости, то цифры в таблице будут пока-
заны красным цветом,. Уровень p-значимости для t-критерия равен вероятно-
сти ошибочно отвергнуть гипотезу о равенстве средних двух выборок, когда в
действительности эта гипотеза имеет место.
Скопируйте получившиеся результаты в файл Excel по образцу оформ-
ления отчета. На практике часто приходится сравнивать более двух выборок
данных (например, например, сравнивать свойства нескольких опытных пло-
щадок). В таких случаях следует использовать дисперсионный анализ, кото-
рый можно рассматривать как обобщение сравнения с помощью t-критерия.

Вопросы к занятию 2
1. Какими распределениями можно (а какими нельзя) аппроксимировать
распределения изучаемых показателей? (по своим данным)
2. Какие из показателей имеют распределения, близкие к нормальному?
(по данным всей группы).
3. Как влияет выбор уровня значимости на результат принятия или отвер-
жения гипотезы о типе распределения?
4. Как влияет отличие распределений свойств от нормального на результа-
ты сравнения средних?
5. Можно ли считать дисперсии свойств однородными? Как влияет при-
знание дисперсий неоднородными на конечные выводы проверки гипо-
тезы о равенстве средних?
6. Принимается или отвергается гипотеза о равенстве средних для двух
участков? Как влияет уровень значимости на результаты проверки гипо-
тезы о равенстве средних?
7. Чему равно число степеней свободы для критерия сравнения средних
при равенстве дисперсий? В случае неравенства дисперсий?
20
Занятие 3. Двухфакторный дисперсионный анализ

ЦЕЛЬ занятия - оценить влияние разных доз удобрений и средств защи-


ты растений на урожайность сельскохозяйственной культуры. Выявить опти-
мальные дозы удобрений и гербицидов.
ВВОД ДАННЫХ. Войдите в пакет STATISTICA (см. занятие №1). По-
сле запуска программы STATISTICA появятся последние данные, с которыми
работала программа. Закройте эти данные. Для этого просто закройте соответ-
ствующее окно, нажав крестик в верхнем правом углу.
Создайте новый файл, для чего войдите в меню Файл (File) и выберите
раздел Создать (New)
на открывшейся панели.
Появится следующее
окно:
Укажите количество
переменных – 3, а
количество объектов –
32. Нажмите OK.
Вообще-то число рядов
и строк может быть
любым, главное, чтобы
оно было не меньше,
чем это требуется для
задачи. Сохраните
получившийся файл.
Для этого выберите в
меню Файл (File) -
Сохранить как (Save
as). В появившемся
диалоговом окне выберите свою директорию, введите имя своего нового
файла латинскими буквами.
Данные представляют собой результаты полевого эксперимента. Уро-
жай сельскохозяйственной культуры (картофеля, свеклы, кукурузы, пшеницы,
ячменя, сорго и т.п.) был собран на делянках, которые отличались дозой гер-
бицида (4 варианта) и дозой удобрения (4 варианта). Получается двухфактор-
ная модель дисперсионного анализа. Каждый из факторов имеет по 4 града-
ции. Комплекс выполнен в двукратной повторности. Таким образом, общее
число наблюдений – 32. Дайте имена переменным (например, 1-ю перемен-
ную можно назвать gerb или Herbicids или как-то еще, вторую – udobr или
Fertilizer , последнюю – urozaj или yield). При этом первая и вторая перемен-
ные должны быть закодированы. Например, для переменной Herbicids дозам

21
гербицида 0, 10, 20, 30 г/га могут соответствовать значения 1, 2, 3, 4 или 0, 10,
20, 30. Вторая переменная также может принимать значения 1, 2, 3 и 4, что
соответствует дозам удобрения 0, 30, 60, 90 кг д.в./га. В третью колонку зане-
сите данные урожайности. Введенные данные могут, например, выглядеть
так:

ХОД АНАЛИЗА. Щелкните по кнопке Анализ (Statistics) и выберите


Дисперсионный анализ (ANOVA).

В открывшемся окне выберите вид анализа Факторный Дисперсион-


ный Анализ (Factorial ANOVA) и раздел Диалог (Quick specs dialog).
Нажмите OK.
22
Во вновь открывшемся окне щелкните по кнопке Переменные (Vari-
ables), в появившемся окне выберите Зависимые переменные (Dependent
variable list). В качестве зависимой переменной укажите урожай. Также выбе-
рите Независимые предикторы (Categorical predictors- factors) – это фак-
торы, в данном случае - удобрения и гербициды. Нажмите OK.

На этой же заставке укажите используемые в анализе градации факто-


ров, для этого нажмите клавишу Коды факторов (Factor codes). Выберите
все градации Все (All) для обоих факторов. Проверьте, что градации факто-
ров указаны правильно. НЕ нажимайте ОК, а перейдите на закладку Допол-
нительно (Options).

23
В окне, соответствующем закладке Дополнительно (Options) можно
выбрать разные модели дисперсионного анализа. В разделе Параметризация
(Parameterization) поставьте галочку напротив надписи Без свободного чле-
на (No intercept). Свободный член обычно включается в более сложные мо-
дели дисперсионного анализа. Снимите галочку с Сигма-ограниченная
(Sigma-restricted) параметризация. Сигма - ограниченная модель предполага-
ет, что для кодирования градаций фактора используются целые значения,
сумма которых равна нулю. Например, наличие известкования участка можно
было бы закодировать как +1, а в случае, если известкование не проводилось –
как -1.
Нажмите OK.

24
Откроется основная первая панель, где можно выбрать результаты ана-
лиза. Обратите внимание, что внизу этой панели можно задать доверительные
пределы и уровень значимости для проверок гипотез. По умолчанию он со-
ставляет 0,05.

Щелчок по кнопке Все эффекты (All effects) открывает панель c ос-


новной таблицей дисперсионного анализа. В данной таблице для каждого
фактора и для взаимодействия приведены результаты проверки гипотезы о
равенстве средних (по градациям) фактора. Эта же гипотеза может быть
сформулирована как равенство нулю всех отклонений средних по градациям
фактора от генерального среднего. В данном примере проверяется три нуле-
вых гипотезы: для различных доз удобрения, для доз гербицида и их взаимо-
действия. В следующей таблице для фактора – гербицид и для взаимодействия
принимается нулевая гипотеза. Для фактора удобрения нулевая гипотеза от-
клоняется, а выполняется альтернативная гипотеза, то есть хотя бы один из
средних урожаев для какой-либо дозы удобрения достоверно отличается от
других средних.

Скопируйте таблицу вместе с заголовками в отчет в программе Excel.

25
Для того чтобы продолжить анализ, нужно нажать на клавишу Резуль-
таты анализа (Anova Results…), находящуюся в нижнем левом углу окна, в
котором открыта программа Statistica.

Появится панель с предыдущей страницы. В левом нижнем углу этого


диалогового окна нажмите клавишу Больше (More results), перейдя, таким
образом, к развернутому представлению результатов. На открывшейся панели
убедитесь, что выбран ярлычок Средние (Means) и стоит галочка в нижнем
левом углу, напротив Показать стандартные ошибки (Show standard
errors).

Выберите в окошке Показать средние эффекта: (Plot or show means


for effect) – для сочетания факторов – гербицид и удобрение. И постройте ри-
сунок, нажав на верхнюю кнопку с подписью рисунок График (Plot), распо-
ложенную в верхнем ряду, рядом с кнопкой Наблюдаемые, невзвешенные
(Observed, unweighted). Появится панель выбора расположения факторов.
Нажмите ОК.
Появится следующий график, на котором показаны средние значения
взаимодействия по сочетанию градаций факторов. Рамочками показаны 95%
доверительные интервалы для средних. Скопируйте график в отчет. В общем

26
случае взаимодействие между факторами описывается в виде изменения од-
ного эффекта под воздействием другого. В рассмотренном примере двухфак-
торное взаимодействие можно описать как изменение урожая, получаемого
при разной дозе удобрений, под воздействием обработок гербицидом. На
графике по оси абсцисс отложены коды, соответствующие градациям первого
фактора (дозы удобрения), по оси ординат отложен урожай. Символами зако-
дированы разные дозы гербицида. Всего имеется 16 средних урожаев, соот-
ветствующих сочетаниям взаимодействия. Они получены усреднением каж-
дой из двух повторностей, соответствующих сочетанию дозы удобрения и
гербицида.

Выберите в окошке Показать средние эффекта: (Plot or show means


for effect) по очереди каждый из факторов. Постройте аналогичные графики
для средних по градациям фактора удобрения и гербицида. Скопируйте гра-
фики в отчет.
Для того чтобы построить таблицу, соответствующую графику, нажми-
те кнопку Наблюдаемые, невзвешенные (Observed, unweighted). Постройте
таблицы, соответствующие действию гербицида и удобрения. Так как каждый
из этих факторов имеет по 4 градации, то средние по градациям каждого из
факторов получены путем усреднения 8 повторностей. В таблице приведены
средние, ошибки среднего и 95% доверительные интервалы для средних. Ско-
пируйте таблицы в отчет.

27
ПРОВЕРКА ОТЛИЧИЯ СРЕДНИХ ПО ГРАДАЦИЯМ ФАКТОРА. Пе-
рейдите на вкладку Апостериорные (Post-hoc). В окошке Эффект (Effect)
укажите фактор – доза гербицида. Проверьте, что в качестве зависимой пере-
менной указан урожай. Выберите опцию Значимые разности (Significant
differences). Здесь также можно построить таблицы, где средние сгруппиро-
ваны в однородные группы или построить для них доверительные интервалы.

Сравнение средних можно провести по 8 различным тестам. Выберите


сначала Фишера НЗР- наименьшая значимая разность (Fisher LSD- less sig-
nificance distance). В других источниках этот тест называется НСР – наимень-
шая существенная разница. С помощью НСР оценивается разность между
средними. Если разность d между любыми двумя оценками среднего превы-
шает или, по крайней мере, равна НСР, то средние значения различаются с ве-
роятностью 1-α. НСР равна произведению ошибки среднего Sx на tα*√2.
28
Использование критерия НСР приводит к некоторому завышению различий
между средними по сравнению с другими критериями.
Нажмите соответствующую кнопку.

Появится следующая таблица, скопируйте ее в отчет. Цифрами 1, 2, 3, 4


обозначены средние значения урожая в зависимости от дозы гербицида. Эти
средние приведены в шапке таблицы. В ячейке таблицы, на пересечении
столбца и строки показан уровень значимости (p) для проверки гипотезы о ра-
венстве двух средних, находящихся на пересечении столбца и строки. Нулевая
гипотеза формулируется для двух средних и утверждает, что эти средни раны
между собой. Красным показаны случаи, где нулевая гипотеза о равенстве
средних отвергается.
Аналогичным образом постройте таблицу, соответствующую тесту
Ньюмана-Кеулса (Newman-Keuls). Постройте аналогичные таблицы для
фактора – тип удобрения.
ПРОВЕРКА ДОПУЩЕНИЙ. В программе Statistica можно проверить
выполнение основных предположений, оправдывающих применение диспер-
сионного анализа. Наиболее важными из них являются два: 1) нормальность
распределений по градациям факторов и 2) однородность (или гомогенность)
дисперсий. Для проверки дисперсий на однородность перейдите к вкладке
Предположения (Assumptions).

Проверьте, что в качестве зависимой переменной указана переменная


урожая. В окошке Эффект (Effect) укажите фактор – доза гербицида. Нажми-

29
те на кнопку , где указан тест Кохрена С, Хартли, Бартлетта (Cohran C,
Hartley, Bartlett).
Появится следующая таблица. Скопируйте ее в отчет. Как видно из таб-
лицы, проверка дисперсий на однородность осуществляется одновременно по
3 тестам.

Так как уровень значимости p больше 0,05, то принимается нулевая ги-


потеза, и дисперсии подвыборок, сформированных по градациям фактора (в
данном случае – дозе гербицида) – однородны. Если дисперсии неоднородны,
то дисперсионный анализ исходных данных проводить не стоит. В таких
случаях применяются различные нелинейные преобразования исходных зна-
чений, например, извлечение квадратного корня или логарифмирование.
Аналогичным образом проведите тест для фактора – вид удобрения и
для взаимодействия факторов. Оформите отчет и подпишите его у преподава-
теля.

Вопросы к занятию 3
1. Опишите изменения средних по градациям факторов и по взаимодейст-
вию для своего случая. По таблице исходных данных приведите значе-
ния, по которым получены эти средние.
2. Сформулируйте исходную гипотезу дисперсионного анализа для каждо-
го из факторов и для взаимодействия.
3. Соблюдаются ли эти гипотезы для ваших данных по урожайности?
Влияет ли взаимодействие факторов на средние значения урожайности?
4. Какой из факторов значимо влияет на урожай с/х культур? (по данным
всей группы)
5. Что такое НСР? Какой способ сравнения средних обнаруживает боль-
ше различий между средними?
6. Какие группы средних можно признать однородными?
7. Однородность каких дисперсий проверяется? Зачем это нужно?
8. Что нужно делать в случае, если дисперсии неоднородны?
9. Какие преобразования исходных данных допустимы, если распределе-
ния положительно асимметричны и условие однородности дисперсий не
выполняется?
10. Какие выводы о влиянии различных доз гербицида и удобрений можно
сделать по результатам проведенного дисперсионного анализа?
30
Занятие 4. Регрессионный анализ
ЦЕЛЬ занятия - провести множественный линейный регрессионный
анализ данных зависимости урожайности от почвенных признаков; опреде-
лить переменные, влияющие на урожайность; оценить степень влияния каж-
дой из переменных; исследовать качество аппроксимации зависимости.
Войдите в пакет STATISTICA (см. занятие №1). В программе
STATISTICA создайте новый файл данных для своего варианта (см. занятие
№3). Введите данные как показано на картинке ниже. Признаки – это столб-
цы, строки – это наблюдения.

Каждому наблюдению (точке на поле), соответствует урожай сельско-


хозяйственной культуры, указанный в пересчете на ц/га, (здесь переменная
Yield) и почвенные свойства, измеренные в почвенном образце, в данном слу-
чае – это содержание гумуса, рН , содержание подвижного фосфора, калия и
нитратов.
Щелкнув на кнопке Анализ (Statistics) откройте меню и затем выбери-
те раздел Множественная регрессия (Multiple Regression).

31
Назначение множественной регрессии состоит в анализе связи между
несколькими независимыми переменными (называемыми также регрессорами
или предикторами) – в данном случае, почвенными свойствами и зависимой
переменной – урожаем.
Выберите закладку Дополнительно (Advanced).

Щелкните по кнопке Переменные (Variables), задайте зависимые и не-


зависимые переменные. В нашем случае зависимой переменной (Dependent)
будет урожай сельскохозяйственной культуры (Yield), независимые перемен-
ные (Independent)- почвенные свойства (например, P2O5, hum, pH, K2O, NO3).
Обратите внимание, что вообще Файл данных (Input file) может содержать
данные как в исходном виде, так и в виде корреляционной матрицы. Нажмите
ОК, запустив тем самым анализ.
В результате работы программы появляется новая панель с расчетными
характеристиками (см. стр. 33). На появившейся панели отображается множе-
ственный коэффициент корреляции (R), его квадрат (коэффициент детерми-
нации), “скорректированный” коэффициент детерминации. Коэффициент
множественной корреляции R определяет степень тесноты связи результи-
рующего признака Y со всем набором независимых признаков X1,...,Xk. В слу-
чае парной регрессии (т.е. при наличии всего одного признака X1) R совпадает
с коэффициентом корреляции Пирсона. По значению R-квадрат можно опре-
делить, насколько хорошо модель описывает данные, так как значение R рав-
32
но отношению дисперсии признака Y, объясненной регрессионной моделью,
к общей дисперсии признака Y. Значение R-квадрат близкое к 1,0 показывает,
что с помощью модели объясняется почти вся изменчивость Y.
На панели также приведены результаты дисперсионного анализа для
проверки гипотезы об адекватности модели: величина F-критерия, соответст-
вующее число степеней свободы для уравнения и уровень значимости (р),
стандартная ошибка оценки (Standart error estimate), оценка свободного чле-
на (intercept) и значение t-критерия для него с соответствующим уровнем
значимости (р). Значимые (отличные от нуля) оценки высвечиваются крас-
ным цветом.
Для каждого признака приведены стандартизованные коэффициенты
регрессии (см. далее), обозначенные бета (beta). Красным цветом обозначены
значимые коэффициенты.

Результаты расчетов можно вывести в виде таблиц. На вкладке Допол-


нительно (Advanced) нажмите кнопку Дисперсионный анализ (ANOVA-
overall goodness of fit).
В появившейся таблице дисперсионного анализа уравнение регрессии
выступает в качестве влияющего фактора. Скопируйте таблицу в отчет в про-
грамме Excel.

33
Для продолжения анализа в нижнем левом углу нажмите на свернутую
панель Множественная регрессия (Multiple Regression). На вкладке Допол-
нительно (Advanced) нажмите кнопку Итоговая таблица регрессии (Sum-
mary: regression results). Появится таблица, где суммированы результаты
регрессионного анализа для каждой из независимых переменных. Скопируйте
шапку и таблицу в отчет. Оцените отличие обычного и скорректированного
коэффициентов детерминации.

Аппроксимирующая модель подбирается в виде:


Y=const+B1*X1+B2*X2 + …+ Bk*Xk,
где В1, В2 … Bk служат оценками генеральных параметров β1, β2…βk . Величина
B

Вj показывает, насколько в среднем изменяется урожай (признак Y) при уве-


личении соответствующего независимого признака Xj на единицу (шкалы его
измерения) при фиксированных значениях других признаков, входящих в
уравнение регрессии. Эти коэффициенты – величины размерные. В таблице
для каждого коэффициента B приведены их стандартные ошибки (Std. Err. of
B), а также значения критерия Стьюдента (в скобках указано число степеней
свободы) и уровень значимости (обозначен как p-уровень) для проверки гипо-
тезы о равенстве коэффициентов нулю. Проверьте по скопированной таблице,
какие из коэффициентов равны нулю, а какие отличны от нуля.
Исходя из этих данных, можно рассчитать доверительные интервалы
для коэффициентов регрессии.
Bi ± S Bi * tαν R , i = 1,2,...k
Термином БЕТА (Beta) в таблице названы стандартизованные коэффи-
циенты, связанные с обычными коэффициентами через соотношение:
σi
Bi = Beta i *
σy
34
Как видно из уравнения коэффициенты бета - это безразмерные величи-
ны. По их значениям можно сравнивать вклады независимых переменных в
урожай. Например, из таблицы видно, что наибольший вклад в урожай вносит
фосфор, следующий по значению признак – гумус и т.п. Для значения рН уро-
вень значимости для проверки гипотезы о равенстве коэффициента нулю
больше значения 0,05, и, следовательно, нулевая гипотеза принимается. Ко-
эффициент для значения рН неотличим от нуля. Вклад нитратов в данном
случае практически тоже равен нулю.
Проверьте по скопированной таблице, какие из коэффициентов отличны
от нуля. Выпишите окончательное уравнение регрессии. Например, в данном
случае:
Yield [ц/га] = 4,29 [ц/га] + 0,91[ц/(га*%)] *Humus [%] + 0, 52 [(ц/га)/ мг-
экв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г.
почвы] *K2O[мг-экв. / 100 г. почвы].
Рассчитайте 95% доверительные интервалы для коэффициентов полу-
ченного уравнения. Например, для 90% -доверительного интервала и числа
степеней свободы, равного 16 (число наблюдений 20 минус число переменных
4), значение двухстороннего t- критерия будет равно 1,75. Коэффициент рег-
рессии для гумуса будет с вероятностью 90% изменяться в следующих преде-
лах: от 0,38 (0,91 – 0,30*1,75) до 1,44 (0,91 + 0,30*1,75), где точечная оценка
коэффициента регрессии и его ошибки равны соответственно 0,91 и 0,30.
АНАЛИЗ НАЛИЧИЯ МУЛЬТИКОЛЛИНЕАРНОСТИ. Под термином
мультиколлинеарность понимают наличие взаимосвязей между так называе-
мыми независимыми признаками, по которым строиться регрессионное урав-
нение. При ее наличии снижается точность оценок регрессионных коэффици-
ентов. Кроме того добавление небольшого числа наблюдений может привести
к сильным сдвигам в значениях регрессионных коэффициентов.
Для продолжения работы перейдите на вкладку Остатки/ предсказан-
ные/ наблюдаемые значения (Residuals/assumptions/ prediction). Для по-
строения коэффициентов корреляции нажмите на кнопку Описательные
статистики (Descriptive Statistics).

35
На появившейся панели перейдите на вкладку Дополнительно (Ad-
vanced) и выберите кнопку Корреляции (Correlations) для построения кор-
реляционной таблицы между признаками. При построении таблицы корреля-
ций выберите все признаки. Скопируйте таблицу в отчет. При анализе ре-
зультатов нужно учесть, что при числе степеней свободы ν=19 значимыми (то
есть отличными от нуля) можно считать коэффициенты, превышающие по
модулю 0,45. А при ν=14 – 0,53. Если независимые переменные окажутся тес-
но связанными между собой (коэффициенты корреляции по модулю равны
или более 0,85), то следует исключить коррелированные признаки, оставив
один из них. Затем можно использовать алгоритмы пошаговой регрессии.

Humus

P2O5

K2O

Yield

36
Другой вариантом при наличии большего числа коррелированных при-
знаков является проведение факторного анализа (метод главных компонент) и
переход к новому набору переменных, которые будут не связаны между со-
бой. Множественная регрессия строиться для этих новых переменных (ком-
понент).
Для построения попарных графиков между переменными выберите
кнопку Матричный график (Matrix plot of correlations). Сначала выберите
все переменные и урожай. Рассмотрите график. Затем постройте график толь-
ко для значимых переменных и для урожая. Для выделения нужных перемен-
ных используйте клавишу Ctrl. Скопируйте график в отчет.
АНАЛИЗ ОСТАТКОВ. Отклонение отдельной точки от линии регрес-
сии (от предсказанного значения) называется остатком. Анализ остатков -
важная составляющая регрессионного анализа, позволяющая проверить, на-
сколько хорошо выполняются основные предположения множественной рег-
рессии. Наличие выбросов (т.е. экстремальных наблюдений) может вызвать
смещение оценок, "сдвинуть" линию регрессии и тем самым, вызывать сме-
щение регрессионных коэффициентов. Часто исключение лишь одного экс-
тремального наблюдения приводит к изменению результата.
Для того чтобы выполнить анализ остатков, в нижнем левом углу на-
жмите на свернутую панель Множественная регрессия (Multiple
Regression). Появится размещенная выше таблица Просмотра описатель-
ных статистик (Review Descriptive Statistics). Чтобы подняться в меню на
более высокий уровень, нажмите кнопку Отмена (Cancel).
Появится следующее меню. Выберите закладку Остатки/ предсказан-
ные/ наблюдаемые значения (Residuals/assumptions/ prediction).

Нажмите кнопку Анализ остатков (Perform residual analysis). Появит-


ся меню:

37
Выберите закладку Остатки (Residuals) и нажмите кнопку Гистограм-
ма остатков (Histogram of residuals). В множественной регрессии предпола-
гается, что остатки распределены нормально. Оцените, насколько это допу-
щение выполняется в Вашем случае. Появившийся график скопируйте в от-
чет.

Вернитесь к меню.
Выберите закладку Диаграмма рассеяния (Scatterplots).

Для построения графика зависимости наблюдаемых значений урожая от


предсказанных значений урожая используйте клавишу Предсказанные и на-
блюдаемые (Predicted vs. Observed). Скопируйте этот график в отчет. Чем
лучше модель оценивает данные урожайности, тем ближе точки располагают-
ся к прямой.

38
Для построения графика зависимости остатков от предсказанных значе-
ний используйте клавишу Предсказанные и остатки (Predicted vs. re-
siduals). Скопируйте график в отчет. Чем меньше разброс значений вдоль ли-
нии, тем, очевидно, лучше прогноз. В случае хорошей аппроксимации остатки
не должны зависеть от наблюдаемых и предсказанных величин.

39
Для построения нормального вероятностного графика остатков выбери-
те закладку Вероятностные графики (Probability plots) и нажмите клавишу
Нормальный (Normal plot of residuals). Скопируйте график в отчет. В случае
хорошей аппроксимации остатки должны иметь нормальное распределение.
ПОШАГОВАЯ РЕГРЕССИЯ. Существует две схемы пошаговой регрес-
сии: «с исключением» признаков и «с включением».
Первый алгоритм состоит в том, что после построения уравнения рег-
рессии и оценки значимости всех коэффициентов из модели исключают тот
признак, коэффициент при котором незначим и имеет наименьшее значение t .
После этого получают новое уравнение множественной регрессии и снова
производят оценку значимости всех оставшихся коэффициентов регрессии.
Если среди них опять окажутся незначимые, то опять исключают признак с
наименьшим значением t -критерия. Процесс исключения признаков останав-
ливается на том шаге, при котором все регрессионные коэффициенты значи-
мы. При использовании этой схемы негативные последствия мультиколлине-
арности могут сказаться.
При реализации второго алгоритма первым в уравнение включается
признак, наиболее тесно коррелирующий с Y, вторым в уравнение включается
тот признак, который в паре с первым из отобранных дает максимальное зна-
чение множественного коэффициента корреляции, и т.д. На каждом шаге по-
лучают новое значение множественного коэффициента корреляции (большее,
чем на предыдущем шаге); тем самым определяется вклад каждого отобран-
ного признака в объясненную дисперсию Y.
Нажмите в нижнем левом углу на свернутую панель Множественная
регрессия (Multiple Regression). Чтобы вернуться назад, несколько раз на-
жимайте Отмена (Cancel) до тех пор, пока не появится следующее меню:

40
Выберите закладку Дополнительно (Advanced). В появившемся окне
поставите галочку в окне Пошаговая или гребневая регрессия (Advanced
options- stepwise or ridge regression). Проверьте, правильно ли заданы зави-
симые и независимые переменные. Нажмите ОК.
В появившемся меню перейдите на вкладку Пошаговый (Stepwise).
Выберите процедуру Пошаговая с включением (Forward stepwise). В окне
Отображение результатов (Display results) укажите пункт На каждом шаге
(At each step). Нажмите ОК.

Появится панель, суммирующая результаты анализа. На нулевом шаге


не будет выбрано ни одной переменной. Значения коэффициентов R и R2 бу-
дут равны нулю.
Нажмите Далее (Next). Появиться новая итоговая таблица, соответст-
вующая первому шагу, на которой, показаны данные для уравнения с одной
переменной, выделенной красным цветом.

41
На той же вкладке Дополнительно (Advanced) выберите клавишу Ито-
говая таблица регрессии (Summary: regression results). Появится таблица,
аналогичная таблице, полученной при проведении стандартной процедуры
регрессионного анализа, но содержащая одну переменную (в данном случае –
это фосфор) и свободный член.

Вернитесь к меню. На той же вкладке Дополнительно (Advanced) вы-


берите клавишу Итоги по шагам (Stepwise regression summary). В результа-
те будет построена таблица с итогами 1-го шага. Обратите внимание, что
квадрат множественного коэффициента регрессии в данном случае много
меньше полученного для стандартной процедуры. (см. стр.33-34).

Вернитесь к меню и нажмите Далее (Next). Появиться итоговая таблица


для двух переменных (шаг 2). Постройте для уравнения, включающего две
переменные, Итоговую таблицу регрессии (Summary: regression results) и
Итоги по шагам (Stepwise regression summary). Скопируйте таблицы в от-
чет.
Повторите процедуру несколько раз, следя за изменениями итоговой
таблицы и итогов по шагам до тех пор, пока процедура пошаговой регрессии
не закончиться. Копируйте таблицы в отчет. Убедитесь, что информация в
таблицах дублируется. Оставьте таблицы, соответствующие последнему шагу.

42
Напишите новое уравнение регрессии. В данном случае оно будет вы-
глядеть следующим образом:
Yield [ц/га] = 3,93 [ц/га] + 0,86 [ц/га*%] *Humus [%] + 0, 51 [(ц/га)/ мг-
экв. / 100 г. почвы] * P2O5[мг-экв. / 100 г. почвы] + 0,31 [(ц/га)/ мг-экв. / 100 г.
почвы] *K2O[мг-экв. / 100 г. почвы] .

Из результирующей таблице итогов по шагам видно, что на первом эта-


пе в уравнение регрессии был включен подвижный фосфор, на втором - калий,
на третьем шаге – гумус. При включении признаков коэффициент множест-
венной корреляции возрастает на втором шаге и практически не изменяется на
третьем.
Вопросы к занятию 4
1. Существует ли линейная зависимость между урожайностью и свойства-
ми почвы?
2. Какие из почвенных свойств влияют на урожайность?
3. Что такое регрессия в стандартизованном (нормализованном) виде? За-
чем используются стандартизированные коэффициенты?
4. Что такое коэффициент множественной корреляции? Чему он равен в
вашем случае?
5. Чему равен коэффициент детерминации? Сильно ли он отличается от
скорректированного коэффициента детерминации?
6. Что такое Intercept? Чему он равен в Вашем случае?
7. Каковы требования к качеству аппроксимации? Как соблюдаются эти
требования в случае множественной линейной регрессии для исследуе-
мых данных?
8. Что такое «остатки»?
9. Можно ли считать остатки нормально распределенными?
10. О чем свидетельствует корреляция между признаками? Что нужно в
этом случае делать?
11. Наблюдается ли мультиколлинеарность для исследуемых данных?
12. Какова связь между дисперсионным и регрессионным анализами?
13. В чем задача пошаговой регрессии?
14. Оцените вклад каждой из независимых переменных в урожай.
15. Выпишите уравнение регрессии, полученное по стандартной процедуре.
Укажите единицы для коэффициентов регрессии и переменных. Посчи-
тайте доверительные интервалы для коэффициентов регрессии.
16. Выпишите уравнение регрессии, полученное при пошаговом анализе
Можно ли считать, что получены разные уравнения?

43
Занятие 5. Кластерный анализ
ЦЕЛИ данного занятия: провести иерархическую классификацию гори-
зонтов методами одиночной связи и Варда, используя Евклидово расстояние;
провести классификацию переменных этими же методами; выполнить два ва-
рианта классификации объектов методом k-средних, задав в первом случае 3
класса, во втором - 5 классов.
Войдите в пакет STATISTICA (см. занятие №1). В программе
STATISTICA создайте новый файл данных для своего варианта (см. занятие
№3). Введите данные так же, как они даны в таблице данных. Данные пред-
ставляют собой результаты анализов образцов горизонтов, отобранных из 5
разрезов дерново-подзолистых почв Московской области. Сохраните данные.
Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выбери-
те раздел Многомерный разведочный анализ (Multivariate Exploratory
Technique), затем перейдите в раздел Кластерный анализ (Cluster Analysis).

Кластерный анализ – это группа методов, используемых для классифи-


кации объектов в относительно однородные группы (кластеры). Эти методы
не являются строгими со статистической точки зрения. Кластерный анализ
используется обычно на начальной стадии исследования, когда не существует
еще гипотез относительно классов, в которые объединяются объекты. Выде-
ляют аггломеративные и итеративные дивизивные методы кластерного анали-
за. Аггломеративные методы кластеризации – это иерархические методы, при
которых на начальном этапе каждый объект находится в отдельном кластере.
44
На следующих этапах происходит объединение объектов в более крупные
кластеры на основании понижения некоторого порога, например, увеличения
расстояния между объектами. Иными словами, чем выше уровень агрегации,
тем меньше сходства между членами в соответствующем классе. Итеративные
дивизивные методы кластеризации состоят в том, что выполняется разбиение
объектов, объединенных в один или несколько крупных кластеров, на фикси-
рованное число кластеров, как правило, более мелких. При этом образуются
новые кластеры так, чтобы они были настолько различны, насколько это воз-
можно.
Выберите пункт Иерархическая классификация (Joining –tree cluster-
ing) дендрограммы. Нажмите ОК. Для выполнения второй части задания
нужно будет в этом же меню выбрать пункт Кластеризация методом - k-
средних (K-means clustering)).

ИЕРАРХИЧЕСКАЯ КЛАССИФИКАЦИЯ. Выберите закладку Допол-


нительно (Advanced). Выберите переменные (Variables), по которым будет
проводиться анализ (C, PHS, IL, G, V). Обратите внимание, что Файл данных
(Input file) может содержать данные как в исходном виде, так и в виде матри-
цы расстояний (distance matrix). В поле Объекты (Cluster) выберите Наблю-
дения-строки (Cases -rows).

45
Выберите правило объединения (Amalgamation –linkage rule) и подхо-
дящую Меру близости между объектами (Distance measure).

В таблице приведены возможные варианты перевода названий методов


объединения и мер расстояния.

Joining rule- Distance measure –


Методы объединения Меры расстояния
Single linkage Метод одиноч- Squared Euclidean Квадрат Евкли-
ной связи (бли- distances дова расстояния
жайшего соседа)
Complite linkage Метод полной Euclidean dis- Евклидово рас-
связи (дальнего tances стояние
соседа)
Unweighted pair Невзвешенный City (Manchat- Манхэттенское
group average метод “средней tan)-block расстояние
связи”, невзве-
шенное попарное Chebyshev dis- Расстояние Че-
среднее tance metric бышева
Weighted pair Взвешенный ме- Power Степенное
group average тод средней свя- Percent disagree- Процент несов-
зи ment падений (ис-
Weighted centroid Взвешенный цен- пользуется для
pair group (mе- троидный метод качественных
dian) признаков)
Pearson r Коэффициент
Ward method Метод Уорда корреляции (1-r
(Варда) Пирсона)

Проведите иерархический кластерный анализ Методом одиночной


связи (Single Linkage) с использованием Евклидового расстояния (Euclid-
ean distances). Задав начальные установки, нажмите ОК.

46
Евклидово расстояние – это геометрическое расстояние в многомерном
пространстве, то есть аналог физического расстояния. Метод одиночной свя-
зи (ближайшего соседа) предполагает, что расстояние между двумя кластера-
ми определяется расстоянием между двумя наиболее близкими объектами
(ближайшими соседями) в сравниваемых кластерах. В результате формируют-
ся кластеры, представленные длинными "цепочками" объектов.
Следующая панель дает информацию о выбранных ранее условиях (чис-
ло случаев, число переменных, число пропусков, способ присоединения и ме-
ра близости).

Появляется возможность построить горизонтально (Horizontal hierar-


chical tree plot) или вертикально (Vertical icicle plot) расположенную дендро-
грамму. Нажмите соответствующую кнопку, чтобы построить каждую из ден-
дрограмм. Посмотрите рисунки.
Для продолжения анализа в нижнем левом углу нажмите на свернутую
панель кластерного анализа (Joining results). По умолчанию дендрограмма
строится с ветвями, соединяющимися под прямыми углами Прямоугольные
ветви (Rectangular branches). Посмотрите, что получится, если значок выбо-
ра снять (дерево получится с острыми углами). Вторая галочка позволяет
масштабировать ось расстояния на рисунке дендрограммы, то есть перейти к
процентам от максимального расстояния (Scale tree to dlink/dmax *100%).
Постройте вертикально расположенную дендрограмму с прямоуголь-
ными ветвями и с масштабированным расстоянием.

47
На графике по оси абсцисс отложены объекты (наблюдения). В данном
случае – это 30 горизонтов, соответствующие 5 разрезам дерново- подзоли-
стой почвы. По оси ординат отложено Евклидово расстояние между объекта-
ми и группами объектов, рассчитанное по свойствам объектов (наблюдений).
В группы объединяются объекты (и/или их группы), находящиеся на самом
близком расстоянии.
Дважды щелкнув по графику можно перейти в режим оформления, где
можно заменить номера объектов (наблюдений) на их имена. Для этого в поя-
вившемся меню выберите вкладку Единицы, заданные пользователем (Cus-
tom Units). Для сохранения имени горизонта в строке используйте клавишу
Enter. Замените порядковые номера наблюдений названиями горизонтов. На-
жмите OK. Сохраните график в файле результатов Excel.

48
Проведите иерархический кластерный анализ методом Варда с исполь-
зованием Евклидового расстояния. Этот метод отличается от всех других ме-
тодов, поскольку он использует методы дисперсионного анализа для оценки
расстояний между кластерами. Метод Варда минимизирует сумму квадратов
для любых двух кластеров, которые могут быть сформированы на каждом ша-
ге. При использовании данного метода получаются кластеры малого размера.
Результаты сохраните в файле Excel.
На этой же панели меню, где строятся дендрограммы (см. стр. 47), мож-
но сохранить в виде таблицы порядок объединения объектов - схема объеди-
нения (Amalgamation schedule), график схемы объединения (Graph of Amal-
gamation schedule), матрицу расстояний между объектами (Distance matrix),
а также среднее и стандартное отклонение для полученных классов – Описа-
тельные статистики (Descriptive statistics).
СРАВНЕНИЕ ПЕРЕМЕННЫХ. Кластерный анализ позволяет также
оценивать близость переменных между собой. Для этого на первой панели в
поле Объекты (Cluster) выберите Variables (Columns)..

Для 5 переменных проведите иерархический кластерный анализ мето-


дом одиночной связи и методом Варда с использованием Евклидового рас-
стояния. Графики (2 шт.) сохраните в файле Excel.

49
МЕТОД K-СРЕДНИХ. Вернитесь в самое начало анализа и выберите
Кластеризацию методом к-средних (K-means clustering).
По методу K средних будет построено K кластеров, расположенных на воз-
можно больших расстояниях друг от друга. Расчеты начинаются K кластеров,
в которые объекты объединены случайным образом. Процедура состоит в из-
менении принадлежности объектов к кластерам так, чтобы: изменчивость
внутри кластеров сделать минимальной, изменчивость между кластерами -
максимальной. Эта оценка производиться с помощью дисперсионного анали-
за. Выберите закладку Дополнительно (Advanced).

Необходимо произвести выбор переменных (Variables), по которым бу-


дет проводиться анализ (C, PHS, IL, G, V) и выбор типа анализа (для объектов
или для самих переменных) в окошке Объекты (Cluster), - точно такой, как и
при иерархической классификации.
Укажите переменные: C, PHS, IL, G, V, и выберите анализ объектов-
наблюдений (Cases (row)). Затем нужно задать Число кластеров (Number of
clusters) и число итераций для расчетов (Number of iterations). Кроме этого,
можно разным способом задать Начальные центры кластеров (Initial clus-
ter centers).
Для ваших данных проведите кластеризацию методом k-средних, задав
3 кластера. Число итераций возьмите по умолчанию, равное 10. Начальные
центры классов задайте через одинаковые интервалы в ранжированном ряду
расстояний Сортировать расстояния и выбрать наблюдения на постоян-
ных интервалах (Sort distances and take observations at constant intervals).
Нажмите ОК.

50
Результирующая панель содержит информацию о заданных ранее усло-
виях кластерного анализа. Она позволяет оценить качество классификации с
помощью таблицы Дисперсионного анализа (Analysis of variance), получить
таблицу средних значений признаков для кластеров и таблицу расстояний ме-
жду кластерами – Средние кластеров и Евклидовы расстояния (Cluster
means & Euclidean distances), построить графики средних значений для кла-
стеров – График средних (Graph of means), получить описательные стати-
стики для каждого класса (Descriptive statistics for each cluster), получить
таблицу принадлежности объектов к каждому классу Элементы кластеров и
расстояния (Members of each cluster & distances).

Проанализируйте результаты, оценив качество классификации при по-


мощи таблицы дисперсионного анализа (Analysis of variance).
Метод K-средних
3 кластера
Analysis of Variance (pc_kla.sta)- Дисперсионный анализ
Признаки Between Within signif.
SS df SS df F p
Сумма кв. Число ст. Общая Число ст.
между свободы сумма кв. свободы
классами внутри Уровень
классов значимости
C 41,253422 2 89,541245 27 6,219717 0,0060027
PHS 0,4869745 2 1,8676891 27 3,519941 0,0438099
IL 2881,6445 2 291,72192 27 133,3537 1,015E-14
G 2422,0554 2 256,64453 27 127,4048 1,774E-14
V 0,5615084 2 0,5753129 27 13,17607 0,0001016

51
Например, из данной таблицы видно, что для всех почвенных свойств
уровень значимости меньше 0,05 и, следовательно, нулевая гипотеза о равен-
стве средних по выделенным кластерам отвергается. Варьирование между вы-
деленными кластерами превышает внутриклассовое варьирование. Значения
F-статистики, полученные для каждого признака, являются индикатором того,
насколько хорошо соответствующий признак разделяет кластеры.
Постройте график средних и таблицу принадлежности объектов к каж-
дому классу. Результаты сохраните в файле Excel.

При копировании в отчет таблиц принадлежности объектов к кластерам


их необходимо транспонировать и заменить порядковые номера объектов на
названия горизонтов.

Повторите анализ, задав 5 классов. Результаты сохраните в файле Excel.


Распечатайте отчет.

52
Вопросы к занятию 5
1. Что такое кластерный анализ?
2. Что такое аггломеративные методы кластеризации? Приведите приме-
ры.
3. Что такое итеративные дивизивные методы кластеризации? Приведите
примеры.
4. Что такое расстояние между объектами? Какие виды расстояния между
объектами вы знаете?
5. Какие виды расстояний используются для качественных признаков?
6. Какие методы объединения реализованы в программе STATISTICA?
7. Что такое дендрограмма и как она строится?
8. Для каких случаев, на Ваш взгляд, удобнее вертикальная дендрограмма,
а для каких горизонтальная дендрограмма?
9. На каждой из сохраненных в отчете дендрограмме проведите по 3 сече-
ния. Опишите, как происходит процесс объединения горизонтов в клас-
сы. Какие горизонты попадают в один, а какие в разные кластеры?
10. Чем отличаются кластеры, выделенные методом одиночной связи и ме-
тодом Варда?
11. Какие признаки оказались «ближе», а какие «дальше» для данного мно-
жества горизонтов?
12. В чем заключается принцип работы метода k-средних? К какому типу
методов кластеризации он относится?
13. Как соотносятся результаты работы алгоритма по методу k-средних для
3 и 5 классов?
14. Одинаковое ли разбиение дают разные методы кластеризации для одних
и тех же объектов?
15. Какой метод, на ваш взгляд, дает лучшее разбиение для ваших данных?

53
Занятие 6 . Метод главных компонент и дискриминантный анализ
ЦЕЛЬ занятия: провести анализ данных методом главных компонент
(МГК); выполнить дискриминантный анализ совокупности данных о горизон-
тах дерново-подзолистой почвы, оценить качество классификации; сравнить
результаты анализов.
МЕТОД ГЛАВНЫХ КОМПОНЕНТ осуществляет переход от исходных
признаков Х1,...,Хp к новой системе координат Y1,...,Yр, называемых главными
компонентами (ГК). ГК представляют собой линейные нормированные ком-
бинации исходных признаков. Они выбираются таким образом, что среди всех
возможных линейных нормированных комбинаций исходных признаков пер-
вая главная компонента Y1 обладала наибольшей дисперсией. Вторая главная
компонента имеет наибольшую дисперсию среди всех оставшихся линейных
преобразований, некоррелированных с первой главной компонентой и пер-
пендикулярных первой главной компоненте. Следующие главные компоненты
определяются по аналогичной схеме.
Войдите в пакет STATISTICA (см. занятие №1). В программе
STATISTICA откройте файл данных для 5-6 задания для своего варианта (см.
занятие №3). Данные представляют собой результаты анализов образцов го-
ризонтов, отобранных из 5 разрезов дерново-подзолистых почв Московской
области.
Щелкнув на кнопке Анализ (Statistics), откройте меню и затем выбери-
те раздел Многомерный разведочный анализ (Multivariate Exploratory
Technique), перейдите в раздел Анализ главных компонент и классифика-
ция (Principal Components& Classification Analysis).

На следующей появившейся панели щелкните по кнопке Переменные


(Variables). В разделе Переменные анализа (Variable for analysis) задайте
признаки, по которым будет производиться анализ МГК, - в нашем случае –
54
гумус, рН, содержание ила и глины, а также степень ненасыщенности. В ка-
честве Группирующей переменной (Grouping variable) задайте перемен-
ную, где закодировано название горизонта (в данном случае Horizon).

Группирующая переменная (Grouping variable- labeling) используется


для задания имен/ меток/обозначений для наблюдений. C помощью группи-
рующей переменной можно также разделить все наблюдения на основные на-
блюдения, по которым проводится анализ, и на вспомогательные наблюдения,
в анализе не участвующие. Для этого нужно одно из значений группирующей
переменной использовать в качестве кода для задания основных наблюдений.
Остальные наблюдения будут считаться вспомогательными наблюдениями.
Здесь же можно задать Вспомогательные переменные (Supplementary
variables), которые не будут участвовать в анализе, но их можно спроектиро-
вать на подпространство главных компонент (ГК), чтобы сделать какие-либо
выводы об этих вспомогательных переменных. В нашем случае – таких пере-
менных нет.
Перейдите на закладку Дополнительно (Advanced).

55
После того, как переменные заданы, важно принять решение, будет ли
анализ проводится на основе ковариаций, либо корреляций. При анализе, ос-
нованном на матрице ковариаций, на вычисляемые факторы будут влиять раз-
личия вариабельности (изменчивости) переменных, включенных в анализ. В
большинстве случаев, эти различия связаны с различными единицами измере-
ний. В нашем случае анализ будет проводиться на основе корреляционной
матрицы. Поэтому выберите опцию Анализ основан на (Analysis based on)
Корреляциях (Correlations).
Нажмите кнопку OK. Появится новое меню. В информационном поле
диалога представлена общая информация о текущем анализе.

В диалоговом окне установите Число факторов (Numbers of factors)


равным 2. Если в результате, Качество представления (Quality of represen-
tation) получилось меньше 70%, то нужно увеличивать число факторов, пока
качество представления не станет больше или равным 70%.

Перейдите на закладку Переменные (Variables). Выберите клавишу


Факторные координаты (Factor coordinates of variables).

56
Появится таблица Факторных координат переменных на основе кор-
реляций (Factor coordinates of the variables, based on correlations), в кото-
рой показаны координаты исходных переменных в пространстве главных
компонент (факторов). Так как текущий анализ производится на основе кор-
реляционной матрицы, выводимые результаты можно интерпретировать как
корреляции соответствующих переменных с каждой ГК (с каждым фактором).

В данном случае, первая ГК (фактор 1) наиболее сильно коррелирует с


переменными Humus, iL, Glina, V; а вторая - с pH.
Нажмите клавишу Собственные значения (Eigenvalues), чтобы по-
строить таблицу собственных значений (собственных чисел). Собственные
значения – это доля от общей дисперсии, соответствующая каждой из компо-
нент. В этой таблице для каждого собственного значения также представлен
процент объясненной дисперсии, кумулятивное собственное значение и куму-
лятивный процент объясненной дисперсии. Собственные значения представ-
лены в порядке убывания, отражая тем самым степень важности соответст-
вующих выделенных факторов для объяснения вариации исходных данных.
Когда анализируются корреляционные матрицы, сумма собственных
значений равна числу переменных, для которых рассчитаны ГК (факторы),
при этом "среднее ожидаемое" собственное значение равно 1. На практике
применяется много критериев для правильного выбора количества ГК. Наибо-
лее простой из них - оставить только те факторы, собственные значения кото-
рых больше или близки к 1. В данном примере, только первые два собствен-
ных значения близки 1 и они объясняют почти 75% общей дисперсии.

57
Нажмите кнопку График каменистой осыпи (Screeplot). Построенный
график скопируйте в отчет.

Название графика произошло от геологического термина «осыпь», оз-


начающего каменные осколки (лом), лежащие у подножия скал. Этот график
служит для определения числа ГК. На нем отображена последовательность
собственных значений. Нужно определить на этом графике собственное зна-
чение, начиная с которого "горка" теряет свою кривизну и выходит на при-
мерно постоянный уровень. Такое значение и будет искомым числом ГК.
Нажмите кнопку 2М график факторов перем. (Plot var. Factor coordi-
nates, 2D), чтобы построить проекцию переменных на плоскость 2 выбранных
ГК. Скопируйте график в отчет. Так как текущий анализ основан на корреля-
циях, максимальное значение координаты исходной переменной в простран-
стве главных компонент (факторной координаты) не может превысить 1. Кро-
ме того, квадраты всех факторных координат для всех переменных (т.е., квад-
раты корреляций между переменной и всеми факторами) не могут превысить
значения 1. Таким образом, все факторные координаты должны попасть в
единичный круг, выведенный на график. Этот круг является визуальным ин-
дикатором того, насколько хорошо каждая переменная воспроизводится те-
кущим набором выбранных ГК (чем ближе переменная к единичной окружно-
сти, тем лучше она воспроизведена в найденной системе координат).

58
Перейдите на вкладку Наблюдения (Cases). Нажмите кнопку Фак-
торные координаты наблюдений (Factor coordinates of cases).

Появится таблица, где указаны координаты наблюдений на ГК. Интер-


претация факторных координат наблюдений делается с помощью их вкладов в
дисперсию. Первым шагом выделяют наблюдения, которые имеют наиболь-
шие значения вкладов для каждого выбранного фактора. Затем можно вы-

59
брать подмножество таких наблюдений, чей вклад больше среднего вклада и
т.п. Скопируйте полученную таблицу в отчет.

В этой же вкладке выберите Метки групп (Grouping labels) в группе


опций Опции графиков (Optio ns for plot of factor coord.). Затем нажмите
кнопку 2М графики факторные наблюдения (Plot case factor coordinates,
2D) . Выберите 1-ую и 2-ю ГК. Нажмите ОК.

60
Появится график, на котором показаны все наблюдения (в данном слу-
чае горизонты) в пространстве первых двух ГК. При интерпретации результа-
тов рассматриваются подмножества точек с отрицательными координатами и
с положительными координатами по каждой из осей. Такое разбиение пока-
зывает различия, которые существуют между наблюдениями, следовательно,
раскрывает скрытую структуру данных в наблюдениях. В данном случае вид-
но, что первая ГК разделяет верхние и нижние горизонты.
С помощью вкладки Описательные (Descriptive) можно оценить ос-
новные параметры распределения для наблюдений, построить корреляцион-
ную и ковариационную матрицы и обратные к ним, различные графики для
основных и вспомогательных переменных.

61
ДИСКРИМИНАНТНЫЙ АНАЛИЗ. Щелкнув на кнопке Анализ (Statis-
tics) откройте меню и выберите раздел Многомерный разведочный анализ
(Multivariate Exploratory Technique), затем перейдите в раздел Дискрими-
нантный анализ (Discriminant Analysis).

Целью анализа в данном примере является изучение дискриминации


(различий) между основными горизонтами дерново-подзолистых почв, осно-
вываясь на имеющихся физико-химических свойств. На стандартной панели
нажмите кнопку Переменные (Variables).

Отобразится стандартное диалоговое окно Выбрать группирующую и


независимые переменные (Select one grouping var. and independent variable

62
list). В этом окне укажите группирующую переменную (переменная Horizon)
и независимые переменные (гумус, рН, содержание ила и глины).
Для идентификации того, к какой совокупности принадлежит каждый
образец, необходимо указать коды, которые были использованы при группи-
ровке переменных. Нажмите на кнопку Коды для группирующей перемен-
ной (Codes for grouping variable), или нажмите на кнопку Все (All), или ис-
пользуйте звездочку (*), соответствующую отбору всех кодов.

Альтернативным образом, вы можете нажать кнопку OK на стартовой


панели, и система STATISTICA автоматически просмотрит группирующую
переменную(ые), и определит все коды для этих переменных.

Нажмите ОК. Появится панель, в верхней части которого отражены


общие результаты дискриминантного анализа: Число переменных в модели и
63
статистика лямбда Уилкса (Wilk’s Lambda). Статистика Уилкса лямбда яв-
ляется статистикой, используемой для оценки мощности дискриминации в те-
кущей модели. Ее значение меняется от 1,0 (нет никакой дискриминации) до
0,0 (полная дискриминация).

Статистика Уилкса лямбда может быть преобразована к стандартному F


значению, для которого можно вычислить соответствующее p-значение.
Нажмите на кнопку Переменные в модели (Summary: Variables in the
model). Появится таблица результатов для текущих переменных в модели. В
шапке таблицы повторены характеристики для модели в целом.

Каждое значение в первой колонке таблицы является значением стати-


стики Уилкса лямбда для каждой переменной в модели. Чем меньше ее значе-
нии, тем сильнее вклад данной переменной в дискриминацию. Частная лямбда
Уилкса - это статистика для одиночного вклада соответствующей переменной
в дискриминацию между совокупностями за вычетом влияния других пере-
менных. Это значение можно рассматривать как аналог частного коэффициен-
та корреляции, отличие только в том, что лямбда с величиной 0,0 обозначает
полную дискриминацию (т. е. соответствует коэффициенту корреляции, рав-
ному 1,0). Чем меньше ее значение в этом столбце, тем больше одиночный

64
вклад соответствующей переменной в дискриминацию. Видно, что «главными
переменными» являются гумус и степень ненасыщенности.
Значение толерантности определяется как 1 минус R-квадрат для соот-
ветствующей переменной со всеми другими переменными в модели. Оно дает
представление об избыточности данной переменной. Если бы в модель входи-
ла каждая переменная по отдельности, то значение ее равнялось бы 1,0.
Одна из целей анализа дискриминантной функции - дать исследователю
возможность провести классификацию объектов. Посмотрим, насколько хо-
рошо построенные дискриминирующие функции классифицируют горизонты.
Для этого перейдите на вкладку Классификация (Classification).

Нажмите клавишу Функции классификации (Classification functions).


Появится следующая таблица.

65
Функции классификации вычисляются для каждой совокупности и мо-
гут непосредственно применяться для классификации объектов. Наблюдение
(горизонт в данном случае) будет попадать в ту совокупность, для которой
вычислен наибольший классификационный вес. Скопируйте таблицу в отчет.
Нажмите теперь на кнопку Матрица классификации (Classification
Matrix). В таблице показан процент правильной классификации и дана рас-
шифровка, к каким классам (горизонтам) были отнесены при классификации
наблюдения. Вторая линия в заголовке каждой колонки приводит априорные
вероятности классификации.

Можно вычислить вероятность того, что наблюдение принадлежит оп-


ределенной совокупности (классу). Поскольку эта вероятность вычисляется по
результатам классификации, она называется апостериорной вероятностью
(т.е. вероятностью, полученной после проведенной обработки). Нажмите на
кнопку Апостериорные вероятности (Posterior probabilities).

66
В таблице приведены вероятности отнесения каждого объекта к одной
из групп. Строки, отмеченные звездочкой (*), указывают на неправильно
классифицированные образцы.
Скопируйте полученные таблицы в отчет. Оформите отчет в соответст-
вии с образцом (см. стр. 79-81).

Вопросы к занятию 6
1. Что такое собственные числа?
2. Какую долю общей дисперсии учитывает каждая компонента по от-
дельности? Какую долю общей дисперсии суммарно учитывают 1-ая и
2-ая компоненты? Какую долю – суммарно 1-ая, 2-ая и 3-я компоненты?
3. Какие признаки вносят наибольший вклад в каждую из компонент?
4. Зачем были построены проекции переменных на 1-ую и 2-ую ГК?
5. Что такое график «каменной осыпи»?
6. Какая информация может быть получена при проектировании объектов
на 1-ую компоненту и на 2-ую компоненту?
7. Какие два объекта находятся на максимальном расстоянии при проек-
ции объектов на 1-ую компоненту?
8. Каковы итоги анализа дискриминантных функций?
9. Что такое классифицирующая функция?
10. Выпишите классифицирующие функции для принятия решения об от-
несении объекта к каждому из классов?
11. Укажите, в скольких случаях происходит ошибочная классификация?
Какие объекты правильно, а какие неправильно классифицируются?
12. Выпишите объекты, которые классифицируются правильно с вероятно-
стью более 95%, с вероятностью более 70%, с вероятностью менее 70%?

67
Пример оформления отчета

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им.


М.В.ЛОМОНОСОВА
ФАКУЛЬТЕТ ПОЧВОВЕДЕНИЯ

КАФЕДРА ГЕОГРАФИИ ПОЧВ

ОТЧЕТ ПО ПРАКТИЧЕСКИМ ЗАНЯТИЯМ


ПО КУРСУ «МАТЕМАТИЧЕСКАЯ СТАТИСТИКА»

Работа выполнена студентом 4 курса


Ивановым Иваном Ивановичем

Допускаю к сдаче зачета:

Преподаватель. Подпись.

Дата:

Москва 2008

68
Практические занятия по курсу "Математическая статистика" Подпись преподавателя
Номер 19 Кафедра Студент
Занятие 1-2 Дисперсионный анализ (занятие 3) Кластерный, дискриминантный анализы, МГК (занятия 5-6)
Р2О5, мг/100 г
Урожайность кукурузы, ц/га № № Гори- Гумус, рН соле- Содерж Содер. Степень
участок участок Гербицид объек- разреза зонт % вой ание физ. нена-
1 2 г/га та ила глины сыщ., %
Контроль NPK30 NPK60 NPK90
7,41 8,83 1 2 1 2 1 2 1 2
3,30 12,42 0 136 185 162 190 196 171 197 185 1 1 A1 4,0 4,0 9 35 21
6,72 11,57 10 135 141 192 161 185 183 225 211 2 1 A2 1,5 4,1 14 27 33
3,32 5,55 20 132 109 173 191 226 204 261 257 3 1 A2B 0,3 4,5 23 56 8
6,52 4,95 30 134 113 177 154 188 196 234 236 4 1 B 0,6 4,0 39 45 7
12,83 3,17 среднее 135,6 175,0 193,6 225,8 5 1 C 0,1 4,2 36 70 0
4,98 7,83 6 2 A1 3,4 4,0 11 36 68
6,78 25,01 Регрессионный анализ (занятие 4) 7 2 A2 0,7 4,2 7 28 46
5,18 19,08 Урожайность ячменя 8 2 A2B 0,8 4,7 17 44 31
12,60 6,04 hum,% P2O5, pH K2O, NO3, урожай Данные в 9 2 B 0,3 4,1 14 43 21
12,07 5,45 мг/100г мг/100г мг/100г ц/га заданиях1-4 10 2 C 0,2 4,1 28 72 6
10,49 9,00 3,97 18,89 7,14 12,75 8,36 20,64 представляют 11 3 A1 1,9 3,5 10 30 29
12,35 10,22 4,09 13,61 6,61 13,34 8,98 18,19 собой 12 3 A2 0,9 4,4 12 27 42

69
7,62 7,70 4,26 17,61 6,31 8,09 9,08 18,91 результаты 13 3 A2B 0,4 4,4 9 30 10
10,10 4,65 4,26 15,17 6,98 12,00 8,91 19,12 исследований на 14 3 B 0,4 4,7 25 46 6
7,53 1,89 3,95 10,51 6,67 12,17 9,55 16,48 серых лесных 15 3 C 0,3 3,8 38 59 4
10,44 14,89 3,65 20,85 7,27 14,73 9,16 21,99 почвах 16 4 A1 5,0 3,8 19 40 45
15,90 10,18 3,85 14,50 7,17 10,76 9,13 17,85 17 4 A2 0,5 4,2 8 33 46
15,54 14,83 3,87 17,01 7,07 9,94 7,76 18,68 18 4 A2B 0,4 4,1 16 41 26
8,13 4,27 3,87 15,15 6,62 12,25 8,65 18,34 19 4 B 0,3 4,0 36 57 21
4,64 10,22 4,22 17,54 6,93 10,44 8,65 19,58 20 4 C 0,4 5,6 30 58 13
8,25 6,63 4,16 15,18 7,66 13,54 8,74 19,61 21 5 A1 5,9 3,9 12 36 56
16,55 10,74 4,14 17,09 7,18 13,13 9,58 20,27 Данные в 22 5 A2 2,4 3,9 10 36 62
9,03 10,61 4,20 13,90 7,51 12,26 8,57 18,50 заданиях 5-6 23 5 A2B 0,2 3,8 26 45 29
6,34 7,36 4,05 17,34 7,45 10,79 8,79 19,64 представляют 24 5 B 0,1 4,8 31 54 12
7,93 9,87 4,15 14,84 6,64 12,00 8,47 18,90 собой 25 5 C 0,1 4,8 31 63 0
12,03 5,04 4,00 12,48 6,63 17,78 8,70 19,20 результаты 26 6 A1 9,5 4,0 26 34 15
11,93 4,22 3,92 16,04 7,35 10,48 8,02 18,78 исследований на 27 6 A2 1,5 4,1 8 27 53
5,72 4,94 3,86 17,75 7,06 10,74 8,81 19,46 дерново- 28 6 A2B 0,6 3,5 34 42 39
7,47 6,64 3,81 14,24 7,35 11,77 9,00 17,88 подзолистых 29 6 B 0,1 3,1 38 56 23
среднее 4,29 9,61 6,62 13,35 8,31 16,57 почвах 30 6 C 0,1 4,5 33 57 5
8,99 8,79 среднее Московской
4,03 15,47 7,01 12,12 8,76 18,93 области.
Отчет 1. Описательная статистика. Гистограммы.
Студент Неизвестный Н.Н. Кафедра географии почв. Вариант 120.
Дата проверки: Подпись преподавателя:
Таблица 1. Статистические характеристики для распределения гумуса на
водоразделе (H1) и в нижней части склона (H2) Гистограмма Н1
H1 H2 H is togram: H 1
K-S d=,08650, p> .20; Lilliefors p> .20
Ex
H pec ted N ormal
is togram: H1
Объем выборки Valid N 30 30 16
K-S d=,08650, p> .20; Lilliefors p> .20
Ex pec ted N ormal
14 16

Среднее Mean 5,10 3,99 12


14

Доверительный Confid. -95.000% 4,93 3,93 10 12

интервал для среднего Confid. +95.000% 5,26 4,05 8


10

No. of obs .
6
Медиана Median 5,06 3,99 4
8

No. of obs .
6
Минимум Minimum 4,09 3,71 2
4

Максимум Maximum 6,05 4,21 0


2 3,5 4,0 4,5 5,0 5,5 6,0 6,5
X <= C ategory Boundary

Нижн. квартиль Lower Quartile 4,78 3,86 0


3,5 4,0 4,5 5,0 5,5 6,0 6,5

Верхний квартиль Upper Quartile 5,34 4,15 Гистограмма Н2 H isXtogram: H 2 Boundary


<= C ategory
K-S d=,15579, p> .20; Lilliefors p<,10
Ex pec ted N ormal
9
Дисперисия Variance 0,19 0,02 8
His togram: H 2
K-S d=,15579, p> .20; Lilliefors p<,10
Ex pec ted N ormal
Стандартное отклонение Std.Dev. 0,44 0,16 7 9

6 8
Ошибка среднего Standard Error 0,08 0,03 5 7

Асимметрия Skewness 0,06 -0,07 4 6

No. of obs .
Ошибка асимметрии Std.Err. Skewness 0,43 0,43
3 5

2
4

Эксцесс Kurtosis 0,27 -1,38

No. of obs .
1
3

Ошибка эксцесса Std.Err. Kurtosis 0,83 0,83 0


2 3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3
X <= C ategory Boundary
1

0
3,6 3,7 3,8 3,9 4,0 4,1 4,2 4,3

Нормальные вероятностные графики X <= C ategory Boundary

N orma l P- Plot: H2 N orma l P-P lot: H1


2,5 2,5

2,0 2,0

1,5 1,5

1,0 1,0

0,5 0,5

0,0 0,0

- 0,5 - 0,5

- 1,0
Exp ecte d No rmal Valu e

- 1,0
Exp ecte d No rma l Val ue

- 1,5
- 1,5

- 2,0
- 2,0

- 2,5
3, 6 3,7 3,8 3 ,9 4 ,0 4, 1 4,2 4,3 - 2,5
4,0 4,2 4,4 4 ,6 4,8 5,0 5,2 5 ,4 5, 6 5,8 6,0 6 ,2
Valu e V alue

переменная H2 переменная H1
Диаграммы размаха (коробочки с усиками)
Box & W hiske r Plo t Bo x & W his ker P lot
6,2 6,2

6,0 6,0

5,8 5,8
5,6 5,6
5,4
5,4
5,2
5,2
5,0
5,0
4,8
4,8
4,6
4,6
4,4
4,4
4,2
4,2
4,0
4,0
3,8

3,6 3,8
Me an Media n
±S D 25%- 75%
3,4 ±1 ,96* SD 3,6 Min-Max
H1 H2 H1 H2

точка- среднее, коробочка- ст. откл точка - медиана, коробочка - квартили


усики- 95% инт. для случ. вел. усики - минимум и максимум

70
Отчет 2. Проверка гипотез о типе распределения и о равенстве средних
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:

Проверка гипотез о типе распределения


1. Ho: переменная Н1 подчиняется нормальному распределению
Variable: Pole1, Distribution: Normal (Example_for_book.sta) Chi-Square = 0,56717, df = 3, p = 0,90391
Переменная Pole1 ; распределение: Нормальное
Критерий хи-квадрат : 0,57, число ст.св. = 3, p = 0,90
Верхняя % накопл.% ожид. ожид. % накопл. % разность
граница частота накоп. (ожид-
эмпир. накопл.эмп.
классов част. эмп)
частота част.
Observed Cumulative Percent Cumul. % Expected Cumulative Percent Cumul. % Observed-
Expected
<= 4,23333 1 1 3,3 3,3 0,7 0,7 2,5 2,5 0,3
4,66667 4 5 13,3 16,7 4,2 4,9 13,9 16,4 -0,2
5,10000 11 16 36,7 53,3 10,2 15,1 33,8 50,2 0,8
5,53333 10 26 33,3 86,7 10,1 25,2 33,7 83,9 -0,1
5,96667 3 29 10,0 96,7 4,1 29,3 13,7 97,6 -1,1
< Infinity
1 30 3,3 100,0 0,7 30,0 2,4 100,0 0,3
(Бескон.)
p =0,90 > 0,05 => принимается Ho
Вывод: распределение перем. Pole1 можно аппроксимировать нормальным распределением
Участок 1 Участок 2
2. Проверка на нормальность
Variable: H1, Distribution: Normal Variable: H2, Distribution: Normal
Chi-Square test = 0,48530, df = 1 (adjusted) , p = 0,48603 Chi-Square test = 5,47515, df = 1 (adjusted) , p = 0,01929
9 9

8 8

7 7

6 6
No. of observations
No. of observations

5 5

4 4

3 3

2 2

1 1

0 0
3,90 4,16 4,42 4,68 4,94 5,20 5,46 5,72 5,98 6,24 6,50 3,6562 3,7375 3,8187 3,9000 3,9812 4,0625 4,1437 4,2250 4,3062

Category (upper limits) Category (upper limits)

p =0,48 > 0,05 => принимается Ho p =0,01< 0,05 => Ho отвергается

3. Проверка на логнормальность
Variable: H1, Distribution: Log-normal Variable: H2, Distribution: Log-normal
Chi-Square test = 0,23387, df = 1 (adjusted) , p = 0,62867 Chi-Square test = 5,44993, df = 1 (adjusted) , p = 0,01957
10 9

9 8

8 7

7
6
No. of observations
No. of observations

6
5
5
4
4
3
3
2
2
1
1

0
0
3,6562 3,7375 3,8187 3,9000 3,9812 4,0625 4,1437 4,2250 4,3062
3,7813 4,1250 4,4688 4,8125 5,1563 5,5000 5,8438 6,1875 6,5313
Category (upper limits)
Category (upper limits)

p =0,63 > 0,05 => принимается Ho p =0,02< 0,05 => Ho отвергается

71
Отчет 2. (продолжение) Проверка гипотез о типе распределения и о равенстве средних
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Участок 1 Участок 2
4. Проверка на возможность аппроксимации равномерным распределением
Va riable: H1, Distribution: Rectangu lar Var iable: H2, Distr ibution: Rectangular
Chi- Squar e test = 10,15408, df = 1 ( adjus ted) , p = 0,00 144 Chi- Square test = 1,12596, df = 1 (adjusted) , p = 0,28864
9 10

8 9

8
7

7
6

6
5
5
4
4
3
N o. of obs erv ations

No. of observations
3
2
2

1
1

0 0
3, 90 4,1 6 4,42 4,68 4,94 5 ,20 5, 46 5,72 5,98 6,24 6,50 3,8125 3,8750 3,9375 4,0000 4,0625 4,1250 4,1875 4,2500 4,3125
Catego ry ( up per limits) Category ( upper limits)

p =0,00 < 0,05 => Ho отвергается p =0,28 > 0,05 => принимается Ho
5. Проверка на возможность аппроксимации гамма распределением
Var iab le: H1 , Distribution: Gamma Variable: H2, Distribution: Gamma
Chi- Squar e test = 0,34286, d f = 1 (adjust ed) , p = 0,558 18 Chi- Square test = 1,51017, df = 1 ( adjusted) , p = 0,21911
9 8

8 7

7
6

6
5
5
4
4
3
No. of observations
N o. of obs erv ations

2
2

1
1

0 0
3, 90 4,1 6 4,42 4,68 4,94 5 ,20 5, 46 5,72 5,98 6,24 6,50 3,80 3,85 3,90 3,95 4,00 4,05 4,10 4,15 4,20 4,25 4,30

Catego ry ( up per limits) Category ( upper limits)

p =0,56 > 0,05 => принимается Ho p =0,22 > 0,05 => принимается Ho

Сравнение средних Ho: генеральное среднее для Н1 = генер-му среднему для Н2


Пере- Сред- Среднее t-зна- число ур. зна-
менные нее Н1 Н2 чение ст. св. чимо-
сти
Mean Mean t-value df p если дисперсии однородны
H1 vs. H2 5,10 3,99 13,01 58,00 0,00

t separ. df p если дисперсии неоднородны


13,01 36,11 0,00 p =0,00 < 0,05 => Ho отвергается
Среднее Н1 не равно Среднему Н2
Проверка дисперсий на однородность Но: дисперсии однородны
Объем Объем Ст. откл. Ст. откл. F- отно- ур. зна-
выборки выборк Н1 Н2 шение чимо-
Н1 и Н2 сти
Valid N Valid N Std.Dev. Std.Dev. F-ratio p
30 30 0,44 0,16 8,03 0,00
p =0,00 < 0,05 => Ho отвергается => дисперсии неоднородны

72
Отчет 3. Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:

Результаты дисперсионного анализа


Нулевая гипотеза: Средние по градациям фактора равны
Составля Сумма Число ст. Средний Уровень
ющие квадратов свободы квадрат F-критерий значимости
SS Degr. of MS F p Принимается:
freedom
Фактор 1 Herbicids 4246 3 1415 3,146 0,064199 Но:
Фактор 2 Fertilizer 33039 3 11013 24,475 0,000003 Н1:
Взаимо- Herbicids*F
4186 9 465 1,034 0,455866
действие ertilizer Но:
Случ.
Error 7200 16 450
составл.
Выводы: На урожай влияет доза удобрения

Herb icids ; Unw eight ed Me ans Доза Средний Ошибка 95% Доверительный
Cu rrent effec t: F(3, 16)= 3,145 5, p= ,0542 0
Effec tive h ypoth esis decom pos ition
Ve rtical bars deno te 0,9 5 co nfiden ce in terva ls
гербицида урожай среднего интервал для
2 40 кукурузы среднего
2 30 Herbicids Maize yeilds Maize yeilds Maize yeilds Maize yeilds
2 20 0 181,5 7,5 165,6 197,4
2 10
10 186,8 7,5 170,9 202,7
20 211,9 7,5 196,0 227,8
2 00
30 190,6 7,5 174,7 206,5
1 90
Ma ize ye ilds

1 80

1 70

1 60

1 50
0 10 20 30
H erbic ids

Fertil izer; U nwe ighted Mea ns Доза Средний Ошибка 95% Доверительный
Cur rent e ffect : F(3, 16)=2 4,475 , p=, 00000
E ffect ive hypothe sis d ecom posi tion
Ve rtical bars denot e 0,9 5 con fiden ce in terval s
удобрения урожай среднего интервал для
28 0 кукурузы среднего
26 0 Fertilizer Maize yeilds Maize yeilds Maize yeilds Maize yeilds
24 0 0 147,7 7,5 131,8 163,6
22 0
1 182,6 7,5 166,7 198,5
20 0
2 204,6 7,5 188,7 220,5
3 235,9 7,5 220,0 251,8
18 0
Maiz e ye ilds

16 0

14 0

12 0

10 0
0 1 2 3
Fert ilizer

Сравнение средних по градациям Herbicids Но: среднее по градации 0 и среднее по градации


LSD test -НЗР фактора гербицид 10 - равны
Herbicids {1} {2} {3} {4}
1 0 0,628631 0,011394 0,404136 Выводы: отличаются средние 1 и 3,
2 10 0,628631 0,031016 0,720759 2 и 3, 3 и 4
3 20 0,011394 0,031016 0,062661
4 30 0,404136 0,720759 0,062661

Newman-Keuls test -Критерий Ньюмена-Койлса


Herbicids {1} {2} {3} {4}
1 0 0,628774 0,050390 0,674219 Выводы: отличаются средние 1 и 3,
2 10 0,628774 0,075298 0,720889 3и4
3 20 0,050390 0,075298 0,062788
4 30 0,674219 0,720889 0,062788

73
Отчет 3 (продолжение). Дисперсионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Сравнение средних по градациям Fertilizer Но: среднее по градации 0 и среднее по градации
LSD test -НЗР фактора удобрение 1 равны
{1} {2} {3} {4}
0 1 2 3
147,7 182,6 204,6 235,9
1 0 0,004592 0,000063 0,000000 Выводы: отличаются средние 1 и 2,
2 1 0,004592 0,054756 0,000126 1 и 3, 1 и 4, 2 и 4, 3 и 4
3 2 0,000063 0,054756 0,009488
4 3 0,000000 0,000126 0,009488

Newman-Keuls test -Критерий Ньюмена-Койлса


Fertilizer {1} {2} {3} {4}
0 1 2 3
147,7 182,6 204,6 235,9
1 0 0,004733 0,000319 0,000186 Выводы: отличаются средние 1 и 2,
2 1 0,004733 0,054889 0,000484 1 и 3, 1 и 4, 2 и 4, 3 и 4
3 2 0,000319 0,054889 0,009645
4 3 0,000186 0,000484 0,009645

Изменение средних значений по взаимодействию градаций факторов

Her bicids *Fer tilizer ; LS Means


Current effect: F( 9, 16)=1,0337, p=,45587
Eff ectiv e hypothes is decomposition
V ertical bars denote 0,95 confidence intervals
320
300
280

260
240
220
200

180
Maize yeilds

160
Fertiliz er
140
0
120 Fertiliz er
1
100 Fertiliz er
2
80
0 10 20 30 Fertiliz er
3
Her bicids

Условия применимости дисперсионного анализа:


Проверка однородности дисперсий Но: дисперсии однородны по градациям фактора …
Харлета Кохрена Бартлетт Число ст. Уровень
а свободы значимости

Hartley Cochran Bartlett df p


Effect: "Herbicids" - фактор гербициды
Maize yeilds 2,849967 0,387237 3,045968 3 0,384592 Но:
Effect: "Fertilizer" - фактор удобрение
Maize yeilds 2,502890 0,380452 1,862968 3 0,601329 Но:
Effect: "Herbicids"*"Fertilizer" - взаимодействие
Maize yeilds 43261,21 0,428664 23,54733 15 0,073190 Но:

74
Отчет 4. Регрессионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Результаты дисперсионного анализа. Регрессия как фактор.
Источник варьиро- Сумма числ.ст. средний F-критерий уровень Но: предсказание Y по регрес-
вания квадр. свободы. квадрат значим.
сионной модели не лучше
Sums of df Mean F p-level
Squares Squares предсказания Y по его среднему
Регрессия Regress. 42,541 5 8,50816 145,76 0,000
Остатки Residual 0,817 14 0,05837
Сумма Total 43,358
Вывод: Но - отвергается, модель можно считать адекватной и использовать для предсказания Y

Результаты расчета регрессии для переменной : Yield (Example_for_n4)


R= ,99468326 RІ(коэф. детерминации)= ,98939479 скорректированный RІ= ,98740631
F(3,16)=497,56 p<,00000 Стандартная ошибка: 0,18699
стандартизир. перем. обычные перем.
коэфф. станд.ош. коэфф. станд.ош. t-крит. уровень
Intercpt - BETA BETA B коэфф-тов В t(16) значим. Но:
Св.член 4,298 1,676 2,564 0,022 bo=0 Ho -> H1
Humus 0,122 0,0399 0,906 0,297 3,048 0,009 b1=0 Ho -> H1
P2O5 1,140 0,0437 0,517 0,020 26,099 0,000 b2=0 Ho -> H1
pH -0,020 0,0396 -0,077 0,155 -0,493 0,629 b3=0 Ho
K2O 0,580 0,0445 0,308 0,024 13,055 0,000 b4=0 Ho -> H1
NO3 -0,001 0,0395 -0,002 0,139 -0,016 0,987 b5=0 Ho
Yield= 4,29+0,91 * Humus + 0,52 * P2O5 + 0,31*K2O
Коэффициенты корреляции между переменными
Humus P2O5 pH K2O NO3 Yield
Humus 1,00 -0,08 0,31 0,06 0,23 0,06
P2O5 -0,08 1,00 -0,16 -0,50 0,11 0,84
pH 0,31 -0,16 1,00 0,21 0,01 -0,04
K2O 0,06 -0,50 0,21 1,00 0,17 0,02
NO3 0,23 0,11 0,01 0,17 1,00 0,25
Yield 0,06 0,84 -0,04 0,02 0,25 1,00
Correlations (data_zan_4_a.sta 6v*20c)
Hu m u s

P 2O5

K2 O

Yield

75
Отчет 4 (продолжение). Регрессионный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Гистограмма для остатков Остатки на нормальном вероятностном графике
Distr ibu tion of Raw r esiduals Nor mal Pr obability Plot of Re siduals
Ex pecte d Nor ma l 2,0
7

1,5
6
1,0

5
0,5

4 0,0

- 0,5
3
No of obs

Expe cted Normal Valu e


- 1,0
2

- 1,5
1
- 2,0
- 0,3 - 0,2 - 0,1 0,0 0,1 0, 2 0,3 0,4
0 Re siduals
-0 ,4 - 0,3 -0 ,2 - 0,1 0,0 0, 1 0,2 0 ,3 0,4

График зависимости наблюдаемых значений урожая График зависимости остатков (ось у) от предсказанных
(ось y) от предсказанных значений (ось x) значений (ось x)
Pr edic ted v s. O bser ve d V alue s Pr edic ted vs. Residual Sc or es
Depen dent var iab le: Yield Depend ent var iab le: Y ield
19 0,4

18
0,3

17
0,2

16
0,1
15

0,0
R esidu als

14
O bserved Valu es

- 0,1
13

- 0,2
12

11 - 0,3
11 12 13 14 15 16 17 18 19 11 12 13 14 15 16 17 18 19

Pr ed icte d V alue s 95 % conf idenc e Pred icted V alues 95% c onf idence

Результаты пошаговой регрессии с включением (Forward)

БЕТА Стд.Ош. B Стд.Ош. B t(17) p-уров.


БЕТА
Св.член 3,937 1,153 3,413 0,004
P2O5 1,141 0,040 0,517 0,018 28,550 0,000
K2O 0,577 0,040 0,306 0,021 14,459 0,000
Humus 0,116 0,035 0,863 0,259 3,332 0,004
Yield= 3,94 + 0,52 * P2O5 + 0,31* K2O + 0,86 * Humus

Итоги по шагам
Шаг +в /- Множест. Множест. R-квадр. F- p-уров. Перем.
ис R R-квадр. измен. вкл/искл включ.
P2O5 1 0,8450 0,7140 0,7140 44,9294 0,0000 1
K2O 2 0,9836 0,9675 0,2536 132,7081 0,0000 2
Humus 3 0,9904 0,9808 0,0133 11,0999 0,0042 3

76
Отчет 5. Кластерный анализ Дата проверки: Подпись преподавателя:
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
1. Иерархическая классификация
Tree Diagram for 30 Cas es
Single Link age
Euclidean dist ances
10

4
L in k a g e D is ta n c e

0
C C C C C A2B B B A2B A1 A2 A2 A2 A1 A1
B C B B C A2B A2B A2B A1 A1 A2 A2 A2B A2 A1

Tree Diagram for 30 Cases


Ward`s method
Euclidean distances
250

200

150

100
Lin ka ge D is tan ce

50

0
C C B B C A2B A2B B A2B A2 A2 A2B A2 A1 A1
C C C B B B A2B A2B A2 A2 A2 A1 A1 A1 A1
Tree Diagram for 5 Variables Tree Diagram for 5 Variables
Single Linkage Ward`s method
Euclidean distances Euclidean distances
120 350

100 300

250
80

200
60
150

40
L in ka ge D ista nce

Linkage D ista nce

100

20 50

0 0
G IL PHS V C G IL PHS V C

77
Отчет 5 (продолжение). Кластерный анализ Дата проверки: Подпись преподавателя:
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Метод K-средних 3 кластера
Analysis of Variance (pc_kla.sta)- Дисперсионный анализ
Признаки Between Within signif.
SS df SS df F p
Сумма кв. Число ст. Сумма кв. Число ст.
между свободы между свободы
классами классами Уровень
значимости
C 41,253422 2 89,541245 27 6,219717 0,0060027
PHS 0,4869745 2 1,8676891 27 3,519941 0,0438099
IL 2881,6445 2 291,72192 27 133,3537 1,015E-14 Members of Cluster 3
G 2422,0554 2 256,64453 27 127,4048 1,774E-14 N=13
V 0,5615084 2 0,5753129 27 13,17607 0,0001016 A1 раз.1 C_1
A2 раз.1 C_2
Объекты 1-го кластера Members of Cluster 2 A1 раз.2 C_6
N=8 N=9 A2 раз.2 C_7
B раз.1 C_4 A2B раз.1 C_3 A1 раз.3 C_11
C раз.1 C_5 A2B раз.2 C_8 A2 раз.3 C_12
B раз.4 C_19 B раз.2 C_9 A2B раз.3C_13
C раз.4 C_20 C раз.2 C_10 A1 раз.4 C_16
B раз.5 C_24 B раз.3 C_14 A2 раз.4 C_17
C раз.5 C_25 C раз.3 C_15 A1 раз.5 C_21
B раз.6 C_29 A2B раз.4 C_18 A2 раз.5 C_22
C раз.6 C_30 A2B раз.5 C_23 A1 раз.6 C_26
A2B раз.6 C_28 A2 раз.6 C_27
Plot of Means for E ach Cluster Plot of Means for Each C lust er
70 70

60 60

50 50

40 40

30 30
Cluster
20 20 No. 1
Cluster
No. 2
10 10
Cluster Cluster
No. 1 No. 3
0 Cluster 0 Cluster
No. 2 No. 4
Cluster Cluster
-10 -10
C PHS IL G V No. 3 No. 5
C P HS IL G V
Variables Variables

5 кластеров
Analysis of Variance (pc_kla.sta)
Between Within signif.
SS df SS df F p
C 122,03867 4 8,7559967 25 87,11078 2,655E-14
PHS 0,5546677 4 1,7999959 25 1,925934 0,1373336
IL 2947,4778 4 225,88867 25 81,55228 5,694E-14
G 2455,95 4 222,75 25 68,90993 3,928E-13
V 0,5645458 4 0,5722755 25 6,165581 0,0013542

Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5


N=9 N=8 N=3 N=2 N=8
A2B раз.1 C_3 B раз.1 C_4 A1 раз.1 C_1 A1 раз.5 C_21 A2 раз.1 C_2
A2B раз.2 C_8 C раз.1 C_5 A1 раз.2 C_6 A1 раз.6 C_26 A2 раз.2 C_7
B раз.2 C_9 B раз.4 C_19 A1 раз.4 C_16 A1 раз.3 C_11
C раз.2 C_10 C раз.4 C_20 A2 раз.3 C_12
B раз.3 C_14 B раз.5 C_24 A2B раз.3C_13
C раз.3 C_15 C раз.5 C_25 A2 раз.4 C_17
A2B раз.4 C_18 B раз.6 C_29 A2 раз.5 C_22
A2B раз.5 C_23 C раз.6 C_30 A2 раз.6 C_27
A2B раз.6 C_28

78
Отчет 6. Метод главных компонент Дата проверки: Подпись преподавателя:
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.

Кумулятивые
Собствен. % общей Собствен. % общей
значения дисперсии значения дисперсии
Eigenvalue % Total Cumulati- Cumulative
ve eigenv. %
1 2,804818 56,09637 2,804818 56,0964
2 0,930753 18,61505 3,735571 74,7114
3 0,728369 14,56737 4,463940 89,2788
4 0,420163 8,40325 4,884102 97,6820
5 0,115898 2,31795 5,000000 100,0000 Проекция переменных на 1-у и 2-ю ГК
Projection of the variables on the factor-plane ( 1 x 2)
Факторные координаты переменных
на основе корреляций 1,0 pH
Factor 1 Factor 2
ГК1 ГК2
Humus 0,621709 -0,144134
pH -0,377633 0,904197 0,5
iL -0,927706 -0,245346
Glina -0,870322 -0,162209
V 0,810919 0,076803 V
0,0
Координаты наблюдений Glina Humus
при проекции на ГК iL
ГК1 ГК2 Горизонт
Factor 2 : 18,62%

Factor 1 Factor 2 Horizon


-0,5
1 1,02216 -0,47805 A1
2 0,82514 0,88702 A2
3 -0,22044 -0,46713 A2B
4 -1,29634 -0,85073 B
5 -2,08427 -0,19385 C -1,0
6 2,03219 0,30616 A1 -1,0 -0,5 0,0 0,5 1,0
7 1,30108 0,14997 A2
Factor 1 : 56,10%
8 0,62423 1,76254 A2B
9 -0,19439 -0,81788 B
10 -0,34215 -0,58350 C
11 1,59913 -0,15137 A1
12 1,21859 1,19874 A2 График каменной осыпи
13 -0,17538 1,26837 A2B
14 -2,35219 1,30557 B
Eigenvalues of correlation matrix
15 -2,53471 -0,59746 C
Active variables only
16 1,14668 -0,35424 A1 3,5
17 2,36850 -0,40942 A2
18 0,44697 -0,51262 A2B 3,0
56,10%
19 -1,43035 -1,37522 B
20 -1,67325 2,15893 C 2,5

21 2,87122 -0,98677 A1
2,0
22 1,79848 1,32774 A2
23 -0,66253 -0,32805 A2B
1,5
24 -1,40778 -1,28481 B
25 -2,18431 0,17789 C
Eigenvalue

1,0 18,62%
26 2,22900 -0,41996 A1 14,57%

27 1,89510 -0,08779 A2 0,5 8,40%


28 -0,29709 0,24098 A2B 2,32%
29 -1,36040 -1,73988 B 0,0
30 -3,16288 0,85479 C
-0,5
0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0
Eigenvalue number

79
Отчет 6 (продолжение). МГК и Дискриминантный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:
Проекция наблюдений на ГК1 И ГК2

Projection of the cases on the factor-plane ( 1 x 2)


Cases with sum of cosine square >= 0,00
Labelling variable:Horizon
4

C
2 A2B
B A2B A2 A2
1 C A2

C A2B A1
A2
0 C A1A2
A2BA2B A1
A1 A2
A1
C C A2B
B B
A1
-1 B
B
Factor 2: 18,62%

B
-2

-3

-4
-5 -4 -3 -2 -1 0 1 2 3 4 5
Factor 1: 56,10%

Результаты дискриминантного анализа


Итоги анализа дискриминантной функции
Число переменных в моделе: 5; Группирующая Horizon (5 grps)
Лямбда Уилкса: ,03214 прибл.. F (20,70)=6,4221 p< ,0002

Уилкса Частная Уровень Толерантност 1-Толер.


лямбда лямбда F-исключ. значимости ь (R-кв.)
Wilks' Partial F-remove p-level Toler. 1-Toler.
Lambda Lambda -4,21 (R-Sqr.)
Humus 0,104428 0,307773 11,80802 0,000035 0,83096 0,16904
pH 0,038698 0,830533 1,07124 0,395549 0,925299 0,074701
iL 0,043655 0,736232 1,88091 0,151337 0,617279 0,382721
Glina 0,040627 0,791097 1,38635 0,272695 0,608977 0,391023
V 0,049667 0,647108 2,86302 0,048736 0,837269 0,162731

80
Отчет 6 (продолжение). Дискриминантный анализ
Студент Неизвестный Н.Н. Кафедра географии. Вариант 100.
Дата проверки: Подпись преподавателя:

Классификационная функция
Classification Functions; grouping: VAR2 (pc_kla.sta)
B A1 A2 A2B C
p=,20000 p=,20000 p=,20000 p=,20000 p=,20000
C 0,7 4,0 1,9 1,1 0,6
PHS 89,8 85,3 87,2 91,4 95,0
IL 1,4 -0,6 -1,0 0,4 1,8
G 2,1 2,3 2,3 2,1 2,1
V 41,7 72,5 76,9 55,7 35,2
Consta -265,3 -232,1 -232,1 -254,0 -301,8

Классификационная матрица
Classification Matrix (pc_kla.sta)
Rows: Observed classifications - строки : Наблюдаемая классификация
Columns: Predicted classifications - предсказания
Percent B A1 A2 A2B C
Correct p=,20000 p=,20000 p=,20000 p=,20000 p=,20000
Процент правильной классификации
B 66,7 4 0 0 1 1
A1 66,7 0 4 2 0 0
A2 100,0 0 0 6 0 0
A2B 100,0 0 0 0 6 0
C 83,3 1 0 0 0 5
Total 83,3 5 4 8 7 6

Апостеририорные вероятности
Posterior Probabilities (data_zan_5_6) Incorrect classifications are marked with *
Observed A1 A2 A2B B C
1 A1 0,999084 0,000666 0,000247 0,000003 0,000000
2 A2 0,006776 0,930802 0,062290 0,000106 0,000025
3 A2B 0,000001 0,001540 0,583571 0,313252 0,101636
4 B 0,000000 0,000001 0,025817 0,721818 0,252364
5 C 0,000000 0,000000 0,006276 0,335943 0,657782
6 A1 0,646745 0,353186 0,000069 0,000000 0,000000
7 A2 0,000120 0,991941 0,007922 0,000015 0,000001
8 A2B 0,000203 0,381981 0,617606 0,000115 0,000096
* 9 B 0,000002 0,002368 0,484000 0,453401 0,060229
* 10 C 0,000000 0,000240 0,568432 0,335546 0,095782
* 11 A1 0,310134 0,294119 0,395648 0,000095 0,000004
12 A2 0,000487 0,949403 0,050101 0,000007 0,000001
13 A2B 0,000002 0,005073 0,971755 0,007574 0,015596
* 14 B 0,000000 0,000000 0,008140 0,062747 0,929113
15 C 0,000000 0,000000 0,000348 0,402088 0,597565
16 A1 0,774727 0,196370 0,028784 0,000116 0,000003
17 A2 0,000224 0,989558 0,010217 0,000001 0,000000
18 A2B 0,000070 0,004454 0,976331 0,017791 0,001354
19 B 0,000000 0,000001 0,006878 0,887244 0,105877
20 C 0,000000 0,000107 0,097017 0,041255 0,861621
21 A1 0,999998 0,000002 0,000000 0,000000 0,000000
22 A2 0,002868 0,995681 0,001452 0,000000 0,000000
* 23 A2B 0,000005 0,001086 0,438781 0,470973 0,089154
24 B 0,000000 0,000000 0,005690 0,821646 0,172664
25 C 0,000000 0,000000 0,000971 0,216701 0,782328
26 A1 1,000000 0,000000 0,000000 0,000000 0,000000
27 A2 0,063304 0,931947 0,004747 0,000001 0,000000
28 A2B 0,000242 0,019863 0,883921 0,079929 0,016046
29 B 0,000000 0,000000 0,004779 0,924543 0,070678
30 C 0,000000 0,000000 0,000444 0,076238 0,923319

81
Вопросы к теоретическому курсу
1. Понятие об испытании в многомерном статистическом анализе.
2. Многомерные случайные величины. Представление данных в формаль-
ном виде.
3. Этапы анализа исследуемой реальной системы.
4. План сбора исходной информации в почвоведении.
5. Первичная обработка данных.
6. Случайный вектор. Понятие ковариации.
7. Классификация типов данных и выбор способа анализа зависимостей.
8. Исследование зависимостей в случае многомерных данных.
9. Обобщение одномерных дисперсионных моделей на многомерный слу-
чай.
10. Разложение дисперсий при многомерном дисперсионном анализе.
11. Обобщение одномерных регрессионных моделей на многомерный слу-
чай.
12. Пошаговая регрессия
13. Статистическая значимость параметров регрессии и ее оценка.
14. Множественный и частный коэффициент корреляции.
15. Сходство и различие почвенных объектов.
16. Понятие расстояния между объектами. Виды расстояний.
17. Кластерный анализ. Иерархические схемы классификации.
18. Понятие о дискриминантном анализе.
19. Метод главных компонент.
20. Визуализация многомерных наблюдений.

82
ОГЛАВЛЕНИЕ:
Занятие 1. Ввод данных. Описательная статистика (анализ единичной
выборки). Анализ распределений. Гистограммы 3
Вопросы к занятию 1 13
Занятие 2. Проверка гипотез о типе распределения. Сравнение средних 14
Вопросы к занятию 2 20
Занятие 3. Двухфакторный дисперсионный анализ 21
Вопросы к занятию 3 30
Занятие 4. Регрессионный анализ 31
Вопросы к занятию 4 43
Занятие 5. Кластерный анализ 44
Вопросы к занятию 5 53
Занятие 6 . Метод главных компонент и дискриминантный анализ 54
Вопросы к занятию 6 67
Пример оформления отчета 68
Вопросы к теоретическому курсу 82

83
Юлия Львовна Мешалкина, Вера Петровна Самсонова

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА
В ПОЧВОВЕДЕНИИ
Практикум

84

Вам также может понравиться