Вы находитесь на странице: 1из 7

1

Основы дисперсионного анализа.


Назначение дисперсионного анализа (ANOVA). Нулевая гипотеза при дисперсионном анализе. Расчет
внутри- и межгрупповой дисперсий при однофакторном анализе с равномерным дисперсионным комплек-
сом. F-критерий Фишера. Определение внутри- и межгруппового числа степеней свободы. Однофактор-
ный дисперсионный анализ повторных измерений.
Допущения дисперсионного анализа. Проверка нормальности распределения данных: визуальный анализ
гистограммы распределения, использование нормальной вероятностной бумаги, тесты Колмогорова-
Смирнова и Шапиро-Уилка. Проверка равенства групповых дисперсий: тесты Бартлетта, Левене,
Кохрана, F-тест Хартли.
Эффект множественных сравнений. Апостериорный (post-hoc) анализ и его методы: тесты Тьюки, Нью-
мена-Кейлса, Шеффе, Даннета. Непараметрические аналоги однофакторного дисперсионного анализа:
Н-тест Крускала-Уоллиса и тест Фридмана.
Признаки (переменные), изменяющиеся под воздействием тех или иных причин,
называют результативными. Причины, вызвавшие изменение величины результатив-
ного признака, принято называть факторами. На каждый признак всегда действует до-
статочно большое число факторов. Но отследить или отрегулировать можно лишь неко-
торые из них; их называют регулируемыми или организованными факторами в отли-
чие от факторов, которые не подвергаются регулированию, хотя они тоже оказывают
воздействие на величину результативного признака. Обычно каждый регулируемый фак-
тор имеет несколько независимых друг от друга групп или градаций. Градации обозна-
чают теми же буквами, что и факторы (градации фактора А: А1. A2. A3, градации фактора
В: В1, В2, В3).
Пример. Для изучения влияния кобальта на рост кроликов проводился опыт на 4
опытных и 1 контрольной группах. Все группы животных содержались на одном и том
же кормовом рационе. Но опытные кролики ежедневно получали добавку хлористого
кобальта в виде водного раствора по: 1 группа - 0,02 г на 1 кг веса; 2 группа – 0,05 г на 1
кг веса; 3 группа – 0,10 г на 1 кг веса; 4 группа – 0,15 г на 1 кг веса;. За время опыта
животные дали прибавки в массе (г). Достоверны ли различия в прибавке массы в опыт-
ных и контрольной группах?
Таблица 3 – количество яиц в гнездах кряквы
опыт контр
1 2 3 4 5
800 820 880 750 720
790 810 870 820 640
810 820 920 750 700
780 860 950 740 740
850 800 970 790 650
810 900 900 840 750
850 930 980 770 690
830 840 910 830 680
2
В этом примере Х (А) – изучаемый результативный признак – прибавка в массе
(г). Увеличение массы могут вызвать факторы: порода кроликов, питание, условия со-
держания и.т.д. В данном исследовании контролировался только один фактор – добавка
хлористого кобальта в виде водного раствора к кормовому рациону – это и есть регули-
руемый фактор. Остальные факторы тоже влияли на увеличение массы, но они не регу-
лировались, то есть это – нерегулируемые факторы. Всего было 4 опытные группы жи-
вотных, различающиеся между собой разной концентрацией добавки хлористого ко-
бальта к пище (0,02 г/1 кг – 0,15 г/1 кг), значит, имеется 5 градаций фактора (5-ая –
контрольная группа, в которой концентрация кобальта была 0 г/1 кг).
Дисперсионный анализ (от лат. Dispersio – рассеивание) – статистический метод,
позволяющий анализировать влияние различных факторов на исследуемую переменную
(изучаемый признак). Метод был разработан Р. Фишером в 1925. Целью дисперсионного
анализа является проверка значимости различия между средними с помощью сравнения
дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каж-
дое из которых характеризует влияние того или иного фактора или их взаимодействия.
Последующее сравнение таких слагаемых позволяет оценить значимость каждого изуча-
емого фактора, а также их комбинации.
Если испытывают действие на признак одного регулируемого фактора, дисперси-
онный комплекс будет однофакторным, если одновременно исследуют действие на
признак двух, трех или большего числа регулируемых факторов, комплекс называют
двух-, трех- и многофакторным
Иногда дисперсионный анализ применяется, чтобы установить однородность не-
скольких совокупностей, которые можно объединить в одну и тем самым получить о ней
более полную информацию, следовательно, и более надежные выводы.
Дисперсионный анализ подобно t-критерию Стьюдента, позволяет оценить разли-
чия между выборочными средними; однако, в отличие от t-критерия, в нем нет ограни-
чений на количество сравниваемых средних.
При проведении дисперсионного анализа должны выполняться следующие ста-
тистические допущения: изучаемые варианты сравниваемых выборок должны иметь
нормальный закон распределения и одинаковую дисперсию. Равенство дисперсий назы-
вается гомогенностью. Говорят, что техника дисперсионного анализа является «робаст-
ной». Этот термин означает, что данные допущения могут быть в некоторой степени
нарушены, но, несмотря на это, технику можно использовать.
Приблизительную оценку близости изучаемого распределения к нормальному
можно провести с помощью некоторых графических методов. Визуальная проверка вида
3
распределения производится с помощью гистограммы. Гистограмма позволяет «на глаз»
оценить нормальность эмпирического распределения. На гистограмму можно также
наложить кривую нормального распределения. Гистограмма позволяет качественно оце-
нить различные характеристики распределения. Например, на ней можно увидеть, что
распределение бимодально (имеет 2 пика). Это может быть вызвано, например, тем, что
выборка неоднородна, возможно, извлечена из двух разных популяций, каждая из кото-
рых имеет более или менее нормальное распределение. В таких ситуациях, чтобы понять
природу наблюдаемых переменных, можно попытаться найти качественный способ раз-
деления выборки на две части.

График на нормальной вероятностной бумаге (нормальный вероятностный график).


Эти графики позволяют визуально исследовать, насколько распределение дан-
ных близко к нормальному.
Стандартный нормальный вероятностный график строится следующим образом.
1. все значения переменной ранжируются.
2. по рангам рассчитываются z – значения (ожидаемые значения).
3. значения z откладываются по оси Y, наблюдения – по оси X.
Если наблюдаемые значения распределены нормально, то все значения на гра-
фике должны попасть на прямую линию. Если значения не являются нормально распре-
деленными, то будет наблюдаться отклонение от прямой. На таком графике можно ви-
зуально обнаружить выбросы.

Данные не распределены по нормальному закону.

Более точную информацию о форме распределения можно получить с помощью


критериев нормальности: критерия Колмогорова-Смирнова или W-критерия Шапиро-
Уилка. Критерии, проверяющие нормальность выборки, являются частным случаем кри-
териев согласия. Если выборка нормальна, можно далее применять мощные параметри-
ческие критерии, например, критерий Фишера.
4
Критерий Шапиро-Уилка используется для проверки гипотезы: «случайная ве-
личина распределена нормально» и является одним наиболее эффективных критериев
проверки нормальности.
Критерий Колмогорова-Смирнова уместно применять в тех случаях, когда
нужно проверить, подчиняется ли наблюдаемая случайная величина некоторому закону
распределения или является ли выборка равномерно распределённой. То есть, при по-
мощи критерия Колмогорова-Смирнова определяется, описывает ли заданная функция
наблюдаемое распределение X, в то время как для проверки нормальности требуется
выяснить, принадлежит ли функция распределения величины X параметрическому се-
мейству функций.
При анализе дисперсий, кроме исследования формы распределения, проверяют
равенство групповых дисперсий с помощью критериев (тестов) Бартлетта, Левене,
Кохрана и F-теста Хартли.
Критерий Бартлетта является параметрическим, основан на дополнительном
предположении о нормальности выборок данных, позволяет проверять равенство дис-
персий нескольких (двух и более) выборок. Нулевая гипотеза предполагает, что рассмат-
риваемые выборки получены из генеральных совокупностей, обладающих одинаковыми
дисперсиями. F-тест Хартли по результату аналогичен тесту Бартлетта.
Критерий Левена (однородности дисперсии). Для каждой переменной, прово-
дится дисперсионный анализ абсолютных отклонений наблюдаемых значений от соот-
ветствующих средних по группам. Если критерий Левена является статистически значи-
мым, гипотеза об однородности дисперсии должна быть отвергнута.
Тест Кохрана – непараметрический статистический тест на определение одно-
родности изучаемых выборок.
Если доказано, что результативный признак, на который действует один регули-
руемый фактор, в исследуемых выборках распределяется по нормальному закону и по-
казано равенство дисперсий, проводят однофакторный дисперсионный анализ.
Однофакторный дисперсионный анализ заключается в разложении общей измен-
чивости признака на составные части:
1. вариацию, определяемую действием изучаемого (регулируемого) фактора;
2. вариацию, вызываемую случайными (нерегулируемыми) в данном опыте факторами.
Чтобы выделить степень влияния фактора на признак, рассчитывают несколько
видов дисперсий:
1. общую,
2. межгрупповую,
5
3. внутригрупповые.
Общая дисперсия отражает изменчивость признака под влиянием всех факторов,
как учтенных, так и не учтенных в исследовании, и рассчитывается как средний квадрат
отклонений индивидуальных значений признака от средней величины. Межгрупповая
(факторная) дисперсия выражает изменчивость изучаемого признака только под влия-
нием регулируемого фактора и рассчитывается как отклонение средних значений, рас-
считанных в каждой группе, от общей средней. Внутригрупповые (остаточные) дис-
персии отражают изменчивость результативного признака под влиянием всех других,
неучтенных в исследовании признаков (исключая влияние регулируемого фактора) и
рассчитываются как отклонения индивидуальных значений от групповой средней.
Схема проведения однофакторного дисперсионного анализа
1. Исходные данные группируют в виде комбинационной таблицы, где n – численность
вариант в каждой из градаций дисперсионного комплекса, а – число градаций фактора
А, N – общее число наблюдений, или объем комплекса (N = n∙а).
2. Формулируют гипотезы:
Н0: разность между генеральными средними значениями нескольких сравнива-
емых групп с одинаковыми дисперсиями равна нулю, различия, наблюдаемые между
выборочными показателями, вызваны случайными причинами, а не влиянием на признак
регулируемого фактора.
Н1: разность между генеральными средними значениями нескольких сравнива-
емых групп с одинаковыми дисперсиями не равна нулю, различия, наблюдаемые между
выборочными показателями, вызваны систематическим влиянием на признак регулиру-
емого фактора.
3. Рассчитывают вспомогательные величины:
n
Для каждой градации фактора А рассчитывают сумму вариант xi по повторностям x
i 1
i

a n a n
, суммируют эти суммы j 1
( x ji ) , результат возводят в квадрат [  ( x ji ) ]2, полу-
i 1 j 1 i 1

чают сумму №1.


n n
Суммы вариант xi по повторностям  xi возводят в квадрат [  xi ]2, суммируют эти
i 1 i 1

a n
суммы 
j 1
( x ji ) 2 , результат делят на количество повторностей n, получают сумму №2.
i 1
6
Возводят в квадрат каждую варианту выборки, не обращая внимания на градации, рас-
N
считывают сумму всех квадратов  ( x ) 2, получают сумму №3.
i 1
i

4. Сумму №1 делят на общее число наблюдений N и получают величину H


a n
[ ( x ji )]2
H j 1 i 1

N
5. Высчитывают соответствующие девиаты, используя следующее равенство:
Dy = Dx + De,
где Dx – межгрупповая девиата, De – внутригрупповая девиата, Dy – общая девиата.
В однофакторном анализе Dx = DA, Dy = summa №3 – H; DA = summa №2 – H;
De = Dy – DA,
6. Определяют числа степеней свободы k:
ky = N – 1; для общего варьирования;
kA = a – 1; для факториального варьирования;
ke = (N – 1) – (a – 1) = N – a; для внутригрупповой (остаточной) вариации.
Равенство: ky = kx + ke позволяет контролировать правильность расчета чисел степеней
свободы.
7. Делением девиат на соответствующие числа степеней свободы получают выборочные
дисперсии:
Dy DA De
S y2  S A2  S e2 
ky kA ke
Sy2 – общая дисперсия; SA2 – межгрупповая; Se2 – внутригрупповая.
8. Определяют дисперсионное отношение Fф, по которому судят о действии фактора А
на результативный признак:

S A2
Fфакт  2
Se
Вывод: если фактически установленная величина Fф больше табличного значе-
ния критерия Фишера Fst для принятого уровня значимости  и чисел свободы kA и ke,
нулевую гипотезу отвергают, и эффективность действия фактора А на результативный
признак Х признают статистически достоверной, в противном случае отвергать нулевую
гипотезу нельзя.
7
Оценка силы влияния факторов. После того как достоверно установлено дей-
ствие регулируемого фактора, можно измерить силу его влияния на результативный
признак (hx2) по методу Снедекора.
S x2  Se2
h  2
2

S x  (n 1)  Se2
x

После проведения дисперсионного анализа (ANOVA) и отклонения нулевой гипо-


тезы используются процедуры для более корректного множественного сравнения пар
средних с целью выявления статистически значимых различий. Эти процедуры называ-
ются критериями множественных сравнений. Так как эти критерии применяются после
использования ANOVA, они называются апостериорными критериями (post hoc tests –
от лат «после того, как»). Апостериорные критерии особенно полезны в случаях, когда
дисперсионный анализ обнаружил различия, которые являются неожиданными для ис-
следователя, и необходимо определить, по каким именно группам эти различия наблю-
даются. Апостериорные критерии позволяют надежно идентифицировать значимые раз-
личия между парами выборочных средних. К таким методам относятся тесты Тьюки,
Ньюмена-Кейлса, Шеффе, Даннета.
Существуют критерии, которые могут применяться и до использования ANOVA,
они именуются априорными критериями (a priori tests).