Вы находитесь на странице: 1из 16

Занятие 5

ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА


Цель работы: изучить основные приёмы проведения
дисперсионного анализа с помощью функций MS Excel и с
использованием инструментов Пакета анализа:
«Однофакторный дисперсионный анализ»,
«Двухфакторный дисперсионный анализ без повторений»,
«Двухфакторный дисперсионный анализ с повторениями».
Дисперсионный анализ – статистический метод,
предназначенный для оценки влияния различных факторов на
результаты эксперимента, а также для последующего
планирования аналогичных экспериментов.
Однофакторный дисперсионный анализ
Пусть на некоторый признак Y воздействует фактор A,
который имеет m постоянных уровней. Число наблюдений на
каждом уровне n1, n2,…nm.

Уровень Результативный признак Групповая


фактора A y ij средняя
yi
A1 y 11 , y 12 ,…, y 1n 1 y1
A2 y 21 , y 22 y 1n y2
,…, 2

… … …
Am y m1 ,
y m2 ,…, ym
ym n
m
Однофакторный дисперсионный анализ применяется для
того, чтобы выяснить, влияет ли фактор Х на случайную
величину Y.
Предположим, что случайная величина Y имеет нормальный
закон распределения вероятностей с дисперсией σ 2.
Гипотезы:

1
H 0: различия между уровнями фактора не превосходят
случайные различия, т.е. исследуемый фактор не влияет на
результативный признак. Это означает, что уровни фактора не
влияют на общее среднее значение результатов эксперимента, т.
е.:
H 0 :μ 1=μ2=…=μm =μ .
H 1: различия между уровнями фактора достоверно
превосходят случайные различия, т.е. исследуемый фактор
влияет на результативный признак.
Расчётные формулы:
Групповая средняя ý i:
ni
1
ý i= ∑ y ij ; i=1 ,2 , … , m,
ni j=1
где m – уровень фактора X, ni − число наблюдений при i–ом
уровне фактора.
Общая средняя результативного признака:
m ni
1
ý= ∑ ∑ y ij ,
N i =1 j=1
где N−¿ общее число наблюдений:
m
N=∑ ni .
i=1
Общая сумма квадратов отклонений наблюдаемых значений
от общей средней:
m ni
SSобщ=∑ ∑ ( y ij − ý )2 .
i=1 j =1
Факторная (между группами) сумма квадратов отклонений
групповых средних от общей средней SSфакт, характеризующая
рассеяние между группами:
m
2
SSфакт =∑ ( ý i− ý ) ∙ ni .
i=1

2
Остаточная (внутри групп) сумма квадратов отклонений
наблюдаемых значений от своей групповой средней SSост,
характеризующая рассеяние внутри групп:
m ni
SSост =∑ ∑ ( y ij − ý i )2 .
i=1 j=1
Основное тождество дисперсионного анализа:
SSобщ=SS факт +SS ост .
SSфактхарактеризует воздействие фактора Х, SSост
характеризует воздействие случайных причин.
Число степеней свободы рассчитывается по формулам:
f общ=N −1; f факт=m−1; f ост=N −m .
Число степеней свободы связано соотношением:
f общ=f факт +f ост .
Оценки дисперсий:
2 SS общ 2 SSфакт 2 SS ост
Sобщ= ; S факт= ; S ост= .
N −1 m−1 N−m
Рассчитаем наблюдаемое значение критерия Фишера по
формуле:
S2факт
F набл= 2 .
S ост
Если F набл < F кр ( α ; f факт ; f ост ), то следует принять гипотезу
H 0 – фактор не влияет на результативный признак , в противном
случае, если F набл > F кр ( α ; f факт ; f ост ), то гипотезу H 0следует
отвергнуть, принять H 1 – фактор влияет на результативный
признак.
Пример 1. Оценить значимость различия в
производительности четырёх химических реакторов (таблица 1).
Таблица 1
Номер
Производительность, т/сут
реактора
1 200 140 170 145 165
2 190 150 210 150
3 230 190 200 190 200

3
4 150 170 150 170
Принять уровень значимости α = 0,05.
Решение
Сформулируем гипотезы.
H 0: производительность химических реакторов не отличается
друг от друга (различия в производительности незначимы).
H1: производительность химических реакторов различна
(различия в производительности значимы).
Введём исходные данные в ячейки A1:F5.
В Пакете анализа выберем инструмент «Однофакторный
дисперсионный анализ» и в окне диалога введём следующие
данные: в разделе Входные данные в поле Входной интервал
укажем $A$2:$F$5, в поле Группирование выберем по строкам,
отметим Метки в первом столбце и зададим значение Альфа:
0,05. В разделе Параметры вывода в поле Выходной интервал
укажем любую свободную ячейку, например, А8.

Результаты
В таблице ИТОГИ представлены промежуточные результаты
расчётов для каждой партии (Группы): номер реактора, число
измерений (Счет), суммы производительности по каждому
реактору (Сумма), среднее арифметическое производительности
─ групповая средняя (Среднее), групповая дисперсия
(Дисперсия).
В таблице Дисперсионный анализ представлены результаты
дисперсионного анализа: компоненты дисперсии (Источник
вариации) Между группами (Факторная) и Внутри групп
(Остаточная): SS – суммы квадратов, df – число степеней
свободы, MS – средний квадрат (факторная и остаточная
дисперсии), F – наблюдаемое значение критерия Фишера, P-
Значение – вероятность значимости и F критическое –
критическое значение критерия Фишера.
Вывод. Так как
Fнабл. =3,71  F
крит.=3 ,34 , то следует
отвергнуть гипотезу H0 и принять гипотезу H1: различие в
производительности четырёх химических реакторов значимо.

4
Рис.1. Окно диалога инструмента «Однофакторный
дисперсионный анализ»

Рис.2. Решение примера 1 с помощью инструмента


«Однофакторный дисперсионный анализ»

5
Решение примера 1 с помощью ручного расчёта
Групповые средние:
1
y 1 = ( 200+140+170+145+165 )=164
5 ;
1
y 2 = (190+ 150+210+150 )=175
4
1
y 3 = ( 230+190+200+190+200 )=202
5 ;
1
y 4 = ( 150+170+150+170 )=160
4
Общая средняя результативного признака:
1
y= ( 164⋅5+175⋅4+202⋅5+ 160⋅4 )=176 , 11
18
Общая сумма квадратов отклонений наблюдаемых значений от
общей средней:
SS общ. =( 200−176 , 11)2 + (140−176 , 11)2 + ( 170−176 , 11)2 + ( 145−176 , 11 )2 +
+ ( 165−176 , 11 )2 + (190−176 , 11)2 + ( 150−176 , 11 )2 + ( 210−176 , 11 )2 +
+ ( 150−176 , 11 )2 + ( 230−176 , 11)2 + ( 190−176 , 11 )2 + ( 200−176 , 11 )2 +
2 2 2 2
+ ( 190−176 , 11 ) + ( 200−176 , 11) + ( 150−176 , 11 ) + ( 170−176 , 11 ) +
+ ( 150−176 , 11 )2 + (170−176 , 11)2 =11577, 78
Факторная сумма квадратов отклонений групповых средних от
общей средней:
SS факт .=( 164−176 , 11 )2⋅5+ ( 175−176 , 11)2⋅4 + ( 202−176 , 11 )2⋅5+
+ ( 160−176 , 11 )2⋅4=5127 , 78
Остаточная сумма квадратов отклонений наблюдаемых значений
от своей групповой средней:
SS ост .= (200−164 )2 + ( 140−164 )2 + ( 170−164 )2 + ( 145−164 )2 + ( 165−164 )2 +
+ ( 190−175 )2 + ( 150−175 )2 + ( 210−175 )2 + (150−175 )2 + (230−202 )2 +
+ ( 190−202 )2 + ( 200−202 )2 + ( 190−202 )2 + ( 200−202 )2 + ( 150−160 )2 +
2 2 2
+ ( 170−160 ) + ( 150−160 ) + ( 170−160 ) =6450
11577,78 = 5127,78 + 6450

6
Число степеней свободы:
f общ . =N−1=18−1=17 ;
f факт.=4−1=3 ;
f ост. =18−4=14 .
Оценки дисперсий:
SS факт. 5127 , 78
S 2факт .= = =1709 , 26
m−1 3 ;
SS ост . 6450
S 2ост .= = =460 , 71
N−m 14 .
1709 ,26
F набл.= =3 ,71 F крит. ( 0,05;3;14 ) =3,34
460 , 71 ;
Так как
F набл.  F крит. (3,71 > 3,34), то следует отвергнуть
гипотезу
H 0 и принять гипотезу H : различие в
1
производительности реакторов значимо.

Двухфакторный дисперсионный анализ без повторений


Пусть на случайную величину Y воздействуют два фактора:
фактор A, который имеет n различных уровней и фактор B,
имеющий m уровней. Предположим, что взаимодействие между
факторами A и B отсутствует, а их воздействие может повлиять
только на среднее μ случайной величины Y, но никак не влияет
на её дисперсию. Выполнив по одному наблюдению над
случайной величиной Y, получаем таблицу:
Факт Фактор B
ор A B1 B2 ⋯ Bj ⋯ Bm ý i∗¿ ¿
A1 y 11 y 12 ⋯ y1 j ⋯ y1 m ý 1∗¿¿
A2 y 21 y 22 ⋯ y2 j ⋯ y2m ý 2∗¿ ¿
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
Ai yi1 yi 2 ⋯ y ij ⋯ yℑ ý i∗¿ ¿
⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯
An yn1 yn2 ⋯ y nj ⋯ y nm ý n∗¿ ¿

7
ý ¿ j ý ¿1 ý ¿2 ⋯ ý ¿ j ⋯ ý ¿m ý
Математическая модель имеет вид:
y ij =μ+α i + β j +ε ij ,
где: μ – общее среднее; α i – эффект, обусловленный влиянием i-
го уровня фактора A (i =1, 2,…, n); β j – эффект, обусловленный
влиянием j-го уровня фактора B (j=1, 2,…, m); ε ij – случайная
составляющая, обусловленная действием неучтённых факторов.
Общая средняя результативного признака:
n m
1
ý= ∑∑ y
nm i=1 j=1 ij
Среднее по строкам:
ý 1
m
i∗¿= ∑y ¿
m j=1 ij
Среднее по столбцам:
n
1
ý ¿ j= ∑y
n i=1 ij
Общая сумма квадратов отклонений наблюдаемых значений
от общей средней:
n m
2
SSобщ=∑ ∑ ( y ij − ý ) .
i=1 j =1
Cумма квадратов отклонений выборочных средних по
уровням фактора А (по строкам) от общей средней SS A :
n
SS A =m ∑ ¿ ¿¿
i =1
Cумма квадратов отклонений выборочных средних по
уровням фактора B (по столбцам) от общей средней SSB :
m
2
SSB =n ∑ ( ý ¿ j− ý ) .
j=1
Остаточная сумма квадратов отклонений SSост :

8
n m
SSост =∑ ∑ ¿ ¿ ¿ ¿
i=1 j=1
SSобщ=SS A + SSB + SS ост .
Число степеней свободы рассчитывается по формулам:
f общ=nm−1 ; f A=n−1 ; f B=m−1; f ост= ( n−1 ) ( m−1 ) .
Оценки дисперсий:
2
SS общ 2 SS A 2 SS B SS ост
S2общ= ; S A= ; SB= ;S = .
nm−1 n−1 m−1 ост ( n−1 ) ( m−1 )
Рассчитаем наблюдаемые значения критерия Фишера по
формулам:

A S 2A B S 2B
F = 2 ; F набл = 2 .
набл
Sост S ост
A
Если F набл < F кр ( α ; f A ; f ост ), то влияние фактора A следует
B
считать незначимым. Если F набл < F кр ( α ; f B ; f ост ), то влияние
фактора B следует считать незначимым.
Пример 2. В таблице 2 представлены результаты измерений
концентрации хрома в реке (в 10 -3 мг/л) в четырёх различных
местах и на трёх различных уровнях глубины в каждом месте
вблизи от участка размещения промышленных отходов. Влияют
ли местоположение отбора проб (расстояние) и глубина на
концентрацию хрома? Принять α =0,05.
Таблица 2
Глубина, Расстояние от участка, км
м 1 2 3 4
0 50 30,5 20,2 10,3
0,5 46 30,4 18 8
1 45 45 15 6
Решение
Фактор А – глубина: три уровня. Фактор В – расстояние: четыре
уровня.
Гипотезы для фактора А

9
A
H 0 : глубина не оказывает влияния на концентрацию хрома,
т. е. разница в средних значениях по строкам объясняется
случайными причинами.
H 1A : глубина оказывает влияние на концентрацию хрома, т.е.
разница в средних значениях по строкам значима.
Гипотезы для фактора В
H B0 : расстояние от участка размещения отходов не оказывает
влияния на концентрацию хрома, т.е. разница в средних
значениях по столбцам объясняется случайными причинами.
H B1 : расстояние от участка размещения отходов оказывает
влияние на концентрацию хрома, т.е. разница в средних
значениях по столбцам значима.
1. Ввести данные в ячейки A1:E4, как показано на рис. 5.
2. Загрузить Пакет анализа MS Excel.
3. Выбрать инструмент «Двухфакторный дисперсионный
анализ без повторений». Нажать кнопку ОК.
4. Ввести в окне диалога в разделе Входные данные: в поле
Входной интервал: $A$1:$E$4; Отметить: Метки. Задать
Альфа: 0,05.
5. В разделе Параметры вывода в поле Выходной интервал
указать А7 (рис. 4).

10
Рис.4. Окно диалога инструмента «Двухфакторный
дисперсионный анализ без повторений»

6. Нажать кнопку ОК. Появятся результаты, представленные на


рис. 5.
В таблице Дисперсионный анализ представлены результаты
A
дисперсионного анализа. Из таблицы следует: F набл =0,22;
F кр ( 0,05 ; 2; 6 )=5,14 ; F Bнабл=33,02; F кр ( 0,05 ; 3 ; 6 )=4,76.
A
Вывод: так как F набл=0,22 <
F Aкрит. =5,14, а F Bнабл. = 33,02
> F Bкр =4,76 , то нулевую гипотезу о том, что глубина не влияет
на концентрацию хрома следует принять, а влияние расстояния
следует признать значимым.

11
Рис.5. Результаты решения задачи 3 с помощью инструмента
«Двухфакторный дисперсионный анализ без повторений»
Двухфакторный дисперсионный анализ с повторениями
Рассмотрим двухфакторный дисперсионный анализ при
условии, что факторы могут взаимодействовать друг с другом.
Пусть при каждом сочетании уровней факторов будет проведено
k наблюдений над случайной величиной Y.
Пример 3. Исследовалось влияние на процесс органического
синтеза двух типов растворителей (A1иA2) и трёх
галогеналкилов (B1, B2 и B3). Результаты (выход полимера в
процентах) представлены в таблице:
Растворитель Галогеналкил
B1 B2 B3
13,2 4,7 53,4
13,9 5,8 48,3
A1
13,6 5,1 49,2
13,4 4,9 51,8
18,9 18,8 14
21 17,9 13,2
A2
19,9 17,5 13,5
20,4 18,6 13
При каждом сочетании типа растворителя и галогеналкила
сделано четыре параллельных опыта. Требуется оценить
значимость влияния типа растворителя и галогеналкила на
процесс синтеза при уровне значимости α =0,05.
Решение
На выход полимера могут влиять два фактора: A − тип
растворителя на уровнях A1, A2 и B – тип галогеналкила на
уровнях B1, B2, B3.
Гипотезы для фактора А
A
H 0 : тип растворителя не оказывает влияния на выход полимера.
H 1A : тип растворителя оказывает влияния на выход полимера.
Гипотезы для фактора В
H B0 : тип галогеналкила не оказывает влияния на выход
полимера.

12
B
H 1 : тип галогеналкила оказывает влияния на выход полимера.
Гипотезы для взаимодействия факторов А и В
AB
H взаимодействие типа растворителя и типа галогеналкила не
0 :
оказывает влияние на выход полимера.
H 1AB: взаимодействие типа растворителя и типа галогеналкила
оказывает влияние на выход полимера.
1. Ввести данные в ячейки A1:D9, как показано на рис. 6.

Рис.6 Исходные данные для примера 3


2. Загрузить Пакет анализа MS Excel и выбрать инструмент
«Двухфакторный дисперсионный анализ с повторениями».
3. Ввести в окне диалога: в поле Входной интервал: A1:D9;
Число строк для выборки: 4. Задать Альфа: 0,05.
4. В разделе Параметры вывода в поле Выходной интервал
указать А11 (рис. 7).

13
Рис. 7. Окно диалога инструмента «Двухфакторный
дисперсионный анализ с повторениями»
5. Нажать кнопку ОК. Появятся результаты, представленные на
рис. 8 и 9.
В таблице ИТОГИ представлены промежуточные данные
расчётов для каждой строки и столбца.
В таблице Дисперсионный анализ представлены результаты
дисперсионного анализа. Из таблицы следует, что F Aнабл. =

173,87; F Bнабл. =753,34; F AB


набл. =1253,52;

F Aкрит. ( 0,05;1;18 )= 4, 41 ;
F Bкрит. ( 0 ,05;2;18 )=3, 55 ;
F AB
крит. ( 0 ,05;2;18 )=3, 55 .

Вывод. Так как F Aнабл. = 173,87 >


F Aкрит.= 4,41 и F Bнабл.

=753,74 >
F B =3, 55
крит. ,то нулевые гипотезы для факторов А
и В следует отклонить, т. е. факторы А и В значимы – выход
полимера существенно зависит от типа растворителя и
AB
AB
галогеналкила. Так как F набл. =1253,52>
F крит.=3, 55 , то
эффект взаимодействия следует считать значимым. Таким

14
образом, интенсивность влияния типа растворителя на процесс
полимеризации зависит от того, с каким галогеналкилом
проводится полимеризация, и наоборот, влияние галогеналкила
зависит от выбранного растворителя.

Рис. 8 Таблица «Итоги» инструмента «Двухфакторный


дисперсионный анализ с повторениями»

15
Рис.9. Результаты решения задачи 4 с помощью инструмента
«Двухфакторный дисперсионный анализ с повторениями»

16