Вы находитесь на странице: 1из 7

1

Корреляционный анализ.
Понятие о функциональной и корреляционной зависимостях. Степень и направление корреляционной за-
висимости. Коэффициент корреляции Пирсона и оценка его статистической значимости. Коэффициент
ранговой корреляции Спирмена.
Анализ таблиц сопряженности при помощи χ2-критерия. Поправка Йетса на непрерывность. Использо-
вание критерия χ2 для определения нормальности распределения данных. Определение числа степеней сво-
боды при анализе таблиц сопряженности. Точный критерий Фишера. Одностороннее и двустороннее
значения точного критерия Фишера.

Каждый биологический признак представляет собой функцию многих перемен-


ных: на него влияют связанные и несвязанные с ним как генетические, так и средовые
факторы, что и обусловливает его варьирование. Связи между признаками и явлениями
ввиду их большого разнообразия классифицируют по ряду оснований. По их значению
для изучения взаимосвязи признаки делятся на два класса: результативные и фактор-
ные. Результативными называются признаки, изменяющиеся под действием других,
связанных с ними признаков. Факторными – признаки, обуславливающие изменение
результативных признаков. По характеру зависимости признаков различают функцио-
нальную и корреляционную связи. Функциональная – это связь, при которой определен-
ному значению факторного признака соответствует одно и только одно значение резуль-
тативного признака. Корреляционная – это связь, при которой определенному значению
факторного признака соответствует несколько значений результативного признака, от-
клоняющихся в ту или иную сторону от своего среднего значения.
Выборка 1
Значения Х 2 4 6 8 функциональная
Значения Y 4 5 6 7 связь
Выборка 2
Значения Х 2 4 6 8 4 6 2 6
Значения Y 4 8 8 7 6 10 6 12
Ранжируем эти значения по Х
Х 2 2 4 4 6 6 6 8
Y 4 6 4 8 10 8 12 7
Распределяем выборку следующим образом:
Х 2 4 6 8 корреляционная
yx 5 6 10 7 связь
2
Здесь y x – частные (групповые) или условные средние из соответствующих зна-

чений переменной Y. Например, значению х = 2 соответствует y x = (4+6)/2 = 5.


Если же данную совокупность ранжировать по Y, получим
Y 4 4 6 7 8 8 10 12
Х 2 4 2 8 6 4 6 6
Аналогично рассчитываются x y (условные средние арифметические):

Y 4 6 7 8 10 12
xy 3 2 8 5 6 6

В отличие от функциональной корреляционная зависимость возникает тогда, ко-


гда один из признаков зависит не только от второго признака, но и от ряда случайных
факторов или же когда среди условий, от которых зависят и тот и другой признаки, име-
ются общие для них обоих условия.
Корреляционный анализ – это метод установления направления и формы связи
между варьирующими признаками, измерение ее тесноты и проверка достоверности вы-
борочных показателей корреляции.
Корреляционная связь между признаками бывает линейной и нелинейной, поло-
жительной и отрицательной. Если при увеличении одной переменной другая увеличи-
вается, это указывает на положительную связь между этими величинами, а, если умень-
шается – имеет место отрицательная связь.
Важнейшей предпосылкой использования корреляционного анализа является
нормальность распределения признаков в генеральной совокупности.
Если признаки Y и X измерены в интервальной шкале или шкале отношений и
имеют нормальное распределение, рассчитывают эмпирический коэффициент корре-
ляции Пирсона r:
n

1 i1  ( x i  x)( y i  y)
rxy  
n 1 Sx  Sy
где n – общее число парных наблюдений, Sx, Sy – СКО признаков X и Y. Коэффициент
корреляции способен характеризовать только линейные связи и может принимать зна-
чения от —1 до +1. При независимом варьировании признаков, когда связь между ними
полностью отсутствует, r = 0. Чем сильнее сопряженность между признаками, тем выше
значение коэффициента корреляции.
Чем ближе коэффициент к 1, тем теснее линейная связь. При величине коэффици-
ента корреляции (по Дворецкому) менее 0,3 связь оценивается как слабая, от 0,31 до 0,5
3
– умеренная, от 0,51 до 0,7 – значительная, от 0,71 до 0,9 – тесная, 0,91 и выше – очень
тесная. Для практических целей рекомендуется использовать значительные, тесные и
очень тесные связи. Для объяснения значений, принимаемых показателями тесноты кор-
реляционной связи, используют коэффициент детерминации (аппроксимации) r2, кото-
рый показывает, какую часть вариации одного признака можно объяснить варьирова-
нием другого признака. Например, если r=0,52, тогда r2= 0,274. Это означает, что лишь
27,4 % вариации признака Х определяет варьирование признака Y. Оставшаяся доля 72,6
% объясняется случайной изменчивостью.
На графике А(В) прямой зависимости (r = 1, r = -1) соответствует прямая линия,
проходящая через точки пересечения значений каждой пары данных.

Рис. График корреляции

Если эти точки на графике не выстраиваются по прямой линии, а образуют «об-


лако», коэффициент корреляции по абсолютной величине становится меньше единицы
и по мере округления этого облака приближается к нулю:

Рис. График корреляции


Эмпирический коэффициент корреляции, как и любой другой выборочный пока-
затель, служит оценкой своего генерального параметра  и, как величина случайная, со-
провождается ошибкой:

1 r 2
Sr 
n2
4
Для определения коэффициента корреляции генеральной совокупности на осно-
вании выборочных данных рассчитывают границы, в пределах которых находится зна-
чение генерального параметра, т. е. определяют для него доверительные интервалы.
rxy t Sr    rxy + t Sr
где t – коэффициент Стьюдента.
Гипотезы:
Н0: в генеральной совокупности коэффициента корреляции равен нулю, связь
между изучаемыми признаками отсутствует.
Н1: в генеральной совокупности коэффициента корреляции не равен нулю, есть
связь между изучаемыми признаками.
Вывод: если фактически установленная величина tфакт – отношения выборочного
коэффициента корреляции к своей ошибке – больше tst. для чисел степеней свободы k =
n – 2 на принятом уровне значимости , нулевую гипотезу отвергают. Иначе нулевую
гипотезу отвергнуть нельзя.
r
tф   t st
Sr

Коэффициент ранговой корреляции Спирмена


Если варианты исследуемых признаков не распределяются по нормальному за-
кону (или если распределение неизвестно), а также для признаков, измеренных в поряд-
ковой, для определения связи между признаками используют непараметрические пока-
затели. Наиболее широкое применение нашел коэффициент корреляции рангов, предло-
женный Спирменом.
Гипотезы:
Н0: в генеральной совокупности коэффициент корреляции Спирмена равен нулю,
связь между изучаемыми признаками отсутствует.
Н1: в генеральной совокупности коэффициент корреляции Спирмена не равен
нулю, есть связь между изучаемыми признаками.
Алгоритм проведения теста:
1. Сравниваемые признаки по отдельности ранжируют по возрастанию.
2. Каждой варианте каждого признака присваивается свой ранг (R) – порядковый номер
того места, которое оно занимает в этом ряду. Одинаковым по величине вариантам при-
сваивается один и тот же средний ранг.
3. Проверяют суммы рангов каждого признака, они должны получиться равными.
4. Находят разность между рангами для каждой пары вариант признаков X и Y.
5
5. Проверяют сумму разности рангов, она должна быть равной 0.
6. Рассчитывают квадрат разности между рангами для каждой пары вариант.
7. Находят сумму квадратов разностей.
8. Рассчитывают коэффициент корреляции Спирмена по формуле:
n
6   ( Rx  Ry ) 2
rS  1  i 1

n  (n 2 1)
где Rx и Ry – ранги значений признаков X и Y, n – число пар вариант признаков X и Y.
9. Значимость коэффициента корреляции рангов оценивают с помощью коэффициента
Стьюдента как для выборочного коэффициента корреляции.
Вывод: если фактически установленная величина tфакт – отношения выборочного
коэффициента корреляции к своей ошибке - больше tst. для чисел степеней свободы k =
n – 2 на принятом уровне значимости , нулевую гипотезу отвергают. Иначе нулевую
гипотезу отвергнуть нельзя.
r
tф   t st
Sr
Коэффициент рангов Спирмена может принимать значения от -1 до +1.

Годовой удой Расчет Расчет


матерей дочерей коэффициента Пирсона коэффициента Спирмена
№ X Y Xi-Xsr Yi-Ysr (Yi-Ysr)*(Xi-Xsr) Rx Ry Rx-Ry (Rx-Ry)2
1 3770 2991 254,9 -750,5 -191310,0 10 2 8 64
2 3817 4593 301,9 851,5 257099,1 11 13 -2 4
3 2450 3529 -1065,1 -212,5 226287,9 1 6 -5 25
4 3463 4274 -52,1 532,5 -27733,0 7,5 10 -2,5 6,25
5 3500 3103 -15,1 -638,5 9626,0 9 4 5 25
6 5544 3949 2028,9 207,5 421079,6 13 8 5 25
7 3112 3491 -403,1 -250,5 100955,3 4 5 -1 1
8 3150 3559 -365,1 -182,5 66612,5 6 7 -1 1
9 3118 2916 -397,1 -825,5 327771,7 5 1 4 16
10 3018 4580 -497,1 838,5 -416818,1 3 12 -9 81
11 4291 4510 775,9 768,5 596326,7 12 11 1 1
12 3463 4144 -52,1 402,5 -20963,0 7,5 9 -1,5 2,25
13 3000 3000 -515,1 -741,5 381909,7 2 3 -1 1
xsr 3515,1 Sr 0,29 1730844,5 91 91 0 252,5
ysr 3741,5 tф 1,03 rs 0,31 Sr 0,29
Sx 762,7 tst 2,2 r2s 0,09 tф 1,07
Sy 635,8 r 0,30 tst 2,20
r2 0,09 p 0,32

Анализ таблиц сопряженности при помощи χ2-критерия.


При исследовании независимости (отсутствии связи) между двумя признаками,
при анализе таблиц сопряженности, используют критерий χ2. Таблица сопряженности
является наиболее универсальным средством изучения статистических связей, так как в
ней могут быть представлены переменные с любым уровнем измерения.
6
Строки таблицы сопряженности соответствуют значениям одной переменной,
столбцы – значениям другой переменной (количественные шкалы предварительно
должны быть сгруппированы в интервалы). На пересечении строки и столбца указыва-
ется частота совместного появления fij соответствующих значений двух признаков xi и
yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по
столбцу fj – маргинальной частотой столбца. Сумма маргинальных частот равна объему
выборки n.
Критерий χ2 может использоваться для определения нормальности распре-
деления данных.
Если число наблюдений невелико и ожидаемые значения в любой клетке таб-
лицы сопряженности меньше 5 для анализа применяют не критерий χ2, а точный кри-
терий Фишера, который может как односторонним, так и двухсторонним. Он основан
на переборе всех вариантов заполнения таблицы при исходной численности групп.
Для определения степени сопряженности между качественными признаками
служит коэффициент взаимной сопряженности Пирсона (для частот таблицы не ме-
нее 5 и n не меньше 50).

2
K
(mx 1)  (m y 1)
где 2 – пирсоновский коэффициент контингенции, mx и my – число групп по стро-
кам и столбцам корреляционной таблицы.

f xy2
 
n
2
1
i 1  fx  fy 

где fxy – частоты в клетках корреляционной таблицы, fx и fy – суммы частот по
строкам и столбцам таблицы, n – объем выборки.
Коэффициент сопряженности К изменяется от нуля до 1 и всегда имеет положи-
тельный знак.
Гипотезы:
Н0 : признаки, взятые из одной генеральной совокупности, независимы, между
признаками изучаемой выборки нет связи.
Н1: признаки, взятые из одной генеральной совокупности, зависимы, между
признаками изучаемой выборки есть связь.
Вывод: если фактически установленная величина χ2факт ≥ χ2 st для принятого
уровня значимости  и числа степеней свободы k = (mx – 1)*(my - 1), Н0 - гипотезу отвер-
гают, принимают альтернативную.
7
2ф = n2 ≥ 2st.
Пример. На большой группе лиц изучалась зависимость между цветом волос и
цветом глаз. Определить коэффициент сопряженности между этими признаками.
Цвет глаз Цвет волос, fxy Всего, fx
блондины шатены рыжие
Голубые 170 80 5 255
Серые 70 152 8 230
Карие 68 340 7 415
Всего, fy 308 572 20 900

2 = (1702/(255*308) + 802/(255*572) + 52/(255*2) + 702/(230*308) + 1522/(230*572)


+ 82/(230*20) + 682/(415*308) + 3402/(415*572) + 72/(415*20)) – 1 = 1,205 – 1 = 0,205.
К = √0,205/√(3-1)(3-1) = √0,205/2 = 0,32. Найденная величина указывает на нали-
чие связи между цветом глаз и цветом волос человека. 2ф = n2 = 900*0,205 = 184,5
≥ 2 st = 18,46 для 0,1 % уровня значимости и числа степеней свободы k = (3-1)(3-1) = 4,
нулевая гипотеза отвергается на высоком уровне значимости.

 Рекомендуемая литература по теме:

1. Лакин Г.Ф. Биометрия. М., Высшая школа, 1990. с. 208 – 215, с. 238 – 243, с. 247 –
248.
2. Рокицкий П.Ф. Биологическая статистика., Минск, «Вышэйш.школа», 1973. с.
107- 114; с. 119 – 124, с. 126 – 130.

Вопросы для самопроверки

1. В чем отличие корреляционной связи от функциональной?


2. Чем линейная корреляционная связь отличается от нелинейной?
3. Чем отрицательная корреляционная связь отличается от положительной?
4. Какие значения может принимать коэффициент корреляции?
5. Сформулируйте нулевую гипотезу корреляционного анализа?
6. Какой критерий используют в выводах корреляционного анализа?
7. Какой показатель рассчитывают при нахождении связи между количественными при-
знаками, распределяющимися по нормальному закону?
8. Какой показатель рассчитывают при нахождении связи между качественными призна-
ками?

Оценить