Академический Документы
Профессиональный Документы
Культура Документы
Корреляционный анализ.
Понятие о функциональной и корреляционной зависимостях. Степень и направление корреляционной за-
висимости. Коэффициент корреляции Пирсона и оценка его статистической значимости. Коэффициент
ранговой корреляции Спирмена.
Анализ таблиц сопряженности при помощи χ2-критерия. Поправка Йетса на непрерывность. Использо-
вание критерия χ2 для определения нормальности распределения данных. Определение числа степеней сво-
боды при анализе таблиц сопряженности. Точный критерий Фишера. Одностороннее и двустороннее
значения точного критерия Фишера.
Y 4 6 7 8 10 12
xy 3 2 8 5 6 6
1 i1 ( x i x)( y i y)
rxy
n 1 Sx Sy
где n – общее число парных наблюдений, Sx, Sy – СКО признаков X и Y. Коэффициент
корреляции способен характеризовать только линейные связи и может принимать зна-
чения от —1 до +1. При независимом варьировании признаков, когда связь между ними
полностью отсутствует, r = 0. Чем сильнее сопряженность между признаками, тем выше
значение коэффициента корреляции.
Чем ближе коэффициент к 1, тем теснее линейная связь. При величине коэффици-
ента корреляции (по Дворецкому) менее 0,3 связь оценивается как слабая, от 0,31 до 0,5
3
– умеренная, от 0,51 до 0,7 – значительная, от 0,71 до 0,9 – тесная, 0,91 и выше – очень
тесная. Для практических целей рекомендуется использовать значительные, тесные и
очень тесные связи. Для объяснения значений, принимаемых показателями тесноты кор-
реляционной связи, используют коэффициент детерминации (аппроксимации) r2, кото-
рый показывает, какую часть вариации одного признака можно объяснить варьирова-
нием другого признака. Например, если r=0,52, тогда r2= 0,274. Это означает, что лишь
27,4 % вариации признака Х определяет варьирование признака Y. Оставшаяся доля 72,6
% объясняется случайной изменчивостью.
На графике А(В) прямой зависимости (r = 1, r = -1) соответствует прямая линия,
проходящая через точки пересечения значений каждой пары данных.
1 r 2
Sr
n2
4
Для определения коэффициента корреляции генеральной совокупности на осно-
вании выборочных данных рассчитывают границы, в пределах которых находится зна-
чение генерального параметра, т. е. определяют для него доверительные интервалы.
rxy t Sr rxy + t Sr
где t – коэффициент Стьюдента.
Гипотезы:
Н0: в генеральной совокупности коэффициента корреляции равен нулю, связь
между изучаемыми признаками отсутствует.
Н1: в генеральной совокупности коэффициента корреляции не равен нулю, есть
связь между изучаемыми признаками.
Вывод: если фактически установленная величина tфакт – отношения выборочного
коэффициента корреляции к своей ошибке – больше tst. для чисел степеней свободы k =
n – 2 на принятом уровне значимости , нулевую гипотезу отвергают. Иначе нулевую
гипотезу отвергнуть нельзя.
r
tф t st
Sr
n (n 2 1)
где Rx и Ry – ранги значений признаков X и Y, n – число пар вариант признаков X и Y.
9. Значимость коэффициента корреляции рангов оценивают с помощью коэффициента
Стьюдента как для выборочного коэффициента корреляции.
Вывод: если фактически установленная величина tфакт – отношения выборочного
коэффициента корреляции к своей ошибке - больше tst. для чисел степеней свободы k =
n – 2 на принятом уровне значимости , нулевую гипотезу отвергают. Иначе нулевую
гипотезу отвергнуть нельзя.
r
tф t st
Sr
Коэффициент рангов Спирмена может принимать значения от -1 до +1.
2
K
(mx 1) (m y 1)
где 2 – пирсоновский коэффициент контингенции, mx и my – число групп по стро-
кам и столбцам корреляционной таблицы.
f xy2
n
2
1
i 1 fx fy
где fxy – частоты в клетках корреляционной таблицы, fx и fy – суммы частот по
строкам и столбцам таблицы, n – объем выборки.
Коэффициент сопряженности К изменяется от нуля до 1 и всегда имеет положи-
тельный знак.
Гипотезы:
Н0 : признаки, взятые из одной генеральной совокупности, независимы, между
признаками изучаемой выборки нет связи.
Н1: признаки, взятые из одной генеральной совокупности, зависимы, между
признаками изучаемой выборки есть связь.
Вывод: если фактически установленная величина χ2факт ≥ χ2 st для принятого
уровня значимости и числа степеней свободы k = (mx – 1)*(my - 1), Н0 - гипотезу отвер-
гают, принимают альтернативную.
7
2ф = n2 ≥ 2st.
Пример. На большой группе лиц изучалась зависимость между цветом волос и
цветом глаз. Определить коэффициент сопряженности между этими признаками.
Цвет глаз Цвет волос, fxy Всего, fx
блондины шатены рыжие
Голубые 170 80 5 255
Серые 70 152 8 230
Карие 68 340 7 415
Всего, fy 308 572 20 900
1. Лакин Г.Ф. Биометрия. М., Высшая школа, 1990. с. 208 – 215, с. 238 – 243, с. 247 –
248.
2. Рокицкий П.Ф. Биологическая статистика., Минск, «Вышэйш.школа», 1973. с.
107- 114; с. 119 – 124, с. 126 – 130.