Вы находитесь на странице: 1из 13

Занятие 4.

Вычисление коэффициентов корреляции

Занятие 4
ВЫЧИСЛЕНИЕ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ
Цель работы: изучить основные приёмы проведения
корреляционного и ковариационного анализа с помощью
встроенных функций MS Excel и с использованием инструментов
Пакета анализа: «Корреляция» и «Ковариация».
Корреляционный анализ представляет собой статистический
метод выявления взаимозависимостей между несколькими
признаками.
Функциональной зависимостью между случайными величинами
X и Y называется зависимость, при которой изменение величины X
влечёт изменение значений Y, то есть Y является функцией
случайного аргумента X.
Если каждому значению одной переменной соответствует
множество возможных значений другой переменной, т.е. каждому
значению одной переменной соответствует определённое
(условное) распределение другой переменной, то такая
зависимость называется статистической (стохастической,
вероятностной).
Статистической зависимостью между случайными
величинами называется зависимость, при которой изменение
одной из величин влечёт изменение распределения другой.
Корреляционной зависимостью между случайными величинами
называется статистическая зависимость, при которой изменение
одной из величин влечет изменение среднего значения другой.
1. Вычисление оценок ковариации и выборочных
коэффициентов корреляции
Ковариация характеризует рассеивание и взаимную
зависимость случайных величин, имеет размерность, равную
произведению размерностей случайных величин.
Предположим, что в результате n испытаний система двух
случайных величин (X, Y) приняла следующие значения: (x1, y1),
(x2, y2),…, (xi, yi), …,(xn, yn). Статистическая оценка ковариации
определяется по формуле:
Статистическая оценка ковариации вычисляется по формуле:

1
Занятие 4. Вычисление коэффициентов корреляции

n
1
cov ( X ,Y ) =k xy = ∑ ( x i−x )( y i − y )
n i=1 ,
n n
1 1
x= ∑ x i y= ∑ y i
где: n i=1 и n i=1 .
Для вычисления ковариации в MS Excel используется функция
КОВАР(Массив1,Массив2), которая находится в категории
Статистические.
Пример 1. Имеется выборка из генеральной совокупности
системы двух случайных величин X и Y. Определить ковариацию
этих случайных величин.
x 12, 14,7 20, 11, 16,6 10, 13,0 14, 16, 15,1
i 1 5 2 0 9 3
y 53, 44,2 51, 57, 45,5 42, 53,5 68, 57, 63,3
i 2 4 7 0 9 7
Решение
Введём исходные данные в диапазон A1:К12.
В ячейку D3 ввести формулу =КОВАР(B1:K1;B2:K2). Получим
результат: 2,709.
Ковариация имеет размерность. Более удобной величиной,
характеризующей только зависимость случайных величин,
является коэффициент корреляции. Выборочный коэффициент
корреляции Пирсона рассчитывается по формуле:
cov ( X ,Y )
r xy =
σ вx σ вy .
Для вычисления выборочного коэффициента корреляции
Пирсона в MS Excel используется функция
КОРРЕЛ(Массив1,Массив2), которая находится в категории
Статистические.
Для данных примера 1 рассчитаем коэффициент корреляции.
В ячейки D4 введём формулу =КОРРЕЛ(B1:K1;B2:K2) и
получим результат: 0,116.
В MS Excel можно вычислить коэффициент детерминации ‒
квадрат коэффициента корреляции Пирсона. Этот коэффициент
показывает долю вариации зависимой переменной, учтённой в

2
Занятие 4. Вычисление коэффициентов корреляции

модели и обусловливаемой вариацией включенных факторов. Для


этого используется функция: =КВПИРСОН(Известные_y;
Известные_x).
Рассчитаем коэффициент детерминации для данных примера 1.
В ячейку D5 введём формулу: =КВПИРСОН(B2:K2;B1:K1).
Получим результат: 0,013.

2. Проверка значимости выборочного коэффициента


корреляции
Для проверки значимости выборочного коэффициента
корреляции следует проверить нулевую гипотезу H0: rxy = 0 против
альтернативной гипотезы H1: rxy  0.
Если H0 принимается, то нет корреляционной зависимости
между случайными величинами X и Y. Если H0 отвергается, то
существует корреляционная зависимость между случайными
величинами X и Y. Для проверки нулевой гипотезы при уровне
значимости  необходимо вычислить наблюдаемое значение
критерия по формуле:
r̄ xy⋅√ n−2
T набл.=
√ 1− r̄ xy2 .
Для уровня значимости  и числа степеней свободы
k =n−2 с использованием распределения Стъюдента найти
число
T кр. .

Сравнить числа
|T набл.| и
T кр. : если
|T набл.| <
T кр. , то

нет основания отвергать гипотезу H0; если


|T набл.| >
T кр. , то
гипотеза H0 отвергается.

3
Занятие 4. Вычисление коэффициентов корреляции

Проверим значимость выборочного коэффициента корреляции,


полученном в примере 1.
В ячейку D6 введём формулу для расчета Тнабл:
=D4*КОРЕНЬ(10-2)/КОРЕНЬ(1-D4^2). Получим результат:
0,33.
В ячейке D7 рассчитаем критическое значение Ткр по формуле:
=СТЬЮДРАСПОБР(0,05;8). Получим критическое значение для
случая двусторонней критической области, равное 2,306. Так как
Тнабл. < Ткр., то нулевая гипотеза принимается, нет корреляционной
зависимости.

3. Выборочные коэффициенты ранговой корреляции


Спирмена и Кендала
Наряду с выборочным коэффициентом корреляции Пирсона
используются также выборочные коэффициенты ранговой
корреляции Спирмена и Кендалла. Эти коэффициенты можно
применить как к данным, измеренным в количественных шкалах,
так и данным, измеренным в порядковой шкале.
3.1 Коэффициент ранговой корреляции Спирмена
рассчитывается по формуле:
n
6
ρв =1− ∑ di2
n ( n2 −1 ) i=1 ,
где:
d =x − y
i i i , xi и yi – ранги i-го объекта по переменным Х и
Y, n – число пар наблюдений.
Зная выборочное значение
ρ
в , можно проверить гипотезу о
значимости ρ. Нулевая гипотеза формулируется как H0: ρ = 0 –
наблюдаемые случайные величины Х и Y некоррелированы,
альтернативная – H1: ρ  0.
Для проверки нулевой гипотезы используется соотношение:
1−ρ

t кр.
T кр.=t кр .
√ n−2
в
2

.
Значение рассчитывается с использованием
распределения Стъюдента по формуле: =СТЬЮДРАСПОБР(;k),

4
Занятие 4. Вычисление коэффициентов корреляции

где   уровень значимости; k =n−2  число степеней


свободы.
Замечание: при n  10 для оценки значимости следует
воспользоваться точными статистическими таблицами.

Если
|ρ |<T
в кр . , то коэффициент ранговой корреляции
Спирмена незначим.
Пример 2. Цветные диски, имеющие порядок оттенков 1, 2,…,
15, были расположены испытуемым в следующем порядке:
7, 4, 2, 3, 10, 1, 6, 8, 9, 5, 11, 15, 14, 12, 13.
Охарактеризовать способность испытуемого различать оттенки
цветов с помощью коэффициента ранговой корреляции Спирмена
между действительными и наблюдаемыми результатами.
Решение
Введём исходные данные в диапазоны A4:A18, B4:B18 и
D4:D18.
Рассчитаем ранги действительных и наблюдаемых результатов.
Для этого в ячейку C4 введём формулу:
=РАНГ(B4; $B$4:$B$18; 1) и протянем её до ячейки B18.
В ячейку E4 введём формулу:
=РАНГ(D4; $D$4:$D$18; 1) и протянем её до ячейки D18.

5
Занятие 4. Вычисление коэффициентов корреляции

В ячейках C19 и E19 для проверки рассчитаем суммы рангов.


Каждая сумма должна быть равна сумме рангов, найденной по
формуле:
N ( N +1 ) 15 (15+1 )
∑ ( R i )= 2
=
2
=120
.
Рассчитаем разности рангов. Для этого в ячейку F4 введём
формулу =C4-E4 и протянем её до ячейки F18.
В диапазоне G4:G18 вычислим квадраты разности рангов.
В ячейке G19 найдём сумму квадратов разности рангов. (равна
136).
В ячейке G21 найдём значение выборочного коэффициента
Спирмена по формуле
ρв=1-6/G20/(G20^2-1)*G19.
Получим результат: 0,757.

6
Занятие 4. Вычисление коэффициентов корреляции

Оценим значимость коэффициента для уровня значимости =


0,05. (n = 15)
1−ρ
T кр.=t кр .
n−2
;
√ в
2

t кр.=СТЬЮДРАСПОБР (α ; n−2)=2 , 160


1−0 ,757 2
T кр.=2 , 160∗
|ρ |=0,757>T =0,391
√ n−2
=0 ,391

Так как в кр . , то гипотезу о


незначимости коэффициента корреляции Спирмена следует
отвергнуть: испытуемый способен различать оттенки цветов.

3.2 Коэффициент ранговой корреляции Кендалла вычисляется


следующим образом.
( xi ¿) ¿ ¿¿
Столбцы ¿ переставляются так, чтобы ранги
xi
образовывали возрастающую последовательность 1, 2, …, n.
x
Теперь i = i.
Для каждого ранга yi обозначим через pi число рангов
P=∑ pi
yk > yi , причём k >i , и найдём их сумму: i .
Через qi обозначим число рангов
yk < yi , причем k >i , и
Q=∑ qi
вычислим их сумму: i . Тогда S= P - Q. Коэффициент в
вычисляется по одной из эквивалентных формул:
2S 4Q 4P
τв= =1− = −1
n ( n−1 ) n ( n−1 ) n ( n−1 )
n ( n−1 )
( P+Q= . 2 )
Для оценки значимости коэффициента ранговой корреляции
Кендалла при n  10 следует воспользоваться формулой:

7
Занятие 4. Вычисление коэффициентов корреляции

2 ( 2n+5 )

z кр.
T кр.=z кр .
√ 9 n ( n−1 ) ,
где находится из соотношения:
α
Φ ( z кр . )=1−
2 .
Ф(x)  функция Лапласа.

Если в |τ |<T
кр. , то коэффициент ранговой корреляции
Кендалла незначим.

Пример 3. Два эксперта независимо друг от друга оценили 10


студенческих научных работ, представленных на конкурс.
Результаты тестирования в баллах представлены в таблице.
Работа 1 2 3 4 5 6 7 8 9 10
Эксперт 1 49 19 44 52 10 26 46 17 40 39
Эксперт 2 82 51 65 67 31 55 74 40 53 71
Проверить гипотезу о полной несогласованности (независимости)
оценок экспертов, используя коэффициент ранговой корреляции
Кендалла при уровне значимости  = 0,05.
Решение
Введём исходные данные в диапазоны A1:A11, B1:B11 и
C1:C11.
Рассчитаем ранги оценок первого (диапазон D2:D11) и второго
экспертов (диапазон E2:E11).
Выделим диапазон D1:E11, в котором находятся ранги оценок и
скопируем его в диапазон F1:G11, используя команду
Специальная вставка.
В открывшемся диалоговом окне Специальная вставка в группе
переключателей Вставить установить переключатель значения и
щёлкнуть на кнопке Ok.
Выделим диапазон F1:G11. Нажать правую кнопку мыши и в
контекстном меню выполнить команды
Сортировка/Настраиваемая сортировка. В открывшемся
диалоговом окне Сортировка установить следующие значения

8
Занятие 4. Вычисление коэффициентов корреляции

полей: Столбец Сортировать по: Rxi; Сортировка: значения;


Порядок: по возрастанию и нажать кнопку Ok. В диапазоне F1:G11
появятся ранги оценок экспертов, отсортированные в порядке
возрастания рангов оценок первого эксперта.

В ячейку H2 введём формулу массива


=СУММ(ЕСЛИ($G3:$G$11>G2;1;0)), нажмём клавиши
<Ctrl>+<Shift>+<Enter> и затем скопируем эту формулу в ячейки
H3:H11.
В ячейке H12 найдём сумму чисел pi. Это будет значение Р.
В ячейке H13 рассчитаем значение выборочного коэффициента
ранговой корреляции Кендалла по формуле:
4P
τв= −1=
n ( n−1 ) 4*H12/(10^2-10)-1. Получим результат:
0,689.
Оценим значимость коэффициента корреляции Кендалла.
Рассчитаем
z
кр. по формуле =НОРМСТОБР(1-0,05/2). Получим
1,96.
В ячейку H15 введём формулу:
2 ( 2n+5 )
T кр.=z кр .
√ 9 n ( n−1 )
=
H14*КОРЕНЬ(2*(2*10+5)/9/10/(10-1)).

9
Занятие 4. Вычисление коэффициентов корреляции

T
Получим кр. =0,487. Так как в |τ |>T
кр. (0,689>0,487), то
нулевую гипотезу следует отвергнуть: мнения экспертов не
являются независимыми.
4. Корреляционный анализ
Для многомерной выборки рассчитываются ковариационные и
корреляционные матрицы.
Исходные данные представляются в виде:
x 11 x12 … x1 m

(
x 21 x22
X = x 31 x32
… …
x n 1 x n2




x 2m
x3 m

x nm
где: i=1,2,…,n – номер наблюдения; j=1,2,…,m –
) номер
показателя.

Пример 4. С целью анализа взаимосвязи показателей


эффективности производства продукции: производительности
труда ( x 1 ), фондоотдачи ( x 2 ) и материалоёмкости производства ( x 3 )
была отобрана группа из десяти однотипных предприятий.
Получены данные, приведённые в таблице:
№ x1 x2 x3
предприятия
1 6,0 2,0 25
2 4,9 0,8 30
3 7,0 2,7 20
4 6,7 3,0 21
5 5,8 1,0 28
6 6,1 2,1 26
7 5,0 0,9 30
8 6,9 2,6 22
9 6,8 3,0 20

10
Занятие 4. Вычисление коэффициентов корреляции

10 5,9 1,1 29

Рассчитать ковариационную и корреляционную матрицы


рассматриваемой совокупности.
Рассчитаем ковариацию с
помощью инструмента
пакета анализа
«Ковариация».
Выполним команды
ДанныеАнализ
данныхКовариация и
введём следующие данные. В
результате будет выведена ковариационная матрица, на главной
диагонали которой находятся выборочные дисперсии, а на
побочной  ковариация.

Получим корреляционную матрицу. Выполним команды


ДанныеАнализ данныхКорреляция и введём следующие
данные.

11
Занятие 4. Вычисление коэффициентов корреляции

Нажмём кнопку ОК и получим таблицу результатов.

Корреляционная матрица имеет вид:

1 r 12 … r1 j … r 1m

( )
r 21 1 … r2 j … r 2m
R= … … … … … …
r i1 r i2 … r ij … r im
… … … … … …
rm 1 rm 2 … … … 1
Парный коэффициент корреляции между признаками j и m
рассчитывается по формуле:
n
∑ ( x ij −x j )( xim −x m)
r jk= i=1
nσ j σ m

12
Занятие 4. Вычисление коэффициентов корреляции

где
σj - выборочное среднее квадратическое отклонение по
признаку x j ;
σ m - среднее квадратическое отклонение по
признаку xm.
Корреляционная матрица всегда симметрична, на главной
диагонали её находятся 1.
Значимость парных коэффициентов можно проверить с
помощью критерия Стьюдента.

13