Вы находитесь на странице: 1из 14

Иткина А.Я.

Коэффициенты корреляции и специфика их применения

Основное назначение корреляционного анализа – выявление связи между двумя


или более изучаемыми переменными. Чаще всего анализируется совместное
согласованное изменение двух исследуемых показателей, являющихся случайными
величинами. Данная изменчивость обладает тремя основными характеристиками:
формой, направлением и силой.
По форме корреляционная связь может быть линейной или нелинейной. По
направлению – положительной или отрицательной. По силе – тесной, слабой или
отсутствовать.
Корреляционный анализ возможен как на основе графического представления
исходных данных, так и с помощью вычисления коэффициента корреляции и проверки
его статистической значимости. Обычно одно исследование дополняет другое.
В настоящее время разработано множество различных коэффициентов
корреляции. Наиболее применяемыми являются r-Пирсона, r-Спирмена и τ-Кендалла. В
зависимости от решаемой задачи и от вида исходных данных стоит отдавать
предпочтение одному из этих коэффициентов.
Общим для них является то, что все упомянутые коэффициенты применяются для
изучения взаимосвязи двух переменных, измеренных на одной и той же выборке. Они
меняются в интервале от -1 до +1 и их знак показывает направление связи. Попробуем
теперь разобраться в их различиях.
Коэффициент корреляции Пирсона (Karl Pearson, 1857-1936, английский
математик, статистик, биолог и философ) применим, если обе переменные измерены в
метрической (интервальной или абсолютной) шкале.
Ограничением при использовании
коэффициента корреляции Пирсона является
отличие распределения хотя бы одной из
переменных от нормального. Особенно сильно r-
Пирсона реагирует на наличие выбросов. Для
представленного на Рис. 1 облака точек r-Пирсона
равен 0,98, если учитывать только синие точки и
0,27, если считать по всем точкам, т.е. вместе с
розовой точкой – выбросом.
Поскольку коэффициент r-Пирсона есть мера

1
Коэффициенты корреляции и специфика их применения

линейной связи, он неприменим для анализа нелинейных связей. Равенство r-Пирсона 0


означает, что линейная связь между переменными отсутствует.

40

30

20

10

0
0 5 10 15 20

Рис. 1. Облако точек №1.

Значение выборочного r-Пирсона может быть вычислено по формуле:

rxy   ( xi  x )( yi  y ) . Равенство r-Пирсона 1 говорит о функциональной


 ( xi  x )2  ( yi  y )2
линейной зависимости между изучаемыми переменными. Важным свойством r-
Пирсона является нечувствительность к линейным преобразованиям переменных.

n n n n
 (kxi  b)  kxi   b k  xi  n  b
Пусть z  kx  b , тогда z  i 1
 i 1 i 1
 i 1
 kx  b, а
n n n

значит rzy 
 (kxi  b  (k x  b))( yi  y )   (k ( xi  x ))( yi  y ) 
 (kxi  b  (k x  b))  ( yi  y )
2 2
 (k ( xi  x ) ) ( yi  y )
2 2 2

k   ( xi  x )( yi  y ) k   ( xi  x )( yi  y ) k
   rxy , т.е. при
k   ( xi  x )
2 2
 ( yi  y ) 2
k  ( xi  x )  ( yi  y )
2 2 k

положительном k коэффициенты корреляции совпадут, а при отрицательном rzy  rxy .

Значимость r-Пирсона, т.е. отличие его от 0, можно проверить с помощью

r n2
статистики Стьюдента t расч  .
1  r2

2
Иткина А.Я.

Гипотеза H 0 : rxy  0, альтернативная H1 : rxy  0 . Соответственно, если

t расч  tкрит (  2 ; n  2) нулевая гипотеза отвергается в пользу альтернативной. Смысл

тестирования нулевой гипотезы, при условии репрезентативности имеющихся выборок,


заключается в проверке предположения о случайности корреляционной связи между
переменными, т.е. о независимости случайных величин (если связь линейна).

Теория и практика

Сложение 100 баррелей нефти и 100 км трубопроводов бессмысленно, но


технически возможно (100+100=200). Вычисление коэффициента корреляции Пирсона
для порядковых переменных, для переменных, имеющих произвольное распределение
и даже для номинативных переменных технически возможно и даже имеет некоторый
смысл.
Итак, рассчитанный по формуле коэффициент корреляции является выборочной
cov( x; y )
оценкой теоретической корреляции двух случайных величин rxy  .
D( x )  D( y )
Для случайной величины, имеющей двумерное нормальное распределение,
выборочный коэффициент корреляции при условии, что теоретический равен 0, имеет
распределение Стьюдента с ( n  2 ) степенями свободы. Именно на этом факте
основана проверка гипотезы о равенстве коэффициента корреляции 0.
Расчет коэффициента корреляции Пирсона в случаях нарушения условий его
использования – это попытка установить факт наличия или отсутствия связи между
величинами. К сожалению в этих случаях распределение r-Пирсона не известно.
Поэтому выводы на основе такого анализа не надежны.

Рангом наблюдения называют номер, который получит это наблюдение в


упорядоченной по какому-либо признаку совокупности имеющихся данных. Например
для выборки 3, 9, 26, -4, 11, 0, 5, ранжированной по возрастанию рангами будут числа
от 1 до 7: 3, 5, 7, 1, 6, 2, 4.
Трудности в назначении рангов возникают, если среди элементов выборки
встречаются совпадающие. Набор одинаковых наблюдений называют связкой, а
количество наблюдений в одной связке – ее размером. Связанным или средним рангом
называется число, равное среднему арифметическому тех рангов, которые были бы у

3
Коэффициенты корреляции и специфика их применения

чисел в связке, если бы они различались. Например для выборки 6, 15, 12, 6, 10, 15, 9,
15 соответствующие ранги будут 1 12 , 7, 5, 1 12 , 4, 7, 3, 7.

Коэффициент корреляции Спирмена (Charles Edward Spearman, 1863-1945,


английский психолог, статистик) применим, если обе переменные измерены в
количественной (метрической или порядковой) шкале. Отсутствие ограничений на вид
распределения исходных данных (переменных) вызвано тем, что это ранговый
коэффициент корреляции.
Коэффициент корреляции Спирмена
проигрывает r-Пирсона только в меньшей
чувствительности к связи в случаях
несущественного отклонения распределения
переменных от нормального.
Идея r-Спирмена в том, что обе
переменные ранжируются (обозначим ранги ki

и ti ). И вычисляются разности между рангами

для одного и того же наблюдения. Если для


всех наблюдений разности близки к 0, значит
рост одной переменной почти всегда
сопровождается увеличением другой. По
формуле видно, что в этом случае r-Спирмена
будет близок к 1.
Для ручного подсчета удобна формула r-
n
6 ( ki  ti )2
Спирмена r  1 i 1
, которую можно использовать при отсутствии
n3  n
связанных рангов или небольшом (<10% наблюдений) их количестве. Ту же самую
величину r-Спирмена, более того без ограничения на связанные ранги, можно получить
применив формулу r-Пирсона к ранжированным переменным.
Значимость коэффициента корреляции Спирмена проверяется по тем же
формулам, что и значимость r-Пирсона для n  30 . Для выборок небольшого размера
лучше пользоваться таблицами критических значений.
Коэффициент корреляции Кендалла (Maurice George Kendall, 1907-1983,
английский статистик) применим, если обе переменные измерены в количественной

4
Иткина А.Я.

(метрической или порядковой) шкале. Он также как и коэффициент корреляции


Спирмена является ранговым.
Основная идея, заложенная в τ-Кендалла,
заключается в изучении направления связи
между переменными путем попарных
сравнений между собой наблюдений.
Ситуацию, при которой изменение Х для
двух наблюдений сонаправлено с изменением
Y для тех же наблюдений, назовем
совпадением. А разнонаправленное изменение
назовем инверсией.
Например, если ранги по Х - 2, 1, 3, 4, а
по Y - 3, 1, 2, 4, то изменение рангов при
переходе от 1-го наблюдения ко второму
сонаправлено (уменьшение), а при переходе от
1-го к третьему разнонаправлено (по Х – рост,
N  ( N  1)
а по Y – падение). Таких попарных сравнений нужно выполнить , что весьма
2
трудоемко. Поэтому для ручного расчета τ-Кендалла принято упорядочивать
наблюдения по одной из переменных, например по Х. τ-Кендалла – это разность
относительных частот совпадений и инверсий для всех наблюдений:
P Q 4Q 4P
 , в преобразованном виде   1    1,
N  ( N  1) / 2 N  ( N  1) N  ( N  1)
где P – число совпадений, Q – число инверсий, P  Q  N  ( N  1) / 2 . В Таблица 1
приведен пример подсчета числа совпадений и инверсий. Столбцы с 6 по 9 приведены
для лучшего понимания того, что направление сортировки не влияет на величину τ-
Кендалла. Сравниваем каждый ранг в столбце 3 со значениями, расположенными ниже
его. Поскольку столбец 2 упорядочен по возрастанию, совпадениями будут все случаи,
когда наблюдение с меньшим рангом выше по столбцу, чем наблюдение с большим
рангом. При заполнении столбца 8 совпадением окажется значение ранга большее
(столбец 7), чем у наблюдения ниже по столбцу. Например ранг 4 больше, чем 2, 3 и 1,
т.е. всего 3 совпадения.

5
Коэффициенты корреляции и специфика их применения

Таблица 1.

Наблюдения Ранги Совпадения Инверсии Ранги Совпадения Инверсии


Х↑ Y P Q Х↓ Y P Q
1 2 3 4 5 6 7 8 9
1 1 1 5 0 6 4 3 2
2 2 3 3 1 5 6 4 0
3 3 5 1 2 4 2 1 2
4 4 2 2 0 3 5 2 0
5 5 6 0 1 2 3 1 0
6 6 4 0 0 1 1 0 0
Σ = 11 Σ=4 Σ = 11 Σ=4

11  4 7
   0.467. Это означает, что совпадения встречаются почти
6  (6  1) / 2 15
на 47 процентов чаще, чем инверсии. Другими словами вероятность совпадения
11 4
 0.73 , а инверсии  0.27 .
11  4 15
Значимость коэффициент корреляции Кендалла проверяется по таблице
стандартного нормального распределения, для чего рассчитывается статистика
P  Q 1
z расч  и ее величина сравнивается с табличным значением.
N  ( N  1)  (2 N  5) / 18
Либо находится величина вероятности, соответствующая z расч , и она сравнивается с

уровнем значимости. При этом надо помнить, что нулевой гипотезе об отсутствии
корреляционной связи соответствует двусторонняя альтернатива о ее наличии.
11  4  1
Для представленного выше примера z расч  
6  (6  1)  (2  6  5) / 18
6 6
   1,13, zтабл (0,025)  1,96 , т.е. на уровне значимости
30  17 / 18 28,3
α=0,05 не обнаружено корреляционной связи между переменными Х и Y. Или через
вероятность – p( z расч )  0,129*2 = 0,258 > 0,05, получаем тот же вывод (умножаем на

2, поскольку альтернатива двусторонняя).

6
Иткина А.Я.

Основная идея ранговых коэффициентов корреляции заключается в том, что


возможное количество перестановок n чисел-рангов равно n ! и любая перестановка
равновероятна. Поэтому вероятность случайного совпадения рангов у двух выборок
ничтожно мала. При верности H 0 распределение коэффициентов r-Спирмена и τ-

Кендалла симметрично и концентрируется около нуля. Для небольших выборок


имеются таблицы критических значений статистик Спирмена и Кендалла, а при
увеличении n их распределение приближается к стандартному нормальному. Если же
H 0 неверна, то последовательность рангов ki каким-то образом "влияет" на
последовательность ti . Например, если ранги полностью совпадают, то это означает,
что рост одной переменной однозначно связан с ростом другой переменной.
Именно поэтому особенностью ранговых коэффициентов является выявление не
только линейной связи между переменными, но и любого вида монотонной связи. Для
представленного на Рис. 2 облака точек r-Спирмена/τ-Кендалла равны 1, если
учитывать только синие точки и 0,75/0,76, если считать по всем точкам, т.е. вместе с
розовой точкой – выбросом. Возвращаясь к Рис. 1, мы видим, что выброс привел к
уменьшению r-Пирсона на 0,98-0,27=0,71; r-Спирмена на 0,99-0,53=0,46; τ-Кендалла
на 0,95-0,64=0,31. Т.е. плюсом ранговых коэффициентов корреляции является их
меньшая чувствительность к выбросам, чем у r-Пирсона.

0
0 4 8

-8

Рис. 2. Облако точек №2.

Поскольку коэффициенты r-Спирмена и τ-Кендалла показывают меру


монотонной связи, они неприменимы для анализа связей, меняющих свое направление.
Равенство r-Спирмена или τ-Кендалла 0 означает, что монотонная связь между
переменными отсутствует.

7
Коэффициенты корреляции и специфика их применения

Пример 1.
Эксперты оценивали риски освоения площади N месторождения М. Риски
упорядочены в порядке убывания (от 1 максимального до 8 минимального).
Согласованы ли оценки экспертов?
Таблица 2.
Риски Оценки Оценки P (совпадения) Q (инверсии)
эксперта 1 эксперта 2
Геологический 1 1 7 0
Технологический 2 3 4 0
Технический 4 3 3 0
Кредитный 4 3 3 0
Спекулятивный 4 5 3 0
Политический 6 7 0 0
Падение спроса 7 7 0 0
Природный 8 7 0 0
форс-мажор
Σ = 20 Σ=0

Расчет совпадений и инверсий приведен в Таблица 2, вычислим поправочные


3  (3  1) 3  (3  1)  3  (3  1) N  ( N  1)
коэффициенты: K x   3; K y   6;  28;
2 2 2
20  0
Тогда коэффициент корреляции Кендалла    0.853.
28  3  28  6
Коэффициент корреляции Спирмена для экспертных оценок равен 0,923, τ-
Кендалла – 0,853. Несмотря на отсутствие инверсий, коэффициенты корреляции
меньше 1, поскольку наличие связок уменьшает изменчивость данных и
соответственно возможности оценки корреляционной связи.
Выше был приведен расчет z расч для проверки значимости τ-Кендалла, однако

статистика z только асимптотически имеет нормальное распределение ( n  30 ), а для


маленькой выборки (n = 8) корректнее пользоваться таблицей критических точек.
H 0 : корреляционная связь отсутствует. При альтернативе: корреляция

положительна, критические значения r-Спирмена – 0,643; τ-Кендалла – 0,571. Т.е. на


уровне 5% оба коэффициента положительные. При альтернативе: корреляция

8
Иткина А.Я.

ненулевая, критические значения r-Спирмена – 0,738; τ-Кендалла – 0,643. Т.е. на


уровне 5% оба коэффициента ненулевые.

Проверка гипотез о различии корреляций1

Рассмотрим два примера, в которых будет проверена гипотеза H 0 о равенстве

коэффициентов корреляции в генеральных совокупностях.


Пример 2. Изучался вопрос о влиянии антикоррозийного покрытия S на частоту
аварий на трубопроводах. В течение полугода на 50 линейных участках трубопровода
без покрытия и на 36 участках с покрытием фиксировалось количество аварий и
толщина стенки трубы в месте аварии. Корреляция Пирсона для первой выборки
составила r1  0,59, для второй – r2  0,42 . Можно ли предположить, что связь

между толщиной стенки и количеством аварий исчезает при использовании


антикоррозийного покрытия?
В данном примере два анализируемых коэффициента корреляции рассчитаны по
независимым выборкам. Процедура проверки H 0 для независимых выборок состоит из

следующих шагов.
1. Z-преобразование Фишера исходных коэффициентов корреляции (функция
ФИШЕР() в Excel):
1 1 r 1 1  0,59
z  ln , для заданных в примере коэффициентов z1  ln  0,68
2 1 r 2 1  0,59
1 1  0,42
и z2  ln  0,45 .
2 1  0,42
2. Расчет статистики критерия по формуле:
z1  z2 0,68  0,45
z расч    1,01 .
1 1 1 1
 
N1  3 N 2  3 50  3 36  3

3. Сравнение z расч с zкрит . По таблице стандартных нормальных вероятностей

находим zкрит  1,96 для уровня значимости 5% и получаем z расч  zкрит .

1
Методы и идеи этой части заимствованы из учебного пособия: Наследов А.Д. Математические методы
психологического исследования. – СПб.: Речь, 2012. С. 151-153.

9
Коэффициенты корреляции и специфика их применения

4. Вывод: коэффициенты корреляции статистически не отличимы, а


следовательно антикоррозийное покрытие не повлияло на связь аварий с толщиной
стенки трубы.

Пример 3. В Германии изучалась связь между количеством солнечных часов в


неделю ( x ), выработкой электричества с фотоэлементов ( y ), а также выработкой
электричества с ветрогенераторных установок ( z ). Исследование проводилось в
светлое время суток. Важно было понять часто ли совпадает увеличение и падение
электрогенерации из нескольких ВИЭ, а также изучить степень предсказуемости
ветрогенерации, поскольку метеостанции лучше предсказывают солнечные дни,
нежели силу ветра. Была собрана информация за 39 недель и вычислены коэффициенты
парной корреляции rxy  0,71; rxz  0,40; ryz  0,29.

Процедура проверки гипотезы о совпадении корреляционной связи между


зависимыми выборками, какими в данном случае являются количество солнечных
часов и электрогенерация из двух разных источников в эти же часы состоит из расчета
Z-критерия и вывода на основе сравнения z расч с zкрит . Использование алгоритма

тестирования таких гипотез для независимых выборок может привести к ошибкам за


счет меньшей мощности такой проверки.

( rxy  rxz )  N
Формула для z расч  .
(1  rxy2 )2  (1  rxz2 )2  2ryz3  (2ryz  rxy rxz )(1  rxy2  rxz2  ryz2 )

Для имеющихся данных z расч получилось равным 2,13, что больше, чем

zкрит  1,96 . Соответственно мы делаем вывод о том, что на уровне значимости 5%


гипотезу следует отвергнуть. При этом, если выбрать уровень значимости равный 1%,
основания для отвержения гипотезы отсутствовали бы.
К сожалению в случае, когда исходные данные не позволяют сделать уверенного
вывода z расч оказывается неустойчивым к небольшому изменению исходных данных.

При проверке отказалось, что увеличение rxz всего на четыре сотые приводит к

уменьшению z расч до 1,90. Т.е. только при заметном отклонении z расч от zкрит можно

сделать уверенный вывод о совпадении/несовпадении коэффициентов корреляции в


генеральной совокупности данных.

10
Иткина А.Я.

Частный коэффициент корреляций

Поскольку коэффициент корреляции отражает лишь математически


наличие/отсутствие связи между переменными, возникает вопрос об истинной и
ложной корреляции. Т.е. действительно ли связь между переменными носит
осмысленный характер или она вызвана лишь влиянием выбросов или третьей
переменной.
В первом случае ошибочных выводов по коэффициенту корреляции можно
избежать, рассмотрев облако точек для переменных. Второй случай более сложный,
поскольку требует догадаться, что могло вызвать ложную корреляцию.
Чтобы проиллюстрировать данную проблему рассмотрим данные по связи
энергопотребления на душу населения, кВт*час на чел./год (х) в нескольких странах с
размером территории этих стран, кв. км (у). По выборке из 44 стран был рассчитан
коэффициент корреляции Пирсона, который оказался равен 0,79. На Рис. 3 видно, что
облако распадается на отдельные части, что вызывает сомнения в правильности
применения коэффициента корреляции. Внимательно изучив список стран, вошедших в
выборку, было сделано предположение о необходимости разделить их по ВВП на душу
населения, $ США (z).

12000000

10000000

8000000

6000000

4000000

2000000

0
0 2000 4000 6000 8000 10000 12000 14000 16000

Рис. 3. Облако точек: по оси х – площадь стран; по у – энергопотребление.

Частный коэффициент корреляции показывает, какова была бы связь между


двумя переменными, при условии, что влияние другой (других) переменных
исключается.
Частные коэффициенты могут быть разных порядков. Порядок коэффициента
определяется числом факторов, влияние которых исключается. Здесь мы

11
Коэффициенты корреляции и специфика их применения

рассматриваем только частный коэффициент корреляции первого порядка. После


введения дополнительной переменной получены rxz  0,93 и ryz  0,76 .

rxy  rxz  ryz 0,79  0,93  0,76


rxy / z    0,35
(1  r )(1  r )
2
xz
2
yz (1  0,932 )(1  0,762 )

Проверим статистическую значимость частного коэффициента корреляции. Число


степеней свободы уменьшилось до n  3 .

rxy / z  n  3 0,35  44  3
t расч    2,39 .
1  rxy / z 2
1  0,35 2

Поскольку t расч  tкрит (0,025;41)  2,02 гипотезу об отсутствии корреляционной

связи между электропотреблением и площадью территории страны на уровне


значимости 5% необходимо отвергнуть. Однако эта связь не столь существенна, как
казалось вначале.

12
Иткина А.Я.

ПРИЛОЖЕНИЕ 1

Таблица критических значений рангового коэффициента корреляции Спирмена 2


(для проверки односторонних альтернатив; n – объем выборки; α – уровень значимости)

2
С сайта Йоркского университета (Великобритания) http://www.york.ac.uk/

13
Коэффициенты корреляции и специфика их применения

ПРИЛОЖЕНИЕ 2

Таблица критических значений рангового коэффициента корреляции Кендалла 3


(для проверки односторонних альтернатив; n – объем выборки; α – уровень значимости)

3
С сайта Йоркского университета (Великобритания) http://www.york.ac.uk/

14