Вы находитесь на странице: 1из 57

МЕТОДЫ И АЛГОРИТМЫ

ОБРАБОТКИ СТАТИСТИЧЕСКИХ
ДАННЫХ.

ЗАНЯТИЕ 4. КОРРЕЛЯЦИОННЫЙ
АНАЛИЗ

Доцент кафедры ЭАТ,


Зотин Никита Александрович

Самара 2020
РАССМАТРИВАЕМЫЕ ВОПРОСЫ

1. Определение корреляции

2. Определение ковариации

3. Коэффициент корреляции Пирсона

4. Коэффициент корреляции Спирмена

5. Коэффициент корреляции Кендалла

6. Проверка гипотезы о наличие корреляции признаков

2
КОВАРИАЦИЯ. ОПРЕДЕЛЕНИЕ

 Ковариация – мера силы и направления взаимосвязи случайных


величин
𝒏
  ∑ ( 𝒙𝒊 − 𝑿
´ ) ( 𝒚𝒊 − 𝒀
´ )
𝒊=𝟏
𝒄𝒐𝒗=
𝒏 −𝟏

 𝒚  𝒚  𝒚

(  𝒙𝒊 , 𝒚 𝒊)

 𝒙  𝒙  𝒙
ковариация велика ковариация мала ковариация велика
(меньше нуля) (по модулю) (больше нуля)

3
КОВАРИАЦИЯ. ПРИМЕР РАСЧЁТА

 Ковариация – мера силы и направления взаимосвязи случайных


величин

1,3 -2,5 -4,55 1,27   ∑ ( 𝒙𝒊 − 𝑿


´ ) ( 𝒚𝒊 − 𝒀
´ )
𝒊=𝟏
𝒄𝒐𝒗 =
2,5 1,0 -3,35 4,77 𝒏 −𝟏

3,7 -3,4 -2,15 0,37 𝒏 𝒏


   
6,9 -5,1 1,05 -1,33 𝑿´ =∑ 𝒙 𝒊=𝟓 , 𝟖𝟓 𝒀´ =∑ 𝒙 𝒊=−𝟑 , 𝟕𝟕
8,4 -5,8 2,55 -2,03 𝒊=𝟏 𝒊=𝟏

12,3 -6,8 6,45 -3,03

  − 𝟒 , 𝟓𝟓 ∙𝟏 , 𝟐𝟕+ ( −𝟑 ,𝟑𝟓 ∙ 𝟒 , 𝟕𝟕 )+ ( − 𝟐 ,𝟏𝟓 ∙ 𝟎 ,𝟑𝟕 ) +…


𝒄𝒐𝒗=
𝟔 −𝟏
  − 𝟒𝟖 , 𝟔𝟕 Чему равна ковариация переменной
𝒄𝒐𝒗= =− 𝟗 , 𝟕𝟑𝟒
𝟓 с самой собой?
4
КОВАРИАЦИЯ. ПРИМЕР РАСЧЁТА

𝒏
  ∑ ( 𝒙𝒊 − 𝑿
´ ) ( 𝒚𝒊 − 𝒀
´ )
𝒊=𝟏
𝒄𝒐𝒗=
𝒏 −𝟏

  если

𝒏 𝒏
𝟐
  ∑ ( 𝒙𝒊 − 𝑿
´ ) ( 𝒙𝒊 − 𝑿
´ ) ∑ ( 𝒙𝒊 − 𝑿
´ )
𝒊=𝟏 𝒊=𝟏
𝒄𝒐𝒗= =
𝒏− 𝟏 𝒏 −𝟏

𝒏
 
𝟐 𝟏 𝟐
дисперсия 𝝈 = ∑ ( 𝒙𝒊 − 𝑿 )
´
𝒏 − 𝟏 𝒊=𝟏

ковариация переменной с самой собой равна её


дисперсии

5
КОРРЕЛЯЦИЯ. ОПРЕДЕЛЕНИЕ

Корреляция (корреляционная зависимость) – статистическая


взаимозависимость случайных величин.
Статистическая взаимосвязь (взаимозависимость) – соотношение
между переменными , при котором изменение значения одной
переменной сопровождается изменением распределения других
переменных.
 𝒚  𝒚

(  𝒙𝟏 ; 𝒚 𝟏 ) (  𝒙𝟐 ; 𝒚 𝟐 )

 𝒙  𝒙
при одиночных наблюдениях при массовом наблюдении
взаимосвязь не определяется взаимосвязь определяется
6
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

Корреляционный анализ – статистический метод, позволяющий с


использованием коэффициентов корреляции определить, существует
ли зависимость между переменными и насколько она сильна.
Коэффициент корреляции – мера статистической взаимозависимости
случайных величин.
Различают следующие коэффициенты корреляции:

ПИРСОНА

СПИРМЕНА

КНДАЛЛА

7
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА

 Коэффициент корреляция Пирсона– мера взаимозависимости


случайных величин (распределённых по нормальному закону).
для генеральной совокупности для выборки
  𝒄𝒐𝒗   𝒄𝒐𝒗
𝒓 𝒑= 𝒓 𝒑=
𝝈𝒙 𝝈 𝒚   ковариация 𝑺𝒅 𝒙 𝑺𝒅 𝒚
  – среднеквадратические отклонения и
– стандартные отклонения и

  𝒏   𝒏
𝑺𝒅 𝒙 =
 

𝟏

𝒏−𝟏 𝒊=𝟏
( 𝒙𝒊 − 𝑿´ )
𝟐

∑ ( 𝒙𝒊 − 𝑿
𝒊=𝟏
𝑺𝒅 𝒚 =
´ )( 𝒚𝒊 − 𝒀
´ )
𝟏
√ ∑
𝒏−𝟏 𝒊=𝟏
( 𝒚𝒊 − 𝒀´ )
𝟐

𝒓 𝒑=
𝒏 𝒏
𝒏 − 𝟏∙
√ 𝟏
𝒏−𝟏
´ )𝟐
∑ ( 𝒙𝒊 − 𝑿
𝒊=𝟏 √ 𝟏
𝒏 −𝟏
´ )𝟐
∑ ( 𝒚𝒊 − 𝒀
𝒊=𝟏

8
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА. ПРИМЕР РАСЧЁТА

  𝒄𝒐𝒗
𝒓 𝒑=
1,3 -2,5 -4,55 1,27 𝝈𝒙 𝝈 𝒚
2,5 1,0 -3,35 4,77   (считали до этого)
3,7 -3,4 -2,15 0,37
  𝒏
6,9
8,4
12,3
-5,1
-5,8
-6,8
1,05
2,55
6,45
-1,33
-2,03
-3,03
𝝈 𝒙=
√ 𝟏

𝒏−𝟏 𝒊=𝟏
( ´
𝒙𝒊 − 𝑿 )
𝟐

  𝟏
𝝈 𝒙=

𝟓 −𝟏
𝟐 𝟐 𝟐 𝟐 𝟐 𝟐
( (−𝟒 ,𝟓𝟓) +(−𝟑 ,𝟑𝟓) +(−𝟐 ,𝟏𝟓) +𝟏, 𝟎𝟓 +𝟐,𝟓𝟓 +𝟔 ,𝟒𝟓 ) =𝟒,𝟏𝟒𝟏
𝝈  𝒚 =𝟐 , 𝟖𝟏𝟑   𝒄𝒐𝒗 − 𝟗 , 𝟕𝟑𝟒
𝒓 𝒑= = =𝟎 , 𝟖𝟑𝟓
𝝈 𝒙 𝝈 𝒚 𝟒 , 𝟏𝟒𝟏∙ 𝟐 , 𝟖𝟏𝟑

9
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
ПИРСОНА

𝒓  𝒑 =𝟎 переменные статистически независимы

𝒓  𝒑 ≠ 𝟎 переменные статистически зависимы

  как правило рассчитывается по данным выборки а не


генеральной совокупности

  - случайная величина. Просто сравнить с нулём некорректно,


так как отклонение может быть случайным. Необходимо
определить вероятность такого случайного отклонения.

10
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
ПИРСОНА С ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

 Выдвигаем две конкурирующие гипотезы:

: корреляция отсутствует
: корреляция существует

Если вероятность случайного отклонения от нуля полученного


значения будет велика, то нет смысла отклонять .
Так как нет ничего удивительного в том, что в случайном
эксперименте было получено высоковероятное отклонение.

Если верна вероятность случайного отклонения от нуля полученного


значения будет мала, то нет смысла отклонять .
Так как странно, что в случайном эксперименте было получено
маловероятное отклонение.

11
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
ПИРСОНА С ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

Распределение значений коэффициентов корреляции Пирсона при


математическом ожидании равном нулю и t-распределение
Стьюдента связаны следующими формулами:
 
𝒏 −𝟐 𝟏
𝒕 =𝒓 𝒑
√ 𝟐
𝟏 −𝒓 𝒑  
  – величина распределения Стьюдента;

, 𝒓 𝒑 =𝒕
𝒏 −𝟐 −𝒕 𝟐
- значение коэффициента
Пирсона; – число пар измерений.

 
𝟔 −𝟐
в нашем примере
𝒓  𝒑 =𝟎 , 𝟖𝟑𝟓 ему соответствует
𝒕=𝟎 , 𝟖𝟑𝟓

𝒕=𝟑
  , 𝟎𝟑𝟓
𝟐
𝟏 −𝟎 , 𝟖𝟑𝟓    

12
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

 Зададимся уровнем значимости . Это значит, что при проверке гипотезы


вероятность случайного отклонения или меньше уже считается
достаточно малой, а результаты эксперимента появление которых
возможно с такой вероятностью позволяют отклонить нулевую гипотезу .

Форма распределения Стьюдента зависит от числа степеней свободы


которое при наблюдении пар значений признаков (в нашем случае x и y)
определяется как:

 𝒌 =𝒏 −𝟐

  – число степеней свободы; – число пар измерений.

𝒌  =𝟔 −𝟐=𝟒

13
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

 Зная уровень значимости и число степеней свободы можно


определить область принятия гипотезы с помощью:
специальных пакетов справочных таблиц
программ

E R
NG
DA
online сервисы

https://gallery.shinya
pps.io/dist_calc/

14
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ

 Зная уровень значимости и число степеней свободы можно


определить область принятия гипотезы с помощью:
Excel
1.2
вероятность попадания 0,95
1

0.8

0.6

0.4

0.2

0
-5 -4 -3 -2 -1 0 1 2 3 4 5

15
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

 Зная уровень значимости и число степеней свободы можно построить


область принятия гипотезы с помощью:
Excel

 𝑷 ( −𝟐 , 𝟕𝟕𝟔≤ 𝒕 ≤ 𝟐 , 𝟕𝟕𝟔 )=𝟎 , 𝟗𝟓

   
𝟎  , 𝟎𝟐𝟓 𝟎  , 𝟗𝟕𝟓

𝟎  , 𝟗𝟕𝟓 −𝟎 , 𝟎𝟐𝟓=𝟎 , 𝟗𝟓

16
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА
0.4

распределения
0.35
плотность
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1
 𝑷 ( −∞ ≤ 𝒕 ≤ 𝟐, 𝟕𝟕𝟔 ) =𝟎 , 𝟗𝟕𝟓
2
𝟐  ,𝟕𝟕𝟔
3 4

0.4
распределения

0.35
плотность

0.3
0.25
0.2
0.15
0.1
0.05
0
−𝟐
  , 𝟕𝟕𝟔 -4 -3 -2 -1 0 1 2
𝟐  ,𝟕𝟕𝟔3 4

 𝑷 ( −∞ ≤ 𝒕 ≤− 𝟐 ,𝟕𝟕𝟔 )=𝟎 ,𝟎𝟐 𝟓  𝑷 ( −𝟐 , 𝟕𝟕𝟔≤ 𝒕 ≤ 𝟐 , 𝟕𝟕𝟔 )=𝟎 , 𝟗𝟓


17
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
ПИРСОНА С ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

 
𝟔 −𝟐
в нашем примере
𝒓  𝒑 =𝟎 , 𝟖𝟑𝟓 ему соответствует
𝒕=𝟎 , 𝟖𝟑𝟓

𝒕=𝟑
  , 𝟎𝟑𝟓
𝟐
𝟏 −𝟎 , 𝟖𝟑𝟓    

Для области принятия гипотезы:


 𝑷 ( −𝟐 , 𝟕𝟕𝟔≤ 𝒕 ≤ 𝟐 , 𝟕𝟕𝟔 )=𝟎 , 𝟗𝟓

  не принадлежит области принятия гипотезы


следовательно, меньше . Мы получили маловероятный
результат для предположения что верна гипотеза об
отсутствии корреляции. Таким образом, гипотезу отклоняем.
Оставляем гипотезу : корреляция существует

18
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
ПИРСОНА С ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА
0.4

0.35

0.3
распределения
плотность

0.25

0.2

0.15

0.1

0.05
𝒕=𝟑
  , 𝟎𝟑𝟓
0
-4
−𝟐
  , 𝟕𝟕𝟔
-3 -2 -1 0 1 2
𝟐  ,𝟕𝟕𝟔
3 4

  не принадлежит области принятия гипотезы


следовательно, меньше . Мы получили маловероятный
результат для предположения что верна гипотеза об
отсутствии корреляции. Таким образом, гипотезу отклоняем.

19
КОРРЕЛЯЦИЯ. ПРИМЕРЫ ДИАГРАММ РАССЕЯНИЯ

Диаграмма рассеяния – математическая диаграмма, изображающая


значения двух переменных в виде точек на декартовой плоскости.

𝒓=𝟎
  𝒓=𝟎
  ,𝟑𝟓 𝒓=𝟎
  ,𝟕𝟓

https://rpsychologist.com/d3/correlation/

20
КОРРЕЛЯЦИЯ. ПРИМЕРЫ ДИАГРАММ РАССЕЯНИЯ

𝒓=𝟎
  𝒓=𝟎
  ,𝟑𝟓 𝒓=𝟎
  ,𝟕𝟓

𝒓=−𝟎
  ,𝟓 𝒓=−𝟏
  𝒓=𝟏
 

коэффициент корреляции меняется от -1 до 1


21
КОРРЕЛЯЦИЯ. ПОЧЕМУ ОТ – 1 ДО + 1?

𝒏
  ∑ ( 𝒙𝒊 − 𝑿
´ )( 𝒚 𝒊 − 𝒀
´ )
𝒊=𝟏
𝒓𝒔 =
𝒏 𝒏
𝒏 − 𝟏∙
√ 𝟏
𝒏−𝟏
∑ ( 𝒙𝒊 − 𝑿
𝒊=𝟏
´ ) 𝟐

√ 𝟏
𝒏 −𝟏
´ )𝟐
∑ ( 𝒚𝒊 − 𝒀
𝒊=𝟏

 Если взаимосвязь максимальна, то y однозначно определяется x:

𝒏
  ∑ ( 𝒙𝒊 − 𝑿
´ ) (𝒌 𝒙 𝒊 − 𝒌 𝑿
´ )
𝒊=𝟏
𝒓𝒔 =
𝒏 𝒏

√ ∑
𝒊=𝟏
´ )𝟐
( 𝒙𝒊 − 𝑿 √ ´ )
∑ ( 𝒌 𝒙𝒊 − 𝒌 𝑿
𝒊=𝟏
𝟐

𝒏
  ´ )𝟐
𝒌 ∑ ( 𝒙𝒊 − 𝑿
𝒊=𝟏
𝒓𝒔 =
𝒏 𝒏

√ 𝒌
𝟐
∑ ( 𝒙𝒊 − 𝑿
𝒊=𝟏
𝟐
´ ) ∙∑ ( 𝒙𝒊 − 𝑿
´ )
𝒊=𝟏
𝟐

22
КОРРЕЛЯЦИЯ. ПОЧЕМУ ОТ – 1 ДО + 1?

𝒏
  ´ )𝟐
𝒌 ∑ ( 𝒙𝒊 − 𝑿
𝒊=𝟏
𝒓𝒔 =
𝒏 𝒏

√ 𝒌
𝟐
∑(
𝒊=𝟏
´ )𝟐 ∙ ∑ ( 𝒙 𝒊 − 𝑿
𝒙𝒊 − 𝑿 ´ )𝟐
𝒊=𝟏

𝒏
  𝒌∑ ( 𝒙𝒊 − ´ )𝟐
𝑿
𝒊=𝟏
𝒓𝒔 =
𝒏 𝟐

√𝒌 𝟐

√(∑ 𝒊=𝟏
´ )
( 𝒙𝒊 − 𝑿
𝟐
)
𝒏
𝟐
  𝒌 ∑ ( 𝒙𝒊 − 𝑿
´ )
𝒌
𝒊=𝟏
𝒓𝒔 = 𝒏
=𝟏 ∙ =+𝟏 или − 𝟏
√𝒌 ∑ ( 𝟐
𝒙𝒊 − 𝑿
´ 𝟐
) √ 𝒌𝟐
𝒊=𝟏

23
ЗАЧЕМ КОРРЕЛЯЦИЯ ЕСЛИ ЕСТЬ КОВАРИАЦИЯ?

1,3 -2,5 отличаются 13 -25


2,5 1,0 только 25 10
масштабами по
3,7 -3,4 37 -34
осям, сила
6,9 -5,1 взаимосвязи 69 -51
8,4 -5,8 одинакова 84 -58
12,3 -6,8 123 -68

𝒄𝒐𝒗=−𝟗
  , 𝟕𝟑𝟒 ковариация отлична 𝒄𝒐𝒗=−𝟗𝟕𝟑
  ,𝟒
𝒓  𝒔 =𝟎 , 𝟖𝟑𝟓 корреляция одинакова 𝒓  𝒔 =𝟎 , 𝟖𝟑𝟓

таким образом, корреляция показывает силу


взаимосвязи не зависимо от масштаба данных

24
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЕНА

 Коэффициент корреляции Спирмена – мера силы монотонной


взаимосвязи между переменными.

Монотонная взаимосвязь – взаимосвязь переменных при которой


возрастание одной не ведёт к убыванию другой (или не ведёт к
возрастанию другой) переменной.

нет изменения, как и


нет убывания

не ведёт к убыванию другой не ведёт к возрастанию другой

25
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЕНА

 Коэффициент корреляции Спирмена – мера силы монотонной


взаимосвязи между переменными.

среднее значение рангов


𝒏
та же формула что и у
  ∑ ( 𝐫𝐚𝐧𝐤 ( 𝒙 𝒊 ) − 𝒏 + 𝟏
𝟐 )(
𝐫𝐚𝐧𝐤 ( 𝒚 𝒊 ) −
𝒏 +𝟏
𝟐 ) Пирсона, но значения
𝒓 𝒔 = 𝒊=𝟏
𝟏 ( 𝟑 поменялись на их ранги
𝒏 −𝒏 )
𝟏𝟐

или в упрощённом виде

𝒏
  𝟔 𝟐
𝒓 𝒔 =𝟏− 𝟑 ∑ ( 𝐫𝐚𝐧𝐤 ( 𝒙𝒊 ) − 𝐫𝐚𝐧𝐤 ( 𝒚 𝒊 ) )
𝒏 − 𝒏 𝒊=𝟏

  - ранги значения переменных в выборках;


– число элементов в выборках

26
ОПРЕДЕЛЕНИЕ РАНГА

Ранг – номер элемента в ранжированной выборке (расположенной по


возрастанию)

1,3 -2,5 1 5   в столбце все


2,5 1,0 2 6 расположены по
3,7 -3,4 3 4 возрастанию, в
столбце – нет,
6,9 -5,1 4 3 поэтому и ранги
8,4 -5,8 5 2 поменяны местами
12,3 -6,8 6 1

27
КОРРЕЛЯЦИЯ СПИРМЕНА. ПРИМЕР РАСЧЁТА

1,3 -2,5 1 5 -4
2,5 1,0 2 6 -4
3,7 -3,4 3 4 -1
6,9 -5,1 4 3 1
8,4 -5,8 5 2 3
12,3 -6,8 6 1 5
𝒏
  𝟔 𝟐
𝒓 𝒔 =𝟏− 𝟑 ∑( 𝐫𝐚𝐧𝐤 𝒙
( 𝒊) − 𝐫𝐚𝐧𝐤 𝒚
( 𝒊 ))
𝒏 − 𝒏 𝒊=𝟏

𝟔 𝟐 𝟐 𝟐
𝒓  𝒔 =𝟏−
𝟐 𝟐 𝟐
𝟑
( ( −𝟒 ) + ( − 𝟒 ) + ( − 𝟏 ) +𝟏 +𝟑 +𝟓 )= − 𝟎 , 𝟗𝟒𝟐
𝟔 −𝟔

28
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
СПИРМЕНА С ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

Аналогична проверке для коэффициента Пирсона.

 Выдвигаем две конкурирующие гипотезы:

: корреляция отсутствует
: корреляция существует

Распределение значений коэффициентов корреляции Пирсона при


математическом ожидании равном нулю и t-распределение
Стьюдента связаны следующими формулами:
 
𝒏− 𝟐 𝟏
𝒕 =𝒓 𝒔
√ 𝟐
𝟏 − 𝒓𝒔  
  – величина распределения Стьюдента;

, 𝒓 𝒔 =𝒕
𝒏 −𝟐 −𝒕 𝟐

- значение коэффициента
Спирмена; – число пар измерений.

29
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

 Зная уровень значимости и число степеней свободы можно определиь


область принятия гипотезы с помощью:
Excel

 𝑷 ( −𝟐 , 𝟕𝟕𝟔≤ 𝒕 ≤ 𝟐 , 𝟕𝟕𝟔 )=𝟎 , 𝟗𝟓

   
𝟎  , 𝟎𝟐𝟓 𝟎  , 𝟗𝟕𝟓

𝟎  , 𝟗𝟕𝟓 −𝟎 , 𝟎𝟐𝟓=𝟎 , 𝟗𝟓

30
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА
0.4

распределения
0.35
плотность
0.3
0.25
0.2
0.15
0.1
0.05
0
-4 -3 -2 -1 0 1
 𝑷 ( −∞ ≤ 𝒕 ≤ 𝟐, 𝟕𝟕𝟔 ) =𝟎 , 𝟗𝟕𝟓
2
𝟐  ,𝟕𝟕𝟔
3 4

0.4
распределения

0.35
плотность

0.3
0.25
0.2
0.15
0.1
0.05
0
−𝟐
  , 𝟕𝟕𝟔 -4 -3 -2 -1 0 1 2
𝟐  ,𝟕𝟕𝟔3 4

 𝑷 ( −∞ ≤ 𝒕 ≤− 𝟐 ,𝟕𝟕𝟔 )=𝟎 ,𝟎𝟐 𝟓  𝑷 ( −𝟐 , 𝟕𝟕𝟔≤ 𝒕 ≤ 𝟐 , 𝟕𝟕𝟔 )=𝟎 , 𝟗𝟓


31
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
СПИРМЕНА С ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА

 
𝟔 −𝟐
в нашем примере
𝒓  𝒔 =−𝟎 , 𝟗𝟒𝟐
𝒕=−𝟎 ,𝟗𝟒𝟐
√ 𝟐
𝟏−(−𝟎 , 𝟗𝟒𝟐)  
𝒕=−𝟓
  , 𝟔𝟏𝟒
Для области принятия гипотезы:
 𝑷 ( −𝟐 , 𝟕𝟕𝟔≤ 𝒕 ≤ 𝟐 , 𝟕𝟕𝟔 )=𝟎 , 𝟗𝟓

  не принадлежит области принятия гипотезы


следовательно, меньше . Мы получили маловероятный
результат для предположения что верна гипотеза об
отсутствии корреляции. Таким образом, гипотезу отклоняем.
Оставляем гипотезу : корреляция существует

32
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
СПИРМЕНА С ИСПОЛЬЗОВАНИЕМ t-КРИТЕРИЯ СТЬЮДЕНТА
0.4

0.35

0.3
распределения
плотность

0.25

0.2

0.15

0.1

𝒕=−𝟓 , 𝟔𝟏𝟒
0.05
 
0
-6 -5 -4
−𝟐
  , 𝟕𝟕𝟔
-3 -2 -1 0 1 2
𝟐  ,𝟕𝟕𝟔
3 4

  не принадлежит области принятия гипотезы


следовательно, меньше . Мы получили маловероятный
результат для предположения что верна гипотеза об
отсутствии корреляции. Таким образом, гипотезу отклоняем.

33
КОРРЕЛЯЦИЯ КЕНДАЛЛА

 Коэффициент корреляции Кендалла – мера силы монотонной


взаимосвязи между переменными.
Определение совпадает с определением коэффициента Спирмана.

Коэффициент рассчитывается исходя из:


- доли совпавшего числа отношений «больше-меньше» между рангов
разных признаков.
- доли инверсного числа отношений «больше-меньше» между рангов
разных признаков.

34
КОРРЕЛЯЦИЯ КЕНДАЛЛА.ПРИМЕР РАСЧЁТА

64,6 10,2 18,4 5,6 1 3 7 2

  расположили по ранжиру
21,5 4,2 20,6 2,9 2 1 8 0
51,1 8,5 21,5 4,2 3 2 7 0
54,4 14,8 35,7 7,4 4 4 6 0
20,6 2,9 37,1 9,6 5 6 4 1
35,7 7,4 39,8 10,7 6 9 1 3
18,4 5,6 51,1 8,5 7 5 3 0
37,1 9,6 54,4 14,8 8 10 0 2
90,6 10,4 64,6 10,2 9 7 1 0
39,8 10,7 90,6 10,4 10 8 0 0
37 8

в позиции P – Число бОльших рангов идущих ниже в таблице


в позиции Q – Число меньших рангов идущих ниже в таблице
35
КОРРЕЛЯЦИЯ КЕНДАЛЛА.ПРИМЕР РАСЧЁТА

𝜮 𝑷 − 𝜮𝑸
𝒓  𝒌 =
18,4 5,6 1 3 7 2 𝟏
𝒏 ( 𝒏 −𝟏)
20,6 2,9 2 1 8 0 𝟐
21,5 4,2 3 2 7 0 максимальное
35,7 7,4 4 4 6 0 число совпадений
37,1 9,6 5 6 4 1 (максимальное
39,8 10,7 6 9 1 3 число инверсий)
51,1 8,5 7 5 3 0 𝟑𝟕 − 𝟖
𝒓  𝒌 =
54,4 14,8 8 10 0 2 𝟏
∙ 𝟏𝟎 ( 𝟏𝟎 − 𝟏 )
64,6 10,2 9 7 1 0 𝟐
90,6 10,4 10 8 0 0 𝒓  𝒌 =𝟎 , 𝟔𝟒𝟒
37 8 𝒓  𝒌 ∈ [ −𝟏 ; 𝟏 ]
 – число совпадений отношений «больше-меньше» среди рангов обоих признаков
 – число инверсий отношений «больше-меньше» среди рангов обоих признаков

36
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
КЕНДЕЛЛА С ИСПОЛЬЗОВАНИЕМ z-КРИТЕРИЯ
Почти аналогична проверке для коэффициента Пирсона, но
используют НЕ значения t Стьюдента, а z нормального стандартного
распределения.
 Выдвигаем две конкурирующие гипотезы:

: корреляция отсутствует
: корреляция существует

Распределение значений коэффициентов корреляции Кенделла при


математическом ожидании равном нулю и z-распределение связаны
следующими формулами:
 
𝟗 𝒏(𝒏 − 𝟏) 𝟐(𝟐 𝒏+𝟓)
𝒛=𝒓 𝒌
√ 𝟐(𝟐 𝒏+𝟓) √
,𝒓 𝒌 =𝒛
𝟗 𝒏 (𝒏 −𝟏)
  – величина стандартного нормального распределения; - значение
коэффициента Кенделла; – число пар измерений.

37
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ z-КРИТЕРИЯ

 Зная уровень значимости и не зависимо от числа измерений можно


определить область принятия гипотезы:
Excel

 𝑷 ( −𝟏 , 𝟗𝟔 ≤ 𝒛 ≤𝟏 , 𝟗𝟔 )=𝟎 , 𝟗𝟓

𝟎  , 𝟎𝟐𝟓 𝟎  , 𝟗𝟕𝟓

𝟎  , 𝟗𝟕𝟓 −𝟎 , 𝟎𝟐𝟓=𝟎 , 𝟗𝟓

38
ОПРЕДЕЛЕНИЕ ОБЛАСТИ ПРИНЯТИЯ ГИПОТЕЗЫ С
ИСПОЛЬЗОВАНИЕМ z-КРИТЕРИЯ
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0

 𝑷 ( −∞ ≤ 𝒕 ≤𝟏 , 𝟗𝟔𝟎 ) =𝟎 , 𝟗𝟕𝟓 𝟏 , 𝟗𝟔𝟎


-3 -2 -1 0 1 2 3
 
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-3
−𝟏
  , 𝟗𝟔𝟎
-2 -1 0 1
𝟏  , 𝟗𝟔𝟎
2 3

 𝑷 ( −∞ ≤ 𝒕 ≤− 𝟏 , 𝟗𝟔𝟎 )=𝟎 ,𝟎𝟐 𝟓  𝑷 ( −𝟏 , 𝟗𝟔𝟎≤ 𝒕 ≤ 𝟏 , 𝟗𝟔𝟎 )=𝟎 , 𝟗𝟓


39
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
СПИРМЕНА С ИСПОЛЬЗОВАНИЕМ z-КРИТЕРИЯ
 
𝟗 ∙ 𝟏𝟎(𝟏𝟎 −𝟏)
в нашем примере
𝒓  𝒌 =𝟎 , 𝟔𝟒𝟒
𝒛=𝒓 𝒌
√ 𝟐(𝟐∙ 𝟏𝟎+𝟓)
 𝒛=𝟐 , 𝟓𝟗𝟐

Для определённой области принятия гипотезы:


 𝑷 ( −𝟏 , 𝟗𝟔 ≤ 𝒛 ≤𝟏 , 𝟗𝟔 )=𝟎 , 𝟗𝟓

  не принадлежит области принятия гипотезы


следовательно, меньше . Мы получили маловероятный
результат для предположения что верна гипотеза об
отсутствии корреляции. Таким образом, гипотезу отклоняем.
Оставляем гипотезу : корреляция существует

40
ПРОВЕРКА РАВЕНСТВА НУЛЮ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
СПИРМЕНА С ИСПОЛЬЗОВАНИЕМ z-КРИТЕРИЯ
0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05  
0
-3
−𝟏
  , 𝟗𝟔𝟎
-2 -1 0 1
𝟏  , 𝟗𝟔𝟎
2 3

  не принадлежит области принятия гипотезы


следовательно, меньше . Мы получили маловероятный
результат для предположения что верна гипотеза об
отсутствии корреляции. Таким образом, гипотезу отклоняем.

41
ПРОБЛЕМА ПОСТРОЕНИЯ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
ВЫБОРОЧНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

𝒇  (𝒓 )

1,0
0,0 0,4 0,8  𝒓
-1,0

 Плотность распределения выборочного коэффициента корреляции


зависит от его среднего значения по выборкам, что затрудняет
построение доверительного интервала для .
42
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ

12 12

10 10

8 8

6 6

4 4

2 2

0 0
0 5 10 15 20 25 30 3.7 3.9 4.1 4.3 4.5 4.7 4.9 5.1 5.3 5.5 5.7

𝒓  𝒑 =𝟎 , 𝟗𝟓𝟑𝟎 𝒓  𝒑 =−𝟎 , 𝟕𝟕𝟒𝟒


𝒓  𝒔 =𝟎 , 𝟗𝟓𝟐𝟖 𝒓  𝒔 =−𝟎 , 𝟖𝟖𝟎𝟎
𝒓  𝒌 =𝟎 , 𝟖𝟐𝟓𝟑 𝒓  𝒌 =−𝟎 , 𝟕𝟑𝟑𝟑

43
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ
12 12

10 10

8 8

6 6

4 4

2 2

0 0
2 4 6 8 10 12 14 0.8 0.9 0.9 1.0 1.0 1.1 1.1 1.2 1.2 1.3 1.3

𝒓  𝒑 =𝟏 𝑺𝒅
  =𝟎 𝒓  𝒑 =𝟎 , 𝟗𝟑𝟔
𝒓  𝒔 =𝟏 без дисперсии 𝒓  𝒔 =𝟏
𝒓  𝒌 =𝟏 𝒓  𝒌 =𝟏

44
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ
60

50

40

30

20

10

-10
0 5 10 15 20 25

  (не значима)

  (значима)
устойчивы к
  (значима) выбросам

45
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ
1200
ещё одна точка
1000

800

600

400

29 точек
200

0
-1200 -1000 -800 -600 -400 -200 0 200

  (значима) нашли полагаясь на выброс

  (значима) нашли корреляцию с


учётом выброса для 29
  (значима) точек
46
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ
18
16
14
12
10
8
6
4
2
0
-2
0 5 10 15 20 25 30 35 40

𝒓  𝒑 =𝟎 , 𝟗𝟗𝟔𝟔
𝒓  𝒔 =𝟎 , 𝟗𝟖𝟎𝟎
𝒓  𝒌 =𝟎 , 𝟗𝟎𝟑𝟒
47
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ
16
14
12
10
8
6
4
2
0
-2
2 4 6 8 10 12 14 16
все получились значимы
𝒕  =𝟖 , 𝟏𝟐𝟓𝟑 ∉ ( − 𝟐, 𝟎𝟒𝟖 ; 𝟐 , 𝟎𝟒𝟖 ) 𝒓  𝒑 =𝟎 , 𝟖𝟑𝟖𝟎
𝒕=𝟒
  , 𝟔𝟐𝟕𝟒 ∉ ( − 𝟐, 𝟎𝟒𝟖 ; 𝟐 , 𝟎𝟒𝟖 ) 𝒓  𝒔 =𝟎 , 𝟔𝟓𝟖𝟑 среагировали на разброс
в кластерах сильнее
𝒛=𝟐
  , 𝟗𝟕𝟗𝟓 ∉ (− 𝟏 ,𝟗𝟔𝟎 ;𝟏 , 𝟗𝟔𝟎 ) 𝒓  𝒌 =𝟎 , 𝟑𝟖𝟑𝟗
48
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ
не облако точек
12 7

10 6.5

6
8
5.5
6
5
4
4.5
2
4
0
3.5
-2 3
3 4 4 5 5 6 6 7 7 -2 0 2 4 6 8 10 12
𝒓  𝒑 =𝟎 , 𝟎𝟗𝟑𝟐 после поворота
𝒓  𝒑 =𝟎 , 𝟎𝟗𝟑𝟐
все получились
𝒓  𝒔 =𝟎 , 𝟏𝟖𝟒𝟖 𝒓  𝒔 =𝟎 , 𝟏𝟖𝟒𝟖
НЕзначимы
𝒓  𝒌 =𝟎 , 𝟏𝟐𝟔𝟒 𝒓  𝒌 =𝟎 , 𝟏𝟐𝟔𝟒
  по Excel , значения близкие к нулю считаются не точно
49
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ

16

14

12

10

0
5 6 7 8 9 10 11 12 13

𝒓  𝒑 =−𝟎 , 𝟏𝟎𝟐𝟖𝟖𝟏𝟐 𝒓  𝒔 =−𝟎 , 𝟏𝟐𝟎𝟑𝟓𝟔𝟎 𝒓  𝒌 =−𝟎 , 𝟎𝟔𝟐𝟎𝟔𝟗𝟎


50
ОБЛАСТИ ПРИМЕНЕНИЯ РАЗНЫХ КОЭФФИЦИЕНТОВ
КОРРЕЛЯЦИИ

Распределение величин Зависимость не линейна, но


нет
нормальное, зависимость монотонна!
линеаризуется, выбросов Хотим получить число
нет? побольше?
да да

коэффициент нет
коэффициент Спирмена
Пирсона

коэффициент
классический вариант Кендалла

с точки зрения математика коэффициенты Спирмана и Кендалла


эквивалентны, но на практике коэффициент Спирмана даёт бОльшие
значения, по это причине предпочитают его.
51
ИНТЕРПРЕТАЦИЯ ЗНАЧЕНИЙ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

величина коэффициента
интерпретация:
связь… прямая связь обратная связь

отсутствует
очень слабая
слабая
средняя
сильная
функциональная
интерпретация зависит от сферы использования,

например высокое значение коэффициента корреляции в


исследованиях врача физик в своих экспериментах
посчитает несерьёзным

52
ОГРАНИЧЕНИЕ ПРИМЕНЕНИЯ РАССМОТРЕННЫХ
КОЭФФИЦИЕНТОВ

1._Число наблюдений должно не менее чем в 5-6 раз превышать число


факторов.

2._Множество наблюдений не должно кластеризоваться.

3._Нельзя непосредственно характеризовать сложные нелинейные


зависимости.

 𝒓=𝟎

53
ЧТО ДЕЛАТЬ ПРИ СЛОЖНЫХ НЕЛИНЕЙНЫХ ЗАВИСИМОСТЯХ?

Вместо измеренных значений использовать функции от них

Пример для данных по одной выборке:


 𝒚  𝒚

 𝒙  𝒈
 𝒈=𝒔𝒊𝒏( 𝒙)

54
ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ КОРРЕЛЯЦИОННОГО АНАЛИЗА.
СОЛНЕЧНАЯ ДИАГРАММА

Такая таблица коэффициентов корреляции сложно воспринимается в


целом, поэтому её визуализируют, как вариант, солнечной диаграммой

55
ВИЗУАЛИЗАЦИЯ РЕЗУЛЬТАТОВ КОРРЕЛЯЦИОННОГО АНАЛИЗА.
СОЛНЕЧНАЯ ДИАГРАММА

  центре зависимая переменная,


В
по периферии независимые, чем
ближе они к центру тем большее
влияние оказывают на
зависимую переменную.
для первой орбиты:
;
для второй:
,…
для последней:
.

«Луны» - интеркоррелируемые
переменные (в примере RAD)

Интеркорреляция – корреляция независимых переменных, до начала


эксперимента исследователю как правило неизвестна
56
БЛАГОДАРЮ
ЗА ВНИМАНИЕ

Зотин Никита Александрович


e-mail: ZotinNA.eat@yandex.ru

10

Оценить