Вы находитесь на странице: 1из 6

Метод корреляционного анализа

Краткая теория
Понятие корреляции было введено Гальтоном и Пирсоном и является одним из основных
понятий математической статистики. Различают функциональную и корреляционную
(статистическую) зависимости между признаками. При функциональной связь между признаками
проявляется в каждом отдельном случае, в отличие от статистической, при которой связь между
признаками проявляется лишь в тенденции.
Измерение признаков объектов в некоторых случаях при исследовании анкет, личных
карточек или в результате применения других процедур (например, тест ценностных ориентаций
Рокича) невозможно с помощью количественных шкал. Одним из типов качественных признаков
является ранговый признак (примеры: уровень образования, квалификации и др.), который
позволяет сравнивать объекты между собой и располагать их в порядке ухудшения качества
значения признака.
Для оценки тесноты статистической зависимости между количественными и ранговыми
качественными признаками часто используется ранговый коэффициент корреляции Спирмена.

Рассмотрим алгоритм применения рангового коэффициента корреляции Спирмена.


Пусть выборка объема n содержит независимые объекты, которые обладают двумя
признаками Х и Y.
Первый шаг. Проранжируем значения признака Х. Ранжирование значение признака
происходит по следующей схеме.
1. Расположим объекты в порядке ухудшения или улучшения качества признака, т.е.
значения xi (при этом i изменяется от 1 до n) расположим в порядке возрастания или убывания.
Пронумеруем значения xi.
2. Если значение xi встречается один раз, то каждому xi присваивается ранг аi, равный
порядковому номеру.
Если значение xi встречается несколько раз, то им присваивается одинаковое ранговое
значение (такие ранги называют связные), которое находится как среднее арифметическое
порядковых номеров объектов.
Второй шаг. Аналогично проранжируем значения признака Y, получаем ранги bi.
Третий шаг. В результате ранжирования, получаем ранговую таблицу с двумя ранговыми
рядами А и В:

аi а1 а2 ... аn
bi b1 b2 ... bn

Четвертый шаг. Находим коэффициент корреляции Спирмена.


Для случая несвязных рангов формула рангового коэффициента корреляции Спирмена имеет
вид:
n
6   d i2
 XY  1  i 1
, где di  ai  bi .
n n3

В случае связных рангов находят поправки для ранговых рядов А и В:


a3  a b3  b
Та   , Тb   ,
12 12
где a, b – объемы каждой группы связных рангов в ранговых рядах А и В.
При этом ранговый коэффициент корреляции Спирмена вычисляется по формуле:
n
6   d i2  Т a  Tb
 XY  1  .i 1

n3  n
Пятый шаг. Интерпретируем полученный показатель коэффициента корреляции Спирмена с
помощью его свойств и шкалы Чеддока.
Свойства рангового коэффициента корреляции Спирмена  XY :
1.  1   XY  1 ;
2. Если  XY  0 , то статическая связь между X иY отсутствует.
3. Если  XY  1 или  XY  1 , то между X и Y существует функциональная связь.
4. а) Если  XY  0 , то статическая связь между X и Y обратная.
б) Если  XY  0 , то статическая связь между X и Y прямая.
Чем ближе |  АВ | к единице, тем сильнее линейная связь между Х и Y. Качественная оценка
меры тесноты статистической связи, полученной с помощью рангового коэффициента корреляции
Спирмена, находится по шкале Чеддока (табл. 3).
Таблица 3
Шкала Чеддока
Количественная мера Качественная
тесноты связи, абсолютное значение |  XY | характеристика
силы связи
0,0–0,1 очень слабая
0,1–0,3 слабая
0,3–0,5 умеренная
0,5–0,7 заметная
0,7–0,9 сильная
0,9–0,99 очень сильная

Пример 1
Цель исследования: оценить тесноту и направление статистической зависимости между уровнем
тревожности перед экзаменом по психологии и оценками по результатам экзамена за первый
семестр у студентов 1 курса дефектологического факультета ЯГПУ им. К. Д. Ушинского с
помощью метода корреляционного анализа.
Объект исследования: студенты 1 курса дефектологического факультета ЯГПУ
им. К. Д. Ушинского (n = 30 человек).
Предмет исследования: зависимость значений признака X = {уровнем тревожности перед
экзаменом по психологии} и Y = {оценкой за экзамен по психологии за первый семестр}.
Процедуры эксперимента: опросник исследования тревожности у старших подростков и
юношей (Ч. Д. Спилбергер, адаптация А. Д. Андреева).
Библиографический источник процедур эксперимента:
Опросник исследования тревожности у старших подростков и юношей (Ч. Д. Спилбергер,
адаптация А. Д. Андреева) / Диагностика эмоционально-нравственного развития // ред. и сост.
И. Б. Дерманова. – СПб., 2002. С.75-80.
Единица измерения значений признаков: Х – уровень, Y – баллы.
Метод исследования: корреляционный анализ (ранговый коэффициент корреляции Спирмена).
Задачи исследования:
1) провести эксперимент в соответствии с выбранными процедурами и собрать совокупность
пар значений по исследуемым признакам для группы испытуемых;
2) проранжировать значения признаков X и Y и составить ранговую таблицу, поставив в
соответствие каждому значению признака его ранг;
3) найти разности ранговых значений признаков X и Y, квадраты этих разностей и их сумму;
4) найти ранговый коэффициент корреляции Спирмена (в случае связных рангов значение
рангового коэффициента корреляции Спирмена вычислить с учетом поправок для признаков X
и Y);
5) интерпретировать результаты и сделать вывод о статистической зависимости ранговых
признаков на выборке участников эксперимента.
Собранные данные: в результате эксперимента получили (табл. 4) неупорядоченную
совокупность данных.
Таблица 4
Совокупность собранных пар значений признаков X и Y на выборке студентов
дефектологического факультета
X в н с в в в н н н н с с в в с
Y 3 4 5 5 5 5 4 4 4 3 4 3 4 3 4

с с с с н н в н с в н в с н в
4 5 3 3 3 4 5 4 3 4 3 3 3 4 4

Обработка данных эксперимента


Проранжируем значения признаков X и Y:
признак Х:
1  2  3  4  5  6  7  8  9  10
н:  5,5 ,
10
11  12  13  14  15  16  17  18  19  20
с:  15,5 ,
10
21  22  23  24  25  26  27  28  29  30
в:  25,5 ,
10
признак Y:
1  2  3  4  5  6  7  8  9  10  11
3:  6,
11
4: 12  13  14  15  16  17  18  19  20  21  22  23  24  18 ,
13
25  26  27  28  29  30
5:  27,5 .
6
Поставим в соответствие каждому значению признака его ранг и составим расчетную таблицу
(табл. 5).
Таблица 5
Расчетная таблица для вычисления рангового коэффициента корреляции Спирмена между
признаками X и Y
xi в н с в в в н н
yi 3 4 5 5 5 5 4 4
ai 25,5 5,5 15,5 25,5 25,5 25,5 5,5 5,5
bi 6 18 27,5 27,5 27,5 27,5 18 18
di 19,5 -12,5 -12 -2 -2 -2 -12,5 -12,5
di2 380,25 156,25 144 4 4 4 156,25 156,25

xi н н с с в в с с
yi 4 3 4 3 4 3 4 4
ai 5,5 5,5 15,5 15,5 25,5 25,5 15,5 15,5
bi 18 6 18 6 18 6 18 18
di -12,5 -0,5 -2,5 9,5 7,5 19,5 -2,5 -2,5
di 2 156,25 0,25 6,25 90,25 56,25 380,25 6,25 6,25

xi с с с н н в н с
yi 5 3 3 3 4 5 4 3
ai 15,5 15,5 15,5 5,5 5,5 25,5 5,5 15,5
bi 27,5 6 6 6 18 27,5 18 6
di -12 9,5 9,5 -0,5 -12,5 -2 -12,5 9,5
di2 144 90,25 90,25 0,25 156,25 4 156,25 90,25

xi в н в с н в
yi 4 3 3 3 4 4
ai 25,5 5,5 25,5 15,5 5,5 25,5
bi 18 6 6 6 18 18
di 7,5 -0,5 19,5 9,5 -12,5 7,5 Сумма:
di 2 56,25 0,25 380,25 90,25 156,25 56,25 3178

Учитывая связные ранги, вычислим поправки:


10 3  10 10 3  10 10 3  10
Та     247,5 ,
12 12 12
113  11 133  13 6 3  6
Тb     309,5 .
12 12 12
Найдем ранговый коэффициент корреляции Спирмена по формуле с поправками:
6  3178  247,5  309,5 19625
 XY  1  1  1  0,73  0,27 .
30  30
3
26970
Интерпретация: положительный знак указывает на прямое направление связи, однако по
шкале Чеддока (табл. 3) теснота статистической зависимости между ранговыми признаками
является слабой.
Результат исследования: зависимость оценки за экзамен по психологии за первый семестр у
студентов дефектологического факультета ЯГПУ им. К. Д. Ушинского от уровня тревожности
перед экзаменом прямая, но слабая.

Пример 2
Исследована дневниковая проза М.И. Цветаевой. Авторы исследования собрали
прозаические тексты по годам от 1917 г. до 1933 г. Из текстов взято по 20 предложений (это
считаем за порцию текста). В каждой порции текста авторы искали количество парцеллированных
конструкций, а затем считали среднее количество таких конструкций за год. Для каждого года
творчеста было по возможности взято 50 порций текста, если за год количество порций текста
было меньше 50, то было взято столько порций, сколько было возможно.
Пример сбора данных:
«Дома «обитаемые» и, тем, необитаемые. Дома, столь жившие, или - так сильно жившие,
что просто живут дальше. Как книга, уже не нуждающаяся ни в авторе, ни в читателях.
Источник жизни, хранилище жизни, но уже не игралище ее. Дом, вышедший из игры.
Своды. Норы. Либо упрешься в стену, либо уйдешь навек. Дом не выстроенный, а прорытый.
Не руки рыли. Стою, как на перекрестке. Вправо пойдешь - коня потеряешь. Влево пойдешь...
Дворы старых домов. Не люди мостили, великаны играли. Я камень, ты камень, я больше, ты
еще больше, я глыбу, ты - гору. Нога ничего не узнает, непрестанно обманывается. Я глыбу, ты -
гору. Я - утес, ты – ничего».
Таким образом, в данной порции текста 7 парцеллированных конструкций
Определены признаки Х и У:
X={год написания дневниковой прозы М.И. Цветаевой} и
Y={среднее количество парцеллированных конструкций в текстах данного года}

Собранные данные
I период: Ранняя дневниковая проза
1) 1917 г.
10, 9, 9, 4, 11, 5, 11, 10, 6, 3,
11, 4, 9, 8, 7, 2, 2, 2, 3, 4,
3, 5, 4, 3, 3, 3, 2, 3, 4, 5,
7, 7
Среднее за год: 5,59

2) 1918 г.
5, 5, 8, 5, 4, 6, 3, 3, 2, 3,
7, 6, 7, 3, 4, 10, 3, 5, 2, 3,
1, 3, 6, 6, 10, 2, 3, 9, 1, 5,
4, 2, 4, 5, 3, 2, 7, 2, 3, 2,
4, 8, 5, 4, 8, 5, 5, 4, 1, 6
Среднее за год: 4,44

3) 1919 г.
4, 8, 4, 3, 1, 4, 3, 4, 9, 2,
2, 6, 5, 2, 5, 9, 4, 2, 5, 4,
2, 6, 5, 2, 5, 9, 4, 2, 5, 4,
2, 5, 3, 2, 2, 6, 9, 3, 4, 7,
8, 8, 1, 6, 6, 5, 5, 8, 2, 5,
3, 4, 2, 2, 1, 2, 7, 3, 2, 2
Среднее за год: 4, 22

4) 1920 г.
3, 5, 2, 7, 8, 5, 1, 1, 4, 2,
4, 3, 4, 3, 1
Среднее за год: 3,53

5) 1923 г.
2, 5, 5. 1, 3, 1, 3, 4, 3, 6,
2, 3, 1, 5, 5, 3, 2, 6, 5, 1
Среднее за год: 3,25

II период: поздняя дневниковая проза (1924-1933 гг.)


1) 1925 г.
3, 3, 3, 2, 5, 2, 4, 2, 1 ,2,
1, 4, 3, 1, 3, 1, 5, 4, 3, 4,
4, 3, 2, 3, 4, 2, 2, 2, 4, 3,
2, 3, 3, 3, 2, 1, 2, 2, 2, 3
Среднее за год: 2,76

2) 1926 г.
3, 3, 2, 4, 2, 2, 1, 2, 5, 4,
3, 3, 1, 2, 3, 3, 4, 2, 3, 1,
3, 2, 4, 5, 1, 1, 4, 2, 2, 4,
2, 3, 5, 3, 4, 5, 4, 4, 1, 4,
5, 2, 1, 1, 2, 1, 3, 3
Среднее за год: 2,79

3) 1927 г.
2, 4, 6, 3, 5, 3, 2, 4, 3, 2,
6, 2, 1, 2, 1, 1, 1, 2, 2, 2,
4, 4, 1, 5
Среднее за год: 2,83

4) 1929 г.
6, 4, 2, 3, 4, 4, 4, 4, 3, 1,
3, 2, 1, 1, 1, 2, 0, 2, 3, 4,
5, 1, 3, 3, 5, 2, 6, 2, 1, 3,
1, 1, 1, 2, 4, 4, 2, 3, 6, 3,
4, 5, 1, 4, 4, 3, 4, 2, 2, 1
Среднее за год: 2, 84

5) 1931 г.
3, 2, 2, 4, 1, 2, 3, 1, 3, 2,
2, 1, 3, 2, 2, 4, 2, 2, 2, 2,
4, 5, 1, 1, 2, 4, 4, 2, 2, 1,
1, 5, 5, 4, 2, 1, 2, 1, 2, 1,
1, 1, 0, 3, 2, 1, 1, 4, 1, 2
Среднее за год: 2,22

6) 1932 г.
2, 6, 1, 1, 1, 3, 2, 1, 2, 1,
1, 3, 3, 2, 2, 4, 3, 4, 4, 1,
1, 3, 4, 2, 2, 2, 3, 4, 3, 5,
1, 1, 3, 4, 1, 0, 3, 1, 3, 1,
1, 3, 2, 4, 2, 1, 3, 4, 2, 1
Среднее за год: 2,32

7) 1933 г.
3, 6, 2, 5, 0, 1, 3, 3, 1, 2,
1, 3, 1, 1, 4, 2, 5, 3, 0, 2,
5, 1, 1, 1, 3, 3, 3, 3, 3, 6
Среднее за год: 2, 57

Обработка данных
X = {год написания дневниковой прозы М.И. Цветаевой}
Y = {среднее количество парцеллированных конструкций в текстах данного года}
xi 1917 1918 1919 1920 1923 1925 1926 1927 1929 1931 1932 1933
yi 5,59 4,44 4,22 3,53 3,25 2,76 2,79 2,83 2,84 2,22 2,32 2,57
ai 1 2 3 4 5 6 7 8 9 10 11 12
bi 12 11 10 9 8 4 5 6 7 1 2 3
di -11 -9 -7 -5 -3 2 2 2 2 9 9 9 Сумма
di2 121 81 49 25 9 4 4 4 4 81 81 81 544

Т.к. связных рангов в ранговых рядах А и В нет, то вычислим коэффициент ранговой


корреляции Спирмена по формуле

= = ≈1 – 1,902 = - 0,902.
Показатель - 0,902 < 0 , следовательно, знак минус указывает на обратную статистическую
зависимость: чем больше год, тем меньше наблюдается в текстах количества парцелляции.
Показатель по модулю│- 0,902│= 0,902, по шкале Чеддока указывает на очень сильную
статистическую зависимость между годом написания и количеством парцелляции.

Содержательный вывод
Количество парцеллированных конструкций в дневниковой прозе Марины Ивановны
Цветаевой очень сильно зависит от года написания. Их использование уменьшается от раннего
периода до позднего.