Вы находитесь на странице: 1из 7

Урок 28; 11 класс; Практическая работа №18 «Расчёт корреляционных зависимостей» (03.04.

2020)
Тип урока: практическая работа в MS Excel.
Цели: Получение представления о корреляционной зависимости величин; Освоение способа вычисления
коэффициента корреляции с помощью функции КОРРЕЛ; Формирование навыка по работе в MS Excel; Развитие
системного мышления, позволяющего выделять в окружающей действительности системы, элементы систем,
адекватные поставленной задаче; Формирование профессиональных навыков работы.
Оборудование: ПК; программное обеспечение - MS Excel; LibreOffice Calc.
Ход урока:
I. Актуализация знаний через повторение. Обнаружение взаимосвязей между явлениями – одна из главных задач
статистического анализа. На то есть две причины. Первая. Если известно, что один процесс зависит от другого, то на
первый можно оказывать влияние через второй. Вторая. Даже если причинно-следственная связь отсутствует, то по
изменению одного показателя можно предсказать изменение другого.
Таким образом, взаимосвязь двух переменных
проявляется в совместной вариации: при изменении одного
показателя имеет место тенденция изменения другого. Такая
взаимосвязь называется корреляцией, а раздел статистики,
который занимается взаимосвязями – корреляционный анализ.
Корреляция – это, простыми словами,
взаимосвязанное изменение показателей. Она характеризуется
направлением, формой и теснотой. На рисунке представлены
примеры корреляционной связи →.
КОРРЕЛЯЦИЯ (correlation) – показывает, в какой
степени две переменные СОВМЕСТНО ИЗМЕНЯЮТСЯ.
Нет зависимой и независимой переменных, они
эквивалентны. Простая линейная регрессия: одна зависимая
РЕГРЕССИЯ (regression) – предсказание одной переменная и одна независимая. Множественная
переменной на основании другой. Одна переменная – регрессия: исследуется влияние НЕСКОЛЬКИХ
независимая, другая – зависимая. независимых переменных на ОДНУ зависимую.
Линейный коэффициент корреляции r-Пирсона
Коэффициент корреляции Пирсона (r-Пирсона) применяется для исследования взаимосвязи двух переменных,
измеренных в метрических шкалах на одной и той же выборке. Он позволяет определить, насколько
пропорциональная изменчивость двух переменных.
Данный коэффициент разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века.
Коэффициент корреляции изменяется в пределах от минус единицы до плюс единицы.
Коэффициент корреляции r-Пирсона характеризует существование линейной связи между двумя величинами.
Если связь криволинейная то он не будет работать.
Чтобы приступать к расчетам коэффициента корреляции r-Пирсона необходимо выполнение следующих
условий:
 Исследуемые переменные X и Y должны быть распределены нормально (что это значит - переменные должны
образовывать двумерное нормальное распределение, когда большинство объектов группируются вокруг среднего).
 Исследуемые переменные X и Y должны быть измерены в интервальной шкале или шкале отношений.
 Количество значений в исследуемых переменных X и Y должно быть одинаковым.
При расчете коэффициент линейной
корреляции Пирсона используется специальная
формула (на уроке не рассматривается). Величина
коэффициента корреляции варьируется от 0 до 1.
ρ = 0,1 - слабая корреляция;
ρ = 0,3 – корреляция средней силы;
ρ = 0,5 - сильная корреляция.
Слабыми сторонами линейного
коэффициента корреляции Пирсона являются:
Неустойчивость к выбросам.
С помощью коэффициента корреляции Пирсона
можно определить только силу линейной
взаимосвязи между переменными, другие виды
взаимосвязей выявляются методами
регрессионного анализа.
Две характеристики: – наклон
(направление связи) и ширина (сила связи)
воображаемого эллипса. Слабее связь – шире
эллипс. Примеры ↓→
На Практической работе № 17 вами были выполнены расчеты корреляционных зависимостей. Работа
выполнялась с использованием электронных таблиц LibreOffice Calc. Вспомните порядок выполнения практической
работы и те выводы, которые, которые были сделаны Вами (далее в таблице приводится практическая работа № 17)!
Задание 1 № п/п Затраты (руб./чел.) Успеваемость (средний балл)
Выполнить расчеты корреляционной зависимости 1 50 3,81
успеваемости учащихся от хозяйственных 2 345 4,13
расходов школы, описанные в § 19 учебника. 3 79 4,30
1. Заполнить электронную таблицу следующими 4 100 3,96
данными: 5 203 3,87
2. Построить точечную диаграмму зависимости 6 420 4,33
величин (ее вид показан в учебнике на рис. 6.7). 7 210 4
3. Выполнить статистическую функцию 8 137 4,21
КОРРЕЛ, указав в диалоговом окне диапазоны 9 463 4,4
значений: В2:В21 и С2:С21.
10 231 3,99
4. Выписать значение коэффициента корреляции.
11 134 3,9
Синтаксис статистической функции:
12 100 4,07
=КОРРЕЛ(массив1;массив2)
В нелокализованной версии 18 294 4,15
=CORREL(array1; array2) 14 396 4,1
Выводы: Эта величина говорит о среднем уровне 15 77 3,76
корреляции. Наличие зависимости между 16 480 4,25
хозяйственными затратами школы и 17 450 3,88
успеваемостью нетрудно понять. Ученики с 18 496 4,50
удовольствием ходят в чистую, красивую, уютную 19 102 4,12
школу, чувствуют там себя, как дома, и поэтому 20 150 4,32
лучше учатся. Результат р = 0,500273843
Задание 2
Выполнить расчеты корреляционных зависимостей успеваемости учащихся от обеспеченности учебниками и от
обеспеченности компьютерами, представленными в следующей таблице: Обеспечение учебного процесса
Номер Обеспеченность Успеваемость Обеспеченность Успеваемость (средний
школы учебниками (%) (средний балл) компьютерами (%) балл)
1 50 3,81 10 3,98
2 78 4,15 25 4,01
3 94 4,69 19 4,34
4 65 4,37 78 4,41
5 99 4,53 45 3,94
6 87 4,23 32 3,62
7 100 4,73 90 4,6
8 63 3,69 21 4,24
9 79 4,08 34 4,36
10 94 4,2 45 3,99
11 93 4,32 67 4,5
0,780931 0,572465
Полученные значения коэффициентов корреляции сопоставить с приведенными в § 19 учебника
(Результат ρ = 0,500273843 ρ =0,780931,0,572465)
Выводы: Как видно из таблицы, корреляция между обеспеченностью учебниками к успеваемостью сильнее, чем
корреляция между компьютерным обеспечением и успеваемостью (хотя и тот, и другой коэффициенты корреляции не
очень большие). Отсюда можно сделать вывод, что пока еще книга остается более значительным источником знаний,
чем компьютер.

II. Выполнение практической работы № 18 Данная работа выполняется по рекомендациям, изложенным в учебнике
по информатике 11 класс на стр. 215 – 216, задание:
Придумать таблицу парных измерений значений некоторых величин, между которыми существует
гипотетическая корреляционная зависимость. Провести анализ этой зависимости на наличие линейной корреляции.
Примерами соответствующих связанных величин могут служить:
• уровень образования (измеренный, например, в годах обучения в целом) и уровень месячного дохода;
• уровень образования и уровень занимаемой должности (для последней придумайте условную шкалу) ;
• количество компьютеров в школе , приходящихся на одного учащегося , и средняя оценка при тестировании на
уровень владения стандартными технологиями обработки информации;
Практикум
• количество часов, затрачиваемых старшеклассниками на выполнение домашних заданий, и средняя оценка;
• количество удобрений, вносимых в почву, и урожайность той или иной сельскохозяйственной культуры .
При этом вы можете идти двумя путями.
Первый, более серьезный и практически полезный: вы не просто придумываете гипотетическую
корреляционную зависимость, но и находите в литературе действительные данные о ней.
Второй путь, более легкий: вы рассматриваете это как игру, необходимую для понимания того, что такое
корреляционная зависимость, и выработки технических навыков ее анализа, и придумываете соответствующие
данные, стараясь делать это наиболее правдоподобным образом.
Воспользовавшись рекомендациями, целесообразно обратиться к источникам в открытом доступе, в
частности в сети Интернет. Для выполнения задания, как вариант выполнения задания, были загружены научные
работы (см. вложение). Для примера ниже представлены решения нескольких задач в MS Excel.
Пример № 1. О сусликах (данный материал может Кличка Длина хвоста, Масса тела
быть использован при выполнении ПР. № 18): суслика мм суслика, г
Условие задачи: Дима 72 160
Необходимо проанализировать взаимосвязь между Гриша 66 144
двумя переменными – X и Y. Мы исследуем сусликов. И Миша 68 154
хотим узнать, как связаны у них масса тела и длина Коля 74 210
хвоста? Переменные – 1. масса тела; 2. длина хвоста. Федя 68 182
Рома 64 159

Решение: В чём смысл корреляции: мы хотим понять, в какой степени две переменные СОВМЕСТНО
ИЗМЕНЯЮТСЯ: если суслик очень тяжёлый, значит ли это, что и хвост у него длинный? А может, наоборот,
короткий? Корреляции Если значения одной переменной растут, другой – тоже растут? Уменьшаются? Не
изменяются? Внутри каждой переменной есть изменчивость – большие и маленькие отклонения от среднего. И надо
бы, чтоб коэффициент не зависел от размерности переменных.

Пример № 2. Сравнительная оценка факторов посредством анализа парных коэффициентов корреляции


(использованы материалы статьи Н. Б. Громовой «Прогноз объема перевозок грузов по совокупным итогам 2013 и
2014 годов на основе синергетической теории управления»).
Дано:

Необходимо: Выполнить сравнительную оценку факторов посредством анализа парных коэффициентов корреляции, после чего
оценить их значимость. Итоговым показателе Y принят объем перевозок, влияющими факторами приняты Х1, Х2, Х3, Х4, Х5, Х6.
Решение: Коэффициенты парной корреляции позволяют установить наличие и характер зависимости между заданными
факторами, а также оценить, насколько верно выбранные факторы отражают. Для этого составим матрицу парных коэффициентов
корреляции, измеряющих тесноту связи каждого признака Xn с результирующим показателем Y.
Используется статистическая функция =К ОРРЕЛ(B3:B15;H3:H15)
Индекс
Объем Индекс Средняя Средняя Рентабе Производитель
производства
перевозок промышленног дальность коммерческая льность ность
№ продукции
грузов - о производства, перевозок грузов скорость перевоз подвижного
сельского
всего, млн т % и пассажиров, км товародвижения, км ок состава, км/сут
хозяйства, %
y x1 x2 x3 x4 x5 x6
1 10217,6 106,2 108,7 1 153,55 395 14,2 170
2 10502,4 106,9 102,9 1 173,21 395 13,9 175
3 10721,3 100,9 103,1 1 179,36 395,2 15 195
4 10964 99,9 108,9 1 184,80 396,1 14,2 194
5 11299 102,4 108 1 163,03 396 14,9 199
6 11606,1 101,6 105,1 1 111,46 393 15,1 211
7 11821,3 103 106,3 1 124,54 396,2 17,1 224
8 12068,8 103,3 106,8 1 098,32 397 17,2 232
9 12001,5 110,8 100,6 1 083,07 397,5 18 235
10 12302,9 101,4 89,3 1 082,59 387,3 18,6 236
11 12544,3 88,7 107,3 1 101,10 398,5 19,2 240
12 11534,8 123 105 1 125,00 399,1 22,45 247
13 11790,5 95,2 103,4 1 123,80 399,1 24,22 253
-0,2688 -0,3500 -0,8524 0,0197 0,5943 0,8755
Наибольшее прямое влияние на объем перевозок имеет производительность подвижного состава (0,8755), наиболее сильное
обратное влияние имеет средняя дальность перевозок (-0,8524). Остальные коэффициенты корреляции находятся на уровне средней
корреляции. Коэффициент корреляции для Х5 (рентабельность перевозок 0,5943) целесообразно и можно исключить из
исследования, т.к. является показатель Х5 сам является производным от прибыли и себестоимости.
Пример № 3. Формирование корреляционной матрицы показателей сельскохозяйственного производства
Приморского края (для данной задачи использована статья Е. М. Дроздовой, старшего преподавателя,
кафедра управления персоналом и экономики труда, Дальневосточный федеральный университет, г. Владивосток)
«Корреляционно-регрессионный анализ показателей сельскохозяйственного производства Приморского края».
Дано:
Значение показателей сельскохозяйственной отрасли для корреляционно-регрессионного анализа (2005-2011 гг.)
Результирую Факторный показатель
щий Труд Земля Капитал
Отчетный период

показатель Экстенсивный Интенсивный Экстенсивный Интенсивный Экстенсивный Интенсивный


Млн.руб. Млн.руб. Млн.руб./
Млн.руб. Тыс. чел. Тыс. га Млн.руб.
/Тыс.чел. /Тыс.га Млн.руб.
Объем Посевная
Объем
производства Количество Производитель площадь, во
используемых
в занятых в ность труда всех Урожайность Фондоотдача
основных
сопоставимы отрасли (выработка) категориях
фондов
х ценах хозяйств
2005 10763,90 81,10 132,72 360,80 29,83 22402,00 0,48
2006 13603,70 78,40 173,52 350,20 38,85 22195,00 0,61
2007 12132,20 77,40 156,75 313,30 38,72 26595,00 0,46
2008 15624,00 76,20 205,04 308,30 50,68 26980,00 0,58
2009 19755,50 76,20 259,26 348,30 56,72 31720,00 0,62
2010 21256,70 78,30 271,48 314,00 67,70 33182,00 0,64
2011 28079,80 76,80 365,62 340,80 82,39 37380,00 0,75
Решение: Для формирования корреляционной матрицы необходимо использовать надстройку MS Excel «Пакет
анализа». Если на вкладке «Данные» отсутствует «Анализ данных», необходимо через «Параметры Excel»
подключить надстройку «Пакет анализа» (см. шаги 1, 2, 3). Далее выполнить шаг 4 (выбрать «Корреляция»), шаг 5
(выбрать диапазон анализируемых данных). Шаг 6 – получение корреляционной матрицы, формирование выводов.

Шаг 1 Шаг 2
Шаг 3

Шаг 4

Шаг 5

Шаг 6 - Получение результата


Шаг 7 – Сделать выводы:

Как видно из данных матрицы, существует достаточно высокая и положительная (прямая) связь показателей
производительности труда (0,999), урожайности (0,986),
объема используемых основных фондов (0,949) и фондоотдачи (0,916) с показателем объема производства в
сопоставимых ценах.
Учитывая, что анализ производился по статистическим данным сельскохозяйственной отрасли, можно отметить
справедливость выявленных взаимосвязей.
Между тем, показатели количества занятых (-0,504) и посевной площади (-0,071) находятся в обратной и умеренной
или слабой зависимости с объемом производства
в сопоставимых ценах, что позволяет принять решение об исключении указанных факторов в дальнейшем анализе.
Также стоит указать на обнаруженную высокую тесноту связи между показателями урожайности (0,986), объема
используемых основных фондов (0,951), фондоотдачи
(0,914) и показателем производительности труда.

III. Домашнее задание -


1) используя § 19 учебника, конспект урока и любые источники, выполнить два примера ПР № 18, согласно
условия (см. синий шрифт).
2) до 09.04.2020 на эл. адрес tihomirov63@mail.ru прислать не менее двух примеров ПР № 18 в формате
файлов MS Excel или LibreOffice Calc (рассчитать значения коэффициентов корреляции, сделать выводы).

IV. Дополнительный материалы:


https://youtu.be/wGTIjN4KeJs

https://youtu.be/xIxFFsQ9Jlo

https://youtu.be/Z6_aRLb8RQk

https://youtu.be/a_qpWdy-Gxo

https://youtu.be/HfNtbxYVBE0

https://youtu.be/2e6EStpZwIU
Дополнение – особенности формирование корреляционной матрицы в LibreOffice Calc
Шаг 1 и Шаг 2 не выполняются

Шаг 5

Шаги 3 – 4

Шаг 6