Москва 2022__
1 Описательная статистика
В качестве исходных данных были взяты значения за период с 1995 по 2020 года по
следующим макроэкономическим показателям Республики Молдова (таблица 1):
1) Валовой внутренний продукт, постоянные цены (млрд. $);
2) Совокупные инвестиции, % от ВВП;
3) Совокупный государственный доход, % от ВВП;
4) Валовые национальные сбережения, % от ВВП;
5) Численность населения, млн человек.
2
Первым делом определим наличие значимых и незначимых выбросов.
Выбросы определяются через анализ значений – попадают ли они или нет в пределы
так называемых «внутренних границ» и «внешних границ». Значение, лежащее вне
«внутренних границ», классифицируется как «незначительный выброс», в то время как
значение, находящееся за «внешними границами», классифицируется как «значительный
выброс». Чтобы найти внутренние границы, необходимо умножить межквартильный
диапазон на 1,5; результат нужно прибавить к Q3 и вычесть из Q1. Межквартильный
диапазон рассчитывается как Q3-Q1.
Нахождение внешних границ делается таким же образом, как для внутренних
границ, за исключением того, что межквартильный диапазон умножается на 3, а не на 1,5.
Результат нужно прибавить к Q3 и вычесть из Q1. Два найденных числа являются
внешними границами набора данных.
3
Исключим значения за указанные года, так как они выходят за пределы внешних границ
выборки. Не будем учитывать их в дальнейшем исследовании.
Самый простой графический способ проверки характера распределения данных –
построение гистограммы. Если гистограмма имеет колоколообразный симметричный вид,
можно сделать заключение о том, что анализируемая переменная имеет примерно
нормальное распределение.
Построим гистограмму распределения частот.
По формуле Стерджесса рассчитаем количество интервалов:
k =1+3,32· lg ( n )=1+3,32 ·lg ( 26 )=5,698 , то есть количество интервалов выбираем
равное 6 (n – количество элементов в выборке).
Определим параметры для построения гистограмм.
4
Внутренний валовый продукт Совокупные инвестиции
9 12
8 10
7
8
6
5 6
Частота
Частота
4 4
3
2
2
1 0
0 8 6 4 2 ,9 е
50 35 20 05 30 Ещ
6,891 8,187 9,483 10,77912,075 Еще 2 3, 2 5, 2 7, 2 9,
4 Частота
2 4
0 2
67 33 45 67 33 е 0
6 3 36 6 3 Ещ
66 33 5, 66 83 25 3 4 55 7 85 е
81 29
1 1
43
7
51
0
95 ,3 71 ,0
9
47 Ещ
21 2, 8, 1, 0, 33 5, 38 0,
9, 1 1 2 3 3 4
Численность населения
10
9
8
7
6
Частота
5
4
3
2
1
0
2,77 2,81 2,85 2,89 2,93 Еще
5
Внутренний валовый продукт Совокупные инвестиции
3.5
2
3
1.5 2.5
1 2
1.5
0.5
1
0 0.5
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-0.5 0
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-0.5
-1
-1
-1.5 -1.5
Численность населения
2
1.5
1
0.5
0
-2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5
-0.5
-1
-1.5
-2
-2.5
-3
6
Другим очень часто используемым графическим способом проверки характера
распределения данных является построение графиков квантилей. На таких графиках
изображаются квантили двух распределений – эмпирического и теоретически ожидаемого
стандартного нормального распределения. При нормальном распределении проверяемой
переменной точки на графике квантилей должны выстраиваться в прямую линию,
исходящую под углом 45 градусов из левого нижнего угла графика. Графики квантилей
особенно полезны при работе с небольшими по размеру совокупностями, для которых
невозможно построить гистограммы, принимающие какую-либо выраженную форму.
∑ ¿ x i−x∨¿ ¿ 55,775
i=1
n
∑ ¿ x i−x∨¿
i=1
САО= ¿
n
2,1452
Стандартное отклонение 2,5134
| САО
Sn
−
2
π√| 0,0556
0,4
√n 0,0784
| САО
Sn
−
√|
2 0,4
<
π √n
0,0556 ¿0,0784, следовательно гипотеза о нормальности распределения по критерию
САО может быть принята.
9
Проверка с помощью показателей асимметрии и эксцесса
n
√ n ∙ ∑ ( x i−x)3
i=1
g 1=
√¿¿ ¿¿
n
n ∙ ∑ (x i−x )4
i=1
g2= ¿¿¿
G 1= √
n(n−1)
∙ g1 ;
n−2
n−1
G 2= ∙ ( ( n+1 ) ∙ g 2+ 6 ) ;
( n−2 )( n−3 )
а их среднеквадратические отклонения SG и SG 1 2
SG =
1
√ 6 n (n−1)
(n−2)(n+1)(n+3)
;
√
2
24 ∙ n∙( n−1)
SG = .
2
(n−3)(n−2)(n+3)(n+5)
10
Таблица 5 – Показатели для проверки с помощью показателей асимметрии и эксцесса
Показатель Значение показателя
g1 0,228
g2 -1,272
G1 0,242
G2 -1,283
SG 1
0,456
SG 2
0,905
|0,242|≤ 1,367
и ¿−1,283∨≤ 4,524
11
неудовлетворительный результат – показатель исключался. И третий этап – проверка по
Q-Q графику. Наглядные выводы по гистограммам не учитывались, так как гистограммы
способны правильно преподносить данные, только если количество элементов выборки
превышает 50.
12
2 Изучение взаимосвязи данных
14
Численность населения и Валовые национальные сбережения
3
2.95
2.9
2.85
2.8
2.75
2.7
2.65
2.6
5 10 15 20 25 30
15
Линейная взаимосвязь играет такую же особую роль для двумерных данных, как и
нормальное распределение для одномерных данных. Линейная взаимосвязь проявляется в
двумерной совокупности данных, если точки на диаграмме рассеяния случайным образом
концентрируются вокруг прямой линии.
Взаимосвязь в двумерной совокупности данных полностью отсутствует, если
соответствующая диаграмма рассеяния точек носит совершенно случайный характер.
В двумерной совокупности данных присутствует нелинейная взаимосвязь, если
точки на диаграмме рассеяния группируются вокруг некоторой кривой, а не вокруг
прямой линии. Поскольку разновидностей такого рода кривых может быть чрезвычайно
много, анализ такой взаимосвязи существенно сложнее. Применительно к некоторым
задачам бывает полезно преобразовать одну или обе переменные таким образом, чтобы
получить между ними линейную взаимосвязь.
Таким образом мы можем сделать вывод, что связь между показателями ВВП и
численностью населения – линейная, между численностью населения и другими
показателями – отсутствующая.
Коэффициент корреляции (r), является числом в диапазоне от -1 до 1,
характеризующим силу взаимосвязи в данных. Корреляция, равная 1, указывает на
идеальную взаимосвязь в виде прямой линии, причем более высокие значения одной
переменной соответствуют идеально предсказуемым более высоким значениям другой
переменной. Корреляция -1 указывает на идеальную отрицательную взаимосвязь в виде
прямой линии, причем одна переменная уменьшается с ростом другой.
Обычная интерпретация промежуточных корреляций в диапазоне от -1 до 1
заключается в том, что величина корреляции указывает на «силу» взаимосвязи. А знак
(положительный или отрицательный) указывает направление (увеличение или
уменьшение).
При линейной связи необходимо находить коэффициент корреляции Пирсона, для
остальных типов – коэффициент корреляции Кендалла или Спирмена. Именно поэтому
необходимо на первом этапе строить диаграмму рассеяния и лишь с опорой на нее
находить корреляцию, т. к. зачастую, видя коэффициент корреляции более 0,7 по модулю,
делается вывод о линейной связи (исходя из определения корреляции), однако в
действительности линейная связь отсутствует или выбросы существенно искажают
выводы.
В таблицах 1–4 представлены расчеты коэффициентов корреляции между
численностью населения и другими показателями.
16
Таблица 7 – Расчет коэффициента корреляции Пирсона для показателей «ВВП» и «Численность населения»
Валовой внутренний
Численность населения,
Год продукт, постоянные цены
млрд. человек
(млрд. $)
1995 5,48 2,97 -3,3151538 0,09903846 -0,3283277 10,990245 0,00980862
1996 5,097 2,96 -3,6981538 0,08903846 -0,3292779 13,6763419 0,00792785
1997 5,195 2,95 -3,6001538 0,07903846 -0,2845506 12,9611077 0,00624708
1998 5,792 2,946 -3,0031538 0,07503846 -0,225352 9,01893302 0,00563077
1999 5,595 2,941 -3,2001538 0,07003846 -0,2241339 10,2409846 0,00490539
2000 5,713 2,934 -3,0821538 0,06303846 -0,1942942 9,49967233 0,00397385
2001 6,061 2,928 -2,7341538 0,05703846 -0,1559519 7,47559725 0,00325339
2002 6,534 2,92 -2,2611538 0,04903846 -0,1108835 5,11281672 0,00240477
2003 6,965 2,911 -1,8301538 0,04003846 -0,0732765 3,3494631 0,00160308
2004 7,481 2,906 -1,3141538 0,03503846 -0,0460459 1,72700033 0,00122769
2005 8,042 2,897 -0,7531538 0,02603846 -0,019611 0,56724072 0,000678
2006 8,428 2,89 -0,3671538 0,01903846 -0,00699 0,13480195 0,00036246
2007 8,681 2,883 -0,1141538 0,01203846 -0,0013742 0,0130311 0,00014492
2008 9,358 2,879 0,56284615 0,00803846 0,00452442 0,31679579 6,4617E-05
2009 8,796 2,876 0,00084615 0,00503846 4,2633E-06 7,1598E-07 2,5386E-05
2010 9,421 2,873 0,62584615 0,00203846 0,00127576 0,39168341 4,1553E-06
2011 9,969 2,873 1,17384615 0,00203846 0,00239284 1,37791479 4,1553E-06
2012 9,91 2,873 1,11484615 0,00203846 0,00227257 1,24288195 4,1553E-06
2013 10,807 2,871 2,01184615 3,8462E-05 7,7379E-05 4,04752495 1,4793E-09
2014 11,347 2,869 2,55184615 -0,0019615 -0,0050055 6,51191879 3,8476E-06
2015 11,308 2,845 2,51284615 -0,0259615 -0,0652374 6,31439579 0,000674
2016 11,807 2,824 3,01184615 -0,0469615 -0,1414409 9,07121725 0,00220539
2017 12,362 2,78 3,56684615 -0,0909615 -0,3244458 12,7223915 0,008274
2018 12,893 2,73 4,09784615 -0,1409615 -0,5776387 16,7923431 0,01987016
Таблица 8 – Расчет коэффициента корреляции Спирмена между показателями «Численности населения» и «Совокупные инвестиции»
17
Совокупные инвестиции, % Численность населения,
Год
от ВВП млрд человек
СУММА 2161
Таблица 9 – Расчет коэффициента корреляции Спирмена между показателями «Численности населения» и «Совокупный гос. доход»
18
Инфляция,
Совокупный
потребительские цены на
Год государственный доход, %
конец периода, процентное
от ВВП
изменение
1995 39,442 2,97 21 24 -3 9
1996 35,872 2,96 16 23 -7 49
1997 38,48 2,95 18 22 -4 16
1998 37,572 2,946 17 21 -4 16
1999 30,379 2,941 7 20 -13 169
2000 30,479 2,934 8 19 -11 121
2001 29,163 2,928 2 18 -16 256
2002 29,56 2,92 3 17 -14 196
2003 33,974 2,911 14 16 -2 4
2004 35,401 2,906 15 15 0 0
2005 38,56 2,897 19 14 5 25
2006 39,878 2,89 22 13 9 81
2007 42,86 2,883 24 12 12 144
2008 40,628 2,879 23 11 12 144
2009 38,917 2,876 20 10 10 100
2010 31,918 2,873 13 7 6 36
2011 30,513 2,873 9 7 2 4
2012 31,737 2,873 11 7 4 16
2013 30,877 2,871 10 6 4 16
2014 31,807 2,869 12 5 7 49
2015 29,962 2,845 5 4 1 1
2016 28,571 2,824 1 3 -2 4
2017 29,841 2,78 4 2 2 4
2018 30,126 2,73 6 1 5 25
СУММА 1485
19
Таблица 10 – Расчет коэффициента корреляции Спирмена между показателями «Численность населения» и «Валовые нац. сбережения»
Инфляция,
Валовые национальные потребительские цены на
Год
сбережения, % от ВВП; конец периода, процентное
изменение
1995 19,006 2,97 15 24 -9 81
1996 12,922 2,96 3 23 -20 400
1997 9,556 2,95 2 22 -20 400
1998 6,145 2,946 1 21 -20 400
1999 17,09 2,941 11 20 -9 81
2000 17,99 2,934 13 19 -6 36
2001 21,474 2,928 20 18 2 4
2002 20,469 2,92 18 17 1 1
2003 16,607 2,911 7 16 -9 81
2004 24,584 2,906 24 15 9 81
2005 23,269 2,897 23 14 9 81
2006 21,411 2,89 19 13 6 36
2007 22,858 2,883 21 12 9 81
2008 23,116 2,879 22 11 11 121
2009 14,219 2,876 5 10 -5 25
2010 16,7 2,873 8 7 1 1
2011 13,927 2,873 4 7 -3 9
2012 16,807 2,873 9 7 2 4
2013 19,775 2,871 16 6 10 100
2014 20,243 2,869 17 5 12 144
2015 17,604 2,845 12 4 8 64
2016 18,409 2,824 14 3 11 121
2017 17,034 2,78 10 2 8 64
2018 15,037 2,73 6 1 5 25
СУММА 2441
20
Расчет коэффициента корреляции Пирсона для показателей ВВП и численность
населения
√∑ √ 140,86177 ∙0,071739
n n
( xi −x)2 ∙ ∑ ( y i− y )2
i=1 i=1
n
6 ∙ ∑ di
2
i=1 6 ∙ 2161
ρ=1− 3
=1− =0 , 06 0
n −n 24 3−24
n
6 ∙ ∑ di2
i=1 6 ∙ 1485
ρ=1− 3
=1− =0,354
n −n 24 3−24
21
n
6 ∙ ∑ di2
i=1 6 ∙ 2 441 3 Множественный регрессионный
ρ=1− 3
=1− 3
=−0,061
n −n 24 −24
анализ
22
государственный доход". Корреляционная матрица с учетом преобразований представлена
в таблице 2.
Совокупные инвестиции, %
государственный доход, %
продукт, постоянные цены
Численность населения,
сбережения, % от ВВП;
Валовые национальные
Валовой внутренний
млрд человек
Совокупный
(млрд. $)
от ВВП
от ВВП
Валовой внутренний
продукт, постоянные цены
(млрд. $) 1
Совокупные инвестиции,
% от ВВП 0,049 1
Валовые национальные
сбережения, % от ВВП; 0,182 0,463 1
Совокупный
государственный доход, %
от ВВП -0,347 0,704 0,061 1
Численность населения,
млрд человек -0,932 -0,012 -0,109 0,366 1
Численность населения,
сбережения, % от ВВП;
Валовые национальные
Валовой внутренний
млрд человек
Совокупный
(млрд. $)
от ВВП
Валовой внутренний
продукт, постоянные цены
(млрд. $) 1
Валовые национальные 0,182 1
23
сбережения, % от ВВП;
Совокупный
государственный доход, %
от ВВП -0,347 0,061 1
Численность населения,
млрд человек -0,932 -0,109 0,366 1
Y =3.0665−0.021∙ X
где Y – Численность населения, млрд человек;
Х – Валовой внутренний продукт, текущие цены (млрд. $);
25
Регрессионная статистика
Множественный R 0,934086065
R-квадрат 0,872516776
Нормированный R-
квадрат 0,853394293
Стандартная ошибка 0,021384005
Наблюдения 24
Дисперсионный анализ
df SS MS F Значимость F
Регрессия 3 0,062593445 0,020864482 45,6278 3,9445E-09
Остаток 20 0,009145514 0,000457276
Итого 23 0,071738958
Стандартная P-
Коэффициенты ошибка t-статистика Значение
Y-пересечение 3,035549103 0,046074006 65,88420177 7,27E-25
Валовой внутренний
продукт, текущие цены -
(млрд. $) -0,020932451 0,001967795 10,63751601 1,11E-09
Валовые национальные
сбережения, % от ВВП; 0,000723131 0,001042707 0,693513543 0,495964
Совокупный
государственный доход,
% от ВВП 0,000511627 0,001081341 0,473140989 0,641236
Рисунок 4 – Выводы регрессионного анализа
26
Регрессионная статистика
Множественный R 0,931326953
R-квадрат 0,867369893
Нормированный R-
квадрат 0,861341252
Стандартная ошибка 0,020796356
Наблюдения 24
Дисперсионный
анализ
Значимость
df SS MS F F
0,06222421 143,874857
Регрессия 1 0,062224213 3 2 4,01E-11
0,00043248
Остаток 22 0,009514746 8
Итого 23 0,071738958
Стандартная t-
Коэффициенты ошибка статистика P-Значение
Валовой внутренний -
продукт, текущие 11,9947845
цены (млрд. $) -0,021017601 0,001752228 8 4,00893E-11
27
4 Анализ временных рядов
Валовой
внутренний Отношение к С поправкой на
Сглаженный Сезонный
Год продукт, скользящему циклические
ряд индекс
постоянные среднему колебания
цены (млрд. $)
1 2 3 4 5 6
1995 5,48 0,9952 5,506430868
1996 5,097 0,9947 5,124158038
1997 5,195 5,405 0,961 0,9877 5,259694239
1998 5,792 5,497 1,054 1,0159 5,701348558
1999 5,595 5,682 0,985 0,9952 5,621985531
2000 5,713 5,883 0,971 0,9947 5,743440233
2001 6,061 6,147 0,986 0,9877 6,136478688
2002 6,534 6,539 0,999 1,0159 6,431735407
2003 6,965 7,008 0,994 0,9952 6,998593248
2004 7,481 7,492 0,998 0,9947 7,520860561
2005 8,042 7,943 1,012 0,9877 8,142148426
2006 8,428 8,393 1,004 1,0159 8,296092135
29
Продолжение таблицы 13
1 2 3 4 5 6
2007 8,681 8,722 0,995 0,9952 8,722869775
2008 9,358 8,940 1,047 0,9947 9,407861667
2009 8,796 9,225 0,954 0,9877 8,905538119
2010 9,421 9,455 0,996 1,0159 9,273550546
2011 9,969 9,775 1,020 0,9952 10,01708199
2012 9,91 10,268 0,965 0,9947 9,962802855
2013 10,807 10,676 1,012 0,9877 10,94158145
2014 11,347 11,080 1,024 1,0159 11,16940644
2015 11,308 11,511 0,982 0,9952 11,36254019
2016 11,807 11,899 0,992 0,9947 11,86991053
2017 12,362 12,350 1,001 0,9877 12,51594614
2018 12,893 12,665 1,018 1,0159 12,69120976
2019 13,371 0,9952 13,43549035
2020 12,261 0,9947 12,32632955
30
Продолжение таблицы 15
1 2
14 8,9826
15 9,3262
16 9,6698
17 10,0134
18 10,357
19 10,7006
20 11,0442
21 11,3878
22 11,7314
23 12,075
24 12,4186
25 12,7622
26 13,1058
27 (2021 год) 13,4494
28 (2022 год) 13,793
29 (2023 год) 14,1366
14
10
0
95 96 97 98 99 00 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20
19 19 19 19 19 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
Для того чтобы спрогнозировать значения на 2022 и 2023 года необходимо учесть
сезонность в долгосрочном тренде, вернув ему ожидаемую сезонную вариацию. Для этого
умножим значение тренда на значение сезонного индекса для того периода времени,
31
который прогнозируется. Этот процесс является обратным по отношению к внесению
поправки на сезонные колебания. Результирующий прогноз включает долгосрочный тренд
и сезонную вариацию.
Таким образом прогнозное значение на 2022 год составит 13,793 ∙ 1,0159 = 14,012
млрд. $, а в 2023 году 14,1366 ∙ 0,9952 = 14,069 млрд. $.
Оценим устойчивость тенденции с помощью коэффициента корреляции рангов
Спирмена.
32
Коэффициент Спирмена определяется по формуле
n
6 ∙ ∑ di2
i=1
ρ=1− 3
,
n −n
где n – количество данных по каждому показателю.
n
6 ∙ ∑ di
2
i=1 6 ∙30
ρ=1− 3
=1− 3
=0,990
n −n 26 −26
14
10
0
95 9 7 99 0 1 03 0 5 07 0 9 11 1 3 15 17 1 9
19 19 19 20 20 20 20 20 20 20 20 20 20
33
Таблица 17 – Расчет коэффициента колеблемости показателя «Валовой внутренний
продукт, постоянные цены (млрд. $)»
Валовой y i−~
yi
внутренний ( y i −~
yi )2
Теоретические
Временные продукт,
значения Поворотные точки
периоды постоянные
уровней
цены (млрд.
$)
1 5,48 4,4792 1,0008 - 1,0016
2 5,097 4,8254 0,2716 - 0,0737
3 5,195 5,1716 0,0234 + 0,0005
4 5,792 5,5178 0,2742 + 0,0751
5 5,595 5,864 -0,269 - 0,0723
6 5,713 6,2102 -0,4972 + 0,2472
7 6,061 6,5564 -0,4954 - 0,2454
8 6,534 6,9026 -0,3686 - 0,1350
9 6,965 7,2488 -0,2838 - 0,0805
10 7,481 7,595 -0,114 - 0,0130
11 8,042 7,9412 0,1008 - 0,0102
12 8,428 8,2874 0,1406 + 0,0198
13 8,681 8,6336 0,0474 + 0,0023
14 9,358 8,9798 0,3782 + 0,1430
15 8,796 9,326 -0,53 + 0,2809
16 9,421 9,6722 -0,2512 - 0,0631
17 9,969 10,0184 -0,0494 + 0,0024
18 9,91 10,3646 -0,4546 + 0,2067
19 10,807 10,7108 0,0962 - 0,0093
20 11,347 11,057 0,29 + 0,0841
21 11,308 11,4032 -0,0952 + 0,0091
22 11,807 11,7494 0,0576 - 0,0033
23 12,362 12,0956 0,2664 - 0,0710
24 12,893 12,4418 0,4512 - 0,2036
25 13,371 12,788 0,583 + 0,3400
26 12,261 13,1342 -0,8732 - 0,7625
Сумма 12 4,1565
34
Таблица 18 – Типы колеблемости
Расчет числа поворотных точек,
Характеристика типа колеблемости
соответствующих данному типу колеблемости
Пилообразная n-2 = 26-2 = 24
Циклическая 2∙n/l = 2∙26/4 = 13
Случайно распределенная 2/3∙(n-2) = 2/3∙(26-2) = 16
(где n-число уровней ряда и l - длина цикла)
√
n
∑ ( y i−~y i )2
s (t)= i=1
n− p
=
√ 4,1565
26−2
=0 , 416
s (t) 0,416
ν= = =0,0473или 4,73%
y 8 ,795
35