Открыть Электронные книги
Категории
Открыть Аудиокниги
Категории
Открыть Журналы
Категории
Открыть Документы
Категории
О. А. Баюк
УЧЕБНОЕ ПОСОБИЕ
ПО ВЫПОЛНЕНИЮ РАСЧЕТНО-АНАЛИТИЧЕСКОЙ
РАБОТЫ ПО ДИСЦИПЛИНЕ "АНАЛИЗ ДАННЫХ"
Москва 2020
2
УДК 519.22(073)
ББК 22.16я73
М 47
Рецензент:
С.А. Зададаев, кандидат физико-математических наук, доцент Департамента «Анализа
данных, принятия решения и финансовых технологий»
О.А. Баюк
Учебное пособие по выполнению расчетно-аналитической работы по
дисциплине "Анализ данных" (Учебное пособие). Для бакалавров
направления 38.03.05 «Бизнес-информатика». – М.: ФГОБУ ВО
«Финансовый университет при Правительстве Российской Федерации»,
департамент «Анализа данных, принятия решений и финансовых
технологий», 2020 - 63 с.
Учебное издание
Баюк Олег Александрович
УЧЕБНОЕ ПОСОБИЕ ПО ВЫПОЛНЕНИЮ РАСЧЕТНО-
АНАЛИТИЧЕСКОЙ РАБОТЫ ПО ДИСЦИПЛИНЕ "АНАЛИЗ ДАННЫХ"
Учебное пособие
О. А. Баюк, 2020
3
Оглавление
Введение....................................................................................................................................................4
Задание по РАР........................................................................................................................................4
1. Загрузка исходных данных................................................................................................................7
2. Вычисление дополнительных признаков для каждой компании.............................................14
3. Исследование изменения цен и объемов торгов акций..............................................................16
4. Исследование логарифмических доходностей (логдоходностей) акций..................................20
4.1. Исследование до удаления выбросов......................................................................................20
4.2. Удаление выбросов.....................................................................................................................20
5. Детальный анализ логдоходностей для каждой компании........................................................28
(с данными без выбросов)....................................................................................................................28
5.1. Точечные оценки параметров нормального распределения..............................................28
5.3. Проверка гипотезы о нормальности логдоходности................................................................33
5.3.1. Проверка гипотезы по критерию Пирсона (хи-квадрат).................................................33
5.3.2. Проверка гипотезы по критерию Колмогорова-Смирнова.............................................37
5.3.3. Сравнение результатов проверки по двум критериям.....................................................40
5.4. Построение диаграммы, содержащей гистограмму эмпирической плотности и график
теоретической плотности (это желательный, но не обязательный пункт)...............................40
5.5. Построение графиков эмпирической функции распределения и график теоретической
функции распределения.......................................................................................................................41
6. Проверка гипотезы о равенстве нулю математического ожидания недельной
логдоходности при альтернативной гипотезе о том, что оно больше нуля.................................41
7. Проверка гипотезы о равенстве средних значений логарифмической доходности за
последний и предпоследний годы (двусторонний t-тест без каких-либо предположений об
однородности дисперсий).....................................................................................................................47
8. Проверка гипотезы о равенстве дисперсий логарифмической доходности за последний и
предпоследний годы (двусторонний F-тест).....................................................................................52
9. Сравнительный анализ логдоходностей трех компаний............................................................55
10. Графики временных рядов логдоходностей трех компаний....................................................65
11. Исследование тесноты связи между логдоходностями.............................................................68
Заключение.............................................................................................................................................70
Список литературы...............................................................................................................................70
4
Введение
программирования MS Excel.
Задание по РАР
1. Скачать дневные цены закрытия акций в течение 4 лет (2015 г.-2019 г.).
преподаватель):
2015 г.)
Логарифм цены
Логдоходность
описательная статистика
вычислением корреляций
выбросов
описательная статистика
вычислением корреляций
не обязательный пункт).
нормальности логдоходности:
по критерию хи-квадрат
По критерию Колмогорова-Смирнова
значимости (p-value).
дисперсий)
7
одном рисунке
описаны.
https://mfd.ru/export/
8
Excel. При чтении текстового файла в Excel следует указать тип файла «Все
Рисунок 6. Чтение текстового файла в Excel следует указать тип файла «Все
файлы»
11
объемов торгов.
дат.
Пусть si и si−1 – цены актива соответственно для i–й и i-1 –й, то есть
si−s i−1
r i= ,
s i−1
si
l i=ln .
s i−1
l i=ln ( r i+1 ) ,
15
незначительно отличается от 1.
x−x min
t= ,
x max−x min
где
– нечетное число, то
x med =x n ,
2
x (n −1) + x (n +1)
x med = 2 2 .
2
Разность
значений признака X.
принадлежащие отрезку
x 0,50=7.
1, 2, 3, 4, 5, 6, 7, 7,
и найдем их медиану
и найдем их медиану
данного примера
функции МЕДИАНА.
вариационном ряде:
значит
x 0,25−1,5∗IQR=4,5−1,5∗5=−3 ;
x 0,75+ 1,5∗IQR=4,5+1,5∗5=12.
Поскольку все элемент выборки менее −3, то выбросы ниже нормы в данном
15 > 12.
соответствующие даты
24
каждого тиккера.
выбросов.
x 0=q 1−1,5∗IQR ,
x 1=q 3+1,5∗IQR
столбцов С и D.
27
выбросов.
неизвестной дисперсии.
s s
X́ −t α /2 ( n−1 ) ∙ < E( X )< X́ +t α /2 ( n−1 ) ∙ ,
√n √n
где
X́ −¿ выборочное среднее,
n−объем выборки,
n−1степенями свободы.
выборки
( n−1 ) ∙ s 2 ( n−1 ) ∙ s2
( ;
χ 2α ( n−1 ) χ 21−α ( n−1 )
2 2
) ,
то есть
( n−1 ) ∙ s 2 ( n−1 ) ∙ s 2
< D г( X )< 2 ,
χ 2α ( n−1 ) χ 1−α ( n−1 )
2 2
здесь
s2- исправленная выборочная дисперсия (вычисляются по выборке с
α
χ 2α ( n−1 ) , χ 21−α ( n−1 )−соответственно −¿процентная и 1−α −¿процентная точки
2 2
2 2
α
ХИ2.ОБР. При обращении к это функции следует указать значения 2 и n−1
α
Рисунок 34. Пример обращения к функции ХИ2.ОБР ( 2 =0,025 ,
n−1=204 )
( n−1 ) ( n−1 )
(√
s∙ 2
χ α ( n−1 )
2
√
; s∙ 2
χ 1−α ( n−1 )
2
)
то есть
( n−1 ) ( n−1 )
s∙
√ 2
χ α ( n−1 )
2
<σ <s∙ 2
√
χ 1−α ( n−1 )
2
Критерий применим для любых видов функции F(x), даже при неизвестных
Обычно принимают: при n = 100, l = 10 ÷ 15; при n = 200, l = 15 ÷ 20;
при n = 400, l = 25 ÷ 30; при n = 1000, l = 35 ÷ 40.
l 2
2 ( n j−n p j )
χ =∑ ,
j=1 n pj
последний ̶ до +∞.
lim P { χ 2 ≤ t }=P { χ 2l −1 ≤t } ,
n→∞
∀ tϵ R.
степенью свободы.
распределению.
лист;
(например 100000);
функции НОРМ.РАСП;
7. Вычисляем значения
2
( n j−n p j ) ,
n pj
после чего находим сумму всех этих значений, то есть вычисленное значение
статистики критерия χ 2:
отклоняется.
1
F n ( x )= k.
n X∑
k<x
37
H 0 :F n ( x )=F0 ( x ) .
H 1 : ¿ x|F n ( x ) −F 0 ( x )|> 0.
Вероятность Φ n ( λ ) неравенства
Φ ( C ( α ) ) =1−α .
√ n Dn >C ( α )
n
1
s2= ∑ ( x −x́ )2 .
n−1 i=1 i
Введем обозначения, θ0 =( m ,σ 2 ), θ¿ =( x́ , s 2) .
Тогда
F 0 ( x )=F ( x , θ0 )
Таблица 1.
39
нормальном распределении.
доходности равно нулю при альтернативной гипотезе о том, что оно больше
( X́−0 ) √ n
T= ,
S
то есть
X́ √ n
T= .
S
Н1: E ( X ) >0 ,
T ≤ t α ( n−1 )
и отклоняется при
T > t α ( n−1 ).
использованием MS Excel.
примера):
42
X́ √ n
T=
S
используем формулу
критического значения, как при α =0,01, так и при α =0,05 (см. Рисунок ), то в
( X́−a ) √ n
вероятность того, что значение статистики T= окажется более
S
следует отклонить.
Z.ТЕСТ(B2:B206;0).
Рисунки 43 и 44).
различны.
2 2
пy вычисляются исправленные выборочные дисперсии
sX и
sY .
47
1. Н1: E ( X ) ≠ E (Y );
2. Н1: E ( X ) < E ( Y ) ;
3. Н1: E ( X ) > E ( Y ) ;
X́−Ý
T=
s 2x s2y
√ +
nx ny
2 2 2
s 2x s 2y s2 s2
k= ( +
nx n y ) (( )
nx ny ( )
: x / ( nx −1 ) + y / ( n y −1 ) .
)
Критическая область определяется в зависимости от вида Н1 :
1. Н1: E ( X ) ≠ E (Y ): |T |>t α2 ( k );
t α (k )
Значение 2
вычисляется с помощью функции
СТЬЮДЕНТ.ОБР(вероятность; степени_свободы),
где
α
вероятность – 1- 2 ;
степени_свободы - k .
СТЬЮДЕНТ.ТЕСТ(B110:B151; B152:B202;2;3).
Н1: E ( X ) ≠ E (Y ).
заметно отличаются.
2 2 2
s 2x s 2y s 2x s 2y
(
k= +
nx n y
:) (( )
nx
/ ( nx −1 ) + ( )
ny
/ ( n y −1 )
)
50
α =0,05 и α =0,01.
2 2
дисперсии
sX и
sY . Требуется при заданном уровне значимости α
2
Sn
F= 2
1
Sn
2 (6)
При
s2x
≤ Fкр(α; пx -1; пy -1)
s 2y
при
s2x
2 > Fкр(α; пx -1; пy -1)
sy
отвергается.
отклоняется.
«Лукойл», «Магнит»).
α
Вычисленное значение 3,64Е-10 менее 2 как для α =0,05 , так и для
убедится, что
54
0,01/2=0,005<0,0249<0,025=0,05/2,
дисперсий.
факторов на измеряемую величину [3]. Для ответа на этот вопрос может быть
(k= 1,…, m)
nj
1
X́ j= ∑ X ij ,
n j i=1
l l nk
1 1
X́ = ∑ n j X́ j = ∑ ∑ X ik ,
n j=1 n k=1 i=1
l
n=∑ nk .
k=1
1) Общая дисперсия
n
2
SS=D общ=∑ ( X i− X́ ) - сумма квадратов отклонений,
i=1
D общ
2
σ общ= - общая дисперсия.
n−1
2) Межгрупповая дисперсия
m
2
SS1=D факт=∑ n j ( X́ j− X́ ) −сумма квадратов отклонений ,
j=1
3) Внутригрупповая дисперсия
признака.
m nk
2
SS2=D ост=∑ ∑ ( X ik − X́ i ) - сумма квадратов отклонений,
i=1 k=1
межгрупповой:
D общ
2
σ общ= ,
n−1
D факт
2
MS 1=σ факт= ,
m−1
57
Dост
MS 2=σ 2ост= ,
n−1−(m−1)
или
σ 2факт
F= 2 .
σ ост
Если
то гипотеза H 0 принимается.
5) Проверка равенства
6) Проверка равенства
8) Вычисление статистики
σ 2факт
F= 2 .
σ ост
10) Сравнение
года.
(см. Рисунок 50). При этом следует указать значения входных параметров
дисперсионный анализ».
60
В рассматриваемом примере
Кроме того,
62
(см. Рисунок 54). При этом следует указать значения входных параметров:
63
анализ).
64
В этом примере
Кроме того,
(«Магнит»).
представленных зависимостей.
67
процедуру «Корреляция».
2. Вычисляется статистика
r
t= √ n−2 t n−2,
√1−r 2
где
t n−2 - распределение Стьюдента с n−2 степенями свободы.
значение t кр.
отклоняется.
корреляций в MS Excel.
68
вычисляем значение
r
t= √ n−2,
√1−r 2
следующей таблице
логдоходностями).
Заключение
того, следует отметить, что все предложенные задачи могут быть решены
средствами языка R.
Список литературы
образование)